Robots.txt
- Поисковые механизмы Google 1 -
- Поисковые механизмы Google 2 -
Привет!
Никак не пойму, где должен лежать файл robots.txt, то ли в самом корне, то ли в папке /htdocs/? Если кладу в корень то проверка файла robots.txt на Яндексе говорит что его нет, значит должен лежать в /htdocs/, тогда вопрос откуда задавать путь из корня или из /htdocs/? Т.е. если мне нужно закрыть папку /htdocs/temp/, какой путь в robots.txt нужно указать /htdocs/temp/ или просто /temp/, т.к. файл robots.txt лежит в /htdocs/??
В общем совсем запутался, прошу помощи!!!
DVDMaster Класть robots.txt нужно в корень веб сайта. В тжоем случае в /htdocs . Пути в robots.txt прописывать относительно тогоже корня. Чтоб закрыть папку /htdocs/temp/ пиши Disallow: /temp/ Дополнительная информация в гугле robots.txt DVDMaster Если кладу в корень то проверка файла robots.txt на Яндексе говорит что его нет, http://www.yandex.ru/info/webmaster2.html#robots 8AleX8 Спасибо! Я так и думал просто хотел удостовериться. Спасибо всем!
Господа, недавно тоже возникло несколько вопросов по работе с этим файлом. Воспользуюсь случаем и спрошу. С точки зрения промоутера, как должен выглядить этот файл? Может кто-нибудь кинет листинг?Закрыть от ботов то, что не надо индексировать (например папку с img'ами) и если есть форум. если есть форум Почему форум? Ко мне до 100 чел заходят по запросам с форума.Имхо пусть лучше везде на форум напарываются
Представьте если на руборде так сделать - тут же всевозможные ключевые слова есть... только так лезть будут
Имхо пусть лучше везде на форум напарываются А почему бы и нет?Чем меньше на сайте страниц - тем он быстрее индексируется. С точки зрения оптимизатора это намного важнее, чем случайные пользователи. Artemyev_Maksim Чем меньше на сайте страниц - тем он быстрее индексируется. И тем по меньшему количеству слов в поисковиках ищется
Чем меньше на сайте страниц - тем он быстрее индексируется Artemyev_Maksim Как ты думаешь, какое количество страниц оптимально? И тем по меньшему количеству слов в поисковиках ищется
Но ведь это и не важно, если набор ключевых фраз определён и поисковики по этим запросам выводят твой сайт в первой тройке. Иногда бывает достаточно нескольких запросов, чтобы извлечь из поискового трафика прибыль.недавно меня взволновал один вопрос - можно ли закрыть ентот файл от просмотра снаружи?, то есть чтобы никто кроме роботов его не прочитал. Пример - есть секретные директории, в файле я запретил их индексировать, роботы не заходят, но любой желающий может прочесть роботс.тхт и узнать что такие диры есть и может быть возымеет желание взломать их, вдруг там чего есть интересного?. Вот такой вот вопрос. GOODmen Есть два способа. Первый - определять по User Agent, но его можно без труда подделать. Другой способ - составь диапазон ip-адресов наиболее популярных поисковиков, и при обращении к robots.txt проверяй, принадлежит ли ip клиента к списку разрешенных. Ну а самый простой выход конкретно из твоей ситуации - убери из файла строки с запрещенными директориями. Сам подумай, если на них нигде нет ссылок, то и пауки не узнают об их существовании.Вопрос по сабжу. Сайт на php. Урлы к страницам типа index.php?k=mypage Как запретить в robots.txt индексацию этих страниц? Типа так чтоли?: User-Agent: * Disallow: index.php?k=mypage Здравый смысл подсказывает, что ничего не получится... Еще один вопросик. Как я понимаю, пауки лазят только по ссылкам. Тогда зачем запрещать индексацию, например, папки /pic/ с img-ами ? Или, например, папку /admin/ ? lex377 User-Agent: * Disallow: index.php?k=mypage Да
Здравый смысл подсказывает, что ничего не получится... Получится. Если ты запрещаешь Disallow: index.php то запретится все, что начинается с index.php то есть и index.php?k=mypage и index.php?k=mypage&fignya=fignia_i_est тоже. пауки лазят только по ссылкам. Верно. Тогда зачем запрещать индексацию, например, папки /pic/ с img-ами ? Просто, чтобы снизить нагрузку на сервер, чтобы они не лазали туда и чтобы потом картинки с сайта в Гугле в поиске картинок не появлялись -- опять нагрузка на сайт, когда юзеры по ссылкам пойдут на картинки. Или, например, папку /admin/ ? Снизить нагрузку на сервер. Ну, и на робота, если в папке admin/ 1000 файлов (при условии, что на них есть где-то ссылки) и на все нужен авториз, то робот будет делать 1000 запросов и получать 1000 страниц вида: "Нужна авторизация, регись иди". И самое интересное, что эти страницы он проиндексит
И потом выдавать будет
Правда.Имхо, если нужно, из папки admin лучше сделать самодостаточный поддомен без внешних ссылок, что обсуждалось ранее Снизить нагрузку на сервер. Ну, и на робота, если в папке admin/ 1000 файлов (при условии, что на них есть где-то ссылки) и на все нужен авториз, то робот будет делать 1000 запросов и получать 1000 страниц вида: "Нужна авторизация, регись иди". И самое Дык к этой папке нигде внешних ссылок не стоит! Робот ведь вообще не должен ее обраружить, если он по ссылкам лазит. lex377 Дык к этой папке нигде внешних ссылок не стоит! А внутренних? Лучше один раз поставить запрет на индексацию, чем потом с ужасом думать, не оставил ли ты где ссылку на одну из страниц в этой папке. Впрочем, хозяин - барин. Если я запрещу в robots.txt индексирование сайта по старому адресу User-Agent: * Disallow: / то поисковики выкинут старый адрес из своих индексов или кроме как подать заявку поисковику на отмену индексации обязательно удалять и файлы?2 вопроса как правильно писать, чтобы запретить вход в данный каталог 1. User-agent: * Allow: / Disallow: /photo 2. User-agent: * Allow: / Disallow: /photo/ 3. User-agent: * Disallow: /photo 2 вопрос. есть папка, которая уже проиндиксированно если я поставлю Disallow: /это-папка то результаты из этой папки исчезнут из поиска к примеру гугл ? т.е. мне нужно, чтобы SE вообше не видели эти доки из данной папки, и чтобы он исчезли. или это не поможет,? нужно просто удалить с сервера Robots.txt Validator http://www.yandex.ru/cgi-bin/test-robots Скажите пожалуйста, мне нужно через запретить поисковикам индексировать несколько каталогов и запретить индексирование всех файлов имеющих знак "?" в его названии. Как мне это сделать? Я поискал в инете материал на эту тему, но так толком и ничего не нашел. Подскажите, как правильно составить файл robots.txt? SphinxSerg Скажите пожалуйста, мне нужно через запретить поисковикам индексировать несколько каталогов выше сказано насчет папок.. всех файлов имеющих знак "?" в его названии. не все поисковики этому последуют, но для гугла.. 12. How do I tell Googlebot not to crawl dynamically generated pages on my site? The following robots.txt file will achieve this. User-agent: Googlebot Disallow: /*? Cheery User-agent: Googlebot Disallow: /*? А если я поставлю: User-agent: * то это будет относится ко всем поисковикам? Не только для гугла? SphinxSerg то это будет относится ко всем поисковикам? Не только для гугла? остальные просто могут не послушаться Cheery остальные просто могут не послушаться А вот у меня структура файла index.php?action=results&poll_ident=5, так вот можно, к примеру яндекс, чтобы индексировал только index.php? Мне вот это впринципе нужно или вышеописанная структура тоже подойдет: User-agent: * Disallow: /*? Cheery Мне надо закрыть папки banners и pictures, так мне надо записать: User-agent: * Disallow: /banners/ User-agent: * Disallow: /pictures/ или достаточно вот так: User-agent: * Disallow: /banners/ Disallow: /pictures/ И еще вопрос, мне надо запретить к индексированию файлы содержащие знак вопроса(?), мне записать: User-agent: * Disallow: /*? и у меня не будут индексироваться файлы на всем сайте или только в корне сайта? Собственно вопрос по теме, Есть двиг в полный путь h00p://site.com/content у него есть папки: cache, backup, admin, include... я запретил User-agent: * Disallow: /cgi-bin/ Disallow: /content/admin/ Disallow: /content/include/ нужно ли запрещать - cache, backup? спасибо. Sky hawk нужно ли запрещать - cache, backup? Смотря что там находится. Папочку backup я бы закрыл, а вот кэш ... Смотря насколько обновляемый сайт. PEDKA ясно, спасибо.вопрос такой есть путь /forum/index.php - его, да и вобще всю папку форум я хочу запретить к индекчированию, но хочу, что бы вместо этого они шли и индексировали /forum/archive/index.php - как такого добиться? IIIKochevnikIII ну дык а кто мешает по одной пакпи задисаблить, а /архив/ оставить. и будет счастье у меня нечто подобное.Если у меня сайт типа utube, то поисковик будет запускать все видеоролики? Только купил скрипт, не знаю пока разрешить или нет поисковикам индексацию. Вдруг по хостингу весь трафик сожрет
Или у них все продуманно и видео не запускается? Вообще сайт настроен - заходишь на страницу и flash-плеер стартует...Для crawler'a твои флешки это коды <object... и другая текстовая мура. Как он по твоему их проиндексирует?
Поисковик, рассказывающий краткое содержание фильма?
ХЗ
Тогда может robots.txt вообще удалить? rusfutbol Тогда может robots.txt вообще удалить? мы телепатически догадаемся о его содержимом? чтобы угадать какие записи в нем есть.. и ограничивают ли они доступ паукам к какой то части сайта..Блин искал долго, забыл где видел,- не нашел. Может видел в Headere: <meta name="robots" content="index,nofollow"> да запомнил, что не смог перевести. Это код что означает? rusfutbol да запомнил, что не смог перевести. Это код что означает? META-теги (meta) народ, как из двух хостов 1) с www, 2) без www указать основной? Host: www.maxthon.org.ru - это будет считаться основным или наоборот, не будет? я че-то попутался.. pop2ROOT Нужно делать не в robots.txt, а указывать в .htaccess 301 редирект (Moved Permanently)Если я использую мета-теги нужно ли писать robots.txt? grika Да.Такой вот вопрос. На хостинге сидят 3 домена (2 osCommerce магазина + WordPress). В корневой папке хостинга я создал три папки, т.е. директория для каждого доменного имени. 2 магазина я еще не доделал и хочу чтобы роботы не индексировали их, а вот Блог наоборот, хочу разрешить для индексации. Что мне сделать, в каждую папку залить свой robots.txt, или положить его в корневую папку хостинга, но как его настроить под мои требования? Хостинг > osCommerce (1) > Файлы движка > osCommerce (2) > Файлы движка > WordPress > Файлы движка Poman33 Файл robots.txt должен лежать по адресу http://www.example.com/robots.txt. Таким образом, если у тебя три домена, то файлов robots.txt должно быть три, каждый из которых должен лежать в корневой папке домена.Да, сложно все это. Особенно для новичка. А может кто-нибудь выложит пример готового файла Robot.txt? Буду очень благодарна. Плиз... BETA237 А может кто-нибудь выложит пример готового файла Robot.txt? http://www.почти_любой_сайт/robots.txt А я уже обрадовалась ссылке на готовый robot.txt/ А ссылка то не работает. Увы... Добавлено: Вот я нашла для готовый, выкладываю для примера. Может кто-нибудь знающий прокомментировать, что здесь значит каждая строка? User-agent: * Disallow: /wp- Disallow: /search Disallow: /feed Disallow: /comments/feed Disallow: /feed/$ Disallow: /*/feed/$ Disallow: /*/feed/rss/$ Disallow: /*/trackback/$ Disallow: /*/*/feed/$ Disallow: /*/*/feed/rss/$ Disallow: /*/*/trackback/$ Disallow: /*/*/*/feed/$ Disallow: /*/*/*/feed/rss/$ Disallow: /*/*/*/trackback/$ Disallow: /?s= Disallow: /dogs Disallow: /archives Disallow: /page Disallow: /author Disallow: /2007 Disallow: /category Disallow: /2008 Disallow: /2009 Disallow: /?livehit= И вот еще один: User-agent: * Disallow: /cgi-bin Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: /trackback Disallow: /comments Disallow: /category/*/* Disallow: */trackback Disallow: */comments Disallow: /*?* Disallow: /*? Allow: /wp-content/uploads # Google Image User-agent: Googlebot-Image Disallow: Allow: /* # Google AdSense User-agent: Mediapartners-Google* Disallow: Allow: /* # Internet Archiver Wayback Machine User-agent: ia_archiver Disallow: / # digg mirror User-agent: duggmirror Disallow: / # Does anyone care I love Google Apache htaccess Sitemap: http://www.......com/sitemap.xml z.AskApache.com/robots.txt User-agent: * Disallow: Allow: /* User-agent: ia_archiver Disallow: / User-agent: duggmirror Disallow: / User-agent: * Disallow: /cgi-bin Disallow: /wp-* Заранее вссем отозвавшимся большое спасибо! BETA237 А ссылка то не работает. Увы.. а читать умеем? заменить "почти_любой_сайт" на адрес почти_любого_сайта в сети. у большинства есть robots.txtСпасибо, не сообразила. Но все-таки может кто прокомментирует то, что я тут выложила. Сама никак не разберусь, что значит, например Disallow: /wp-* или Allow: /* . Да и все остальное тоже как-то туманно. BETA237 Но все-таки может кто прокомментирует то, что я тут выложила. Сама никак не разберусь, что значит, например почитайте тему с самого начала.. не раз уже говорили что и как. Robots.txt или воспользуйтесь словарем, если не знаете как переводятся английские слова + http://robotstxt.org.ru/ Помощь требуется: вылетели страницы из яндекса - причина "дублированный контент". проблема такая: есть урл: moisait.ru/friends/ который содержит уникальный контент, но при этом есть еще страницы Ребята, помогите мне , допустим есть сайт www.pupkin.bn.by как написать robot.txt к нему, не смейтесь я совсем чайник... что для этого нужно... Помогите..! suomifinland Прочитай, что это такое и как его создать: тут , тут или тут .Спасибо большое, я это читала..., но я же просила поиочь написать..., или просто подсказать, нужен ли он вообще, если я ни чего на сайте запрещать не буду... suomifinland Невнимательно читала. Во втором абзаце по моей первой ссылке написано следующее: Сессия начинается с закачки robots.txt сайта, если его нет, он не текстовый или на запрос робота возвращается HTTP-код отличный от '200', считается, что доступ роботу не ограничен. suomifinland А что есть на сайте? Указав в файле определенные папки, ты не запрещаешь доступ посетителям сайта, а только поисковым и прочим роботам. Это актуально, если есть какие-то служебные папки и папки с нетекстовым содержимым, для экономии времени поисковика и нагрузки на сервер. Добавлено: Cheery Может в шапку добавить ссылки на подробные статьи по сабжу, чтобы людям было удобнее ориентироваться, например: hxxp://robotstxt.org.ru/RobotsExclusion/guide ? Audciz Может в шапку добавить ссылки на подробные статьи по сабжу шапка поднята - добавляйте.. и подобные ссылки не надо портить, которые для образования.Помогу с индексацией в 500 поисковиках и robots связь через админку форума http://www.***.net Всем привет, подскажите кто знает Сайт проиндексирован в Яндексе без www Надо чтоб с www Что делать? Мне поможет добавление строки в роботса: Host: site.ru Если нет, то что делать? И еще вопрос. Сервер должен возвращать в HTTP-заголовке для robots.txt «Content-Type: text/plain» а, например, не «Content-Type: text/html». Неправильный заголовок может привести к тому, что некоторые роботы не обработают файл. это очень важный момент, стоит менять заголовки на сайте? ra1n это очень важный момент, стоит менять заголовки на сайте? здесь все очень просто - robots.txt должен быть текстовым файлом, вот и все, менять ничего нигде не надо. pop2ROOT я про заголовки html страниц... А что по поводу www??? Не можешь подсказать? ra1n Это делается не в robots.txt. Чтобы сайт был с www, нужно сделать 301 редирект. Как это сделать? Например, используя .htaccess .Добрый .... прислали письмо от хостинга что зарегистрировали превышение квоты на загрузку сервера от 87.250.252.242 (spider02.yandex.ru) я так понимаю что Яша индексировал сайт подскажите что и как правильно сделать чтоб подобного не случалось mouser подскажите что и как правильно сделать чтоб подобного не случалось Нужно оптимизировать скрипты. Скорее всего в каком-то месте происходит зависание. PEDKA CMS DLE 7.3 ... куда смотреть ?? ))) mouser Смотреть по логам страницы, к которым обращается робот. PEDKA другие варианты есть ??? Добавлено: PEDKA другие варианты есть ??? Добавлено: другие варианты есть ??? mouser Забанить робота Яндекса по IP, но это не только не решит проблему со скриптом, но и приведёт к тому, что сайт выпадет из индекса.
Японская хентай Игра Sexy Beach 2
Если кому нужна японская игра Sexy Beach 2 c English Patch v.1.0 без цензуры, плюс куча скинов и прочих примочек, работающая на наших версиях Windows мыльте azsx@yandex.ru Могу поделиться в Москве и возможно по почте Buffy Ну вообще то мне нужна. Ящик проверь. Только ты ошибся топиками, вот здесь тебя с распростертыми объятиями примут
Buffy Сколько весит?Люди, нужна помощь... Оригинал поставил.. англифицировал -...
перенаправление с некоторых сайтов
...
Делимся картами!
Ребят я выкладываю вам около 500 классических и интерестных карт! Обсуждаем их и даем новые идеи, есть те которые мы делали сами, высказывайте своё мнение о них! http://spam_detected/files/7940815
...
DSL 200 Mandriva 2008 настройка инета
Я новичок в Linux и у меня такая проблема. Имеется adsl модем dsl-200 порыв в сети вроде настроил его и даже пару раз выходил в сеть. Но выход напоминал танец с бубном. Не понимая как и почему. Как сделать просто: скрипт - запускаешь выходишь в инет, другой скрипт - запускаешь выходишь. Или иным способом. Без командной строки с правами рута и набирать не понятно что. P.S. Дело в том что как я понимаю соединение у меня идет PPPoE еще и это нужно настраивать и запускать. И не всегда с пер...
- /Computers/Games/Obshee -
- /Computers/Hardware/CDDVD -
- Archive -
- /Computers/Games/ForumGames -
- /Computers/Developing -
- /Basic/Flame -
- /Theme/IkonBoard/2 -
- /Theme/CMS -
- /Theme/IkonBoard/3 -
- /Computers/Games/SportSimulators -
- /Computers/Games/RPG -
- /Internet/WebMaster -
- /Internet/Hosting -
- /Basic/Humour -
- /UnderGround/GamesVideo -
- /Basic/Books -
- /UnderGround/eBooks -
- /Internet/GetOut -
- /Computers/Hardware/Choice -
- /Basic/Sport/FootBall -
- /Computers/Hardware/Periferal -
- /Computers/Foto -
- /Computers/OS/UNIX -
- /Computers/OS/MicrosoftWindows -
- /UnderGround/UnderGround -
- /Computers/Games/ActionArcade -
- /Theme/IkonBoard/Invision -
- /UnderGround/Warez -
- /Basic/Flame/Regional -
- /Computers/Hardware/Base -
- /Computers/Games/SmallGames -
- /Basic/Sport/Prognoz -
- /Basic/Sport/Chess -
- /Computers/Sysadmin -
- /Computers/Hardware/HDD -
- /Computers/Hardware/Video -
- /Computers/OS/Other -
- /Computers/Soft -
- /Internet/Graphics -
- /Internet/Programming -
- /Computers/Games/Strategy -
- /Theme/IkonBoard/Other -
- /Computers/Hardware/Drivers -
- /Basic/Sport/Base -
- /Theme/Mobiles -
- /Basic/MusicVideo -
- 0 -
- 1 -
- 2 -