Рекламное Агентство ПРОНАД

**Animator** » 07 июл 2011, 23:40

Управлять поведением поисковых роботов можно с помощью файла robots.txt, в нем можно явно разрешить или запретить для индексации те или иные страницы.
Поисковые сервера всегда перед индексацией вашего ресурса ищут в корневом каталоге вашего домена файл с именем "robots.txt" (pro-nad.ru/robots.txt). Этот файл сообщает роботам (паукам-индексаторам), какие файлы они могут индексировать, а какие нет.

Формат файла robots.txt - особый. Он состоит из записей. Каждая запись состоит из двух полей: строки с названием клиентского приложения (user-agent), и одной или нескольких строк, начинающихся с директивы Disallow:

Строка User-agent содержит название робота. Например:
User-agent: googlebot

Если вы обращаетесь ко всем роботам, вы можете использовать символ подстановки * Например:
User-agent: *

Вторая часть записи состоит из строк Disallow. Эти строки - директивы для данного робота. Они сообщают роботу какие файлы и/или каталоги роботу неразрешено индексировать. Например следующая директива запрещает паукам индексировать файл email.htm:

Disallow: email.htm

Директива может содержать и название каталога:

Disallow: /cgi-bin

Эта директива запрещает паукам-индексаторам лезть в каталог "cgi-bin".
В директивах Disallow могут также использоваться и символы подстановки. Стандарт диктует, что директива /bob запретит паукам индексировать и /bob.html и /bob/index.html.
Если директива Disallow будет пустой, это значит, что робот может индексировать ВСЕ файлы.

Любая строка в robots.txt, начинающаяся с #, считается комментарием.

Примеры

Следующая директива разрешает всем роботам индексировать все ресурсы сайта, так как используется символ подстановки "*".

User-agent: *
Disallow:

Эта директива запрещает всем роботам это делать:

User-agent: *
Disallow: /

Данная директива запрещает всем роботам заходить в каталоги по нескольким директориям сразу "cgi-bin", "images" и прочие "мои_секреты":

User-agent: *
Disallow: /cgi-bin
Disallow: /images
Disallow: /moy_sekreti

Данная директива запрещает роботу googlebot индексировать файл cheese.htm:

User-agent: googlebot
Disallow: cheese.htm

МЕТА-тег robots

Данный тег в общем виде выглядит так: <meta name="Robots" content="..."> . С его помощью можно управлять индексацией конкретной страницы. Инструкции индексации и следования по ссылкам прописываются в поле content. Существует несколько инструкций:

* <index> -индексировать
* <noindex> - не индексировать
* <follow>- по ссылкам следовать
* <nofollow>- по ссылкам не следовать
* <all> - индексировать и следовать по ссылкам
* <none> - не индексировать и не следовать по ссылкам

Возможно применение двух инструкций из noindex, nofollow, index, follow одновременно, например, данный тег <meta name="robots" content="index, nofollow"> разрешает индексацию и запрещает следовать по ссылкам. Инструкции none и all должны использоваться отдельно от других инструкций, и хотя тег вида <meta name="robots" content="none, nofollow"> является синтаксически верным, смысла он не имеет, к тому же можно допустить ошибку, применив две взаимоисключающие инструкции, например all и nofollow.

Имеет ли смысл применять тег robots? В некоторых случаях его использование оправданно. Однако следует учитывать тот факт, что, например, использование nofollow запрещает переход по ВСЕМ ссылкам, т.е. страница становится тупиковой. В этом случае для "лишних" ссылок лучше использовать атрибут nofollow в коде самих ссылок.

Попробуйте скачать robot с этой площадки и найти разницу, кстати, кто не понял как, сохраните себе готовый файл pro-nad.ru/robots.txt

для тех, кто не понял ни чего:
правой кнопкой в чистом поле выбрать "создать текстовый документ" с помощью программы БЛОКНОТ, назовите его "robots" и скопируйте туда код

Код: Выделить всё: User-agent: * Allow: /

Сохранить, закрыть, готово!

Данный тег, как и другие мета теги, не является обязательным для использования.

Рекламное Агентство ПРОНАД

Как создать sitemap.html и robot.txt

Как создать sitemap.html и robot.txt