Поисковые сервера всегда перед индексацией вашего ресурса ищут в корневом каталоге вашего домена файл с именем "robots.txt" (pro-nad.ru/robots.txt). Этот файл сообщает роботам (паукам-индексаторам), какие файлы они могут индексировать, а какие нет.
Формат файла robots.txt - особый. Он состоит из записей. Каждая запись состоит из двух полей: строки с названием клиентского приложения (user-agent), и одной или нескольких строк, начинающихся с директивы Disallow:
Строка User-agent содержит название робота. Например:
User-agent: googlebot
Если вы обращаетесь ко всем роботам, вы можете использовать символ подстановки * Например:
User-agent: *
Вторая часть записи состоит из строк Disallow. Эти строки - директивы для данного робота. Они сообщают роботу какие файлы и/или каталоги роботу неразрешено индексировать. Например следующая директива запрещает паукам индексировать файл email.htm:
Disallow: email.htm
Директива может содержать и название каталога:
Disallow: /cgi-bin
Эта директива запрещает паукам-индексаторам лезть в каталог "cgi-bin".
В директивах Disallow могут также использоваться и символы подстановки. Стандарт диктует, что директива /bob запретит паукам индексировать и /bob.html и /bob/index.html.
Если директива Disallow будет пустой, это значит, что робот может индексировать ВСЕ файлы.
Любая строка в robots.txt, начинающаяся с #, считается комментарием.
Примеры
Следующая директива разрешает всем роботам индексировать все ресурсы сайта, так как используется символ подстановки "*".
User-agent: *
Disallow:
Эта директива запрещает всем роботам это делать:
User-agent: *
Disallow: /
Данная директива запрещает всем роботам заходить в каталоги по нескольким директориям сразу "cgi-bin", "images" и прочие "мои_секреты":
User-agent: *
Disallow: /cgi-bin
Disallow: /images
Disallow: /moy_sekreti
Данная директива запрещает роботу googlebot индексировать файл cheese.htm:
User-agent: googlebot
Disallow: cheese.htm
МЕТА-тег robots
Данный тег в общем виде выглядит так: <meta name="Robots" content="..."> . С его помощью можно управлять индексацией конкретной страницы. Инструкции индексации и следования по ссылкам прописываются в поле content. Существует несколько инструкций:
* <index> -индексировать
* <noindex> - не индексировать
* <follow>- по ссылкам следовать
* <nofollow>- по ссылкам не следовать
* <all> - индексировать и следовать по ссылкам
* <none> - не индексировать и не следовать по ссылкам
Возможно применение двух инструкций из noindex, nofollow, index, follow одновременно, например, данный тег <meta name="robots" content="index, nofollow"> разрешает индексацию и запрещает следовать по ссылкам. Инструкции none и all должны использоваться отдельно от других инструкций, и хотя тег вида <meta name="robots" content="none, nofollow"> является синтаксически верным, смысла он не имеет, к тому же можно допустить ошибку, применив две взаимоисключающие инструкции, например all и nofollow.
Имеет ли смысл применять тег robots? В некоторых случаях его использование оправданно. Однако следует учитывать тот факт, что, например, использование nofollow запрещает переход по ВСЕМ ссылкам, т.е. страница становится тупиковой. В этом случае для "лишних" ссылок лучше использовать атрибут nofollow в коде самих ссылок.
Попробуйте скачать robot с этой площадки и найти разницу, кстати, кто не понял как, сохраните себе готовый файл pro-nad.ru/robots.txt
для тех, кто не понял ни чего:
правой кнопкой в чистом поле выбрать "создать текстовый документ" с помощью программы БЛОКНОТ, назовите его "robots" и скопируйте туда код
- Код: Выделить всё
User-agent: *
Allow: /
Сохранить, закрыть, готово!
Данный тег, как и другие мета теги, не является обязательным для использования.