Игнорирование файла robots.txt
Дата публикации: 07.06.2013 6:42:51
ОПИСАНИЕ
Файл robots.txt предназначен для того, чтобы показывать, где и что нужно индексировать. Индексация – это процесс добавления в поисковую базу различных сведений о вашем сайте: о страницах, ссылках, текстовых материалах, графических объектах.
Всю информацию поисковые системы хранят в своем индексе (специальной базе данных). В ней может содержаться как полезная информация, которую вы разрешаете индексировать роботам, так и лишняя, например, официальные документы, не предназначенные для пользователей. для индексации поисковые системы используют специальных роботов – программы, которые отвечают за поиск новой информации и сайтов в интернете.
Оказавшись на вашем сайте, поисковый робот заходит в файл robots.txt, в котором указано, какую информацию показывать, а какую нет.
Игнорирование файла robots.txt либо его некорректное составление — это основная ошибка многих веб-мастеров.
Она влечет за собой следующие проблемы:
роботы поисковых систем вообще не будут индексировать сайт;
возможна индексация конфиденциальной информации, которая не должна быть доступна в поиске.
Файл robots.txt должен располагаться в корневой директории на сервере.
Способы проверки файла robots.txt:
1. Ввести в браузере: http://www.site.ru/robots.txt (где site.ru – имя
вашего сайта);
2. Воспользоваться сервисом «Анализ robots.txt» от Яндекса
http://webmaster.yandex.ru/robots.xml;
3. Использовать автоматизированные сервисы Rooletka или ROOKEE.