9.Процессы поисковых систем

Дата публикации: 09.10.2012 20:11:55

Каждый процесс, происходящий в поисковых системах, уникален и интересен. Зная архитектуру поисковой системы, можно понимать те или иные причины «выпадения» сайта или повышения его позиций. Рассмотрим каждый процесс в отдельности.

Процесс индексирования

Индексация

— это процесс, во время которого поисковые роботы посещают сайты, собирая с их страниц разнообразную информацию и занося ее в специальные базы данных. Потом эти данные обрабатываются, и строится индекс — выжимка из документов. Именно по индексу поисковая система ищет и выдает ссылки на сайты, исходя из запросов пользователей.

Рассмотрим процесс индексирования на примере поисковой системы Яндекс.

В поисковой системе есть 2 типа роботов: быстрый (быстро-робот) и основной. Задача основного робота — индексация всего контента, а быстрого — занесение в базы данных самой свежей информации. Планировщик поискового робота составляет маршруты посещения и передает его «пауку», который ходит по выбранным страницам и выкачивает из них информацию. Если во время индексации в документах обнаруживаются новые ссылки, они добавляются в общий список.

При первом посещении «паук» проверяет состояние ресурса. Если его характеристики подходят под требования Яндекса, сайт заносится в базу. При повторном посещении «пауком» уже проиндексированной страницы происходит ее обновление.

Рис. 8 Последовательность процессов индексирования Яндекса

Документы в индекс попадают следующими способами: автоматически, когда поисковый робот сам переходит по внешним и внутренним ссылкам, либо владелец сайта может сам добавить URL через специальную форму или через установленную на сайте Яндекс. Метрику. Этот сервис передает url страниц на индексацию Яндексу. При необходимости в интерфейсе Метрики можно отключить данную опцию.

Скорость индексации и обновления страниц

В идеале, как только создана новая страница, она должна быть сразу же проиндексирована. Однако большие объемы информации затрудняют скорость индексации новых страниц и обновления старых. Роботы поисковых систем постоянно обновляют поисковую базу данных, но чтобы она была доступна пользователям, ее необходимо переносить на «базовый поиск». База данных переносится туда не полностью. Исключаются зеркала сайтов, страницы, содержащие поисковый спам и другие ненужные, по мнению поисковика, документы.

Однако для некоторых типов информации такая скорость обновление неприемлема. Примером может служить индексирование новостных сайтов. Размещенные новости должны быть доступны в поисковой системе практически сразу после их добавления. Для ускорения индексации часто обновляемых страниц и существует специальный «быстрый робот», который посещает новостные сайты несколько раз в день.

Поисковые роботы стремятся проиндексировать как можно больше информации, однако существует ряд факторов, которые накладывают ограничения на процесс индексации. Так, например, возможность попадания в индекс напрямую зависит от авторитетности ресурса, уровня вложенности страниц, наличия файла sitemap, отсутствия ошибок, мешающих нормальной индексации сайта. Основными инструментами управления индексацией сайтов являются robots.txt, метатеги, теги, атрибуты noindex и nofollow.

Понять, что сайт посетил быстрый робот, можно сразу по двум признакам: если в поисковой выдаче рядом с url сайта показывается время последнего обновления и если в числе проиндексированных сохранены две копии одного и того же документа.

Robots.txt — это текстовый файл, в котором можно задавать параметры индексирования как для всех поисковых роботов сразу, так и по отдельности. Тег и метатег noindex отвечают за индексацию текста или самой страницы, а nofollow — за индексацию ссылок.

Помимо обычных текстов, размещенных на сайтах, все современные поисковые системы умеют индексировать и документы в закрытых форматах.

На сегодняшний день могут индексироваться следующие типы документов:

1. PDF, Flash (Adobe Systems);
2. DOC/DOCX, XLS/XLSX, PPT/PPTX (MS Office);
3. ODS, ODP, ODT, ODG (Open Office);
4. RTF, TXT.

Существуют некоторые ограничения на типы данных, размещенных в этих файлах. Так, в PDF индексируется только текстовое содержимое. Во flash-документе индексируется текст, который размещен только в определенных блоках

Типы роботов поисковых систем

Среди всех существующих поисковых роботов выделяют 4 основных типа:

1. индексирующий робот,
2. робот по изображениям,
3. робот по зеркалам сайта;
4. робот, проверяющий работоспособность сайта или страницы.

Некоторые посторонние роботы могут маскироваться под роботов Яндекса путем указания соответствующего user-agent. Вы можете проверить подлинность робота с помощью идентификации, основанной на обратных DNS-запросах.

Индексирующий робот обнаруживает и индексирует страницы, чтобы создать базу для основного поиска.

Робот по изображениям заносит в индекс графическую информацию, которая в дальнейшем отображается в выдаче соответствующего сервиса, например, Яндекс.Картинки или Картинки Google.

Робот, определяющий зеркала, проверяет зеркала сайтов, прописанных в файле robots.txt. Если они идентичны, то в результатах выдачи поисковика будет только один сайт — главное зеркало.

Специальный робот проверяет доступность сайта, добавленного через форму «Добавить URL» в Яндекс.Вебмастер.

Существуют и другие типы индексирующих роботов: индексаторы видео; пиктограмм (иконок) сайтов; робот, проверяющий работоспособность сайтов в Яндекс.Каталоге; индексатор «быстрого» контента на площадках типа Яндекс.Новостей и др.

Важно понимать, что процесс индексации является длительным, за ним

следует процесс обновления индексных баз, который также требует

временных затрат. Поэтому результат внесенных на сайте изменений будет

виден только через 1-2 недели.

Примечание:

Определить, какой робот к тебе зашел, можно с помощью лог-файла, который обычно доступен

либо в админке, либо на ftp. Все существующие роботы представляются по одной схеме, но каждый имеет свое название. Например: «Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)» — основной индексирующий робот Яндекса.