13.Процесс ранжирования

Дата публикации: 09.10.2012 20:41:53

Ранжирование

— процесс сортировки страниц в порядке убывания по степени их значимости для пользователя (релевантности). Со времен основания поисковых систем алгоритмы ранжирования существенно усложнились, качество поиска выросло. Так, поисковая система Яндекс с ноября 2009 года использует метод машинного обучения «Матрикснет», запущенный в новом алгоритме под названием «Снежинск». Он позволяет строить и применять сложную формулу ранжирования, в которой используются тысячи факторов и их комбинации.

Эволюция поисковых алгоритмов

Рис. 11 Эволюция поисковых алгоритмов Яндекса

Условно процесс ранжирования можно разделить на два этапа:

    1. выбор наиболее релевантной страницы каждого сайта;

    2. вычисление значения релевантности для каждой страницы.

Поскольку на одном сайте может быть несколько страниц, дающих ответ на запрос пользователя, из них выбирается одна, наиболее релевантная. Чтобы показать наибольшее количество сайтов, в поисковой выдаче для одного сайта показывается, как правило, только одна страница. В некоторых случаях могут показываться по несколько страниц с одного сайта.

Показатель релевантности определяется посредством применения сложных многоступенчатых формул, где учитываются различные факторы и их комбинации. Одним из главных факторов оценки релевантности считается степень соответствия содержимого страницы введенному запросу.

В Яндексе к этому фактору практически всегда добавляется региональная принадлежность сайта.

Страницы, которые были отобраны при первой фильтрации, участвуют в дальнейшем, более строгом, отборе. Чем выше значение релевантности, тем больше факторов участвует в процессе ранжирования страницы и тем точнее она оценивается. Причем для самых релевантных страниц значения тех или иных факторов может быть различным.

Определение релевантности с учетом динамических факторов

Рис. 12 Определение релевантности с учетом динамических факторов

При вычислении релевантности поисковыми системами используются несколько основных групп факторов:

  1. Факторы страницы, или статические факторы. Связаны непосредственно с самой страницей. Например, количество ссылок на данную страницу, возраст страницы и домена, технические параметры, поведенческие показатели сайта и страницы

  2. Факторы запроса. Это уточняющие признаки запроса, влияющие на сортировку страниц по типу запроса — геозависимый, коммерческий, навигационный, транзакционный и т.д.

  3. Динамические факторы. Они одновременно связаны и с запросом, и со страницей. Например, присутствие в тексте слов запроса, их количество и расположение, количество ссылок с анкором, равным ключевому слову, количество общей информации на сайте по данному запросу.

Кроме положительных факторов ранжирования, увеличивающих релевантность страницы и сайта, поисковыми системами могут применяться санкции в виде пессимизации, т.е. намеренное занижение позиций в выдаче. Это так называемые фильтры, которые из-за грубых нарушений могут быть

наложены на отдельную страницу, на пару «запрос — страница», а также на сайт в целом.

После вычисления значения релевантности страницы сортируются относительно друг друга. Чем больше значение релевантности для страницы, тем выше она окажется в результатах поиска.