11.Процесс поиска связанной информации

Дата публикации: 09.10.2012 20:33:52

Чтобы понять, что именно ищет пользователь, поисковая система проводит тщательный лингвистический анализ запроса. Сначала определяется язык, на котором был сформулирован запрос. Давайте рассмотрим эту тему на примере Яндекса, где индикатором языка является алфавит, используемый в запросе, а также характерные особенности сочетания букв, присущие различным языковым группам.

Далее проводится работа по трактовке морфологии. Поисковая система различает не только слова из запроса во всех их морфологических формах, но и синонимы. Однако при ранжировании предпочтение отдается точному вхождению. Это необходимо учитывать при продвижении страницы под конкретный запрос.

Также поисковым системам приходится разграничивать омонимы (слова

с одинаковым написанием, но разным значением). Например, одно и то

же слово может быть истолковано и как глагол, и как существительное.

Обратный индекс Яндекса

Рис. 9 Обратный индекс Яндекса

Определиться с наиболее вероятным списком форм помогает статистика совместной встречаемости слов и грамматических признаков. Для сбора статистики Яндекс использует национальный корпус русского языка и свои собственные корпуса, в которых собрано огромнейшее количество текстов.

Следует отметить, что все действия по лингвистическому анализу запроса поисковая система успевает осуществить за доли секунды!

В результате лингвистической обработки тот запрос, который вводит пользователь, и тот, который обрабатывается поисковой системой, сильно отличаются друг от друга.

Язык, на котором сформулированы запросы к поисковым машинам, называется информационно-поисковым языком, или языком поисковых запросов.

Пример:

Запрос [продвижение сайта] для поисковой системы выглядит так:

((продвижение::19047 ^ ((про::2793-движение::8030)) ^ продвигать::40288 ^

продвигаться::199208) &&/(-3276832768) сайта::410).

В примере слово «продвижение» Яндекс разбивает на фрагменты. «^» означает расширение запроса дополнительными словами, цифры — расстояние между словами (в предложениях). «&&/» означает, что поиск осуществляется в пределах соседних слов.

Информационно-поисковый язык состоит из логических операторов, морфологии языка, регистра слов, префиксов обязательности, возможности учета расстояния между словами и расширенного поиска. Подобное представление запроса помогает быстрее ориентироваться в индексных

базах.

Набор команд языка запросов может изменяться в зависимости от особенностей конкретной поисковой машины. Но есть определенные правила, которые используют все. Рассмотрим наиболее распространенные из них:

    • команды логического объединения и исключения.

Символы «+» и «-» в запросе позволяют добавлять или исключатькакие-либо слова из текста. Слово, помеченное «+», будет обязательно присутствовать в документах, которые найдет поисковая система по запросу. Слово, помеченное «-», будет отсутствовать в выдаче.

Команды «+» и «-» должны быть написаны слитно со словом, к которому они относятся. В противном случае поисковая машина начнет рассматривать их как элементы запроса, а не как команды.

    • логическое И» (обозначается как амперсанд (&)).

Позволяет перечислить слова, которые обязательно должны встречаться в пределах одного предложения в искомом документе.

    • логическое ИЛИ » (обозначается символом «|»).

Дает возможность осуществлять поиск по документам, в тексте который присутствует только одно из перечисленных слов.

Если правило необходимо распространить не только на одно предложение, но и на весь документ, используется удвоение команды. Чтобы применить несколько команд в одном запросе, следует использовать символы открывающей и закрывающей скобки. Допускается комбинирование логических операторов и без использования скобок.

Также поисковые системы могут производить поиск по точному вхождению.Для этого используются кавычки.

Как правило, поисковые системы учитывают все словоформы исходного запроса согласно правилам русского языка. Поэтому в выдаче можно увидеть документы, в которых встречаются не только точные вхождения запроса, но и различные его формы. Для того чтобы осуществить поиск по точной словоформе, в Яндексе перед запросом необходимо поставить восклицательный знак. Если запрос состоит из 2 и более слов, можно использовать уже знакомые нам кавычки или поставить «!» перед скобками, в которых заключена фраза.

Меняя местами слова в тексте запроса, можно заметить следующее: если слова располагаются в разных предложениях, в одном случае поисковая система не считает страницу со всеми словами в тексте релевантной запросу, а в другом случае считает. Расположение ключевых слов в тексте можно оценить, посмотрев сохраненную копию страницы из поисковой выдачи Яндекса. В ней подсвечиваются все учитывающиеся ключевики. Также Яндекс подсвечивает ключевые слова в сниппетах и заголовках страниц.

Этот небольшой набор операторов помогает получить выдачу, наиболее подходящую для пользователя. Скопируйте какую-либо фразу с вашего сайта, введите ее в поисковую строку Яндекса или Google в кавычках и проверьте, дублирует ли кто-то вашу информацию.

Поисковые системы постоянно развиваются и, конечно, не ограничиваются поиском только по словам из запроса. Чтобы учесть все возможные варианты ответа на запрос пользователя, Яндекс расширяет исходный текст, введенный в строку поиска. Он добавляет другие формулировки с тем же значением и ведет поиск уже по новому запросу.

Используя информационно-поисковый язык запросов, можно находить необходимую информацию за максимально короткое время. Знание языка запросов также дает возможность анализировать выдачу с различных сторон. Это помогает написать текст, который и будет влиять на позиции, и станет интересен пользователям.