10. Представление сайтов внутри поисковых систем

Дата публикации: 09.10.2012 20:28:13

Для удобства обработки данных поисковая система заносит все найденные в интернете страницы в индекс, который помогает сжать их объемы для оптимального хранения. Чтобы понимать, за счет чего возможно сокращение объема информации, необходимо знать, как документ представляется в поисковой системе.

Сначала происходит очистка страницы от различных нетекстовых элементов, таких как графика, HTML-теги и т.п. В результате остается «чистый» текст для дальнейшей обработки.

Далее все слова из текста располагаются в алфавитном порядке, а все элементы, которые словами не являются (пробелы, знаки препинания и прочее), отбрасываются. При этом поисковая машина не заносит в индекс слова в той форме, в которой они приведены в тексте. С помощью алгоритма лингвистической обработки все слова приводятся к начальным грамматическим формам или основам. Это позволяет сократить место в индексе и сделать поиск более точным. Из обработанных основ составляется подобие словаря, где указывается адрес страницы и конкретное место

расположения каждой основы (номер вхождения). В поисковом индексе хранятся только номера основ, а сами основы располагаются отдельно. Если на странице находится несколько вхождений одного слова, то в индексе указывается номер этой страницы и все вхождения этого слова на ней.

Получается что-то вроде обратной копии всех страниц интернета. Такой индекс поисковой машины называется инвертированным, или инверсным.

Но поисковые машины сохраняют и прямой индекс, который представляет собой сжатую текстовую копию всех страниц интернета. Это значительно экономит время, например, при показе цитат. Сохраненная копия сайта — это страница, сохраненная в прямом индексе поисковой системы.