0

Кластеризация веб-документов

Опубликовано: 12.07.2013 | Рубрика: Статьи и пресс-релизы

В момент, когда пользователь делает определенный запрос в поисковой системе, происходит практически моментальная выдача результатов (меньше секунды по времени). Связано это с тем, что результаты поиска по данному запросу или группе схожих запросов подготавливаются поисковиком заранее. Как правило, таких заранее подготовленных результатов очень много (несколько сотен тысяч или миллионов). Данные результаты формируются, исходя из особенностей алгоритма поисковой системы.

При оценке того или иного документа большое значение имеет его принадлежность к определенной тематической группе (классу) документов (к примеру, если вы перейдете по этой ссылке, Office 365 в интернет-магазине, то увидите — что документы на этом сайте можно отнести к тематике «Софт»). Часто поисковик вынужден самостоятельно определять эту принадлежность. И здесь вступает в силу такой термин, как кластеризация. Кластеризация веб-документов – это их деление на различные тематические классы с подробной аннотацией для каждого класса. Кластеризация может выполняться разными методами. Ниже опишем общую схему кластеризации веб-страниц.

1. Очистка документа от лишних элементов. В момент индексации страницы происходит ее очистка от ненужных элементов. Во-первых, удаляется программный код. Во-вторых, удаляются шумовые слова (слова, не имеющие значения для понимания текста). К примеру, предлоги, союзы, междометия, некоторые существительные и т.д. В-третьих, удаляются знаки пунктуации (точки, запятые, тире) и специальные символы. Все вышеописанные элементы обычно не несут в себе никакой смысловой нагрузки.

2. Синтаксический и морфологический разбор веб-документа. Слова, присутствующие в тексте, обычно ставятся в единственное число, падеж может меняться на именительный. Также возможно удаление суффиксов в словах. Далее происходит выделение связанных слов и частей речи, к примеру, прилагательное + существительное, глагол + существительное и так далее. Они могут оцениваться как единое целое.

3. Выделение смыслового ядра веб-документа и семантического ядра всего сайта. Выстраивается список ключевых фраз и слов, которые чаще всего встречаются на сайте. Поисковик определяет, какие именно ключи характерны для данного сайта.

4. Определение базовых кластеров. Происходит иерархическое деление ключевых фраз и слов сайта. Выстраивается некая структурная схема, в которой выделяется базовая ключевая фраза или слово. От данной фразы обычно идут нити ко всем основным словам и фразам, выделяются производные слова и фразы.

5. Группировка базовых кластеров. Все выявленные основные кластеры группируются по определенному принципу. Между ними выстраиваются прямые связи.

В результате кластеризации веб-документа поисковик узнает о том, к какому тематическому классу он относится. На основании этого документу впоследствии присваивается определенный рейтинг в выдаче среди документов аналогичной тематики.

Предыдущая
«
Следующая
»