adelite.com
Поиск по сайту:

myWEBeditor
интерактивная система управления содержанием сайта в режиме реального времени

myWEBsearch
система локального поиска по Вашему сайту, позволяющая проводить полнотекстовую индексацию и поиск по содержимому сайта

myWEBad
гибкая система управления показами баннеров на сайте или группе сайтов

myWEBmeta
метапоисковая система, встраиваемая в Ваш сайт, позволяющая посетителям услуги поиска информации в нескольких поисковых системах одновременно

ВСЕ РАЗДЕЛЫ САЙТА
преимущества / характеристики / описание / пользователи / faq / цены / статьи /

Новости мира поисковых систем / Руководство по поиску информации

Оптимизация сайта в поисковых системах и его раскрутка

описание | цены | faq
adelite.com >> myWEBsearch >> Модуль индексирования системы
 
Модуль индексирования системы

Модуль индексирования

Модуль индексирования предназначен для обработки текстовых данных и создания индексов, необходимых для быстрого поиска нужных документов по ключевым словам. Модуль индексирования выполняет следующие функции:

  • взаимодействие с хранилищем и извлечение документов из него;
  • удаление из текста документа знаков препинания, разметки а также другой ненужной информации;
  • разбитие строк на отдельные лексемы и определение координат (позиций) каждого слова в тексте;
  • морфологический анализ слов;
  • построение обратного индекса для поиска и прямого, если нужна подсветка найденных слов.

Работа модуля индексирования построена следующим образом.

  1. На вход модуля поступает документ, из которого извлекаются атрибуты новости.
  2. Затем из документа убирается информация, не несущая смысловой нагрузки (знаки препинания, тэги и т.д.). В том случае, если нужно индексировать документ, содержащий HTML-разметку, его содержимое пропускается через HTML-фильтр.
  3. Определяется кодировка (Win, Koi, Dos, ISO, Mac) уже "очищенного" документа, после чего этот документ подписывается электронной подписью.
  4. В таблицу документов помещается заголовок обрабатываемого документа и его адрес.
  5. Документ разбивается на текстовые блоки, представляющие собой строки символов определенной (или заданной) длины, после чего из каждого блока извлекаются лексемы, причем для каждой такой лексемы определяется позиция в документе. С помощью морфологического модуля каждому слову сопоставляется необходимая морфологическая информация, в результате чего это слово приводится к лемме (нормальной форме).
  6. Для того, чтобы подсвечивать найденные слова и показывать в результатах поиска релевантные фрагменты текста, сохраняются все текстовые блоки документа и создается прямой индекс, куда заносится информацию о координатах каждого слова в тексте.
  7. Формируется предварительный индекс, содержащий все обработанные слова в нормальной форме и их координаты в тексте.
  8. По окончании индексации модуль индексирования заменяет текущую рабочую версию индекса новой в режиме замещения или выстраивает новую в режиме построения индексов.

Смотрите еще

Разработка сайтов / Контент-менеджер (CMS) / Система управления баннерами
Локальная поисковая машина / Метапоисковая система / Почтовый сервер
+380 44 585 51 83
Copyright © 2002-2003 adelite.com
Все права защищены
Сайт работает на myWEBeditor