|
Поисковый механизм
Поисковый механизм (поисковый сервер) является важнейшим элементом всей системы, так как от алгоритмов, которые лежат в основе ее функционирования, напрямую зависит качество и скорость поиска.
Поисковый сервер работает следующим образом:
- Полученный от пользователя запрос разбивается на лексемы, для каждой лексемы производится морфологический анализ, в результате чего слово сводится к лемме.
- Производится поиск полученной леммы в словаре. Если лемма была найдена, возвращаются идентификаторы документов, в которых она встречается, а также ее координаты в тексте этих документов.
- Операция повторяется для всех слов, содержащихся в запросе, затем полученные результаты объединяются, в результате чего создают информационное окружение каждого документа, содержащегося в базе.
- Полученные данные передаются в качестве входных параметров модулю ранжирования. Происходит последовательная обработка данных для всех документов, в результате чего для каждого документа рассчитывается собственный рейтинг, характеризующий близость запроса, введенного пользователем, и текста, содержащегося в этом документе
- В зависимости от выбора пользователя этот рейтинг может быть скорректирован дополнительными условиями (например, если нужно учитывать дату создания документа).
- Для каждого найденного документа из таблицы документов извлекаются заголовок, аннотация и предложения, наиболее соответствующие запросу, причем найденные слова подсвечиваются.
- Полученные результаты поиска передаются пользователю. Получив список ссылок на документы, он оценивает, насколько эти результаты соответствуют его информационной потребности, и, если они его не устраивают, повторяет поиск.
|