|
Перспективы развития поисковых систем на Украине
1. Причины возникновения поисковых систем
Ни для кого не секрет, что всемирная сеть Интернет содержит постоянно растущий огромный объем динамически изменяющейся информации. Для того, чтобы как-то упорядочить этот непрерывный поток данных, а самое главное, дать возможность пользователям Сети находить нужную информацию, были созданы специальные поисковые системы.
Однако и с их появлением не исчезло множество проблем, так и не разрешенных по сей день. Протокол HTTP, используемый для передачи информации в сети Интернет, оказался очень хорош лишь для навигации по сайтам и в то же время очень неудобным для их поиска. То же самое можно сказать и о протоколе передачи файлов FTP, который даже более примитивен, чем HTTP.
Основная проблема заключается в том, что эти протоколы не позволяют отслеживать изменения информации, а, учитывая, что на сегодняшний день в Сети находятся миллиарды страниц, можно утверждать, что отыскать быстро или вообще найти нужную и актуальную информацию уже не представляется возможным. Кроме того, информация, расположенная на этих страницах, подвергается постоянным изменениям и на сегодняшний день так и не появился механизм, который бы позволял бы учитывать все эти изменения без задержек. Проблема отчасти решается тем, что каждая поисковая система выбирает те доменные зоны, в которых она может обеспечить быстрое обновление информации и соответствующую стратегию обходов интернет ресурсов в них таким образом, чтобы отследить как можно большее количество часто обновляющихся сайтов, не растратив свои мощности на неизменяющиеся сайты. Так, российские поисковые системы Яндекс и Рамблер индексируют сайты в доменных зонах .ru, .ua, .by постсоветских республик и не индексируют зарубежных сайтов, украинские Мета и Аванпорт индексируют ислючительно украинские ресурсы и т.д.
Таким образом, каждая поисковая система имеет свое собственное, ограниченное ее ресурсами, множество доступных для поиска документов. Ни одна из подобных систем не имеет и не может иметь достаточных мощностей, чтобы охватывать все ресурсы в сети Интернет, поэтому в любой момент может возникнуть ситуация, когда информационные потребности пользователя не смогут быть удовлетворены. Как правило, в этом случае пользователь переходит на другую поисковую систему и пытается искать то, что ему нужно, там.
При этом необходимо также учитывать поведение "типичного пользователя" поисковой системы. Никто не обучает пользователей поиску информации в Сети, что привело к тому, что около 60 % пользователей используют запросы из 1-2 слов, по которым в большинстве случев невозможно определить информационную потребность пользователей. Статистика показывает, что расширенными возможностями поиска, в том числе логическими операторами, пользуются менее 3% пользователей. На качестве поиска сказывается также неоднородность пользователей, то есть различия в знаниях, образовании, социальном положении и т.д.
2. Недостатки существующих информационно-поисковых систем - краткий обзор по украинским Мете, Аванпорту и Пингу
Тем не менее, такой подход, когда каждая система отвечает за выбранные доменные зоны, в некоторых случаях оказывается очень неэффективным. Например, очень велика вероятность того, что в украинских поисковых системах вам не удастся найти информацию, которая есть в российских системах, и напротив, в российских не удастся найти нужную информацию, которую можно отыскать в зарубежных.
В связи с этим можно смело утверждать, что эффективность поиска здесь зависит от информационных потребностей пользователя. Процесс поиска может быть описан следующим алгоритмом.
Появление информационной потребности
Выбор системы для поиска информации
Формулировка запроса
Передача запроса системе поиска
Получение результатов поиска
Оценка и интерпретация результатов поиска
Если результаты удовлетворяют потребность, закончить поиск
Иначе переформулировать запрос и перейти к шагу 4
В общем случае потребности пользователей можно разделить на навигационные и информационные. Навигационные потребности возникают в случае, когда пользователь ищет информацию по интересующей его теме. Основная проблема здесь заключается в том, что в Сети количество страниц по данной теме может быть настолько большим (десятки, а то и сотни тысяч), что просмотреть их все пользователю становится совершенно невозможно. Для того, чтобы как-то упростить эту задачу, созданы системы, названные поисковыми каталогами или просто каталогами. Яркими представителями поисковых каталогов на Западе являются Yahoo и Open Directory, на Украине Topping, UaPortal и др. В таких каталогах сайты регистрируются их создателями, после чего проходят проверку модераторами каталогов, имеющими право изменять описание и рубрику регистрируемого ресурса по собственному усмотрению так, чтобы максимально приблизить его к тематике самого сайта. Кроме того, часто модераторами также оценивается и полезность ресурса, в результате чего каждый ресурс получает экспертную оценку, которая помогает пользователям находить наиболее авторитетные сайты по интересующим их темам. Следует заметить, что некоторые поисковые каталоги, которые имеют также собственный рейтинг (например, Topping), используют в качестве подобных неявных экспертных оценок информацию о посещаемости сайтов и учитывают позиции, которые эти сайты занимают в рейтинге ресурсов определенной тематики. Данный подход позволяет повышать качество поиска в каталоге, предоставляя более авторитетную информацию, в результате чего значительно сэкономить время пользователей.
Информационные потребности возникают, когда пользователю нужно найти что-то конкретное, например, книгу или музыкальный компакт-диск. В этом случае поисковые каталоги, в которых хранится лишь общая информация, оказываются бессильны и в лучшем случае могут лишь подсказать, на каких сайтах можно попробовать поискать требуемую информацию, не гарантируя, что она там есть. Задача усложняется тем, что лишь определенное количество страниц из всего множества содержит нужную информацию, остальные же совершенно бесполезны.
Помочь здесь могут лишь полнотекстовые поисковые системы, имеющие специальные программы, называемыми пауками или роботами, которые позволяют перемещаться по Сети и собирать в ней информацию. Они занимаются поиском страниц, извлекают гипертекстовые ссылки на этих страницах и автоматически индексируют информацию, которую они находят, для построения базы данных. Каждый поисковый механизм имеет собственный набор правил, определяющих, каким образом cобирать документы. Некоторые следуют за каждой ссылкой на каждой найденной странице и затем, в свою очередь, исследуют каждую ссылку на каждой из новых страниц, и так далее. Другие игнорируют ссылки, которые ведут к графическим и звуковым файлам или файлам мультипликации и т.д. Важной задачей для робота, который собирает информацию о ресурсах для поисковой системы, является также обнаружение как можно большего количества разнообразных ресурсов. Поэтому роботы зачастую используют в качестве оценки "полезности'' ресурса глубину ссылок, т. е. количество промежуточных каталогов, упоминающихся в ссылке между именем Интернет-узла и именем самого ресурса. Чем больше глубина, тем ниже важность соответствующего ресурса. Такой подход позволяет быстро посетить стартовые и близкие к ним страницы на большом числе Интернет-узлов. Собранная таким образом информация заносится в базу данных и позволяет находить страницы с нужной информацией в том виде, когда ее в последний раз посещал робот.
Большинство поисковых роботов не могут посещать все доступные в Интернет ресурсы из-за ограниченности доступных роботу аппаратных и сетевых ресурсов, и то, какие именно ресурсы будут посещены, определяется применяемой стратегией обхода. Естественно, что робот должен стараться использовать такую стратегию, которая максимизирует общую "полезность'' всех посещенных ресурсов
Как уже было замечено, нет возможности быстро и качественно ослеживать изменение страниц, не посещая их, поэтому пользователь может попасть на уже изменившуюся страницу или, что еще хуже, на уже удаленную. Одним из возможных решений этой проблемы может быть метапоиск. Метапоисковые системы не имеют собственных поисковых баз данных, не содержат никаких индексов и при поиске используют ресурсы множества поисковых систем. За счет этого полнота поиска в таких системах максимальна и вероятность нахождения нужной информации очень высока.
Нашей компанией была разработана метапоисковая система, названая MetaPing (рис. 2).
В таких системах запрос, который вводит пользователь, ретранслируется полнотекстовым поисковым системам, которые он выбирает, после чего каждая из систем возвращает множество описаний и ссылок на документы, которые считает наиболее соответствующими данному запросу (рис.3).
Рис.3. Архитектура метапоисковой системы Metaping
При этом, если в разных поисковых системах был найден один и тот же сайт, то ценность его для пользователя, естественно, существенно повышается (рис.4). Однако, у каждой системы различные множества проиндексированных документов, различная полнота баз, следовательно, запрошенная пользователем информация может быть найдена в одной системе и может быть не найдена в другой.
В этом случае пользователь может получить несколько действительно релевантных ссылок от одной системы, которые будут перемешаны с абсолютно нерелевантными из другой (например, в случае, когда фраза целиком не найдена, поиск идет по одному из ключевых слов запроса).
3. Направления развития поиска - комбинирование с метапоиском и специализированные поисковые системы
Однако, несмотря на очевидные преимущества систем метапоиска, и они не лишены существенных недостатков, среди которых очень большое время поиска. Пользователю приходится ждать значительное время, пока метапоисковая система опросит каждую полнотекстовую систему и на основании полученных результатов поиска сформирует собственные, наиболее удовлетворяющие, с ее точки зрения, потребностям пользователя.
Поэтому следующим шагом в развитии систем поиска стали комбинированные поисковые системы. Такие системы имеют как полнотекстовые индексы, так и средства метапоиска. Работает это следующим образом: если очевидно, что в полнотекстовых индексах найти нужную информацию не удаестся, включается метапоиск, который берет ее у других поисковых систем. В конце концов, пользователя мало волнует, где будет найдено то, что ему нужно, ему важен конечный результат.
Таким образом, с точки зрения компании Topping идеальной информационно-поисковой системой можно будет считать систему, состоящую из 3 следующих уровней:
1-й уровень: поиск по каталогу, если пользователь ищет общую информацию по интересующей его теме;
2-й уровень: полнотекстовый поиск, если нужно найти что-то конкретное;
3-й уровень: если на двух предыдущих уровнях информацию найти не удалось, прибегнуть к метапоиску и опросить другие поисковые системы.
|