|
Индексирующий робот
Индексирующий робот позволяет рекурсивно обходить заданное множество ресурсов, выкачивать встречающиеся страницы и извлекать ссылки на новые страницы из получаемых документов до тех пор, пока не будет выполнено некоторое условие остановки, например, достижение граничного количества документов с определенного сайта. Ссылки извлекаются из тэгов a, area, base, frame, frameset, также должны обрабатываться редиректы в пределах скачиваемого сайта.
Работа робота заканчивается в случае, когда:
- на сайте уже нет необработанных ссылок;
- суммарное количество выкачанных документов достигает граничного количества документов, которое можно взять с определенного сайта;
- закончилось общее время работы данного робота
Индексирующий робот состоит из двух частей - спайдера и менеджера ссылок.
Спайдер
Спайдер обеспечивает выкачивание страницы и извлекает все внутренних ссылки с этой страницы. При этом используется собственный web-робот для эффективного выкачивания информации. Каждая страница сохраняется в следующем формате:
- полный URL страницы
- дата, когда страница была выкачана
- http-заголовок ответа сервера
- тело страницы
Менеджер ссылок
Менеджер ссылок предназначен для обработки и фильтрации общего потока ссылок, прогнозирования полезности каждой ссылки и формирования стратегии сканирования для спайдера. Данный компонент использует данные, полученные из нескольких хранилищ:
- хранилище рабочих ссылок
- хранилище статистической информации
|