Каталоги, рейтинги, поисковые системы
Каталоги, рейтинги и поисковые системы – это Интернет-проекты, созданные для структуризации и систематизации информации и облегчения поиска в Интернете.
Наиболее известные зарубежные представители этого вида ресурсов – поисковая система Alta Vista (www.altavista.com) и каталог Yahoo! (www.yahoo.com).
Из российских – Rambler (www.rambler.ru), Yandex (www.yandex.ru) и рейтинг www.top.mail.ru.
Информационный поиск в сети
Вся совокупность сайтов в Интернете является огромным набором неструктурированной информации. Соответственно, чтобы что-то найти в этой огромной массе информации, не связанной едиными нормами и стандартами, необходима помощь специальных сервисов. Такими сервисами являются каталоги и поисковые системы. Но даже найдя большое количество сайтов по определенной теме, пользователь должен иметь возможность как-то решить, с какого из них начать.
Поисковые системы решают этот вопрос, располагая найденные сайты в порядке убывания релевантности, – соответствия содержания сайта запросу пользователя. Результат такого поиска не всегда удовлетворителен, поскольку поисковой системе безразлично, насколько качественно сделан сайт, и насколько полную информацию по выбранной теме он содержит. Но преимуществом поисковой машины является то, что она совершает поиск в огромном массиве информации и обрабатывает такое количество сайтов, которое никогда не сможет собрать ни один каталог, формируемый людьми.
Поисковые системы состоят из трех основных частей: поискового робота, базы индексов и программы поиска по базе индексов.
Поисковый робот – это специальная программа, которая посещает сайты и индексирует их содержимое в соответствии с определенными правилами, заложенными в нее разработчиками (выделяет ключевые слова, добавляет к ним весовые коэффициенты в соответствии с их расположением на странице и т. д., вариантов может быть масса). Проиндексировав страницу, робот движется дальше по гиперссылкам, которые он на этой странице обнаружил. Результаты своей работы поисковый робот помещает в базу данных (базу индексов). Периодически поисковый робот возвращается на уже проиндексированные страницы и индексирует их вновь, обновляя базу индексов.
Для совершения поиска пользователь вносит набор ключевых слов в специальное поле интерфейса поисковой системы и запускает поиск. В этот момент начинает работать третья составляющая – программа поиска. Поиск она совершает уже не по сайтам, а по базе индексов. Результатом поиска является список сайтов и кратких аннотаций к ним (иногда совершенно невразумительных, поскольку составлены они из надерганных роботом с сайта обрывков фраз). Сайты в списке расположены в порядке убывания релевантности.
Одну из лучших поисковых машин предлагает своим пользователям поисковая система Яndех. Ее главная страница показана на рис. 2.4.
Рис. 2.4. Пример результата поиска по ключевым словам поисковой системы Яndех