Основы работы
Служба индексирования создает реестр каталогов, чтобы определить, какие документы должны быть проиндексированы; этот процесс впервые запускается сразу же после установки службы. Служба индексирования автоматически выполняет либо полный просмотр, либо инкрементный просмотр по мере необходимости.
- Полный просмотр. При полном просмотре индексируются все документы в папках, которые перечислены в списке индексируемых документов. Служба индексирования делает полный просмотр всех жестких дисков на компьютере, когда служба запущена впервые после установки, когда папка добавляется к каталогу, или во время восстановления, если произошла серьезная ошибка. Можно также принудительно выполнить полный просмотр в любое время.
- Инкрементный просмотр. При инкрементном просмотре к списку документов, которые будут проиндексированы, добавляются только те документы, которые были изменены со времени последнего индексирования. Когда служба индексирования запускается (после первого раза), она производит инкрементный просмотр всех индексированных папок на дисках с файловой системой, отличной от NTFS, чтобы определить, какие файлы были изменены, когда служба не функционировала.
Инкрементный просмотр также выполняется, если система теряет уведомления об изменениях. Это может случиться, если изменилось большое количество документов, и буфер Windows Server 2003, используемый для получения уведомлений об изменениях, переполняется. Инкрементный просмотр, так же как и полный просмотр, можно принудительно запустить в любое время.
Для каждого документа, который будет проиндексирован, служба индексирования выполняет следующие действия:
- Используя соответствующий документу фильтр, считывает документ, извлекает из него значения свойств документа и выделяет содержание. Сохраняет значения свойств документа и путь к документу в индексе.
- Разбивает поток предложений на отдельные слова. Для того чтобы разбить текст на слова, служба индексирования использует процедуры, соответствующие языку документа – английскому, немецкому, японскому и т. д.
- Удаляет незначащие слова – предлоги, междометия, вспомогательные глаголы и т. д.
- Сохраняет оставшиеся слова и путь к документу в индексе.
- Сохраняет значения выбранных свойств документа в кэше свойств.
Фильтры – программные компоненты, которые "понимают" структуру файла соответствующего типа, например, документа Microsoft Word или HTML. Фильтр извлекает содержание и значения свойств и посылает их ядру индексации.
Служба индексирования поставляется с фильтрами для отдельных популярных типов файлов, созданных, например, приложениями Microsoft Office. Фильтры для файлов, созданных в других приложениях, часто можно получить от поставщиков соответствующего программного обеспечения.