Полнотекстовые информационно-поисковые системы — Документальные информационные системы

ПОЛНОТЕКСТОВЫЕ ИНФОРМАЦИОННО-ПОИСКОВЫЕ СИСТЕМЫ


Процессы компьютеризации деятельности предприятии привели к накоплению большого объема неструктурированной текстовой информации. Возникла потребность в программном обеспечении, реализующем эффективный поиск информации.

Информационно-поисковые каталоги, фасетные и тезаурусные системы не могли быть в полной мере использованы в массовой персональной автоматизации. Потребовались средства, которые бы в Максимальной степени освобождали пользователя от необходимости сложной предварительной структуризации предметной области и затратных процедур индексирования при накоплении текстовых данных, но в то же время создавали бы эффективный и интуитивно понятный поисковый инструментарий. В результате на рынке программных продуктов появились полнотекстовые ИС.

Полнотекстовые ПС строятся на основе информационно-поисковых языков дескрипторного типа. Информационно-технологическая структура полнотекстовых ИС включает:

♦   хранилище документов;

♦   глобальный словарь системы;

♦   инвертированный индекс документов;

♦   интерфейс ввода документов в систему;

♦   механизм индексирования;

♦   интерфейс запросов пользователя;

♦   механизм поиска документов;

♦   механизм извлечения найденных документов.

Хранилище документов может быть организовано как единая локально сосредоточенная информационная структура в виде специального файла с текстами документов.

Глобальный словарь системы может быть статическим и динамическим.

Статические словари определяются заранее и не зависят от содержания документов, вошедших в хранилище.

Динамические словари определяются набором словоформ, имеющихся в документах хранилища. Изначально такой словарь пуст, но с каждым новым документом в него помещаются новые словоформы.

Поступающие через интерфейс ввода-вывода документы подвергаются операции индексирования по глобальному словарю. Механизм индексирования в полнотекстовых ИС полностью автоматизирован и заключается в создании специального двоичного вектора, компоненты которого показывают наличие или отсутствие в данном документе слова с соответствующим номером из глобального словаря.

Существенное влияние на эффективность полнотекстовых ИС оказывает морфологический разбор при индексировании документов и запросов. Морфологический разбор позволяет выделять общую для однокоренных слов словоформу, а также выделять лексемы, т. е. слова, отличающиеся окончаниями, приставками и суффиксами.

В результате индексирования поисковый образ каждою нового документа представляется набором словоформ из глобального словаря, присутствующих в тексте документа, и поступает в виде соответствующего двоичного вектора для дополнения индекса системы. Индекс строится по инвертированной схеме и в двоичном виде отражает весь (полный) текст учтенных или накопленных документов.

При удалении документа из системы соответственно удаляется и поисковый образ документа.

Через интерфейс запросов пользователь в терминах ИПЯ делает запрос, который обрабатывается поисковой машиной. Механизм поиска основывается на тех или иных алгоритмах и критериях сравнения поискового образа запроса с поисковыми образами документов, образующими индекс системы. Результатом поиска является определение номеров документов, поисковые образы которых соответствуют поисковому образу запроса. Далее специальная подсистема па основе установленных в хранилище указательных конструкций извлекает и доставляет соответствующие документы пользователю.

Примером полнотекстовых информационно-поисковых систем являются автоматизированные информационные системы по законодательству.

Автоматизированная информационная система по законодательству (АИСЗ) — это программный комплекс, включающий в себя массив правовой информации и инструменты для работы с ним. Эти инструменты позволяют производить поиск документов, формировать подборки документов, печатать документы.

АИСЗ являются частью следующих типов информационных систем.

1.         Справочно-информационные системы общего назначения, ориентированные на доступ пользователей к нормативно-правовым услугам. К этим системам относятся «Консультант Плюс», «Гарант», «Кодекс» и др.

2.         Глобальные информационные службы (хост-системы), предоставляющие доступ удаленным пользователям к библиографической, полнотекстовой или другой информации. Крупнейшей в мире коммерческой службой, обеспечивающей доступ к юридической информации, является система LEXIS (США).

3.         Системы информационной поддержки деятельности правотворческих органов. Спецификой таких систем является необходимость хранения и поиска многих версий и редакций нормативно-правовых документов, с учетом вносимых поправок и изменений.

4.      Системы автоматизации делопроизводства судов, милиции и других правоохранительных органов.

Основными особенностями АИСЗ являются:

♦   необходимость предоставления адресного доступа к полным текстам;

♦   в информационных языках для поиска в БД по законодательству необходим учет контекстных связей, регламентированных прилагательных (типа «обязательный», «произвольный» и др.);

♦   тексты нормативных актов должны подвергаться так называемой
юридической обработке, при которой тексту приписываются не
только классификационные индексы, ключевые слова или дескрипторы (как при обычном индексировании), но и комментарии специалистов, ссылки на предшествующие версии, связанные документы, решения судов и др.

 

Популярные статьи

 

БАНКИ ДАННЫХ
ИНФОРМАЦИОННАЯ ТЕХНОЛОГИЯ УПРАВЛЕНИЯ
ДОСТОИНСТВА И НЕДОСТАТКИ ИМИТАЦИОННОГО МОДЕЛИРОВАНИЯ
ИНФОРМАЦИОННАЯ ТЕХНОЛОГИЯ ОБРАБОТКИ ДАННЫХ
ВИДЫ ОБЕСПЕЧЕНИЯ ИНФОРМАЦИОННЫХ ТЕХНОЛОГИЙ 
ОСНОВНЫЕ ПОНЯТИЯ ТЕОРИИ АЛГОРИТМОВ
ИНФОРМАЦИОННАЯ ТЕХНОЛОГИЯ АВТОМАТИЗАЦИИ ОФИСА
КОМПЛЕКСНОЕ ТЕСТИРОВАНИЕ
КОМПОНЕНТЫ ИНФОРМАЦИОННОЙ ТЕХНОЛОГИИ АВТОМАТИЗАЦИИ ОФИСА
АВТОМАТИЗИРОВАННОЕ РАБОЧЕЕ МЕСТО СПЕЦИАЛИСТА
ЭТАПЫ РАЗВИТИЯ ИНФОРМАТИЗАЦИИ
ПОНЯТИЕ МУНИЦИПАЛЬНОЙ ИНФОРМАЦИОННОЙ СИСТЕМЫ 
РЕЖИМЫ ОБРАБОТКИ ИНФОРМАЦИИ
ФУНКЦИИ АВТОМАТИЗИРОВАННОЙ ИНФОРМАЦИОННОЙ ТЕХНОЛОГИИ
МЕТОДЫ ОБЕСПЕЧЕНИЯ НАДЕЖНОСТИ ПРОГРАММНЫХ СРЕДСТВ
ПРАВИЛА ЗАЩИТЫ ОТ КОМПЬЮТЕРНЫХ ВИРУСОВ
ДОКУМЕНТАЛЬНЫЕ ИНФОРМАЦИОННЫЕ СИСТЕМЫ
ПРОТОКОЛЫ ТЕСТИРОВАНИЯ
ДЕСТРУКТИВНЫЕ ВОЗМОЖНОСТИ ВИРУСОВ
КЛАССИФИКАЦИЯ АВТОМАТИЗИРОВАННЫХ ИНФОРМАЦИОННЫХ ТЕХНОЛОГИЙ
КОНЦЕПТУАЛЬНАЯ, ЛОГИЧЕСКАЯ И ФИЗИЧЕСКАЯ МОДЕЛИ
КОМПЬЮТЕРНЫЕ ТЕХНОЛОГИИ ПОДГОТОВКИ ТЕКСТОВЫХ ДОКУМЕНТОВ
ИНФОРМАЦИОННАЯ ТЕХНОЛОГИЯ ЭКСПЕРТНЫХ СИСТЕМ
ДИАЛОГОВЫЙ РЕЖИМ АВТОМАТИЗИРОВАННОЙ ОБРАБОТКИ ИНФОРМАЦИИ
ТЕХНИЧЕСКОЕ ОБЕСПЕЧЕНИЕ КОМПЬЮТЕРНЫХ СЕТЕЙ