LibRar.Org.Ua — Бібліотека українських авторефератів


Головна Бібліотечна справа → Автоматизация технологии процессов обработки и хранения слабоструктурированной разнородной информации и организация эффективных механизмов поиска на базе лингвистической ИПС

Computerized Processing and Storage of Weakly-structured Diverse Information and Effective Search Based on the Linguistic Information Retrieval System Parkhomenko V.F., Poliakov Yu.P. NIKO, Moscow, Russia Conditions for effective operation of the National Information Corporation (NIKO) are described. Special emphasis is given to Sezam linguistic information retrival system. Its principal features and examples of possible applications are given. Автоматизация технологии процессов обработки и хранения слабоструктурированной разнородной информации и организация эффективных механизмов поиска на базе лингвистической ИПС

Пархоменко В.Ф. , Поляков Ю.П.

Национальная информационная корпорация, Москва, Росси

Эффективность работы большого информационно-аналитического центра, которым является Национальная Информационная Корпорация (НИКО), в значительной мере зависит от двух факторов: оперативного пополнения полнотекстовых баз данных (БД), особенно новостных (например, ТАСС, РИА), и быстрого и точного поиска информации.

В НИКО эти задачи решаются на основе Лингвистической ИПС "Сезам", являющейся дальнейшим развитием идей и методов, реализованных в ИПС АГАМА (1993 г.) и МИРС (1994 г.). Выбор "Сезам" был обусловлен высокой скоростью работы ИПС как при загрузке, так и при поиске, и широким спектром поисковых возможностей, делающих ее незаменимым инструментом для поиска информации в текстовых (особенно полнотекстовых) базах данных. Основные характеристики "Сезам":

  • устойчивая работа в сети Novell;
  • механизмы рестарта загрузки данных после сбоев;
  • практически неограниченный размер БД;
  • размер отдельного документа до 1 Мб;
  • использование точных лингвистических алгоритмов на всех этапах работы;
  • высокая скорость загрузки (8 - 10 Мб/час), модификации данных и поиска;
  • возможность выполнения основных технологических процессов в пакетном режиме (загрузка, модификация данных, оптимизация и слияние БД);
  • сцепление баз данных, например, основной и оперативной;
  • многобазовый поиск (до 20 баз данных);
  • работа как со структурированной (по полям), так и с неструктурированной (произвольные тексты) информацией;
  • богатый язык запросов - формула произвольной сложности,
  • операторы И, ИЛИ, НЕ, операторы ограничения контекста и следования, распознавание при поиске слов с опечатками, поиск однокоренных слов и т. п.;
  • сопровождение документа графическими рисунками произвольного размера;
  • наличие большого числа вспомогательных утилит, помогающих решать насущные технологические проблемы.

В качестве примера рассмотрим решение задачи обработки информации ТАСС, поступающей в НИКО по радиомодему (до 1 МБ в день). Раз в полчаса производится разборка почтового ящика и новые файлы поступают в заданный каталог. Далее работает система конвертирования, разделяющая файлы на отдельные документы - сообщения, распознающая по формальным признакам заголовок и текст документа и автоматически формирующая идентификационные поля, приписываемые к документу. Сформированные документы раскладываются по разным (в зависимости от тематики) каталогам загрузки и немедленно загружаются в оперативные базы данных, сцепленные с основными. В конце недели оперативная база сливается с основной. По такой же схеме обрабатываются документы, поступающие из РИА "Новости" и электронные версии газет.

Такая технологическая схема позволяет иметь доступ к документам немедленно после их поступления. Разделение базы данных на основную и сцепленную с ней оперативную уменьшает вероятность сбоев, ведущих к потере информации.