LibRar.Org.Ua — Бібліотека українських авторефератів


Головна Бібліотечна справа → Анализ применения автоматического индексировани документов в АИС "Информкультура"

Анализ применения автоматического индексировани документов в АИС “Информкультура” Analysis of automatic indexing practice in automated information system “Informkulturs” Литвинова Н.Н. Российская государственная библиотека, Москва, Росси Litvinova N.N. Russian State Library, Moscow, Russia Analisys is given of word-by-word automatic indexing of titles and annotations (abstracts) of documents in IRS “Informkultura”. The need for classification language to enhance recall and precision is stressed. Presented are specific types of concept names in documents on culture and arts which fail to be retrieved effectively using automatic indexing. Additional intellectual processing of these types is suggested. It implies using keywords naming broader concepts for unique names and numeric data for chronological characteristics. Со времен разработки первых автоматизированных информационных систем (АИС) в них конкурируют два метода индексирования документов: дериватный и приписной. Первый метод ориентирован на план выражения текста и основан на извлечении из него для включения в поисковый образ документа (ПОД) семантически значимых элементов, присутствующих в нем. Этот подход хорошо формализуем и применяется в многочисленных системах автоматического индексирования. Второй метод основан на анализе плана содержания текста и “приписывании” ему лексических единиц (ЛЕ), выражающих его содержание, которые могут не совпадать в плане выражения с лексикой индексируемого текста. Для облегчения и унификации процесса приписывания ЛЕ они, как правило, задаются в некоем фиксированном списке (таблицах классификационного языка, словаре или тезаурусе дескрипторного). Оба подхода имеют свои достоинства и недостатки, которые разработчики АИС всякий раз оценивают с точки зрения потребностей конкретной системы дл принятия обоснованного решения о выборе одного из этих подходов. Комплексный анализ их выходит за рамки настоящего доклада, однако на некоторых достоинствах и недостатках необходимо остановиться дл обоснования решений, принятых в АИС “Информкультура”. Пожалуй, основным недостатком приписного индексирования является то, что оно предполагает большие затраты интеллектуального труда при обработке документов на входе, при разработке и ведении списков ЛЕ, принятых дл индексирования (словарей контролируемого ИПЯ), а также средств смыслоотождествления при поиске. При этом достижение хороших результатов при поиске информации возможно только при хорошем знании применяемого ИПЯ: его структуры, особенностей организации лексики, специфических условных решений разработчиков языка. Очевидно, что такое знание возможно только при достаточно длительном и заинтересованном знакомстве с языком. Современный пользователь, осуществляющий поиск без информационного посредника и как правило, в нескольких базах данных, не в состоянии детально изучить используемые в них языки, а значит, обречен на неудовлетворительные результаты поиска. Использование пословного индексирования текста имеет в этом плане преимущество: этот подход универсален и не требует от пользовател “интелектуальной настройки” на ИПЯ конкретной базы данных. От разработчиков же он не требует предварительной разработки ИПЯ или его освоения, если используется существующий. Поэтому широкое распространение в библиографических базах данных получили ИПЯ дескрипторного типа с неконтролируемой лексикой. Они реализуются, как правило, на программных продуктах, позволяющих извлекать из текстов в файлы быстрого доступа единицы текста, которые затем используются при поиске. Способы извлечени варьируются от простейших (слова от пробела до пробела) до самых сложных, использующих наборы словарей и развитые алгоритмы семантико- синтаксического анализа текста, позволяющие выделять терминологические словосочетания в канонической форме и эксплицировать их текстуальные отношения. В АИС “Информкультура” для библиографических БД применяетс программное обеспечение ISIS в двух модификациях: MINISIS для мини-ЭВМ HP- 3000 и CDS/ISIS/M для персональных компьютеров. Оба позволяют извлекать слова из заданных полей (заглавие, аннотация и др.), отсеивая при этом неинформативные слова, перечисленные в специальном словаре стоп-слов, и учитывать отношения соседства между словами. Используя этот ИПЯ нам удалось добиться приемлемых показателей полноты и точности поиска в режиме промышленной эксплуатации, однако для этого пришлось разработать некоторые средства компенсации недостатков ИПЯ дескрипторного типа с неконтролируемой лексикой. Известно, что индексирование запросов, ориентированных на использование ИПЯ описанного типа, представляет значительную сложность. Нельз удовлетвориться выделением значимых слов из текста запроса, необходимо предусмотреть все возможные варианты выражения нужного смысла в текстах введенных документов, привлечь наименования понятий, связанные с исходными парадигматическими отношениями, то есть осуществить избыточное индексирование запроса. Например, при обработке запроса об изготовлении музыкальных инструментов необходимо привлечь названия конкретных инструментов и их групп (струнные, клавишные и т.п.), учтя при этом и синонимы. Этот процесс существенно облегчается, если имеется специально разработанный информационно-поисковый тезаурус (в АИС “Информкультура” используются три тезауруса по тематике культуры и искусства). Однако при индексировании широких тематических запросов такая процедура становитс слишком сложной: изобретение все новых вариантов выражения нужного смысла в текстах документов делает поисковое предписание слишком громоздким и в то же время не гарантирует полноты их перебора. Как, например, предусмотреть все варианты выражения в текстах документов содержания, релевантного запросам “Теория музыки” или “Музыка в системе культуры”? Теоретический жанр документа, как правило, определяется не употреблением в нем каких-то специфических слов, а широким контекстом, всем стилем написания документа. Поэтому наряду с ИПЯ дескрипторного типа во многих системах используются и языки классификационные, с неглубоким уровнем детализации. В АИС “Информкультура” применяется отраслевой рубрикатор, являющийс модификацией рубрикатора РАСНТИ, с шестью уровнями детализации. Больша часть запросов, выполняемых в рамках системы избирательного распространения информации, индексируется по рубрикатору в силу достаточно общего их характера. Разовые же запросы обслуживаются с использованием как