LibRar.Org.Ua — Бібліотека українських авторефератів


Головна Бібліотечна справа → Анализ применения автоматического индексировани документов в АИС "Информкультура"

рубрикатора, так и слов, извлеченных из текстов заглавий и аннотаций (рефератов). Анализ выдачи на запросы показывает, что и при поиске по запросам достаточно конкретного характера с использованием слов текста в ряде случаев мы не можем достичь желаемого уровня полноты. Для тематики “культура и искусство” выделяются прежде всего две такие группы. 1. Первая группа — запросы, в выдаче на которые должны присутствовать документы, содержащие имена собственные — названия единичных понятий. В лингвистической теории имела место дискуссия о том, можно ли считать собственные имена единицами системы языка. Они не ложатся в систему семантических отношений номинативных единиц языка, их семантику можно описать лишь предельно абстрактно, например, “имя, служащее дл наименования живых существ”. Только употребление в определенном контексте позволяет судить, используется ли собственное имя “Леонардо” как им великого итальянского художника, черепашки ниндзя или любимого домашнего животного. И только будучи интерпретировано контекстуально оно обрастает семантическими связями: со страной, периодом, художественным направлением и т.п., причем эти связи принадлежат области “знаний о мире”, а не “знаний о языке”, которые можно априорно зафиксировать в тезаурусе. Для задач информационного поиска это означает, что если при индексировании запроса, содержащего наименования общих понятий (например, “художники”), мы можем привлечь наименования более узких понятий (“живописцы”, “акварелисты” и т.п.), используя тезаурус, то привлечение собственных имен нельзя подкрепить таким образом. В силу этого в АИС “Информкультура” было принято решение о необходимости восходящего избыточного индексирования собственных имен ключевыми словами, которые вводятся в специальное поле, инвертируемое так же, как поля заглавия и аннотации. Для унификации этой процедуры собственные имена типизированы и для каждого типа предлагается специфический перечень категорий ключевых слов, раскрывающих его семантику в данном контексте. Например, дл собственных имен типа “Персоналия” рекомендуется включать ключевые слова, отражающие сферы профессиональной деятельности человека (“художник”, “искусствовед”) принадлежность к художественному направлению (“маньеризм”, “импрессионизм”), страну проживания и период творчества. Разумеется, эти слова записываются только в случае отсутствия их в тексте, что происходит, как правило, при упоминании достаточно известных деятелей культуры и искусства: в аннотациях естественно выглядят фразы типа “современный московский художник А.П. Крицкий” и почти невероятно — “итальянский художник 16-го века Рафаэль”. Анализ, проведенный на массиве в 539 документов по тематике “Музейное дело и охрана памятников”, показал, что при поиске по запросам первого типа применение методики дополнительного индексирования ключевыми словами документов, содержащих собственные имена, позволяет улучшить показатели полноты выдачи в среднем в 1,5 раза. 2. Вторая группа — запросы, в выдаче на которые должны присутствовать документы, содержащие описания различных периодов протекания описываемых процессов и явлений. Этот тип поиска представляет самую большую проблему при использовании ИПЯ дескрипторного типа, поскольку хронологические характеристики чаще всего задаются в числовой форме, причем эту проблему нельзя решить удовлетворительно использованием приписного индексирования по заданному списку периодов. Слишком велико количество и разнообразие хронологических характеристик в документах по культуре и искусству, особенно по тематическим направлениям “Изобразительное искусство” и “Музейное дело и охрана памятников”. Специфика их такова, что адекватно их можно представить в виде числовых интервалов. Как правило, и в документах они фигурируют именно в такой форме, например: “...творчество Пикассо в период 1900-1906 гг.” Формулировки, содержащие одно число, чаще всего также подразумевают период: 19 век, 30-е годы и т.п. Исключение составляют лишь обозначени конкретных дат, которые можно также интерпретировать как интервал с совпадающими верхней и нижней границей. В АИС “Информкультура” ввиду высокой значимости хронологических характеристик было принято решение вводить их в числовой форме в два подполя повторяющегося поля “Хронология”. При поиске рекомендуетс сравнивать начало и конец искомого интервала с имеющимися в документах, причем для достижения приемлемой полноты выдачи стратегия поиска предполагает отбор интервалов, как полностью вложенных в искомый (“начало — позже, конец — раньше”: например, если искомый интервал 1801-1849 гг., нужно отобрать документы, в которых рассматриваются интервалы типа 1810-1819, 1801-1825 и т.п.), так и пересекающихся с искомым (“начало — раньше, конец — раньше” или “начало — позже, конец — позже”, а возможно и “начало — раньше, конец — позже”, но не более чем на заданное число). Для корректного сравнения при таком поиске необходимо, чтобы программное обеспечение позволяло сравнивать данные поля ”Хронология” как числа, так как сравнение их как символьных цепочек даст неверные результаты: цепочка ASCII символов “20” интерпретируется при сравнении как большая, чем “1961”. Используемые нами программные средства имеют в этом плане ограничения: MINISIS не обрабатывает отрицательные числа, которые используются для записи дат до нашей эры (и с этим пришлось смириться), а CDS/ISIS/M не позволяет сравнивать как числа следующие за первым повторы поля. Для снятия этого ограничения Г.А. Крехтуновой была написана специальная программа на встроенном языке Pascal. Особую проблему представляет использование числовых интервалов в тех случаях, когда в документах они выражены неявно, с помощью словесных формулировок: “эпоха барокко”, “Высокое Возрождение” и т.п. Индексаторам приходится интерпретировать эти формулировки с помощью числовых интервалов, руководствуясь контекстом документов, собственными знаниями и обращением к справочным изданиям. Это затрудняет и замедляет их работу, поскольку эти формулировки интерпретируются по-разному в зависимости от привязки, например, к стране: эпоха барокко во Франции имеет другие хронологические рамки, чем в России. В связи с этим планируется разработка терминологического пособия, включающего такие формулировки с интерпретацией их в виде числовых интервалов с соответствующими методическими примечаниями относительно их использования.