LibRar.Org.Ua — Бібліотека українських авторефератів

Загрузка...

Головна Бібліотечна справа → Создание нормативного авторского файла и автоматический анализ сведений об ответственности в библиографической записи

Создание нормативного авторского файла и автоматический анализ сведений
об ответственности в библиографической записи

Creation of Authority Files and Automated Analysis of Statements of Responsibility
in Bibliographic Record

Створення авторитетних файлів та автоматизований аналіз відомостей
про відповідальність у бібліографічному записі

Орлова Т.Д., Смирнова М.Н., Шершова А.В.

Институт научной информации по общественным наукам РАН (ИНИОН), Москва, Россия

Orlova T.L., Smirnova M.N., Shershova A.V.

Institute for Scientific Information on Social Sciences of Russian Academy of Sciences (INION), Moscow; Russia

Орлова Т.Л., Смирнова М.Н., Шершова А.В.

Інститут наукової інформації суспільних наук, Москва, Росія

В докладе рассматриваются вопросы создания нормативных файлов в автоматизированной информационной системе по общественным наукам (АИСОН). В качестве первого шага представлена методология автоматического извлечения имен из сведений об ответственности. Предлагается способ автоматического определения роли лица в подготовке издания и анализируются результаты экспериментов.

The paper discussed the problems of authority files creation in the automated information system on social sciences (AISON). As a first step the methodology of automated extracting of names from the statement of responsibility is considered. The paper presents the way of automated identification of persons’ roles in edition (relation codes). Some experimental results are described.

У роботі розглянуті проблеми створення авторитетних файлів в AISON та змальовані деякі експериментальні результати.

Тематика, способы формирования нормативного авторского файла (НАФ), структура и объем его записи определяются конкретными задачами информационных систем. В автоматизированной информационной системе по общественным наукам (АИСОН), действующей с 1980 г. и имеющей в настоящее время объем БД свыше 2 млн. записей (с ежегодным пополнением в 100 тыс. записей) в качестве первого шага планируется создание НАФ на основе существующей политематической БД.

Анализ элементов данных библиографической записи (БЗ) АИСОН и соответствующих данных в НАФ (1) позволяет сделать вывод о возможности автоматического извлечения из БД следующих видов информации:

- фамилия и инициалы лица, принимавшего участие в подготовке издания (с учетом параллельных сведений на других языках),

- полное имя некоторых лиц (авторов и редакторов, сведения о которых отражаются в добавочных),

- полное имя (имя и отчество) некоторых категорий лиц (например, лиц духовного звания - при использовании соответствующего нормативного файла,

- дополнительные сведения о лицах,

- роль лица в подготовке издания.

Также возможно автоматизировать определение некоторых типов связей между сведениями, относящимися к одному лицу (в рамках одной записи): полного имени (имени и отчества) и инициалов, однородных сведений на разных языках.

В БЗ АИСОН, как и во многих информационных библиографических и библиотечных системах, сведения о лицах представлены в записи в различных элементах данных с разной полнотой и степенью формализации. По принятым в АИСОН правилам сведения об авторах приводятся в начальной (поисковой) форме в заголовке описания) в сведениях об ответственности, в сведениях о добавочных описаниях, в полях именного указателя. При этом только в сведениях о добавочных и только для категорий иностранных авторов приводится полное имя лица. Сведения об ответственности отражают сведения о лицах так, как они даны на документе (с сопроводительными словами, определяющими роль лица в подготовке издания, не всегда в начальной форме). Преобразования сведений в сравнении с документом сводятся к сокращению числа приводимых имен лиц, сокращению имен до инициалов и изменению (в необходимых случаях) последовательности приведения сведений, а также к использованию принятых сокращений - в соответствии с правилами библиографического описания (БО) (2). В именном указателе и сведениях о добавочных в поисковой форме дублируются имена лиц, содержащихся в "Сведениях об ответственности" (на основе экспертной выборки). Сведения о лицах, участвовавших в подготовке издания, содержатся также в параллельных сведениях об ответственности, в примечаниях (например, для переводов, при отражении содержания сборников) и других элементах ВО. Более сложные, но аналогичные по содержанию элементов данных, структуры записи отражают сведения о лицах в многочастевых ВО: рецензиях, рефератах, многотомниках и т.д. (3).

В соответствии с вышеприведенными особенностями представления сведений о лицах в БЗ АИСОН была разработана методика автоматического извлечения и преобразования в начальную форму имен лиц и других сведений о них из БЗ АИСОН. Методика позволяет осуществлять следующие операции (на данном первом этапе работы):

- извлекать имена лиц из "Сведений об ответственности" и других элементов данных БЗ,

- нормализовать форму фамилии лица (в случае необходимости - если фамилия приведена не в начальной форме, пока только для русского языка),

- определять роль лица в подготовке издания и присваивать ему код отношения в соответствии с (4).

Другие вопросы - идентификация связи инициалов и полного имени, параллельных сведений, а также создание механизма связи между НАФ и БД - отнесены на второй этап разработки методики. Алгоритм автоматического извлечения сведений о лицах из элемента "Сведения об ответственности" базируется на следующих процедурах:

1. анализ структуры текста "Сведений об ответственности": выявление фрагментов текста; содержащих однородную информацию,

2. определение наименований коллективов (по ключевым словам в наименовании коллективов, в необходимых случаях с привлечением списка наименований коллективов),

3. распознавание имен лиц (в соответствии с определенными структурами имен: фамилия и инициалы, частицы, артикли и т.п.),

4. внутри фрагмента имен лиц - поиск сопроводительных слов, определяющих роль лица в подготовке издания (редактор, составитель, художник и др.),

5. анализ сопроводительных слов и определение роли лица, присвоение кода роли лица,

6, анализ сопроводительных слов для выяснения необходимости преобразования формы фамилии - приведения ее к начальной, поисковой форме,

7. формирование начальной формы фамилии (при необходимости),

8. окончательный вывод имен в структуре: фамилия + инициалы, код роли лица - в соответствующие поля записи (приводятся также имена с нераспознанными ролями).

Алгоритм базируется на следующих основных информационных материалах:

1. структуры имен лиц,

2. сопроводительные слова ( по языкам) с соответствующим кодом роли лица и указанием наиболее вероятного падежа фамилии (именительный - другие падежи),

3. таблица соответствия окончаний фамилий (именительный - другие падежи),

4. ключевые слова для определения наименования коллектива. Результаты экспериментальной проверки работы алгоритма на массиве 100000 БЗ ив БД АИСОН (тематика - экономика, философия, литературоведение) показали достаточно высокую разрешающую способность алгоритма - правильно распознавались и преобразовывались около 90^ имен лиц (на массиве записей на русском языке), для других языков такая же статистика характерна для определения роли лица.

Следует отметить, что в сведениях об ответственности в ВЗ АИСОН приводятся фамилии и инициалы, что значительно упростило задачу идентификации имен лиц. Для случаев, когда в записи приведены полные имена или имена в структуре нерасчлененного представления фамилии и собственно имени (восточные языки) следует применять другие механизмы распознавания имен, в частности, использовать справочники имен или (в будущем) данные НАФ, что уже возможно, в частности, для авторов особых категорий.

Программно-технологический комплекс автоматического анализа сведений об ответственности включает исследовательские программы для проведения экспериментальных работ, что позволяет пополнять и корректировать информационные материалы, статистически анализировать результаты работы программ.

Таким образом, в системах, обладающих представительными по объему, жанровому и языковому составу БД, формирование НАФ целесообразно осуществлять с использованием методики автоматического извлечения из- записей сведений о лицах, принимавших участие в подготовке издания (как в режиме ретроспекции, так и на текущим вводе). В качестве первого шага предложены алгоритм и программа анализа "Сведений об ответственности" (и других элементов БЗ, где приводятся сведения о лицах). Дальнейшие направления работы ориентированы на установление связей между данными об одном лице в рамках одной записи, на автоматизированные процедуры идентификации лиц по разным записям, формирование механизмов связи между НАФ и БД (с учетом ролей лиц в подготовке издания), а также на создание комплекса выходных форм на основе НАФ и БД. Аналогичные программно-технологические материалы готовятся и для нормативного файла коллективов. Следует отметить, что представленная методика анализа имен лиц может быть использована при решении задач реконверсии каталога, при использовании внешних БД, в других информационных системах с настройкой на формат ВЗ, а также для автоматического анализа текстов библиографического описания (например, при создании указателей цитированной литературы).

Литература

1. Российский коммуникативный формат представления авторитетных нормативных записей : (Российская версия UNIMARC / Authorities) / Министерство культуры РФ, Российская библиотечная ассоциация. - Б.м. : Б. и., 1997. - Разд. пат.

2. Единые правила библиографического описания произведений печати. - Москва : Книга, 1986. - 4.1. Книги и сериальные издания.

3. Смирнова М.Н., Шершова А.В. Структура библиографического описания в форматах библиографической записи // Теория и практика общественно-научной информации / РАН. ИНИОН. - М., 1995, вып. II, с.135-154.

4. Коды отношения // Российский коммуникативный формат представления библиографических записей в машиночитаемой форме : (российская версия UNIMARC) : (книги и сериальные издания) / Министерство культуры РФ, Российская библиотечная ассоциация. - Б.м. : Б.и., 1997. - Приложение С.

Copyright © 1995-98 ГПНТБ России