LibRar.Org.Ua — Бібліотека українських авторефератів


Головна Бібліотечна справа → Библиографические базы данных, содержащие ссылки на полный текст документа

Библиографические базы данных, содержащие ссылки
на полный текст документа
Bibliographic Databases with Full Texts References
Бібліографічні бази даних, що містять посилання
на повний текст документа
Ковязина Е. В.
Институт вычислительного моделирования СО РАН, Красноярск, Россия
Elena V. Kovyazina
Institute of Computational Modeling SB RAS, Krasnoyarsk, Russia
Ковязина О. В.
Інститут обчислювального моделювання СВ РАН, Красноярськ, Росія

Доклад посвящён особенностям создания и поддержки библиографических баз данных, содержа-
щих ссылки на полный текст документа в виде URL или имени файла. Представлен опыт их фор-
мирования в библиотеке ИВМ СО РАН. Описаны программные разработки, предназначенные для
автоматизации создания библиографических описаний по полному тексту документа и конвертиро-
вания этих описаний в систему ИРБИС.
The report is devoted to the bibliographic databases with full texts or with Internet references to full texts.
The experience the library of ICM SB RAS is presented. Software for the automation of the full text bib-
liographic description is presented.
Доповідь присвячено особливостям створення та підтримки бібліографічних баз даних, що містять
посилання на повний текст документа у вигляді URL або імені файлу. Представлено досвід їх фор-
мування у бібліотеці ІВМ СВ РАН. Описано програмні розробки для створення бібліографічних
описів за повним текстом документа у автоматизованому режимі та конвертування цих описів у
систему ІРБІС.

Наиболее востребованной формой информационного обслуживания читателей библиотеки яв-
ляется предоставление им полного текста необходимого документа в электронном виде. Предвари-
тельно нужно отыскать такой документ среди других, имеющихся на сервере библиотеки или в
сети Интернет. Необходимым условием эффективности такого поиска является наличие стандарт-
ных описаний таких документов, собранных в единую базу данных или несколько баз данных,
разделенных по тематическому признаку. Вследствие этого, актуальным направлением работы
научной библиотеки является формирование библиографических баз данных, в каждой записи
которых содержится ссылка на полный текст документа. В публикациях часто принято называть
такие базы данных полнотекстовыми, хотя они не являются таковыми в полном смысле этого
слова, так как обычно в них не предусмотрен поиск по всему тексту документа, что является одним
из основных признаков полнотекстовой базы данных. Для обеспечения многоаспектного поиска по
документу в таких базах данных требуется описание его содержания в ключевых словах, предмет-
ных рубриках и т. п.
В библиотеках научно-исследовательских учреждений или вузов такие базы данных могут
быть условно разделены на две группы, в зависимости от того, кем и где опубликована работа:
1. Базы данных, производимые организацией (труды сотрудников, публикации организа-
ции)
2. Базы данных, потребляемые организацией (тематические базы данных, формируемые
в соответствии с направлениями исследований организации или её отдельных подраз-
делений)
Полные тексты документов при этом хранятся в виде файлов различных типов в локальной се-
ти организации или представляют собой URL-ссылки на ресурсы, находящиеся в сети Интернет.
Заметим, что если локальная сеть построена по технологии Ethernet, то документы, хранящиеся на
серверах локальной сети, не отличаются доступом от ресурсов Интернет.
Возможности серверов корпоративной сети Красноярского научного центра СО РАН позволя-
ют хранить достаточно большое количество информации. В Институте вычислительного модели-
рования СО РАН дисковое пространство предоставляется в пользование сотрудников научных
подразделений и служит для хранения информации, как собственного производства, так и найден-
ной в Интернет. Существенную часть этой информации составляют научные статьи и книги. В
течение ряда лет эта информация просто накапливалась без сортировки и использовалась каждым
сотрудником индивидуально по мере необходимости. В результате был стихийно сформирован
обширный банк полезной информации, которая не могла далее быть эффективно используема
вследствие большого объема и отсутствия средств поиска. Администрацией институтов была
инициирована работа по сортировке имеющихся публикаций. В результате этой работы объем
информации был существенно сокращен вследствие устранения дублирования и удаления утра-
тивших актуальность публикаций. Из получившегося объема документов были выделены ресурсы
собственного производства (статьи, монографии), которые были внесены в базу данных трудов
сотрудников института и публикаций института. Оставшиеся документы были разделены по
тематике направлений исследования Института и переданы в библиотеку для формирования
тематических баз данных.
Для ведения библиографических баз данных в институте применяется АБИС ИРБИС, где для
привязки файла, содержащего полный текст документа, используется повторяющее поле, в кото-
ром документ описывается как файл или URL. Для базы данных безразлично, в каком формате
хранится такой файл. Напротив, для публикации ресурсов в сети Интернет необходимым является
требование, чтобы формат, в котором хранится файл, поддерживался большинством броузеров
Интернет, хотя следует отметить, что современные технологии определяют возможность понима-
ния любых форматов, если на компьютере имеется соответствующее программное обеспечение.
Таким образом, для обеспечения совместимости документы, предназначенные для обработки,
представлены ограниченным набором форматов, а именно, HTML, PDF и PostScript — для текстов,
JPEG и GIF — для графики.
Так как количество документов очень велико, наиболее актуальным является уменьшение тру-
дозатрат при формировании баз данных. Снизить эти затраты могла бы автоматизация описания
электронных документов. В процессе решения этой задачи были выделены три последовательных
этапа автоматизации:
1. Распознавание в тексте документа отдельных элементов библиографического описа-
ния
2. Конвертирование выделенных элементов в формат хранения АБИС
3. Редактирование и дополнение полученных автоматически описаний средствами
АБИС.
Редактирование и дополнение описаний производилось вручную уже после конвертирования
их в АБИС и технологически не представляло проблем. На этапе конвертирования в результате
работы программы из выделенных элементов описания формировалась текстовая строка в формате
ИРБИС, которую затем импортировали в систему из текста. Элементы описания готовились в
текстовом виде и разносились по полям вне зависимости от того, из какого файла они были полу-
чены. Следовательно, на данном этапе программное обеспечение было едино для файлов различ-
ных форматов.
С наибольшим количеством проблем пришлось столкнуться на этапе распознавания и выделе-
ния элементов. Во-первых, форматы файлов принципиально различны, следовательно, для обра-
ботки файлов различных форматов требовались и абсолютно различающиеся