LibRar.Org.Ua — Бібліотека українських авторефератів


Головна Бібліотечна справа → Библиографические базы данных, содержащие ссылки на полный текст документа

программы. При
определении возможности автоматизации были визуально исследованы имеющиеся документы с
целью выяснения признаков, по которым можно выделить отдельные элементы библиографическо-
го описания. Для исследования были выбраны документы в форматах HTML и PDF, как наиболее
часто используемые. Выяснилось, что для распознавания требуется не только указание формата, но
и тип документа — является ли оно книгой или статьей из журнала или сборника, так как два этих
типа документов имеют различный стиль оформления. Были проведен анализ наиболее типичного
оформления документов для каждого типа и последующего выделения элементов библиографиче-
ского описания по шрифту, местоположению в тексте или контексту. При визуальном исследова-

2
нии выяснилось, что выделение по внешнему виду возможно, причем не всегда однозначно опре-
делено, только для следующих элементов:
1. Заглавие
2. Авторы (разделялись по запятой)
3. Описание источника статьи (журнал или сборник): заглавие, том, номер, год
4. ISBN
или ISSN (путем поиска соответствующего вхождения)
5. URL
или имя файла и путь
6. Ключевые слова, если они выделены соответствующим словом (keywords или ключе-
вые слова)
7. Аннотация, если она размещена после заглавия
При просмотре кодов HTML определились два различных вида документов, в соответствии с
которыми и производилась их обработка:
1. Документы, не имеющие содержательных метаданных
2. Документы с метаданными
В документах первого вида распознавание производилось по тэгам или контексту. При этом
работа осложнялась различиями в оформлении статей, для которого не существуют никаких
оговоренных последовательностей написания отдельных частей, входящих в библиографическую
запись. Оформление электронных статей обычно повторяет оформление соответствующего печат-
ного издания, если оно есть. Как следствие, выделенные элементы данных часто не соответствуют
действительности. К счастью, хорошим тоном становится снабжение электронных страниц мета-
данными, определяемыми в html-кодах тэгом META, что позволяет отнести их ко второму типу.
Следует отметить, что руководствоваться только тэгом META нельзя, так как такие команды часто
формируются различными инструментами моделирования страниц и содержат только сведения о
самом таком инструменте. Необходима проверка того, что данный тэг содержит необходимые
пары имя-значение, а именно параметр name должен содержать значение author, description,
language_of_resource, originator, subject и т. п., определяемые языком HTML. Тогда параметр content
содержит значение соответствующего элемента библиографического описания. Продвинутые
электронные издания, предоставляющие статьи в html-виде, снабжают их метаданными в формате
Dublin Core Metadata Element Set. Характерным признаком этого формата является то, что все
значения параметра name начинаются с «DC. «, а далее следует имя элемента, определенное стан-
дартом. Инструкция на русском языке по формированию метаданных электронного документа
(краткая форма) содержится на сайте Российской государственной библиотеки по адресу:
и содержит перечень имен элементов, используемых в метаданных,
и пояснения к ним. Наличие метаданных позволяет значительно расширить количество элементов
библиографического описания и получить в результате более полную запись, не прибегая к анали-
зу текста документа. Пример части документа на языке HTML, содержащий тэги метаданных,
приведен на рисунке (см. ниже).
Формат PDF не содержит метаданных. Однако принятой в Интернет формой хранения таких
документов является описание документа на странице, содержащей затем ссылку на файл PDF.
Если такая страница имеется, то, как правило, метаданные содержатся в ней и могут быть извлече-
ны теми же средствами, что и из HTML-файла. Текст статьи в формате PDF хранится в закодиро-
ванном виде, поэтому при работе с этим форматом статья сначала копировалась в буфер обмена из
Acrobat Reader, а затем по тексту из буфера производилось распознавание. Возникающие в даль-
нейшем проблемы не отличаются от таковых для HTML-файлов без метаданных.
Для обработки была выбрана тестовая совокупность статей, хранящихся на сервере библиоте-
ки ИВМ СО РАН, в количестве 204 документов. Метаданные имелись в 12 статьях, все они были
корректно обработаны и преобразованы в записи ИРБИС. В статьях без метаданных вся совокуп-
ность признаков была выделена только из 62 статей. В оставшихся статьях отчетливо выделялось
только заглавие и URL, иногда авторы. Из этого следует сделать вывод, что только около одной
трети имеющихся в Интернет статей поддается автоматизации описания. Следовательно, эффек-
тивность применения такого программного обеспечения достаточно низка, хотя существуют еще
возможности дальнейшего улучшения программы и повышения качества полученных описаний.
Все же следует отметить полезность использования данной программы, так как кроме автоматиче-
ского выделения элементов описания программа позволяет выделять элементы вручную в собст-

3
венном окне редактирования и разносить их по полям описания, что несколько ускоряет работу с
документом.



Все описанное относится к этапу формирования баз данных. Но существует также и проблема,
связанная с обслуживанием уже сформированных баз данных, содержащих URL в качестве ссылки
на полный текст документа. Она связана с тем, что ссылки на Интернет-страницы подвержены
утрате актуальности по различным причинам: смена Интернет-провайдера и, как следствие, смена
сетевого адреса, перенос информации на другой сервер, потеря информации в связи с порчей и т. п.
Все эти причины могут привести к тому, что существенная часть ссылок на полный текст может
оказаться утраченной, что приведёт к падению ценности всей базы данных. Для того чтобы избе-
жать этого необходимо производить регулярное тестирование ссылок, используя затем получен-
ную информацию для корректировки данных, содержащихся в записях. В сети Интернет имеется
множество готовых средств тестирования ссылок, однако все они тестируют Web-страницу, т. е.
документ в html-виде, что не годится для использования внутри базы данных. Данные АБИС
ИРБИС хранятся в текстовом виде в файлах *.mst, поэтому для анализа базы данных подошла бы
программа тестирования, позволяющая выделить URL внутри текстового файла. При наличии
такой программы решение этой задачи разделяется на следующие шаги:
1. Выделить все имеющиеся в базе данных URL
2. Протестировать их и сохранить статистику тестирования
3. Определить параметры тестирования, в том числе и временные, и способы реагирова-
ния на них (удалить ссылку, откорректировать ее, провести поиск новой ссылки и т.п.)
4. Произвести корректировку базы данных
Работа по созданию программного обеспечения для обслуживания базы данных ведется в Ин-
ституте вычислительного моделирования СО РАН, а ее результаты будут представлены в дальней-
шем.

4