LibRar.Org.Ua — Бібліотека українських авторефератів


Головна Бібліотечна справа → Англо-русский тезаурус по сохранности документов и некоторые особенности его составления

260 Пименов Е. Н. Англо-русский тезаурус по сохранности документов и некоторые особенности его составления В технологии документальных баз данных и, в том числе, в работах по индексированию и составлению тезаурусов есть много различий, обусловленных тем, что имеется несколько типов БД и тем, что системы работают и создаются в различных условиях. Особенно много различий имеется между технологиями крупных универсальных автоматизированных библиотечно-информационных систем (АБИС) и, с другой стороны, небольшими и обычно специализированными документальными базами данных. Далее эти два класса систем мы будем именовать сокращениями МБД -- от малые базы данных или базы данных малого объема и ББД -- большие БД или базы данных большого объема . В этой работе рассматривается взаимодействие разных параметров и характеристик системы при разработке тезауруса по сохранности документов. В состав лингвистических средств базы данных по обеспечению сохранности документов (БД ОСД, содержит по состоянию на май 2001 г. около 12 тыс. библиографических записей) входят: · семантически сильный информационно-поисковый тезаурус (ИПТ), включающий в настоящее время 5120 английских и русских ключевых слов (КС), из которых 1674 КС составляют дескрипторы; · схема предметной области, имеющая вид тематического рубрикатора информации; · детальная и хорошо апробированная методика индексирования документов; · программа автоматизированного индексирования информации (АИ), разработанная в БАН для программной среды ППП CDS/ISIS. Два указанных класса систем в основном различаются по таким их технологическим характеристикам. Преимущественное назначение или использование документальной системы. За исключением БД типа АРМ библиографа, предназначенных для компьютерной подготовки библиографических указателей и распечатки библиографических карточек, основным назначением МБД является проведение тематических поисков. Проведение адресных поисков по заглавиям, авторам и другим форматным полям документов является более характерным для ББД и в малых системах является редкостью. 261 Информационно-поисковый язык базы данных. Основным языком индексирования информации в большинстве МБД являются жестко нормализованные или слабо нормированные ключевые слова. В крупных универсальных системах, и особенно -- класса АБИС, для обработки и поисков информации в основном применяются ББК, УДК, рубрикатор ГАСНТИ и другие классификационные ИПЯ, а ключевые слова здесь обычно являются лишь вспомогательным средством информационного поиска. Указанные выше различия в преимущественном назначении баз данных влияют на глубину индексирования и степень нормализации КС. ВМБД глубина индексирования и уровень нормализации лексики в ПОДах обычно являются более высокими, чем в крупных универсальных системах. По нашему мнению, имеется тесная связь между основным ИПЯ базы данных и характером наиболее массовых информационных запросов в системе. Так, например, в МБД по огнеупорным изделиям и материалам [1], бывшей в промышленной эксплуатации около 18 лет, из 5 тыс. проведенных за данный период ретроспективных поисков информации, адресных поисков по фамилиям авторов и наименованиям первоисточников было не более 20, поиски по заглавиям не проводились, и практически не было поисков (кроме экспериментальных) по индексам УДК и МКИ. Из приведенной статистики вытекает, что большое количество адресных поисков, выполняемых в крупных АБИС, в действительности имеет, видимо, тематический характер. Так, адресный поиск по авторам или заглавиям работ может на самом деле быть тематическим, если он выполняется с целью подбора литературы по нужной читателю теме. Объемобрабатываемойинформации.Прибольшихобъемахработы, особенно если она выполняется в короткие сроки и при некомплекте штатов БД (а это -- обычная ситуация в крупных системах), индексирование ключевыми словами, для сокращения его трудоемкости, можетв значительной степени упрощаться и результаты индексационных работ могут быть недостаточно качественными. Малый объем обрабатываемой информации обусловливает многие преимущества, в частности, более высокое качество индексирования в специализированных МБД. Состав документов. В большей части малых систем главная часть индексируемой информации (в некоторых случаях доходящая до 100 %) приходится на аналитические записи, а количество обрабатываемых книг обычно является не очень большим. Уровень специфичности содержания и индексирования текстов заглавий статей выше, чем уровень специфичности заглавий книжных изданий. Последним обычно 262 определяется большая глубина индексирования информации в МБД. Особенности комплектования системы. В ББД, особенно в базах данных класса АБИС информация обрабатывается и, в том числе, индексируется с использованием первоисточников, то есть de vizu. Индексаторы в МБД очень часто работают со вторичными источниками информации в виде библиографических указателей, списков и картотек очень разного, иногда невысокого качества и основанных на разных стандартах, отечественных и зарубежных. Поскольку в этих условиях в малых системах может отсутствовать простая физическая возможность индексирования информации de vizu, здесь в более преимущественном положении находятся ББД. Трудоемкость и стоимость документального ввода. По литературным данным средняя стоимость каталогизации одной книги (вместе с работой по индексированию информации) в Библиотеке Конгресса США оценивается в $50, а общие затраты на каталогизацию книг сравнимы с затратами на комплектование [2]. Затраты на ввод информации в МБД должны быть заведомо меньшими, а сокращение трудоемкости индексирования ключевыми словами в ББД иногда достигается путем уменьшения глубины или каких-то других показателей качества индексирования. Штаты и квалификация персонала. Крупные базы данных имеют или по крайней мере должны иметь в своих штатах необходимое количество специалистов высокой квалификации: программистов, операторов подготовки данных, каталогизаторов, систематизаторов, специалистов по индексированию и разработке тезаурусов. В МБД -- ситуация иная. Здесь все работы по комплектованию, систематизации, подготовке данных и др. иногда выполняются силами 2-3 человек и при этом не во всех МБД информацию индексируют специалисты-предметники. Квалификация персонала во многом зависит от уровня финансирования разработок систем и поэтому может быть разной в разных системах. Предметная область документальной системы. Этот аспект рассмотрения проблем индексирования и разработки тезаурусов детально рассматривается в [3]. Далее на лингвистическом материале терминологически неразложимых КС в этой работе показывается, что критерии определения таких единиц, как и другие правила разработки тезаурусов, устанавливаются (или должны вырабатываться) с учетом взаимосвязи большого числа лингвистических, технологических, прагматических и других факторов или 263 условий работы систем разного типа и назначения. Тезаурус по проблемам сохранности документов