LibRar.Org.Ua — Бібліотека українських авторефератів


Головна Бібліотечна справа → Археологическая литература стран СНГ в пространстве Сети: подход и реализация

средних веков, осно-
ванные на археологическом материале труды по истории науки и техники, работы по смежным дисциплинам
— эпиграфике, сфрагистике, геральдике, исторической географии. Включены основные работы по четвер-
тичной геологии, палеогеографии и палеодемографии, а также по этнографии и языкознанию, содержание
которых связан с проблемами археологии. В БД включены работы иностранных авторов, опубликованные в
РФ и СНГ. Добавлен раздел «Археология нового и новейшего времени». Но не отражены буклеты и статьи
из популярных изданий на языках народов РФ и СНГ. Издания на белорусском и украинском языках, при
отсутствии русских резюме или оглавления, описаны на языке подлинника, фамилии авторов приводятся в
русской транскрипции. Литература на европейских языках приводится в подлиннике, фамилии авторов
даются на языке оригинала и русском. Тезисы докладов различных конференций, не расписываются. Все
библиографические описания составлены по ГОСТ 7.1—84
Пользователи БД могут подобрать нужную информацию по указателям археологических культур и па-
мятников, смежным дисциплинам, предметному указателю, указателям по месту издания, издающим
организациям и издательств, названиям расписываемых статей, указатель персоналий.
БД «Археологическая литература стран СНГ», поступившая в Отдел БАН при ИИМК 1998—2005гг. «
пополняется ежедневно, на 15 марта 2005 года она насчитывает 17894 записей, лучший способ сделать ее
доступной и ввести в широкий научный оборот — открыть доступ через Интернет.
www.ban.ru
Для представления БД на Web-страницах используются два основных способа: статическая и динамиче-
ская публикация Web-страниц с информацией из БД.
Динамическая публикация используется если необходимо публиковать информацию БД в реальном
масштабе времени. Например, в системах электронной коммерции и бизнес-информации. В этом случае
Web-страницы создаются после поступления запроса на Web-сервер, который передает запрос на генерацию
этих страниц программе, формирующей требуемый документ. Затем готовый документ отсылается обратно
браузеру.
При статической публикации БД Web-страницы создаются и хранятся на Web-сервере до поступления
запроса на их получение. Этот способ используется при публикации информации, содержащейся в достаточ-
но редко актуализируемой БД. Такая организация публикации БД имеет такие преимущества, как более
быстрый доступ к информации и уменьшение нагрузки на сервер при обработке запроса. При их преобразо-
вании в Web-страницы следует решить несколько задач:
• минимизировать ручной труд при преобразовании библиографической БД (ББД);
• выбрать структуру Web-представления ББД;
• сократить время отклика за счет минимизации трафика.

2
Все эти задачи можно решать с помощью программных средств.
В Библиотеке РАН разработан программный комплекс VerWeb [1], позволяющий автоматически фор-
мировать Web-страницы в виде структуры, имеющей от одного до трех ссылочных уровней, плюс нижний,
(информационный) уровень, с которого может происходить переход к изображению, полному тексту или
другой HTML-странице.
Таким образом, ББД преобразуется в систему многоуровневых указателей различного вида: алфавит-
ные, хронологические, смешанные (с переходом к полному тексту и/или изображениям).
Указатели на каждом уровне могут быть различных типов, например:
• текст (любая текстовая информация из полей БД);
• алфавит (точки входа в виде цифр от 0 до 9 и букв латинского и русского алфавитов);
• алфавит-2 (точки входа в виде двухсимвольных сочетаний), который должен присутствовать
только после алфавита;
• дата (точки входа в виде цифр и/или диапазонов дат);
• различные комбинации значимых терминов поля записи с 1-го по 4-й.
Под значимыми терминами понимаются термины, не входящие в неинформативную лексику1.
Еще одна проблема, решение которой важно для автоматизированного формирования Web-
представления ББД это наличие ошибок, что также приводит к разрастанию HTML-страниц2.
С учетом анализа искажений, в том числе в БД, проведенного различными исследователями [2—6],
можно предложить следующую типологию ошибок:
• замена одной буквы на другую;
• пропуск букв (преимущественно гласные);
• удвоение букв (преимущественно согласные);
• замена буквы на близкую по звучанию (преимущественно согласные);
• замена буквы на совпадающую по написанию букву из другого алфавита;
• перестановка букв;
• вставка лишних букв (преимущественно не более одной);
• вставка лишних пробелов перед и/или после лексической единицы (ЛЕ);
• неклассифицируемые ошибки;
• сочетание предыдущих ошибок.
Для ББД отмечены специфические ошибки [7—10]:
• ошибочный тег поля;
• ошибочная метка подполя;
• опущенная информация;
• неверная трактовка данных;
• наличие дублетов (не обязательно совпадающих во всех полях);
• ошибки, возникающие при транслитерации текста;
• перестановка терминов (например, в названиях рубрик);
• диахрония терминов.
Изучение статистики ошибок показывает[2—5, 9б 11—13]::в среднем в записях ББД даже при тщатель-
ном контроле ввода частота ошибок составляет не менее 0,1%, в том числе
• однобуквенные ошибки составляют 85—95%;
• более вероятно искажение начала лексической единицы (ЛЕ): для слов длиной 3—8 символов
наиболее вероятны ошибки в 3—4 позиции;
• примерное распределение ошибок: пропуск буквы составляет 30—40% (в т. ч. до 40% одной из
удвоенных букв), вставка — 25—35% (в т. ч. до 45%—удвоение букв), замена — 15—20%, пе-
рестановка — 10—15%;

1 Понятие неинформативной лексики (НИЛ) шире, чем распространенный термин “стоп-слова”. Дело в том, что в НИЛ
входят не только так называемые стоп-слова, но и значимые термины, не несущие информации в контексте той или иной
базы данных. Так, например, термин “археология” в контексте археологической БД не является информативным. С
другой стороны, при сегментировании на термины таких полей как заглавие, аннотация и подобных, создается чрезмер-
ное количество точек входа, что приводит к разрастанию объема соответствующих