LibRar.Org.Ua — Бібліотека українських авторефератів


Головна Бібліотечна справа → Археологическая литература стран СНГ в пространстве Сети: подход и реализация

HTML-страниц. Использование
файла НИЛ позволяет в несколько раз сократить число точек входа и уменьшить размер HTML-страниц.
2 . Можно много и долго обсуждать, как избавиться от ошибок в БД, но следует признать их неизбежность. Тем более,
что для библиографических БД это не катастрофично так как семантически большинство полей БД устойчиво к ошиб-
кам. Таким образом, следует учитывать наличие в БД ошибок различного рода и учиться работать с ними для получения
полезного результата.

3
• ошибки в гласных буквах (вставка и пропуск) встречаются чаще, чем в согласных;
• более вероятны ошибки в начальных ЛЕ полей ББД.
Кроме того, учет характеристик искажений должен ориентироваться на естественный язык, предметную
область ББД и конкретного оператора, то есть на определенное представление знаний.
Программное средство VerCON [14], разработанное в развитие программного комплекса VerWEB [1],
позволяет учесть наличие ошибок различного рода в ББД путем применения лингвистического конвертора,
обеспечивающего устранения влияния ошибок различного рода на процесс построения точек входа на
HTML-страницах. Лингвистический конвертор ориентирован на работу с латинским и кириллическим
алфавитами.
Основываясь на анализе типовых ошибок, сравнение терминов и мультитермов (строк) выполняется
следующими способами:
1. Точное совпадение
2. Совпадение без служебных символов: ~@#$%|_.,;!?`-=+:<>«[] (){}' /
3. Совпадение без служебных символов и цифр
4. Совпадение без служебных символов, гласных, двойных согласных и цифр
5. Совпадение по частотной карте
6. Совпадение по частотной карте без цифр
7. Совпадение по первому числу
Помимо этого, для проверки может извлекаться часть строки до указанного набора символов или после
него. Это полезно когда, например, названия рубрик сопровождаются числовыми индексами рубрик после
символа = (например, сравнение в этом случае можно проводить 7-м способом).
Следует отметить, что сравнение по частотной карте — способ чувствительный к длине анализируемой
строки и лучше подходит для коротких строк, так как в случае длинных мультитермов частоты некоторых
символов начинают стремиться к величинам характерным для данного языка, что приводит к совпадению
частотных карт даже весьма различающихся строк символов.





4
Преобразование БД «Археологическая литература стран СНГ», поступившая в Отдел БАН при ИИМК
1998—2005» в систему HTML-страниц занимает не более 1 мин. на ПЭВМ с процессором Celeron-1800 и
оперативной памятью 256 Mb.
Оба программных средства хорошо зарекомендовали себя при создании HTML-представления ББД
[15,16]:



Литература
1. Вершинин М. И. VerWEB — HTML-генератор для библиографических баз данных/ М.; ВНТИЦ, НГР
50200200489, 2002.
2. Ballard T. Spelling and typographical errors in library databases: One libr. system for rooting out spelling error/ T. Bal-
lard // Computer in libr. — 1992. — Vol.12, № 6. — P.14—19.
3. Bourne C. Frequency and impact of spelling errors in bibliographic data bases / C. Bourne // Inform. processing a.
management. — 1977. — № 13. — P.1—12.
4. Pollock J. J. Collection and characterization of spellings error in scientific and scholarly text / J. J. Pollock, A. Zamora
// J. of the Amer. soc. for inform. science. — 1983. — Vol.34, № 1. — P.51—58.
5. Randall B. N. Spelling errors in data bases: Shadow or substance?/ B. N. Randall // Libr. resources a. techn. services.
— 1999. — Vol.43, № 3. — P.161—169.
6. Szanser A. J. Automatic error correction in natural languages / A. J. Szanser // Inform. storage a. retrieval. — 1970. —
Vol.5, № 4. — P.167—174.
7. Aissing A. L.computer-oriented bibliographic control for cyrillic documents with or without script conversion / A. L.
Aissing // Inform. technology a. libr. — 1992. — Vol.11, № 4. — P.340—344.
8. Humphrey S. M. Automatic indexing of documents from journal descriptors: A prelim. investigation / S. M. Humphrey
// J. of the Amer. soc. for inform. science. — 1999. — Vol.50, № 8. — P.661—674.
9. Nielsen R. Lost articles: Filing problems with initial articles in data bases / R. Nielsen, J. M. Pyle // Libr. resources a.
techn. services. — 1995. — Vol.39, № 3. —P.291—293.
10. O'Neil E. T. Characteristics of duplicate records in OCLC's online union catalog / E. T. O'Neil, S. A. Rogers, W. M.
Oskins // Libr. resources a. techn. services. — 1993. — Vol.37, № 1. — P.59—72.
11. Бабко-Малая О. Б. Методы и системы автоматизированного обнаружения и коррекции текстовых ошибок / О.
Б. Бабко-Малая, В. А. Шемраков. — Л.: БАН СССР, 1987. — 46 с. — (Препр. / Б-ка АН СССР; № 5).

5
12. Бабко-Малая О. Б. Основные принципы автоматизированной коррекции текстовых ошибок / О. Б. Бабко-
Малая, В. А. Шемраков // Распределенные автоматизированные библиотечно-информационные системы и сети.
— Новосибирск, 1986. — С.127—131.
13. Белоногов ГГ. Результаты функционирования в ВИНИТИ системы обнаружения орфографических ошибок в
режиме опытной эксплуатации / ГГ. Белоногов, Я. П. Штурман, Б. А. Кузнецов // Вопр. информ. теории и прак-
тики. — 1984. — № 51. — С.24—44.
14. Вершинин М. И. VerCON — лингвистический HTML конвертор для библиографических баз данных/ М.;
ВНТИЦ, НГР 50200401169, 2004.
15. Вершинин М. И., Гроздилова Л. П., Немчинова А. Л. Создание электронного каталога иностранных журналов
библиотеки Зоологического института РАН: подходы и реализация / М. И. Вершинин, Л. П. Гроздилова, А. Л.
Немчинова // Науч. и техн. б-ки. — 2004. — № 6. — С.17—26.
16. Вершинин М. И., Колпакова Н. В., Золотарев В. М. Разработка предметно-ориентированных информационных
баз данных. С.247—252. Научно-Технический Вестник СПбГУ ИТМО, Вып.13. Оптические технологии в фун-
даментальных и прикладных исследованиях — «Интеграция-2004» /Под ред. В. М. Золотарева. — СПб: СПбГУ
ИТМО, 2004, 316с.

6