LibRar.Org.Ua — Бібліотека українських авторефератів


Головна Бібліотечна справа → Англо-русский тезаурус по сохранности документов и некоторые особенности его составления

разрабатывался в соответствии с ГОСТ 7.25--80 [4]. Новые ГОСТы на эту работу в системе СИБИД, а именноГОСТ 7.66--92, 7.70--96 и 7.74--96 при разработке тезауруса не использовались, так как были получены в БАН только в июле 2001г. В ГОСТ на создание одноязычных тезаурусов имеется 6 критериев устойчивости, терминологической или поисковой неразложимости словосочетаний [4, с.3--4]. В учебном пособии ИПКИР [5, с.106--107] к ним добавлено еще несколько правил, определяющих основные особенности как «устойчивых», так и «свободных» лексических единиц ИПТ.Эти критерии и правила (ГОСТ и ИПКИР) отражают опыт работы большого числа крупных ималых документальных систем разного типа иназначения, имеют характер обычных для ГОСТ общих и мало конкретизированных рекомендаций, и по этой причине они не всегда дают индексаторам прямое и точное руководство в конкретных решенияхпроблемыопределенияустойчивых словосочетаний. Поскольку с середины 90-х гг. [6--7] такие рекомендации внедряются в практику индексирования информации в массовыхбиблиотекахРоссии,ниже дается их перечень и детальное описание того, как эти правила могут или не могут использоваться в работе специализированных, а также универсальных систем. Согласно двум названным выше источникам, словосочетания не разбиваются, если они представляют собою такие лексические единицы (здесь и далее в скобках приводятся номера обсуждаемых критериев устойчивости). (1) Идиомы, то есть ЛЕ, содержание которых не сводится к сумме значений и не выводится из содержания их компонентов, например, красная строка, царская водка и т. п. (2) Термины с именем собственным; как закон Ома, вольтова дуга (3) Названия оборудования и материалов, пишущиеся через дефис (смесители-запарники). Область использования трех выше названных критериев устойчивости языковых единиц, как правило, весьма ограничена. В БД ОСД, например, на эти три класса словосочетаний в настоящее время приходится только 10 наименований, а именно -- Hudson acidity с.Кислотноть по Хадсону, PAPER-FILM с.Система бумага-пленка, PAPER- GLUE с.Система бумага-клей и некоторые др. Смысловая неразложимость первых двух классов ЛЕ (идиом и названий типа распределение Пуассона, метод Дебая-Шерера) едва ли у кого вызывает сомнение, и поэтому эти критерии устойчивости полезны лишь в незначительной степени в силу их очевидности. Третий критерий устойчивости -- написание с дефисом 264 при сложно-сочинительном соотношении основ, по нашему мнению, имеет спорный характер и действует лишь при известных условиях работы определенных документальных баз данных, о чем говорится и в [5, с.107]. (4) Словосочетания типа торговля на вынос, легкая промышленность, определяемые как ЛЕ, «элементы [которых] не употребляются в составе других сочетаний или употребляются всегда в другом смысле» [4, с.3].С наших позиций, такие ЛЕ близко стоят к идиомам и едва ли их стоит рассматривать как какой-то особый класс устойчивых словосочетаний. Можно сказать, что наименования, описанные выше под пунктами 1--4, являются более или менее идиоматическими выражениями, это -- «мелочи» ИПЯ, а их содержательные характеристики отражают лишь собственно лингвистический и далеко отстоящий от целей документального поиска аспект рассмотрения понятия устойчивости. (5) Названия, имеющие в языке определенной области знания синонимы и аббревиатуры. Этот признак -- один из важнейших в практике разработки тезаурусов, но он требует уточнения формулировки, поскольку речь может идти о разных синонимах и сокращениях. Очевидно, для каждого слова или устойчивого выражения ИПЯ можно найти или искусственным образом сконструировать синонимичное ему выражение. Многие аббревиатуры, например, в РЖ ВИНИТИ являются окказиональными, иногда создаются только для разового употребления в определенной статье или в ее реферате, а наличие у дескрипторов окказиональных синонимов и аббревиатур не может являться критерием их терминологической неразложимости. Имеются, с другой стороны, достаточно часто используемые сокращения вполне разложимых, свободных словосочетаний, как, например, LCSH и ПРБК -- «предметные рубрики Библиотеки Конгресса». Таким образом, признаком неразложимых на составляющие их элементы ЛЕ является только общеизвестная синонимия и общепринятые сокращения, а также (6) наличие таких же ниже- и вышестоящих дескрипторов, когда «разбиение словосочетаний приводит к потере важных парадигматических связей, как АЛГОРИТМИЧЕСКИЕ ЯЗЫКИ -- н.АЛГОЛ, КОБОЛ, ФОРТРАН» [4, с.4] и, следовательно, к информационным потерям при проведении поисков. Опора на парадигматику при индексировании не означает, что процесс индексирования информации во всех случаях должен идти с применением тезаурусов или каких-то иных списков нормализованных терминов. Речь в данном случае скорее идет о том, что в специальной литературе рассматривается под названиями «тезаурус пользователя», «тезаурус 265 индексатора» [8], то есть о некотором более или менее широком общекультурном комплексе знаний о самых разных вещах и взаимосвязях явлений. (7) Словосочетания не расчленяются, если они называют измеряемые свойства, параметры, характеристики. Данное правило, скорее всего, имеет своим основанием потребности поиска и особенности индексирования информации в факто-документальных системах, как система, описанная в [9], где к названной категории слов в поисковых образах документов «привязываются» их числовые характеристики. В обычных БД, где у записей нет рефератов, содержащих фактографические данные, рассматриваемое правило индексирования информации является малополезным, а буквальное исполнение его, не ограниченное иными критериями, имело бы следствием то, что в ИПЯ базы данных пришлось бы ввести очень большое количество двух- и трехсловных словосочетаний. Так, для БД ОСД в настоящее время достаточно термина и глубины индексирования информации на уровне ПРОЧНОСТЬ (бумаги, картона и других материалов). Это понятие имеет большое количество нижестоящих, называющих измеряемые характеристики и образованных из таких составных элементов, как [ПРОЧНОСТЬ, ПРЕДЕЛ ПРОЧНОСТИ]-[НА СЖАТИЕ, ПРИ СЖАТИИ -- НА РАЗРЫВ, ПРИ РАЗРЫВЕ -- НА РАЗДАВЛИВАНИЕ, ПРИ РАЗДАВЛИВАНИИ и мн. др] -- [ПРИ КОМНАТНОЙ ТЕМПЕРАТУРЕ, ПРИ ТЕМПЕРАТУРЕ 20 ГРАД. С, ПРИ ВЫСОКОЙ ТЕМПЕРАТУРЕ и др.]. Из выделенных скобками составных элементов ЛЕ, которые могут быть связаны с наименованием ПРОЧНОСТЬ, получается очень большое число синонимов и нижестоящих понятий только рассматриваемого нами дескриптора, а в системах, имеющих отношение к материаловедению, названия свойств иногда составляют значительный объем ИПЯ. Глубокое индексирование информации о свойствах, в связи с вышесказанным, оправдано главным образом лишь в условиях работы факто-документальных реферативных БД. В обычных библиографических базах данных (и особенно -- в массовых библиотеках) рассматриваемое правило индексирования не дает никаких преимуществ при проведении поисков информации. (8) Не делятся на составляющие их элементы ЛЕ, особенно