LibRar.Org.Ua — Бібліотека українських авторефератів


Головна Бібліотечна справа → Англо-русский тезаурус по сохранности документов и некоторые особенности его составления

часто используемые в какой-либо области знания (уксусная кислота, дозы облучения, товары широкого потребления). Этот критерий -- несомненно существенный -- имеет действительно универсальный характер и, весьма вероятно, имплицитно присутствует в большей части описываемых в 266 данной работе характеристик устойчивых языковых единиц. В теоретическом плане о связи понятия `устойчивость' с частотностью терминов, интерпретируемой как вероятность совместного появления в текстах двух или более слов, писал И. А. Мельчук еще в 1960 г. [10]. В его понимании устойчивость является вероятностной характеристикой и принимает значения от 1 (чистые идиомы) до 0 (невозможные сочетания слов). Для решения проблемы устойчивости И. А. Мельчук предлагал массовую статистическую обработку большого количества текстов и расчет вероятностей (меры устойчивости) совместного употребления ЛЕ. Такое решение имеет, понятно, главным образом теоретический интерес, и практическая реализация поставленной в таком виде задачи является, видимо, невозможной из-за ее трудоемкости в исполнении даже для современной высокопроизводительной вычислительной техники, не говоря уже о методической стороне постановки и проведения данных расчетов. Но общий подход к обсуждаемому у И. А. Мельчука представляется вполне обоснованным. Специалисты-предметники и опытные индексаторы так или иначе оперируют вероятностными характеристиками, когда утверждают, что какое-то сочетание слов является редким или высокочастотным в документальном массиве системы. Частотный критерий устойчивости, как и другие критерии, должен использоваться не сам по себе, а во взаимосвязи с другими, рассматриваемыми в этом разделе. Так, на уровне компетенции обычного пользователя базы данных или носителя русского языка понятие `уксусная кислота' ассоциируется, то есть находится в родовидовой подчинительной связи с понятиями 'кислоты' и `химия'. Данная связь плюс высокая степень использования, и не только в документах по химии, и являются главным, чем, по нашему мнению, определяется терминологическая неразложимость словосочетания. (9) Словосочетания, в которых имеются широкие по содержанию ЛЕ. Этот признак является слабым критерием устойчивости, и по нашей оценке, здесь дело не в том (или, точнее, не только в том), что в словосочетаниях типа «металлические конструкции», «математическое обеспечение» или «обеспечение сохранности документов» опорное слово имеет широкое содержание, а во вполне очевидных родовидовых отношениях, устанавливаемых в рядах таких терминов, как МЕТАЛЛИЧЕСКИЕ КОНСТРУКЦИИ н. [видовые понятия -- конкретные виды металлических конструкций]; МАТЕМАТИЧЕСКОЕ ОБЕСПЕЧЕНИЕ н. КОМПЬЮТЕРЫ,АВТОМАТИЗАЦИЯ,УПРАВЛЕНИЕ и др. Слова и словосочетания с общим (широким) значением, в силу такой 267 их семантики, в ИПЯ и в естественном языке называют понятия, относящиеся к «верхним» уровням иерархических связей определенных дескрипторов или просто лексических единиц. Поэтому анализируя данную лексику, иногда, даже не зная в деталях предметную область, можно с достаточной степенью обоснованности предполагать (прогнозировать) наличие у широких по содержанию ЛЕ подчиненных им нижестоящих понятий. Иерархия связей лексических единиц в данном случае устанавливается на основе того, что у Т. ван Дейка описано как сценарии, фреймы, общекультурный контекст [11], позволяющие рассматривать содержание понятий через призму определенных общеязыковых, когнитивных структур, причем независимо от специальных задач автоматизированного поиска информации. Словосочетания разделяются, если в их содержании выделяются следующие элементы. (10) Операция и объект операции, как «производство азота» -- ПРОИЗВОДСТВО, АЗОТ [5]. У этого правила есть исключения и, в том числе, -- наименования, относящиеся к общим уровням иерархии понятий в какой-либо области знания. В таких случаях объект операции часто обозначается не родительным падежом существительного, а относительными прилагательными, как, например, «огнеупорное производство», «сталелитейное производство» и др. Приведенные словосочетания называют не только (или не столько) определенный технологический процесс, сколько определенную отрасль или подотрасль в составе каких-либо более широких тематических областей, в данном случае -- в составе предметной области «черная металлургия». Содержание данных понятий включает в себя не только аспект ПРОИЗВОДСТВО объектов, обозначаемых данными терминами, но также аспекты ИССЛЕДОВАНИЕ,ПРОЕКТИРОВАНИЕ и мн. др. Таким образом, можно сказать, что значение данных ЛЕ целиком не выводится из составляющих их элементов, и такие названия представляют собой близко стоящие к идиомам терминологически неделимые единицы. Операция и объект операции иногда выражаются также грамматически нерасчлененно, одним сложным словом с подчинительным соотношением основ, какКНИГОТОРГОВЛЯ,ДОКУМЕНТОХРАНИЛИЩАили английские термины PAPERMAKERS, BOOKSELLERS, GOLDBEATERS и многие другие. Словосочетания PAPERMAKING [производство бумаги] иLEATHER MANUFACTURE [производство кожи], пока для них не были установлены «полезные» при проведении поисков нижестоящие, в соответствии с 268 описываемым правилом индексирования, разбивались на одиночные термины. В настоящее время такие дескрипторы употребляются в виде терминологически неделимых ЛЕ. Трудности с обработкой КС, как PAPERSTAINERS, PARCHMENT MAKERS и т. п. заключаются в том, что для некоторых таких слов не имеется эквивалентных им по содержанию русских однословных или двухсловных ЛЕ. По этой причине в тезаурусе по обеспечению сохранности документов есть такие не очень удачные номинации, как Мастера по производству бумаги см. PAPERMAKERS, Мастера по производству чернил см. INKMAKERS.,Торговцы акцидентным [то есть сопутствующим] книжным товаром см. STATIONERS и т. п. Употребление данных КС имеет то неудобство, что рассматриваемые ключевые слова имеют характер искусственно образованных языковых конструктов, и поэтому хуже запоминаются индексаторами, чем обычные термины, их трудно отыскивать в словаре, и в синтаксически распространенных ЛЕ более вероятны ошибки в их написаниях (опечатки при записи информации). Не расчленяются и такие словосочетания, как Подготовка специалистов см. EDUCATION; Stains removal, Удаление пятен см. CLEANING.Форма словосочетания для таких единиц была выбрана, среди прочего, потому, что синонимия ЛЕ в приведенных дескрипторах, вполне очевидная и легко устанавливаемая при ручном индексировании информации, при их расчленении не будет учитываться (контролироваться) при автоматическом индексировании документов. Таким образом, на решение вопроса об устойчивости или свободном характере словосочетаний в тезаурусе влияют также особенности программного обеспечения системы. (11) Часть и целое, например, «катоды радиоламп» -- КАТОДЫ, РАДИОЛАМПЫ. -- Исключений из этого правила имеется небольшое количество. ВБДОСДкнимотносятся,например,дескрипторы, называющие части книги, как Корешки книжных блоков см.BACKS, Поля