=Paper= {{Paper |id=None |storemode=property |title=Подход к разработке русско-английского тезауруса по компьютерной лингвистике (Approach to Development of Russian-English Thesaurus on Computational Linguistics) |pdfUrl=https://ceur-ws.org/Vol-803/paper2.pdf |volume=Vol-803 |dblpUrl=https://dblp.org/rec/conf/rcdl/ZagorulkoBKS11 }} ==Подход к разработке русско-английского тезауруса по компьютерной лингвистике (Approach to Development of Russian-English Thesaurus on Computational Linguistics) == https://ceur-ws.org/Vol-803/paper2.pdf
  Подход к разработке русско-английского тезауруса по
              компьютерной лингвистике

             © Ю.А. Загорулько1, О.И.Боровикова1, И.С. Кононенко1, Е.Г. Соколова2
        1
            Институт систем информатики имени А.П.Ершова СО РАН, г. Новосибирск
              2
                Российский государственный гуманитарный университет, г. Москва
              zagor@iis.nsk.su, olesya@iis.nsk.su, irina_k@cn.ru, minegot@rambler.ru


                   Аннотация                            ни в одном из существующих лингвистических
                                                        источников.
   В докладе представлен подход к разработке                Так, тезаурус по теоретической и прикладной
   русско-английского электронного тезауруса            лингвистике, созданный в 1978 г. С.Е. Никитиной
   по       компьютерной        лингвистике.            [9], уже устарел. Кроме того, он одноязычный и не
   Рассматривается общее строение тезауруса,            содержит            определений           понятий.
   структура тезаурусных статей и набор                 Терминологический словарь В.З. Демьянкова [6]
   связей между терминами. Обсуждается                  содержит толкования и является двуязычным, но не
   проблема выбора терминов для включения               отражает современную картину этой научной
   в тезаурус, а также проблема выбора                  области.
   основного      термина-дескриптора     из                Представительного     компактного    собрания
   множества     синонимичных      терминов.            терминов современной КЛ и их толкований не
   Описываются особенности реализации                   существует не только в России, но и за рубежом.
   электронной версии тезауруса, при этом               Собственно лингвистика представлена в нескольких
   особое внимание уделяется поддержанию                фундаментальных источниках, в частности, в ЛЭС
   логической                    целостности            [10], словаре О.С. Ахмановой [1] и интернет-
   терминологической системы тезауруса и                энциклопедии «Кругосвет» [13], содержащей статьи
   обеспечению удобного доступа к его                   по новым для традиционной лингвистики понятиям.
   содержимому.                                         Разработанный в 2007 г. в ИНИОН РАН тезаурус по
                                                        языкознанию [19] содержит около 3000 терминов,
1. Введение                                             относящихся к различным разделам данной науки.
                                                        При всех своих достоинствах, данный тезаурус,
   В настоящее время наблюдается значительный           прежде         всего,      предназначен        для
интерес к компьютерной лингвистике (КЛ), как к          библиографического поиска, поэтому его словарные
прикладной научной дисциплине, включающей               статьи не содержат дефиниций. Кроме того,
знания о методах извлечения информации из
                                                        тезаурус ИНИОН является одноязычным и
текстов, индексирования и содержательного поиска        характеризуется малым удельным весом собственно
документов, построения естественно-языковых, в          терминологии КЛ (дескрипторы из области КЛ
том числе речевых, интерфейсов. В связи с этим
                                                        составляют около 4% от общего количества
возникла        острая       потребность        в       терминов, представленных в тезаурусе).
систематизированных знаниях по терминологии КЛ,             Определения терминов КЛ содержатся и в
которые, с одной стороны, способствовали бы
                                                        толковом словаре по искусственному интеллекту
повышению образовательного уровня, а с другой           [18]. Однако он отражает терминологию на конец
стороны, использовались для индексирования              1980-х гг. Кроме того, он содержит довольно мало
публикаций        по        КЛ        –       как
                                                        терминов КЛ, а имеющиеся в нем термины чаще
ручного/автоматизированного,         так        и       всего трактуются не с позиций этой области знаний,
автоматического – с целью облегчения доступа к          а с позиций искусственного интеллекта.
представленным в них знаниях по КЛ.
                                                            Так как КЛ имеет междисциплинарный
   Однако в данный момент в КЛ отсутствует              характер, то некоторые ее термины можно найти в
четкая    и   общепринятая     система   научной        общих энциклопедиях, например, в БЭС [2].
терминологии,      причем     многие     термины
                                                        Популярным источником знаний по КЛ сейчас
современной КЛ не представлены на русском языке         является Википедия [8], в которой можно найти
                                                        объяснения, классификации и ссылки на источники
                                                        по многим понятиям КЛ, однако эти сведения часто
Труды 13й Всероссийской научной конференции             страдают     односторонностью,     неполнотой    и
«Электронные библиотеки: перспективные методы и         эскизностью.
технологии, электронные коллекции» - RCDL’2011,
Воронеж, Россия, 2011.




                                                    9
   Таким образом, на данный момент не                     (непредпочтительные      термины).    При    этом
существует источника, в котором вся терминология          дескрипторы      могут      использоваться    при
КЛ была бы приведена в единую систему. Этот               индексировании документов и в поисковых
ощутимый и досадный пробел мог бы восполнить              запросах, а аскрипторы (как текстовые входы)
двуязычный тезаурус, содержащий английские и              подлежат замене одним или несколькими
русские термины КЛ и их толкования.                       дескрипторами [11].
   Такой тезаурус позволит структурировать и                  В зависимости от языковой направленности
накапливать информацию, релевантную для этой              тезаурусы разделяются на одноязычные и
области знаний, производить смысловой поиск               многоязычные.
данных в информационных хранилищах и сетях.                   Многоязычный        информационно-поисковый
Кроме того, такой тезаурус мог бы способствовать          тезаурус (МИПТ) содержит термины из нескольких
повышению уровня профессиональной подготовки              естественных языков и представляет эквивалентные
будущих специалистов не только в сфере КЛ, но и           по смыслу понятия на каждом из них. В качестве
информационных технологий вообще.                         основной структурной единицы МИПТ может
   Двуязычность тезауруса даст возможность                рассматриваться составной дескриптор, собранный
отечественным ученым и специалистам быстрее и             из эквивалентных дескрипторов одноязычных
эффективнее ориентироваться в мировой ситуации в          версий, связанных средствами для указания
данной области, окажет им помощь при написании            эквивалентности.
и переводе статей. В ситуации еще не до конца                 Построение русско-английского тезауруса по КЛ
преодоленного отставания российской КЛ от                 выполняется в соответствии с требованиями
англоязычной и наличия некоторых существенных             межгосударственного стандарта ГОСТ 7.24-2007
различий, сохранившихся от изолированного                 [4], который разработан с учетом основных
развития российской КЛ в советский период,                нормативных       положений        международного
составление такого тезауруса выявляет различия и          стандарта ISO 5964-1985 [22] и устанавливает
сходства между понятиями, используемыми в                 состав, структуру и основные требования к
отечественной и зарубежной науке, и позволяет             построению МИПТ. Русско-английский тезаурус по
вводить новые понятия и лингвистические термины,          КЛ разрабатывается как набор одноязычных версий
отсутствующие в русском языке [17].                       МИПТ, при этом выполняется согласованное
   В данной работе рассматривается подход к               построение одновременно двух версий тезауруса –
разработке русско-английского тезауруса по                русскоязычной и англоязычной.
компьютерной лингвистике. Описывается общее                   Разработка каждой из одноязычных версий
строение тезауруса, структура тезаурусных статей и        тезауруса выполняется на основе международного
набор связей между терминами. Особое внимание             стандарта ISO 2788-1986 [21], межгосударственного
уделяется проблеме выбора и представления                 стандарта ГОСТ 7.25-2001 [5] и американского
отношений     между      терминами,     а    также        стандарта Z39.19-2005 [20].
поддержанию          логической        целостности
терминологической системы тезауруса.                      2.1 Структура словарной статьи
                                                              Основными единицами тезауруса являются
2. Структура русско-английского                           термины предметной области (ПрО), которые
тезауруса по КЛ                                           разделяются на дескрипторы и аскрипторы.
                                                          Согласно ГОСТ 7.25-2001, в ИПТ включаются
    Проектирование      структуры    двуязычного          следующие типы лексических единиц (ЛЕ):
тезауруса     по    компьютерной      лингвистике         одиночные         слова        (существительные,
выполнялось на основе анализа существующих                прилагательные, глаголы, наречия), именные
отечественных и международных стандартов                  словосочетания, лексически значимые компоненты
[4,5,20-22],    регламентирующих       построение         сложных слов, сокращения слов и словосочетаний1.
информационно-поисковых тезаурусов (ИПТ), а               ЛЕ объявляются эквивалентными в ИПТ, образуя
также на основе анализа и обобщения накопленного          класс эквивалентности, если замена одной ЛЕ на
к этому времени опыта разработки тезаурусов               другую не приводит к изменению смысла текста,
ИНИОН [12], РуТез [11] и др.                              существенному для поиска информации. Одна из
    Отечественные и международные стандарты               лексических единиц класса эквивалентности
определяют основные единицы, которые могут                выбирается в качестве представителя этого класса и
включаться в тезаурус, и набор отношений между            получает статус дескриптора, остальные ЛЕ
ними, устанавливают правила сбора массива                 получают статус аскриптора. При этом статус
лексических единиц, формирования словника,                аскриптора    получают     также    и    термины,
построения словарных статей и оформления ИПТ.             представляемые аббревиатурами или иными
    По своему составу ИПТ подразделяют на                 вариантами написания (через дефис, с пробелом и
тезаурусы, все единицы которых являются                   т.п.).
дескрипторами        (или      предпочтительными              В состав словарной статьи тезауруса вне
терминами), и тезаурусы, выделяющие среди своих           зависимости от статуса термина входят следующие
единиц       дескрипторы        и      аскрипторы         элементы:




                                                     10
      Название термина предметной области,                задавать     связи      между     аскрипторами       и
       который     представляет    собой     слово,        альтернативными дескрипторами или представлять
       словосочетание или лексически значимый              аскриптор комбинацией дескрипторов. Если нет
       компонент сложного слова естественного              однозначного соответствия между дескрипторами и
       языка.                                              аскрипторами,      то     используются     отношения
    Язык, на котором дано название термина.               «Используй альтернативно» или «Используй
    Комментарий, включающий правила и                     комбинацию», задающие соответствие между
       рекомендации использования термина, а               аскрипторами и заменяемыми ими дескрипторами;
       также замечания и пояснения автора                  при этом вводятся обратные им отношения «Сравни
       словарной статьи.                                   альтернативный выбор» и «Сравни комбинацию».
    Автор словарной статьи – задается для                 Например, аскриптор ПАРТИЦИПАНТ можно
       контроля процесса коллективной разработки           связать отношением «Используй альтернативно» с
       тезауруса.                                          дескрипторами                    СЕМАНТИЧЕСКАЯ
   Термины-дескрипторы, кроме перечисленных                ВАЛЕНТНОСТЬ и УЧАСТНИК СИТУАЦИИ. В то
выше атрибутов, описываются следующими                     же        время          аскриптор         СИСТЕМА
дополнительными атрибутами:                                СТАТИСТИЧЕСКОГО МАШИННОГО ПЕРЕВОДА
    Определение термина, поясняющее на языке              может быть представлен с помощью связи
       термина его смысл или значение. Наличие в           «Используй      комбинацию»        как    комбинация
       тезаурусе определений терминов делает               (сочетание) двух дескрипторов – СИСТЕМА
       возможным его использование не только в             МАШИННОГО                    ПЕРЕВОДА                и
       качестве инструмента для ручного или                СТАТИСТИЧЕСКИЙ МАШИННЫЙ ПЕРЕВОД.
       автоматизированного индексирования, но и               Для отражения семантических связей между
       в качестве источника систематизированных            понятиями, выражаемыми дескрипторами, в
       знаний о данной ПрО.                                одноязычных           версиях        устанавливаются
    Релятор, представляющий собой помету,                 иерархические и ассоциативные отношения.
       введенную для различения омонимичных                   Между       дескрипторами        вводятся    такие
       терминов      (омографов)     в      рамках         иерархические               отношения,             как
       описываемой ПрО. Он является частью                 недифференцированная          иерархическая      связь
       термина и поясняет его значение, относя его         «Выше»,       направленная       от     нижестоящего
       к определенной понятийной категории или             дескриптора к вышестоящему, родовидовая связь
       предметно-тематической       области      (в        «ВышеРод»,      устанавливаемая       между     двумя
       контексте данной работы – подобласти КЛ             дескрипторами, когда объем понятия нижестоящего
       или смежной ей области/подобласти                   дескриптора входит в объем понятия вышестоящего
       знаний). Например, для различения двух              дескриптора, партонимическая связь «ВышеЦелое»,
       понятий,     образованных     на     основе         задаваемая между двумя дескрипторами в том
       словосочетания     РАЗМЕТКА       ТЕКСТА,           случае,     когда       нижестоящий        дескриптор
       могут    быть     использованы    реляторы          представляет компонент объекта, обозначаемого
       ПРОЦЕСС и ОБЪЕКТ. В результате мы                   вышестоящим дескриптором. Вводятся также
       получаем два разных термина-дескриптора             обратные им отношения: «Ниже», «НижеВид»,
       РАЗМЕТКА ТЕКСТА (ПРОЦЕСС) и                         «НижеЧасть».
       РАЗМЕТКА ТЕКСТА (ОБЪЕКТ).                              Для задания отношений между дескрипторами,
                                                           представляющими класс понятий и экземпляр этого
    Область/подобласть знания, к которой
                                                           класса,         были           выбраны           связи
       относится данный термин-дескриптор.
                                                           «ВышеКлассЭкземпляра» и «НижеЭкземпляр».
    Признак корневого термина (Top Term),
                                                              При установлении иерархических отношений
       указывающий на то, что дескриптор
                                                           для некоторых дескрипторов можно указать
       находится на самом верхнем уровне какой-
                                                           признак «Аспект деления иерархии». Так,
       либо иерархии понятий.
                                                           например, в иерархии, построенной по отношению
   Термины тезауруса связываются различными
                                                           «НижеВид», МАШИННЫЙ ПЕРЕВОД по признаку
семантическими     отношениями,     отражающими
                                                           «подход» разделяется на СТАТИСТИЧЕСКИЙ
место каждого термина в системе понятий
                                                           МАШИННЫЙ              ПЕРЕВОД,         МАШИННЫЙ
выбранной ПрО.
                                                           ПЕРЕВОД НА ОСНОВЕ ПРАВИЛ и МАШИННЫЙ
   Для связи дескрипторов с аскрипторами
                                                           ПЕРЕВОД, ОСНОВАННЫЙ НА ПРЕЦЕДЕНТАХ, а
используются отношения синонимии. Так, если
                                                           по признаку «степень участия человека» – на
дескриптор может однозначно во всех контекстах
                                                           ПОЛНОСТЬЮ АВТОМАТИЧЕСКИЙ ПЕРЕВОД и
заменить какой-то аскриптор, то он связывается с
                                                           ЧЕЛОВЕКО-МАШИННЫЙ ПЕРЕВОД.
ним отношением «Синоним»; при этом также
                                                              Таким образом, один и тот же дескриптор
устанавливается обратное отношение от аскриптора
                                                           одновременно может входить в несколько иерархий
к дескриптору – «Смотри». Для моделирования
                                                           понятий, построенных по различным отношениям
других соотношений между аскрипторами и
                                                           («Выше», «ВышеРод», «ВышеЦелое») и по
дескрипторами в соответствии с ГОСТ 7.25-2001 в
                                                           различным аспектам деления иерархии.
тезаурус вводятся отношения, позволяющие




                                                      11
   Связи между дескрипторами, отличные от                  определяются классы терминов и типы источников
иерархических отношений и отношений синонимии,             терминов, а также набор отношений и их свойства.
задаются отношением «Ассоциируется с». Такое               Причем могут быть заданы не только структурные
отношение позволяет задавать произвольные                  свойства отношений – путем указания типа их
ассоциативные связи между дескрипторами,                   аргументов     и     задания    ограничений     на
например, отношения, выражающие зависимости                существование (число) и обязательность связей, но
вида «процесс-объект», «причина-следствие» и др.           и формальные свойства – приписыванием
   Чтобы указать эквивалентность дескрипторов из           отношениям          математических         свойств
разных одноязычных версий между ними                       (симметричность, рефлексивность, транзитивность,
устанавливается отношение «Эквивалент на другом            асимметричность, антирефлексивность) и заданием
языке». Если понятие не может быть выражено на             для них обратных отношений.
другом языке одним дескриптором, тогда для него в             Второй     уровень     обеспечивает    хранение
соответствии с ГОСТ 7.24-2007 указывается в                тезаурусных статей и описаний источников. Для
качестве эквивалента комбинация нескольких                 задания терминов, их определений и источников, а
дескрипторов.                                              также для установления связей между ними
                                                           редактор тезауруса предоставляет экспертам-
2.2 Представление источников терминов                      лингвистам удобный интерфейс. Заметим, что сразу
   Для подтверждения актуальности введенных в              после завершения ввода и/или редактирования
тезаурус терминов и ознакомления пользователей             описаний терминов, источников и связей между
тезауруса с практикой их употребления для каждого          ними, новая информация становится доступной
термина задаются его связи с источниками, т.е.             через пользовательский web-интерфейс тезауруса.
текстовыми     документами     или    коллекциями             Редактор тезауруса реализован как web-
текстовых документов, в которых данный термин              приложение и доступен зарегистрированным
встречается или определяется.                              пользователям через Internet. С целью обеспечения
    Этим целям служат два отношения: связь                 распределенной     коллективной     разработки   в
«Встречается в», при которой можно указать                 редакторе тезауруса поддерживается механизм
частоту встречаемости термина в источнике, если            делегирования прав экспертам разных уровней. В
источник – коллекция текстов, и связь «Встречается         соответствии с этим механизмом только эксперты
в части документа», с помощью которой                      самого высокого уровня могут редактировать
отмечается, что данный термин встречается в                структуры тезауруса, а эксперты других уровней –
предметном указателе или глоссарии источника, что          только его содержание (описание терминов и
указывает на важность термина и повышает степень           источников). При этом действует следующее
доверия      к    нему.     Термины-дескрипторы,           ограничение: два эксперта не могут одновременно
снабженные           толкованиями-определениями,           редактировать одну и ту же словарную статью (или
связываются с источником определения с помощью             описание источника).
отношения «Дается определение в».                             Кроме того, действует правило, по которому
   В     тезаурусе     источники      описываются          редактировать словарную статью может только ее
следующими           параметрами:         название,        автор. Если кто-то из экспертов захочет внести
библиографическая ссылка, язык, тип (книга,                изменения в «чужую» статью, он может согласовать
монография,     научная    статья,  документация,          такую возможность с ее автором, в частности, через
учебник, словарь, тезаурус, интернет-ресурс,               специальный форум, на который имеется ссылка в
коллекция текстов и др.), краткое описание и адрес         электронном тезаурусе.
в сети Интернет. Для коллекции текстов                        Для того чтобы тезаурус мог использоваться при
дополнительно     задается    число    текстов   и         индексировании и поиске текстовых документов, он
словоупотреблений.                                         должен        представлять       целостную       и
                                                           непротиворечивую систему понятий ПрО. Это
                                                           обеспечивается встроенными в редактор терминов
3. Реализация электронной версии                           механизмами вывода и поддержки логической
тезауруса                                                  целостности системы понятий тезауруса, работа
   Для    представления     тезауруса   в    виде          которых базируется на описаниях свойств
электронного     ресурса     было     разработано          отношений тезауруса, представленных в редакторе
двухуровневое хранилище данных, а для его                  тезауруса в виде аксиом и ограничений.
разработки и сопровождения – редактор тезауруса.              В частности, на основе этих свойств происходит
   На первом уровне хранятся структуры тезауруса,          корректное установление связей между терминами
определяющие схемы тезаурусных статей, вид и               тезауруса, при необходимости осуществляется их
свойства отношений, задаваемых между терминами,            автоматическое добавление и/или удаление. Кроме
а также характеристики источников терминов и их            того, регулируются ограничения на существование
определений. Создание и настройка структуры                и число тех или иных связей между терминами
тезауруса осуществляется в специальном разделе             тезауруса в зависимости от их принадлежности к
редактора    тезауруса.   В    частности,   здесь          тем или иным классам.




                                                      12
                          Рис.1. Представление термина «Машинный перевод»

    Например, если для рассмотренного в разделе           обеспечиваться запрет на создание связей «Смотри»
2.1. отношения «Смотри» задано обратное                   и «Синоним» с другими дескрипторами.
отношение («Синоним») и ограничение на                       Для обеспечения доступа к электронному
существование связей («только одна связь данного          тезаурусу был разработан пользовательский web-
типа для каждого термина-аскриптора»), то при             интерфейс, который представляет пользователю
связывании    аскриптора     АВТОМАТИЧЕСКИЙ               содержимое тезауруса в виде сети взаимосвязанных
ПЕРЕВОД и дескриптора МАШИННЫЙ ПЕРЕВОД                    информационных объектов – элементов тезауруса:
отношением Смотри (АВТОМАТИЧЕСКИЙ ПЕРЕ-                   терминов (дескрипторов и аскрипторов) и описаний
ВОД, МАШИННЫЙ ПЕРЕВОД) произойдет                         источников терминов и их определений. Набор
создание обратной связи Синоним (МАШИННЫЙ                 атрибутов терминов и связей, установленных между
ПЕРЕВОД, АВТОМАТИЧЕСКИЙ ПЕРЕВОД) (если                    ними,    соответствует     структуре     тезауруса,
таковой еще не существует), а также для аскриптора        описанной в разделе 2.1.
АВТОМАТИЧЕСКИЙ              ПЕРЕВОД          будет




                                                     13
    При навигации по тезаурусу обеспечивается              исчезает. К середине 70-х годов терминология в
возможность выбора необходимых пользователю                области     искусственного    интеллекта      стала
терминов, детального просмотра их описаний                 устанавливаться. Появились термины, которые
(тезаурусных статей), а также описаний источников          признало подавляющее большинство специалистов.
(публикаций или коллекций текстов), в которых              Все эти термины (за редким исключением) по
встречается термин и/или его определение.                  происхождению англоязычные, так как именно в
    Пользователь может указать, какой тип                  США проводились интенсивные исследования в
информации его интересует – все термины,                   этой области. Окончательно основная терминология
дескрипторы, аскрипторы или источники терминов.            закрепилась в первой половине 80-х годов» [18].
При этом ему выдается полный список имеющихся                 ИИ – это методологическая область, методы
в тезаурусе объектов выбранного типа, который              которой применимы к разным ПрО, в частности,
отображается в виде html-страницы, содержащей              активно применяются в КЛ в последнее
набор ссылок на эти объекты.                               десятилетие. Терминология КЛ в отдельных
    Информация о конкретном объекте и его связях           разделах продолжает сохранять черты первого этапа
также отображается в виде html-страницы (Рис.1).           (наличие большого числа синонимов, например, в
При этом объекты, связанные с данным объектом,             разделе семантических отношений). ИИ тоже
представляются на его странице в виде                      считается междисциплинарной областью, однако по
гиперссылок, по которым можно перейти к их                 этому параметру ИИ и КЛ противоположны: ИИ
детальному описанию.                                       междисциплинарна, потому что ее методы
    Дальнейшая      навигация     по     тезаурусу         применяются в разных дисциплинах, КЛ – потому
представляет собой процесс перехода от одних               что она вбирает в себя разные дисциплины, такие
объектов тезауруса к другим по заданным между              как лингвистика (разделы, связанные с обработкой
ними связям, отражающим существующие между                 текстов и речи), психология, некоторые разделы
ними – тезаурусные (между терминами) или                   ИИ.
библиографические       (между    терминами      и            Следствием указанных выше факторов является
источниками) – отношения.                                  отсутствие      русскоязычных       учебных       и
                                                           лексикографических источников, достаточно полно
4. Методика выбора терминов для                            отражающих структуру современной КЛ, в отличие
включения в тезаурус                                       от англоязычных источников, где она представлена
                                                           детально и отчетливо.
   Важным моментом при построении тезауруса                   Учитывая вышеперечисленные особенности КЛ
является методика подбора терминов – кандидатов            и связанный с ними недостаток современной
на включение в тезаурус, – а также выбор терминов-         справочной русскоязычной литературы по КЛ, при
дескрипторов     из    множеств      синонимичных          разработке тезауруса использовались источники
терминов.                                                  «живых» терминов РКЛ и их толкований, и именно
   Выбор терминов для включения в русско-                  они фиксируются в словарных статьях тезауруса.
английский тезаурус по КЛ сопряжен с                          В качестве основного источника русскоязычных
трудностями, которые обусловлены особенностями             терминов была выбрана коллекция текстов
самой КЛ как новейшей науки и состоянием ее                докладов, представленных на международной
развития в России. Здесь важно отметить                    конференции «Диалог» в 2000-2010 гг., как
следующие факторы, характеризующие КЛ в целом              «зеркала», отражающего термины РКЛ в их
и русскоязычную КЛ (РКЛ), в частности:                     реальном употреблении.
    междисциплинарный характер КЛ;                           К данной коллекции была применена словарная
    неоднородность        ПрО      «Компьютерная          технология [16], с помощью которой на базе
       лингвистика»;                                       лингвистических моделей (морфологического и
    неравномерность         развития    отдельных         локального      синтаксического      анализа)     и
       направлений КЛ;                                     статистических показателей был создан список
    отличие русскоязычной КЛ от англоязычной              статистически значимых в данной ПрО слов и
       (в   частности,     отставание    отдельных         словосочетаний – кандидатов в термины ПрО. Затем
       направлений РКЛ).                                   этот список был обработан (отфильтрован)
   Ранее    КЛ     рассматривалась     как    часть        экспертами в области КЛ, которые существенно
исследовательского направления «искусственный              опирались не только на знания о предмете и
интеллект» (ИИ). Терминология этого направления            направлениях КЛ, но и на общелингвистические
считается зрелой: «Специальная терминология по             представления о терминологичности и путях
искусственному интеллекту и интеллектуальным               формирования      терминологических     словников.
системам начала формироваться в 60-е годы ХХ в.            Таким образом, наш подход, учитывающий
Первый этап формирования терминологии всегда               предварительное       структурирование        ПрО,
отличается наличием многих синонимических                  согласуется с общей методикой формирования
терминов, которые используют различные школы и             словников на базе классификационных схем
группы специалистов. На этом этапе термины                 предметных областей (см., например, [14]).
быстро возникают и часть из них также быстро




                                                      14
    Для английской части словника, с учетом                 5. Заключение
русско-английской направленности создаваемого
тезауруса выбирались переводные эквиваленты из                 В докладе представлен подход к разработке
доступных англоязычных источников по КЛ.                    русско-английского электронного тезауруса по
    С другой стороны, чтобы дополнить картину               компьютерной лингвистике, общий состав и
РКЛ в тех ее разделах, где имеются пробелы, при             структура которого были разработаны на основе
сборе терминов по таким разделам пришлось                   международных и отечественных стандартов.
опираться преимущественно на англоязычные                      При разработке программных компонентов
источники. Так, учитывая скачок, совершенный в              электронной версии тезауруса (хранилища данных,
течение последних нескольких лет в такой                    пользовательского   интерфейса и        редактора)
высокотехнологичной подобласти КЛ, как речевые              использовалась технология [7], которая была ранее
технологии, а также тот факт, что это направление           применена для создания портала знаний по
слабо представлено в коллекции «Диалог», при                компьютерной лингвистике [3].
сборе терминов для этой подобласти была                        Хотя рассмотренные средства разрабатывались
применена обратная методика, т.е. в качестве                для создания русско-английского тезауруса по
основных использовались англоязычные источники:             компьютерной лингвистике, благодаря наличию
предметные указатели нескольких современных и               средств настройки структуры тезауруса и
наиболее авторитетных англоязычных книжных                  поддержки ее семантических свойств они могут
источников обзорно-учебного профиля и глоссарии,            быть использованы для построения многоязычных
входящие в документацию известных звуковых                  тезаурусов для любых языков и предметных
анализаторов. На данной терминологической базе              областей.
был составлен англо-русский словник параллельных               В настоящее время ведется активная разработка
терминов.                                                   тезаурусных статей и заполнение ими контента
   Достаточно сложной оказалась и проблема                  электронного тезауруса, который на данный момент
выбора      основного      термина-дескриптора    из        включает более 1000 терминов КЛ, около 3500
множества синонимичных терминов. Прежде всего,              связей между терминами и более 120 источников
эта проблема связана с появлением новых понятий и           терминов и их определений.
соответствующих им терминов. Так, появление
систем       translation     memory      в     сфере        Литература
автоматизированного перевода привело к широкому
                                                            [1] Ахманова О.С. Словарь лингвистических
использованию практиками-переводчиками термина
                                                                терминов. – 3-е изд., стер. – М.: УРСС, 2005. –
память переводов, который не был принят научным
                                                                576 с.
сообществом, противопоставившим ему термин
                                                            [2] Большой энциклопедический словарь (БСЭ) /
переводческая память (синонимический ряд:
                                                                гл. ред. А.М.Прохоров. - Изд. 2-е, перераб. и
переводческая память – 8, память переводов – 0,
                                                                доп. – М. : Большая Российская энциклопедия; –
архив переводов – 1, накопитель переводов – 0,
                                                                – СПб.: Норинт, 2004. – 1456 с.
копилка переводов – 0)2.
                                                            [3] Боровикова О.И., Загорулько Ю.А., Загорулько
    Развитие некоторых направлений КЛ (например,
                                                                Г.Б., Кононенко И.С., Соколова Е.Г. Разработка
таких как автоматический перевод в режиме
                                                                портала знаний по компьютерной лингвистике //
онлайн) приводит к столкновению вариантов старых
                                                                Труды 11-ой национальной конференции по
терминов. Так, тезаурус ИНИОН [19] и ЛЭС [10]
                                                                искусственному интеллекту с международным
основным термином в паре автоматический
                                                                участием КИИ-2008. – М.: ЛЕНАНД, 2008. –Т.3.
перевод      и     машинный      перевод    считают
                                                                –С.380-388.
автоматический перевод, присвоив ему статус
                                                            [4] ГОСТ 7.24-2007. Система стандартов по
дескриптора. Однако показатели встречаемости в
                                                                информации, библиотечному и издательскому
коллекции «Диалог» говорят в пользу термина
                                                                делу. Тезаурус информационно-поисковый
машинный перевод: машинный перевод – 318 vs.
                                                                многоязычный. Состав, структура и основные
автоматический перевод – 583. Интернет-
                                                                требования к построению. (Введен в действие с
энциклопедии «Википедия» и «Кругосвет», а также
                                                                1 июля 2008 г.).
учебники придерживаются этой же традиции. На
                                                            [5] ГОСТ 7.25-2001. Система стандартов по
сайте Европейской ассоциации машинного перевода
                                                                информации, библиотечному и издательскому
[15] также отмечается, что термин machine
                                                                делу. Тезаурус информационно-поисковый
translation, хоть и звучит архаично, но, тем не
                                                                одноязычный. Правила разработки, структура,
менее, сохраняется как основной общий термин для
                                                                состав и форма представления. (введен в
всей области. В данном случае эксперты
                                                                действие с 1 июля 2002 г.)
согласились с этой точкой зрения.
                                                            [6] Демьянков В.З. Англо-русские термины по
   Таким образом, при выборе терминов
                                                                прикладной лингвистике и автоматической
дескрипторов мы опирались не только на
                                                                переработке текста. Вып. 2. Методы анализа
статистику, но и на традиции словоупотребления,
                                                                текста // Тетради новых терминов. № 39. – М.:
сложившиеся        к     настоящему    времени     в
                                                                ВЦП, 1982.
лингвистическом научном сообществе.




                                                       15
[7] Загорулько Ю.А., Боровикова О.И. Подход к                      Approach to Development of Russian-
    построению порталов научных знаний //                          English Thesaurus on Computational
    Автометрия. Новосибирск: 2008. Т. 44. № 1. С.
    100–110.                                                                   Linguistics
[8] Интернет-энциклопедия                 «Википедия»                    © Yu.A. Zagorulko, O.I. Borovikova, I.S.
    http://ru.wikipedia.org                                                  Kononenko, E.G. Sokolova
[9] Никитина С.Е. Тезаурус по теоретической и
    прикладной лингвистике. – М.: Наука, 1978.                      The paper presents an approach to development of
[10] Лингвистический энциклопедический словарь.                 Russian-English     thesaurus      on    Computational
    //Под ред. В. Н. Ярцевой. М.:Советская                      Linguistics. A general structure of the thesaurus,
    энциклопедия, 1990. — 685 с. [3 изд. 2002.]                 composition of the thesaurus entries and set of relations
[11] Лукашевич Н.В. Тезаурусы в задачах                         between terms of the thesaurus are described. The
    информационного поиска. – М.: Издательство                  problems of choice of terms for inclusion in the
    Московского университета, 2011. – 512 с..                   thesaurus and the preferred terms (descriptors) from set
[12] Мдивани Р.Р. О разработке серии тезаурусов по              of synonymous terms are discussed.
    социальным и гуманитарным наукам // НТИ,                        Features of implementation of online version of the
    сер. 2, №7, 2004. с. 1-9.                                   thesaurus are outlined. The paper gives a particular
[13] Онлайн Энциклопедия «Кругосвет»: [сайт].                   attention to maintenance of a logical consistency of the
    [2001-2009]. URL: http://www.krugosvet.ru/                  thesaurus terminology system and to providing a
[14] Перерва В.М. О принципах и проблемах отбора                convenient access to the thesaurus content.
    терминов          и     составления        словника
                                                                
    терминологических словарей // Проблематика                     Работа выполнена при финансовой поддержке РГНФ
    определений терминов в словарях разных типов.               (проект № 10-04-12108в).
                                                                1
    – Л., 1976. – С. 190-204.                                     На начальном этапе мы включаем в тезаурус только
[15] Веб-сайт EAMT (The European Association for                существительные и именные словосочетания.
                                                                2
    Machine Translation ). http://www.eamt.org/                   Здесь приводятся частотные характеристики терминов в
                                                                коллекции «Диалог»
[16] Сидорова Е.А. Многоцелевая словарная                       3
                                                                   Поиск в Интернете дает обратное соотношение:
    подсистема извлечения предметной лексики //                 машинный перевод – 640000, автоматический перевод –
    Труды международной конференции Диалог’                     1960000, которое объясняется тем, что если речь идет о
    2008       «Компьютерная         лингвистика      и         МП с языка на язык (а не о переводе на другой тариф и
    интеллектуальные технологии». М.: РГГУ, 2008.               т.п.), основную часть ответов составляет реклама онлайн-
    Вып. 7 (14). –С. 475-481.                                   переводчиков, т.е. имеется в виду разновидность
[17] Соколова Е.Г., Семенова С.Ю., Кононенко И.С.,              полностью автоматического перевода (онлайн-перевод).
    Загорулько Ю.А., Кривнова О.Ф., Захаров В.П.
    Особенности подготовки терминов для русско-
    английского тезауруса по компьютерной
    лингвистике // Компьютерная лингвистика и
    интеллектуальные технологии. По материалам
    ежегодной         международной       конференции
    «Диалог» (Бекасово, 25-29 мая 2011 г.). Вып.
    10(17). –М.: РГГУ, 2011. –С.644–655.
[18] Толковый        словарь     по     искусственному
    интеллекту        /   Авторы-составители:      А.Н.
    Аверкин, М.Г. Гаазе-Рапопорт, Д.А. Поспелов. –
    М.:      Радио      и     связь,    1992.     –256с.
    (http://www.raai.org/library/tolk/aivoc.html)
[19] Языкознание.          Информационно-поисковый
    тезаурус ИНИОН РАН. – М., 2007.
[20] ANSI/NISO Z39.19-2005 Guidelines for the
    Construction, Format, and Management of
    Monolingual Controlled Vocabularies (Periodic
    Review).
[21] ISO 2788-1986. Documentation – Guidelines for
    the establishment and development of monolingual
    thesauri. Ed. 2.
[22] ISO 5964-1985. Documentation - Guidelines for
    the establishment and development of multilingual
    thesauri, IDT (Revised by: ISO/DIS 25964-1 Under
    development).




                                                           16