Подход к разработке русско-английского тезауруса по компьютерной лингвистике © Ю.А. Загорулько1, О.И.Боровикова1, И.С. Кононенко1, Е.Г. Соколова2 1 Институт систем информатики имени А.П.Ершова СО РАН, г. Новосибирск 2 Российский государственный гуманитарный университет, г. Москва zagor@iis.nsk.su, olesya@iis.nsk.su, irina_k@cn.ru, minegot@rambler.ru Аннотация ни в одном из существующих лингвистических источников. В докладе представлен подход к разработке Так, тезаурус по теоретической и прикладной русско-английского электронного тезауруса лингвистике, созданный в 1978 г. С.Е. Никитиной по компьютерной лингвистике. [9], уже устарел. Кроме того, он одноязычный и не Рассматривается общее строение тезауруса, содержит определений понятий. структура тезаурусных статей и набор Терминологический словарь В.З. Демьянкова [6] связей между терминами. Обсуждается содержит толкования и является двуязычным, но не проблема выбора терминов для включения отражает современную картину этой научной в тезаурус, а также проблема выбора области. основного термина-дескриптора из Представительного компактного собрания множества синонимичных терминов. терминов современной КЛ и их толкований не Описываются особенности реализации существует не только в России, но и за рубежом. электронной версии тезауруса, при этом Собственно лингвистика представлена в нескольких особое внимание уделяется поддержанию фундаментальных источниках, в частности, в ЛЭС логической целостности [10], словаре О.С. Ахмановой [1] и интернет- терминологической системы тезауруса и энциклопедии «Кругосвет» [13], содержащей статьи обеспечению удобного доступа к его по новым для традиционной лингвистики понятиям. содержимому. Разработанный в 2007 г. в ИНИОН РАН тезаурус по языкознанию [19] содержит около 3000 терминов, 1. Введение относящихся к различным разделам данной науки. При всех своих достоинствах, данный тезаурус, В настоящее время наблюдается значительный прежде всего, предназначен для интерес к компьютерной лингвистике (КЛ), как к библиографического поиска, поэтому его словарные прикладной научной дисциплине, включающей статьи не содержат дефиниций. Кроме того, знания о методах извлечения информации из тезаурус ИНИОН является одноязычным и текстов, индексирования и содержательного поиска характеризуется малым удельным весом собственно документов, построения естественно-языковых, в терминологии КЛ (дескрипторы из области КЛ том числе речевых, интерфейсов. В связи с этим составляют около 4% от общего количества возникла острая потребность в терминов, представленных в тезаурусе). систематизированных знаниях по терминологии КЛ, Определения терминов КЛ содержатся и в которые, с одной стороны, способствовали бы толковом словаре по искусственному интеллекту повышению образовательного уровня, а с другой [18]. Однако он отражает терминологию на конец стороны, использовались для индексирования 1980-х гг. Кроме того, он содержит довольно мало публикаций по КЛ – как терминов КЛ, а имеющиеся в нем термины чаще ручного/автоматизированного, так и всего трактуются не с позиций этой области знаний, автоматического – с целью облегчения доступа к а с позиций искусственного интеллекта. представленным в них знаниях по КЛ. Так как КЛ имеет междисциплинарный Однако в данный момент в КЛ отсутствует характер, то некоторые ее термины можно найти в четкая и общепринятая система научной общих энциклопедиях, например, в БЭС [2]. терминологии, причем многие термины Популярным источником знаний по КЛ сейчас современной КЛ не представлены на русском языке является Википедия [8], в которой можно найти объяснения, классификации и ссылки на источники по многим понятиям КЛ, однако эти сведения часто Труды 13й Всероссийской научной конференции страдают односторонностью, неполнотой и «Электронные библиотеки: перспективные методы и эскизностью. технологии, электронные коллекции» - RCDL’2011, Воронеж, Россия, 2011. 9 Таким образом, на данный момент не (непредпочтительные термины). При этом существует источника, в котором вся терминология дескрипторы могут использоваться при КЛ была бы приведена в единую систему. Этот индексировании документов и в поисковых ощутимый и досадный пробел мог бы восполнить запросах, а аскрипторы (как текстовые входы) двуязычный тезаурус, содержащий английские и подлежат замене одним или несколькими русские термины КЛ и их толкования. дескрипторами [11]. Такой тезаурус позволит структурировать и В зависимости от языковой направленности накапливать информацию, релевантную для этой тезаурусы разделяются на одноязычные и области знаний, производить смысловой поиск многоязычные. данных в информационных хранилищах и сетях. Многоязычный информационно-поисковый Кроме того, такой тезаурус мог бы способствовать тезаурус (МИПТ) содержит термины из нескольких повышению уровня профессиональной подготовки естественных языков и представляет эквивалентные будущих специалистов не только в сфере КЛ, но и по смыслу понятия на каждом из них. В качестве информационных технологий вообще. основной структурной единицы МИПТ может Двуязычность тезауруса даст возможность рассматриваться составной дескриптор, собранный отечественным ученым и специалистам быстрее и из эквивалентных дескрипторов одноязычных эффективнее ориентироваться в мировой ситуации в версий, связанных средствами для указания данной области, окажет им помощь при написании эквивалентности. и переводе статей. В ситуации еще не до конца Построение русско-английского тезауруса по КЛ преодоленного отставания российской КЛ от выполняется в соответствии с требованиями англоязычной и наличия некоторых существенных межгосударственного стандарта ГОСТ 7.24-2007 различий, сохранившихся от изолированного [4], который разработан с учетом основных развития российской КЛ в советский период, нормативных положений международного составление такого тезауруса выявляет различия и стандарта ISO 5964-1985 [22] и устанавливает сходства между понятиями, используемыми в состав, структуру и основные требования к отечественной и зарубежной науке, и позволяет построению МИПТ. Русско-английский тезаурус по вводить новые понятия и лингвистические термины, КЛ разрабатывается как набор одноязычных версий отсутствующие в русском языке [17]. МИПТ, при этом выполняется согласованное В данной работе рассматривается подход к построение одновременно двух версий тезауруса – разработке русско-английского тезауруса по русскоязычной и англоязычной. компьютерной лингвистике. Описывается общее Разработка каждой из одноязычных версий строение тезауруса, структура тезаурусных статей и тезауруса выполняется на основе международного набор связей между терминами. Особое внимание стандарта ISO 2788-1986 [21], межгосударственного уделяется проблеме выбора и представления стандарта ГОСТ 7.25-2001 [5] и американского отношений между терминами, а также стандарта Z39.19-2005 [20]. поддержанию логической целостности терминологической системы тезауруса. 2.1 Структура словарной статьи Основными единицами тезауруса являются 2. Структура русско-английского термины предметной области (ПрО), которые тезауруса по КЛ разделяются на дескрипторы и аскрипторы. Согласно ГОСТ 7.25-2001, в ИПТ включаются Проектирование структуры двуязычного следующие типы лексических единиц (ЛЕ): тезауруса по компьютерной лингвистике одиночные слова (существительные, выполнялось на основе анализа существующих прилагательные, глаголы, наречия), именные отечественных и международных стандартов словосочетания, лексически значимые компоненты [4,5,20-22], регламентирующих построение сложных слов, сокращения слов и словосочетаний1. информационно-поисковых тезаурусов (ИПТ), а ЛЕ объявляются эквивалентными в ИПТ, образуя также на основе анализа и обобщения накопленного класс эквивалентности, если замена одной ЛЕ на к этому времени опыта разработки тезаурусов другую не приводит к изменению смысла текста, ИНИОН [12], РуТез [11] и др. существенному для поиска информации. Одна из Отечественные и международные стандарты лексических единиц класса эквивалентности определяют основные единицы, которые могут выбирается в качестве представителя этого класса и включаться в тезаурус, и набор отношений между получает статус дескриптора, остальные ЛЕ ними, устанавливают правила сбора массива получают статус аскриптора. При этом статус лексических единиц, формирования словника, аскриптора получают также и термины, построения словарных статей и оформления ИПТ. представляемые аббревиатурами или иными По своему составу ИПТ подразделяют на вариантами написания (через дефис, с пробелом и тезаурусы, все единицы которых являются т.п.). дескрипторами (или предпочтительными В состав словарной статьи тезауруса вне терминами), и тезаурусы, выделяющие среди своих зависимости от статуса термина входят следующие единиц дескрипторы и аскрипторы элементы: 10  Название термина предметной области, задавать связи между аскрипторами и который представляет собой слово, альтернативными дескрипторами или представлять словосочетание или лексически значимый аскриптор комбинацией дескрипторов. Если нет компонент сложного слова естественного однозначного соответствия между дескрипторами и языка. аскрипторами, то используются отношения  Язык, на котором дано название термина. «Используй альтернативно» или «Используй  Комментарий, включающий правила и комбинацию», задающие соответствие между рекомендации использования термина, а аскрипторами и заменяемыми ими дескрипторами; также замечания и пояснения автора при этом вводятся обратные им отношения «Сравни словарной статьи. альтернативный выбор» и «Сравни комбинацию».  Автор словарной статьи – задается для Например, аскриптор ПАРТИЦИПАНТ можно контроля процесса коллективной разработки связать отношением «Используй альтернативно» с тезауруса. дескрипторами СЕМАНТИЧЕСКАЯ Термины-дескрипторы, кроме перечисленных ВАЛЕНТНОСТЬ и УЧАСТНИК СИТУАЦИИ. В то выше атрибутов, описываются следующими же время аскриптор СИСТЕМА дополнительными атрибутами: СТАТИСТИЧЕСКОГО МАШИННОГО ПЕРЕВОДА  Определение термина, поясняющее на языке может быть представлен с помощью связи термина его смысл или значение. Наличие в «Используй комбинацию» как комбинация тезаурусе определений терминов делает (сочетание) двух дескрипторов – СИСТЕМА возможным его использование не только в МАШИННОГО ПЕРЕВОДА и качестве инструмента для ручного или СТАТИСТИЧЕСКИЙ МАШИННЫЙ ПЕРЕВОД. автоматизированного индексирования, но и Для отражения семантических связей между в качестве источника систематизированных понятиями, выражаемыми дескрипторами, в знаний о данной ПрО. одноязычных версиях устанавливаются  Релятор, представляющий собой помету, иерархические и ассоциативные отношения. введенную для различения омонимичных Между дескрипторами вводятся такие терминов (омографов) в рамках иерархические отношения, как описываемой ПрО. Он является частью недифференцированная иерархическая связь термина и поясняет его значение, относя его «Выше», направленная от нижестоящего к определенной понятийной категории или дескриптора к вышестоящему, родовидовая связь предметно-тематической области (в «ВышеРод», устанавливаемая между двумя контексте данной работы – подобласти КЛ дескрипторами, когда объем понятия нижестоящего или смежной ей области/подобласти дескриптора входит в объем понятия вышестоящего знаний). Например, для различения двух дескриптора, партонимическая связь «ВышеЦелое», понятий, образованных на основе задаваемая между двумя дескрипторами в том словосочетания РАЗМЕТКА ТЕКСТА, случае, когда нижестоящий дескриптор могут быть использованы реляторы представляет компонент объекта, обозначаемого ПРОЦЕСС и ОБЪЕКТ. В результате мы вышестоящим дескриптором. Вводятся также получаем два разных термина-дескриптора обратные им отношения: «Ниже», «НижеВид», РАЗМЕТКА ТЕКСТА (ПРОЦЕСС) и «НижеЧасть». РАЗМЕТКА ТЕКСТА (ОБЪЕКТ). Для задания отношений между дескрипторами, представляющими класс понятий и экземпляр этого  Область/подобласть знания, к которой класса, были выбраны связи относится данный термин-дескриптор. «ВышеКлассЭкземпляра» и «НижеЭкземпляр».  Признак корневого термина (Top Term), При установлении иерархических отношений указывающий на то, что дескриптор для некоторых дескрипторов можно указать находится на самом верхнем уровне какой- признак «Аспект деления иерархии». Так, либо иерархии понятий. например, в иерархии, построенной по отношению Термины тезауруса связываются различными «НижеВид», МАШИННЫЙ ПЕРЕВОД по признаку семантическими отношениями, отражающими «подход» разделяется на СТАТИСТИЧЕСКИЙ место каждого термина в системе понятий МАШИННЫЙ ПЕРЕВОД, МАШИННЫЙ выбранной ПрО. ПЕРЕВОД НА ОСНОВЕ ПРАВИЛ и МАШИННЫЙ Для связи дескрипторов с аскрипторами ПЕРЕВОД, ОСНОВАННЫЙ НА ПРЕЦЕДЕНТАХ, а используются отношения синонимии. Так, если по признаку «степень участия человека» – на дескриптор может однозначно во всех контекстах ПОЛНОСТЬЮ АВТОМАТИЧЕСКИЙ ПЕРЕВОД и заменить какой-то аскриптор, то он связывается с ЧЕЛОВЕКО-МАШИННЫЙ ПЕРЕВОД. ним отношением «Синоним»; при этом также Таким образом, один и тот же дескриптор устанавливается обратное отношение от аскриптора одновременно может входить в несколько иерархий к дескриптору – «Смотри». Для моделирования понятий, построенных по различным отношениям других соотношений между аскрипторами и («Выше», «ВышеРод», «ВышеЦелое») и по дескрипторами в соответствии с ГОСТ 7.25-2001 в различным аспектам деления иерархии. тезаурус вводятся отношения, позволяющие 11 Связи между дескрипторами, отличные от определяются классы терминов и типы источников иерархических отношений и отношений синонимии, терминов, а также набор отношений и их свойства. задаются отношением «Ассоциируется с». Такое Причем могут быть заданы не только структурные отношение позволяет задавать произвольные свойства отношений – путем указания типа их ассоциативные связи между дескрипторами, аргументов и задания ограничений на например, отношения, выражающие зависимости существование (число) и обязательность связей, но вида «процесс-объект», «причина-следствие» и др. и формальные свойства – приписыванием Чтобы указать эквивалентность дескрипторов из отношениям математических свойств разных одноязычных версий между ними (симметричность, рефлексивность, транзитивность, устанавливается отношение «Эквивалент на другом асимметричность, антирефлексивность) и заданием языке». Если понятие не может быть выражено на для них обратных отношений. другом языке одним дескриптором, тогда для него в Второй уровень обеспечивает хранение соответствии с ГОСТ 7.24-2007 указывается в тезаурусных статей и описаний источников. Для качестве эквивалента комбинация нескольких задания терминов, их определений и источников, а дескрипторов. также для установления связей между ними редактор тезауруса предоставляет экспертам- 2.2 Представление источников терминов лингвистам удобный интерфейс. Заметим, что сразу Для подтверждения актуальности введенных в после завершения ввода и/или редактирования тезаурус терминов и ознакомления пользователей описаний терминов, источников и связей между тезауруса с практикой их употребления для каждого ними, новая информация становится доступной термина задаются его связи с источниками, т.е. через пользовательский web-интерфейс тезауруса. текстовыми документами или коллекциями Редактор тезауруса реализован как web- текстовых документов, в которых данный термин приложение и доступен зарегистрированным встречается или определяется. пользователям через Internet. С целью обеспечения Этим целям служат два отношения: связь распределенной коллективной разработки в «Встречается в», при которой можно указать редакторе тезауруса поддерживается механизм частоту встречаемости термина в источнике, если делегирования прав экспертам разных уровней. В источник – коллекция текстов, и связь «Встречается соответствии с этим механизмом только эксперты в части документа», с помощью которой самого высокого уровня могут редактировать отмечается, что данный термин встречается в структуры тезауруса, а эксперты других уровней – предметном указателе или глоссарии источника, что только его содержание (описание терминов и указывает на важность термина и повышает степень источников). При этом действует следующее доверия к нему. Термины-дескрипторы, ограничение: два эксперта не могут одновременно снабженные толкованиями-определениями, редактировать одну и ту же словарную статью (или связываются с источником определения с помощью описание источника). отношения «Дается определение в». Кроме того, действует правило, по которому В тезаурусе источники описываются редактировать словарную статью может только ее следующими параметрами: название, автор. Если кто-то из экспертов захочет внести библиографическая ссылка, язык, тип (книга, изменения в «чужую» статью, он может согласовать монография, научная статья, документация, такую возможность с ее автором, в частности, через учебник, словарь, тезаурус, интернет-ресурс, специальный форум, на который имеется ссылка в коллекция текстов и др.), краткое описание и адрес электронном тезаурусе. в сети Интернет. Для коллекции текстов Для того чтобы тезаурус мог использоваться при дополнительно задается число текстов и индексировании и поиске текстовых документов, он словоупотреблений. должен представлять целостную и непротиворечивую систему понятий ПрО. Это обеспечивается встроенными в редактор терминов 3. Реализация электронной версии механизмами вывода и поддержки логической тезауруса целостности системы понятий тезауруса, работа Для представления тезауруса в виде которых базируется на описаниях свойств электронного ресурса было разработано отношений тезауруса, представленных в редакторе двухуровневое хранилище данных, а для его тезауруса в виде аксиом и ограничений. разработки и сопровождения – редактор тезауруса. В частности, на основе этих свойств происходит На первом уровне хранятся структуры тезауруса, корректное установление связей между терминами определяющие схемы тезаурусных статей, вид и тезауруса, при необходимости осуществляется их свойства отношений, задаваемых между терминами, автоматическое добавление и/или удаление. Кроме а также характеристики источников терминов и их того, регулируются ограничения на существование определений. Создание и настройка структуры и число тех или иных связей между терминами тезауруса осуществляется в специальном разделе тезауруса в зависимости от их принадлежности к редактора тезауруса. В частности, здесь тем или иным классам. 12 Рис.1. Представление термина «Машинный перевод» Например, если для рассмотренного в разделе обеспечиваться запрет на создание связей «Смотри» 2.1. отношения «Смотри» задано обратное и «Синоним» с другими дескрипторами. отношение («Синоним») и ограничение на Для обеспечения доступа к электронному существование связей («только одна связь данного тезаурусу был разработан пользовательский web- типа для каждого термина-аскриптора»), то при интерфейс, который представляет пользователю связывании аскриптора АВТОМАТИЧЕСКИЙ содержимое тезауруса в виде сети взаимосвязанных ПЕРЕВОД и дескриптора МАШИННЫЙ ПЕРЕВОД информационных объектов – элементов тезауруса: отношением Смотри (АВТОМАТИЧЕСКИЙ ПЕРЕ- терминов (дескрипторов и аскрипторов) и описаний ВОД, МАШИННЫЙ ПЕРЕВОД) произойдет источников терминов и их определений. Набор создание обратной связи Синоним (МАШИННЫЙ атрибутов терминов и связей, установленных между ПЕРЕВОД, АВТОМАТИЧЕСКИЙ ПЕРЕВОД) (если ними, соответствует структуре тезауруса, таковой еще не существует), а также для аскриптора описанной в разделе 2.1. АВТОМАТИЧЕСКИЙ ПЕРЕВОД будет 13 При навигации по тезаурусу обеспечивается исчезает. К середине 70-х годов терминология в возможность выбора необходимых пользователю области искусственного интеллекта стала терминов, детального просмотра их описаний устанавливаться. Появились термины, которые (тезаурусных статей), а также описаний источников признало подавляющее большинство специалистов. (публикаций или коллекций текстов), в которых Все эти термины (за редким исключением) по встречается термин и/или его определение. происхождению англоязычные, так как именно в Пользователь может указать, какой тип США проводились интенсивные исследования в информации его интересует – все термины, этой области. Окончательно основная терминология дескрипторы, аскрипторы или источники терминов. закрепилась в первой половине 80-х годов» [18]. При этом ему выдается полный список имеющихся ИИ – это методологическая область, методы в тезаурусе объектов выбранного типа, который которой применимы к разным ПрО, в частности, отображается в виде html-страницы, содержащей активно применяются в КЛ в последнее набор ссылок на эти объекты. десятилетие. Терминология КЛ в отдельных Информация о конкретном объекте и его связях разделах продолжает сохранять черты первого этапа также отображается в виде html-страницы (Рис.1). (наличие большого числа синонимов, например, в При этом объекты, связанные с данным объектом, разделе семантических отношений). ИИ тоже представляются на его странице в виде считается междисциплинарной областью, однако по гиперссылок, по которым можно перейти к их этому параметру ИИ и КЛ противоположны: ИИ детальному описанию. междисциплинарна, потому что ее методы Дальнейшая навигация по тезаурусу применяются в разных дисциплинах, КЛ – потому представляет собой процесс перехода от одних что она вбирает в себя разные дисциплины, такие объектов тезауруса к другим по заданным между как лингвистика (разделы, связанные с обработкой ними связям, отражающим существующие между текстов и речи), психология, некоторые разделы ними – тезаурусные (между терминами) или ИИ. библиографические (между терминами и Следствием указанных выше факторов является источниками) – отношения. отсутствие русскоязычных учебных и лексикографических источников, достаточно полно 4. Методика выбора терминов для отражающих структуру современной КЛ, в отличие включения в тезаурус от англоязычных источников, где она представлена детально и отчетливо. Важным моментом при построении тезауруса Учитывая вышеперечисленные особенности КЛ является методика подбора терминов – кандидатов и связанный с ними недостаток современной на включение в тезаурус, – а также выбор терминов- справочной русскоязычной литературы по КЛ, при дескрипторов из множеств синонимичных разработке тезауруса использовались источники терминов. «живых» терминов РКЛ и их толкований, и именно Выбор терминов для включения в русско- они фиксируются в словарных статьях тезауруса. английский тезаурус по КЛ сопряжен с В качестве основного источника русскоязычных трудностями, которые обусловлены особенностями терминов была выбрана коллекция текстов самой КЛ как новейшей науки и состоянием ее докладов, представленных на международной развития в России. Здесь важно отметить конференции «Диалог» в 2000-2010 гг., как следующие факторы, характеризующие КЛ в целом «зеркала», отражающего термины РКЛ в их и русскоязычную КЛ (РКЛ), в частности: реальном употреблении.  междисциплинарный характер КЛ; К данной коллекции была применена словарная  неоднородность ПрО «Компьютерная технология [16], с помощью которой на базе лингвистика»; лингвистических моделей (морфологического и  неравномерность развития отдельных локального синтаксического анализа) и направлений КЛ; статистических показателей был создан список  отличие русскоязычной КЛ от англоязычной статистически значимых в данной ПрО слов и (в частности, отставание отдельных словосочетаний – кандидатов в термины ПрО. Затем направлений РКЛ). этот список был обработан (отфильтрован) Ранее КЛ рассматривалась как часть экспертами в области КЛ, которые существенно исследовательского направления «искусственный опирались не только на знания о предмете и интеллект» (ИИ). Терминология этого направления направлениях КЛ, но и на общелингвистические считается зрелой: «Специальная терминология по представления о терминологичности и путях искусственному интеллекту и интеллектуальным формирования терминологических словников. системам начала формироваться в 60-е годы ХХ в. Таким образом, наш подход, учитывающий Первый этап формирования терминологии всегда предварительное структурирование ПрО, отличается наличием многих синонимических согласуется с общей методикой формирования терминов, которые используют различные школы и словников на базе классификационных схем группы специалистов. На этом этапе термины предметных областей (см., например, [14]). быстро возникают и часть из них также быстро 14 Для английской части словника, с учетом 5. Заключение русско-английской направленности создаваемого тезауруса выбирались переводные эквиваленты из В докладе представлен подход к разработке доступных англоязычных источников по КЛ. русско-английского электронного тезауруса по С другой стороны, чтобы дополнить картину компьютерной лингвистике, общий состав и РКЛ в тех ее разделах, где имеются пробелы, при структура которого были разработаны на основе сборе терминов по таким разделам пришлось международных и отечественных стандартов. опираться преимущественно на англоязычные При разработке программных компонентов источники. Так, учитывая скачок, совершенный в электронной версии тезауруса (хранилища данных, течение последних нескольких лет в такой пользовательского интерфейса и редактора) высокотехнологичной подобласти КЛ, как речевые использовалась технология [7], которая была ранее технологии, а также тот факт, что это направление применена для создания портала знаний по слабо представлено в коллекции «Диалог», при компьютерной лингвистике [3]. сборе терминов для этой подобласти была Хотя рассмотренные средства разрабатывались применена обратная методика, т.е. в качестве для создания русско-английского тезауруса по основных использовались англоязычные источники: компьютерной лингвистике, благодаря наличию предметные указатели нескольких современных и средств настройки структуры тезауруса и наиболее авторитетных англоязычных книжных поддержки ее семантических свойств они могут источников обзорно-учебного профиля и глоссарии, быть использованы для построения многоязычных входящие в документацию известных звуковых тезаурусов для любых языков и предметных анализаторов. На данной терминологической базе областей. был составлен англо-русский словник параллельных В настоящее время ведется активная разработка терминов. тезаурусных статей и заполнение ими контента Достаточно сложной оказалась и проблема электронного тезауруса, который на данный момент выбора основного термина-дескриптора из включает более 1000 терминов КЛ, около 3500 множества синонимичных терминов. Прежде всего, связей между терминами и более 120 источников эта проблема связана с появлением новых понятий и терминов и их определений. соответствующих им терминов. Так, появление систем translation memory в сфере Литература автоматизированного перевода привело к широкому [1] Ахманова О.С. Словарь лингвистических использованию практиками-переводчиками термина терминов. – 3-е изд., стер. – М.: УРСС, 2005. – память переводов, который не был принят научным 576 с. сообществом, противопоставившим ему термин [2] Большой энциклопедический словарь (БСЭ) / переводческая память (синонимический ряд: гл. ред. А.М.Прохоров. - Изд. 2-е, перераб. и переводческая память – 8, память переводов – 0, доп. – М. : Большая Российская энциклопедия; – архив переводов – 1, накопитель переводов – 0, – СПб.: Норинт, 2004. – 1456 с. копилка переводов – 0)2. [3] Боровикова О.И., Загорулько Ю.А., Загорулько Развитие некоторых направлений КЛ (например, Г.Б., Кононенко И.С., Соколова Е.Г. Разработка таких как автоматический перевод в режиме портала знаний по компьютерной лингвистике // онлайн) приводит к столкновению вариантов старых Труды 11-ой национальной конференции по терминов. Так, тезаурус ИНИОН [19] и ЛЭС [10] искусственному интеллекту с международным основным термином в паре автоматический участием КИИ-2008. – М.: ЛЕНАНД, 2008. –Т.3. перевод и машинный перевод считают –С.380-388. автоматический перевод, присвоив ему статус [4] ГОСТ 7.24-2007. Система стандартов по дескриптора. Однако показатели встречаемости в информации, библиотечному и издательскому коллекции «Диалог» говорят в пользу термина делу. Тезаурус информационно-поисковый машинный перевод: машинный перевод – 318 vs. многоязычный. Состав, структура и основные автоматический перевод – 583. Интернет- требования к построению. (Введен в действие с энциклопедии «Википедия» и «Кругосвет», а также 1 июля 2008 г.). учебники придерживаются этой же традиции. На [5] ГОСТ 7.25-2001. Система стандартов по сайте Европейской ассоциации машинного перевода информации, библиотечному и издательскому [15] также отмечается, что термин machine делу. Тезаурус информационно-поисковый translation, хоть и звучит архаично, но, тем не одноязычный. Правила разработки, структура, менее, сохраняется как основной общий термин для состав и форма представления. (введен в всей области. В данном случае эксперты действие с 1 июля 2002 г.) согласились с этой точкой зрения. [6] Демьянков В.З. Англо-русские термины по Таким образом, при выборе терминов прикладной лингвистике и автоматической дескрипторов мы опирались не только на переработке текста. Вып. 2. Методы анализа статистику, но и на традиции словоупотребления, текста // Тетради новых терминов. № 39. – М.: сложившиеся к настоящему времени в ВЦП, 1982. лингвистическом научном сообществе. 15 [7] Загорулько Ю.А., Боровикова О.И. Подход к Approach to Development of Russian- построению порталов научных знаний // English Thesaurus on Computational Автометрия. Новосибирск: 2008. Т. 44. № 1. С. 100–110. Linguistics [8] Интернет-энциклопедия «Википедия» © Yu.A. Zagorulko, O.I. Borovikova, I.S. http://ru.wikipedia.org Kononenko, E.G. Sokolova [9] Никитина С.Е. Тезаурус по теоретической и прикладной лингвистике. – М.: Наука, 1978. The paper presents an approach to development of [10] Лингвистический энциклопедический словарь. Russian-English thesaurus on Computational //Под ред. В. Н. Ярцевой. М.:Советская Linguistics. A general structure of the thesaurus, энциклопедия, 1990. — 685 с. [3 изд. 2002.] composition of the thesaurus entries and set of relations [11] Лукашевич Н.В. Тезаурусы в задачах between terms of the thesaurus are described. The информационного поиска. – М.: Издательство problems of choice of terms for inclusion in the Московского университета, 2011. – 512 с.. thesaurus and the preferred terms (descriptors) from set [12] Мдивани Р.Р. О разработке серии тезаурусов по of synonymous terms are discussed. социальным и гуманитарным наукам // НТИ, Features of implementation of online version of the сер. 2, №7, 2004. с. 1-9. thesaurus are outlined. The paper gives a particular [13] Онлайн Энциклопедия «Кругосвет»: [сайт]. attention to maintenance of a logical consistency of the [2001-2009]. URL: http://www.krugosvet.ru/ thesaurus terminology system and to providing a [14] Перерва В.М. О принципах и проблемах отбора convenient access to the thesaurus content. терминов и составления словника  терминологических словарей // Проблематика Работа выполнена при финансовой поддержке РГНФ определений терминов в словарях разных типов. (проект № 10-04-12108в). 1 – Л., 1976. – С. 190-204. На начальном этапе мы включаем в тезаурус только [15] Веб-сайт EAMT (The European Association for существительные и именные словосочетания. 2 Machine Translation ). http://www.eamt.org/ Здесь приводятся частотные характеристики терминов в коллекции «Диалог» [16] Сидорова Е.А. Многоцелевая словарная 3 Поиск в Интернете дает обратное соотношение: подсистема извлечения предметной лексики // машинный перевод – 640000, автоматический перевод – Труды международной конференции Диалог’ 1960000, которое объясняется тем, что если речь идет о 2008 «Компьютерная лингвистика и МП с языка на язык (а не о переводе на другой тариф и интеллектуальные технологии». М.: РГГУ, 2008. т.п.), основную часть ответов составляет реклама онлайн- Вып. 7 (14). –С. 475-481. переводчиков, т.е. имеется в виду разновидность [17] Соколова Е.Г., Семенова С.Ю., Кононенко И.С., полностью автоматического перевода (онлайн-перевод). Загорулько Ю.А., Кривнова О.Ф., Захаров В.П. Особенности подготовки терминов для русско- английского тезауруса по компьютерной лингвистике // Компьютерная лингвистика и интеллектуальные технологии. По материалам ежегодной международной конференции «Диалог» (Бекасово, 25-29 мая 2011 г.). Вып. 10(17). –М.: РГГУ, 2011. –С.644–655. [18] Толковый словарь по искусственному интеллекту / Авторы-составители: А.Н. Аверкин, М.Г. Гаазе-Рапопорт, Д.А. Поспелов. – М.: Радио и связь, 1992. –256с. (http://www.raai.org/library/tolk/aivoc.html) [19] Языкознание. Информационно-поисковый тезаурус ИНИОН РАН. – М., 2007. [20] ANSI/NISO Z39.19-2005 Guidelines for the Construction, Format, and Management of Monolingual Controlled Vocabularies (Periodic Review). [21] ISO 2788-1986. Documentation – Guidelines for the establishment and development of monolingual thesauri. Ed. 2. [22] ISO 5964-1985. Documentation - Guidelines for the establishment and development of multilingual thesauri, IDT (Revised by: ISO/DIS 25964-1 Under development). 16