=Paper= {{Paper |id=Vol-1297/075-80_paper-13 |storemode=property |title=Об автоматической рубрикации терминов тезауруса открытой информационно-аналитической системы (On the Automatic Structuring of the Thesaurus for an Open Information-Analytical System) |pdfUrl=https://ceur-ws.org/Vol-1297/075-80_paper-13.pdf |volume=Vol-1297 |dblpUrl=https://dblp.org/rec/conf/rcdl/BoikovZKS14 }} ==Об автоматической рубрикации терминов тезауруса открытой информационно-аналитической системы (On the Automatic Structuring of the Thesaurus for an Open Information-Analytical System) == https://ceur-ws.org/Vol-1297/075-80_paper-13.pdf
    Об автоматической рубрикации терминов тезауруса
    открытой информационно-аналитической системы

© Бойков В.Н.            © Захаров В.Е.                 © Каряева М.С.             © Соколов В.А.
Институт космических исследований РАН                   Ярославский государственный университет
               Москва                                                   Ярославль
boykov_bh@bk.ru vezakhar@mx.iki.rssi.ru                mari.s.ka@mail.ru valery-sokolov@yandex.ru


                                                            помощью известных методов полнотекстового
                   Аннотация                                поиска из авторитетных источников (баз знаний,
    В работе рассматривается применение                     справочников, словарей, энциклопедий).
    методов лингвистического анализа для
    автоматического рубрицирования терминов                    Задача автоматического выявления отношений
    открытого сетевого ресурса «Тезаурус по                 между понятиями сводится к извлечению этих
    поэтологии» в составе Информационно-                    отношений из описания понятий и требует
    аналитической системы русской поэзии.                   специальных лингвистических методов, поскольку
    Приведены     основные      принципы  и                 чаще всего формально эти отношения в описании не
    процедуры автоматической рубрикации                     задаются.    Для    выявления    таксономических
    корпуса терминов тезауруса.                             отношений (синонимии и гиперонимии) между
    Работа поддержана Российским фондом                     понятиями         оказывается       эффективным
    фундаментальных исследований, грант                     формирование лингвистических шаблонов [1].
    № 13-06-00448.                                          Растущий       интерес      исследователей      к
                                                            лингвистическим методам анализа текста для
1 Введение                                                  построения онтологий связан с повышением
                                                            качества синтаксических анализаторов [2].
   Автоматизация        семантического       анализа           Семантическая     неопределенность     сложных
полнотекстовой информации для извлечения                    синтаксических конструкций заставляет обратиться
релевантных данных является актуальной задачей в            к    такому      фундаментальному      семантико-
инженерии      знаний.     Это    важно     и    для        синтаксическому понятию, как синтаксема, которая
автоматического построения таких метаописаний и             является и минимальной синтаксической единицей,
семантических структур предметной области, как              и носителем элементарного смысла [3]. Синтаксемы
тезаурусы и онтологии, где описываются основные             могут происходить от различных частей речи, но
понятия и отношения между ними.                             преимущественно – от имен существительных и
   Семантическая          модель         предметно-         представляют собой падежные или предложно-
ориентированного       тезауруса     предопределяет         падежные словоформы в синтаксическом контексте.
структуру     его   данных,      тогда    как    его        К сожалению, конструкции со сложными
структурирование     осуществляется      по     мере        предлогами в репертуар синтаксем пока не вошли.
непосредственного описания его понятий и                       Примером      конструктивного   использования
отношений      между      ними.     Определяющими           синтаксемы может служить лингвистический
структуру     данных     являются     иерархические         подход, осуществленный в [4] при построении
отношения, поскольку задают сложность структуры,            онтологии конкретной предметной области.
как по числу иерархических уровней (рубрик), так и
по числу вариаций (подрубрик) на одном уровне.              2 Описание объекта структурирования
Среди иерархических отношений чаще всего
выделяются отношение «рода и видов», задающее                   Представление о составе Информационно-
классификацию понятий, и отношение «целого и                аналитической системы русской поэзии (ИАСРП), а
частей», систематизирующее данные.                          также о методологических концепциях тезауруса по
   Задача автоматизации описания понятия, основу            поэтологии (ТП) дается в работах [5–8].
которого составляет его определение, решается с                 В исходной комплектации ТП содержится:
                                                                – Базовый корпус около 2000 терминов по
   Труды 16-й Всероссийской научной конференции             поэтологии;
«Электронные библиотеки: перспективные методы и
                                                                – Формуляр терминологической статьи тезауруса
технологии, электронные коллекции» — RCDL-2014,
Дубна, Россия, 13–16 октября 2014 г.                        (ТСТ), представляющий семантическую модель ТП
                                                            [8], где заданы 27 полей ТСТ трех типов – поля,



                                                       75
относящиеся к термину (основные – «определение»           1.2.1. Формы прозы: (кластер);
и     «рубрика»),   и    поля   иерархических    и        1.2.2. Членение прозы: (кластер).
неиерархических отношений между терминами;                    Рубрики 4 верхних уровней всех 10 подобластей
    – Базовый рубрикатор терминов, в котором              представляют всего 115 терминов из двухтысячного
представлена экспертная рубрикация предметной             корпуса.
области по 10 подобластям (рубрикам верхнего                  ТП разрабатывается с применением Wiki-
уровня),       соответствующим        дисциплинам         технологии. Базы знаний с использованием Wiki-
поэтологии [5], что необходимо и достаточно для           технологий имеют ряд преимуществ, так как
автоматической      рубрикации    всего    корпуса        позволяют энтузиастам-исследователям самим через
терминов:                                                 веб-интерфейс активно включиться в процесс
1. Стиховедение;                                          редактирования базы знаний: исправления ошибок,
2. Стилистика;                                            добавления новых материалов и т.д. Коллективное
3. Поэтика;                                               редактирование ТП может ускорить наполнение
4. Риторика;                                              ТСТ и не должно отразиться на его качестве,
5. История литературы;                                    поскольку добавление новой информации в ТП
6. Переводоведение и литературная                         отслеживает наряду с администратором сайта
компаративистика;                                         модератор     системы      –    квалифицированный
7. Текстология;                                           специалист в области поэтологии, который
8. Герменевтика;                                          принимает или отвергает внесение или изменение
9. Теоретические школы и направления;                     контента в ТП.
10. Логика и методология науки.                               Вместе с тем, несмотря на возможность
                                                          получения высокого качества при ручном
    В качестве примера произведена ручная                 заполнении ТСТ, трудоемкость и множественность
рубрикация 32 терминов 4 верхних уровней                  звеньев процесса не обеспечивает его должной
подобласти 1. Стиховедение:                               скорости, поэтому задача его автоматизации на
1.1. Стих: (кластер);                                     предварительном этапе представляется достаточно
1.1.1 Метрика: (кластер);                                 важной.      Такая     автоматизация      позволяет
1.1.1.1. Квантитативная метрика: (кластер);               осуществить структурирование предметной области
1.1.1.2. Квалитативная метрика: (кластер);                и вследствие чего дает возможность энтузиастам-
1.1.2. Явления начала и конца стихотворной строки:        исследователям завершить описание термина в
(кластер);                                                контексте его места в общей структуре ТП.
1.1.2.1. Анакруза, анакруса: (кластер);                       ИАСРП в своем составе должен содержать
1.1.2.2. Каталектика: (кластер);                          помимо ТП также аналитический блок [6], который
1.1.3. Ритмика: (кластер);                                предназначен для        автоматического    решения
1.1.3.1. Акцентуация: (кластер);                          различных задач стиховедения в отношении
1.1.3.2. Цезура и Словоразделы: (кластер);                поэтических     текстов.     Для    постановки    и
1.1.4. Строфика: (кластер);                               алгоритмизации этих задач необходим завершенный
1.1.4.1. Строфы: (кластер);                               в достаточной полноте тезаурус, что предполагает, в
1.1.4.2. Квазистрофические формы и                        том числе, и его рубрикацию. В этом контексте
Гиперстрофические формы: (кластер);                       очевидна актуальность создания программно-
1.1.4.3. Твёрдые формы стиха: (кластер);                  алгоритмического модуля для решения комплекса
1.1.5. Рифмика: (кластер);                                задач, связанных со структуризацией ТП и
1.1.5.1. Типы рифмы по количеству слогов:                 рубрикации его терминов.
(кластер);
1.1.5.2. Типы рифмы по фонетическому составу:             3 Модуль автоматического
(кластер);
1.1.5.3. Типы рифмы по лексическому составу:
                                                          структурирования ТП
(кластер);                                                   Конечной         целью        автоматического
1.1.5.4. Рифменные последовательности: (кластер);         структурирования ТП является рубрикация его
1.1.5.5. Квази-рифмические способы организации            терминов, т.е. отнесение каждого термина к его
стиха: (кластер);                                         рубрике в иерархическом дереве, точнее, к
1.1.6. Лингвистика стиха: (кластер);                      цифровому коду его рубрики, идентифицирующему
1.1.6.1. Звуковая организация стиха: (кластер);           место термина в иерархии. В данном случае
1.1.6.2. Графическая организация стиха: (кластер);        каждому термину определяется место в цепочке
1.1.6.3. Ритмико-фонетические явления в стихе:            терминов, привязанной к одной из вершин базового
(кластер);                                                рубрикатора терминов.
1.1.6.4. Морфология стиха: (кластер);
                                                             В модуле автоматического структурирования ТП
1.1.6.5. Синтаксис стиха: (кластер);
                                                          выделяются          следующие         подмодули
1.1.6.6. Мелодика стиха: (кластер);
                                                          последовательных автоматических процедур.
1.1.6.7. Поэтическая семантика: (кластер);
1.2. Проза (в отличие от стиха): (кластер);                  Подмодуль 1: автоматическое заполнение поля
                                                          ТСТ «определение»;



                                                     76
   Подмодуль 2: автоматическое заполнение полей            термина означает, что последний является видом
ТСТ «родовое понятие» и «видовые понятия»;                 для данного.
   Подмодуль 3: автоматическое заполнение полей               Автоматизация выделения из определения
ТСТ «целое» и «части»;                                     термина его рода и видов с помощью
   Подмодуль 4: автоматическое заполнение полей            лингвистических методов исходит из выявления
«рубрика» и «дисциплина (рубрика первого                   синтаксических конструкций, задающих отношения
уровня)».                                                  рода и вида. Элементарные единицы русского
                                                           синтаксиса (синтаксемы) для этих отношений
   Процедуры подмодуля 1                                   приводятся в [3], хотя они не исчерпывают всех
   Для автоматического заполнения поля ТСТ                 синтаксических       конструкций       для    этих
«определение» используются следующие (в порядке            целей. Примеры синтаксем, несущих отношения
репрезентативности) оцифрованные источники:                «род-виды»:
   – Краткая литературная энциклопедия: В 9 т. –              – предмет среди класса предметов – предлог
М.: Сов. энцикл., 1962-1978 [9].                           «среди» + род. падеж (выделяться, находиться
   – Квятковский А.П. Поэтический словарь. – М.:           среди …);
Советская энциклопедия, 1966 [10].                            – отнесение вида к роду – предлог «к» + дат.
   – Литературная энциклопедия: В 11 т. – М.: Ком.         падеж (относиться, принадлежать к …).
акад., 1929-1939 [11].                                        Для выявления «родо-видовых» отношений
   Дополнительно полезны также некоторые другие            служат и другие синтаксические конструкции [18].
энциклопедии и словари [12–16].                               Для выявления вида:
   Ключом для извлечения определения понятия из               – сложное слово, часть которого (производящая
источника служит термин из имеющегося                      основа или словообразующая морфема) задает
терминологического словника ТП. Все извлеченные            единство принадлежности к роду, как, например, в
определения для данного термина помещаются в               «метрике» различают явления «монометрии» и
поле ТСТ «альтернативные определения».                     «полиметрии».
   Затем        производится        лингвистическая           Для выявления как рода, так и вида:
(частеречная и синтаксическая) разметка текстов               – словосочетание,     представляющее      собой
определений       с    помощью      синтаксического        видовой термин, где «в качестве опорного
анализатора      (парсера),     размещенного     на        терминоэлемента выступает родовой термин», как,
электронном ресурсе «Автоматическая обработка              например, в роду «ямб» выделяются двустопный,
текста» [17]. При разметке текста определения              трехстопный, 4-стопный, 5-стопный и 6-стопный
термина в нем отмечаются другие термины,                   ямбы.
включенные в терминологический словник, что
                                                              Для выявления «родо-видовых» отношений
важно       для      результативности      процедур
                                                           полезны    также     конструкции    с    предметно
последующих подмодулей.
                                                           определенным      обобщающим        словом     или
   Среди альтернативных определений могут                  словосочетанием      при    однородных      членах
оказаться синонимические определения, а также              предложения.
противоречащие       друг    другу     и   нечеткие
                                                              После выявления «родо-видовых» отношений
определения. Решение о помещении того или иного
                                                           данного термина определяющая эти отношения
определения в поле ТСТ «определение» и
                                                           синтаксическая конструкция добавляется в набор
сохранении      его    в    поле    «альтернативные
                                                           шаблонов      для      синтаксического     анализа
определения» принимается модератором системы.
                                                           последующих терминов.
   Процедуры подмодуля 2 и 3                                  При успешном выявлении рода или вида для
   Хотя для рубрикации достаточно заполнить поле           данного термина может оказаться так, что
«родовое понятие», но иногда род термина                   соответствующих         им        терминов       в
определяется только через его представление в              терминологическом словнике нет, и тогда решение
качестве вида другого.                                     о внесении этих терминов в словник принимает
   Первой процедурой выявления рода для данного            модератор системы.
термина является его поиск в полях «видовые                   С другой стороны, в самих определениях
понятия» в соответствующих полях других                    терминов могут не найтись отсылки к роду и видам
терминов: его нахождение в поле «видовые                   (у конечных терминов виды отсутствуют), и,
понятия» некоторого термина означает, что                  следовательно, не всегда можно вывести родо-
последний и является родом для данного.                    видовые цепочки к 4 верхним уровням, имеющим
   Аналогичной процедурой выявления вида для               коды рубрик. В этом случае придется использовать
данного термина является его поиск в полях                 открытость системы и компетентность энтузиастов-
«родовое понятие» ТСТ других терминов: его                 исследователей предметной области.
нахождение в поле «родовое понятие» некоторого




                                                      77
   Процедуры выявления отношений «целое-части»            создается новая ТСТ с данным термином и
для данного термина осуществляются по аналогии с          заполняются поля «термин» и «дисциплина».
предыдущими.                                                 Далее существует 2 варианта объяснения
   Специфика выделения из определения термина             термина: первый вариант содержит иностранный
отношений       «целое-части»      с     помощью          эквивалент с указанием языка и перевода термина,
лингвистических     методов    отличается    более        второй вариант встречается при условии русского
широким набором синтаксем, используемых для               происхождения     термина    или   утраты    его
выявления этих отношений:                                 иностранного происхождения.
   – обозначение частей целого – предлог «из» +
род. падеж (состоять, слагаться, складываться,
составляться, собираться или образовываться из …);
   – часть, отделенная от целого – предлог «от» +
род. падеж;
   – дополнение части к целому – предлог «к» +
дат. падеж (приобщенное к чему-то);
   – соединение частей в целое – предлог «в» +
вин. падеж (складываться, собираться в …);
   – распадение целого на части – предлог «в» +
вин. падеж (распадаться в …);
   – деление целого на части (несколько частей) –
предлог «на» + вин. падеж.
   Процедуры подмодуля 4
   Нахождение данного термина в одном из
кластеров рубрики верхнего уровня определяет
процедуру заполнения поля «дисциплина» в его
ТСТ.
   После выявления «родо-видовых» отношений
данного термина его «родовое понятие» сверяется с
терминами БРТ, имеющими код рубрики, и при его             Рис. 1. Пример термина «Рифма» с заполненными
совпадении с одним из таких терминов БРТ,                                      полями
производится рубрикация данного термина и его
перевод из кластера в рубрикатор: данному термину
присваивается видовой код рубрики найденного
термина. Затем код рубрики данного термина
вносится в поле «рубрика» его ТСТ.
   Далее производится рубрикация «видовых
понятий» данного термина и их перевод из кластера              Рис. 2. Разметка «термин-определение».
в рубрикатор: им присваиваются видовые коды
рубрики данного термина. Затем заполняются поля              Так как одно из полей тезауруса содержит поле
ТСТ видовых понятий данного термина «рубрика» и           «иноязычные эквиваленты», то использование
«родовое понятие», куда вносится данный термин.           конструкции, представленной на рисунке 2, снимает
                                                          вопрос о заполнении этого поля. Разметка <язык>
4 Реализация автоматического                              представляется в тезаурусе как дополнительный
заполнения поля ТСТ «определение»                         технических словарь, содержащий набор различных
                                                          языков в виде «англ.», «нем.», «греч.», «франц.»,
   На рисунке 1 для более наглядного                      «араб.» и т.д. Ключевое слово и соответствующая
представления размещены первые 12 полей ТСТ для           разметка «от» + <язык> автоматически указывают
конкретного термина. Следует отметить, что                на конструкцию строки, которая может быть
заполнение ТП является не только трудоемким               использована     в   качестве    описания    поля
процессом, так как необходимо заполнить порядка           «иноязычные эквиваленты».
50 тысяч полей, но и требует достаточного уровня             При использовании варианта 2 разметки
знаний предметной области.                                терминологической     статьи    источника    поле
   На рисунке 2 показана схема разметки ТСТ               «иноязычные эквиваленты» остается пустым. Далее,
источника, где ее текст открывается термином,             для всех вариантов выделяется оставшаяся часть
который содержится в терминологическом словнике           предложения и оформляется как определение
и, следовательно, в БРТ, что позволяет видеть, к          термина.
какой рубрике верхнего уровня относится данный               Пример разметки статьи источника [8] и
термин. Соответственно, в ТП автоматически                выделения из нее определения термина «рифма»:




                                                     78
   Рифма (от греч. — соразмерность) —                        Данный результат был получен с помощью
композиционно-звуковой повтор преимущественно             статистических расчетов, проведенных вручную,
в конце двух или нескольких стихов, чаще —                что гарантирует качество проводимых исследований
начиная с последнего ударного слога в рифмуемых           и может быть достоверной верхней оценкой для
словах. В русских пиитиках (10—18 вв.) этот повтор        автоматического подхода. Экспертная ручная
назывался «краесогласием».                                оценка обеспечивает возможность получения
   ТЕРМИН_1 := рифма                                      близкого результата, поскольку используемые
                                                          правила могут быть алгоритмизированы. Это дает
   ПЕРЕВОД_1 := соразмерность
                                                          основание считать,      что метод может быть
   ОПРЕДЕЛЕНИЕ_1 := композиционно-звуковой                автоматизирован на практике и в дальнейшем
повтор преимущественно в конце двух или                   улучшен с помощью обучающих методов (в том
нескольких стихов, чаще — начиная с последнего            числе, используя машинное обучение).
ударного слога в рифмуемых словах.
                                                          6 Заключение
   Каждый     из    оцифрованных    источников,
перечисленных выше [9–11], содержит описания и               В работе представлены методы и процедуры,
определения не более одной тысячи терминов.               которые позволяют автоматически структурировать
Безусловно, литературоведческих справочников              термины    такой     предметной    области,    как
недостаточно для полного покрытия предметной              «поэтология». Благодаря этому для заполнения
области, так как представленные выше источники            полей ТСТ не требуется помощь специалиста,
содержат целый ряд идентичных терминов, что               необходимо     лишь     реализовать    алгоритмы,
уменьшает размерность общего набора различных             использующие оцифрованные литературоведческие
терминов. Поэтому неизбежно использование                 и стиховедческие источники. В дальнейшем, при
альтернативных и универсальных источников                 совершенствовании      лингвистических    методов
знаний, таких как словари и энциклопедии общей            анализа,    детально рассматривающих частные
направленности.                                           случаи и исключения и использующих наряду со
                                                          справочными источниками литературоведческие
5 Статусы терминов после                                  исследования, можно автоматизировать заполнение
                                                          полей ТСТ и подвергнуть автоматической
автоматического структурирования ТП                       рубрикации значительную часть группы терминов,
   После применения процедур автоматической               имеющих статус «Не определено».
рубрикации все термины ТП условно можно                      Таким образом, имея достаточный набор
разделить на три группы:                                  неструктурированных терминов, источники знаний
   1) Термины с заполненными полями ТСТ, в том            и ряд аналитически полученных правил, можно
числе с полями, определяющими отношения между             осуществлять      автоматическую      рубрикацию
терминами.                                                терминов.    Кроме    того,   такой    подход    к
   2) Термины с заполненными полями ТСТ, кроме            структуризации     предметной    области    может
полей, определяющих отношения между терминами.            использоваться    в   более    широком     аспекте
   3) Термины, которые не встретились в                   гуманитарного знания.
литературоведческих и стиховедческих источниках,
соответственно,     не     имеют    автоматически         Литература
заполненных полей ТСТ.                                       [1] M.A. Hearst. Automatic Acquisition of
   Первая группа терминов является завершенной и                 Hyponyms from Large Text Corpora
имеет статус «Завершено», вторая группа терминов                 // Proceedings of the 14th International
получает статус «В работе» и доступна для                        Conference on Computational Linguistics. –
дальнейшей автоматической рубрикации, пока не                    1992. – P 539–545.
приобретет статус «Завершено». Третья группа                 [2] J. Makki, A.-M. Alquier, V. Prince. Semi
терминов имеет статус «Не определено», который                   Automatic Ontology Instantiation in the domain
показывает,    что     термин    не   подвергался                of Risk Management // IFIP, Advances in
автоматической рубрикации ввиду отсутствия                       Information and Communication Technology. –
соответствующего термина в оцифрованных                          2008. – Vol. 288. – P. 254–265.
источниках. Определение этих статусов указывает,
                                                             [3] Г.А. Золотова. Синтаксический словарь.
что следует прибегнуть к ручному заполнению ТСТ
                                                                 Репертуар элементарных единиц русского
для терминов со статусом «Не определено».
                                                                 синтаксиса. – М.: Наука, 1988.
   Основные три указанных источника терминов                 [4] Е.А. Оробинская. Метод автоматического
[9–11] содержат порядка 1000 терминов каждый и,                  построения онтологии предметной области
если учесть далеко не полное пересечение этих                    на     основе    анализа     лингвистических
совокупностей терминов, то в целом корпус                        характеристик текстового корпуса // Труды
терминов со статусами «Завершено» и «В работе»                   XV        Всероссийской         объединенной
может составить около 1500 единиц.                               конференции «Интернет и современное
                                                                 общество» (IMS-2012). – СПб, 2012.



                                                     79
[5] В.Н. Бойков, В.Е. Захаров, И.А. Пильщиков,                         Изд-во         Л.Д.      Френкель,        1925.
    Т.М. Сысоев. Тезаурус как инструмент                               (enc-dic.com/lit)
    поэтологии // Моделирование и анализ                        [13]   Большая советская энциклопедия: в 30 т. –
    информационных систем. – 2010. – Т. 17,                            3-е изд. – М.: Сов. энцикл., 1969–1978.
    № 1. – С. 5–24.                                                    (http://slovari.yandex.ru/dict/bse/)
[6] V.N. Boikov, V.E. Zakharov, M.S. Karyaeva,                  [14]   Лингвистический           энциклопедический
    V.A. Sokolov. Предметно-ориентированный                            словарь. М.: Советская энциклопедия,
    тезаурус в открытой информационно-                                 1990. (www.tapemark.narod.ru/les)
    аналитической системе (Domain-Specific                      [15]   Ахманова О. С. Словарь лингвистических
    Thesaurus as a Part of an Information-                             терминов. – М.: Сов. энцикл., 1966.
    Analytical System) – RCDL-2013.
                                                                [16]   Розенталь Д. Э., Теленкова М. А. Словарь-
[7] В.Н. Бойков, В.Е. Захаров, М.С. Каряева,                           справочник лингвистических терминов. –
    В.А. Соколов. Тезаурус по поэтологии как                           Изд. 2-е. — М.: Просвещение, 1976.
    инструмент для информационного поиска и                            (http://www.intruderalarms.sebastopol.ua.);
    коллекции знаний // Моделирование и                                (http://www.gumer.info/bibliotek_Buks/
    анализ информационных систем. – 2013. –                            Linguist/DicTermin/index.php)
    Т. 20, № 4. – С. 125–135.
                                                                [17]   Автоматическая          обработка       текста.
[8] Бойков         В.Н.,       Пильщиков        И.А.
                                                                       [Электронный ресурс] // Режим доступа:
    Семантическая модель «Тезауруса по
                                                                       http://aot.ru/demo/morph.html
    поэтологии» в составе информационно-
    аналитической системы // Интернет и                         [18]   Н.А. Гурдаева. Принципы структурной
    современное общество: сборник научных                              организации лексических терминов как
    статей.     Труды        XVI       Всероссийской                   результат       родо-видовых        отношений
    объединенной конференции «Интернет и                               системы понятий // Вестник ТГПИ.
    современное общество» (IMS-2013). —                                Специальный выпуск 1. Таганрог, 2011.
    СПб.: НИУ ИТМО, 2013.
[9] Краткая литературная энциклопедия: в 9 т. –
                                                                On the Automatic Structuring of the
    М.: Сов. энцикл., 1962–1978. (http://feb-web.ru/            Thesaurus for an Open Information-
    feb/kle/default.asp?/feb/kle/kle.html)                              Analytical System
[10] А.П. Квятковский. Поэтический словарь. –
      М.: Советская энциклопедия, 1966.                                  V.N. Boikov, V.E. Zakharov,
      (wikilivres.ru); (feb-web.ru/feb/kps/kps-abc)                      M.S. Karyaeva, V.A. Sokolov
[11] Литературная энциклопедия: в 11 т. – М.:                   In the work methods of using the linguistic analysis
      Ком. акад., 1929–1939. (http://feb-web.ru/            for the automatic structuring of the open network
      feb/litenc/encyclop/)                                 resource “Information-Analytical System of Russian
[12] Литературная энциклопедия. Словарь                     Poetry” are considered. The basic principles that allow
      литературных терминов: в 2 т. – М., Л.:               to realize a way of the automatic categorization of the
                                                            thesaurus are given.




                                                       80