=Paper= {{Paper |id=Vol-1631/150-157 |storemode=property |title=Machine-learning methods for text named entity recognition |pdfUrl=https://ceur-ws.org/Vol-1631/150-157.pdf |volume=Vol-1631 |authors=Olexander Marchenko |dblpUrl=https://dblp.org/rec/conf/ukrprog/Marchenko16 }} ==Machine-learning methods for text named entity recognition== https://ceur-ws.org/Vol-1631/150-157.pdf
Proceedings of the 10th International Conference of Programming UkrPROG’2016 (Kyiv, Ukraine)

      УДК 004.85



                    МАШИННО-НАВЧАЛЬНІ МЕТОДИ
            РОЗПІЗНАВАННЯ ІМЕНОВАНИХ СУТНОСТЕЙ ТЕКСТУ
                                                            О.О. Марченко
      У статті розглянуто машинно-навчальні методи розпізнавання іменованих сутностей тексту. Розглянуто дві базові моделі ма-
      шинного навчання – наївна модель Байєса та модель умовних випадкових полів, застосовані для вирішення задачі ідентифікації
      та аналізу іменованих сутностей. Також досліджено модель, в якій для мультикласифікації іменованих сутностей текстів вико-
      ристовуються корегуючі вихідні коди. В роботі описано процес навчання та результати експериментів з тестування побудова-
      них класифікаторів. Умовні випадкові поля перевершили інші моделі за оцінками точності та надійності роботи методу.
      Ключові слова: машинне навчання, обробка природної мови, розпізнання іменованих сутностей тексту.
      В статье исследуются машинно-обучаемые методы распознавания именованных сущностей текста. Рассмотрены две базовые
      модели машинного обучения – наивная модель Байеса и модель условных случайных полей, которые были использованы для
      решения задачи идентификации и анализа именованных сущностей. Также исследована модель, в которой для мульти-
      классификации именованных сущностей текстов используются корректирующие выходные коды. В работе описаны процесс
      обучения и результаты экспериментов по тестированию построенных классификаторов. Условные случайные поля превзошли
      другие модели по оценкам точности и надежности работы метода.
      Ключевые слова: машинное обучение, обработка естественного языка, распознавание именованных сущностей текста.
      The article describes machine learning methods for the named entity recognition. To build named entity classifiers two basic models of ma-
      chine learning, The Naїve Bayes and Conditional Random Fields, were used. A model for multi-classification of named entities using Error
      Correcting Output Codes was also researched. The paper describes a method for classifiers' training and the results of test experiments. Con-
      ditional Random Fields overcome other models in precision and recall evaluations.
      Key words: machine learning, natural language processing, named entity recognition.

Вступ
        Проблема визначення іменованих сутностей тексту не є новою, дослідження активно ведуться вже понад
20 років, і оприлюднені досить високі результати роботи прикладних систем (до 93 % точності у розпізнаванні
іменованих сутностей машиною проти 96 % точності у розпізнанні іменованих сутностей людиною). Незважа-
ючи на заявлений високий відсоток правильності розпізнавання, проблема досі вважається відкритою і за да-
ною проблематикою активно ведуться дослідження.
        Актуальність проблеми пояснюється специфічністю середовища, в якому отримані надвисокі результати:
як правило таке середовище створюється штучно для тестування системи і не може бути відтворено в реально-
му світі. До штучного середовища можна віднести додаткові 100 % коректні дані про текст (наприклад, завжди
гарантовано правильні синтаксичні дерева речень, морфологічна, семантична та інша інформація), які є недо-
ступними в реальних умовах. Також до таких умов можна віднести надвисокі потужності задіяного обладнання,
коли задача вирішується в лабораторних умовах на суперкомп’ютерах, та специфіку корпусів тестування. На-
приклад, на тестові корпуси часто накладається умова обмеження словника іменованих сутностей до розміру
словника навчальної вибірки: в таких умовах задача NER (named entity recognition − розпізнавання іменованих
сутностей) зводиться до задачі розпізнавання сутностей за словником.
        Через це різниця між заявленими в теорії та отриманими на практиці результатами є досить значною.
Проведена оцінка найбільш популярних систем на ринку показала їх низьку ефективність. Більшість типів іме-
нованих сутностей розпізнаються з точністю близько 60 % – 65 %, що є недостатнім для ефективного викорис-
тання в задачах аналізу текстів. Лише в деяких випадках реальна точність розпізнавання певних типів сутнос-
тей сягає 70 %.
        Дане дослідження було проведено з метою розробки придатного для промислового використання класи-
фікатора, здатного розрізняти основні базові типи іменованих сутностей та ефективно працювати з реальними
текстами поза межами лабораторного середовища, і видавати результати на рівні найкращих існуючих аналогів
– state-of-the-art систем.

Система розпізнавання іменованих сутностей тексту
      Основною задачею системи є розпізнавання у тексті іменованих сутностей та визначення типу цих сут-
ностей. Вхідними даними системи є текст, написаний правильною англійською мовою з мінімальним вживан-
ням сленгу та відсутністю орфографічних і граматичних помилок.
      Архітектурно система складається з кількох ключових блоків, кожен блок виконує функції певного етапу
побудови розв’язку задачі. Усі модулі попередньої обробки тексту для перетворення його у необхідний системі
вигляд винесено за межі системи.
      Система структурно складається з наступних блоків:
      •     блок ідентифікації та аналізу іменованих сутностей на основі Байєсівської моделі;



150
        Proceedings of the 10th International Conference of Programming UkrPROG’2016 (Kyiv, Ukraine)
      •     блок ідентифікації та аналізу іменованих сутностей на основі моделі умовних випадкових полів −
Conditional random field (CRF).
      Всі блоки є підсистемами, які паралельно і незалежно одна від одної виконують наступну обробку вхід-
ного тексту:
      − ідентифікація синтаксичних груп речень тексту, які містять іменовані сутності;
      − визначення меж знайдених іменованих сутностей (перше слово сутності – останнє слово сутності);
      − визначення типів знайдених іменованих сутностей.
      Підсистеми виконують дану обробку тексту з відповідною розміткою.
      Результатом роботи системи є текст з відповідною розміткою іменованих сутностей (id сутності, границі
сутності, тип сутності).
      Система налаштована для розпізнавання наступних типів іменованих сутностей (Type in system), кожен
тип трактується у відповідності до його трактування у корпусі Ontonotes:


        Ontonotes Type          Description                                      Type in system

        PERSON                  People, including fictional                      PERSON

        ORGANIZATION            Companies, agencies, institutions, etc.          ORGANIZATION

        LOCATION                Locations, mountain ranges, bodies of water      LOCATION

       Вхідними даними для розроблених класифікаторів є текст англійською мовою, дерева виведення та за-
лежностей речень вхідного тексту, а також всі дані стосовно лексичних значень слів речень тексту згідно розмі-
тки GOLD у корпусі Ontonotes.
       Навчання класифікаторів на основі моделі Байєса та на основі моделі умовних випадкових полів −
Conditional random field (CRF) проводилося на базі розміченого текстового корпусу Ontonotes. Так як Байєсівсь-
кі класифікатори є відомим, розповсюдженим та досить простим методом, автор утримується від безпосеред-
нього опису самої моделі Байєса та переходить до методу класифікації на основі умовних випадкових полів −
Conditional random field (CRF) [1].

Класифікатор на основі моделі умовних випадкових полів − Conditional random fields
       Метод умовних випадкових полів − Conditional random field (CRF) є аналогом методу марковських випа-
дкових полів (Markov random fields). Даний метод користується широкою популярністю у різних областях шту-
чного інтелекту. Зокрема його успішно використовують у задачах розпізнавання мовлення та образів, в обробці
текстової інформації, у комп’ютерній графіці та в інших задачах.
       Марковським випадковим полем називають графову модель, яка використовується для представлення
сумісних розподілів набору декількох випадкових змінних. Формально марковське випадкове поле складається
з наступних компонентів:
      • неорієнтований граф або фактор-граф G = (V, E), де кожна вершина v ∈ V – випадкова змінна Х і ко-
жне ребро (u, v) ∈ E – залежність між випадковими величинами u и v;
      • набір потенційних функцій (potential function) або факторів {ϕ k } , одна для кожної кліки у графі (кліка
− повний підграф G неорієнтованого графу). Функція ϕ k ставить кожному можливому стану елементів кліки у
відповідність деяке невід’ємне дійсне число.
       Вершини, що не є суміжними, мають відповідати умовно незалежним випадковим величинам. Група су-
міжних вершин формує кліку, набір станів вершин є аргументом відповідної потенційної функції.
       Сумісний розподіл набору випадкових величин X = {xk } у марковському випадковому полі обчислю-
ється за формулою:
                                                        1
                                              P( x) =
                                                        Z   ∏ϕ (x ) ,
                                                            k
                                                                k   {k }



де ϕ k ( x{k } ) – потенційна функція, що описує стан випадкових величин у k -ій кліці; Z – коефіцієнт нормаліза-
ції, що обчислюється за формулою:

                                               Z=   ∑ ∏ϕ k ( x{k} ) .
                                                    x∈X     k


                                                                                                            151
      Proceedings of the 10th International Conference of Programming UkrPROG’2016 (Kyiv, Ukraine)
      Множина вхідних лексем X = {xt } та множина відповідних їм типів Y = { yt } у сукупності формують
множину випадкових змінних V = X U Y . Для розв’язання задачі виділення інформації з тексту достатньо ви-
значити умовну ймовірність P( Y | X ). Потенційна функція має вигляд:

                                         ϕ k ( x{k } ) = exp(∑ λk f k ( yt , yt −1 , xt )) ,
                                                                k

де ∑ {λ k } – дійснозначний параметричний вектор (множники Лагранжа), ∑{ f k ( yt , yt −1 , xt )} – набір ознакових
функцій. Тоді лінійним умовним випадковим полем називається розподіл виду:

                                                        1
                                        p( y | x) =         ∏ exp(∑ λk f k ( yt , yt −1 , xt )) .
                                                      Z ( x) k    k

      Коефіцієнт нормалізації Z(x) обчислюється за формулою:

                                          Z ( x) = ∑ ∏ exp(∑ λk f k ( yt , yt −1 , xt )) .
                                                      y∈Y   k          k

        Обчислення моделі p( y | x) відбувається як розв’язання оптимізаційної задачі з заданими обмеженнями
[2] (різниця між спостереженням та його оцінкою має бути нульовою та має виконуватися умова

                                           ∑ y∈Y p ( y | x) = 1 по всім x ∈ X .
       На кожній ітерації заново обчислюються множники Лагранжа, обчислення проводиться з використанням
традиційних алгоритмів – «forward-backward» та Вітербі.
       Метод CRF, як і метод марковські моделі максимальної ентропії (MMME), є дискримінативним імовірні-
сним методом, на відміну від генеративних методів, таких як приховані марковські моделі HMM та модель
Байєса (Naïve Bayes).
       За аналогією з марковськими моделями максимальної ентропії, вибір факторів-ознак для завдання імові-
рності переходу між станами при наявності спостереження значення xt залежить від специфіки конкретних
даних, але на відміну від того ж МММЕ, CRF може враховувати будь-які особливості та взаємозв’язки у вхід-
них даних. Вектор ознак Λ = {λk } обчислюється на основі навчальної вибірки та визначає вагу кожної потен-
ційної функції.
       В умовних випадкових полях відсутня так звана label bias problem – ситуація, коли перевагу мають
стани з меншою кількістю переходів, так як будується один єдиний розподіл імовірностей та нормалізація
(коефіцієнт Z(x)) виконується загалом, а не у рамках окремого стану. Це, безумовно, є перевагою метода:
алгоритм не потребує припущення незалежності спостережних змінних. Крім того, використання довільних
факторів дозволяє описати різноманітні ознаки об’єктів, що знижує вимоги до повноти та обсягу навчальної
вибірки. При цьому точність буде визначатися не лише обсягом вибірки, але й обраними факторами.
       Недоліком підходу CRF є обчислювальна складність аналізу навчальної вибірки, що ускладнює пос-
тійне оновлення моделі при отриманні нових навчальних даних. Слід відзначити високу швидкість роботи
алгоритму CRF, що є дуже важливою перевагою при обробці великих обсягів інформації.

Навчання моделі
      Для навчання моделі був обраний корпус текстів Ontonotes [3], який містить достатній обсяг текстів, ро-
змічених вручну. Розмітка текстів повністю відповідає задачі ідентифікації та аналізу іменованих сутностей та
обраним моделям машинного навчання. В рамках задачі аналізу іменованих сутностей тексти корпусу містять
розмітку:
      −    задання меж іменованих сутностей (перше слово сутності – останнє слово сутності);
       −    задання типів знайдених іменованих сутностей (Людина, Організація, Локація).
       Розмічені тексти містять синтаксичні структури речень – дерева виведення та дерева залежностей. Тобто
доступними є межі синтаксичних груп речення та відношення залежностей між словами. Доступними є також
повні лексичні значення слів речень (частина мови, рід, число, час для дієслів і т. д.). Алгоритми використову-
ють також спеціальні словники імен, географічних назв та типових назв організацій для залучення додаткових
знань у систему.
       Для формування базової множини ознакових функцій було проведено дослідження та аналіз найкращих
робіт за даною тематикою [4–6]. Побудовано набор базових ознакових функцій, наприклад:

                                 ⎧⎪1, _ якщо _ у = LOC , y _ починається_з_великої_літери, х =" City" ,
                  f i ( x, y ) = ⎨
                                  ⎪⎩0, _ інакше.

152
            Proceedings of the 10th International Conference of Programming UkrPROG’2016 (Kyiv, Ukraine)
       Далі в процесі дослідження були проведені чисельні експерименти з навчання моделей на розмічених те-
кстах корпусу Ontonotes, після чого виконувалося тестування навченого алгоритму на точність ідентифікації та
визначення типу іменованих сутностей на текстах з інших частин корпусу. Потім, згідно процедури кросваліда-
ції, навчальна та тестова частини корпусу мінялися місцями та процес навчання і тестування моделей повторю-
вався з початку. Із всіх отриманих оцінок точності обиралися мінімальні, як найбільш об’єктивні та гарантовано
досяжні.
       Навчання та тестування моделей проводилось багато разів з різними наборами ознакових функцій. В ре-
зультаті проведення багатьох ітерацій етапів навчання-тестування з перебором множини функцій ознак були
визначені оптимальні набори ознакових функцій { f ′ } та { f ″ }, на яких досягнуто максимальні оцінки точно-
                                                        i          i
сті ідентифікації та визначення типів іменованих сутностей тексту класифікатором Байєса та класифікатором на
базі моделі умовних випадкових полів (CRF), відповідно.

Розпізнавання іменованих сутностей тексту з використанням корегуючих вихідних
кодів (ECOC)
       Для вирішення задачі визначення іменованих сутностей у тексті як альтернативний підхід були вико-
ристані корегуючі вихідні коди (Error-Correcting Output Codes, ECOC). Даний підхід застосовують при вирі-
шенні задач мультикласифікації, коли число класів перевищує два. У випадку визначення іменованих сутно-
стей як класи маємо класи слів, такі як Person, Location, Organization, Event, Product та інші. Також в іншій
серії експериментів використовувалась розмітка на класи з використанням boundary-тегів, в цьому випадку
маємо наступні класи: Person-Begin, Person-Inside, Location-Begin, Location-Inside, Organization-Begin,
Organization-Inside та інші.
       Задача мультикласифікації полягає у знаходженні невідомої функції f (x) , область значень якої дис-
кретна множина, що містить k значень (класів), k > 2 . Дана функція f (x ) визначається у процесі навчання
на основі навчальної вибірки прикладів виду ( xi , d i ) , i = 1, n , де d i = f ( xi ) – відоме значення класу для прик-
ладу xi .
         Вирішення задачі мультикласифікації зводиться до розв’язання підзадач бінарної класифікації, а резуль-
татом мультикласифікації є поєднання отриманих розв’язків. Для поєднання розв’язків бінарних класифікаторів
було застосовано підхід розподіленого вихідного представлення (Distributed Output Representation); як бінарні
класифікатори використовуються класифікатори CRF.
         Під розподіленим вихідним представленням розуміється задання кожного класу бінарним рядком дов-
жини n – “кодовим словом”. Кожен біт кодового слова відповідає окремому бінарному класифікатору, який
навчається. Вирішення задачі мультикласифікації зводиться до обробки так званої матриці кодових слів, ряд-
ки якої – кодові слова, що відповідають класам, об’єкти яких розпізнаються, а стовпчики відповідають бінар-
ним класифікаторам (це ті значення, що видають класифікатори на відповідних класах). Після навчання кла-
сифікаторів новий об’єкт x класифікується оцінюванням кожного з n бінарних класифікаторів для отри-
мання n -бітового кодового слова. Отримане кодове слово об’єкта x порівнюється з кожним із k кодових
слів матриці. Об’єкт x належить класу, чиє кодове слово є найближчим згідно вибраної метрики до його
власного слова. Визначення мінімальної відстані від отриманого кодового слова об’єкта x , що класифікуєть-
ся, до одного з кодових слів матриці розглядається як процес декодування. Для реалізації процесу декодуван-
ня використовується відстань Хемінга. Зокрема, мінімальна відстань між отриманим кодовим словом
 f ( x) = ( f1 ( x), f 2 ( x),K , f n ( x)) та кодовими словами матриці M визначається як число позицій, у яких відпо-
відні значення бітів різні.
         Від виду матриці кодових слів залежить скільки помилок здатен виправити даний розподілений вихідний
код у процесі декодування. Коди, які дозволяють виправити помилки в процесі декодування називаються коре-
гуючі вихідні коди (Error-Correcting Output Codes). Мірою якості коду є мінімальна відстань Хемінга між парами
кодових слів матриці. Якщо мінімальна відстань Хемінга дорівнює d , відповідний код гарантовано може ви-
правити (d − 1) 2 помилкових біт при декодуванні.
      Моделі розподіленого вихідного коду будуються відповідно до різних представлень матриці кодових
слів M ∈ {0,1}k ×n , де k – кількість класів, n – кількість бінарних класифікаторів, тобто довжина кодового
слова.
       У рамках досліджень була використана модель корегуючих вихідних кодів Exhaustive Code. Згідно даної
моделі рядками матриці кодових слів є кодові слова довжини 2 k −1 − 1 . Перший рядок матриці заповнюється
одиницями, далі i-й рядок матриці заповнюється 2 k −i нулями та 2 k −i одиницями, що чередуються, починаючи
з нулів. Приклад матриці з вичерпним кодом для 4-х класів наведено у табл. 1.


                                                                                                                    153
      Proceedings of the 10th International Conference of Programming UkrPROG’2016 (Kyiv, Ukraine)
      Таблиця 1. Вичерпний код для 4-х класів

                                                        Кодові слова
             Клас
                         f1           f2          f3           f4            f5     f6       f7
              С1         1            1           1            1             1       1       1
              С2         0            0           0            0             1       1       1
              С3         0            0           1            1             0       0       1
              С4         0            1           0            1             0       1       0

       При дослідженні було проведено наступні експерименти. Для розпізнавання іменованих сутностей
класів Person, Location, Organization було залучено також класи слів NE (куди відносяться всі інші сутності,
які не належать до Person, Location, Organization, наприклад, сутності класів Event, Product, WorkArt, Money
тощо), а також OTHER, які включають всі інші лексеми, які не відносяться до переліку іменованих сутнос-
тей. Таким чином у даному експерименті було використано 5 класів. Матриця кодових слів у цьому випадку
містить 15 стовпчиків (бінарних класифікаторів).
       У другому експерименті були залучені спеціальні boundary-тегі для формування класів, таким чином ви-
користовувалися наступні 8 класів: Person-Begin, Person-Inside, Location-Begin, Location-Inside, Organization-
Begin, Organization-Inside, NE та OTHER. Матриця кодових слів у цьому випадку складається з 127 бінарних
класифікаторів.
       Отримані результати дозволили зробити наступні висновки. У результаті надвеликої кількості лексем,
які відносяться до класу OTHER, та мають велику частоту вживання у корпусі, а також у результаті того,
що деякі ознаки сутностей (досить великий їх відсоток), що належать до основних класів (не до OTHER),
при формуванні бінарного класифікатора потрапляють в один клас, то бінарні класифікатори типу CRF
на таких нерівномірних вибірках показали невисоку якість роботи. Наприклад, при розділенні на два
класи отримаємо, що до одного класу належать високочастотні лексеми з OTHER та низькочастот-
ні з Event, Product, Location тощо, а до другого класу – виключно низькочастотні лексеми з Person
та Organization. Тоді елементи першого класу мають і високу частоту, і значну частину ознак другого класу,
що призводить до значного превалювання першого класу над другим. За рахунок великої кількості помилок,
отриманих бінарними класифікаторами (слід врахувати, що кожен з 15, у випадку 5 класів, та кожен із 127, у
випадку 8 класів, має великий відсоток помилок) застосування розподілених вихідних кодів, зокрема ECOC,
не дозволило отримати бажані високі оцінки якості. Для покращення результатів роботи моделі з викорис-
танням ECOC необхідно мати навчальну вибірку з більш рівномірним розподілом лексем по класах. Проте,
використання підходу ECOC (а саме матриці кодових слів та реалізації процесу декодування за допомогою
обчислення відстаней Хемінга) виправдане як одного з потенційних способів, коли треба знайти лексеми, що
можливо були віднесені не до свого класу.

Отримані результати
       У таблицях 2–5 представлені оцінки роботи класифікатора Байєса та класифікатора на основі моделі
умовних випадкових полів (CRF), навчених на оптимальних наборах ознакових функцій { f i′ } та { f i′′ }, відпо-
відно. У таблиці 6 надані оцінки роботи мультикласифікатора, побудованого з використанням корегуючих ви-
хідних кодів (ECOC).
       В експериментах обчислювалися оцінки точності (Precision, P), повноти (Recall, R) та комбінована
міра F1 :

                                                  2 * Precision * Recall
                                           F1 =                          .
                                                   (Precision + Recall)

      Таблиця 2. Оцінки класифікатора Байєса на підкорпусі Broadcast News (100 файлів)

                                                       Precision       Recall      F1

                              LOCATION                   0,8242        0,7881     0,8057

                              ORGANIZATION               0,2552        0,4301     0,3203

                              PERSON                     0,5188        0,9047     0,6594

                              Total                      0,5493        0,7868     0,6469



154
  Proceedings of the 10th International Conference of Programming UkrPROG’2016 (Kyiv, Ukraine)
Таблиця 3. Оцінки класифікатора Байєса на підкорпусі Web text (230 файлів)


                                                  Precision    Recall      F1

                          LOCATION                 0,5423      0,6527     0,5924

                          ORGANIZATION             0,0412      0,0350     0,0379

                          PERSON                   0,3311      0,6127     0,4299

                          Total                    0,3450      0,4954     0,4067



Таблиця 4. Оцінки класифікатора Байєса на підкорпусі Newswire (1665 файлів)


                                                  Precision    Recall      F1

                          LOCATION                 0,6498      0,8501     0,7365

                          ORGANIZATION             0,5022      0,7482     0,6010

                          PERSON                   0,6673      0,8388     0,7433

                          Total                    0,5813      0,8003     0,6734



Таблиця 5. Оцінки класифікатора на основі умовних випадкових полів (CRF)


                                           Підкорпуси

            Web text          Broadcast News                Newswire               Total
     LOC

      Precision: 0.8679       Precision: 0.9283       Precision: 0.9198   Precision: 0.9395

      Recall: 0.9323          Recall: 0.9530          Recall: 0.9190      Recall: 0.9369

      F1:     0.8989          F1:    0.9405           F1:     0.9194      F1:       0.9382

     ORG

      Precision: 0.7939       Precision: 0.8118       Precision: 0.8810   Precision: 0.8858

      Recall: 0.7324          Recall: 0.7768          Recall: 0.8863      Recall: 0.8830

      F1:     0.7619          F1:    0.7939           F1:     0.8836      F1:       0.8844

     PER

      Precision: 0.9157       Precision: 0.8910       Precision: 0.9104   Precision: 0.9207
      Recall: 0.9104          Recall: 0.9185          Recall: 0.8895      Recall: 0.9104
      F1:     0.9130          F1:    0.9045           F1:     0.8998      F1:       0.9155

     TOTAL

      Precision: 0.8647       Precision: 0.8909       Precision: 0.9008   Precision: 0.9140
      Recall: 0.8638          Recall: 0.9029          Recall: 0.8974      Recall: 0.9092
      F1:     0.8643          F1:    0.8968           F1:     0.8991      F1:       0.9116


                                                                                              155
         Proceedings of the 10th International Conference of Programming UkrPROG’2016 (Kyiv, Ukraine)
         Таблиця 6. Оцінки мультикласифікатора з використанням корегуючих вихідних кодів (ECOC)


                                                                  Корпус

                                       WB                            BN                            NW
                            LOC

                             Precision: 0.8179             Precision: 0.7328             Precision: 0.8271

                             Recall:    0.6547             Recall: 0.8012                Recall: 0.8113

                             F1:       0.7273              F1:    0.7655                 F1:     0.8191

                            ORG

                            Precision: 0.5378              Precision: 0.7637             Precision: 0.7734

                            Recall:     0.3792             Recall: 0.6354                Recall: 0.7422

                            F1:        0.4448              F1:       0.6937              F1:       0.7575

                            PER

                            Precision: 0.7473              Precision: 0.7804             Precision: 0.8530

                            Recall:     0.5509             Recall: 0.8567                Recall: 0.8037

                            F1:        0.6342              F1:       0.816772            F1:       0.8276

                            TOTAL

                             Precision: 0.7253             Precision: 0.7590             Precision: 0.8178

                             Recall:    0.5420             Recall: 0.7644                Recall: 0.7857

                             F1:       0.6204              F1:       0.7617              F1:       0.8015



       Оцінки точності та повноти, отримані в результаті тестування розробленої системи на базі моделі CRF
(табл. 5), демонструють найвищі значення на рівні найкращих існуючих світових аналогів. На тестових текстах
корпусу Ontonotes розроблена система змогла перевершити показники відомої системи Стенфордського універ-
ситету для розпізнавання іменованих сутностей тексту Stanford Named Entity Recognizer [8]. Це було досягнуто
завдяки успішно проведеній оптимізації набору ознакових функцій, що дало змогу отримати максимально ви-
сокі оцінки точності.

Висновки
       На основі двох базових моделей машинного навчання – наївної моделі Байєса та умовних випадкових
полів, – було побудовано систему ідентифікації та аналізу іменованих сутностей тексту. Результати досліджен-
ня та експериментів показали високу якість роботи класифікатора, реалізованого на основі моделі умовних ви-
падкових полів. Досвід найкращих існуючих програмних реалізацій систем аналізу іменованих сутностей текс-
ту приводить до висновку, що саме модель умовних випадкових полів (CRF) оптимально підходить для розроб-
ки класифікаторів іменованих сутностей.
       В процесі тестування реалізований алгоритм продемонстрував високу точність визначення типів імено-
ваних сутностей тексту на рівні найкращих існуючих світових аналогів.
       Також була досліджена модель, в якій для мультикласифікації іменованих сутностей текстів використо-
вуються корегуючі вихідні коди (ЕСОС). Результати експериментів доводять наявність серйозних перспектив
застосування даного підходу для вирішення класичних та прикладних задач комп’ютерної лінгвістики.




1.   Lafferty J., McCallum A., Pereira F. Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data // The 18th
     International Conference on Machine Learning, June 28-July 1, 2001. Proceedings – Williamstown, MA, USA, 2001 . – P. 282–289.
2.   Klinger R., Tomanek K. Classical Probabilistic Models and Conditional Random Fields // Algorithm Engineering Report TR07-2-013,
     Department of Computer Science, Dortmund University of Technology, December 2007.


156
            Proceedings of the 10th International Conference of Programming UkrPROG’2016 (Kyiv, Ukraine)
3.   Linguistic Data Consortium (2011) Text Corpus Ontonotes 4.0 – https://catalog.ldc.upenn.edu/LDC2011T03
4.   Turian J., Ratinov L., Bengio Y. Word representations: a simple and general method for semi-supervised learning // The 48th Annual Meeting of
     the Association for Computational Linguistics, July 11–16, 2010. Proceedings – Uppsala, Sweden, 2010 . – P. 384–394.
5.   Nadeau D., Sekine S. A survey of named entity recognition and classification // Lingvisticae Investigationes. – 2007. – 30 (1). – P. 3–26.
6.   Nadeau D., Turney P., Matwin S. Unsupervised Named Entity Recognition: Generating Gazetteers and Resolving Ambiguity // Canadian
     Conference on Artificial Intelligence-2006, June 7–9, 2006. Proceedings – Quebec, Canada, 2006 . – P. 266–277.
7.   Антонова А.Ю., Соловьев А.Н. Метод условных случайных полей в задачах обработки русскоязычных текстов // Информационные
     технологии и системы // Труды международной научной конференции. 1–6 сентября 2013. – Кенигсберг; 2013. – С. 321–325.
8.   The Stanford NLP Group (2006–2015) Stanford Named Entity Recognizer. – http://www-nlp.stanford.edu/software//CRF-NER.html




References
1.   LAFFERTY J., MCCALLUM A., PEREIRA F. Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data.
     in The 18th International Conference on Machine Learning. Williamstown, MA, USA. June 28-July 1, 2001. – Williamstown. P. 282–289.
2.   KLINGER R., TOMANEK K. Classical Probabilistic Models and Conditional Random Fields. Algorithm Engineering Report TR07-2-013,
     Department of Computer Science, Dortmund University of Technology, December 2007.
3.   Linguistic Data Consortium (2011) OntoNotes Release 4.0 [Online] Available from: https://catalog.ldc.upenn.edu/LDC2011T03
4.   TURIAN J., RATINOV L., BENGIO Y. Word representations: a simple and general method for semi-supervised learning. in The 48th Annual
     Meeting of the Association for Computational Linguistics. Uppsala, Sweden. July 11–16, 2010. Uppsala. – P. 384–394.
5.   NADEAU D., SEKINE S. A survey of named entity recognition and classification. Lingvisticae Investigationes. 30 (1). – P. 3–26.
6.   NADEAU D., TURNEY P., MATWIN S. Unsupervised Named Entity Recognition: Generating Gazetteers and Resolving Ambiguity. in
     Canadian Conference on Artificial Intelligence-2006. Quebec, Canada. June 7–9, 2006. Quebec. – P. 266–277.
7.   ANTONOVA A.Y., SOLOVYOV A.N. Method of Conditional Random Fields in tasks of russian texts processing. in The International
     Conference on Information technologies and systems-2013. Königsberg. September 1-6, 2013. Königsberg. – P. 321–325.
8.   The Stanford NLP Group (2006-2015) Stanford Named Entity Recognizer [Online] Available from: http://www-nlp.stanford.edu/software/CRF-
     NER.html




Про автора:

Марченко Олександр Олександрович,
доцент, доктор фізико-математичних наук,
доцент кафедри Математичної інформатики факультету кібернетики.
Кількість наукових публікацій в українських виданнях – 52.
Кількість наукових публікацій в іноземних виданнях – 10.
Індекс Гірша – 2.
http://orcid.org/ 0000-0002-5408-5279.


Місце роботи автора:

Київський національний університет імені Тараса Шевченка,
01601, Київ, вул. Володимирська, 64/13.
Факультет кібернетики, кафедра Математичної інформатики.
Тел.: (050) 440 7328.
Факс: (044) 259 0129.
E-mail: rozenkrans@yandex.ua




                                                                                                                                            157