<!DOCTYPE article PUBLIC "-//NLM//DTD JATS (Z39.96) Journal Archiving and Interchange DTD v1.0 20120330//EN" "JATS-archivearticle1.dtd">
<article xmlns:xlink="http://www.w3.org/1999/xlink">
  <front>
    <journal-meta />
    <article-meta>
      <fpage>245</fpage>
      <lpage>254</lpage>
      <abstract>
        <p>Досліджено проблему автоматизації пошуку ключових термінів у контенті навчальних матеріалів. Розглянуто інформаційну технологію автоматизованого визначення множини ключових семантичних термінів у контенті навчальних матеріалів, що ґрунтується на пошуку використаних фраз у тексті та дисперсійній оцінці важливості слів. Відповідно до даної інформаційної технології, на основі введених даних у вигляді файлу навчального матеріалу автоматизовано формується структура цифрового документу для вибору елементу для аналізу, після чого проводиться сегментація по фразах і термінах, терміни лематизуються та їх множина компактифікується. На основі автоматично лематизованого тексту проводиться пошук та дисперсійне оцінювання важливості слів у обраному фрагменті, після чого оцінюється важливість термінів, а їх кількість обмежується відповідно до коефіцієнту щільності ключових слів. Вхідними даними інформаційної технології є цифровий документ навчального матеріалу, вихідними даними є відповідна множина ключових семантичних термінів навчального матеріалу. Також описано результати аналізу закономірностей існуючих множин ключових семантичних термінів. Розглянуто тестовий програмний продукт, що дозволяє автоматизовано визначати множину ключових семантичних термінів за даною інформаційною технологією. Проведені дослідження підтвердили можливість ефективно формувати множини ключових семантичних термінів навчальних матеріалів з показниками точності пошуку до 92,9 % та повноти пошуку до 100,0 %. Розглянуто практичні особливості використання спеціалізованого розширення при роботі з електронними документами. Викладено фактори, що ускладнюють ефективне визначення семантичних термінів у навчальних матеріалах. Встановлена ефективність запропонованої технології сприяє її використанню для вирішення ряду актуальних задач, таких як оцінка відповідності навчальних матеріалів змістовим вимогам, оцінка відповідності наборів тестових завдань навчальним матеріалам, семантична допомога при створенні тестів, автоматизація формування рефератів та анотацій до елементів навчальних матеріалів тощо. Подальші дослідження спрямовані на аналіз впливу на показники ефективності технології взаємозв'язку між кількістю ключових семантичних термінів в результуючій множині та значенням коефіцієнту щільності ключових слів та вдосконалення розглянутої інформаційної технології для покращення результатів. Ключові слова: цифровий документ, навчальні матеріали, ключові терміни, дисперсійна оцінка. Исследовано проблему автоматизации поиска ключевых терминов в контенте обучающих материалов. Рассмотрено информационную технологию автоматизированного определения множества ключевых семантических терминов в контенте обучающих материалов, основанную на поиске использованных фраз в тексте и дисперсионной оценке важности слов. Согласно данной информационной технологии, на основе введенных данных в виде файла обучающего материала автоматизировано формируется структура цифрового документа для выбора элемента для анализа, после чего проводится сегментация по фразам и терминам, термины лемматизируются и их множество компактификуется. На основе автоматически лематизированного текста производится поиск и дисперсионная оценка важности слов в выбранном фрагменте, после чего оценивается важность терминов, а их количество ограничивается в соответствии с коэффициентом плотности ключевых слов. Входными данными информационной технологии является цифровой документ обучающего материала, выходными данными является соответствующее множество ключевых семантических терминов обучающего материала. Также описаны результаты анализа закономерностей существующих множеств ключевых семантических терминов. Рассмотрен тестовый программный продукт, позволяющий автоматизировано определять множество ключевых семантических терминов по данной информационной технологии. Проведенные исследования подтвердили возможность эффективно формировать множества ключевых семантических терминов обучающих материалов с показателями точности поиска до 92,9 % и полноты поиска до 100,0 %. Рассмотрены практические особенности использования специализированного расширения при работе с электронными документами. Изложены факторы, затрудняющие эффективное определение семантических терминов в учебных материалах. Определенная эффективность предложенной технологии способствует ее использованию для решения ряда актуальных задач, таких как оценка соответствия обучающих материалов требованиям, оценка соответствия наборов тестовых заданий обучающим материалам, помощь при создании тестов, автоматизация формирования рефератов и аннотаций к элементам обучающих материалов и прочие. Дальнейшие исследования направлены на анализ влияния на показатели эффективности технологии взаимосвязи между количеством ключевых семантических терминов в результирующем множестве и значением коэффициента плотности ключевых слов и совершенствования рассмотренной информационной технологии для улучшения результатов. Ключевые слова: цифровой документ, обучающие материалы, ключевые термины, дисперсионная оценка.</p>
      </abstract>
    </article-meta>
  </front>
  <body>
    <sec id="sec-1">
      <title>-</title>
      <p>Ю.В. Крак, О.В. Бармак, О.В. Мазурець</p>
      <p>The problem of automation of key terms search in the content of educational materials is investigated. The information technology of
automated determination of a set of key semantic terms in the content of educational materials is considered, which is based on the
search of used phrases in the text and the disperse evaluation of words importance. In accordance with this information technology, on
the basis of the data entered as an educational material file, the structure of a digital document is automatically formed to select an
element for analysis, after which segmentation is performed by phrases and terms, the terms are lemmatized and set of them is
compactified. On the basis of automatically lemmatized text, a search and disperse evaluation of the importance of words in the chosen
fragment is performed, after which the terms importance is calculated, and their number is limited by the value of the keyword density
ratio. Input data of information technology is a digital document of educational material, the output data is the corresponding set of key
semantic terms of the educational material. The results of the analysis of the regularities of the existing sets of key semantic terms are
also described.</p>
      <p>The test software that allows to automate the determination of sets of key semantic terms using this information technology is
considered. Conducted investigations confirmed the possibility of effectively forming the set of key semantic terms of educational
materials, evaluated search precision metrics up to 92.9 % and search recall up to 100.0 %. The practical features of the use of
specialized extension for working with electronic documents are considered. The factors that complicate effective search of semantic
terms in educational materials are described. The established effectiveness of the proposed technology allows use it to solution a number
of urgent tasks, such as determination the conformity of educational materials to content requirements, determination the conformity of
sets of test tasks to educational materials, semantic assistance in creating tests, automation of the creation of abstracts and annotations to
the elements of educational materials, etc.</p>
      <p>Further researches are aimed at analyzing the impact on the effectiveness of the technology of the relationship between the number of
key semantic terms in the resulting set and the value of the keyword density ratio and improve of the information technology considered
to improve the results.</p>
      <p>Key word: digital document, key terms, educational materials, disperse evaluation.
Вступ та постановка задачі</p>
      <p>
        Опис інформаційної технології. На сучасному етапі у галузі сучасної вищої освіти для розробки й
використання курсів навчальних дисциплін використовуються спеціалізовані віртуальні навчаючі
середовища, наприклад, Moodle. При їх використанні, потенційна якість отриманих освітніх послуг прямо
залежить від якості навчальних матеріалів [
        <xref ref-type="bibr" rid="ref1">1</xref>
        ]. В умовах вузької спеціалізації курсів навчальних дисциплін, їх
чисельності та інтенсивного оновлення, єдиним шляхом оцінки якості навчальних курсів та їх елементів є
автоматизація вирішення відповідного ряду задач у галузі сучасної вищої освіти. До таких задач належать:
оцінка відповідності навчальних матеріалів вимогам, оцінка відповідності наборів тестових завдань
навчальним матеріалам, автоматизована генерація прототипів тестових завдань, допомога та контроль якості
при формуванні навчальних матеріалів, допомога та контроль якості при формуванні тестів до навчальних
матеріалів, реалізація гнучких алгоритмів тестування, автоматизація формування рефератів та анотацій до
елементів навчальних матеріалів тощо.
      </p>
      <p>
        Загальноприйнятим є підхід до застосування навчальних матеріалів у вигляді цифрових документів
визначеної структури як інструменту навчання. Проте в усіх наведених випадках для досягнення відповідних
результатів використовується не власне цифровий документ чи його контент, а його семантична модель.
Формалізація побудови такої семантичної моделі забезпечується через застосування онтології як методу
формального опису знань, що містяться в навчальних матеріалах [
        <xref ref-type="bibr" rid="ref2">2</xref>
        ]. Модель онтології навчального
матеріалу може складатися з ключових слів, ключових термінів, структури навчального матеріалу, атрибутів
ключових слів та ключових термінів, що визначають їх властивості та забезпечують прив’язку до елементів
структури навчального матеріалу. За такої моделі, онтологія навчального матеріалу є засобом як для
виявлення сенсу навчального матеріалу так і для вирішення наведеного ряду практичних задач.
      </p>
      <p>Основними етапами побудови онтології навчального матеріалу є пошук ключових термінів у контенті
навчального матеріалу та побудова його логічної структури. Вхідними даними є електронний документ
навчального матеріалу, тому для автоматизації виконання наведених етапів потрібна програмна обробка
відповідних цифрових файлів (зазвичай формату .docx). Проблему автоматизації побудови логічної
структури навчального матеріалу (наприклад: Дисципліна / Розділ / Тема) пропонується вирішувати шляхом
визначення ієрархії змістовних блоків у цифровому документі за стилями текстового редактора (Заголовок 1
/ Заголовок 2 / Заголовок 3), таким чином формуючи верхній рівень вертикальної онтології відповідної
навчальної дисципліни. Проблему пошуку ключових термінів у контенті навчального матеріалу
пропонується вирішувати шляхом використання відповідної інформаційної технології, що забезпечить
формування нижнього рівня онтології навчальної дисципліни.</p>
      <p>
        Характерною особливістю елементів навчальних матеріалів, що використовуються для аналізу в
процесі пошуку ключових термінів, є достатньо малий обсяг контенту. Малий обсяг контенту та вузька
семантична направленість елементів аналізу зменшує ефективність застосування розповсюджених методів
аналізу текстів, таких як частотна оцінка TF, оцінка TFIDF та дисперсійна оцінка DE [
        <xref ref-type="bibr" rid="ref3">3</xref>
        ]. Це обумовлює
потребу в розробці спеціалізованої інформаційної технології, призначеної для автоматизованого визначення
ключових термінів у контенті навчальних матеріалів.
      </p>
      <p>Мета роботи – розробка інформаційної технології автоматизованого визначення множини ключових
семантичних термінів у контенті навчальних матеріалів й дослідження її ефективності за допомогою
відповідного програмного забезпечення.
Основні результати
</p>
      <p>кількість слів у терміні n  1...6 ;
M І ;


якщо термін є словом ( n  1 ), то воно входить до множини іменників M І ;
якщо термін є словосполученням ( n  1 ), то до його складу входять елементи множини M M . До
складу множини M M входять множини семантично значущих елементів (іменників M І та прикметників МПК)
та семантично зв’язуючих елементів (сполучників MC , часток MЧ та прийменників M ПЙ );
якщо n  1 , то до складу словосполучення входить принаймні один елемент із множини іменників
 якщо n  1 , то першим ( k  1 ) та останнім ( k  n ) словом є елементи множини семантично
значущих елементів M І  M ПК ;</p>
      <p> якщо n  1 , то між елементами словосполучення відсутні розділові знаки (окрім дефісу всередині
складних іменників, який є частиною слова);</p>
      <p> всі елементи (символи, слова) одного терміна в тексті мають однакові стильові властивості,
відповідно в структурі цифрового документу не виходять за межі контейнеру TextRange.</p>
      <p>В результаті використання розроблюваної інформаційної технології ставиться за мету отримання
множин термінів MT , які відповідають наведеним закономірностям.</p>
      <p>На рис. 1 подано схему інформаційної технології автоматизованого визначення множини семантичних
термінів у контенті навчальних матеріалів, що висвітлює послідовність етапів перетворення даних для
досягнення кінцевої мети.</p>
      <p>1
2
3
4
7
8</p>
      <p>Сегментація по параграфах
та вибір параграфа для аналізу
Сегментація по фразах
Сегментація по термінах
Лематизація та калькуляція термінів
Оцінка важливості термінів
Обмеження кількості термінів
5
6
Вхід: Навчальний матеріал</p>
      <p>(файл .docx)
Лематизація текстового контенту</p>
      <p>обраного параграфа
Пошук та дисперсійне оцінювання</p>
      <p>важливих слів у параграфі
Вихід: Множина термінів
Рис.1. Схема інформаційної технології автоматизованого визначення множини семантичних термінів
у контенті навчальних матеріалів
Сегментація по параграфах та вибір параграфу для аналізу (Блок 1) полягає в аналізі структури
цифрового документу. Зважаючи на існуючі загальноприйняті вимоги до структури навчальних матеріалів
навчальних дисциплін (зокрема: Назва дисципліни / Розділ / Тема), можна зробити висновок про природню
відповідність ієрархічної системи заголовків навчальних матеріалів як електронних документів верхнім рівням
семантичної структури навчального матеріалу дисципліни. Наприклад, назви дисциплін відповідатимуть
елементам стандартного стилю «Heading 1», назви розділів – «Heading 2», назви тем – «Heading 3» тощо
(табл. 1). Таким чином, структура навчальних матеріалів як цифрових документів регламентується мовами
розмітки цифрових документів й реалізується через систему заголовків. Оскільки обсяг охоплення визначеним
навчальним матеріалом відповідної навчальної дисципліни та глибина формування ієрархії наперед невідомі, є
доцільним використання рекурсивних конструкцій даталогічних моделей для реляційного збереження даних
(назва та підпорядкованість) верхніх рівнів семантичної структури навчальних матеріалів. На рис. 2 модель
Headings включає елементи: ID (унікальний ідентифікатор – порядковий номер запису), Name (назва елементу
ієрархії навчального матеріалу), Level (цифра рівню ієрархії навчального матеріалу – наприклад, для назви
дисципліни Headings(Level)=1), Sequence (цифра, що визначає послідовність даного елементу серед елементів</p>
      <p>Таблиця 1. Приклад відповідності верхніх рівнів семантичної структури</p>
      <p>навчальних матеріалів стандартним стилям цифрових документів
Порядок
в ієрархії</p>
      <p>Рівень онтології
навчальних матеріалів
Назва стандартного стилю</p>
      <p>цифрового документу
1
2
3
Навчальна дисципліна
Розділ
Тема</p>
    </sec>
    <sec id="sec-2">
      <title>Heading 1</title>
    </sec>
    <sec id="sec-3">
      <title>Heading 2</title>
    </sec>
    <sec id="sec-4">
      <title>Heading 3</title>
      <p>Headings</p>
      <p>ID</p>
    </sec>
    <sec id="sec-5">
      <title>Name</title>
    </sec>
    <sec id="sec-6">
      <title>Level</title>
    </sec>
    <sec id="sec-7">
      <title>Sequence Heading_ID</title>
      <p>Рис. 2. Модель для збереження
даних структури навчальних
матеріалів</p>
      <p>Вихідними даними Блоку 1 є визначений фрагмент контенту
цифрового документу навчального матеріалу, над яким буде
проводитись подальша обробка.</p>
      <p>Блок 2 (Сегментація по фразах) проводиться з метою розбиття
фрагменту контенту цифрового документу, що обробляється, на менші
фрагменти – фрази. Під фразою мається на увазі семантично цілісний
вузол, що виокремлений стилістичним форматуванням тексту чи
розділовими знаками, й локалізує місцезнаходження окремих термінів.
Відповідно до об’єктної моделі документу, MS Office використовує
розділи (Section), щоб вказати частини документа, що мають відмінне
форматування. Об’єкти Section містяться в об’єкті Document (рис. 3), в
колекції Selections. Розділи (Section) містять в собі менші елементи
структури – абзаци (Paragraph). TextRange є найнижчим рівнем
структури документу, що визначає фрагмент тексту однакового стилю в
межах Paragraph.</p>
      <sec id="sec-7-1">
        <title>Document</title>
      </sec>
      <sec id="sec-7-2">
        <title>Section</title>
      </sec>
      <sec id="sec-7-3">
        <title>Paragraph</title>
      </sec>
      <sec id="sec-7-4">
        <title>Paragraph</title>
      </sec>
      <sec id="sec-7-5">
        <title>Section</title>
      </sec>
      <sec id="sec-7-6">
        <title>Paragraph</title>
      </sec>
      <sec id="sec-7-7">
        <title>TextRange</title>
      </sec>
      <sec id="sec-7-8">
        <title>TextRange</title>
      </sec>
      <sec id="sec-7-9">
        <title>TextRange</title>
      </sec>
      <sec id="sec-7-10">
        <title>TextRange</title>
      </sec>
      <sec id="sec-7-11">
        <title>TextRange</title>
      </sec>
      <sec id="sec-7-12">
        <title>TextRange</title>
        <p>TextRange
Рис. 3. Загальна структура об’єктної моделі документу MS Office
Так технічно до множини фраз включаються неперервні впорядковані послідовності слів, що не виходять
за межі контейнерів цифрового документу TextRange та не перериваються розділовими знаками. Одержання в
результаті виконання блоку множини фраз дозволяє в подальшому опрацьовувати на предмет пошуку термінів
кожну з фраз поокремо.</p>
        <p>Блок 3 (Сегментація по термінах) ставить за мету формування множини всіх можливих термінів, що
присутні у досліджуваному контенті.</p>
        <p>Таким чином, до множини термінів навчального матеріалу MT включаються всі можливі неперервні
впорядковані послідовності слів, що не виходять за межі фраз та відповідають умові:</p>
        <p>MT   x1, x2, x3, x4, x5, x6 1 M І  M П , x2  M M , x3  M M , x4  M M , x5  M M , x6  M M ,</p>
        <p>x1, x2 , x3, x4 , x5, x6  M І  ,
де M M – множина семантично значущих елементів (іменників МІ та прикметників M ПК ) та семантично
зв’язуючих елементів (сполучників MC , часток MЧ та прийменників M ПЙ ),</p>
        <p>M М  M І  M ПК  M С  MЧ  M ПЙ   .</p>
        <p>Сегментація по термінах проводиться з використанням бази даних корпусу слів української мови та в
якості вихідних даних формує множину термінів MT , що містяться в оброблюваному фрагменті цифрового
документу навчального матеріалу.</p>
        <p>Блок 4 (Лематизація та калькуляція термінів) дозволяє на основі множини термінів MT сформувати
множину лемо-незалежних термінів MT1 і співставити кожному з них кількість зустрічань у досліджуваному
тексті. Для цього спершу проводиться лематизація кожного слова у кожній фразі в множині MT . Під
лематизацією мається на увазі приведення слів до, інфінітивного стану – наприклад, іменники переводяться у
називний відмінок однини. Після чого одержана множина обробляється й компактифікується таким чином,
що всі ідентичні повторення термінів видаляються, а кожному терміну спіставляться величина Kn , що
відображає встановлену кількість появ даного терміну n у вхідній множині MT .</p>
        <p>Оскільки на етапі формування множини термінів MT до неї додавались усі можливі варіанти термінів
в межах фраз без поглинання більшими словосполученнями менших, в даному блоці проводиться аналіз
необхідності такого поглинання. Якщо в множині MT1 існує термін n1 ( Kn1 – кількість появ терміну n1 в
множині MT1 ), що є впорядкованою множиною з x1 слів, та термін n2 ( Kn2 – кількість появ терміну n2 в
множині MT1 ), що є впорядкованою множиною з x2 слів, причому n1 є підмножиною n2 й x1  x2 , то при
вірності виразу 2x1  x2 термін видаляється з результуючої множини. З метою спрощення подальшої
обробки із одержаної множини MT1 доцільно також видаляти всі терміни, в яких Kn  1 , оскільки
однократне використання терміну виключає факт цілеспрямованого розгляду відповідного поняття в
структурній одиниці навчального матеріалу.</p>
        <p>Отримана в результаті множина лемо-незалежних термінів MT1 містить терміни, що
використовуються у навчальному матеріалі з кількісним показником використання, проте не визначає
важливість даних термінів.</p>
        <p>Блок 5 (Лематизація текстового контенту обраного параграфу) переводить текст визначеного
фрагменту контенту цифрового документу навчального матеріалу, що аналізується, до відповідної
послідовності слів у інфінітивному стані, що є вихідними даними цього блоку. Вони дозволяють проводити
подальше оцінювання дисперсії слів.</p>
        <p>
          Блок 6 (Пошук та дисперсійне оцінювання важливих слів у параграфі) призначений для оцінки
важливості кожного слова в досліджуваному тексті, що проводиться з використанням методу дисперсійного
оцінювання [
          <xref ref-type="bibr" rid="ref4">4</xref>
          ], який є оцінкою дискримінантної сили слів. Метод дисперсійного оцінювання дозволяє
відділити із загальної множини широковживаних у тексті слів слова, що розташовані рівномірно й показав
свою високу ефективність у попередніх дослідженнях [
          <xref ref-type="bibr" rid="ref5">5</xref>
          ].
        </p>
        <p>
          Відповідно до існуючої математичної моделі [
          <xref ref-type="bibr" rid="ref6">6</xref>
          ], якщо деяке слово A в тексті, що складається з N слів,
позначене як Akn , де індекс k – номер появи даного слова в тесті, а n – позиція даного слова в тексті, то
інтервал між послідовними появами слова при таких позначеннях буде величина
        </p>
        <p>Akm  Akm1  Akn  m  n ,
де на m-ій і n-ій позиціях в тексті знаходиться слово A , яке зустрілось k+1-ий і k-ий рази. Таким чином,
дисперсійна оцінка розраховується за формулою
де (A) – середнє значення послідовності A1, A2 , Ak ; (A2 ) – послідовності A12 , A22 , Ak2 ; К – кількість появи
слова А в тексті.</p>
        <p>Вхідними даними блоку є лематизований текстового контент визначеного фрагменту контенту
цифрового документу навчального матеріалу, вихідними даними – впорядкована множина слів, кожному з яких
співставлена оцінка його дисперсії, що позиціонується як оцінка важливості даного слова у досліджуваному
фрагменті цифрового документу.</p>
        <p>Блок 7 (Оцінка важливості термінів) вхідними даними має множину лемо-незалежних термінів MT1 із
співставленою кожному з них кількістю зустрічань у досліджуваному тексті та впорядковану множину слів із
співставленою кожному з них оцінкою його важливості (дисперсії) у досліджуваному тексті.
Оцінка важливості vn кожного терміна n із множини MT1 обчислюється за формулою:</p>
        <p>x
vn  n Kn n ,</p>
        <p>i1 kn
n Kn xn  0,07 ,

i1 X txt
де Kn – кількість появ терміну n в множині MT1 ; kn – кількість появ i-го слова терміну n в лематизованому
текстовому контенті визначеного фрагменту цифрового документу;  n – дисперсійна оцінка для i-го слова
терміну n ; xn – кількість слів у терміні n .</p>
        <p>Вихідними даними блоку є множина лемо-незалежних термінів MT1 із співставленими кожному з них
кількістю зустрічань у досліджуваному тексті та значенням оцінки важливості, впорядкована за спаданням
номінального значення оцінки важливості.</p>
        <p>
          Блок 8 (Обмеження кількості термінів) призначений для формування множини ключових термінів за
вхідними даними – множиною лемо-незалежних термінів MT1 . Множина ключових термінів формується на
основі лемо-незалежних термінів із множини MT1 з найбільшими значеннями оцінки важливості, а їх кількість
випливає із визначення відомого показника з семантичної обробки текстів, щільності ключових слів [
          <xref ref-type="bibr" rid="ref7">7</xref>
          ].
Щільність ключових слів є відношенням кількості слів ключових термінів в тексті до загальної кількості слів у
тексті й для навчальних матеріалів становить 6–8 %. Відповідно, до порожньої результуючої множини
ключових термінів MTК додаються терміни з множини MT1 з найбільшими значеннями оцінки важливості
доти, доки справджується рівність:
де Kn – кількість появ терміну n в множині MT1 ; xn – кількість слів у терміні n; X txt – загальна кількість
слів у тексті; n – поточна кількість термінів у множині MTК .
        </p>
        <p>Вихідними даними блоку й відповідно інформаційної технології є множина MTК ключових термінів,
відповідна досліджуваному фрагменту контенту цифрового документу навчального матеріалу.</p>
        <p>Таким чином, запропонована інформаційна технологія автоматизованого визначення множини
семантичних термінів у контенті навчальних матеріалів дозволяє на основі цифрового документу
навчального матеріалу автоматизовано отримувати відповідну множину ключових термінів.</p>
        <p>Реалізація інформаційної технології. З метою перевірки ефективності розробленої інформаційної
технології автоматизованого визначення множини семантичних термінів у контенті навчальних матеріалів
було проведене порівняння автоматизовано сформованої множини ключових семантичних термінів із
множиною автора (експерта) для тестової вибірки цифрових документів навчальних матеріалів.</p>
        <p>Відповідно до запропонованої інформаційної технології, було розроблене тестове програмне
забезпечення, що реалізує обробку контенту цифрових документів навчальних матеріалів викладеним вище
чином.</p>
        <p>
          Цифрові файли навчальних матеріалів .docx організовані за допомогою відкритого формату XML, в
якому зберігаються документи як колекції окремих файлів і папок в стиснутому пакеті. Для реалізації
програмної обробки цифрових документів є доцільним використання спеціалізованих програмних
комплексів, що надають об’єктно-орієнтований інструментарій для програмної роботи з контентом
відповідних файлів, наприклад Microsoft.Office.Interap.Word.dll, DocumentFormat.OpenXml.dll та
Spire.Doc.dll. В рамках розробленого тестового програмного забезпечення було використано розширення
(1)
(2)
Spire.Doc.dll [
          <xref ref-type="bibr" rid="ref8">8</xref>
          ], яке забезпечило як аналіз рівнів структури документу Heading, так і доступ до елементів
контенту, зокрема TextRange (рис. 4), який є найнижчим рівнем структури документу, що визначає фрагмент
тексту однакового стилю. Перенесення функцій автоматичного співставлення стилів текстових блоків їх
властивостям з рівня функціоналу програмного коду застосунка на рівень функціоналу бібліотеки дозволило
спростити як роботу системи з цифровим документом, так і процес програмування.
        </p>
        <p>Рис. 4. Забезпечення доступу до елементів TextRange цифрового документу навчальних матеріалів за
допомогою спеціалізованого розширення
Створений тестовий програмний продукт на основі введених даних у вигляді файлу навчального
матеріалу автоматизовано формує структуру цифрового документу для вибору елементу для аналізу, після
чого проводиться сегментація по фразах і термінах, терміни лематизуються та їх множина
компактифікується, на основі автоматично лематизованого тексту проводиться пошук та дисперсійне
оцінювання важливості слів у обраному фрагменті, після чого оцінюється важливість термінів, а їх кількість
обмежується відповідно до вищенаведеної математичної моделі. Зокрема, на рисунку 5 показано приклад
обробки теми «Нейронні мережі когнітрон та неокогнітрон» дисципліни «Методи та системи штучного
інтелекту.</p>
        <p>Кінцевим результатом роботи тестового програмного продукту є множина ключових термінів тексту.
В розглянутому випадку (рис. 5) за показника щільності ключових слів 7 % до множини ключових термінів</p>
        <p>
          Рис. 5. Отримання множини важливих термінів тестовим програмним продуктом
Експериментальні результати. Ефективність практичного застосування розглянутої інформаційної
технології може бути оцінена шляхом використання відповідного тестового програмного продукту за
показниками точності (Precision) та повноти (Recall) [
          <xref ref-type="bibr" rid="ref9">9</xref>
          ].
        </p>
        <p>Точність пошуку Р (відношення кількості релевантних ключових термінів, знайдених автоматично, до
загальної кількості знайдених ключових термінів в досліджуваному тексті) та повнота пошуку R (відношення
кількості релевантних ключових термінів, знайдених автоматично, до загальної кількості релевантних
ключових термінів в досліджуваному тексті) обчислюються наступним чином:</p>
        <p>P </p>
        <sec id="sec-7-12-1">
          <title>MTEK  MTK</title>
          <p>MTK
, R </p>
        </sec>
        <sec id="sec-7-12-2">
          <title>MTEK  MTK</title>
          <p>MTEK
де M TEK – множина релевантних ключових термінів, сформована експертом; MTK – множина знайдених
автоматично ключових термінів.</p>
          <p>Відповідно, середня точність пошуку P та середня повнота пошуку R визначаються за наступними
формулами:
k
 Pk
k
 Rk
P  i1
k
, R  i1
k
№
п/п
.1
.2
.3
.4
.5
.6
.7
.8
.9
10.</p>
          <p>Когнітрон
Неокогнітрон
Нейрон
Збуджуючий нейрон
Гальмуючий нейрон
Комплексний вузол
Простий вузол
Образ
Вхідний образ
Навчання
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
З метою визначення ефективності практичного застосування розглянутої інформаційної технології,
тестовим програмним продуктом було оброблено тестову вибірку з 50 файлів із різних навчальних курсів.
Наприклад, у результаті тестування розглянутого вище навчального матеріалу «Нейронні мережі когнітрон та
неокогнітрон» було отримано множину ключових термінів та проведено її порівняння з авторською множиною.
Результати порівняння наведено у табл. 2. В даному випадку точність пошуку склала 0,625, а повнота пошуку
склала 0,714.</p>
          <p>Середня точність пошуку склала 0,732, а повнота пошуку склала 0,697. Мінімальна точність пошуку
одержана 0,512, мінімальна повнота пошуку – 0,581; максимальна точність пошуку – 0,929, максимальна
повнота пошуку – 1,000.</p>
          <p>Табл. 2. Порівняльна таблиця аналізу множин термінів
Ключовий термін
Визначено
автором</p>
          <p>Визначено
автоматично
Аналіз отриманих результатів виявив, що відсутність програмно визначених термінів у множині автора
не завжди характеризує недолік розглядуваної технології. Деякі семантично важливі терміни автори
суб’єктивно ігнорують, в той час як іншу категорію складають поняття, на яких автори акцентують надмірну
увагу попри їх другорядність в рамках матеріалу, що викладається.
Висновки</p>
          <p>Розглянута інформаційна технологія дозволяє з достатньою ефективністю автоматизовано формувати
множини ключових семантичних термінів навчальних матеріалів. Розроблене відповідно до запропонованої
інформаційної технології програмне забезпечення в результаті обробки вхідних даних у вигляді цифрового
документу навчального матеріалу формату .docx дозволяє одержувати вихідні дані у вигляді множини
ключових термінів відповідного навчального матеріалу.</p>
          <p>Проведені за допомогою розробленого авторами тестового програмного забезпечення дослідження
підтвердили можливість ефективно автоматизовано формувати множини ключових семантичних термінів
навчальних матеріалів з показниками точності пошуку до 92,9 % та повноти пошуку до 100,0 %.</p>
          <p>Подальші дослідження спрямовані на аналіз впливу на показники ефективності запропонованої
інформаційної технології взаємозв’язків між кількістю ключових семантичних термінів в результуючій
множині та значеннями коефіцієнту щільності ключових слів та вдосконалення розглянутої інформаційної
технології для покращення результатів.
Література</p>
        </sec>
      </sec>
    </sec>
  </body>
  <back>
    <ref-list>
      <ref id="ref1">
        <mixed-citation>
          1.
          <string-name>
            <surname>Snituk</surname>
            <given-names>V. E.</given-names>
          </string-name>
          &amp;
          <string-name>
            <surname>Yurchenko</surname>
            <given-names>K. N.</given-names>
          </string-name>
          (
          <year>2013</year>
          )
          <article-title>Intelektualnoe Upravlenie Ocenivaniem Znaniy</article-title>
          . Cherkassy.
        </mixed-citation>
      </ref>
      <ref id="ref2">
        <mixed-citation>
          2.
          <string-name>
            <surname>Mazurets</surname>
            <given-names>O. V.</given-names>
          </string-name>
          (
          <year>2017</year>
          )
          <article-title>Ontological Approach to Building a Semantic Model of Educational Materials</article-title>
          . Herald of Khmelnytskyi national university.
          <source>Technical Sciences, Issue</source>
          <volume>6</volume>
          ,
          <year>2017</year>
          (
          <volume>255</volume>
          ). P.
          <volume>223</volume>
          -
          <fpage>229</fpage>
          .
        </mixed-citation>
      </ref>
      <ref id="ref3">
        <mixed-citation>
          3.
          <string-name>
            <surname>Ventura</surname>
            <given-names>J.</given-names>
          </string-name>
          &amp;
          <string-name>
            <surname>Silva</surname>
            <given-names>J.</given-names>
          </string-name>
          (
          <year>2007</year>
          ).
          <article-title>New Techniques for Relevant Word Ranking and Extraction</article-title>
          .
          <source>In Proceedings of 13th Portuguese Conference on Artificial Intelligence</source>
          , Springer-Verlag. P.
          <volume>691</volume>
          -
          <fpage>702</fpage>
          .
        </mixed-citation>
      </ref>
      <ref id="ref4">
        <mixed-citation>
          4.
          <string-name>
            <surname>Ortuño</surname>
            <given-names>M.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Carpena</surname>
            <given-names>P.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Bernaola</surname>
            <given-names>P.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Muñoz</surname>
            <given-names>E.</given-names>
          </string-name>
          &amp;
          <string-name>
            <surname>Somoza</surname>
            <given-names>A.M.</given-names>
          </string-name>
          (
          <year>2002</year>
          )
          <article-title>Keyword detection in natural languages</article-title>
          and DNA // Europhys. Lett,
          <year>2002</year>
          .
          <volume>57</volume>
          (
          <issue>5</issue>
          ). P.
          <volume>759</volume>
          -
          <fpage>764</fpage>
          .
        </mixed-citation>
      </ref>
      <ref id="ref5">
        <mixed-citation>
          5.
          <string-name>
            <surname>Barmak</surname>
            <given-names>O.V.</given-names>
          </string-name>
          &amp;
          <string-name>
            <surname>Mazurets</surname>
            <given-names>O.V.</given-names>
          </string-name>
          (
          <year>2015</year>
          )
          <article-title>Methods of Automation of Definition of Semantic Terms in</article-title>
          Educational Materials // Herald of Khmelnytskyi national university.
          <source>Technical Sciences, Issue</source>
          <volume>2</volume>
          ,
          <year>2015</year>
          (
          <volume>223</volume>
          ). P.
          <volume>209</volume>
          -
          <fpage>213</fpage>
          .
        </mixed-citation>
      </ref>
      <ref id="ref6">
        <mixed-citation>
          6.
          <string-name>
            <surname>Lande</surname>
            <given-names>D.V.</given-names>
          </string-name>
          &amp;
          <string-name>
            <surname>Snarskiy</surname>
            <given-names>A.A.</given-names>
          </string-name>
          (
          <year>2013</year>
          )
          <article-title>Kompaktificirovanniy Gorizontalniy Graf Vidimosti dlya Seti Slov</article-title>
          .
          <source>Trudi Mejdunarodnoy Nauchnoy Konferencii «Intellektualniy Analiz Informacii IAI-2013</source>
          .
          <article-title>Znania I Rassujdenia»</article-title>
          . P.
          <volume>158</volume>
          -
          <fpage>164</fpage>
          .
        </mixed-citation>
      </ref>
      <ref id="ref7">
        <mixed-citation>
          7.
          <string-name>
            <surname>IGROUP UKRAINE</surname>
          </string-name>
          (
          <year>2018</year>
          )
          <article-title>Keywords</article-title>
          . [Online] Available from: http://igroup.com.ua/seo-articles/keywords/ [Accessed: 12
          <source>February</source>
          <year>2018</year>
          ]
        </mixed-citation>
      </ref>
      <ref id="ref8">
        <mixed-citation>
          8. CREATE .
          <article-title>NET APPS WITH NUGET (</article-title>
          <year>2018</year>
          )
          <article-title>Spire</article-title>
          .
          <article-title>Doc for</article-title>
          .NET [Online] Available from: https://www.nuget.org/packages/Spire.Doc/ [Accessed: 12
          <source>February</source>
          <year>2018</year>
          ].
        </mixed-citation>
      </ref>
      <ref id="ref9">
        <mixed-citation>
          9.
          <string-name>
            <surname>Manning</surname>
            ,
            <given-names>C.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Raghavan</surname>
            ,
            <given-names>P.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Schutze</surname>
            ,
            <given-names>H.</given-names>
          </string-name>
          (
          <year>2008</year>
          )
          <article-title>Introduction to Information Retrieval</article-title>
          . Cambridge University Press.
        </mixed-citation>
      </ref>
      <ref id="ref10">
        <mixed-citation>
          <source>H-індекс - 2.</source>
        </mixed-citation>
      </ref>
      <ref id="ref11">
        <mixed-citation>
          http://orcid.org/0000-0002-8043-
          <issue>0785</issue>
          , 2Бармак Олександр Володимирович,
          <article-title>доктор технічних наук, професор, професор кафедри Комп'ютерних наук та інформаційних технологій Хмельницького національного університету</article-title>
          .
        </mixed-citation>
      </ref>
      <ref id="ref12">
        <mixed-citation>
          <source>H-індекс - 1.</source>
        </mixed-citation>
      </ref>
      <ref id="ref13">
        <mixed-citation>
          http://orcid.org/0000-0003-0739-
          <issue>9678</issue>
          , 2Мазурець Олександр Вікторович,
          <article-title>старший викладач кафедри Комп'ютерних наук та інформаційних технологій Хмельницького національного університету</article-title>
          .
        </mixed-citation>
      </ref>
      <ref id="ref14">
        <mixed-citation>http://orcid.org/0000-0002-8900-0650, Місце роботи авторів:</mixed-citation>
      </ref>
    </ref-list>
  </back>
</article>