=Paper= {{Paper |id=Vol-1108/paper5 |storemode=property |title=Извлечение знаний и фактов из текстов диссертаций и авторефератов для изучения связей научных сообществ (Extraction of Knowledge and Facts from Texts of Theses and Abstracts for Studying of Communications of Scientific Communities) |pdfUrl=https://ceur-ws.org/Vol-1108/paper5.pdf |volume=Vol-1108 |dblpUrl=https://dblp.org/rec/conf/rcdl/LeonovaF13 }} ==Извлечение знаний и фактов из текстов диссертаций и авторефератов для изучения связей научных сообществ (Extraction of Knowledge and Facts from Texts of Theses and Abstracts for Studying of Communications of Scientific Communities) == https://ceur-ws.org/Vol-1108/paper5.pdf
 Извлечение знаний и фактов из текстов диссертаций и
авторефератов для изучения связей научных сообществ*

                    © Ю.В. Леонова                     © А.М. Федотов
                        Институт вычислительных технологий СО РАН,
                                       Новосибирск
                    juli@ict.nsc.ru                   fedotov@sbras.ru


                                                         центры и организации, научные школы, изучать
                 Аннотация                               взаимосвязи между отдельными сообществами.
   В данной работы выполнено исследование                    В настоящее время существует много работ [1-
   диссертаций и авторефератов с целью                   7], направленных на анализ диссертаций. Однако в
   изучения     структуры научных связей                 литературе не        было найдено примеров
   ученого (научное окружение ученого),                  использования    методов    в    приложении    к
   структуры и динамики развития научных                 техническим     наукам.    Большинство     работ
   коллективов       (научные      школы),               посвящены статистическому анализу диссертаций.
   статистического    исследование  текста
   диссертаций. Такие исследования дают                  2 Информационная модель фактов
   возможности изучения и оценивания
   тенденций развития различных научных                  Согласно      «Логико-философскому         трактату»
   направлений, идентифицировать персоны,                Л.Витгенштейна [8 ]мир состоит не из предметов
   научные центры и организации, научные                 (вещей), а из фактов. Факт выступает как нечто
   школы,    изучать   взаимосвязи  между                отличное от вещи, как некоторое отношение, как
   отдельными сообществами.                              взаимодействие         двух         предметов. Мир
                                                         рассматривается как нечто, определяемое связями
1 Введение                                               (взаимодействиями). Любой факт при этом —
                                                         фиксация    некоего     отношения.     Все    факты
   Целью данной работы является изучение связей          фиксируются фразами, например «молоток забивает
научных     сообществ,    в    рамках    которых         гвоздь». Любое     предложение     структурировано
осуществляется научная деятельность, основанное          вполне конкретным образом: оно может быть
на анализе диссертаций и авторефератов. Научное          представлено как 2 (или 3, 4…) объекта, которые
сообщество     понимается     как   совокупность         как-то связаны между собой. Элементарное
исследователей-профессионалов,     объединенных          предложение связывает 2 объекта, а вещь – нечто
вокруг единой цели, научной школы или                    общее совокупности фактов. Таким образом,
направления и представляет собой сложную                 отношения и факты объявляются первичными, а
систему, в которой действуют как отдельные               вещи      представляют      собой      пересечение,
ученые, так и разнообразные государственные              совокупность возможных отношений. То есть с
институты,       общественные        организации,        вещью     можно     соотнести    общую       область
неформальные группы и т.д. Реализация этой цели          «пересечения» множества фактов. Атомарный факт
включает в себя решение следующих задач:                 есть соединение (двух) объектов. Анализ фактов
статистическое исследование текста диссертаций,          дает объекты или предметы. При этом по мере
исследование структуры научных связей ученого            накопления фактов представление о вещи может
(научное окружение      ученого), исследование           меняться. Благодаря такой трактовке мира вещь
структуры и динамики развития незримых научных           выступает не как нечто данное, застывшее, вполне
коллективов (научные школы). Такие исследования          определенное, а как некоторая сущность с
дают возможности изучения и оценивания                   размытыми границами, и эти границы уточняются
тенденций     развития     различных     научных         по мере выявления класса возможных для данной
направлений, идентифицировать персоны, научные           сущности отношений (фактов). Чтобы определить
                                                         вещь,     надо     зафиксировать      все     факты
                                                         (положительные — где может встречаться эта вещь
Труды 15-й Всероссийской научной конференции
«Электронные библиотеки: перспективные методы и
                                                         и отрицательные, где не может).
технологии, электронные коллекции» — RCDL-2013,             Таким образом, мир подразделяется на
Ярославль, Россия, 14-17 октября 2013 г.                 факты. Факт — существование событий. Событие –
                                                         связь объектов (предметов, вещей).




                                                    32
   Факты в тексте можно представить в виде                      Структурный элемент (далее просто элемент)
языковой модели, способной содержать, хранить и             имеет идентификатор и обладает некоторыми
передавать  информацию.     Языковые модели,                свойствами. Таким образом, элемент E –- это
содержащие      целенаправленно     отобранную              совокупность , где ID –- идентификатор
информацию, принято называть информационными                элемента, P - свойства элемента.
моделями.                                                       Экземпляр элемента имеет значение (или
                                                            содержание). Свойства элемента определяют
3 Модель документа в системе                                характер работы с элементом. Элемент обладает
                                                            типом, выбираемым из словаря. Тип определяет
     Информационная система представляет собой              правила работы с элементом и, следовательно,
множество связанных различными отношениями                  является свойством элемента.
документов,     описывающих       некие    сущности             Примеры элементов: заголовок документа,
(объекты, факты или понятия) [9]. Информация о              аннотация документа, фамилия в визитной карточке,
той или иной сущности содержится в системе либо
                                                            авторы документа. Значение элемента – его
непосредственно в виде документа, который ее
представляет, описывает или моделирует, либо в              конкретная содержательная часть, а свойства
виде упоминаний об этой сущности, которые                   элемента описывают его структуру. Для элемента
имеются в других документах, т. е. содержат                 визитной карточки “Фамилия” значение - Матвеев,
опосредованную информацию об этой сущности.                 идентификатор – 1, свойства – тип “word”.
     Согласно стандартам построения открытых                    Структура документа – это набор структурных
систем (OSI) [10] структура и содержание                    элементов.
документа должны описываться в соответствии с                   Содержание документа – объединение значений
международными схемами данных. Для описания                 экземпляров элементов, составляющих документ.
соответствующих схем данных используются                        Информационная система содержит коллекции:
метаданные, которые определяют структуру и                   1) Персоны и организации, диссертационные
смысловое содержание документа. В нашей системе                 советы
документом называется информационный ресурс,                 2) Авторефераты и диссертации. Диссертация
снабженный метаописанием (метаданными) в                        обладает документной и лингвистической
соответствии с рекомендациями OSI.                              информативностью.                  Документная
     Дадим два определения:                                     информативность      связана   с    реализацией
     Документом di называется пара di =, где            сигнальной функции, которая дает информацию
Si - структура документа в соответствии с                       организационного характера, т.е. извещает о том,
выбранной схемой данных; Vi - содержание                        что диссертация подготовлена и поступила в
документа (информационное наполнение).                          библиотеку организации по месту работы
     Коллекция     -    множество    документов    с            диссертационного совета, о месте и времени
выделенной           фиксированной       структурой,            защиты, об ученых, являющихся оппонентами по
содержание       которых       имеет     одинаковую             диссертации. Она реализуется в таких атрибутах
тематическую направленность.                                    описания,    как        «соискатель»,   «тема»,
     С точки зрения унификации работы с                         «специальность», «дата защиты», «организация,
документами будем представлять информационную                   в которой выполнена работа», «шифр совета»,
систему в виде набора коллекций. Метаданные,                    «научный руководитель» (ФИО, ученая степень,
описывающие структуру и содержание документов                   звание), «оппоненты», «ведущая организация»,
в коллекциях, подразделяются на описательные и                  «название организации, где можно ознакомиться
структурные.                                                    с диссертацией», «дата рассылки автореферата»,
     Структурные метаданные определяют структуру                «ученый секретарь», «УДК». Лингвистическая
и свойства документов, в соответствии с которыми                информативность реализуется в автореферате
осуществляется их обработка (типы, связи, форматы               или диссертации в атрибуте «Текст».
представления,       ограничения    на    управление         3) Термины. Особым видом объектов ИС является
доступом и т. п.).                                              Термин. Термин – слово или словосочетание
     Описательные        метаданные       описывают             название определённого понятия какой-нибудь
смысловое содержание документа (его название,                   специальной области науки, техники, искусства,
краткое содержание и т. п.).                                    общественной жизни и т.п. Термин называет
     Отметим, что описательные метаданные,                      специальное понятие и в совокупности с
характеризующие документ, могут являться частью                 другими терминами данной системы является
документа и в то же время могут содержать в                     компонентом научной теории определенной
соответствии с выбранной схемой данных сведения                 области знания [11]. Примером терминов
о документе (основные и дополнительные, такие,                  являются ключевые слова, описывающие
как, например, авторы, название, дата создания и т.             содержание диссертации.
д.).
     Элемент схемы данных данной коллекции будем
называть структурным элементом.




                                                       33
4 Модель отношений между                                  географические атрибуты, например, год – 1994,
                                                          географическая привязка - Новосибирск.
документами в системе                                        Можно выделить следующие виды связей:
                                                            Прямые. В этом случае есть факт о связи двух
   Для решения сформулированных выше задач мы                  объектов, например, отношение соискатель-
должны определить связи (отношения) между                      оппонент
документами.                                                Нечеткие (не представленные фактом):
                                В основу нашей                   по общему месту и времени у пары
                            модели     отношений                    различных фактов различных объектов,
                            [9]             между                   например, дата         и место защиты
                            документами          в                  диссертации       позволяет      установить
                                 информационной                     соискателей, защитивших диссертацию в
                            системе легла модель                    один день в одном совете;
                            RDF.      В     нашей                косвенные (транзитивные) — через общий
                            системе связи между                     третий объект-отношение у пары фактов
                                     документами                    различных объектов, например, связь
                                 устанавливаются                    диссертация-ключевые                   слова.
                            путем задания на                        Установление          связи        подобных
                                        множестве                   диссертаций выполняется через ключевые
                            документов бинарных                     слова
                            отношений, которые               Факты       можно       выразить       посредством
                            в соответствии с              высказываний с использованием предикатов.
                            правилами RDF могут           Методы      математической       логики     позволяют
                            быть записаны в виде          формализовать эти утверждения и представить их в
                            A(R,V): объект R              виде, пригодном для анализа.
                            имеет атрибут A со               Рассмотрим      высказывание:       "Преподаватель
                            значением           V.        Иванов А.А, родился в 1962 году". Оно выражает
                            Например, тот факт,           следующие свойства сущности "Иванов А.А.":
                            что Барахнин В.Б.
                                                          •    в явном виде – год рождения;
                            занимает некоторую
                                                          •    в неявном виде – принадлежность к
                            должность (post) в
                                                               преподавателям.
                            ИВТ       СО     РАН,
                            записывается       как           Первое свойство устанавливает связь между
                                                          парами сущностей "Иванов А.А." и "год рождения",
                            Post(`ИВТ СО РАН',
                                                          а второе свойство устанавливает связь между
                            `Барахнин В.Б.'), где
                                                          парами сущностей "Иванов А.А." и "множество
                            Post - то или иное
                                                          преподавателей".          Формализация            этого
                            значение из списка
                                       (тезауруса)        высказывания      представляется      как    результат
                            должностей.                   присваивания значений переменных, входящих в
                                Связь —        это        следующие предикаты:
                            направленное       или        РОДИЛСЯ (Иванов А.А., 1962)
                                    ассоциативное         ЯВЛЯЕТСЯ ПРЕПОДАВАТЕЛЕМ (Иванов А.А.)
                            отношение       между            Пример информационной             модели описания
                            объектами системы,            диссертаций       (Рис.      1).      Существенными
                            например       Петров         характеристиками         диссертации          являются
                              А.А. преподает в            «соискатель», «тема», «специальность», «ученая
   Рис. 1. Информационная                                 степень», «год»,«организация, в которой выполнена
                              НГУ.     Факт     —
   модель описания                                        работа»,    «организация, в которой защищалась
                              событие         (как
   диссертации                                            диссертация»,      «шифр       совета»,      «научный
                                          правило,
зафиксированное и произошедшее), которое может            руководитель»,          оппоненты»,          «ведущая
сопровождаться временной и географической                 организация», «УДК». Связи между документом и
метками и др., например, Иванов П.П. защитил              его элементами представлены на рисунке, который
кандидатскую диссертацию в 1994 году в г.                 дает схемное описание рассматриваемой модели. В
Новосибирск. События представляют действия,               этом описании используются следующие элементы:
происходящие в реальном мире, и определяются              соискатель,     оппонент1, оппонент2, оппонент3,
указанием типа действия и ролей, которые играют           научный руководитель, организация выполнения
сущности в этом действии. Факт может быть                 работы и организация защиты диссертации, ведущая
извлечен из текста документов либо определен              организация      - объекты, тема, специальность,
экспертом.                                                ученая степень, шифр совета, УДК - текстовые
   Как говорилось ранее, событие – связь объектов,        значения, год - числовое.
то факт может определить как отношение между                 Формализованное описание данной модели
объектами, которое может иметь временные и                является предикатом с именем диссертация:




                                                     34
диссертация (Соискатель, тема, год, специальность,          б) определение того, что существует только в
ученая степень, организация выполнения работы,                 тексте как таковом (различные характеристики
организация      защиты    диссертации,    ведущая             формы – язык, структура и жанр сообщения,
организация, шифр совета, научный руководитель,                ритм и тон речи);
оппонент1, оппонент2, оппонент3, УДК).                      в) выявление того, что будет существовать после
   Для     конкретных      значений     аргументов             текста, т.е. после его восприятия адресатом
этот предикат превращается в факт. Например, если              (оценка различных эффектов воздействия).
Барахнин В.Б. защитил диссертацию “Программные                 Основой содержания диссертации является
системы информационного обеспечения научной                 принципиально новый материал, включающий
деятельности: модели, структуры и алгоритмы” в              описание новых фактов, явлений и закономерно-
2011 году, то имеет место факт: Диссертация                 стей, или рассмотрение имеющегося материала в
(Барахнин       В.Б.,    Программные       системы          совершенно ином аспекте. Таким образом, автор
информационного          обеспечения       научной          диссертации сосредоточен на описании новых
деятельности: модели, структуры и алгоритмы,                фактов, их точном представлении научной
2011, 05.13.17 , доктор технических наук, Институт          общественности и их контент-анализ предполагает
вычислительных технологий СО РАН, Московский                выявление фактов, существовавших до написания
государственный университет печати, Институт                текста диссертации.
математики СО РАН, Д 212. 147.03, Федотов А.М.,                В разработке и практическом применении
Шайдуров В.В., Хорошевский В.Ф., Мальцева С.В.,             контент-анализа выделяют несколько стадий. После
004). С помощью таких фактов можно выделить                 того, как сформулированы тема, задачи и гипотезы
различные характеристики диссертаций, например,             исследования, определяются категории анализа, т.е.
можно     выделить     соискателей,   защитивших            наиболее       общие,       ключевые     понятия,
диссертацию по специальности 05.13.17 в 2011 году.          соответствующие исследовательским задачам.
                                                               В данном исследовании категорией анализа
5 Статистическое исследование текста                        содержания диссертации является ее тема,
диссертации                                                 соответствующая специальности ВАК.
                                                               После того, как категории сформулированы,
   При     исследовании       текста     диссертаций        необходимо выбрать соответствующую единицу
используется метод контент-анализа – метод                  анализа – лингвистическую единицу речи или
качественно-количественного анализа содержания              элемент    содержания,      служащие   в    тексте
документов с целью выявления или измерения                  индикатором интересующих исследователя явлений.
различных фактов и тенденций, отраженных в этих                Единицы анализа, взятые изолированно, могут
документах. Сущность метода контент-анализа                 быть не всегда правильно истолкованы, поэтому они
состоит в выделении в содержании научных                    рассматриваются      на    фоне более    широких
документов некоторых ключевых признаков                     лингвистических или содержательных структур,
(содержательных       единиц    анализа,    проблем,        указывающих на характер членения текста, в
категорий), которые отражают существенные                   пределах которого идентифицируется присутствие
(фактические и смысловые) стороны содержания с              или отсутствие единиц анализа — контекстуальных
последующим подсчетом частоты употребления                  единиц. Например, простейшим элементом текста
этих единиц [12, 13].                                       является слово, для единицы анализа «слово»
   В данной работе используется тезаурусный ме-             контекстуальная единица – «предложение».
тод, являющийся разновидностью контент-анализа,                Смысловыми единица контент-анализа могут
суть которого состоит в сведении рассматриваемого           быть:
текста к ограниченному набору элементов и                   а) понятия, выраженные в отдельных терминах;
терминов, которые затем подвергаются анализу.               б) темы, выраженные в целых смысловых абзацах,
   Не все документы могут выступить объектом                   частях текстов, статьях;
контент-анализа. Необходимо, чтобы исследуемое              в) имена, фамилии людей, названия организаций;
содержание позволило задать однозначное правило             г) события, факты и т. п.;
для      надежного        фиксирования       нужных
                                                            Наконец необходимо установить единицу счета –
характеристик (принцип формализации), а также
                                                            количественную меру взаимосвязи текстовых и
чтобы интересующие исследователя элементы
                                                            внетекстовых явлений. Выделение единиц счета,
содержания встречались с достаточной частотой
                                                            которые могут совпадать либо не совпадать с
(принцип статистической значимости). Можно
                                                            единицами анализа. В нашем случае процедура
выделить следующие направления применения
                                                            сводится к подсчету частоты упоминания
контент-анализа:
                                                            выделенной смысловой единицы (интенсивность).
а) выявление того, что существовало до текста и
   что тем или иным образом получило в нем
   отражение (текст как индикатор определенных              6 Научные связи
   сторон изучаемого объекта — окружающей                      Научное пространство учёного N определим как
   действительности, автора или адресата);                  совокупность учёных {S}, связанных с N
                                                            различными научными отношениями, как например,




                                                       35
связи типа соискатель – научный руководитель,             со    специфическими      органами   управления,
соискатель – оппонент, автор книги – редактор,            объединенных целями совместной общественно-
автор книги – рецензент (не анонимный) и т.д.[14].        полезной деятельности и сложной динамикой

7 Научные коллективы
   Коллектив    –    устойчивая    во  времени
организационная группа взаимодействующих людей




                                           Рис. 2. Элемент графа




                                           Рис.3. Фрагмент графа
формальных      (деловых)       и    неформальных
взаимоотношений между членами группы. Т.о.
коллектив имеет сложную структуру, спектр
всевозможных отношений, связей и взаимосвязей
его членов весьма широк. Аппаратом описания
структур коллективов, как и аппаратом описания
отношений вообще является теория графов.                 Здесь    — количество ссылок на (иначе
   .Средством       представления        незримых     говоря,  мера  неформального воздействия на ).
коллективов является сеть (сеть идейного,             Например,     — количество ссылок с на а, и
творческого и пр. влияния) (рис. 2, 3). Звено сети    наоборот,— количество ссылок а на с. Здесь также
(рис. 2) характеризует степень влияние х на у, и      можно ввести меру m(х) неформального (идейного,
может означать, например, что «у цитирует х» 10       научного и пр.) статуса индивидуума х, например,
раз. Иначе говоря, у использовал концепции, идеи,     следующего вида:
факты х, развивал их и т. д. Тем самым между х и у
имеется устойчивая информационная связь, причем
число 10 — характеристика интенсивности этой
связи [14].
   Если построить сеть взаимных ссылок, то можно
выделить подграфы, элементы которых интенсивно           Эти меры используют различные выражения
связаны друг с другом. Такие подграфы образуют        отношения «влияния а на остальных» к «влиянию
незримые коллективы (на рис. 3 и подграф (Иванов      остальных на а».
А.А., Петров И.И., Кузнецов П.П.) — научный              Лицо х с максимумом m(х) может быть названо
неформальный коллектив).                              лидером    неформального коллектива. Между
   Неформальный коллектив из N элементов (N = 3)      формальными     и неформальными отношениями
может быть представлен следующей матрицей NxN:        существуют определенные причинно-следственные
                                                      связи. Например, может наблюдаться следующая
                                                      последовательность их развития:
                                                      • а и b образуют неформальный коллектив
                                                         (взаимные ссылки);




                                                     36
• а и b печатаются в соавторстве;                             естественным образом: дуги выходят из
• а и b начинают работать вместе.                             вершин-руководителей и вершин-оппонентов и
   Выявление     неформальных     лидеров    и                входят    в    соответствующую     вершину-
коллективов способствует лучшей организации                   диссертант. Сохраняется информация о годе
выполнения проектов путем привлечения в                       защиты, совете защиты, ведущей организации
формальный коллектив единомышленников.                        и т.п.
   Описанный выше подход является статическим.           2.   Число входящих дуг в вершину-диссертант
Можно рассматривать развитие коллектива в                     лежит в границах от 3 до 8. Максимальная
динамике, когда с течением времени к графу                    входящая     степень    будет   у   вершин-
добавляются новые вершины и рёбра и                           диссертантов, которые защитили кандидатскую
одновременно часть прежних элементов удаляется.               и докторскую степени, имеют несколько
Такие графы достаточно наглядно отображают                    руководителей и консультантов. Степени
перемены в коллективе, связанные, например, с                 вершин-руководителей и вершин-оппонентов
уходом прежнего формального лидера.                           могут быть очень большими.
   Другим видом научных коллективов являются             3.   Из вершины-диссертанта дуга           будет
научные школы, информацию о которых можно                     выходить, если он в дальнейшем стал
получить на основе анализа таких реквизитов                   руководителем или оппонентом какой-либо
                                                              диссертации.

                                                                            (диссертантдля Я)
            руководитель           руководитель


              диссертант
                                                                             диссертант А (к)

   оппонент 1           оппонент 2         оппонент 3

                                                                             диссертант Я (к,д)
             Рис. 4. Фрагмент графа диссертаций


                                                                        Рис. 5. Контур графа диссертаций

диссертации, как учебное заведение, в котором            4.  Большие степени в графе выявляют персон,
выполнена работа, научный руководитель, ведущая              оказавших большой влияние на формирование
организация, дата и время защиты, шифр совета и              коллектива специалистов в данной области.
   т.д.Понятие «научной школы» употребляют                   Длинная цепь в графе показывает протяженный
«применительно к относительно небольшому                     во времени процесс защит диссертаций, где в
   научному коллективу, объединенному не столько             качестве руководителя выступает бывший
организационными рамками, не только конкретной               диссертант и т.д. Таким образом, наличие
тематикой, но и общей системой взглядов, идей,               больших степеней и длинных цепей позволяет
интересов,     традиций      –     сохраняющейся,            предполагать существование школы по
передающейся и развивающейся при смене научных               рассматриваемому направлению.
поколений» .                                                Граф может иметь контуры. На рисунке ниже
   Рассмотрим структуру графа диссертаций                показан пример образования контура: диссертант А
[15].Вершины ориентированного графа диссертаций          защитил кандидатскую (к) диссертацию, далее стал
соответствуют диссертантам, руководителям и              руководителем другого диссертанта и т.д. После
оппонентам диссертантов. Бинарное отношение на           последовательности защит диссертант Я защитил
парах вершин задается естественным образом: дуги         кандидатскую и докторскую (д) диссертации и затем
выходят из вершин-руководителей и вершин-                стал оппонентом докторской диссертации для
оппонентов и входят в соответствующую вершину-           кандидата наук, бывшего оппонентом диссертанта
диссертант. Сохраняется информация о годе                А.
защиты, совете защиты, ведущей организации и т.п.
Типичный фрагмент графа должен содержать 4 или           8 Методы извлечение понятий из текста
более вершин (см. рис. 4).                               диссертации
 1. Вершины          ориентированного       графа
     диссертаций соответствуют диссертантам,                Рассмотрим подробнее методику извлечения
     руководителям и оппонентам диссертантов.            фактов из текста диссертации. Извлечение понятий
     Бинарное отношение на парах вершин задается         из текста представляет собой технологию,



                                                    37
обеспечивающую       получение    информации    в        терминов        предметной        области, персон,
структурированном виде. В качестве структур могут        организаций, географических названий, и др.;
запрашиваться как относительно простые понятия           б) прослеживание связей между извлеченными
(ключевые      слова,    персоны,    организации,        понятиями;
географические названия), так и более сложные,           в) извлечение сущностей, распознавание фактов и
например, имя персоны, ее должность в конкретной         событий.
организации и т.п.                                           Подходы к извлечению различных типов
    Данная технология включает три основных              понятий из текстов существенно различаются.
метода:                                                  Например,     для   выявления     принадлежности
а) извлечение слов или словосочетаний, важных для
описания содержания текста. Это могут быть списки




                                  Рис. 6. Фрагмент графа диссертаций

документа к тематической рубрике могут                   используются коды и названия стран, регионов и
использоваться методы     классификации. Для             отдельных населенных пунктов. Таким образом,
выявления названий организаций и персон                  методы извлечения из текста сущностей и терминов
применяются как система шаблонов, так и                  имеют свою специфику для каждого типа.
результаты структурного исследования текста,             Методы автоматического извлечения понятий
например,    используется  таблица   префиксов           можно разделить на 2 типа:
названий организаций. Выявление географических            • Методы машинного обучения. Основываются на
названий предполагает использование таблиц, в               статистических     (вероятностных)    методах
которых кроме шаблонов написания этих названий



                                                    38
   извлечения знаний. Для обучения системы                экспертов – инженеров по знаниям, но при этом
   необходим размеченный корпус текстов.                  отсутствует    необходимость    иметь     много
 • Методы, основанные на знаниях. Основываются            размеченных данных.
   на языках описания правил-шаблонов, которые               Методы машинного обучения используются при
   составляются экспертами. Основой недостаток            необходимости обеспечить хорошее качество
   метода – написание правил может занимать               извлечения, при этом отпадает необходимость в
   много времени.                                         экспертах и словарях, необходимо иметь большой
   Методы, основанные на знаниях, используются            объем размеченных данных.
при необходимости обеспечить максимально                     Наиболее        эффективными        являются
возможное качество извлечения, однако для их              комбинированные методы.
работы необходимо иметь словари, списки слов и




Рис.7. Точность. Зависимость от категории                 Рис.8. Точность. Зависимость         от    количества
                                                          документов в рубрике
                                                              Для извлечения именованных сущностей
8.1 Извлечение именованных сущностей                      применяются несколько типов признаков [16]:
   Выделение сущностей является ключевым                   1. признаки уровня слов (N-граммы, суффиксы,
этапом предобработки текста для решения более                 префиксы, части речи и т.д.);
сложных задач извлечения информации.                       2. признаки        уровня   документа    (наличие
   Под термином именованная сущность будем                    акронимов в корпусе, позиция термина в
понимать объект определенного типа, имеющий                   предложении, наличие термина в заголовке или
имя, название или идентификатор.                              тексте и т.д.);
   Особенностями этого вида объектов являются:             3. дополнительная информация (слова указатели,
 • Большое множество разных сущностей;                        например, Inc. ,Corp., списки стоп-слов, слов с
                                                              капитализацией,      которые    не    являются
 •    Отсутствуют строгие правила именования
                                                              именованными сущностями и т.д.).
     сущностей;
                                                              В пределах одного документа может быть
 •    Постоянно появляются новые сущности.
                                                          несколько вхождений одного и того же имени,
   Какие типы выделяет система, определяется в
                                                          которое может относиться к одной сущности или же
рамках конкретной задачи. Для диссертаций и               к различным объектам. В простейшем случае
авторефератов – это люди (PER), места (LOC),              обычно исходят из предположения, что в одном
организации (ORG), время (TIME). В общем случае           документе одно и то же имя относится к одной и той
системе на вход поступает текст, на выходе система        же сущности.
сообщает информацию о положении имен в тексте и
информацию о классах, которые им соответствуют.
   Набор классов фиксируется заранее. Приведем
пример размеченного текста:
[PER БарахнинВладимирБорисович].
Программныесистемы информационного
обеспечения научной деятельности : модели,
структуры и алгоритмы : диссертация доктора
технических наук: 05.13.17 / Место защиты: [ORG
Моск. гос. ун-тпечати].- [LOC Новосибирск], [TIME
2010].- 315 с.




                                                     39
   Базовый набор признаков составлен из                      Существенное        преимущество        наивных
признаков первой группы для слов, находящихся в           байесовских классификаторов по сравнению с
скользящем по тексту окне размера до 5 токенов.           другими методами заключается в том, что их можно
Под токеном подразумеваются не только слова, но и         обучать и затем опрашивать на больших наборах
символы пунктуации.                                       данных [19]. Даже если обучающий набор очень
   Были проанализировано 4587 диссертаций и               велик, обычно для каждого образца есть лишь
авторефератов и получен граф связей        между          небольшое количество признаков, а обучение и
персонами     в   диссертации    на    основании          классификация сводятся к простым математическим
вышеприведенной      модели   (Рис.   4).   Граф          операциям над вероятностями признаков.
распадается на множество несвязанных компонент,              Это особенно важно, когда обучение проводится
в которых можно отыскать подграфы (Рис.6) с               инкрементно, – каждый новый предъявленный
длинными цепями с длинной 2, что позволяет                образец можно использовать для обновления
говорить о наличии научной школы.                         вероятностей без использования старых обучающих
                                                          данных. (Отметим, что код для обучения
8.2 Извлечение ключевых терминов из текста                байесовского классификатора запрашивает по
   Ключевыми               терминами (ключевыми           одному образцу за раз, тогда как для других
словами или ключевыми фразами) являются важные            методов, скажем деревьев решений или машин
термины в документе, которые могут дать                   опорных векторов, необходимо предъявлять сразу
высокоуровневое описание содержания документа             весь набор.) Поддержка инкрементного обучения
для читателя. Извлечение ключевых терминов                очень важна для таких в случаях расширении набора
является базисным этапом для многих задач                 категорий в классификаторе, который постоянно
обработки      естественного     языка,     таких         обучается на вновь поступающих документах,
как классификация       документов, кластеризация         должен обновляться быстро и, возможно, даже не
документов, суммаризация текста и вывод общей             имеет доступа к старым документам. Еще одно
темы документа [17,18].                                   достоинство наивных байесовских классификаторов
   В данной работе используется метод выделения           – относительная простота интерпретации того, чему
терминов на основе морфологических шаблонов,              классификатор обучился. Метод Фишера             -
аключевые термины выражаются именными                     альтернативный        метод         классификации,
словосочетаниями. В именных словосочетаниях               обеспечивает большую гибкость при настройке
главным словом (основным носителем смысла)                параметров классификации.
является,    как     правило,     первое     слева           Результаты тестирования точности алгоритмов
существительное, а остальные слова служат для             классификации терминовприведены на Рис.7 и
уточнения значения главного слова.                        Рис.8., что позволяет сделать выводы о точности
   Для     выделения      ключевых       терминов         алгоритмов     классификации      около     90%при
используются следующие виды шаблонов                      количестве документов в рубрике более ста.
П+С     –    согласованные    прилагательное     +
существительное;                                          Литература
С+Срод.п. – существительное + существительное в            [1] К.В. Бугаев Отграничение криминалистики от
родительном падеже;                                            иных наук методами информационного
С+Ств.п. – существительное + существительное в                 анализа текста// Юридический мир. -2011. - №
творительном падеже;                                           8. - С. 40 – 43.
П+П+С – согласованные прилагательное +
                                                           [2] Бескаравайная Е. В.. Анализ базы данных
прилагательное + существительное;
                                                               дисертаций ПНЦ РАН / Е. В. Бескаравайнова,
С+П+Срод.п. – существительное + согласованное
                                                               И. А. Митрошин // Информационное
прилагательное + существительное в родительном
                                                               обеспечение науки: новые технологии. - М.:
падеже;
                                                               Научный Мир, 2011. - С. 124-133.
С+П+Ств.п. – существительное + согласованное
прилагательное + существительное в творительном            [3] Прошанов С.Л.Докторские диссертации по
падеже.                                                        социологии (1990-2010 гг.) // Социологические
   После выделения терминов определяется их                    исследования. - 2011.-№1. - С.30-39.
тематика с помощью метода классификации –                  [4] Липский С. И. Проблемно-тематический
отнесение документа к одной из нескольких                      анализ диссертационных исследований по
категорий на основании семантического содержания               социальной педагогике (1971-2008 гг.)
документа.                                                     Автореферат диссертации, Кострома - 2009
   Для классификации применяются методы                    [5] H. Anil Kumar, Mallikarjun Dora Citation
обучения с учителем, которые позволяют провести                analysis of doctoral dissertations at IIMA: A
классификацию или спрогнозировать значение                     review of the local use of journals // Library
исходя из ранее предъявленных примеров.Из                      Collections, Acquisitions, and Technical Services
множества существующих методов были выбраны                    - Vol. 35, Issue 1, Spring 2011, P. 32–39
метод наивной классификации Байеса и метод                 [6] Kam C. Chan, Kam C. Chan, Gim S. Seow,
Фишера.                                                        Kinsun Tam Ranking accounting journals using



                                                     40
     dissertation citation analysis: A research note //             тезисы докладов (Новосибирск, Россия, 26-30
     Accounting, Organizations and Society - Vol. 34,               ноября 2012). – Новосибирск: ИВТ СО РАН. –
     Issues 6–7, 2009, P. 875–885                                   2012. – с. 17 [ISBN 978-5-905569-05-0].
 [7] DilekAltun, ÇağlaÖnerenŞendil, İkbal Tuba Şahin           [16] Л.М. Ермакова Методы извлечения
     Investigating the National Dissertation and Thesis             информации из текста // Вестник Пермского
     Database in the Field of Early Childhood                       университета. Сер.: Математика. Механика.
     Education in Turkey // Procedia - Social and                   Информатика. - 2012. - Вып. 1 (9). - С. 77-84.
     Behavioral Sciences - Vol. 12, P. 1-654 (2011) -          [17] Manning, C. D., and Schtze, H. 1999. Foundations
     International conference on education and                      of Statistical Natural Language Processing. The
     educational psychology, 2–5 December 2010,                     MIT Press.
     Cyprus                                                    [18] Гринева М., Гринев М., Лизоркин Д. Анализ
 [8] Гайдадымов Евгений - Философия (Конспект                       текстовых документов для извлечения
     лекций) //ЭЛЕКТРОННАЯ                                          тематически сгруппированных ключевых
     БИБЛИОТЕКА ModernLib.Ru                                        терминов // Тр. Ин-та системного
 [9] Барахнин В.Б., Леонова Ю.В. Информационная                     программирования РАН. — URL:
     модель отношений между документами в                           http://citforum.ru/database/articles/kw_extraction/
     информационной системе. Вычислительные                    [19] Сегаран Т. Программируем коллективный
     технологии. – 2005. - Том 10. Специальный                      разум. – Пер. с англ. – СПб: Символ-Плюс,
     выпуск. - С. 129-137.                                          2008.
[10] Концепция открытых систем // Материалы к
     межотраслевой Программе “Развитиеи                          Extraction of knowledge and facts from
     применение открытых систем”.                              texts of theses and abstracts for studying of
     [http://www.informika.ru/text/inftech/opensys/3/c          communications of scientific communities
     oncept/os_1.html]
[11] Большой Энциклопедический словарь. 2000                            Yuliya V. Leonova, Anatolii M. Fedotov
[12] О.Т. Манаев Контент-анализ как метод                          In this work a research of theses and abstracts for the
     исследования // «ПСИ-ФАКТОР»                              purpose of studying of structure of scientific
[13] Хайтун С.Д. Наукометрия: Состояние и                      communications of a scientist (a scientific environment
     перспективы. — М.: Наука, 1983.
                                                               of a scientist), structure and dynamics of development
[14] Элементы математической теории организации
                                                               of research teams (schools of sciences), statistical
     //Портал Cadmium
     http://cadmium.ru/content/view/832/45/                    research of the text of theses is undertaken. Such
[15] Леонова Ю.В., Добрынин А.А., Веснин А.Ю.                  researches give the chance of studying and estimations
     Построение графа диссертаций // XIV                       of trends of development of             various scientific
     Российская конференция с участием                         directions, to identify persons, scientific centers and the
     иностранных ученых «Распределенные                        organizations, schools of sciences, to study
     информационные и вычислительные ресурсы»                  interrelations between separate communities.
     (DICR-2012): программа конференции и




                                                          41