=Paper= {{Paper |id=Vol-2022/paper47 |storemode=property |title= Семантическое аннотирование информационных ресурсов в научной электронной библиотеке средствами таксономий (Semantic Annotation of Information Resources by Taxonomies in Scientific Digital Library) |pdfUrl=https://ceur-ws.org/Vol-2022/paper47.pdf |volume=Vol-2022 |authors=Mikhail R. Kogalovsky,Sergey I. Parinov |dblpUrl=https://dblp.org/rec/conf/rcdl/KogalovskyP17 }} == Семантическое аннотирование информационных ресурсов в научной электронной библиотеке средствами таксономий (Semantic Annotation of Information Resources by Taxonomies in Scientific Digital Library) == https://ceur-ws.org/Vol-2022/paper47.pdf
      Семантическое аннотирование информационных
        ресурсов в научной электронной библиотеке
                  средствами таксономий
                  © М.Р. Когаловский1                                     © С.И. Паринов2
                                   Институт проблем рынка РАН,
                                       1
                    2
                        Центральный экономико-математический институт РАН,
                                             Москва
                        kogalov@gmail.com                                 sparinov@gmail.com
        Аннотация. Описана проблема семантического аннотирования фрагментов полных текстов
   публикаций, а также ссылок цитирования в публикациях научной электронной библиотеки.
   Предложен таксономический подход к описанию семантики аннотаций. Обсуждены основные
   понятия, связанные с аннотированием. Представлен ряд таксономий аннотаций, почерпнутых из
   литературы и опыта собственных разработок авторов. Рассмотрена реализация семантического
   аннотирования публикаций в научной информационной системе Соционет, которая использует также
   открытые данные, создаваемые средствами проекта CitEcCyr. На основе данных о содержании
   цитирований при просмотре публикаций в Соционет автоматически создаются аннотации
   внутритекстовых ссылок на используемые источники из списков литературы публикаций.
   Создаваемые аннотации содержат сводную информацию об источниках и статистику их цитирований.
        Ключевые слова: информационный ресурс, аннотация, таксономия, цитирование, электронная
   библиотека, система Соционет, проект CitEcCyr.

            Semantic Annotation of Information Resources
              by Taxonomies in Scientific Digital Library
                        © M.R. Kogalovsky1                                © S.I. Parinov2
                                   1
                                    Market Economy Institute of RAS,
                    2
                        The Central Economical and Mathematical Institute of RAS,
                                                Moscow
                        kogalov@gmail.com                            parinov@gmail.com
         Abstract. The paper discusses a semantic annotating problem with focus on full texts of research papers
   and citation references in publications from scientific digital library. We propose a taxonomy based approach
   for specifying annotation semantics. We discuss the main concepts of annotation and some annotation
   taxonomies taken from literature and early created by ourselves. An implementation of semantic annotating
   approach within the research information system Socionet is presented. This implementation is using also the
   open citation data created by the CitEcCyr project tools. Based on data about the content of citations while
   browsing the publications at Socionet automatically annotations are created for in-text references to the
   sources from the reference lists of publications. Generated annotations contain summary information about
   the sources and the statistical data about their citations.
         Keywords: information resource, annotation, taxonomy, citation, digital library, Socionet system,
   CitEcCyr project.

                                                             делает комментарии на полях. При работе с текстом
1 Введение                                                   на компьютере средствами текстовых редакторов все
   Работая с печатным научным текстом, читатель              эти возможности также доступны. Так, версии
часто делает выписки цитат или других важных для             широко распространенного текстового редактора MS
него фрагментов публикации, выделяет их в тексте,            Word позволяют идентифицировать фрагменты
                                                             текста шрифтовым выделением или цветом,
Труды XIX Международной конференции                          связывать с нужными фрагментами комментарии.
«Аналитика и управление данными в областях с                 Выделять фрагменты текста цветом и/или
интенсивным       использованием    данных»                  сопровождать их комментариями позволяют также
(DAMDID/ RCDL’2017), Москва, Россия, 10–13                   продукты компании Adobe такие как Adobe Reader
октября 2017 года                                            или Adobe Acrobat и некоторые другие программные




                                                       301
средства. К сожалению, средства для таких целей не          профилем) и аннотируемым целевым объектом. В
предусмотрены в стандартных веб-браузерах при               таком случае семантика аннотации представляется
просмотре страниц в формате HTML или XML, и для             семантикой этой связи.
этого нужно использовать другие программные                    Аннотация целевого объекта может иметь
инструменты.                                                различную семантику, которая представляется
                                                            явным или неявным образом. Если семантика
   Аннотации, как результаты такой работы с                 представлена явным образом, то такая аннотация
текстом, читатель может создавать для собственных           называется      семантической.       Соответственно,
целей и/или для других ученых, в том числе, в               деятельность, продуктом которой являются такие
процессе совместной работы по подготовке                    аннотации, естественно называть семантическим
текстового документа или его экспертизе.                    аннотированием.       Назначение      семантической
Деятельность       такого      рода      называется         аннотации – специфицировать смысл и некоторые
аннотированием. В общем случае аннотироваться               свойства аннотируемого ресурса.
могут не только тексты, но и информационные                    Семантика аннотации может быть выражена
ресурсы, представленные в иных средах (графика,             неформально, неструктурированными метаданными,
аудио, видео).                                              например, в виде комментария-пояснения на
   Аннотирование может осуществляться в двух                естественном языке, или формально с помощью
формах. Первая из них заключается в дополнении к            структурированных         метаданных,       связывая
свойствам аннотируемого объекта некоторых новых             аннотированный ресурс с некоторой семантической
атрибутов, характеризующих его дополнительные               структурой конкретной предметной области,
ранее не определенные свойства. Это, например,              например, с микроформатами или с онтологией
цветовое выделение фрагментов текста, тегирование           предметной      области     коллекции      текстовых
музыкальных клипов, фотографий в коллекции или              документов.
                                                               При использовании онтологии (в более простом
статей в Википедии и т. п. Вторая форма
                                                            случае    –    таксономии)     для аннотирования
аннотирования состоит в создании нового
                                                            используются ее классы и отношения. В случае
информационного объекта, ассоциируемого с                   использования онтологии для формального описания
аннотируемым (целевым) объектом (субъектом                  семантики аннотации аннотирование называют
аннотирования) и несущего некоторую относящуюся             онтологическим.       Могут      использоваться    и
к нему информацию, например, комментарий,                   комбинированные       аннотации,     состоящие    из
характеризующий эмоции читателя, связанные с                формального и неформального компонентов.
восприятием содержания целевого объекта, или                Например, аннотация может указывать класс
оценку его содержания, различного рода дополнения           таксономии,        характеризующий          свойство
к нему и т.д. Такие вновь созданные                         аннотируемого объекта, а также содержать
информационные объекты, ассоциируемые с                     текстовый комментарий на естественном языке,
целевыми объектами, называются их аннотациями.              выполняющий        аналогичную      функцию      или
В англоязычной Википедии [3] аннотацией                     характеризующий отношение автора аннотации к
называются «метаданные (например, комментарий,              целевому объекту.
пояснение,     разметка    презентации),    которые            Использование семантического аннотирования
присоединяются к тексту, изображению или другим             существенным образом обогащает восприятие
данным. Часто аннотации ссылаются на конкретную             информационных         ресурсов      пользователями,
часть исходных данных».                                     помогает          интерпретировать           контент
   В настоящее время созданы компьютерные                   аннотированных       ресурсов     пользователям    и
технологии, предназначенные для аннотирования               механизмам систем, оперирующих с ними. Оно
информационных        объектов     Веба,    которые         также обеспечивает дополнительные возможности
представлены в различных видах – тексты, аудио,             для большей полноты и точности поиска
видео и др. Однако для пользователей научных                информационных ресурсов, для их анализа и
электронных библиотек и других научных                      обработки в больших коллекциях. На основе
информационных        систем     особый     интерес         коллекций аннотированных научных публикаций
представляет аннотирование цифровых текстовых               семантические       аннотации       могут      также
документов. При этом в качестве целевых                     использоваться      для    генерации      различных
информационных объектов могут выступать не                  наукометрических показателей.
только такие документы в целом, но и их отдельные              Семантическое         аннотирование         может
фрагменты.                                                  выполняться вручную экспертами, может быть
   В ряде развитых электронных библиотек,                   полуавтоматическим            или         полностью
например, в системе Соционет [11], их                       автоматическим, выполняемым с помощью
информационные ресурсы включают как текстовые               программных систем-аннотаторов, основанных на
документы, так и различного рода связи,                     извлечении необходимой для этого информации из
отражающие различные отношения между ними. В                аннотируемого ресурса. Среди таких систем
таких случаях объектами аннотирования могут быть            известны разработки, базирующиеся на наборах
не только фрагменты текстовых документов или                данных Open Linked Data (LOD) (см., например, [7]),
документы в целом, но и связи между ними.                   на DBpedia [6] или Freebase [5].
   Аннотации сами могут представляться в виде                  В настоящей статье обсуждается подход авторов
связей между аннотатором (автором аннотации,                к семантическому аннотированию информационных
представленным в библиотеке его персональным                объектов контента научных электронных библиотек



                                                      302
– полных текстов публикаций и их фрагментов, в              ряд походов к семантическому аннотированию на
частности, ссылок в тексте на используемые                  основе таксономий аннотаций, базирующих на
источники с их контекстом. Подход реализован и              различных     их     свойствах.   Назовем       такое
продолжает развиваться при участии авторов в                аннотирование таксономическим аннотированием.
рамках отечественной научной информационной                 Помимо       описания      семантики       аннотаций
системы Соционет [11]. Семантика аннотаций                  использование такого подхода позволяет создавать
определяется средствами встроенной в систему                механизмы поиска публикаций и фрагментов
таксономии, представленной в виде набора                    публикаций,         адекватных         потребностям
контролируемых словарей. Наряду с публикациями,             пользователей, в частности, ссылок на используемые
представленными в системе, в качестве источников            источники, а также генерировать на этой основе
субъектов аннотирования используется массив                 новые       нетрадиционные       наукометрические
описаний ссылок цитирования, автоматически                  показатели.
генерируемый из полных текстов этих публикаций в               Используемая таксономия обычно зависит от
PDF-формате [4].                                            предметной           области          аннотируемых
   Существенно отметить здесь, что специфика                информационных ресурсов, целей аннотатора
таксономии, используемой в нашем случае,                    (эксперта    или    инструмента     аннотирования),
ориентирована на описание семантики аннотаций               характера ресурсов (например, фрагменты текста или
для научных публикаций.                                     ссылки на используемые в нем источники).
   Остальная часть статьи организована следующим               Рассмотрим      ряд    таксономий      аннотаций,
образом. В разделе 2 рассмотрен ряд проектов и              предлагаемых для использования в научных
публикаций, в которых предложены различные                  электронных библиотеках. Прежде всего, обратимся
варианты таксономий аннотаций, позволяющих                  к работе с привлекательным названием ″What are
описывать те или иные аспекты их семантики.                 Semantic Annotations?″ [10]. Хотя это название
Особое    внимание     уделяется   рекомендациям            обязывает     авторов     предложить      какое-либо
консорциума W3C по открытому аннотированию,                 определение понятия семантическая аннотация,
также включающим один из вариантов таксономии               такого определения в явном виде в статье нет.
аннотаций. В разделе 3 обсуждаются принятый                 Однако предложены общий взгляд на аннотирование
подход к семантическому аннотированию в системе             и некоторая полезная систематизация сферы
Соционет и его реализация. Раздел 4 посвящен                аннотирования. Предложения авторов статьи
обсуждению инструментария для автоматической                базируются на анализе различных подходов к
генерации на основе полных текстов публикаций,              аннотированию ресурсов на примере таких систем,
представленных в PDF-формате, аннотаций ссылок              как Semantic Wikis, Semantic Blogs, Tagging. При
на используемые источники. При этом аннотация               этом аннотирование рассматривается в общем виде
включает извлеченный из полного текста контекст             как присоединение определенных данных к
ссылки. Сгенерированный массив аннотаций ссылок             некоторой другой порции данных с установлением
цитирования     может     далее    обрабатываться           того или иного отношения между аннотированными
средствами системы Соционет. Заключение (раздел             и аннотирующими данными. Авторы различают три
5) подводит итоги         обсуждения проблемы               типа аннотаций – неформальные, формальные и
семантического аннотирования.                               онтологические.       Неформальная        аннотация
                                                            представляется не на формальном языке и поэтому не
2 Таксономии аннотаций                                      является машино-интерпретируемой (у авторов –
    По проблематике аннотирования вообще и                  машиночитаемой).        Напротив,        формальная
семантического аннотирования, в частности,                  аннотация представляется на формальном языке и
существует обширная литература, посвященная                 благодаря этому машино-понимаема. Однако в ней
обсуждению различных подходов к аннотированию               не используются термины онтологии. Наконец,
ресурсов, представленных в различных средах и               онтологическая аннотация (которую авторы,
относящихся к различным областям приложений,                вероятно, и понимают как семантическую) основана
созданию стандартов в этой области, разработкам             на использовании только терминов онтологии, и
инструментария для автоматизации процесса                   поэтому она имеет общепонятный смысл в
аннотирования,     подходов     к семантическому            сообществе, разделяющем эту онтологию.
аннотированию на основе различных семантических                В [10] предложена также общая модель
структур     (систем     знаний),    использованию          аннотации, в которой предполагается, что аннотация
семантического      аннотирования      в    области         состоит из четырех компонентов: субъекта
информационного поиска и извлечения информации              аннотации – аннотируемых данных, ее объекта –
из текстов, для анализа и обработки аннотированных          аннотирующих данных, предиката, определяющего
информационных ресурсов.                                    тип отношения между объектом и субъектом
                                                            аннотации, и, наконец, контекста аннотации,
    Здесь мы рассмотрим несколько представленных
                                                            характеризующего, когда и кем она создана,
в литературе, в том числе, разработанных авторами
                                                            возможно,     период     времени     или     область
данной статьи подходов к описанию семантики
                                                            пространства, где она имеет силу, и т. п. Каждый из
аннотаций на основе их классификации с помощью
                                                            этих компонентов может быть формальным или
подходящих таксономий. Иначе говоря, рассмотрим
                                                            неформальным. Для случая аннотирования ресурсов



                                                      303
Веба понятия формальной и онтологической                не семантики аннотаций, создаваемых в той или иной
аннотации определяются более конкретно с                электронной библиотеке, скорее, функциональных
использованием URI.                                     возможностей используемого в конкретной системе
   В терминах компонентов общей модели                  подхода к аннотированию и/или конкретных
аннотации в цитируемой работе предложены                инструментов семантического аннотирования, а
заимствованные авторами из ряда публикаций              также для сопоставления функциональности
критерии      (измерения)     для    классификации      различных таких подходов/инструментов.
аннотаций. Показано, какие классы аннотаций                 Значимый вклад в создание технологий и
используются в каждой из анализируемых в начале         инструментария                  интероперабельного
статьи     систем,      обладающих       средствами     аннотирования, основанного на формальном языке
аннотирования. Использованы следующие критерии          представления аннотаций, вносит деятельность
классификации аннотаций:                                Группы по открытому аннотированию (Open
   Ассоциация – способ, которым аннотация               Annotation     Group     или       кратко     OAG),
ассоциируется с аннотируемым ресурсом – является        функционирующей в последние годы в рамках
ли она встроенной в этот ресурс или внешней по          консорциума W3C. Эта группа разрабатывает
отношению к нему и ассоциируется с ним ссылкой из       спецификации стандарта онтологии (в терминологии
ресурса;                                                группы – модели данных), описываемой на языке
   Гранулярность субъекта аннотации – относится         RDF,       и     протокола       для      открытого
ли аннотация к субъекту в целом, к какому-либо его      интероперабельного     аннотирования      цифровых
разделу или другой составной его части;                 документов – текстов, графических изображений,
   Особенность представления – аннотация                аудио, таблиц и других ресурсов, а также их
относится к самому документу или к понятиям,            фрагментов.
описанным в нем либо относящимся к нему;                    В настоящее время предложенные группой
   Повторное использование терминологии –               спецификации приобрели статус рекомендации
использует       ли      аннотация     собственную      консорциума [15–17] и рассматриваются как
терминологию или термины из существующих                средство для Семантического Веба, хотя некоторые
онтологий и тем самым интероперабельна и понятна        их элементы могут иметь и более широкое
для других;                                             применение.
   Тип объекта – является ли объект аннотации               В спецификациях OAG предложена онтология
литеральным или текстовым, структурным или              аннотирования,       формально        определяющая
онтологическим;                                         различные виды аннотаций: комментарии, аннотации
   Контекст – контекст аннотации: когда, кем она        сущностей (или как теперь принято говорить, вещей),
создана, в какой сфере, какой срок ее                   заметок, примеров, опечаток и т. п.
действительности и т. п.
   Предложенная классификация аннотаций, хотя и
не полна, по нашему мнению, полезна для описания
   Таблица 1
      №/№ п.п.          Мотивация                                    Пояснение
          1.        Оценивание            Аннотация служит для оценки целевого ресурса.
          2.        Установка закладки Аннотация отмечает некоторое указанное ее автором место в
                                          тексте целевого ресурса.
          3.        Классифицирование Аннотация используется для классификации целевого ресурса.
          4.        Комментирование       Аннотация представляет собой комментарий, относящийся к
                                          целевому ресурсу.
          5.        Описание              Аннотация служит для описания свойств целевого ресурса.
          6.        Редактирование        Аннотация указывает необходимость редактирования целевого
                                          ресурса, например, с тем чтобы устранить опечатку.
          7.        Выделение             Аннотация указывает намерение ее автора выделить цветом
                    маркером              целевой ресурс или его фрагмент для того, чтобы по какой-то
                                          причине обратить на него внимание.
          8.        Идентификация         Аннотация служит для придания индивидуальности целевому
                                          ресурсу путем ассоциирования с ним какого-либо уникального
                                          идентификатора, например, URI.
          9.        Связывание            Аннотация определяет связь с некоторым ресурсом, имеющим
                                          отношение к целевому.
         10.        Модерирование         Аннотация служит для указания ценности или качества целевого
                                          ресурса, например, для модерирования дискуссий и обсуждений.
         11.        Запрашивание          Аннотация содержит вопрос о целевом ресурсе.
         12.        Ответ                 В аннотации приводится отклик на целевой ресурс.
         13.        Создание пометы       Аннотация содержит помету для целевого ресурса.




                                                   304
    В контексте данной статьи представляет интерес             бы позволили отобразить их классификацию по
используемый в онтологии контролируемый словарь                критериям      значимости      (место    в    тексте),
мотивов, которыми руководствуется создатель                    интенсивности (частотности) и по стилю,
аннотаций. Этот словарь, по существу, может                    предложенным в рассматриваемой статье. Чтобы их
рассматриваться       как     таксономия      мотивов          специфицировать, достаточно ввести в таксономию
аннотирования, позволяющая явным образом                       два контролируемых словаря:
специфицировать их семантику. Классы словаря                       • Словарь мер (или интенсивностей): высокая,
мотивов аннотирования приведены в таблице 1.                   средняя, низкая. Его следует использовать для
    Частным случаем связей между текстовыми                    характеристики значимости ссылки (в зависимости
документами в электронной библиотеке являются                  от места в тексте) и оценки частотности.
связи цитирования, представляемые в виде ссылок на                 • Словарь стилей (характер контекста): прямая
используемые или упоминаемые в данной                          цитата, неконкретное упоминание источника,
публикации источники вместе с контекстами этих                 упоминание с пояснением, ссылка без контекста (для
ссылок. Такие ссылки, как и другие связи, могут                случая ссылки в списке литературы, не упоминаемой
стать субъектами аннотирования наряду с                        в тексте).
текстовыми документами или их фрагментами. С                       На основе приведенной классификации ссылок
позиций аннотирования целесообразно различать                  цитирования с помощью указанных контролируемых
разные виды ссылок на использованные источники:                словарей       могут       генерироваться       новые
ссылки с контекстом – цитатой из цитируемого                   наукометрические         показатели,        например,
источника, ссылки с иным контекстом и, наконец,                следующие: количество ссылок высокой (а также
ссылки на источники, указанные в списке
                                                               средней/низкой) значимости на данную работу,
литературы, но с отсутствующими на них ссылками
                                                               количество ссылок с высокой (а также со
в тексте.
    Для семантического аннотирования ссылок                    средней/низкой      интенсивностью),       количество
цитирования       также     могут      использоваться          ссылок с прямым цитированием (а также с
таксономии ссылок. В ряде публикаций содержатся                интерпретацией в контексте/с неконкретным
предложения подходящих для этого таксономий.                   контекстом/без контекста).
Например, в работе [8], посвященной анализу                        Необходимо упомянуть также онтологию ссылок
категоризации влияния цитируемых источников на                 цитирования C4O (the Citation Counting and Context
цитирующие           публикации,          предлагается         Characterization Ontology) [12], представляющую
классификация ссылок цитирования в трех                        собой составную часть модульного комплекса
измерениях: функция (Function), полярность                     онтологий SPAR [13], некоторые элементы которых
(Polarity) и влияние (Impact). Для каждого из этих             ранее уже были использованы в таксономии системы
измерений предложен свой набор классов.                        Соционет. Онтология С4О включает важные для
Измерению       функция     соответствуют      классы,         нашей      работы     классы     отношений     между
указывающие, что цитируемый источник полезен
                                                               источниками из списков литературы и ссылками на
(Useful), отражает противоположную точку зрения
                                                               них в текстах публикаций. Эти вопросы обсуждаются
(Contrast), обладает недостатками (Weakness), вносит
поправки (Correct), уклоняется (Hedges), выражает              ниже в разд. 4.
благодарность      (Acknowledge),      подтверждение               Таксономический       подход     для     описания
(Corroboration),    полемизирует (Debate). Для                 семантики аннотаций используется и в системе
измерения полярности предлагаются следующие                    Соционет. В этой системе поддерживается
классы: позитивная (Positive), негативная (Negative) и         встроенная таксономия [1], используемая для
нейтральная (Neutral). Наконец, для измерения                  классификации и тем самым для описания семантики
влияния предложены такие классы: негативное                    связей между информационными объектами
(Negative),    незначительное       (Perfunctory)    и         контента системы. Некоторые контролируемые
существенное (Significant).                                    словари,      составляющие       эту     таксономию,
    В работе [14] также предложена классификация               используются и для семантического аннотирования.
ссылок цитирования. Используются иные критерии                 В частности, для этой цели можно использовать
по сравнению с рассмотренными выше. Ссылки                     оценочный контролируемый словарь. Этот словарь
классифицируются по месту в тексте и
                                                               может использоваться не только для аннотирования
ранжируются таким образом, что выше их ранг в
                                                               полного текста публикации и ее фрагментов, но
разделе с результатами, ниже в обзоре литературы,
по количеству вхождений, а также по стилю. В                   также и ссылок на использованные источники в
качестве места в тексте рассматриваются его                    тексте публикации, а также в послестатейном списке
разделы: абстракт, введение, обзор литературы,                 литературы. Во всех указанных случаях, кроме
методология, результаты/обсуждение, заключение.                последнего, аннотирование может осуществлять
Возможные       варианты      стиля:     неконкретное          любой авторизованный пользователь системы, в
упоминание      (not    specially),   конкретное     и         последнем случае – только автор данной публикации.
интерпретирующее упоминание, прямая цитата.                    Оценочный контролируемый словарь включает, в
    В используемых в настоящее время описаниях                 частности, следующие классы: наилучшая, наиболее
ссылок цитирования отсутствуют атрибуты, которые               релевантная работа по обсуждаемой в ней теме;



                                                         305
новаторская работа (результат); интересная работа           некоторых контролируемых словарей таксономии
(результат); оценивается позитивно; оценивается             используются для описания семантики аннотаций.
негативно; основывается на заблуждении; возможно,           Это естественный подход, поскольку аннотации
является плагиатом.                                         представляются в системе в виде семантических
   Встроенная в систему Соционет таксономия                 связей.
может легко расширяться путем дополнения новых                 С точки зрения общей модели аннотаций,
контролируемых словарей, позволяющих описывать              предложенной       в   [10],   модель    аннотаций,
новые аспекты семантики аннотаций. Обсуждается              используемую в Соционет, можно назвать
дополнение таксономии рядом новых словарей. Для             комбинированной – объект аннотации включает
аннотирования        фрагментов     авторефератов           формальный       и    неформальный     компоненты.
диссертаций и полных текстов диссертаций полезен            Формальный компонент – это структурированные
словарь, позволяющий идентифицировать в текстах             метаданные, указывающие один из классов
этих документов важные для их оценки оппонентами            подходящего контролируемого словаря встроенной в
фрагменты, содержащие аргументацию соответствия             систему таксономии, определяющий семантику
диссертации требованиям ВАК. Словарь включает               аннотации. Неформальный компонент, называемый в
классы: актуальность, новизна, достоверность,               описании аннотации комментарием, – это
практическая ценность, теоретическая ценность.              неструктурированные метаданные, представленные
Полезен      также     контролируемый     словарь,          в виде текста на естественном языке.
позволяющий         специфицировать        статус              Субъектами аннотирования в Соционет могут
аннотируемых       фрагментов    полного    текста          быть полные тексты представленных в системе
публикации: аксиома, доказанное утверждение                 публикаций, фрагменты их абстрактов, а также
(теорема), цитата из используемого источника,               фрагменты      полных     текстов.   Кроме     того,
фактография, результат исследования, постановка             аннотироваться могут также и связи цитирования
задачи. Может быть также расширен оценочный                 одних публикаций в других. Связи этого вида – это
словарь дополнительным включением в него                    ссылки на источники из послестатейного списка
следующих дополнительных классов: актуальная                литературы, а также сами библиографические
тема исследования, актуальный результат,                    описания использованных источников в этих
оригинальный результат, уже известный в науке               списках.
результат,      новый      научный     результат,              Наряду со связями цитирования, выделяемыми
фундаментальный        результат,    обоснованное           пользователем-аннотатором в «ручном режиме»,
утверждение, необоснованное утверждение, вода,              субъекты аннотирования такого рода могут
раскавыченная цитата.                                       порождаться в автоматическом режиме средствами
   Рассмотренные таксономии показывают, что их              анализа       полных       текстов     публикаций,
конкретные варианты следует использовать в                  представленных в контенте системы в pdf-формате.
соответствии с характером аннотируемых ресурсов и           Эта техника и ее возможности обсуждаются в
целями аннотатора.                                          следующем разделе.
                                                               Соционет является мультипользовательской
3 Семантическое аннотирование                               системой, и поэтому для одного субъекта
в Соционет                                                  аннотирования может быть создано несколько
                                                            аннотаций одним или разными пользователями
   В     системе      Соционет      обеспечиваются
                                                            системы. Аннотации представляются в Соционет в
возможности        открытого         семантического
                                                            виде классифицированных связей «персона –
аннотирования.    Важно отметить,         что они
                                                            субъект», и их описания включают идентификацию
реализуются с использованием тех же средств,
                                                            персоны-автора       аннотации,     идентификацию
которые уже имелись в системе для создания,
                                                            субъекта аннотации, класс выбранного аннотатором
поддержки и использования семантических связей
                                                            контролируемого словаря таксономии, а также
между информационными объектами ее контента.
                                                            текстовый комментарий.
Использовать      возможности        семантического
                                                               Функциональные         возможности      системы
аннотирования может зарегистрированный и
                                                            Соционет позволяют использовать ее как платформу
авторизовавшийся       пользователь,      поскольку
                                                            для виртуальной коммуникационной среды научного
предусматривается фиксация авторства созданных
                                                            сообщества пользователей системы [9]. Эти
аннотаций.
                                                            возможности основаны на реакциях авторов
   В Соционет поддерживаются информационные
                                                            публикаций, представленных в системе, на
объекты – научные публикации, научные отчеты и
                                                            появлении семантических связей этих публикаций с
научные     произведения      других     видов,   и
                                                            публикациями других авторов либо оценочных
семантические связи между ними [2]. Семантика
                                                            связей, касающихся этих публикаций. Такая реакция
связей определяется с помощью встроенной в
                                                            состоит в создании новой связи профиля ее автора со
систему таксономии, состоящей из нескольких
                                                            связью, на появление которой он реагирует.
контролируемых      словарей.    Эта     таксономия
                                                            Поскольку аннотации представляются в виде
подробно рассмотрена в работе [1] и кратко
                                                            семантических связей, указанные возможности
обсуждена вместе с некоторыми возможными ее
                                                            могут быть применены и к ним. Поэтому, хотя такая
расширениями в предыдущем разделе. Классы
                                                            возможность пока еще не полностью реализована в



                                                      306
Соционет, создание аннотаций потенциально может             основе этих данных предполагается разработка
быть вовлечено в возникающие в такой среде                  новых наукометрических показателей, включая
процессы коммуникаций, отображающие дискуссии               некоторые дополнительные данные о научной
относительно создаваемых аннотаций.                         результативности.         Предполагается      учитывать
   Формальные компоненты объектов аннотаций –               количество ссылок в тексте публикации на
структурированные        метаданные      –    могут         источники из списка литературы, отделять
использоваться в критериях поиска аннотаций,                источники без ссылок на них в тексте публикации.
интересующих пользователя классов, а также для              Кроме того, имеется в виду обрабатывать контекст
генерации      ряда     новых     наукометрических          вокруг ссылок для классификации содержания
показателей наряду с другими, формируемыми                  цитирований источников, а также ранжировать
сервисами системы. Для возможности генерации                ссылки на источники по месту их в структуре статьи
новых наукометрических показателей в описания               (например, ранг выше в разделе с результатами, ранг
создаваемых связей должны быть перенесены                   ниже в разделе обзор литературы) и др.
классификационные атрибуты цитирования. Должны                  Источником        публикаций      для     обработки
быть также созданы в Соционет соответствующие               средствами проекта является система Соционет.
сервисы, которые будут генерировать и показывать            Первые       результаты       извлечения    данных       о
полученные показатели на странице метаданных                цитированиях, полученные на основе публикаций
(описателя) публикации, как это реализовано сегодня         архива                                         НЭИКОН
для других показателей в системе. Этими новыми              (https://socionet.ru/collection.xml?h=spz:neicon),
показателями могут быть, например, следующие:               доступны для ознакомления и тестирования по
количество ссылок высокой (а также средней/низкой)          адресу                                          http://no-
значимости на данную работу, количество ссылок с            xml.socionet.ru/~cyrcitec/citmap/spz/neicon/.
высокой      (а     также     со     средней/низкой             Средствами обсуждаемого проекта создаются
интенсивностью), количество ссылок с прямым                 новые данные о цитированиях. Рассмотрим их
цитированием (а также с интерпретацией в                    особенности, а также их визуализацию в Соционет на
контексте/с      неконкретным        контекстом/без         примере       одной       из    научных     публикаций
контекста).                                                 гуманитарного профиля, доступной в виде pdf-
                                                            документа                      по                 адресу
4 Генерация описаний ссылок                                 http://nevolin.socionet.ru/files/2014_Nevolin_ rfbr.pdf.
цитирования и их визуализация в                                 На Рис. 1 приведен фрагмент этой публикации, в
Соционет                                                    котором на экране компьютера ссылки на источники
                                                            из списка литературы выделяются желтым цветом. К
   Интересные      перспективы    для     развития
семантического     аннотирования    в    системах,          этим выделенным фрагментам текста публикации
подобных Соционет, открывают новые подходы и                программным образом созданы аннотации. Кликая
технологии, создаваемые для поддержки анализа               на выделенные цветом ссылки, пользователь
содержания цитирований. Общая концепция анализа             получает различную дополнительную информацию.
содержания цитирований представлена в [14].                     Чтобы это стало возможным, создаваемые с
Описание создаваемых технологий, применение                 помощью программного обеспечения проекта
которых обсуждается в данной статье ниже,                   CitEcCyr данные о цитированиях преобразуются в
доступно в [4]. Основная новизна этих подходов              соответствии с моделью данных веб аннотаций [15].
связана с извлечением из научных публикаций более           Затем эти данные интегрируются в среду системы
широкого по сравнению с традиционным подходом               Соционет в виде семантических связей, что является
набора данных, связанных со ссылками цитирования,           обычным для представления аннотаций в системе.
включая окружающий их контекст. Кроме того,                 Рассмотрим, какова общая схема получения этих
создаются новые возможности визуализации этих               данных о цитированиях и как они в данном случае
данных, которые позволяют накладывать результаты            используются.
анализа содержания цитирований поверх текста pdf-               На первом этапе выполняется конвертация
документов в виде программным образом                       бинарных pdf-документов в текстовый вид, который
генерируемых аннотаций.                                     допускает анализ и извлечение необходимых данных
   Проект CitEcCyr (https://github.com/citeccyr),           о цитированиях. В проекте CitEcCyr разработана
реализуемый с участием одного из авторов данной             программа конвертации PDF-STREAM (https://
                                                            github.com/citeccyr/pdf-stream-cli),             которая
статьи в Российской академии народного хозяйства и
                                                            преобразует содержание pdf-документов в формат
государственной службы при Президенте РФ                    JSON. Пример данных, получаемых для указанной
(РАНХиГС) с 2016 г., предусматривает разработку             выше публикации, доступен по адресу http://no-
средств извлечения из русскоязычных научных                 xml.socionet.ru/citmap/convertedPDF/2014_Nevolin_
публикаций, доступных в виде pdf-документов,                rfbr.json.
расширенного набора сведений о цитированиях. На




                                                      307
Рисунок 1 Пример фрагмента публикации с выделенными аннотированными ссылками на цитируемые
источники, одновременно служащими указателями на аннотации
   На следующем этапе работает программа, также             версии ниже приведен пример XML-записи,
созданная в проекте CitEcCyr, которая создает XML-          содержащей извлеченные данные для двух ссылок (в
записи, содержащие, в том числе, сведения о ссылках         тегах ) на один и тот же источник, который
на источники из списка литературы публикации. Для           имеет в списке литературы порядковый номер 7.
упомянутой выше публикации на основе ее JSON-

       7
       [7]
       6125
       6128
       сом –имеются данные, что реклама и продажи в баре составляют, соответственно,
20-25% и 20-30% выручки кинотеатров
       .Итак, характеристики аудитории представляют коммерческую ценность для отрасли
и научный интерес для исследователей, н



       7
       [7]
       10119
       10122
       обследования Невафильм[13] и Фонда общественное мнение[9].
Также доступны результаты наблюдений кинотеатральной сети
       . Согласно данным Невафильм (см. Таблицу 2), профили аудиторий–посетителей
кинотеатров и интернет-пользователей, -з


  Эти данные включают:                                      символов слева и справа от ссылки, содержащейся в
  • номер источника в списке литературы, тег                теге .
, в примерах выше он содержит номер 7;              В частности, второй блок данных в теге
  • вид ссылки на соответствующий источник, тег              из приведенной выше XML-записи
, в примерах это - [7];                              отображен на Рис. 1 как аннотация к ссылке на
   • текстовые координаты ссылки в тегах             источник номер 7.
и , которые содержат порядковые номера от                 Кроме этого, из JSON-версии pdf-документов
начала текста документа первого и последнего                извлекаются данные о содержании списка
символа строчки, содержащейся в теге ;               литературы публикаций, которые иллюстрируются
   • контекст вокруг ссылки в тегах  и              следующей XML-записью:
, который в данном случае включает по 200
   
          num="7"
          start="20952"
          end="21140"
          author="Гладких Михайлина"
          title="Кронверк Синема сколько стоит билет в кино"
          year="2011"
          handle="spz:cyberleninka:33099:16516633">
          Гладких И.В., Михайлина А.П. «Кронверк Синема»: сколько стоит билет в кино?
   (учебный кейс) / Вестник Санкт Петербургского университета. Серия 8: Менеджмент. 2011. No3.
   с.145 159.
   

   Эти данные содержат:                                     последнего символа строчки, содержащейся в теге
   • атрибут num – номер источника в списке                 ;
литературы, в приведенном выше примере он - номер              • атрибуты author, title и year, выделенные из
7;                                                          данных тега  и используемые для поиска
   • атрибуты start и end – текстовые координаты            в Соционет публикации, которая указана в данных
данных источника, которые содержат порядковые               этого источника;
номера от начала текста документа первого и




                                                      308
   • атрибут handle – содержит уникальный код                   системах, подобных Соционет. Поскольку данные о
публикации, соответствующей данным этого                        ссылках на цитируемые источники включают их
источника, если она есть в Соционет;                            текстовые координаты, то возможно программное
                                                                создание аннотаций, которые при просмотре
   • тег  – содержит «сырые» данные
                                                                соответствующих публикаций в Соционет выглядят
источника, которые извлечены из JSON-версии
                                                                визуально привязанными к тексту ссылок на
публикации.                                                     источники. На Рис. 2 приведен пример визуализации
   Полный       набор     данных      о   содержании            данных о цитированиях в виде аннотаций ссылок на
цитирований для научной статьи, к которому                      цитируемые источники, выделяемых цветом на
относятся приведенные выше примеры, доступен по                 экране компьютера. В частности, для ссылки на 7-й
адресу                                       http://no-         источник раскрыта ее аннотация (справа), которая в
xml.socionet.ru/citmap/outputs/repec:rus:                       текущей     версии      содержит     данные      о
pgfhxz:wp9.xml.                                                 соответствующем источнике и, если есть, ссылку на
   Описанные выше данные о содержании                           него в Соционет, а также статистику о количестве
цитирований допускают различные варианты их                     цитирований данного источника в этой публикации.
использования      в    научных      информационных




Рисунок 2 Пример программно-сгенерированной аннотации для ссылки на источник




 Рисунок 3 Пример программно сгенерированной аннотации для библиографического описания источника
   В будущем планируется также приводить                        добавлять к аннотациям новые семантические
статистику обо всех цитированиях данного                        атрибуты.
источника в контенте Соционет.
                                                                5 Заключение
   Похожим образом могут быть построены
аннотации поверх данных о библиографических                        Современные       научные      информационные
описаниях источников в списке литературы                        системы, к числу которых относится и система
публикации. На Рис. 3 приведен пример аннотации в               Соционет,      начинают       предлагать     своим
списке литературы, которая «наложена» поверх                    пользователям     различные     возможности    для
публикации с номером 7. Справа в текстовом блоке                семантического        аннотирования       контента.
видно содержание этой аннотации.                                Сравнительно новыми возможностями является
   Аннотация на Рис. 3 содержит сведения об общем               доступное в Соционет «ручное» аннотирование
количестве упоминаний (цитирований) данного                     полных текстов научных статей, представленных в
источника в тексте публикации, а также контекст (по             виде pdf-документов, и их фрагментов. В дополнение
200 символов справа и слева) для каждого такого                 к этому в Соционет разрабатываются средства
случая.                                                         программной генерации аннотаций для ссылок
   Рассмотренные      технологии    аннотирования               цитирования, которые являются важным элементом
позволяют в нужных местах текста публикаций                     научных публикаций и академической культуры.
компактно предоставлять пользователям Соционет                  Данный подход позволяет через аннотации,
различную дополнительную информацию. Эта                        привязанные к определенным фрагментам pdf-
информация, как это представлено выше, может                    документов, показать читателю разнообразную
содержать обобщенные данные о содержании
                                                                наукометрическую информацию, включая сводные
цитирований. Уже имеющиеся в Соционет сервисы
для     авторов    публикаций     для    «ручного»              сведения о том, сколько раз цитируются источники
семантического «раскрашивания» связей, в данном                 из списка литературы в данной публикации, а также
случае, позволяют им как уточнять программно-                   и во всех других публикациях, имеющихся в системе
сгенерированную семантику аннотаций, так и                      Соционет.




                                                          309
Благодарности                                                          Influence       Classification.     doi:    10.1017/
                                                                       S1351324916000346 (2017)
   Реализация методов аннотирования в системе                      [9] Kogalovsky, M.R., Parinov, S.I.: Scholarly
Соционет выполнена в рамках работ по гранту                            Сommunications in a Semantically Enrichable
РФФИ, проект 15-07-01294. Разработка подхода для                       Research Information System with Embedded
извлечения данных о содержании цитирований, в том                      Taxonomy of Scientific Relationships. In: Klinov,
числе,     для     целей     суперкомпьютерного
                                                                       P. and Mouromtsev, D. (eds.): Knowledge
моделирования взаимодействий между агентами и со
                                                                       Engineering and Semantic Web. 6th Int. Conf.
средой научного сообщества, были получены С.И.
                                                                       KESW 2015. The Communications in Computer
Париновым в рамках работ по гранту РНФ, проект
                                                                       and Information Science series, 518. Springer,
14-18-01968.
                                                                       pp. 87-101 (2015)
Литература                                                        [10] Oren, E., Hinnerk Moller, K., Scerri, S.,
                                                                       Handschuh, S., Sintek, M. What are Semantic
[1] Когаловский, М.Р., Паринов, С.И.: Таксономия
                                                                       Annotations?       (2006)       http://www.siegfried-
      семантических связей информационных объек-                       handschuh.net/ pub/2006/whatissemannot2006.pdf
      тов контента научной электронной библиотеки.
                                                                  [11] Parinov, S., Lyapunov, V., Puzyrev, R.,
      НТИ. Серия 2. Информационные процессы и
      системы, 9, сс. 15-23 (2015)                                     Kogalovsky, M.: Semantically Enrichable Research
                                                                       Information System SocioNet. In: Klinov, P. and
[2]   Паринов, С.И., Когаловский, М.Р.: Технология                     Mouromtsev, D. (eds.): Knowledge Engineering
      семантического структурирования контента                         and Semantic Web. 6th Int. Conf. KESW 2015. The
      научных электронных библиотек. RCDL 2011,                        Communications in Computer and Information
      pp. 197-206 (2011)                                               Science series, 518. Springer, pp. 147-157 (2015)
[3]   Annotation. Wikipedia. https://en.wikipedia.org/            [12] Shotton, D.: C40, the Citation Counting and
      wiki/Annotation                                                  Context Characterization Ontology. Version 1.1.1,
[4]   Barrueco, J.M., Krichel, T., Parinov, S.,                        11/05/2013. http://purl.org/spar/c4o
      Lypunov,V., Medvedeva, O., Sergeeva, V.:                    [13] SPAR Ontologies. Describing Publishing Domain.
      Towards Open Data for Citation Content Analysis.                 http://purl.org/spar/
      Submitted to DAMDID/RCDL-2017
                                                                  [14] Zhang, G., Ding, Y., Milojević, S.: Citation Content
[5]   Bennet, P.N., Gabrilovich, E., Kamps, J.,                        Analysis (CCA): A Framework for Syntactic and
      Karlgren, J.: Sixth Workshop on Exploiting                       Semantic Analysis of Citation Content.
      Semantic Annotations in Information Retrieval                    arXiv:1211.6321 (2012)
      (ESAIR’13). CICM’13, pp. 2543-2544 (2013)
                                                                  [15] Web Annotation Data Model. W3C Recommenda-
[6]   DBpedia. Википедия. https://ru.wikipedia.org/                    tion 23 February 2017. https://www.w3.org/TR/
      wiki/DBpedia                                                     2017/REC-annotation-model-20170223/
[7]   Gagnon, M., Zouaq, A., Jean-Louis, L.: Can we use           [16] Web Annotation Protocol. W3C Recommendation
      Linked Data Semantic Annotators for the                          23 February 2017. http://www.w3.org/TR
      Extraction of Domain-Relevant Expression. WWW                    /annotation-protocol/
      2013 Companion, pp. 1249-1246 (2013)
                                                                  [17] Web Annotation Vocabulary. W3C Recommen-
[8]   Hernández-Alvarez, M., Gómez Soriano, J.M.,                      dation 23 February 2017. http://www.w3.org/TR/
      Martinez-Barco, P.: Citation Function, Polarity and              annotation-vocab




                                                            310