Технология семантического структурирования контента научных электронных библиотек♣ © С.И. Паринов1, М.Р. Когаловский2 1 Центральный экономико-математический институт РАН, 2Институт проблем рынка РАН sparinov@gmail.com, kogalov@cemi.rssi.ru Аннотация С другой стороны, уже много лет ведутся иссле- дования в области анализа семантики связей между Семантическое структурирование контента научными материалами. Системным обобщением научных электронных библиотек и поддер- этих результатов стало появление комплекса онто- жка в явном виде воплощающих его связей логий SPAR, обеспечивающего достаточно деталь- между информационными объектами от- ную категоризацию отношений, которые могут воз- крывает новые возможности для научного никать между научными материалами в электрон- творчества и существенно повышает ин- ном виде, и воплощающих их связей. Важным ре- формативность библиотек. В сочетании с зультатом также является появление семантического категоризацией поддерживаемых семанти- раздела в модели научных данных CERIF [4]. Обзор ческих связей это порождает многослойную основных результатов этих исследований и разрабо- семантическую сетевую структуру, на осно- ток приведен в разделе 2. ве которой становятся возможными качест- Соединение этих двух достижений: 1) создание венно новые наукометрические измерения и средств и сервисов научных ИП, представляющих исследования структурных свойств корпуса интегральный контент ЭБ; и 2) разработка класси- научных знаний, представленного в элек- фикаторов отношений и семантических словарей, тронных библиотеках. В докладе обсужда- позволяющих выражать существование определен- ется общий подход к решению этой пробле- ных связей и отношений между объектами научного мы, предлагается технология его реализации ИП; порождает важное новое качество. Становится в среде информационного пространства возможным разработка технологий семантического Соционет. структурирования контента ЭБ. Рассмотрению этих новых возможностей посвящен раздел 3. 1. Введение В этом разделе рассмотрены основные виды на- учной деятельности, в процессе которых ученые Ситуация, которая сложилась в настоящее время создают отношения между научными материалами, в области развития технологий электронных биб- и которые, как следствие, могут быть зафиксирова- лиотек (ЭБ), хорошо иллюстрирует, на наш взгляд, ны созданием семантических связей между объек- действие закона перехода количества в качество. тами ИП. Описаны разработанные авторами статьи Контент большого количества уже созданных раз- категории и словари свойств семантических связей. ными организациями научных ЭБ постепенно ин- Рассмотрены технические, организационные, а так- тегрируется на уровне метаданных. Один из приме- же этические особенности создания семантических ров такого объединения метаданных из ЭБ предос- связей между объектами ИП. тавляет система Соционет. Подобная интеграция Отмечается, что представление связей различных приводит к появлению научных информационных семантических категорий образует над множеством пространств (ИП), основанных на федеративных объектов научного ИП многослойную структуру. В принципах. Новым качеством, возникающим в ре- частности, могут поддерживаться слои, отобра- зультате этих изменений, является предоставление жающие структуру продуцирования научных ре- пользователям единых интерфейсов доступа к ин- зультатов и другие содержательные отношения ме- тегрированным разнородным научным данным на жду научными публикациями, связи оценки публи- основе стандартизации метаданных, а также унифи- каций научными сотрудниками, связи между ком- кация способов доступа к научной информации в понентами научных произведений, связи научно- ИП, способов ее извлечения из ИП для обработки и организационного характера (научное учреждение – использования [14]. сотрудники-авторы публикаций, авторы – публика- ции) и др. Раздел 4 посвящен техническим деталям реали- Труды 13й Всероссийской научной конференции зации технологий семантического структурирования «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» - RCDL’2011, в среде системы Соционет, которая является уни- Воронеж, Россия, 2011. 94 кальным полигоном для отработки подобных ново- между объектами научных информационных систем введений. (CRIS). В заключении кратко перечислены основные Уже имеющиеся результаты по выявлению и преимущества, которые получает научное сообще- классификации отношений, которые могут сущест- ство от реализации предлагаемых решений. вовать между научными произведениями, в том числе отражающими результаты исследований, соз- 2. Семантические связи и электронные дают хорошую основу для разработки технологий научные публикации семантического структурирования контента науч- ных электронных библиотек. Анализ электронных научных публикаций в со- ставе крупных электронных библиотек в части вы- 3. Семантические связи между явления и классификации отношений, которые мо- объектами научных электронных гут существовать между разделами научной статьи или между исходной статьей и цитируемыми мате- библиотек и информационных риалами ведется уже достаточно давно. пространств Например, на основе программного обеспечения компании Ксерокс, ведутся работы по распознава- 3.1 Научные информационные пространства нию и классификации используемых в научных Становится все более распространенным явлени- статьях языковых конструкций (для английского ем интеграция контента ЭБ отдельных организаций языка и отдельных научных дисциплин). Эти иссле- в виде объединения метаданных ресурсов, храня- дования позволили эмпирическим путем выявить щихся в ЭБ, и созданием на этой основе единого некоторые устойчивые виды семантических отно- каталога. Один из популярных подходов к решению шений, создаваемые авторами как между разделами этой задачи основан на технологии Инициативы внутри научной статьи, так и с цитируемыми в ста- открытых архивов (www.openarchives.org). Для по- тье материалами [1, 2]. Эмпирическая классифика- добных интегрированных информационных систем ция поводов цитирования (семантики связей цити- в международной литературе принято использовать рования) в научных статьях проведена также в [9]. В термин Information and Data Space (DIS). В россий- этой работе выделен ряд их типичных значений: ских публикациях близкий термин информационное "слабость цитируемого подхода", "автор использует пространство (ИП) используется с начала 2000-х цитируемую работу как основу или начальную точ- годов (см. например [13]). ку" и др. Другой подход к развитию семантических Интеграция метаданных отдельных ЭБ и появле- связей реализуется в исследованиях модульности ние научных ИП является закономерным явлением, научных документов [3]. т.к. это обеспечивает множество полезных возмож- Известна также рекомендация консорциума W3, ностей как разработчикам, так и пользователям - получившая название SKOS (Simple Knowledge Or- членам научного сообщества. Главным положитель- ganization System) [8], в которой предлагается мо- ным моментом формирования ИП на основе контен- дель связывания научных данных, адаптированная та отдельных ЭБ является предоставление пользова- для компьютерной обработки. В частности, SKOS телям единых интерфейсов доступа к интегрирован- включает контролируемые структурные словари ным разнородным научным информационным ре- семантических значений для связывания научных сурсам на основе стандартизации метаданных, а данных. также унификация способов доступа к научной ин- В различных научных дисциплинах (в первую формации в ИП и способов ее извлечения для обра- очередь биология и медицина) были предприняты ботки и использования [14]. попытки разработать более подробную категориза- По определению, научные ИП могут включать цию отношений между научными текстами. Наибо- все разнообразие научных информационных ресур- лее известными результатами этих попыток являют- сов, которые создаются научным сообществом в ся онтология SWAN (Semantic Web Applications in электронном виде. Например, ИП Соционет (socio- Neuromedicine) [10], а также CiTO (Citation Typing net.ru) включает 16 типов информационных объек- Ontology) [6], DoCo (Document Components тов, которые можно разбить на две большие группы: Ontology) [7] и др. В дальнейшем все эти частные 1) объекты, содержание которых представляет ре- разработки были систематизированы, дополнены и зультаты исследований и научные выходы (типы объединены в единый комплекс под названием paper, article, book, chapter, citation, artifact); и 2) все SPAR (Semantic Publishing and Referencing Ontolo- другие объекты, не являющиеся научными выхода- gies) [5], включающий взаимосвязанную совокуп- ми в прямом смысле, к числу которых относятся ность онтологий различного назначения. персональные профили ученых (тип person), профи- Независимо от этого, в рамках разработки кон- ли научных организаций (тип institution), научные цептуальной модели научных данных CERIF (Com- новости (тип news), научные комментарии (тип mon European Research Information Format) [4], ве- comment) и т.д. дутся работы по развитию стандартизованной фор- Каждый информационный объект ИП имеет мальной семантики для отображения отношений уникальный идентификатор. На основе этих иден- тификаторов сервисы ИП позволяют не только про- 95 сматривать информационные объекты и описываю- венным НП, содержащим его научный результат, и щие их метаданные, но и обеспечивают различные уже существующими НП, которые были им творче- способы использования и обработки объектов, в том ски преобразованы и/или получили логическое раз- числе для формирования разнообразных связей ме- витие вследствие его усилий. Использованные авто- жду объектами ИП. ром результаты исследований, следовательно, явля- ются научным основанием, предоставляют данные 3.2 Научная деятельность и создание семантиче- или метод получения нового научного знания. В ских связей между объектами подобных случаях корректность полученного ре- Научное творчество и создание научных произ- зультата напрямую зависит от корректности исполь- ведений (НП) сопровождается рядом типичных про- зованных НП, от правильности их понимания и цессов, которые, в частности, приводят к установле- применения автором. нию учеными определенных смысловых связей ме- В науке бывают ситуации, когда по прошествии жду новым НП и уже существующим корпусом на- некоторого времени результаты определенных ис- учных знаний. В традиционной научной практике следований опровергаются. В таких случаях полез- это делается, например, с помощь научного цитиро- ным является наличие в научном ИП сведений о вания. В таких случаях связь цитирования определя- связях НП, содержащего некорректный результат, с ется внутри научного текста в соответствии с обще- другими, в которых он определен как основание для принятыми правилами. их получения, или признается, подтверждается дру- Как только НП предстают в виде объектов ИП, у гими авторами. Это позволяет автоматически фор- разработчиков контента ИП появляются новые воз- мировать уведомления авторам таких связанных можности как по форме создания связей, так и по их НП. Подобные сигналы помогают научному сооб- семантическому содержанию. В отличие от тради- ществу оперативно пересмотреть и сделать ревизию ционной формы связей (например, цитат, опреде- электронного корпуса научных результатов. ленных внутри научного текста) сервисы ИП позво- Таким образом, данный процесс научного твор- ляют создавать связи, которые являются внешними чества порождает связи, которые полезны для со- по отношению научным текстам. Данные о связях в держательного пересмотра научных знаний, в слу- этом случае могут быть включены в метаданные чае признания недостоверными (или сомнительны- соответствующего объекта ИП или могут существо- ми) определенных результатов исследований. вать как самостоятельные объекты ИП. Кроме этого, 2. Процесс присоединения НП, представляющего электронная форма фиксации связи между двумя новые научные результаты, к существующему кор- объектами ИП допускает включение в ее параметры пусу научных знаний. При этом происходит установ- различного семантического содержания. Все это ление связей НП с другими существующими НП, существенно обогащает информативность связей, которые хотя и не являются основанием для полу- упрощает их распознавание и обработку. чения результатов данного НП, но имеют с ним не- Новый подход к формированию связей между которые иные отношения. объектами ИП как внешних сущностей не исключа- В данном случае не только автор может устанав- ет их традиционного использования внутри доку- ливать связи между своим НП и уже существующим мента в соответствии с правилами оформления на- в ИП корпусом научных знаний (например, с уже учных цитат. Специально созданные сервисы ИП существующими родственными и близкими НП), но позволяют авторам электронных документов вклю- и члены научного сообщества в своих НП могут чать в текст правильно оформленные научные цита- фиксировать свое отношение к НП данного автора. ты, которые выполняют роль гиперссылок (или ука- Подобные связи могут выражать признание, под- зателей) на связи, описанные как самостоятельные держку и т.п., а также негативное отношение к оп- информационные объекты вне данного документа. ределенным результатам НП (сомнение, несогласие, В электронной среде научного ИП понятие связи обвинение в плагиате и др.). между объектами ИП может быть унифицировано. С учетом того, что связи научного вывода уже При этом техническая реализация связей может выделены в самостоятельную группу (см. п.1 выше), быть осуществлена разными способами: внутри тек- мы предлагаем среди связей, устанавливаемых в ста документа (как традиционная цитата) или как процессе присоединения нового НП к корпусу на- внешний объект, ассоциированный со связываемы- учных знаний, зафиксировать следующие основные ми документами (или их определенными частями) с группы (подробнее об этих группах связей см. в помощью параметров соответствующей связи. следующих разделах статьи): Необходимо теперь уточнить, что приводит к а) связи использования, не требующие пересмот- появлению связей между объектами научного ИП. ра НП, в отличие от ситуаций, описанных в п. 1 вы- На наш взгляд, основными процессами научного ше (например, использование как источника инфор- творчества, при которых между объектами ИП фор- мации или как авторитетного мнения и т.п.); мируются связи различных категорий, являются б) иерархические и ассоциативные связи, опре- следующие: деляющие, что данное НП содержит частный случай 1. Процесс логического развития и преобразова- результата, изложенного в другом НП, или, наобо- ния уже существующего научного знания (научный рот, представляет собой концептуальное обобщение вывод). При этом автор создает связи между собст- результатов других НП; также возможны другие 96 содержательные ассоциации между результатами, ектами ИП приводит к расширению и изме- представленными в рассматриваемых НП; нению многослойной семантической струк- в) связи, характеризующие профессиональные туры ИП, различные слои которой формиру- мнения или оценки (согласие, признание, подтвер- ются из связей различных категорий. ждение, обсуждение, несогласие, получает под- • Формируемые в ИП семантические связи ка- держку от, плагиат, насмешка, пародирование и др.) тегоризируются в соответствии с их функ- г) связи между компонентами НП (с другой его циональным характером. Каждой категории версией, с разделом другого НП, с приложением к связей соответствует некоторый слой в мно- этому НП, с иллюстрацией к НП и другие связи ме- гослойной структуре семантических связей жду частями НП). между объектами ИП, а также один или не- 3. Процесс научной оценки и высказывания мне- сколько словарей свойств, которыми могут ний учеными о существующих научных выходах и обладать связи данной категории. результатах с помощью сервисов ИП. Этот процесс На наш взгляд, рассмотренные выше четыре вида является особым случаем предыдущего. Его отличие процессов научной деятельности позволяют выде- заключается в том, что помимо связей между НП, лить следующие категории связей (подробнее они здесь формируются также связи между личностями рассматриваются в п. 3.3): ученых, представленных в ИП их персональными 1) связи научного вывода; такие связи обеспе- профилями, и оцениваемыми НП. При этом возмо- чивают идентификацию научных результатов, жен весь спектр оценок: от позитивной (признание, требующих пересмотра при опровержении поддержка и др.) до негативной (сомнение, несогла- «родительского» результата; сие, обвинение в плагиате и др.). 2) связи с НП, использованными при получении 4. Процесс систематизации, классификации и нового результата исследований, не являю- упорядочивания содержания корпуса научных зна- щиеся связями научного вывода; ний. По сути, это процесс аналитической переработ- 3) связи, характеризующие профессиональные ки множества уже существующих результатов нау- мнения или оценки ученых о конкретных НП; ки. Основным продуктом этого процесса являются 4) иерархические и ассоциативные связи между новые связи, обнаруживаемые учеными между уже НП; известными результатами, которые представлены в 5) связи между компонентами НП; анализируемых НП. Типичными видами данного 6) научно-организационные связи. процесса являются: написание научных обзоров, классификация и создание тематических указателей Следует отметить, что предложенная категори- научных публикаций в конкретных областях науки зация связей не является исчерпывающей. Научная т.п. практика может формировать новые типы отноше- Результаты этого процесса могут отображаться в ний между объектами ИП, что соответственно, при- ИП путем формирования связей не только между ведет к появлению новых слоев в многослойной информационными объектами, представляющими структуре связей информационных объектов ИП. НП, но и объектами, которые представляют участ- 3.3 Категории связей и словари их свойств ников научной деятельности (между авторами и их НП, между научными организациями и их сотруд- В данном разделе рассматриваются разработан- никами – авторами представленных в ИП НП и т.д.). ные авторами словари, определяющие свойства ори- ентированных бинарных семантических связей ме- Итак, результаты описанных выше четырех ос- жду объектами научного ИП. Каждый словарь соот- новных процессов научного творчества отобража- ветствует только одной из рассмотренных выше ются в ИП следующим образом: категорий семантических связей. Словари создава- • С одной стороны, существует множество НП лись для применения в системе Соционет. По мне- (корпус научных знаний), которые наряду с нию авторов, предложенная классификация свойств персональными профилями ученых, профи- связей и созданные словари могут найти примене- лями организаций и другими научными мате- ния в других научных электронных библиотеках и риалами (новости, комментарии и т.п.) пред- ИП. ставлены как объекты научного ИП. При разработке словарей использованы упоми- • С другой стороны, существует множество на- навшиеся выше онтологии SPAR (в частности онто- учных организаций и исследователей – дей- логии CiTO и DoCo), спецификация SKOS консор- ствующих лиц ИП, научная деятельность ко- циума W3C, онтология проекта SWAN, а также торых проявляется в форме: а) создания но- один из разделов CERIF, посвященный семантике вых НП (пополнение корпуса научных зна- связей. При этом словари 1, 2, 4 и 5 описывают ний), что приводит к появлению новых объ- свойства связей между НП, словарь 3 – связи между ектов научного ИП; и б) создания новых и НП, а также между персональными профилями уче- коррекция существующих семантических ных и НП, а словари из раздела 6 – свойства связей связей между объектами научного ИП. научно-организационного характера, учитывающие • Индивидуальное научное творчество ученых специфику отечественных научно-исследователь- в создании семантических связей между объ- ских организаций. 97 Словари организованы следующим образом. Они • Ранняя редакция целевого разбиты по категориям связей, перечисленным в • Аудио/видео версия текстового целевого предыдущем разделе, на 6 групп. В последней 6-й • Текстовая версия аудио/видео целевого группе приведено несколько словарей для различ- • Презентация текстового целевого ных подкатегорий, в остальных – по одному слова- • Часть целевого - isPartOf (DoCo), paragraph рю в группе. Для каждого свойства связей в слова- (DoCo), part (DoCo), section (DoCo) рях приведено его название (на русском языке), его • Включение целевого как части - hasPart оригинальное английское название в использован- (DoCo) ном источнике, если он имеется, а также в скобках • Абстракт целевого - abstract (DoCo) указание на этот источник. Термин «целевой» в на- • Оглавление целевого - table of contents званиях определяет объект, на который направлена (DoCo) соответствующая связь. • Предисловие или введение целевого - 1) Словарь свойств связей научного вывода foreword (DoCo), preface (DoCo) • Заимствует основополагающие идеи • Приложение к целевому - appendix (DoCo) в целевом - obtain background from (CiTO) • Библиография целевого - bibliography • Развивает целевой - updates (CiTO) (DoCo) • Подтверждается целевым - cites as • Глоссарий целевого - glossary (DoCo) evidence (CiTO) 6) Словари свойств научно-организационных • Подтверждает целевой - confirms (CiTO) связей • Уточняет целевой - qualifies (CiTO) • Исправляет целевой - corrects (CiTO) 6.1) Свойства связей «персона – персона» • Научный руководитель - Mentor (CERIF) 2) Словарь свойств связей использования • Административный руководитель - • Содержит утверждения/факты целевого - Manager (CERIF) contains assertion from (CiTO) • Использует данные из целевого - uses data 6.2) Свойства связей «персона – организация» from (CiTO) • Директор - Director (CERIF) • Использует метод из целевого - uses method • Заместитель директора - Deputy Director from (CiTO) (CERIF) • Опровергает целевой - refutes (CiTO) • Руководитель подразделения - Head • Совершает плагиат целевого - plagiarizes of Department(CERIF), Group Leader (CiTO) (CERIF) • Сотрудник - Employee (CERIF) 3) Словарь свойств связей мнений и оценок • Главный научный сотрудник • Позитивно оценивает целевой - agrees with • Ведущий научный сотрудник (CiTO), supports (CiTO), respondsPositively- • Старший научный сотрудник - Senior To (SWAN), credits (CiTO), сonsistentWith Researcher (CERIF) (SWAN) • Научный сотрудник - Researcher • Негативно оценивает целевой - critiques (CERIF) (CiTO), disagrees with (CiTO), responds • Младший научный сотрудник - Junior NegativelyTo (SWAN), inconsistentWith Researcher (CERIF) (SWAN), disputes (CiTO), parodies (CiTO), • Докторант ridicules (CiTO) • Аспирант • Нейтрально оценивает целевой – responds • Стажер NeutrallyTo (SWAN) • Профессор - Professor (CERIF) 4) Словарь свойств иерархических и ассоциатив- • Доцент - Assistant Professor (CERIF) ных связей между НП 6.3) Свойства связей «персона – публикация» • Расширяет целевой - extends (CiTO), broader (SKOS) • Автор - Author (CERIF) • Сужает целевой - narrower (SKOS) • Редактор - Editor (CERIF) • Родственный целевому - related (SKOS), • Рецензент - Reviewer (CERIF) relevantTo (SWAN) • Переводчик - Translator (CERIF) • Альтернативен целевому - alternativeTo 6.4) Свойства связей «организация – публика- (SWAN) ция» 5) Словарь свойств связей между компонентами • Обладатель прав – Intellectual Property НП Rights Claim (CERIF) • Дублирующая копия целевого • Издатель - Publisher (CERIF) • Новая редакция целевого • Организация-автор - Author (CERIF) 98 Предлагаемая категоризация и описанные свой- Описание связи в обоих представлениях должно ства семантических связей объектов научного ИП включать уникальный идентификатор целевого объ- отражают субъективную точку зрения авторов. К екта связи, а также может включать атрибут, харак- сожалению, пока не существует общепринятых на- теризующий семантику связи, различного рода учным сообществом стандартов, в достаточно пол- комментарии и пр. Если связь создается как само- ной мере охватывающих рассматриваемую сферу. стоятельный объект ИП, то ее описание дополни- Однако, как указывалось выше, наш подход основы- тельно к уже перечисленному должно включать вается на обобщении известных попыток концепту- уникальный идентификатор данного объекта в ИП; ального и онтологического моделирования в облас- уникальный идентификатор пользователя, создаю- ти научной и издательской деятельности. Кроме щего данную связь; уникальный идентификатор того, мы исходим из характера той информации, исходного объекта связи в ИП (мы рассматриваем которую было бы желательно получать, анализируя ориентированные бинарные связи), а также даты корпус научных знаний, представленных в ИП. создания или изменения связи. Для описания семан- тики связи указывается свойство связи, выбираемое 3.4 Семантические связи как объекты ИП из поддерживаемых контролируемых словарей, воз- В электронных библиотеках традиционно с по- можный состав которых рассматривался в п. 3.3. мощью прямых гиперссылок поддерживаются связи Полномочия на установление связей между объек- между каталогами информационных объектов и тами ИП предоставляются только зарегистрирован- описываемыми в них информационными объектами. ным в системе пользователям, что обеспечивает ав- Аналогично поддерживаются связи цитирования, томатическую фиксацию идентификатора пользова- связи с профилями авторов и организаций, и неко- теля, создающего связи. торые другие. Для этого в ЭБ имеются метаданные, Процедура установления связи между двумя ин- описывающие информационные объекты, их авто- формационными объектами ИП может быть реали- ров (профили авторов), коллекции информационных зована по-разному. Далее описана ее реализация в ресурсов, организации – места работы авторов системе Соционет. При этом использован второй (профили организаций) и др. В таком случае ссылки способ представления связей. между информационными объектами представляют- Множество параметров, влияющих на установ- ся как атрибуты метаданных, описывающих инфор- ление связи, включает: а) тип исходного объекта мационные объекты. С использованием таких ссы- связи; б) тип целевого объекта связи; в) множество лок возможно анализировать структуру связей, осу- категорий связей, учрежденных в системе для за- ществлять наукометрические измерения, визуализи- данной пары типов объектов ИП; г) множество сло- ровать структуру связей. варей свойств связей, предусмотренных в системе Однако при таком традиционном способе созда- для связей заданной категории; д) множество ния связей в ЭБ, как правило, явным образом не от- свойств связей в словаре, выбранном для установле- ражается семантика связей. Например, для связи ния связи между объектами заданного типа. цитирования одного информационного объекта с Рассматриваемая процедура состоит из следую- другим отсутствует информация, характеризующая щих шагов: цель цитирования, оценку цитируемой работы и 1) Пользователь выбирает пару связываемых другие характеристики. Рассмотрим в общем виде объектов ИП. модель связей между объектами научного ИП, уст- 2) Из множества категорий связей, предусмот- раняющую это ограничение. ренных в системе для выбранной пары типов объек- Связи могут представляться в ИП двумя спосо- тов, выбирается конкретная категория. Если подхо- бами. При использовании первого способа данные, дящей категории не существует, пользователь имеет описывающие связи, содержатся в метаданных од- возможность предложить новую категорию и пре- ного из связываемых объектов, например, в мета- доставить соответствующий ей словарь свойств свя- данных исходного объекта связи. Однако поскольку зей для включения в систему. Это предложение в ИП, построенных на федеративных принципах, вступит в силу только после одобрения администра- изменять метаданные может только их автор или тором ИП. уполномоченный автором администратор информа- 3) Если подходящая категория связей выбрана, ционных ресурсов, то при этом способе только они то открывается соответствующий словарь свойств и могут создавать связи этого объекта с другими связей. объектами ИП. При втором способе создаваемые 4) Если в словаре имеется подходящее свойство связи представляются как самостоятельные объекты связи, характеризующее требуемое семантическое ИП. Такой способ является более универсальным и отношение между заданной парой объектов, то предпочтительным, так как он охватывает все мно- пользователь его выбирает. Если же такое свойство гообразие возможных ситуаций, обеспечивает более отсутствует, пользователь может предложить под- богатые возможности анализа структуры связей, ходящее свойство связей для пополнения данного которые значительно проще реализуются, и он по- словаря. Предложение вступит в силу только после зволяет создавать связи любому пользователю ИП, одобрения его администратором ИП или соответст- поскольку при этом не затрагиваются метаданные вующего словаря. связываемых объектов. 99 5) По желанию пользовать может привести в Пользователи научного ИП создают связи в сво- описании связи комментарий, объясняющий приня- ем личном (закрытом от свободного доступа) про- тые им решения при ее создании. странстве. Такое пространство и сервисы для его 6) Сформированный информационный объект использования предусматривается для авторов или сохраняется. При этом система запрашивает у поль- администраторов информационных ресурсов в сис- зователя, в какую его коллекцию следует поместить теме Соционет и называется их Личной зоной. Соз- созданный объект, а также уникальный идентифика- даваемые в Личной зоне объекты, представляющие тор этого объекта в соответствующей коллекции. связи, предлагаются далее для включения в обще- Рассмотренная процедура обеспечивает создание доступное ИП. Связи становятся частью общедос- информационного объекта, представляющего тре- тупного научного ИП только после их одобрения буемую связь среди других объектов ИП. При этом модератором. также осуществляется проверка непротиворечиво- сти семантики новой связи с уже существующими 4. Средства создания и обработки связями между данными объектами, установленны- семантических связей в Соционет ми тем же пользователем. Хотя формирование семантических связей меж- Для того чтобы создаваемые рассмотренным ду информационными объектами ИП требует опре- способом информационные объекты, представляю- деленных трудозатрат, в результате информатив- щие семантические связи в научном ИП, стали его ность научного ИП существенно повышается. Соз- полноценной частью, необходимо иметь в системе даются также дополнительные возможности для сервисы: а) обеспечивающие создание связей в со- анализа семантической структуры контента ИП. ответствии с рассмотренной выше процедурой; б) Поддержка развитой структуры семантических осуществляющие автоматический мониторинг соз- связей в достаточно представительном научном ИП даваемых связей и всех их изменений; в) визуализи- позволяет в результате их анализа осуществлять рующие связи в системе навигации ИП; г) выпол- наукометрические измерения, использовать техно- няющие сбор и накопление наукометрической ста- логии «живых» публикаций [15, 16], а также полу- тистики, позволяющей анализировать распределе- чать качественно новую информацию о развитии ния связей по их семантическим свойствам для за- научных знаний в конкретных областях исследова- данных видов научных информационных объектов ний и о вкладе отдельных ученых. (статей, монографий, презентаций докладов, авто- В описанной выше процедуре предполагается, рефератов диссертаций и др.), по заданным авторам что любой зарегистрированный пользователь науч- и исследовательским организациям; д) анализи- ного ИП может устанавливать связи между любыми рующие топологию структуры связей в ИП с учетом его информационными объектами. При определении их семантических категорий и конкретных свойств. семантики связей, их создатель выражает свое субъ- Пилотный вариант перечисленного комплекса ективное мнение, которое в некоторых случаях мо- сервисов реализуется в настоящее время в системе жет вызывать несогласие или протест как авторов Соционет. Далее кратко рассматриваются некоторые объектов, которые участвуют в данных связях, так и вопросы, связанные с их реализацией. других членов научного сообщества. Например, мо- гут вызывать протесты случаи, когда устанавлива- 4.1 Средства создания новых словарей свойств ются семантические связи, несущие негативную связей и отдельных новых свойств в словарях оценку некоторого научного выхода (опровержение, Содержание словарей, описывающих свойства высмеивание, обвинение в плагиате и т.п.). семантических связей между информационными Как известно, научная истина устанавливается в объектами научного ИП, в силу своей новизны процессе борьбы мнений. Поэтому, если научное представляет собой предмет для научных дискус- сообщество начинает использовать подобные тех- сий. Для того чтобы представители научного сооб- нические средства, то с учетом потенциального щества, пользующиеся системой Соционет, имели конфликта интересов научная среда должна предос- возможности для формирования приемлемых слова- тавлять ученым равные права и одинаковый доступ рей свойств связей, в системе разработаны меха- к использованию этих средств, а также надежную низмы, которые, с одной стороны, позволяют созда- фиксацию профессиональной и социально- вать и включать в научное ИП альтернативные сло- этической ответственности ученого за характер ис- вари, а с другой – осуществлять пополнение и раз- пользования им данных средств. витие уже существующих словарей. Для выполнения данных принципов, на наш В этих целях в Личной зоне зарегистрированного взгляд, крайне важно обеспечить модерирование пользователя Соционет существует возможность всех создаваемых связей с точки зрения соблюдения создавать коллекции объектов типа metrics. Струк- авторами научной этики, а также наличия в созда- тура описания объектов этого типа сконструирована ваемых связях признаков добавленной научной специально для разработки словарей свойств связей. "стоимости" или научного вклада (исключение свя- Описание конкретного объекта коллекции типа зей с чисто эмоциональным или ненаучным содер- metrics, представляющего некоторое свойство свя- жанием). зей, включает, в частности, следующие атрибуты: а) уникальный идентификатор этого объекта в сло- 100 варе, которому он принадлежит; б) название объекта объекта, для которого связь является исходящей. В словаря (свойства связей); в) пояснения и коммента- противном случае данные о связях могут храниться рии для данного объекта; г) указание автора и орга- вне метаданных связываемых объектов. При этом низации, представляющих данный объект словаря; они существуют как самостоятельные объекты ИП и д) ссылки на источники, откуда заимствовано соот- соединяются с метаданными объектов, к которым ветствующее значение словаря, например, в нашем они относятся по указанным в описании объекта- случае – онтология CiTO. связи уникальным идентификаторам этих объектов. Атрибуты "б" и "в" могут иметь значения одно- Для связей, являющихся самостоятельными объ- временно на различных языках (например, на рус- ектами, в системе Соционет предусмотрен специ- ском и английском). Атрибут "д" может содержать альный тип информационных объектов linkage. Все библиографические данные источника, откуда поза- созданные объекты-связи должны принадлежать имствован данный объект, ссылку на его определе- какой-либо коллекции объектов этого типа. Связи ния в онтологиях, энциклопедиях и т.п. После соз- первоначально создаются пользователем в его Лич- дания своего словаря пользователь может предло- ной зоне в Соционет и хранятся в его личных кол- жить его для включения в ИП Соционет для общего лекциях. Пользователь может предложить создан- использования. Администратор Соционет рассмат- ные связи для размещения в публичное ИП в виде ривает поступившее предложение и, если у него нет полных коллекций или отдельными объектами через возражений, то данный словарь добавляется к спи- специализированные разделы Открытого Архива ску доступных словарей. Соционет. Если у пользователей Соционет возникает наме- Операции по созданию внешних связей между рение внести изменения в уже существующий сло- объектами ИП системы Соционет соответствуют варь, то это может быть сделано двумя путями: процедуре, описанной выше в разделе 3.4. а) послать автору словаря электронное письмо с Фактически, предлагаемый подход предусматри- предложением (данные об авторе словаря указаны в вает создание в системе Соционет открытого репо- описании коллекции, представляющей этот сло- зитория семантических связей, который дополняет варь); или б) создать в своей Личной зоне дополни- уже много лет функционирующий открытый репо- тельный элемент (описать новое свойство связей) зиторий научных статей, материалов, персональных для существующего словаря и послать его автору профилей, профилей организаций и т.п. соответствующего словаря через сервисы Личной зоны. 4.3 Сервисы визуализации, мониторинга и ана- лиза связей 4.2 Средства создания связей В системе Соционет предусмотрена возможность Для создания связей между объектами ИП поль- визуализации связей между информационными объ- зователи Соционет имеют следующие основные ектами ИП. Для каждого объекта в ИП предоставля- возможности: а) при создании информационного ется навигационное меню, которое позволяет поль- объекта его автор может указать связи данного объ- зователю переключить просмотр информационных екта с другими объектами ИП в метаданных, описы- ресурсов в режиме навигации по графу связей. При вающих создаваемый объект; б) автор может отре- этом для заданного объекта на экране отображаются дактировать метаданные своего ранее созданного узлы ближайших связанных с ним объектов, а также объекта, в том числе, добавляя, изменяя или удаляя данные о свойствах связей, статистика по связанным определенные для этого объекта связи; в) пользова- объектам и т.п. Навигационный граф показывает все тель может создать связь между объектами, не явля- существующие связи объекта, как исходящие, так и ясь их автором; в этом случае он не может изменять входящие, а также позволяет их фильтровать по за- метаданные, описывающие эти объекты; создавае- данным свойствам, например, включать в него толь- мые им связи являются самостоятельными объекта- ко связи заданной категории. Относительно началь- ми ИП. ного узла графа возможен переход по пути любой В тех случаях, когда пользователь является авто- длины в структуре связей. ром связываемого объекта (случаи "а" и "б" выше) и В Соционет работает сервис автоматического при этом данный объект является научной публика- ежедневного мониторинга изменений связей. Фик- цией, он имеет возможность, в частности, наряду с сируются факты появления новых связей, а также другими видами связей создавать и связи цитирова- изменения значений атрибутов существующих. В ния. Для этого нужно не только описать создавае- рамках этой процедуры ежедневно обновляется ин- мую связь в метаданных данного объекта, но и обо- декс связей, который используется для построения значить ее в тексте публикации в соответствии с навигационного графа связей, для построения спи- правилами оформления ссылок и цитат в научной сков связанных объектов заданной вложенности, а литературе. также для поиска и анализа связей по заданным ат- В Личной зоне Соционет подобная операция рибутам. возможна для объектов типов citation и artifact, ко- На основе этого сервиса также разрабатывается торые являются в системе разновидностями НП. система оповещений пользователей по электронной Как уже отмечалось, для случаев "а" и "б" дан- почте о значимых изменениях в связях. Система ные о связях могут входить в состав метаданных оповещения конструируется так, чтобы рассылать 101 уведомления: а) автору объекта, если установлена тый в этом интересном проекте подход основан на новая связь с его объектом, б) автору объекта – на- анализе структуры связей цитирования публикаций учного произведения при изменении объектов, с субъектов научной деятельности, поддерживаемых в ним связанных (например, при изменении статьи, индексе цитирования Scopus. Однако, в отличие от которую автор цитирует в своем произведении) и нашего подхода, при этом используются традици- т.д. [17, 19]. При появлении связи-оценки автору онные «немые» связи - связи, не несущие семанти- оцениваемого объекта в уведомлении предполагает- ки. Наш подход обеспечивает более дифференциро- ся сообщать характер этой оценки и идентифициро- ванный анализ, результаты которого, учитывают вать объект-связь, ее определяющий. семантику связей. Система рассылает автоматические оповещения сразу после включения созданных связей в обще- 5. Заключение доступное ИП, т.е. после предварительного одобре- ния их модератором Соционет. Предложенный в данной работе подход к семан- Авторы объектов ИП - научных произведений, с тическому структурированию контента научных которыми установлены связи, а также все желаю- электронных библиотек и информационных про- щие, имеют возможность выражать свое мнение странств обеспечивает существенное обогащение (согласие, возражение или др.) по поводу семантики как информационных, так и функциональных воз- и значений других атрибутов созданных связей, можностей этих важных средств информационной представленных в их описаниях. поддержки научных исследований. Реализующая Подобные профессиональные мнения и оценки этот подход технология позволяет более эффектив- ученых о содержании связей также выражаются с но использовать существующий корпус электрон- помощью средств создания связей, относящихся к ных знаний благодаря визуализации семантических категории "мнения и оценки", и также должны связей между научными произведениями, навигации пройти через процедуру модерирования. Они стано- в такой многослойной семантической структуре, вятся доступными в ИП при просмотре всех объек- созданию основы для получения качественно новых тов, которым они посвящены или с которыми связа- наукометрических измерений, а также для струк- ны (при просмотре исходной связи, которой даны турного исследования электронного корпуса науч- оценки, при просмотре профиля автора такой связи, ных знаний. Предлагаемая технология обеспечивает при просмотре профиля автора, который дал оценку также естественный механизм мотивации научных связи и т.п.). коммуникаций в исследовательском сообществе в Вся история установления и изменения связей процессе создания и обсуждения новых научных фиксируется в базе данных системы. На этой основе результатов. Она хорошо согласуется также с тех- реализован сбор и накопление наукометрической нологией «живых» публикаций, для поддержки ко- статистики. Система также создает и хранит стати- торой применимы реализующие ее механизмы. стический портрет ученого, иллюстрирующий, ко- гда и какие связи им создавались (исходящие связи), Литература а также аналогичные данные о связях, установлен- [1] Fredrik Еstrцm, Бgnes Sбndor. Models of Scholarly ных с НП данного ученого (входящие связи). При Communication and Citation Analysis, In: Proc. of этом обеспечивается возможность получить пред- ISSI 2009: The 12th Intern. Conf. of the Interna- ставление о характере распределения семантических tional Society for Scientometrics and Informetrics: свойств как входящих, так и исходящих связей. Volume 1. http://lup.lub.lu.se/luur/download?func= Подробнее вопросы формирование из этих дан- downloadFile&recordOId=1459018&fileOId= ных наукометрической статистики обсуждаются в 1883080 [11, 12]. [2] Бgnes Sбndor, Aaron Kaplan, Gilbert Rondeau. Нужно, наконец, отметить, что поддержка в сис- Discourse and citation analysis with concept- теме Соционет развитой многослойной структуры matching, Citeseer. http://citeseerx.ist.psu.edu/view семантических связей между информационными doc/download?doi=10.1.1.67.7518&rep=rep1& объектами, являющимися научными публикациями, type=pdf позволяет получать разнообразную аналитическую [3] Anita de Waard; Joost Kircz. Modeling Scientific информацию о структуре различных областей ис- Research Articles – Shifting Perspectives and Per- следований, вкладе в их развития конкретных уче- sistent Issues, Proc. of ELPUB 2008 Conf. on Elec- ных, о процессе их эволюции и т.д. Исследования в tronic Publishing - Toronto, Canada - June 2008. этой области планируется развивать на основе сис- http://elpub.scix.net/data/works/att/234_ elpub2008 темы Соционет. .content.pdf В связи с этим следует здесь упомянуть функ- [4] CERIF 2008 – 1.2 Semantics, euroCRIS. циональный модуль SciValSpotlight проекта SciVal http://www.eurocris.org/Uploads/Web%20pages/ компании Elsevier [18]. Этот модуль служит для CERIF2008/Release_1.2/CERIF2008_1.2_ анализа научной деятельности исследовательского Semantics.pdf учреждения или страны в целом, на основе которого [5] David Shotton. Introduction the Semantic Publish- может оцениваться эффективность исследований и ing and Referencing (SPAR) Ontologies. October могут приниматься стратегические решения. Приня- 102 14, 2010. http://opencitations.wordpress.com/ Proc. of the World Library and Information Con- 2010/10/14/introducing-the-semantic-publishing- gress: 76th IFLA General Conference and Assem- and-referencing-spar-ontologies/ bly. 10-15 August 2010, Gothenburg, Sweden. pp. [6] David Shotton. CiTO, the Citation Typing Ontolo- 1-13. Электронная авторская версия: gy. J. of Biomedical Semantics 2010, 1(Suppl 1): http://socionet.ru/publication.xml?h=repec:rus:mqij S6. http://www.jbiomedsem.com/content/1/S1/S6 xk:25 [7] David Shotton, Silvio Peroni. DoCO, the Document Components Ontology. 17/02/2011. http://purl.org/ spar/doco/ A Technology for Semantic Structurization [8] SKOS - Simple Knowledge Organization System. of Scientific Digital Library Content http://www.w3.org/TR/skos-reference/ [9] Simone Teufel, et al. Automatic classification of © Sergey Parinov, Mikhail Kogalovsky citation function. Proc. of the 2006 Conf. on Empir- ical Methods in Natural Language Processing. Semantic structuring of digital libraries' contents, http://portal.acm.org/citation.cfm?id=1610091 which resulted in explicit implementation of semantic [10] SWAN (Semantic Web Applications in Neurome- linkages among information objects, opens new oppor- dicine) - Scientific Discourse Relationships Onto tunities for scientific creativity and increase a quality of logy Specification. http://swan.mindinformatics. the libraries' contents. In combination with categorizing org/spec/1.2/discourserelationships.html of semantic linkages it establishes multilayer semantic [11] Когаловский М.Р., Паринов С.И. Метрики он- networks over information objects that allow new qua- лайновых информационных пространств litative scientometrics measurements and investigation //Экономика и математические методы. – 2008. on structuring properties of the corpus of science – Вып. 2. represented by digital libraries contents. The paper dis- [12] Когаловский М.Р., Паринов С.И. Использование cusses proposed approach and specifications of seman- связей цитирования для наукометрических из- tic structuring technology and describes a pilot imple- мерений в системе Соционет. Соционет: Элект- mentation of the technology within Socionet scientific тронный депонент, 2009. http://socionet.ru/ publi- data and information space and services. cation.xml?h=repec:rus:rssalc:web-32 [13] Паринов С.И. СОЦИОНЕТ.РУ как модель ин- ♣ формационного пространства 2-го поколения Работа поддерживается грантами РФФИ 09-07-00378 и //Информационное общество. - 2001, вып. 1, РГНФ 11-02-12026-в с. 43-45. http://emag.iis.ru/arc/infosoc/emag.nsf/ BPA/709c3727bab54cf4c3256c01002d2e6e [14] Паринов С.И. Информационные хабы. Социнет Электронный депонент. http://socionet.ru/ publication.xml?h=repec:rus:mqijxk:9 [15] Паринов С.И., Когаловский М.Р. Технология поддержки электронных научных публикаций как «живых» документов. Труды XI Всероссий- ской научной конф. «Электронные библиотеки: перспективные методы и технологии, электрон- ные коллекции», Петрозаводск, 17-21 сентября 2009 г. – Петрозаводск: КарНЦ РАН, 2009 [16] Паринов С.И., Когаловский М.Р. «Живые» до- кументы в электронных библиотеках //Прикладная информатика. – 2009. - № 6, 2009. Авторская версия: http://socionet.ru/publication. xml?h=repec:rus:isyigw:article-215 [17] Паринов С.И. Концепция виртуальной научной среды "Открытая Наука" //Труды международ- ной суперкомпьютерной конф. "Научный сервис в сети Интернет: суперкомпьютерные центры и задачи", Новороссийск, 20-25 сентября 2010 г. – М.: Изд-во МГУ, 2010, стр. 473-481. Электрон- ная авторская версия: http://socionet.ru/ publica- tion.xml?h=repec: rus:mqijxk:24 [18] SciVal. http://www.elsevier.com/wps/find/ electro- nicproductdescription.cws_home/720941/ descrip- tion#description [19] Sergey Parinov The electronic library: using tech- nology to measure and support Open Science. In 103