=Paper=
{{Paper
|id=None
|storemode=property
|title=Концептуальная модель научной публикации
(Conceptual Model of Research Publication)
|pdfUrl=https://ceur-ws.org/Vol-934/paper5.pdf
|volume=Vol-934
|dblpUrl=https://dblp.org/rec/conf/rcdl/ReznichenkoPO12
}}
==Концептуальная модель научной публикации
(Conceptual Model of Research Publication)
==
Концептуальная модель научной публикации © В.А. Резниченко © Г.Ю. Проскудина © О.М. Овдий Институт программных систем НАН Украины Киев gupros@isofts.kiev.ua Модель описывает такие основные сущности Аннотация научного информационного пространства, как пуб- ликация, персона, организация, проект и событие, а Работа посвящена задаче создания концеп- туальной модели научных ресурсов для также связи между ними. Наряду с основными сущ- научно-исследовательских и библиотечных ностями предложен перечень возможных второсте- информационных систем, а именно модели пенных. Преимуществом данной модели является публикации, как одного из основных ресур- поддержка многоязычности и возможность исполь- сов информационного научного простран- зования различных классификационных схем. ства. Также рассмотрены некоторые извест- ные связанные проекты – ЕНИП, CERIF, 2 Обзор существующих моделей SPAR, CIDOC CRM, FRBR, FRBRоо. ЕНИП. В рамках российской инициативы по организации Единого Научного Информационного 1 Введение Пространства (ЕНИП) была разработана модель [1], в которой было выделено четыре основных группы На сегодняшний день в мире существует боль- информационных сущностей: участники научной шое количество научных информационных систем. деятельности, научная деятельность, результаты С их помощью научные организации представляет научной деятельности и документы и публикации. К данные о публикациях сотрудников, о научных классу Документ относятся разного рода документы исследованиях и проектах и о полученных результатах. и публикации, как печатные, так и цифровые. Класс Публикация в данной модели является подклассом Как правило, интересы пользователей не обеспе- класса Документ. Данный абстрактный класс описы- чиваются какой-то одной информационной систе- вает метаинформацию об официально зарегистри- мой, и даже в рамках одной организации может рованных печатных изданиях (публикациях). Пуб- существовать несколько разнородных систем. Для ликации делятся на 3 группы: издания аналити- обеспечения их интероперабельности необходимо ческого уровня, монографического уровня и сводно- принять соглашения по стандартизации электрон- го уровня. При описании конкретных публикаций ного представления информационных ресурсов и необходимо указывать конкретные неабстрактные соответствующие модели и средства, поддержива- классы, такие как Монография, Многотомник, Вы- ющие интеграцию информационных ресурсов. пуск журнала и пр. В рамках проекта "Модели, методы и средства CERIF. Появление формальной концептуальной интеграции гетерогенных научных информацион- модели научных данных CERIF (Common European ных ресурсов НАН Украины" была разработана Research Information Format), в дословном переводе концептуальная модель научных ресурсов. В част- Общий европейский исследовательский информа- ности, была предложена модель публикации, как ционный формат [2-4] стало важным результатом в одного из основных ресурсов информационного технологии семантического структурирования кон- научного пространства. тента академических научных сред, и научных элек- На начальном этапе были рассмотрены сущест- тронных библиотек в частности. Модель CERIF вующие на данный момент модели, описывающие предназначена для поддержки управления научно- информационные ресурсы в научной и смежных исследовательской информацией, а также настройки областях, таких как библиотековедение и культур- и взаимодействия между исследовательскими ин- ное наследие: ЕНИП [1], CERIF[2-4], SPAR [5], формационными системами. Модель имеет следу- CIDOC CRM [6], FRBR[7], FRBRоо[8]. За основу ющие основные характеристики: (а) она построена с разработанной модели научной публикации была помощью сущностей или объектов с атрибутами, взята европейская формальная концептуальная таких как Публикация, Проект, Персона, Организа- модель научных данных CERIF. ция, Событие и т.д.; (б) она поддерживает связи многие-ко-многим и рекурсивные связи; с помощью Труды 14-й Всероссийской научной конференции сущностей-связей, которые также обладают опреде- «Электронные библиотеки: перспективные методы и ленными свойствами, обеспечивается богатая семан- технологии, электронные коллекции» — RCDL-2012, тика, включая роль и темпоральность; (с) она под- Переславль-Залесский, Россия, 15-18 октября 2012 г. держивает многоязычность, (г) она является расши- 21 ряемой, что обеспечивает гарантированную совме- FRBR включает описание концептуальной стимость, по крайней мере, на уровне ядра, но и не модели (сущности, их отношения и атрибуты), исключает более широкую совместимость. Модель предлагает универсальные библиографические предназначена для использования при обмене дан- записи для всех типов материалов и пользова- ными в гетерогенных распределенных средах. Ис- тельских задач, связанных с библиографическими пользование так называемого семантического слоя ресурсами, описанными в каталогах, библиографиях делает модель гибкой и масштабируемой для приме- и других библиографических инструментах. Модель нения в разнородных средах. FRBR различает три группы сущностей: Модель CERIF постоянно развивается, только в для описываемых объектов: Произведение 2012 году вышло три ее новых версии 1.3, 1.4 и 1.5. (work), Выражение (expression), Воплощение Заявлено о выходе в ближайшее время CERIF 2.0. (manifestation), Экземпляр (item); CIDOC CRM. Онтология в области докумен- для описателей-субъектов: Персона (person) тации в сфере культурного наследия CIDOC CRM и Организация (corporate body); ("Committee on Documentation" "Conceptual Refe- для описателей-объектов: Концепт, Объект, rence Model") [6] представляет собой формальную Событие и Место (concept, object, event, онтологию, предназначенную для описания инфор- place). мации в области культурного наследия. Разработка Большое внимание в модели уделено отноше- модели началась в 1996 году, а в 2006 она стала ниям между сущностями. Помимо логических свя- стандартом ISO 21127:2006 – "Эталонная онтология зей в модели выделена группа так называемых для обмена информацией культурного наследия" (A контентных связей (для первой группы сущностей). reference ontology for the interchange of cultural Они идентифицируют основные типы отношений, heritage information). Модель покрывает контекстной которые существуют между экземплярами сущности информацией исторического, географического и одного типа (например, сущности Произведения) теоретического характера отдельные экспонаты и или между экземплярами разных типов сущностей музейные коллекции в целом. (например, сущностей Произведение и Воплоще- Версия 5.0.1 модели CIDOC CRM состоит из 90 ние). Например, в группе отношений Произведение- классов и 148 свойств (бинарных отношений), свя- Произведение выделены такие типы отношений: зывающих классы между собой и описывающих имеет адаптацию (свободный перевод); имеет при- предметы, понятия, людей, события, место, время и ложение (сходство, соответствие), имеет продол- их отношения. Кроме того, классы организованы в жение; имеет резюме (обзор, аннотацию); имеет иерархии через отношение «является», («is a»). Все преобразование (стихотворную форму); имеет ими- классы и свойства модели можно разделить на три тацию (пародию). В группе отношений Выражение- группы. Первая группа включает классы и отно- Выражение перечислены следующие типы отноше- шения, охватывающие наиболее общие понятия ний: имеет сокращение (корректировку, уплотне- окружающего мира: постоянные и временные сущ- ние); имеет пересмотр (исправленную редакцию, ности, отношения участия, зависимости, совпадения расширенную редакцию); имеет перевод (букваль- во времени. Вторая группа содержит понятия, час- ный перевод) и некоторые другие типы отношений, тично поддерживающие функции управления: прио- касающиеся музыкальных произведений. И, нако- бретение и учет единиц хранения, передача прав нец, отношения часть/целое и часть в части также собственности на объекты культуры. К третьей представлены в модели FRBR. группе относятся классы и свойства, используемые FRBRoo. Объектно-ориентированная FRBR [8] для внутренней организации самой онтологии: сред- моделирует результаты (Произведение, Выраже- ства, необходимые для подключения внешних ние…) процессов, таких как создание, реализация, источников терминов, например, тезаурусов по от- планирование, но не сами процессы. FRBRoo, раслям культуры. используя подход CIDOC CRM, фокусируется на Обобщая все многообразие музейных коллекций процессах. Такой подход позволяет принимать во и задач, модель содержит широкий набор универ- внимание обстоятельства, при которых, например, сальных понятий. Важную роль здесь играют конкретные произведения были задуманы или временные сущности, так как они связывают объек- реализованы. ты (концептуальные или физические) с временным В результате в FRBRoo объекты Произведение, диапазоном, местом и субъектами. Выражение и Воплощение были разбиты на FRBR. Международной федерацией библиотеч- несколько классов со специфическими свойствами. ных ассоциаций и учреждений (International Federa- Так, в FRBRoo присутствует класс Произведение, но tion of Library Associations and Institutions, IFLA) также декларированы подклассы Индивидуальное разработана модель "Функциональные требования к Произведение (Individual Work), Составное Произ- библиографическим записям" (Functional Require- ведение (Complex Work), Сопроводительное Произ- ments for Bibliographic Records, FRBR) как ведение (Container Work), Совокупность Произведе- обобщенное представление библиографического ний (Aggregation Work), Серийное Произведение универсума [7]. В настоящее время IFLA про- (Serial Work), Издательское Произведение (Publica- должает контролировать приложения модели FRBR tion Work), Исполнительское Произведение (Perfor- и поддерживает ее использование и развитие. mance Work), Записанное Произведение (Recording 22 Work). Класс Произведение является суперклассом, DoCO (Document Components Ontology). объединяющим подклассы как частные случаи, Онтология, характеризующая составные каждый из которых имеет свою специфику создания части библиографического документа. Пре- или составления. доставляет структурированную лексику ком- FRBRoo следует рассматривать как интерпре- понентов документа (например, введение, тацию FRBR, главное новшество FRBRoo – реалис- обсуждение, благодарность, список лите- тичная, явная модель процесса интеллектуального ратуры, рисунки, приложения). творчества, которая еще должна получить свое Онтологии FaBiO, CiTO, BiRO и C4O в дальнейшее развитие для библиотекарей и ученых. настоящее время уже доступны для использования, а DoCO, PRO, PSO и PWO находятся в разработке. SPAR. Уже много лет ведутся исследования в области анализа семантики связей между научными материалами. Системным обобщением этих резуль- 3 Основные характеристики татов стало появление комплекса онтологий SPAR разрабатываемой модели (Semantic Publishing and Referencing) [5], обеспе- Разрабатываемая модель публикации основана чивающего достаточно детальную категоризацию на европейской формальной концептуальной моде- отношений, которые могут возникать между науч- ли научных данных CERIF. Перечислим ее наиболее ными материалами в электронном виде, и воплоща- важные черты. ющих их связей. SPAR включает онтологии семан- тической публикации: Базовые сущности. Основу или ядро модели составляют несколько базовых или главных сущнос- FaBiO (FRBR-aligned Bibliographic Ontology). тей (объектов) в данной предметной области – Библиографическая онтология совместимая единого научного информационного пространства. с FRBR, предназначенная для записи и Это Публикация, Организация, Персона, Проект и публикации в Semantic Web библиографи- Событие. Для каждой из этих базовых сущностей ческих научных записей. определяются наборы собственных атрибутов или PRO (Publication Roles Ontology). Онтология, свойств. характеризующая роли агентов (людей, орга- низаций и вычислительных средств; напри- Связи. Экземпляры базовых сущностей могут мер, автор, редактор, обозреватель, издатель, быть связаны между собой как внутри одной сущ- библиотекарь) в процессе публикации. По- ности (рекурсивные связи), так и со всеми зволяет записывать информацию даты/вре- остальными сущностями связями типа многие-ко- мени о том, когда исполняются эти роли. многим. В связи всегда участвует пара сущностей, и PSO (Publications Status Ontology). Онтоло- эта пара также обладает своими, только ей (этой гия, характеризующая статус документа и паре) присущими свойствами. Поэтому в модель других библиографических сущностей на вводятся так называемые сущности-связи, напри- различных этапах процесса публикации мер, Организация_Персона, Публикация_Персона, (например, представленные рукописи, откло- которые также обладают свойствами, например нение рукописи, прием рукописи, версия такими свойствами, как роль и темпоральность. записи). Многоязычность. Модель поддерживает много- PWO (Publications Workflow Ontology). Он- язычность, для этого в наборах собственных атри- тология, характеризующая основные этапы в бутов каждой сущности выделяется группа атри- рабочем процессе, связанном с публикацией бутов, например, название, ключевые слова, документа (например, в рассмотрении, в аннотация, которые могут иметь несколько значе- XML формате, дизайн страницы, публикация ний на разных языках. Такие атрибуты в рамках в Интернете). данной модели также превращаются в отдельные и онтологии ссылок: сущности. CiTO (Citation Typing Ontology). Онтология Классификация. Как правило, структурирован- для описания природы цитат в научно- ные описания какой-либо сущности начинаются с исследовательских статьях и других акаде- уникального идентификатора сущности и далее мических работах, как из других публика- информации о типе данной сущности, которая зано- ций, так и из информационных ресурсов сится в поля, названные, например, как Тип, Класс, Web, и для публикации этих описаний в Категория или Классификация. Все эти поля ис- Semantic Web. пользуются для терминов, которые объявляют, что BiRO (Bibliographic Reference Ontology). сущность – член специфического класса или кате- Онтология для описания библиографических гории сущностей. Представляемая модель не дает записей и ссылок, и их сбор в библиогра- строгой привязки к определенным классификациям фические сборники и списки литературы. либо категориям, она только лишь может рекомен- C4O (Citation Counting and Context довать к использованию те или иные. Для исполь- Characterization Ontology). Онтология, позво- зования классификаций разных типов и их взаим- ляющая характеризовать библиографические ных отображений в данной модели предусматрива- ссылки с точки зрения их количества и ется набор сущностей под общим названием Класси- контекста. фикация. Все базовые сущности модели могут быть 23 связаны с определенными классификациями отно- Экземпляры базовых сущностей могут быть шением типа многие-ко-многим. Для разрешения связаны между собой как внутри одной сущности такой связи для каждой базовой сущности вводится (рекурсивные связи, на рисунке показаны петлей), связующая сущность, например Персона_Классифи- так и со всеми остальными сущностями отношением кация, Публикация_Классификация. Роль в сущ- типа многие-ко-многим. Поэтому в модель вводятся ностях-связях (например, Публикация_Персона) так называемые сущности-связи (рис. 2), поскольку также определяется классификационными схемами, в связи всегда участвует пара сущностей, и эта пара для этого в каждой такой сущности предусмотрены также обладает своими свойствами. атрибуты идентификатора класса и схемы класс- сификации, где определен этот класс, а также Научная публикация атрибуты темпоральности (дата начала, дата окончания) и доли (дня некоторых типов связей). Публикация_Организация Публикация_Событие Таким образом, обеспечивается определенная гиб- Публикация_Персона кость в выборе классификационных схем и отсут- Организация Организация_Событие Событие ствие строгой привязки к обозначенным форматам. Организация_Проект Публикация_Проект Сущности второго уровня. Далее определяется Организация_Персона Проект_Событие набор так называемых сущностей второго уровня Патент, Продукт, Оснащение, Финансирование, Персона_Событие Метрики и т.д. По аналогии с базовыми сущ- Персона Персона_Проект Проект ностями, для них также определяются наборы собственных атрибутов, многоязычных атрибутов- Рис. 2 Сущности-связи, соединяющие базовые сущности сущностей и сущностей-связей. Любая из базовых Базовые сущности представляют научные сущностей может иметь связь с какой-либо из сущ- субъекты (персоны и организации) и их основную ностей второго уровня, для них также создаются деятельность (проекты и публикации): сотруд- свои сущности-связи (например, Публикация_Мет- ничество одних ученых с другими (Персона_Пер- рики, Публикация_Финансирование). сона), их участие в проектах (Персона_Проект), Наличие семантического слоя. Набор сущнос- аффилирование с организациями (Организа- тей-связей с привязкой к классификационным схе- ция_Персона), публикация статей (Публика- мам и их классам, а также наличие в данной модели ция_Персона), проведение мероприятий типа фактически вспомогательной или метасущности семинаров и конференций (Организация_Событие). "Классификация" гарантируют обеспечение богатой Проекты включают людей (Персона_Проект) и семантики, так называемого семантического слоя организации (Организация_Проект). Научные данных. Использование семантического слоя делает публикации публикуются организацией (Публика- модель гибкой, масштабируемой и применимой в ция_Организация) и относятся к проектам (Публи- разнородных средах. кация_Проект), в проектах могут принимать участие целые организации (Организация_Проект), которые Данная модель может быть использована при могут использовать отдельных людей (Организа- обмене данными в гетерогенных распределенных ция_Персона). средах. Для управления типом этих связей и 4 Базовые сущности модели и их связи определения ролей, используются ссылки на классификационные схемы. Они определяются в так Ядро модели научного информационного про- называемом семантическом слое. Например, странства составляют пять базовых сущностей или Персона «является автором» Публикации. Для этой сущностей первого уровня (рис. 1): Научная связи (Публикация_Персона) могут быть определе- публикация – центральная сущность модели, ны и другие роли. Модель семантического слоя Организация, Персона, Проект и Событие. учитывает охват любой схемы классификации или структуры. Научная публикация На рис. 2 показаны сущности-связи для базовых сущностей (кроме рекурсивных, например, Организация_Организация или Публикация_Публи- кация, они показаны петлей). Базовые сущности Организация Событие могут быть связаны и с другими сущностями (второго уровня) например, Публикация «профи- нансирована по» Программе финансирования (эта сущность второго уровня в модели кратко названа Финансирование). О сущностях второго уровня, а Персона Проект также о классификации речь пойдет ниже. Рис. 1. Базовые сущности модели научной публикации 24 5 Классификация событие, выставка, торговая выставка-ярмарка (модель CERIF). Семантический слой является простым, но Научные организации (сущность Организация) мощным инструментом, позволяющим представлять могут классифицироваться как научно- исследова- виды связей (типы, роли и т.д.) [3], прикладные тельские организации, научные организации образо- представления, предметные классификации (напри- вательных учреждений высшего профессионального мер, терминологии) и другие классификационные образования, опытно-конструкторские, проектно- схемы (например, классификация языков, стран и конструкторские, проектно-технологические и иные валют в соответствии с определенными организации, осуществляющие научную и научно- стандартами), а также установление соответствия техническую деятельность. между ними. Сущность Проект можно классифицировать, Все сущности модели, базовые и второго уровня, например, по уровню разрабатываемых проблем могут быть классифицированы или типизированы в (фундаментальные, прикладные); по структуре соответствии с определенными классификациями разрабатываемых проблем (тематические, комплекс- (рис.3). ные) и т.д. Классификация Различные классификации одной и той же сущ- ности могут частично соответствовать друг другу. Так, например, класс Книга по классификации ГОСТ соответствует классу Book по классификации Организация Событие CERIF. В рамках разработки концептуальной моде- ли научных данных CERIF [2], ведутся работы по Персона Проект развитию стандартизованной формальной семанти- Научная публикация ки для отображения отношений между объектами научных информационных систем CRIS (Current Рис.3 Сущность классификация в базовой модели Research Information Systems). Связи сущностей с классификацией также представляются сущностями-связями Организа- 6 Сущности второго уровня ция_Классификация, Персона_Классификация, Пуб- Помимо основных сущностей, которые ликация_Классификация, Проект_Классификация и представляют участников научного процесса и их Событие_Классификация. В данных сущностях с действия, модель охватывает контекст участников и помощью атрибутов указывается идентификатор их взаимодействия в более широком диапазоне дан- самой сущности и идентификаторы класса и схемы ной предметной области, так называемыми сущнос- классификации, а также атрибуты темпоральности тями второго уровня. На рис. 4 показаны базовые (дата начала, дата окончания), доля (для некоторых сущности и предложен возможный перечень типов связей). сущностей второго уровня и их связи, для удобства Классификация сущностей строго не привязана к на рисунке сущности второго уровня продуб- конкретным стандартам, таким образом, могут лированы для каждой базовой сущности. Связи использоваться различные классификационные схе- между базовыми и сущностями второго уровня в мы. Так, например, по классификации, предложен- модели представлены сущностями-связями. ной в проекте CERIF, сущность Публикация может Ко второму уровню относятся следующие сущ- быть следующих типов: книга, монография, диссер- ности: тация, учебное издание, журнальная статья, труды конференции и т.д. [3]. Патент охранный документ, удостоверяющий исключительное право, авторство и приоритет По классификации, предложенной ЕНИП [1], все изобретения, полезной модели либо промышлен- публикации на первоначальном абстрактном уровне ного образца. классифицируются на издания сводного, моногра- фического и аналитического уровня, а затем конкре- Продукт результаты научной деятельности: тизируются как, например, серийное издание, мно- интернет-системы, базы данных, эксперименталь- готомник, труды института, периодическое издание ные данные, математические модели, программ- и т.д. мные системы, технологии и т.д.; Сущность Персона можно классифицировать, Финансирование выделение денежных средств например, по научной степени (доктор наук, канди- или финансовых ресурсов на выполнение научных дат наук), по занимаемой должности (младший работ; научный сотрудник, старший научный сотрудник, Цитирование включение в научную работу ведущий научный сотрудник), по академическим фрагмента текста другой работы с указанием точ- или ученым званиям (профессор, академик, доцент и ных выходных данных позволяющих найти работу и пр.). место, из которого был взят фрагмент текста; Сущность Событие можно классифицировать Метрики мера, позволяющая получить числен- как: конференция, семинар, симпозиум, событие ное значение некоторого свойства какого-либо культуры, политическое событие, спортивное объекта. 25 . Патент Финансирование Метрики Электронный адрес Продукт Цитирование Оснащение Почтовый адрес Почтовый адрес Награда Электронный адрес Квалификация Финансирование Научная публикация Сервис Оснащение Финансирование Продукт Оснащение Патент Продукт Организация Событие Патент Награда Награда Персона Проект Сервис Сервис Финансирование Страна Финансирование Оснащение Почтовый адрес Оснащение Продукт Электронный адрес Продукт Патент Патент Язык Резюме Квалификация Рис.4 Сущности второго уровня и их связи с базовыми сущностями Оснащение совокупность технических средств установленной форме, в котором указываются имя и или приспособлений, которыми оснащено что-либо. местонахождение получателя. В частности, лабораторное оборудование различ- Страна гражданство персоны. ные инструменты и снаряжение, используемое Электронный адрес адреса вида имя_пользова- учёными, работающими в лаборатории для теля@имя_домена, используемый в технологии выполнения экспериментов или осуществления электронной почты. измерений. Лабораторное оборудование подраз- деляется на общелабораторное, измерительное, Язык язык, которым владеет объект коммуни- специализированное, испытательное и аналити- кации. ческое. Резюме документ, содержащий информацию о Сервис совокупность средств для обслужива- навыках, опыте работы, образовании и другой отно- ния пользователей, процесс оказания услуг. сящейся к делу информации, обычно требуемый при рассмотрении кандидатуры человека для найма на Награда что-либо, выдаваемое в качестве работу. поощрения за заслуги, отличия, в знак благодар- ности за что-либо. К наградам относят: почётные Сущности второго уровня могут быть класси- знаки, призы, премии, почётные грамоты, ценные фицированы или типизированы в соответствии с подарки и почётные звания. определенными классификациями. Так, например, Финансирование можно классифицировать как [3]: Квалификация опыт и навыки, степень профес- Программа финансирования, Запрос (источник сиональной подготовленности к выполнению опре- финансирование еще не найден), Тендер, Подарок. деленного вида работы. Почтовый адрес текст в 26 Сущности-связи между базовой и сущностью второго уровня формируются также как и для пары базовых. Ее двойное название всегда указывает на ИмяСущности1_ИмяСущности2 то, между чем и чем создана такая связь, например сущность-связь Персона_Финансирование, подра- ИД Сущности1 зумевает, что создана связь между базовой ИД Сущности2 сущностью Персона и сущностью второго уровня ИД Класса Финансирование. Соответственно в ее первичный ИД Классификационной схемы ключ будут входить идентификаторы от каждой из Дата начала этих сущностей. За идентификаторами далее Дата окончания следуют так называемые семантические идентификаторы класса и классификационной схемы и метки времени (даты начала и окончания). Рис. 5 Композиция первичных ключей в связующих Все вместе идентификаторы, семантические ссылки сущностях и метки времени составляют первичный ключ сущности-связи, как это показано на рис. 5. Заголовок Подзаголовок Резюме Аббревиатура названия Ключевые слова Библиографические заметки Научная публикация Название Описание Научные интересы Ключевые слова Название Ключевые слова Организация Событие Персона Проект Научные интересы Ключевые слова Ключевые слова Заголовок Резюме Рис. 6 Поддержка многоязычности для базовых сущностей др. Семантический слой также учитывает много- 7 Многоязычные атрибуты стали кратные языковые представления. сущностями Помимо классификации базовых и сущностей второго уровня, объекты классификации также учи- Много информации в исследовательских средах нуждается в представлении на больше чем одном тывают языковые ссылки (Код языка) и многие дру- гие классификации. Таким образом, можно поддер- языке. Как показано на рис.6, модель содержит мно- жать и сами схемы классификации на нескольких го сущностей, зависимых от языка, например, Клю- языках. Эта свойство особенно важно для стран, где чевые слова, Резюме, Научные интересы, Названия, говорят на нескольких официальных языках. Назва- Заголовок, Библиографические заметки, Описания и ния страны, например, можно теперь представить на 27 разных языках: België (du), Belgien (ge), Belgique различных языках (ключевое слово, резюме, описа- (fr), Belgium (en). ние и т.д.) Имя Сущности 8 Описания базовых сущностей модели и их концептуальные схемы ИД базовой сущности Все сущности представляемой модели имеют Код языка набор описательных атрибутов. Те из них, которые Перевод требуют многоязычности, представлены как отдель- Текст ные сущности. На рис. 8 изображены базовые сущ- ности со своими атрибутами, многоязычные атрибу- Рис.7 Набор атрибутов многоязычных сущностей ты выделены подчеркиванием. Каждая базовая или сущность второго уровня имеет идентификатор и На рис. 7 показано, как идентифицируется каж- URI (UniformResourceIdentifier унифицированный дая зависимая от языка сущность, во-первых, идеен- идентификатор ресурса), содержащий ссылку на тификатором той сущности, с которой она связана (постоянный) публичный ресурс, а также прочие (например, ИД Публикации); во-вторых, ссылкой на описательные атрибуты. языковой код (Код языка), в-третьих, типом пере- Опишем подробнее сущность Научная публика- вода (Перевод); все эти три поля вместе составляют ция (для краткости назовем ее просто Публикация) и первичный ключ. Далее за первичным ключом идет все ее связующие сущности. – текстовое значение, которое содержит текст на Организация ИД организации Акроним Название Численный состав Персона Код валюты ИД персоны Область исследования Имя Ключевые слова Фамилия URI Другое имя Пол Область исследования Научная публикация Ключевые слова URI ИД публикации Заголовок Подзаголовок Аббревиатура названия Резюме Ключевые слова Библиографические заметки Дата Номер Том Издание Проект Серия Выпуск ИД проекта Первая страница Акроним Последняя страница Дата начала Всего страниц Дата окончания Всего иллюстраций Название ISBN Краткое описание ISSN Ключевые слова Событие URI URI ИД события Код страны Город Платный или бесплатный Дата начала Дата окончания Название Краткое описание Ключевые слова URI Рис.8 Описательные атрибуты базовых сущностей 28 научной публикации выделим шесть связующих 9 Публикация базовых сущностей: Публикация_Классификация; Согласно [10] Издание или Публикация Публикация_Публикация; документ, прошедший редакционно-издательскую Публикация_Персона; обработку, полученный печатью, тиснением или другим способом, содержит информацию, предна- Публикация_Организация; значенную для распространения, и соответствует Публикация_Проект; требованиям Государственных стандартов, других Публикация_Событие. нормативных документов по их издательскому Все сущности-связи содержат атрибуты для оформлению и полиграфическому исполнению. Под определения семантики связей (Класс и Схема клас- документом понимается материальный объект, сификации) и темпоральности (Даты начала и содержащий информацию, закрепленную создан- окончания). ным человеком способом для передачи во времени и 9.1 Семантика сущности-связи пространстве. Издание, наряду с печатным текстом может содержащее аудиозаписи или изображения на Публикация_Классификация других материальных носителях или имеющее Для классификации сущности Публикация мо- сопроводительную вспомогательную информацию, жет использоваться одновременно несколько раз- называется комбинированным. личных классификационных схем. Как было упомя- В частности Научное издание или Научная нуто выше (см. раздел 4) можно использовать клас- публикация это издание, содержащее результаты сификации, предложенные в проектах CERIF [3] и теоретических и (или) экспериментальных исследо- ЕНИП [1]. На основании рассмотренных выше ваний, а также научно подготовленные к публика- классификаций научных публикаций, а также ГОСТ ции памятники культуры, исторические документы (ДСТУ [9-10]), действующего в настоящее время в и литературные тексты. Украине, нами предлагается новая классификация Для сущности Публикация, с учетом связи (см. рис. 9). между базовыми сущностями, а также того факта, что сущность Публикация сама по себе может иметь одну или несколько классификаций, в модели Схема классификации «Типы публикаций» - Книга; - Книжная рецензия; - Резюме главы книги; - Рецензия главы книги; - Часть книги; - Антология; - Монография; - Справочник | Cловарь; - Учебник; - Энциклопедия; Публикация Публикация_Классификация - Руководство; - Другие книги; ИД публикации ИД класса - Журнал; ИД схемы классификации - Журнальная статья; Дата начала - Рецензия журнальной статьи; Дата окончания - Резюме журнальной статьи; Доля - Труды конференции; - Статья трудов конференции; - Сборник научных работ; - Статья сборника научных работ; - Препринт; - Письмо; - Письмо редактору; - Автореферат диссертации; - Диссертация; - Отчет; - Краткое сообщение; - Постер; - Презентация; - Новости; - Комментарий; - Аннотация; - Стандарт. Рис.9 Классификация видов публикаций 29 На рис. 9 представлена связующая сущность данные из (uses data from CiTO), использует Публикация_Классификация, где перечислены возм- метод из (uses method from CiTO), опроверга- ожные классы предложенной классификации «Типы ет (refutes CiTO), совершает плагиат (plagi- публикаций». arizes CiTO); мнений и оценок – позитивно оценивает 9.2 Семантика сущности-связи (agrees with CiTO, supports CiTO, credits Публикация_Публикация CiTO, respondsPositively-to SWAN, сonsistent with SWAN), негативно оценивает (critiques Между сущностями Публикация и Публикация в [3] выделено только два отношения: CiTO, disagrees with CiTO, responds negative- ly to SWAN, inconsistent with SWAN, disputes Производный – одна публикация происходит CiTO, parodies CiTO, ridicules CiTO), ней- из другой публикации. трально оценивает (responds neutrally to Является частью – одна публикация является SWAN); частью другой публикации. иерархические и ассоциативные связи – рас- Этот перечень связей может быть существенным ширяет (extends CiTO), broader SKOS), сужа- образом расширен. В различных научных дисципли- ет (narrower SKOS), родственный (related нах были предприняты попытки разработать более SKOS, relevantTo SWAN), альтернативен подробную категоризацию отношений между науч- (alternativeTo SWAN); ными текстами. Наиболее известными результатами между компонентами одного произведения – этих попыток являются онтология SWAN (Semantic дублирующая копия, новая редакция, ранняя Web Applications in Neuromedicine) [12], а также редакция, аудио/видео версия текстового, CiTO (Citation Typing Ontology) [13], DoCo (Docu- текстовая версия аудио/видео, презентация ment Components Ontology) [14] и др. В дальнейшем текстового, часть (isPartOf DoCo, paragraph все эти частные разработки были систематизирова- DoCo, part DoCo, section DoCo), включение ны, дополнены и объединены в единый комплекс как части (hasPart, DoCo), абстракт (abstract под названием SPAR (Semantic Publishing and Refe- DoCo), оглавление (table of contents DoCo), rencing Ontologies) [5], включающий взаимосвязан- предисловие или введение (foreword DoCo, ную совокупность онтологий различного назначе- preface DoCo), приложение к (appendix ния. DoCo), библиография (bibliography DoCo), В [11] разработана оригинальная категоризация глоссарий (glossary DoCo). связей Публикация_Публикация исходя из их при- менения в научной практике. Так, например, была 9.3 Семантика сущностей-связей Публикации с выведена группы связей: базовыми сущностями научного вывода – заимствует основопола- Как сказано выше, сущность Публикация связана гающие идеи (obtain background from CiTO), с другими базовыми сущностями с помощью сущ- развивает (updates CiTO), подтверждается ностей-связей, для которых должна быть определена (cites as evidence CiTO), подтверждает семантика. (confirms CiTO), уточняет (qualifies CiTO), На рис. 10 представлен вариант классификации исправляет (corrects CiTO); сущности-связи Публикация_Персона: использования – содержит утверждения/фак- ты (contains assertion from CiTO), использует Типы связей между сущностями Публикация_Персона Персона и Публикация Публикация ИД Персоны - Автор ИД Публикации ИД класса - Автор (порядковый номер) ИД схемы классификации - Автор (в процентах) Дата начала - Создатель Дата окончания - Соавтор Доля - Редактор Авторское право - Рецензент - Переводчик - Издатель - Группа авторов - Составитель Рис. 10 Семантика (роли) в связи Публикация_Персона 30 9.4 Связи Публикации с сущностями второго Организация Проект уровня Публикация связана с некоторым набором Событие Персона сущностей второго уровня (рис. 11): Финансиро- вание, Патент, Продукт, Метрики, Цитирование, Оснащение. Научная публикация Семантика связей определена в соответству- Финансирование Оснащение ющих сущностях-связях: Публикация_Финансиро- вание, Публикация_Патент, Публикация_Продукт, Патент Цитирование Публикация_Метрики, Публикация_Цитирование, Продукт Метрики Публикация_Оснащение. Рис. 11 Сущности первого и второго уровней модели На рис. 12 приведен пример возможной семанти- научная публикация и связи между ними ки для сущности-связи Публикация_Мет-рики [3]: Типы связей между сущностями Публикация и Метрики Публикация Публикация_Метрики - Область/тип исследований - Количество запросов ИД Публикации ИД Метрики - Количество обращений ИД класса - Количество скачиваний ИД схемы классификации - Количество внешних институтов Доля - Число авторов Год - Количество самоцитирований Количество - Количество цитат - Количество входящих ссылок - Требования IPR - Награда за лучшую статью - Импакт-фактор ISI - Тип публикации Рис. 12 Семантика (роли) в связи Публикация_Метрики основана и совместима с широко применяемой в 10 Заключение настоящее время европейской формальной концеп- В работе была рассмотрена, разработанная в туальной моделью научных данных CERIF, она рамках проекта "Модели, методы и средства инте- обеспечит легкую интеграцию отечественных сис- грации гетерогенных научных информационных тем в общее научное пространство. ресурсов НАН Украины", концептуальная модель научных ресурсов. В частности, была предложена Литература модель публикации, как одного из основных ресур- [1] Бездушный А.А., Бездушный А.Н., Серебряков сов информационного научного пространства. В.А., Филиппов В.И. Интеграция метаданных Также были рассмотрены модели, описывающие Единого Научного Информационного Про- информационные ресурсы в научной и смежных странства РАН // Вычислительный центр РАН, областях, таких как библиотековедение и культур- г. Москва 2006. 238с. Библ. 61 наим. ное наследие: ЕНИП, CERIF, SPAR, CIDOC CRM, [2] CERIF 2008 - 1.2 Full Data Model (FDM). FRBR, FRBRоо. Introduction and Specification Модель описывает такие основные сущности http://www.eurocris.org/Uploads/Web%20pages/ научного информационного пространства, как пуб- CERIF2008/CERIF2008_1.2_FDM.pdf ликация, персона, организация, проект и событие, а [3] CERIF 2008 – 1.2 Semantics, euroCRIS. также связи между ними. Наряду с основными сущ- http://www.eurocris.org/Uploads/Web%20pages/ ностями предложен перечень возможных второсте- CERIF2008/Release_1.2/CERIF2008_1.2_Semant пенных. Преимуществом данной модели является ics.pdf поддержка многоязычности и возможность исполь- [4] CERIF 2008 – 1.2 XML Data Exchange Format зования различных классификационных схем. Specification Предложенная модель научной публикации http://www.eurocris.org/Uploads/Web%20pages/CERIF может найти применение в научно-исследователь- 2008/Release_1.2/CERIF2008_1.2_XML.pdf ских и библиотечных информационных системах, [5] David Shotton. Introduction the Semantic Publish- для поддержки стандартизации, интеграции и обме- ing and Referencing (SPAR) Ontologies. October на научными знаниями. Поскольку данная модель 14, 2010. 31 http://opencitations.wordpress.com/2010/10/14/int гии, электронные коллекции», Воронеж; 19-22 roducing-the-semantic-publishing-and- октября 2011 г. – стр. 197-206 – Воронеж, 2011. referencing-spar-ontologies/ [12] SWAN (Semantic Web Applications in Neurome- [6] Crofts N., Doerr M., Gill T., Stead S.,, Stiff M. dicine) - Scientific Discourse Relationships Onto (editors), Definition of the CIDOC Conceptual logy Specification. Reference Model, January 2008. Version 4.2.4. http://swan.mindinformatics.org/spec/1.2/discours [7] Functional Requirements for Bibliographic erelationships.html Records, Final Report / IFLA Study Group on the [13] David Shotton. CiTO, the Citation Typing Ontolo- Functional Requirements for Bibliographic gy. J. of Biomedical Semantics 2010, 1(Suppl 1): Records. – München: K.G. Saur, 1998. (UBCIM S6. http://www.jbiomedsem.com/content/1/S1/S6 Publications, New Series; v. 19). [14] David Shotton, Silvio Peroni. DoCO, the http://archive.ifla.org/VII/s13/frbr/frbr.htm Document Components Ontology. 17/02/2011. [8] Doerr M., Leboeuf P. Modelling intellectual http://purl.org/spar/doco/ processes: The FRBRCRM harmonization // In Conf. Proc. of ICOM-CIDOC Annual Meeting. Gothenburg, Sweden. 2006. p. 10–14. Conceptual model of research publication [9] Издания. Основные виды. Термины и Valeriy Reznichenko, Galina Proskudina, определения. ГОСТ 7.60-90. Olga Ovdii [10] Видання. Основні види. Терміни та визначення. ДСТУ 3017—95 (Укр.) The paper concerns resource conceptual model creation for research and digital libraries information [11] Паринов С.И., Когаловский М.Р. Технология systems, particularly the publication model as one of семантического структурирования контента main resources of a research environment. Also well- научных электронных библиотек // Труды XIII known connected projects are discussed such as ЕНИП, Всероссийской научной конф. «Электронные CERIF, SPAR, CIDOC CRM, FRBR, FRBRоо. библиотеки: перспективные методы и техноло- 32