=Paper=
{{Paper
|id=Vol-1297/042-47_paper-8
|storemode=property
|title=Персональная цифровая библиотека Libmeta как среда интеграции связанных открытых данных
(Personal Digital Library Libmeta as an Integrating Environment for Linked Open Data)
|pdfUrl=https://ceur-ws.org/Vol-1297/042-47_paper-8.pdf
|volume=Vol-1297
|dblpUrl=https://dblp.org/rec/conf/rcdl/AtaevaS14
}}
==Персональная цифровая библиотека Libmeta как среда интеграции связанных открытых данных
(Personal Digital Library Libmeta as an Integrating Environment for Linked Open Data)
==
Персональная цифровая библиотека Libmeta
как среда интеграции связанных открытых данных
© О. М. Атаева © В. А. Серебряков
Вычислительный центр им. А.А. Дородницына РАН,
Москва
oli@ultimeta.ru serebr@ultimeta.ru
необходимость разработки новых подходов к
Аннотация созданию электронных библиотек и расширяет
В статье описывается семантическая возможности их использования.
электронная библиотека Libmeta, ресурсы
которой могут быть обогащены за счет
2 Эволюция библиотек
использования данных из источников, Развитие информационных технологий в XX веке и
расположенных в LOD. Связывание их использование в библиотеках привело к
происходит посредством онтологии появлению нового типа библиотек [16].
предметной области, которая задается
пользователем и определяет его область 2.1 Электронные библиотеки
интереса. Затрагиваются проблемы
Электронные библиотеки возникли достаточно
интеграции ресурсов библиотеки в LOD и
давно и представляют собой набор
создания поисковых запросов по
документоподобных ресурсов и их библиографии, в
источникам данных, а также обсуждается
доступных для компьютеров форматах, а также
использование спецификаций и технологий
сопутствующих услуг для их хранения и поиска. При
из стека LOD в рамках одной системы.
*
этом в таких библиотеках не выделялись другие виды
Работа выполнена при поддержке РФФИ – важных объектов, например, персоналии, организации
проект № 14-07-00058 А. и т.п. Встретив упоминание персоны в одном месте,
невозможно точно установить соответствие с ее
1 Введение упоминанием в другом месте. Даже идентифицировав
Последнее десятилетие наблюдается бурное персону, как правило, нет возможности получить
развитие технологий Semantic Web и активное документы, связанные только с ней. Это обусловлено
развитие сообщества, поддерживающего Linked тем, что метаданные рассматривались как нечто,
Open Data (LOD). Основная идея LOD заключается в связанное только с документом.
решении задач интеграции данных, представленных
2.2 Цифровые библиотеки
в сети, для чего предлагается представить
информацию в формализованном виде, что делает ее Цифровые библиотеки представляют собой
доступной для машинной обработки. информационные системы, которые обеспечивают
Развитие технологий Semantic Web и задачи коллекционирования, хранения и навигации
популярность идеи LOD оказали влияние и на по разнообразным электронным документам, как
электронные библиотеки, которые хранящимся в самой системе, так и доступных по
трансформируются и превращаются в центры сети. Термин «цифровые библиотеки» часто
данных, вокруг которых формируется сообщество рассматривается как синоним термина
заинтересованных экспертов и пользователей, «электронные библиотеки», тогда как цифровые
принимающих активное участие в их развитии. При библиотеки являются продуктом следующего этапа
консорциуме W3C была создана рабочая группа под развития электронных технологий и исследований в
названием Linked Library Data, которая выработала области электронных библиотек, использование
pекомендации по связыванию библиографических результатов которых позволило расширить
данных с использованием стандартных функциональность электронных библиотек,
семантических технологий RDF, SPARQL, OWL. превратив их в «цифровые».
Появление семантических технологий вызывает
2.3 Семантические цифровые библиотеки
Труды 16-й Всероссийской научной конференции Использование семантических технологий
«Электронные библиотеки: перспективные методы и
значительно расширяет функциональность
технологии, электронные коллекции» — RCDL-2014,
Дубна, Россия, 13–16 октября 2014 г. библиотек: данные лучше структурированы,
42
выделены связи между ними, улучшается поиск, предметной области информационных ресурсов, т.е.
появляется возможность интегрировать данные автоматизированное обнаружение новых наборов
различных типов: персоны, ресурсы, пользователи. данных и, по возможности, установка и поддержка
Обеспечивается интероперабельность с другими связей с элементами данных из этих наборов данных
системами, не обязательно являющимися с уже имеющимися ресурсами в репозитории
библиотеками, так как основной задачей библиотеки, обеспечивая одновременно
семантических технологий остается предоставление рекомендуемую проектом LOD функциональность в
метаданных в машиночитаемом формате. рамках одной системы.
Онтологии играют основную роль для решения
задач, вызванных структурными различиями 3 Источники данных
существующих систем и семантическими
различиями стандартов метаданных. Мы подразделяем источники данных на два
типа: внешние и внутренние. Внешними мы
2.4 Персональные семантические цифровые называем те источники, которые интегрированы в
библиотеки LOD, и данные которых представлены в RDF и
доступны нам с использованием SPARQL. Для
Мы выделяем персональные семантические своих практических целей мы использовали такие
цифровые библиотеки, наполнение которых известные источники в LOD, как DBpedia [3],
индивидуально для каждого пользователя системы и Europeana [4]. Внутренние источники могут
выполняется в полуавтоматическом режиме из представлять собой любой другой тип источника
разнородных источников данных, интегрированных данных, который не интегрирован в LOD. На
в облако LOD. Будем далее для краткости называть практике в качестве внутренних источников мы
их персональными открытыми цифровыми использовали другие библиотеки, которые
библиотеками или ПОЦБ. Типы информационных предоставляли доступ к своим данным по протоколу
ресурсов и их структура определяются OAI-PMH.
пользователем, исходя из своих интересов, то есть
пользователь описывает интересующую его 3.1 Внешние источники
предметную область, определяя тематическое
Данные из источников LOD хорошо
наполнение библиотеки.
структурированы и обычно доступны через
Данная статья является продолжением нашей SPARQL точку доступа для поисковых запросов.
предыдущей работы [1], в которой представлена Так как одним из принципов LOD является
общая схема системы, выделены ее основные использование URI, по которым можно получить по
модули и дана характеристика каждого из них. HTTP информацию в стандартном формате, то для
Основное развитие системы произошло в доступа к информации определенного ресурса
направлении поиска источников связанных данных пользователь может использовать только этот URI.
с использованием технологий из стека LOD. В
Основной задачей подсистемы подключения
следующих разделах привидено описание этого
внешних источников является создание и поддержка
модуля и детализация его функций, а также кратко
отображения онтологии предметной области на
описаны первые практические результаты.
схему источника данных, посредством которого
Основная задача системы заключается в пользователь получит возможность автоматического
предоставлении пользователю унифицированного мониторинга для последующего связывания
представления для возможности имеющихся данных в системе с новыми данными по
автоматизированного извлечения интересующей его определенным запросам в терминах своей
информации по определенной предметной области. онтологии. При этом в системе при импорте может
Представление ресурсов библиотеки в виде сохраняться лишь внешний URI ресурса.
связанных данных расширяет функциональность
семантических цифровых библиотек, давая 3.2 Внутренние источники
возможность: Несмотря на активное развитие LOD, нельзя
включения дополнительных элементов игнорировать источники данных, которые в него еще
описания данных информационных ресурсов, не интегрированы и при этом содержат огромный
полного или частичного обновления данных из объем полезных данных. По этой причине в нашей
источников, системе реализован блок поддержки протокола OAI-
PMH, который широко используется в библиотечной
использования интерфейсов для создания среде для обмена метаданными. Основным его
запросов к интегрированным в LOD недостатком, с точки зрения извлечения информации
источникам данных на основе SPARQL, опираясь на принципы LOD, является то, что для
включения в описания ресурсов других типов доступа к информации о ресурсе нужно обладать
информации. специальными знаниями о протоколе, при этом знание
Одна из задач, которая решается в ПОЦБ, – это идентификатора OAI, который используется в таком
реализация интеграции набора данных в источнике для представления информации о ресурсе,
пространство LOD с использованием онтологии не сильно облегчает поиск этих данных. Например,
43
OAI идентификатор ресурса 42041024, на портале 5 Онтология ПОЦБ
«Научное наследие Росии», для пользователя не
обладающего специальными знаниями не позволит Онтология ПОЦБ разработана в общем виде без
найти полезной информации, тогда как идентификатор привязки к конкретным методам и способам
из источника LOD реализации семантических цифровых библиотек [1],
http://dbpedia.org/page/Mikhail_Lomonosov интуитивно [5].
понятен и позволяет получить доступ к полезной Фактически общая онтология ПОЦБ состоит из
информации о ресурсе, а также к связанным с ним двух онтологий:
ресурсам. Таким образом поддерживая этот протокол, 1) онтология СЭБ, построенная на основе
мы внутри нашей системы решаем задачу онтологии информационных систем, включающая в
формального предоставления и интеграции этих себя основные понятия, необходимые для
данных в соответствии с принципами LOD, при этом обеспечения основной функциональности
сохраняя информацию о первоначальном источнике, библиотеки, такие как ресурс, пользователь,
одновременно позволяя решать задачи связывания коллекция, словарь, классификатор, запрос,
данных с другими источниками из облака LOD в источник и т.д.
рамках системы.
2) онтология и тезаурус предметной области, для
В работе [2] предлагается улучшенная версия которой пользователь определяет ее понятия, их
этого протокола, которая является развитием тип, структуру, совокупность словарей и
протокола в сторону поддержки связанных данных. классификаторов, которые представляют тезаурус
предметной области, который обеспечивает доступ
4 Функциональность ПОЦБ неквалифицированных пользователей, решающих
К основной функциональности системы, задачи поиска информации, к знаниям предметной
реализующей ПОЦБ относятся: области в разных источниках. Эта онтология
позволяет:
функции атрибутного поиска;
выработать и зафиксировать общее
функция выделения неявных связей между понимание области знания;
ресурсами по их описаниям;
представить знания в удобном для обработки
функция работы с коллекциями; автоматизированными подсистемами виде,
создание/просмотр/редактирование/объедине- обеспечить возможность получения и
ние/вложенные коллекции; накопления новых знаний, а также
функция отображения онтологии ИД; представить возможность многократного
использования знаний
функция детализации, которая обеспечивает
преобразование в подзапросы, Тезаурус же обеспечивает терминологическую
соответствующих различным ИД; поддержку и помогает пользователям
сформулировать запрос к системе, в том числе,
функция для выполнения запросов и обработки подобрать правильные ключевые слова для
результатов и предоставления окончательного описания искомого результата, имеющихся данных
результата пользователю; и контекстной информации.
функция автоматического мониторинга ИД на Тезаурус необходим для навигации и для
наличие новых/измененных данных; автоматического уточнения и расширения запроса,
создание словарей, классификаторов, введенного пользователем, посредством
тезаурусов; использования зафиксированных в тезаурусе связей
редактирование элементов; между терминами. Например, в частном случае, в
качестве предметной области рассматривается
поддержка («гибкой») классификации онтология из работы [6] со всем набором словарей и
ресурсов; классификаторов. Данные, представленные этой
поддержка настройки уровней доступа к онтологией, представляют собой численные
различным ветвям тезауруса. значения теплофизических свойств для различных
Исходя из определения источников данных веществ в разных условиях и их библиографии.
ПОЦБ и перечня функций системы, можно Основным классом, поддерживаемым в
выделить «внутренние» функции, т.е. те, которые онтологии СЭБ, является класс информационный
оперируют данными в рамках системы и ресурс, подклассами которого являются такие
интегрируют данные из «внутренних» источников и классы ресурсов как публикация, персона и т.д.
фактически определяют обычную семантическую Подключаемые классы предметной онтологии могут
библиотеку. «Внешние» функции обеспечивают являться как подклассами класса информационный
подключение и извлечение данных из LOD и ресурс, так и расширять структуру подклассов этого
позволяют задать тематическое наполнение класса. Таким образом онтология предметной
библиотеки и установить связи, таким образом области одновременно может расширять список
задавая фактически определение ПОЦБ. информационных ресурсов системы, а также
дополнять и расширять структуру информационных
44
ресурсов. Для поддержки такой интеграции информация о связанных источниках данных. VOID
онтологии реализован отдельный модуль поддержки описание содержит информацию об используемых
различных типов связей определен минимальный словарях, статистическую информацию о том,
словарь этих связей. Такой подход к созданию сколько ресурсов того или иного типа или значений
онтологии системы позволяет конкретизировать определенных свойств используются во множестве.
область интересов в рамках конкретной При создании словаря VоID была сведена к
персональной библиотеки. минимуму необходимость создания новых свойств и
классов, путем использования существующих
6 Поиск по источникам данных словарей. Например, для описания статистической
информации используется словарь SCOVO. На
Поисковые системы, ориентированные на основе этой информации можно делать вывод о
источники, интегрированные в LOD, такие как релевантности источника тому или иному запросу
Sig.ma, Falcons, и SWSE, обеспечивают поиск на или предметной области.
основе ключевых слов, ориентированный на
использование той же парадигмы, что и В рассматриваемой системе VoID описание
существующие лидеры рынка, такие как Google и набора данных в хранилище генерируется с
Yahoo. Пользователю предоставляется окно поиска, помощью D2R Server [15]. В сгенерированное
в котором он может ввести ключевые слова, описание не попадает информация о подключенных
связанные с предметом или темой, в которых он источниках данных и статистика по имеющимся с
заинтересован, и приложение возвращает список ними связям. Для включения этой информации
результатов, которые могут (или нет) иметь были использованы правила, по которым
отношение к запросу. Фактически это поиск по осуществляется поиск связанных данных [12].
вхождению слова в любой элемент описания. Поиск Полученное описание в рамках используемой
же данных в источниках предполагает, что системы позволяет формировать распределенные
пользователь знает структуру данных запросы к подключенным источникам данных в
терминах онтологии, используемой в этой системе.
В работе [8] представлена система поиска Используя VoID описание, запросы из системы
LOQUS в репозиториях LOD на основе транслируются в термины уже источников данных.
высокоуровневой онтологии, на которую Также это описание применяется для отображения
отображается схема подключаемого источника обобщенного результата поиска.
данных (ИД). Эта онтология составлена на основе
высокоуровневой онтологии, которая содержит 7 Общая схема подключения источников
наиболее общие и самые абстрактные концепты,
имеет исчерпывающую иерархию фундаментальных данных
понятий (около 1 тыс.), а также набор аксиом На рисунке 1 представлена общая схема
(примерно 4 тыс.), определяющих эти понятия. подключения различных источников данных с
Каждому концепту определен идентификатор или использованием технологий из стека проекта LOD
обобщающее понятие из LOD. Онтология так же,
как и в нашем подходе, используется для Доступ к данным Libmeta осуществляется через
трансляции SPARQL запросов пользователей в ее общую онтологию, которая, как было сказано,
интегрированные ИД. Но недостаточный уровень состоит из: а) онтологии семантической библиотеки,
концептуализации понятий не позволяет в б) онтологии предметной области, которая задает
достаточной мере сконцентрироваться на тематическое направление информационных
определенной предметной области. ресурсов. При этом D2R Server [15] использует
онтологию Libmeta для создания SPARQL точки
C другой стороны задача автоматизированного доступа к ее данным. Используются правила,
поиска релевантных источников данных которые задаются для каждого подключаемого
осложняется тем, что чаще всего информация о источника (правил может быть несколько), с
связях между ними проставляется в основном на помощью которых осуществляется поиск и
уровне данных с помощью связей sameAs, seeAlso. сохранение связей между данными Libmeta и
Даже простой анализ связей sameAs, seeAlso на источником из LOD. Для задания правил
уровне найденных данных позволит выявить связывания используется фреймворк SILK. Правила
эквивалентные классы, ранее не определенные связи описываются в соответсвии с требованиями SILK и
между разными источниками или новые источники. хранятся в определенном для каждого источника
Описание связей на уровне схем затем можно месте. После описания правила и указания его
использовать при формировании запросов к расположения все действия по запуску и анализу
источникам данных. результатов работы SILK выполяются программно,
До недавнего времени связи между источниками ля этого используется соответсвующая задаче
на уровне схем описывались гораздо реже. В версия фреймворка.
последние несколько лет эта задача решается с При каждом подключении нового источника или
введением и активным распространением обновлении набора связей уже подключенных
спецификации VOID [7] для описания источников нужно обновлять VoID описание множества данных
RDF данных, в которой предоставляется Libmeta, анализируя полученный набор ссылок и
45
правила, по которым они выполнялись. Это Для каждого ресурса Libmeta может быть
позволит обновить статистическую и структурную получено его представление, удовлетворяющее
части VoID, необходимых для использования при модели Europeana Semantic Elements (ESE) [14],
формировании запросов в терминах общей которое определяет ряд обязательных элементов
онтологии и их преобразования в запросы к метаданных.
релевантным источникам в соответствующим им Для мониторинга новых данных и установления
терминах. связей с внешними источниками данных в рамках
системы используется SILK Framework [12]. Для
установления связей необходимо указать источник
данных, правила доступа к данным и правила
связывания. Вся эта информация была написана в
виде конфигурационного файла на языке SILK LSL.
Сейчас проводятся работы по связыванию
данных с авторитетными файлами VIAF [13]. Это
проект, который объединяет все значимые
библиотеки, интегрирующие свои данные в LOD.
9 Заключение и дальнейшие работы
Разрабатываемая ПОЦБ предполагает поддержку
функциональности, рекомендуемую проектом LOD,
Рисунок 1 а именно: средства для представления информации
из различных источников как для установления, так
Libmeta также исторически поддерживает обмен и для поддержки связей между RDF-ресурсами, как
данными по протоколу OAI-PMH с библиотеками, внутренними, так и внешними, т.е. предполагает
неинтегрированными в LOD, выступая агрегатором, осуществление полного цикла интеграции набора
который интегрирует их данные в LOD. данных в пространство LOD.
Основные преимущества реализации принципов
8 Текущее состояние работ LOD в Libmeta:
В рамках создания первой версии ПОЦБ был Связность. Подключение источников, не
реализован проект по созданию обязательно библиотек;
стандартизированной и децентрализованной среды Машиночитаемость.Представление в RDF,
управления информацией электронных фондов использование общепринятых словарей и
Libmeta [10]. В проекте реализованы средства онтологий;
интеграции приложений с разными Доступность. Доступные для свободного
источниками/каталогами метаданных/данных, использования всеми пользователями без
сервис директорий метаданных, унифицированный каких-либо ограничений в виде авторских прав.
интерфейс поиска данных.
Использование онтологии предметной области
Существенное различие во внутренних моделях позволит не только включать другие типы ресурсов
данных, используемых в различных музеях, в библиотеку, но и уточнять и включать в
библиотеках и архивах, является главной проблемой библиотеку описания внутренней структуры
на пути решения задачи интеграции данных [9]. Для информационных ресурсов нужной детализации,
преодоления этой проблемы в решаемой задаче обращаясь за данными к источникам, которые
интеграции данных было предложено участникам раньше с трудом могли использоваться в рамках
экспортировать метаданные из своего внутреннего интеграции ресурсов электронных библиотек.
формата в формат на базе Dublin Core с
использованием синтаксиса XML, так как во Литература
внутренних используемых форматах удается
выделить общую часть, которая ложится в рамки [1] О. М. Атаева, В. А. Серебряков, Подход к
предложенного формата. В системе используется созданию персональной электронной
универсальный модуль загрузки метаданных в семантической библиотеки, RCDL, 2013.
произвольном XML-формате в соответствии с [2] Bernhard Haslhofer, Bernhard Schan, The
протоколом OAI-PMH. OAI2LOD Server: Exposing OAI-PMH Metadata
Основная коллекция метаданных была получена as Linked Data, 2008.
из библиотеки (тип источника внутренний) http://eprints.cs.univie.ac.at/284/1/lodws2008.pdf
«Научное Наследие России» [10]. Для интеграции [3] http://dbpedia.org
данных в LOD в качестве внешних источников было [4] http://europeana.eu
проведено связывание с данными DBpedia по [5] R. Weber. Ontological Foundations of Information
авторам, а для связывания музейных экспонатов был Systems, Queensland, Australia, Coopers &
проведен эксперимент с данными из Europeana. Lybrand. 1997.
46
[6] О. М. Атаева, А. О. Еркимбаев, В. Ю. [12] http://lod2.eu/Project/Silk.html
Зицерман, Г. А. Кобзев, К. П. Пушин, В. А. [13] http://viaf.org/
Серебряков, К. Б. Теймуразов. Интеграция [14] http://pro.europeana.eu/ese-documentation/
данных по теплофизическим свойствам
[15] http://d2rq.org/d2r-server
веществ методами онтологического
моделирования, RCDL, 2013. [16] Е. Горный. Развитие электронных библиотек:
мировой и российский опыт, проблемы,
[7] http://www.w3.org/TR/void/
перспективы / Е. Горный, К. Вигурский //
[8] P. Jain, K. Verma, P.Z. Yeh, P. Hitzler, A.P. Интернет и российское общество / под ред.
Sheth. LOQUS: Linked Open Data SPARQL И. Семенова; Моск. Центр Карнеги. – М. :
Querying System. Technical report, Tech. rep., Гендальф, 2002. – С.158–188.
Kno. e. sis Center, Wright State University,
Dayton, Ohio, 2010. Available from Personal Digital Library Libmeta
http://www.pascal-hitzler.de/resources/
publications/loqus-tr-2010.pdf
as an Integrating Environment for Linked
[9] А.Б. Антопольский, А.А. Каленкова, Н.
Open Data
Каленов, В.А. Серебряков, А. Сотников.
Olga M. Аtaeva, Vladimir A. Serebryakov
Принципы разработки интегрированной
системы для научных библиотек, архивов и The article describes semantic digital library
музеев // Информационные ресурсы России. – Libmeta resources of which can be enriched by means
2012. – № 1. – С. 2–7. of using data from the sources located in LOD. Binding
[10] А. Антопольский, О. Атаева, В. Серебряков.
is due to domain ontology which is user defined and
Среда интеграции данных научных библиотек, determines his/her field of interest. Problems of
архивов и музеев «LibMeta» // integration of library resources in LOD and creation of
Информационные ресурсы России. – 2012. – search queries on data sources are considered as well as
№ 5. – С. 8–12. use of specifications and technologies from LOD stack
within a system considered.
[11] http://e-heritage.ru/index.html
47