Проблемы использования данных из облака LOD для обогащения контента научных баз данных и знаний © З. В. Апанович © А. Г. Марчук Институт систем информатики им. А.П. Ершова СО РАН, Новосибирск apanovich@iis.nsk.su mag@iis.nsk.su (4). Способы решения этих проблем варьируют в Аннотация диапазоне от полностью ручных до В данной работе описаны проблемы, автоматизированных [4, 8, 10, 13, 14, 19]. При этом возникающие в процессе использования многие проблемы, такие, как проблема обработки данных из облака LOD для обогащения данных большого объема, проблема установления контента научных баз данных и знаний и соответствия между онтологиями, а также проблема подходы к их решению. Эксперименты объединения данных из разных наборов «еще выполнялись при помощи набора находятся в детском состоянии» [19]. С другой инструментов, разработанного для стороны, проблема (1) может быть решена при упрощения анализа данных из разных помощи запросов SPARQL 1.1 [8]. Проблема (2) наборов. В качестве тестовых примеров может быть решена как при помощи сложных использовались данные открытого Архива запросов SPARQL 1.1. Проблема (3) может быть СО РАН, и его онтология ОНС, а также частично решена при помощи таких различные наборы библиографических полуавтоматических инструментов, как SILK [10] данных, структурированные при помощи или LIMES [13] совместно с использованием онтологии AKT Reference ontology. запросов SPARQL. Наконец, проблема (4) также может быть решена при помощи запросов SPARQL Введение 1.1. Поскольку практически каждая из проблем может быть решена при помощи подходящего В связи с бурно развивающимся направлением набора SPARQL-запросов, мы расширили Semantic Web и его новой ветвью LOD (Связанные разработанную ранее программу визуализации Открытые Данные) в Интернете становятся онтологий средствами построения SPARQL- доступными большие объемы информации, запросов и генерации результатов как в текстовом посвященной различным научным направлениям. виде, так и в виде графа. SPARQL- запросы могут Облако LOD содержит в настоящий момент более быть сгенерированы также на основе нашей 28 миллиардов троек RDF. С одной стороны, эти визуализации одной или двух онтологий. В качестве данные могут быть использованы для обогащения тестовых примеров использовались онтология ОНС имеющихся семантических баз данных, с другой и данные открытого Архива СО РАН [20], а также стороны, имеющиеся базы данные могут быть также AKT Reference ontology [1], при помощи которой полезны для уточнения информации, хранящейся в структурированы различные наборы облаке LOD. библиографических данных. В работе сравнивается В работе [18] предложена четырехшаговая их структура, и обсуждается стратегия установления стратегия интеграции Связанных Данных в связей между наборами данных, описанных при приложения. Помимо проблем, специфических для помощи этих онтологий. конкретного приложения, требуется решить проблему доступа к связанным данным (1), 1 Визуализация онтологий для проблему нормализации словарей (2), установления исследования семантических систем идентичности сущностей (3) и фильтрации данных В настоящий момент в ИСИ СО РАН выполняется проект, направленный на интеграцию Труды 15-й Всероссийской научной конференции баз данных, разработанных в ИСИ СО РАН с «Электронные библиотеки: перспективные методы и данными мирового сообщества. С этой целью технологии, электронные коллекции» — RCDL-2013, изучаются базы данных облака Linked Open Data [4] Ярославль, Россия, 14-17 октября 2013 г. и выясняются возможности интеграции с ними систем, разработанных в ИСИ СО РАН [20], в 152 частности, научной информации из открытого (owl:DatatypeProperty и owl:ObjectProperty). При архива и фотоархива СО РАН выборе элемента этого списка соответствующие [http://soran1957.iis.nsk.su/pa2/Home/Portrait?id=c_do ребра высвечиваются в окне визуализации. Это 1000663]. Ее основное наполнение составляют свойство визуализации весьма существенно для документы, посвященные различным событиям СО понимания незнакомой онтологии. Например, при РАН, начиная с 1957 года. В базе имеется также выборе в онтологии такого класса как структурированная информация о людях, онс:participation высвечиваются ребра, отраженных в документах, научных организациях, и соединяющие классы онс:person, онс: participation и важнейших событиях в жизни СО РАН, в частности, онс:org-sys. Эта визуализация демонстрирует о научных конференциях. Структура Открытого специфическую особенность онтологии ОНС, архива организована при помощи Онтологии состоящую в том, что многие сущности, обычно Неспецифических Сущностей (ОНС), описанной в описываемые как отношения, в данной онтологии OWL-формате и содержащей 44 класса. описаны как классы, компенсируя отсутствие атрибутов у отношений в формате RDF. Для сравнения, на Рис. 1(б) показаны классы и отношения AKT reference ontology [1], которая в облаке LOD используется для описания многих библиографических порталов, таких как DBLP, Citeseer, ACM, IEEE и др. Часть данных этих порталов представлены в облаке Open Linked Data[5, 7]. Она содержит 157 классов. Попытки установления соответствия между этими онтологиями при помощи одной из лучших программ выравнивания AgreementMaker [6] оказались неудачными как из-за существенных лексических и структурных различий между рассматриваемыми онтологиями, так и из-за специфических особенностей онтологии ОНС, обсуждаемых ниже. Единственное очевидное (а) соответствие наблюдается между классами онс:person и akt:Person. Остальные связи гораздо менее очевидны. Рассмотрим, например, класс онс:participation. В онтологии открытого архива этот класс используется для описания фактов работы персон в различных организациях, а также фактов участия в различных мероприятиях, например, конференциях. Этот класс связан отношением онс:participant с классом онс:person и отношением онс:in-org с классом онс:org-sys. Класс онс:org-sys используется как для описания различных организаций, так и для описания мероприятий, например, конференций. В AKT Reference ontology эти же самые факты могут быть описаны несколькими способами. Это может быть (б) отношение akt:works-for между экземпляром класса akt:Employee и экземпляром класса akt:Organization Рис. 1. (а) Классы и отношения онтологии ОНС, (б) , отношение akt:has-affiliation между экземпляром классы и отношения AKT reference ontology. класса akt:Person и экземпляром класса akt: Organization , а также отношения akt:has-main-agent, На Рис. 1(а) показано изображение онтология akt:has-other-agents-involved между экземплярами ОНС открытого архива СО РАН, построенное классов akt:Event и akt:Generic-Agent. Из-за наличия нашей программой визуализации [21]. в онтологии ОНС таких классов как Прямолинейные ребра изображают таксономию, онс:participation, при установлении соответствия задаваемую отношениями класс-подкласс. между онтологиями возникает систематическая Криволинейные ребра изображают отношения типа потребность в генерации экземпляров классов, owl:ObjectProperty. При выборе одного из классов в которых до этого не было ни в одной из онтологий. поле “Selected entity class” на панели визуализации графа высвечиваются все отношения, описанные в онтологии как owl:ObjectProperty, а в нижнем поле выдается список отношений этого класса 153 2 Эксперименты по выравниванию Для упрощения задачи нами разработана программа, которая позволяет генерировать онтологий SPARQL-запросы на основе визуализации Рассмотрим для определенности случай онтологии. Пример установления такого генерации экземпляра класса онс:participation по соответствия показан на Рис. 2. Сначала в отношению akt:has-affiliation между экземпляром интерактивном режиме устанавливается класса akt:Employee и экземпляром класса соответствие между двумя наборами классов и akt:Organization. Для пополнения открытого архива отношений, а затем автоматически генерируется информацией о местах работы из одного шаблон SPARQL-запроса, осуществляющий библиографических порталов нам потребуется трансляцию данных. сначала установить соответствие между экземплярами классов akt:Person и онс:person, akt- Organization и онс:org-sys, а затем для каждого факта наличия отношения akt:has-affiliation между экземплярами классов akt:Person и akt-Organization потребуется сгенерировать новый экземпляр класса онс:participation, а также связать его отношением онс:in-org с соответствующим экземпляром класса онс:org-sys, и отношением онс:participant с соответствующим экземпляром класса онс:person. При обратной трансляции нам потребуется генерировать отношения akt:works-for соответствующие экземплярам класса онс:participation. Поскольку в онтологии ОНС имеется достаточно Рис. 2 Интерактивное установление соответствия между много классов, аналогичных классу классами и отношениями двух онтологий. онс:participation, систематически возникает необходимость устанавливать соответствие между 3 Проблема установления идентичности различными группами классов и отношений этих двух онтологий. А именно, необходимо установить сущностей соответствие между группой вида "Class 1-relation1- Как уже было сказано выше, существенным Class2" онтологии AKT Reference ontology и одной моментом обогащения одной базы знаний при или несколькими группами вида "Class3- relation2- помощи другой является этап установления Class4-relation3-Class5" онтологии ОНС. При этом идентичности сущностей в наборах данных LOD и между объектами классов Class1 и Class3 следует данных открытого архива, то есть, генерация установить связи типа owl:sameAs также как и для отношений вида owl:sameAs. Рассмотрим классов Class 2 и Class5. Помимо этого, необходимо следующий пример. В Открытом архиве имеется сгенерировать экземпляр класса Class4 для каждой экземпляр класса онс:person, описывающий тройки . бывшего директора ИСИ СО РАН В.Е Котова: Такая трансляция может быть осуществлена при помощи запроса SPARQL 1.1. Упрощенная версия Котов Вадим этого запроса имеет следующий вид: Евгеньевич PREFIX iis: Kotov, Vadim PREFIX akt: Yevgenievich PREFIX 1938-07-23 m akts: CONSTRUCT { _:p a iis:Class4. Также, в Открытом архиве СО РАН имеется _:p iis:relation2 ?instance1. достаточно подробная информация о его местах _:p iis:relation3 ?instance2. работы как в различных организациях СО РАН, так } и в США. При этом отсутствует информация о его WHERE { публикациях. С другой стороны, достаточно много информации о публикациях В.Е. Котова содержится ?instance1 akt:relation1 ?instance2. в различных наборах данных облака LOD таких как: ?instance1 a akt:Class1. acm.rkbexplorer.com, dblp.rkbexplorer.com, ?instance2 a akt:Class2. citeseer.rkbexplorer.com. Но в этих наборах данных } нет информации о местах работы В.Е. Котова, присутствующей в Открытом архиве. Для взаимовыгодного обмена данными надо, прежде 154 всего, связать отношением owl:sameAs экземпляры 4 Визуализация результатов Sparql- наборов данных из Открытого архива и LOD. Первая проблема связана с тем, что хоть имена запросов для трансформации и анализа персон и описаны при помощи одного и того же наборов данных атрибута akt:full-name , этот атрибут может иметь Основным инструментом исследования разные значения не только в разных наборах облака наполнения семантических систем в нашей системе LOD, но и в одном и том же наборе. Например, в является построение SPARQL-запросов и наборе данных http://acm.rkbexplorer.com , в визуализация их результатов при помощи либо качестве свойства akt:full-name используются стандартного, либо специализированного алгоритма следующие идентификаторы: Vadim E. Kotov, V. визуализации. Для этого нами реализована Kotov, Vadim Kotov, V.E. Kotov. При этом каждому программа, позволяющая генерировать SPARQL- из этих имен соответствует отдельный запросы к любой исследуемой семантической идентификатор персоны, поэтому если мы строим системе и получать результаты запроса, как запрос о публикациях, выдается по одной-две текстовом виде, так и в виде графа. На Рис. 3 публикации соответствующей каждой из этих показано окно для ввода SPARQL-запросов и (РАЗНЫХ!) персон. вывода результатов запроса в текстовом виде. Окно В настоящий момент все эти данные собираются состоит из трех панелей. Панель справа показывает в полу-автоматическом режиме при помощи список основных классов и отношений исследуемой программы SILK[10], на основе регулярных системы, верхняя панель предназначена для ввода выражений и сравнения лексической близости SPARQL-запроса. В данный момент там имеется соответствующих идентификаторов. Понятно, что sparql-запрос на генерацию графа, ребрами которого эта процедура не гарантирует нам того, что мы не являются отношения «коллега», соответствующие объединили вместе информацию об однофамильцах. тому, что люди работают в одной организации. Для Наши эксперименты с полнотекстовыми упрощения понимания запрос генерирует также версиями документов показали, что, во-первых, в ребро к вершине, соответствующей организации, в них часто указываются места работы авторов, которой работают коллеги. Нижняя панель выдает которые можно было бы сравнить с имеющимися в результаты запроса в текстовом виде. Помимо этого, Открытом архиве списком мест и дат работы для в верхней правом углу есть две кнопки, каждой персоны. Во-вторых, авторы часто позволяющие либо сгенерировать результат запроса ссылаются на свои прежние публикации, что в виде графа, либо дополнительно осуществить позволяет связывать в одну цепочку работы одного кластеризацию одной из связных компонент и того же автора. К сожалению, на сайтах полученного результата. Поскольку данная указанного набора эта информация представлена возможность визуализации предусмотрена для неполно. Редко указаны места работы персон, а их графов произвольной структуры, используется временные границы не указаны совсем. Что же силовой алгоритм[8]. касается списков цитирования, то эта информация на данный момент тоже отражена неполно. Для многих персон из Открытого Архива, редко имеется информация более чем о двух ссылках из списка публикаций каждой из статей. Виду неполноты имеющейся информации планируется в дальнейшем извлекать информацию из полнотекстовых версий публикаций. Для включения данных о публикациях Котова В.Е. в контент открытого архива, необходимо выполнить следующие трансформации (что опять же связано с различиями в онтологическом строении этих наборов данных). Во-первых, для каждого экземпляра класса akt: publication-reference следует создать экземпляр класса онс:document, а Рис. 3. Окно ввода SPARQL-запросов к исследуемой затем для каждого отношения akt:has-author AKT системе. Reference ontology надо сгенерировать объект класса онс:authorship онтологии ОНС, после чего На Рис. 4(а) показан результат данного запроса в сгенерировать отношения онс:adoс и онс:author, виде графа. связывающие индивид класса онс:authorship с соответствующими индивидами классов онс:person и онс:document. Эти трансформации выполняются при помощи SPARQL-запроса, аналогичного описанному выше. 155 часть коллег связано с ИСИ СО РАН, часть - с ИВМ и МГ, а часть – с обеими организациями. Эта промежуточная часть достаточно велика, поскольку ИСИ СО РАН был создан на базе одного из отделов ИВМ и МГ. Помимо просмотра данных из исследуемых баз данных эта компонента дает нам возможность визуализации и исследования сетей цитирования и соавторства и их кластеризацию, что важно для данного приложения. Заключение В данной работе рассмотрены проблемы обогащения научных баз знаний при помощи контента библиографических порталов из облака LOD и подходы к их решению. Сравниваются онтология ОНС и AKT Reference ontology и соответствие между наборами данных, основанных на этих онтологиях, устанавливается при помощи SPARQL-запросов, которые могут быть сгенерированы на основе визуализации онтологий. Эксперименты показали, что для выравнивания онтологий недостаточно установления простых (а) соответствий и могут потребоваться более сложные шаблоны. Также продемонстрировано, что обычные инструменты, применяемые для установления идентичности сущностей на основе метрик сходства, не позволяют различать авторов публикаций, являющихся тезками или даже однофамильцами. Для решения этой проблемы планируется использовать информацию о временных границах мест работы персон, описанных в Открытом Архиве СО РАН, а также методы изучения сетей самоцитирования. Благодарности Работа выполнена при финансовой поддержке РФФИ (проект № 11-07-00388). Литература [1] AKT ontology description: http://www.aktors.org/ontology. [2] Alani, H. TGVizTab: An Ontology Visualization Extension for Protege. // Proceedings of Knowledge Capture (K-Cap'03),Workshop on Visualization Information in Knowledge Engineering, Sanibel Island, Florida, USA. 2003. (б) [3] Apanovich Z. V., Vinokurov P. S. An extension of a visualization component of ontology based Рис. 4. Сети, выдаваемые в результате запросов к portals with visual analytics facilities. // Bulletin семантической системе открытого архива СО РАН. of NCC .— Issue 31.— 2010.— pp. 17-28. Граф состоит из нескольких компонент [4] Bizer, C., Heath, T. , Berners-Lee, T. Linked Data связности. Люди сгруппированы вокруг - The Story So Far. //Int. J. Semantic Web Inf. организаций, в которых они работают или работали. Syst., 5 (3). 2009. P. 1-22 Следует отметить, что поскольку указанный запрос [5] CiteSeer dataset : http://citeseer.rkbexplorer.com/. не использовал фильтрацию по дате работы, [6] Cruz I. F., Stroe C., Caimi F., Fabiani A., Pesquita некоторых людей ребра связывают с несколькими C., Couto F. M., Palmonari M. Using организациями. Так на Рис. 4(б) показан фрагмент AgreementMaker to Align Ontologies for OAEI изображения с Рис. 4(а), на котором видно, что 156 2011. http://ceur-ws.org/Vol- Business Conference, San Francisco, June 5, 2012. 814/oaei11_paper1.pdf http://mes-semantics.com/wp- [7] DBLP dataset: http://dblp.rkbexplorer.com/. content/uploads/2012/09/Becker-etal-LDIF [8] Erling O. How Virtuoso uses Relational SemTechSanFrancisco.pdf. Technology in its RDF Triple Store and SPARQL [19] Tramp S., Williams H., Eck K., Creating implementation. Knowledge out of Interlinked Data: The LOD2 http://virtuoso.openlinksw.com/whitepapers/SPAR Tool Stack http://lod2.eu/Event/ESWC2012- QL%20RDF%20Store%20using%20SQL- Tutorial.html. ORDBMS.html [20] Марчук А.Г., Марчук П.А. Особенности [9] Fruchterman T. M. J., Reingold E. M. Graph построения цифровых библиотек со связанным Drawing by Force-Directed Placement//Software - контекстом //Труды RCDL'2010- Двенадцатая Practice and Experience, 1991, Vol. 21, N11, P. Всероссийская научная конференция 1129-1164. «Электронные библиотеки: перспективные [10] Isele R., Jentzsch A., Bizer Ch. Silk Server - методы и технологии, электронные коллекции» Adding missing Links while consuming Linked Казань, Казанский университет , 2010. — C. Data// 1st International Workshop on Consuming 19-23. Linked Data (COLD 2010), Shanghai, November [21] Апанович З.В., Винокуров П.С., Кислицина 2010. Т.А. Гибкая подсистема визуализации [11] Katifori, A., Halatsis, C., Lepouras, G., Vassilakis, онтологии и информационного наполнения C., and Giannopoulou, E. (2007). Ontology порталов знаний на протяжении их жизненного Visualization Methods - a Survey. ACM цикла // Труды RCDL'2010 - Двенадцатая Computing Surveys, 39(4). Всероссийская научная конференция "Электронные библиотеки: перспективные [12] B. Kernighan and S. Lin, An efficient heuristic методы и технологии, электронные коллекции" procedure for partitioning graphs, Bell System Казань, Казанский университет, 2010.— C. Technical Journal, 49 (1970), pp. 291- 307. 265-272. [13] Ngomo A.-C. N., Auer S.: LIMES - A Time- Efficient Approach for Large-Scale Link Discovery on the Web of Data. //IJCAI 2011: Problems of using the LOD cloud datasets Proceedings of the 22nd International Joint to enrich the content of scientific data and Conference on Artificial Intelligence, Barcelona, Catalonia, Spain, July 16-22, 2011 pp. 2312- knowledge bases 2317 . [14] Oren, E., Delbru, R., Catasta, M., Cyganiak, R., Stenzhorn, H. and Tummarello, G.(2008). Zinaida V. Apanovich, Alexander. G. Marchuk Sindice.com: a document-oriented lookup index for open linked data.// Int. J. Metadata, Semantics This paper describes some problems arising during the and Ontologies, Vol. 3, No. 1, pp. 37–52 (2008 use of the LOD cloud datasets to enrich the content of [15] Pietriga, E. IsaViz. http://www.w3.org/2001/11/IsaViz . scientific knowledge bases and approaches to their [16] Sintek, M. Ontoviz tab: Visualizing Protégé solution. The experiments are carried out with the help ontologies. 2003 of a toolkit intended to simplify analysis and integration http://protegewiki.stanford.edu/wiki/OntoViz. of data from different datasets. The dataset of the Open [17] Storey, M.-A. D. , Muller, H. A. Manipulating and Archive of the Russian Academy of Sciences, based on documenting software structures using shrimp the ONS ontology, as well as various bibliographic views. // Proc. of the Intl. Conf. on Software datasets , structured by AKT Reference ontology, are Mainten. — 1995. used as test examples. [18] Schultz A. et al. How to integrate LINKED DATA into your application //Semantic technology & 157