-

Registro de procedeˆncia de ligac¸ o˜es RDF em Dados Ligados

Jonas F. S. M. De La Cerda

Maria Cla´udia Cavalcanti

- Praia Vermelha - Rio de Janeiro - RJ

218 223

As many tools have been created to support linked data consumption and publishing, there is a demand for quality assessment and to verify these data. To make this possible, data about this consumption should be recorded. This paper presents an extension to a framework with the goal to support the recording and publishing of the information about the creation and consumption of linked data, in order to provide input for later quality assessment. Resumo. Com a criac¸a˜o de ferramentas para consumir, relacionar e publicar dados ligados, surge a demanda para avaliar e comprovar a qualidade destes dados. Para tal, e´ necessa´rio que informac¸o˜es sobre este consumo sejam registradas. Este trabalho propo˜e a extensa˜o de uma arquitetura a fim de suportar o registro e publicac¸ a˜o de informac¸o˜es sobre a criac¸ a˜o destes dados, a fim de prover insumos para posterior avaliac¸a˜o.

some os dados quanto para quem os que publica. A sec¸a˜o 2 deste artigo apresenta os conceitos ba´sicos de dados ligados. A sec¸ a˜o 3 apresenta trabalhos relacionados, constando de: uma arquitetura pre´via e sua implementac¸a˜o, e modelos de dados de procedeˆncia. A sec¸ a˜o 4 apresenta a arquitetura proposta, e a sec¸a˜o 5 apresenta as concluso˜es e extenso˜es do projeto.

2. Dados Ligados

Uma vez que consumir e integrar estes dados se da´ de forma mais flex´ıvel, e´ poss´ıvel escapar do contexto de uma web ultrapassada onde aplicac¸ o˜es devem prever o consumo de fontes de dados previamente definidos, criando uma web onde a informac¸a˜o provida por aplicac¸o˜es pode evoluir ao longo do tempo, junto com o surgimento de novas fontes de dados. Para tirar proveito dos dados ligados, Berners-Lee elucida em um documento 3 regras para publicar (e consumir) os dados ligados: usar URIs va´lidas para nomear seus recursos (dados, coisas, entidades, etc), de forma que agentes (pessoas ou sistemas) recebam informac¸o˜es u´teis – preferencialmente em formato intelig´ıvel – ao acessar tais enderec¸os, e, principalmente incluir ligac¸o˜es (links) para recursos em outras fontes de dados, para que novos conhecimentos possam ser descobertos.

Em um tutorial 4 feito por Bizer, define-se uma ligac¸ a˜o RDF como uma tripla no formato “sujeito - predicado - objeto” onde o sujeito e´ ligado ao objeto atrave´s de um predicado. As ligac¸o˜es RDF onde o sujeito esta´ em um conjunto de dados e o objeto esta´ em um conjunto de dados distinto sa˜o chamados de ligac¸o˜es externas.

3. Trabalhos Relacionados

Existem diversas aplicac¸ o˜es utilizando dados ligados. Tais aplicac¸o˜es va˜o desde endpoints SPARQL – formula´rios onde insere-se uma consulta em SPARQL e recebe-se o resultado da consulta, usualmente no formato de alguma serializac¸a˜o RDF – ate´ aplicac¸o˜es mais complexas como os websites da BBC. Em [ Kobilarov et al. 2009 ] sa˜o apresentados os mecanismos utilizados por estes sistemas a fim de consumir e gerar ligac¸ o˜es com outros provedores de dados ligados. Sa˜o explorados os mecanismos utilizados para interligar os diversos sistemas (legados e atuais) da BBC a` nuvem do movimento Linking Open Data 5, os mecanismos para reutilizac¸a˜o e redirecionamento para conteu´dos de outros provedores de dados, os mecanismos da publicac¸a˜o de dados dos programas da emissora.

Em [ Bizer et al. 2009 ] e´ identificada uma arquitetura comum de aplicac¸o˜es voltadas para dados ligados. Tal arquitetura e´ ilustrada na Figura 1, adaptada de [ Isele et al. 2010 ], excluindo-se a parte tracejada da figura, que representa um coletor de dados de procedeˆncia a ser explicado mais adiante. Para consumir – importar, associar e publicar – os dados ligados da web, uma aplicac¸a˜o tem que considerar problemas como obtenc¸a˜o do dado, mapeamento de esquemas e vocabula´rios e ana´lise de qualidade do dado. Existe uma implementac¸a˜o funcional de um arcabouc¸o para executar todas as etapas da integrac¸a˜o dos dados ligados previstas pela arquitetura comum, o LDIF (Linked Data Integration Framework) [ Schultz et al. 2011 ].

3http://www.w3.org/DesignIssues/LinkedData.html 4http://www4.wiwiss.fu-berlin.de/bizer/pub/LinkedDataTutorial/ 5http://www.w3.org/wiki/SweoIG/TaskForces/CommunityProjects/LinkingOpenData

Ao passo que o LDIF ataca os problemas de mapeamento de esquemas e vocabula´rios, resoluc¸a˜o de identidades, importac¸ a˜o, publicac¸a˜o e descoberta de ligac¸ o˜es (relac¸o˜es entre recursos), o arcabouc¸o se apresenta deficiente no quesito da procedeˆncia dos dados. Procedeˆncia refere-se a` linhagem dos dados, isto e´, as origens e histo´rico de processamento de objetos e processos [ Bose e Frew 2005 ], ou seja, a procedeˆncia possui um papel importante em evidenciar a qualidade dos dados gerados.

A deficieˆncia do LDIF quanto a` captura da procedeˆncia e´ evidente pois os u´nicos dados de procedeˆncia publicados sa˜o os dados relativos a` importac¸a˜o inicial dos dados, ou seja, qual a origem dos dados importados. Dados importantes de procedeˆncia como a parametrizac¸a˜o de processos de similaridade sinta´tica e semaˆntica, resultados da execuc¸a˜o de processos, dentre outros, na˜o sa˜o contemplados, nem pelo LDIF e nem pela arquitetura de aplicac¸o˜es de dados ligados.

Os dados de procedeˆncia podem servir de insumo para ana´lise de qualidade dos dados gerados. Pode-se atribuir maior confiabilidade a dados gerados por processos que foram configurados com limites mais restritos. Por exemplo, e´ poss´ıvel atribuir maior confiabilidade a`s ligac¸o˜es geradas por processos de ca´lculo de similaridade que tenham sido configurados com um limite de similaridade maior que 0.95 (95%). Em [ Mendes et al. 2012 ] sa˜o ilustrados tanto exemplos de avaliac¸a˜o de qualidade dos dados quanto de fusa˜o de dados. Um dos exemplos mostrados por Mendes, e´ a atribuic¸a˜o de reputac¸a˜o aos dados de acordo com sua origem, e, a pontuac¸ a˜o (scoring) de acordo com o qua˜o recente o dado e´.

Dada a importaˆncia dos dados de procedeˆncia, alguns modelos influenciaram este trabalho. O mais nota´vel e´ o OPM (Open Provenance Model) [ Moreau et al. 2011 ], que descreve as relac¸ o˜es causais e de dependeˆncia entre artefato (que representa o estado imuta´vel de um objeto), processo (que representa ac¸o˜es efetuadas em um artefato, ou causadas por) e agente (que representa entidades que podem facilitar, controlar ou influenciar um processo de alguma forma). Os outros modelos que influenciaram este sa˜o o Provenir [ Sahoo e Sheth 2009 ] e o PROV-DM 6. Os conceitos definidos pelo OPM esta˜o presentes tambe´m nestes modelos. No caso do Provenir, estes conceitos sa˜o mais especializados (e.g. diferenciac¸ a˜o de dados e paraˆmetros). Ja´ o PROV-DM na˜o e´ ta˜o espec´ıfico quanto aos artefatos, pore´m possui muitas definic¸ o˜es das relac¸o˜es de dependeˆncia e causalidade, inclusive sendo especificadas formalmente.

4. Arquitetura Proposta

Este trabalho propo˜e que a arquitetura das aplicac¸ o˜es ainda deficiente na questa˜o da procedeˆncia de dados contemple tal aspecto, fornecendo um modelo de dados para o processo de integrac¸a˜o de dados ligados. A arquitetura deve contemplar o aspecto de procedeˆncia em todas as etapas dos processos de consumo e integrac¸a˜o, conforme mostra a Figura 1. Para tal, diversos modelos de procedeˆncia devem ser estudados, a fim de definir um modelo que seja compat´ıvel com os modelos ja´ existentes e difundidos.

O modelo de procedeˆncia a ser adotado na nova arquitetura deve na˜o somente contemplar a diferenciac¸a˜o entre dados e paraˆmetros, mas tambe´m deve diferenciar os processos empregados na integrac¸a˜o dos dados ligados, considerando a hierarquia Buscar dados

Mapear Vocabulários

Resolução

Identidades Coletor de Procedência Figura 1. Arquitetura de aplica c¸o˜ es consumidoras de dados ligados considerando os aspectos de procedeˆ ncia de dados. de te´cnicas empregadas tanto no mapeamento de vocabula´rios quanto na descoberta de links. Uma visa˜o de como essas te´cnicas podem ser classificadas foi apresentada por [ Euzenat e Shvaiko 2007 ] e foram tambe´m estudadas por [ Silva 2010 ], que relacionou esta visa˜o com as medidas de similaridades definidas por [ Ehrig 2007 ].

Ate´ o momento, o modelo considera alguns aspectos ba´sicos quanto aos tipos de processos utilizados na integrac¸a˜o e consumo de dados ligados, e, considera uma categorizac¸a˜o dos dados em questa˜o. Os tipos de processo contemplados ate´ o momento sa˜o processos de importac¸a˜o – processos que obte´m os dados de seus provedores originais – e processos de integrac¸a˜o. Os processos de integrac¸a˜o se encontram categorizados como processos de mapeamento (de vocabula´rios) e processos de ligac¸a˜o.

Processo Importacao

Integracao

Parâmetro

isA Mapeamento

Ligação wasDerivedFrom Triple

SPARQL Quad Crawl

Filtro

Comparação Agregação

Recurso

isA Produto used

Processo wasGeneratedBy

Figura 2. Conceitos do modelo de dados de procedeˆ ncia.

Os processos de mapeamento tratam-se de definic¸ o˜es de pareamentos de conceitos de um vocabula´rio a outro, como parear foaf:Person e dbpedia:Person ou foaf:name e rdfs:label. Os processos de ligac¸ a˜o tratam-se de execuc¸ o˜es de processos que geram ligac¸ o˜es RDF atrave´s de alguma computac¸a˜o. Tais processos podem ser processos de agregac¸ a˜o – como me´dias, ma´ximos, m´ınimos – processos de filtragem – como selecionar recursos que possuam uma determinada propriedade dentro de um intervalo de valores – e processos de comparac¸a˜o – como comparar ro´tulos RDF atrave´s de distaˆncia de edic¸ a˜o, ou comparar a categorizac¸a˜o de dois recursos.

Pode-se dizer que ha´ uma equivaleˆncia entre os conceitos de processo do OPM e processo do modelo proposto. Uma ideia inicial do modelo e´ ilustrada pela Figura 2, onde os conceitos em cinza-escuro representam extenso˜es dos processos de importac¸ a˜o, inclusive ja´ implementados no LDIF.

No que concerne ao conceito de artefato do OPM, ha´ uma relac¸a˜o de equivaleˆncia com o conceito de recurso, subcategorizado em paraˆmetro e produto, como mostra a Figura 2. A diferenc¸a entre produtos e paraˆmetros e´ que produtos sa˜o gerados por processos, ou seja, para gerar cada produto foram consumidos tempo e recursos computacionais.

sameAs#1 used

used Rio_de_Janeiro

Rio_De_Janeiro

Result: “1”

Limite: 2 wasGeneratedBy

Figura 3. Exemplo de aplica c¸a˜ o de modelo.

A Figura 3 exemplifica uma aplicac¸a˜o bastante ba´sica do modelo, a criac¸a˜o de uma ligac¸a˜o do tipo “owl:sameAs” entre dois recursos de ro´tulos “Rio de Janeiro” e “Rio De Janeiro”, respectivamente. A gerac¸a˜o da ligac¸a˜o se da´ em dois passos, o primeiro sendo a comparac¸a˜o entre os ro´tulos dos recursos atrave´s de um algoritmo que calcula distaˆncia de edic¸ a˜o entre duas cadeias de caracteres e o segundo filtrando apenas os produtos que tenham sido gerados com distaˆncia de edic¸a˜o abaixo de 2. Na Figura 3, os produtos esta˜o representados por elipses, os paraˆmetros por retaˆngulos claros e os processos por retaˆngulos escuros. Explicitar todas as relac¸o˜es causais entre dados e processos pode gerar um excesso de informac¸ o˜es, que e´ problema conhecido e ja´ foi discutido em [ Heinis e Alonso 2008 ], na˜o sendo o foco deste trabalho.

Em resumo, modelo e arquitetura propostos encapsulam os executores dos processos envolvidos em cada etapa do fluxo da integrac¸a˜o e consumo de dados ligados, a fim de registrar e representar os dados de procedeˆncia de acordo com a natureza dos processos envolvidos na criac¸ a˜o das ligac¸o˜es RDF entre recursos, bem como a natureza dos paraˆmetros que configuram estes processos e resultados destes processos. Dessa forma, esses dados de procedeˆncia passam a estar dispon´ıveis para um usua´rio avaliar confiabilidade e autenticidade das ligac¸o˜es geradas, avaliar a qualidade e efetuar fusa˜o de dados ligados – como e´ o caso do Sieve [ Mendes et al. 2012 ] – e reproduzir o processo de gerac¸a˜o de ligac¸o˜es RDF.

5. Conclus a˜o

Este artigo apresenta uma proposta para o problema do registro e representac¸a˜o de procedeˆncia de dados na atividade de integrac¸a˜o e consumo de dados ligados. A sua principal contribuic¸a˜o e´ a extensa˜o de modelos de procedeˆncia ja´ estabelecidos e ainda em definic¸ a˜o, adaptando-os para registrar informac¸ o˜es mais espec´ıficas sobre o consumo e integrac¸a˜o de dados ligados. A partir de uma arquitetura ja´ existente – o LDIF – de co´digo aberto, estende-se sua funcionalidade de modo a suportar o registro dessas informac¸o˜es. No momento a extensa˜o proposta esta´ em fase de implementac¸a˜o. O modelo de dados proposto ainda passa por refinamentos, devendo evoluir a fim de especificar os processos envolvidos e tipos de dados e paraˆmetros.

Trabalhos futuros incluem o estabelecimento de pol´ıticas de descarte e selec¸a˜o de ligac¸ o˜es RDF, com base nos dados de procedeˆncia disponibilizados. Ale´m disso, conforme as ligac¸ o˜es RDF sa˜o rastreadas e associadas a`s informac¸ o˜es de procedeˆncia, e´ poss´ıvel estabelecer e configurar mecanismos de infereˆncia baseados nessas informac¸o˜es.

Acknowledgements

The authors would like to thank CNPq (309307/2009-0; 486157/2011-3) and FAPERJ (E-26/111.147/2011) for partially funding their research projects.

Bizer , C. , Heath , T. , e Berners-Lee, T. ( 2009 ). Linked data - the story so far . Int. J. Semantic Web Inf. Syst. , 5 ( 3 ): 1 - 22 .

Bose , R. e Frew, J. ( 2005 ). Lineage retrieval for scientific data processing: a survey . ACM Computing Surveys , 37 : 1 - 28 .

Ehrig , M. ( 2007 ). Ontology Alignment: Bridging the Semantic Gap, volume 4 of Semantic Web And Beyond Computing for Human Experience . Springer.

Euzenat , J. e Shvaiko, P. ( 2007 ). Ontology matching. Springer.

Heinis , T. e Alonso, G. ( 2008 ). Efficient lineage tracking for scientific workflows . In Proceedings of the 2008 ACM SIGMOD international conference on Management of data, SIGMOD '08 , pages 1007 - 1018 , New York, NY, USA. ACM.

Isele , R. , Jentzsch , A. , e Bizer, C. ( 2010 ). Silk server - adding missing links while consuming linked data . In 1st International Workshop on Consuming Linked Data (COLD 2010 ), Shanghai.

Kobilarov , G. , Scott , T. , Raimond , Y. , Oliver , S. , Sizemore , C. , Smethurst , M. , Bizer , C. , e

Lee

, R. ( 2009 ). Media meets semantic web - how the bbc uses dbpedia and linked data to make connections . In Proceedings of the 6th European Semantic Web Conference on The Semantic Web: Research and Applications, ESWC 2009 Heraklion , pages 723 - 737 , Berlin, Heidelberg. Springer-Verlag.

Mendes , P. N. , Mu¨hleisen, H., e Bizer, C. ( 2012 ). Sieve: linked data quality assessment and fusion . In Proceedings of the 2012 Joint EDBT/ICDT Workshops, EDBT-ICDT '12 , pages 116 - 123 , New York, NY, USA. ACM.

Moreau , L. , Clifford , B. , Freire , J. , Futrelle , J. , Gil , Y. , Groth , P. T. , Kwasnikowska , N. , Miles , S. , Missier , P. , Myers , J. , Plale , B. , Simmhan , Y. , Stephan , E. G. , e den Bussche, J. V. ( 2011 ). The open provenance model core specification (v1.1). Future Generation Comp . Syst., 27 ( 6 ): 743 - 756 .

Sahoo , S. S. e

Sheth , A. ( 2009 ). Provenir ontology: Towards a framework for escience provenance management . Microsoft eScience Workshop.

Schultz , A. , Matteini , A. , Isele , R. , Bizer , C. , e Becker , C. ( 2011 ). LDIF - Linked Data Integration Framework , pages 1 - 4 .

Silva , V. d. S. ( 2010 ). Uma abordagem para alinhamento de ontologias biome´dicas para apoiar a anotac¸a˜o genoˆmica . Master's thesis , Universidade Federal do Rio de Janeiro.