=Paper= {{Paper |id=None |storemode=property |title=Registro de Procedência de Ligações RDF em Dados Ligados |pdfUrl=https://ceur-ws.org/Vol-938/ontobras-most2012_paper22.pdf |volume=Vol-938 |dblpUrl=https://dblp.org/rec/conf/ontobras/CerdaC12 }} ==Registro de Procedência de Ligações RDF em Dados Ligados== https://ceur-ws.org/Vol-938/ontobras-most2012_paper22.pdf
                        Registro de procedência de ligações
                             RDF em Dados Ligados
                  Jonas F. S. M. De La Cerda1 , Maria Cláudia Cavalcanti1

                                 Instituto Militar de Engenharia
                                  1

              Praça General Tibúrcio, 80 – Praia Vermelha – Rio de Janeiro – RJ

        Abstract. As many tools have been created to support linked data consumption
        and publishing, there is a demand for quality assessment and to verify these
        data. To make this possible, data about this consumption should be recorded.
        This paper presents an extension to a framework with the goal to support the
        recording and publishing of the information about the creation and consumption
        of linked data, in order to provide input for later quality assessment.

        Resumo. Com a criação de ferramentas para consumir, relacionar e publicar
        dados ligados, surge a demanda para avaliar e comprovar a qualidade destes
        dados. Para tal, é necessário que informações sobre este consumo sejam regis-
        tradas. Este trabalho propõe a extensão de uma arquitetura a fim de suportar
        o registro e publicação de informações sobre a criação destes dados, a fim de
        prover insumos para posterior avaliação.

1. Introdução
Com o desenvolvimento e adoção da web semântica, vieram padrões e formatos para inte-
grar dados e informações oriundos de diferentes fontes. Há iniciativas para disponibilizar
dados em formatos padronizados, para que estes possam ser consumidos (e relacionados)
com dados de diferentes fontes. Uma destas iniciativas é o Linked Data (dados liga-
dos) 1 , que consiste em interligar dados de diversas fontes segundo alguns princı́pios.
Estes princı́pios são: disponibilizar os dados em um formato padronizado – no caso o
RDF (Resource Description Framework) 2 – e fornecer meios para acessar e identificar os
dados disponibilizados.
         É possı́vel criar aplicações mais ricas em informação através do consumo dos da-
dos e seus relacionamentos de diversas fontes. Para tal, é necessário considerar problemas
como a obtenção do dado, mapeamento de esquemas e vocabulários, e análise de quali-
dade do dado. Diante destes problemas, diversas ferramentas foram criadas para facilitar
a integração e consumo dos dados ligados, algumas listadas em [Bizer et al. 2009]. Não
há a preocupação em registrar informações de como estas novas relações foram geradas,
criando um problema para provar a confiabilidade e corretude do processo empregado.
        Este trabalho propõe uma arquitetura a fim de suportar o registro de informações
sobre a criação das interligações de recursos RDF, ou seja, registrar as informações de
quais processos foram utilizados para criação, quais parâmetros configuraram estes pro-
cessos, quais os resultados destes processos. Acredita-se que tais informações podem aju-
dar em futura análise de qualidade dos dados, tornando-se um ativo tanto para quem con-
   1
       http://www.w3.org/DesignIssues/LinkedData.html
   2
       http://www.w3.org/TR/REC-rdf-syntax/



                                                 218
some os dados quanto para quem os que publica. A seção 2 deste artigo apresenta os con-
ceitos básicos de dados ligados. A seção 3 apresenta trabalhos relacionados, constando
de: uma arquitetura prévia e sua implementação, e modelos de dados de procedência. A
seção 4 apresenta a arquitetura proposta, e a seção 5 apresenta as conclusões e extensões
do projeto.

2. Dados Ligados
Uma vez que consumir e integrar estes dados se dá de forma mais flexı́vel, é possı́vel
escapar do contexto de uma web ultrapassada onde aplicações devem prever o consumo
de fontes de dados previamente definidos, criando uma web onde a informação provida
por aplicações pode evoluir ao longo do tempo, junto com o surgimento de novas fontes
de dados. Para tirar proveito dos dados ligados, Berners-Lee elucida em um documento 3
regras para publicar (e consumir) os dados ligados: usar URIs válidas para nomear seus
recursos (dados, coisas, entidades, etc), de forma que agentes (pessoas ou sistemas) re-
cebam informações úteis – preferencialmente em formato inteligı́vel – ao acessar tais
endereços, e, principalmente incluir ligações (links) para recursos em outras fontes de
dados, para que novos conhecimentos possam ser descobertos.
       Em um tutorial 4 feito por Bizer, define-se uma ligação RDF como uma tripla no
formato “sujeito - predicado - objeto” onde o sujeito é ligado ao objeto através de um
predicado. As ligações RDF onde o sujeito está em um conjunto de dados e o objeto está
em um conjunto de dados distinto são chamados de ligações externas.

3. Trabalhos Relacionados
Existem diversas aplicações utilizando dados ligados. Tais aplicações vão desde endpoints
SPARQL – formulários onde insere-se uma consulta em SPARQL e recebe-se o resultado
da consulta, usualmente no formato de alguma serialização RDF – até aplicações mais
complexas como os websites da BBC. Em [Kobilarov et al. 2009] são apresentados os
mecanismos utilizados por estes sistemas a fim de consumir e gerar ligações com outros
provedores de dados ligados. São explorados os mecanismos utilizados para interligar os
diversos sistemas (legados e atuais) da BBC à nuvem do movimento Linking Open Data 5 ,
os mecanismos para reutilização e redirecionamento para conteúdos de outros provedores
de dados, os mecanismos da publicação de dados dos programas da emissora.
        Em [Bizer et al. 2009] é identificada uma arquitetura comum de aplicações
voltadas para dados ligados. Tal arquitetura é ilustrada na Figura 1, adaptada
de [Isele et al. 2010], excluindo-se a parte tracejada da figura, que representa um coletor
de dados de procedência a ser explicado mais adiante. Para consumir – importar, asso-
ciar e publicar – os dados ligados da web, uma aplicação tem que considerar problemas
como obtenção do dado, mapeamento de esquemas e vocabulários e análise de qualidade
do dado. Existe uma implementação funcional de um arcabouço para executar todas as
etapas da integração dos dados ligados previstas pela arquitetura comum, o LDIF (Linked
Data Integration Framework) [Schultz et al. 2011].
   3
     http://www.w3.org/DesignIssues/LinkedData.html
   4
     http://www4.wiwiss.fu-berlin.de/bizer/pub/LinkedDataTutorial/
   5
     http://www.w3.org/wiki/SweoIG/TaskForces/CommunityProjects/LinkingOpenData



                                             219
          Ao passo que o LDIF ataca os problemas de mapeamento de esquemas e vo-
cabulários, resolução de identidades, importação, publicação e descoberta de ligações
(relações entre recursos), o arcabouço se apresenta deficiente no quesito da procedência
dos dados. Procedência refere-se à linhagem dos dados, isto é, as origens e histórico de
processamento de objetos e processos [Bose e Frew 2005], ou seja, a procedência possui
um papel importante em evidenciar a qualidade dos dados gerados.
        A deficiência do LDIF quanto à captura da procedência é evidente pois os únicos
dados de procedência publicados são os dados relativos à importação inicial dos dados,
ou seja, qual a origem dos dados importados. Dados importantes de procedência como a
parametrização de processos de similaridade sintática e semântica, resultados da execução
de processos, dentre outros, não são contemplados, nem pelo LDIF e nem pela arquitetura
de aplicações de dados ligados.
        Os dados de procedência podem servir de insumo para análise de qualidade dos
dados gerados. Pode-se atribuir maior confiabilidade a dados gerados por processos
que foram configurados com limites mais restritos. Por exemplo, é possı́vel atribuir
maior confiabilidade às ligações geradas por processos de cálculo de similaridade que
tenham sido configurados com um limite de similaridade maior que 0.95 (95%). Em
[Mendes et al. 2012] são ilustrados tanto exemplos de avaliação de qualidade dos dados
quanto de fusão de dados. Um dos exemplos mostrados por Mendes, é a atribuição de
reputação aos dados de acordo com sua origem, e, a pontuação (scoring) de acordo com
o quão recente o dado é.
        Dada a importância dos dados de procedência, alguns modelos influenciaram este
trabalho. O mais notável é o OPM (Open Provenance Model) [Moreau et al. 2011], que
descreve as relações causais e de dependência entre artefato (que representa o estado
imutável de um objeto), processo (que representa ações efetuadas em um artefato, ou
causadas por) e agente (que representa entidades que podem facilitar, controlar ou influ-
enciar um processo de alguma forma). Os outros modelos que influenciaram este são o
Provenir [Sahoo e Sheth 2009] e o PROV-DM 6 . Os conceitos definidos pelo OPM estão
presentes também nestes modelos. No caso do Provenir, estes conceitos são mais especi-
alizados (e.g. diferenciação de dados e parâmetros). Já o PROV-DM não é tão especı́fico
quanto aos artefatos, porém possui muitas definições das relações de dependência e cau-
salidade, inclusive sendo especificadas formalmente.

4. Arquitetura Proposta
Este trabalho propõe que a arquitetura das aplicações ainda deficiente na questão da pro-
cedência de dados contemple tal aspecto, fornecendo um modelo de dados para o processo
de integração de dados ligados. A arquitetura deve contemplar o aspecto de procedência
em todas as etapas dos processos de consumo e integração, conforme mostra a Figura 1.
Para tal, diversos modelos de procedência devem ser estudados, a fim de definir um mo-
delo que seja compatı́vel com os modelos já existentes e difundidos.
       O modelo de procedência a ser adotado na nova arquitetura deve não somente
contemplar a diferenciação entre dados e parâmetros, mas também deve diferenciar
os processos empregados na integração dos dados ligados, considerando a hierarquia
   6
       http://www.w3.org/TR/prov-dm/



                                             220
                                                    Aplicação
                                                                                     SPARQL

                                 Mapear                 Resolução                Avaliação
           Buscar                                                                                             Dados
                                Vocabulá-                  de                       de
           dados                                                                                            Integrados
                                  rios                 Identidades               Qualidade




                                                     Coletor de Procedência


                Dados Ligados                      Publicação                   XML
                                                                        BD A




         Figura 1. Arquitetura de aplicações consumidoras de dados ligados conside-
         rando os aspectos de procedência de dados.


de técnicas empregadas tanto no mapeamento de vocabulários quanto na descoberta
de links. Uma visão de como essas técnicas podem ser classificadas foi apresentada
por [Euzenat e Shvaiko 2007] e foram também estudadas por [Silva 2010], que relaci-
onou esta visão com as medidas de similaridades definidas por [Ehrig 2007].
        Até o momento, o modelo considera alguns aspectos básicos quanto aos tipos
de processos utilizados na integração e consumo de dados ligados, e, considera uma
categorização dos dados em questão. Os tipos de processo contemplados até o momento
são processos de importação – processos que obtém os dados de seus provedores origi-
nais – e processos de integração. Os processos de integração se encontram categorizados
como processos de mapeamento (de vocabulários) e processos de ligação.

                     Processo                                                            Recurso
                                                                               isA
                                                                                                            used
                                                                  Parâmetro
    Importacao                     Integracao
                                                                                                                   Processo
                        Mapeamento               Ligação                       wasDerivedFrom

Triple          SPARQL                                                                                 wasGeneratedBy
                                       Filtro           Comparação                              isA
    Quad     Crawl
                                                Agregação                                    Produto

                      Figura 2. Conceitos do modelo de dados de procedência.


         Os processos de mapeamento tratam-se de definições de pareamentos de concei-
tos de um vocabulário a outro, como parear foaf:Person e dbpedia:Person ou foaf:name
e rdfs:label. Os processos de ligação tratam-se de execuções de processos que geram
ligações RDF através de alguma computação. Tais processos podem ser processos de
agregação – como médias, máximos, mı́nimos – processos de filtragem – como selecionar
recursos que possuam uma determinada propriedade dentro de um intervalo de valores –
e processos de comparação – como comparar rótulos RDF através de distância de edição,
ou comparar a categorização de dois recursos.
       Pode-se dizer que há uma equivalência entre os conceitos de processo do OPM
e processo do modelo proposto. Uma ideia inicial do modelo é ilustrada pela Figura 2,


                                                            221
onde os conceitos em cinza-escuro representam extensões dos processos de importação,
inclusive já implementados no LDIF.
        No que concerne ao conceito de artefato do OPM, há uma relação de equivalência
com o conceito de recurso, subcategorizado em parâmetro e produto, como mostra a Fi-
gura 2. A diferença entre produtos e parâmetros é que produtos são gerados por processos,
ou seja, para gerar cada produto foram consumidos tempo e recursos computacionais.

                                                          wasGeneratedBy
                                    sameAs#1                                         FilterRun

                                                      wasDerivedFrom
                              wasGeneratedBy                                         used used

                 wasDerivedFrom                wasDerivedFrom          Result: “1”          Limite: 2
                                  LevenshteinRun

                          used                 used                    wasGeneratedBy


                    Rio_de_Janeiro         Rio_De_Janeiro


                         Figura 3. Exemplo de aplicação de modelo.


        A Figura 3 exemplifica uma aplicação bastante básica do modelo, a criação de
uma ligação do tipo “owl:sameAs” entre dois recursos de rótulos “Rio de Janeiro” e
“Rio De Janeiro”, respectivamente. A geração da ligação se dá em dois passos, o pri-
meiro sendo a comparação entre os rótulos dos recursos através de um algoritmo que
calcula distância de edição entre duas cadeias de caracteres e o segundo filtrando apenas
os produtos que tenham sido gerados com distância de edição abaixo de 2. Na Figura 3,
os produtos estão representados por elipses, os parâmetros por retângulos claros e os pro-
cessos por retângulos escuros. Explicitar todas as relações causais entre dados e proces-
sos pode gerar um excesso de informações, que é problema conhecido e já foi discutido
em [Heinis e Alonso 2008], não sendo o foco deste trabalho.
         Em resumo, modelo e arquitetura propostos encapsulam os executores dos pro-
cessos envolvidos em cada etapa do fluxo da integração e consumo de dados ligados, a
fim de registrar e representar os dados de procedência de acordo com a natureza dos pro-
cessos envolvidos na criação das ligações RDF entre recursos, bem como a natureza dos
parâmetros que configuram estes processos e resultados destes processos. Dessa forma,
esses dados de procedência passam a estar disponı́veis para um usuário avaliar confia-
bilidade e autenticidade das ligações geradas, avaliar a qualidade e efetuar fusão de da-
dos ligados – como é o caso do Sieve [Mendes et al. 2012] – e reproduzir o processo de
geração de ligações RDF.

5. Conclusão
Este artigo apresenta uma proposta para o problema do registro e representação de pro-
cedência de dados na atividade de integração e consumo de dados ligados. A sua prin-
cipal contribuição é a extensão de modelos de procedência já estabelecidos e ainda em
definição, adaptando-os para registrar informações mais especı́ficas sobre o consumo e
integração de dados ligados. A partir de uma arquitetura já existente – o LDIF – de código
aberto, estende-se sua funcionalidade de modo a suportar o registro dessas informações.
No momento a extensão proposta está em fase de implementação. O modelo de dados


                                                      222
proposto ainda passa por refinamentos, devendo evoluir a fim de especificar os processos
envolvidos e tipos de dados e parâmetros.
         Trabalhos futuros incluem o estabelecimento de polı́ticas de descarte e seleção de
ligações RDF, com base nos dados de procedência disponibilizados. Além disso, con-
forme as ligações RDF são rastreadas e associadas às informações de procedência, é
possı́vel estabelecer e configurar mecanismos de inferência baseados nessas informações.

Acknowledgements
The authors would like to thank CNPq (309307/2009-0; 486157/2011-3) and FAPERJ
(E-26/111.147/2011) for partially funding their research projects.

Referências
Bizer, C., Heath, T., e Berners-Lee, T. (2009). Linked data - the story so far. Int. J.
  Semantic Web Inf. Syst., 5(3):1–22.
Bose, R. e Frew, J. (2005). Lineage retrieval for scientific data processing: a survey. ACM
  Computing Surveys, 37:1–28.
Ehrig, M. (2007). Ontology Alignment: Bridging the Semantic Gap, volume 4 of Semantic
  Web And Beyond Computing for Human Experience. Springer.
Euzenat, J. e Shvaiko, P. (2007). Ontology matching. Springer.
Heinis, T. e Alonso, G. (2008). Efficient lineage tracking for scientific workflows. In
  Proceedings of the 2008 ACM SIGMOD international conference on Management of
  data, SIGMOD ’08, pages 1007–1018, New York, NY, USA. ACM.
Isele, R., Jentzsch, A., e Bizer, C. (2010). Silk server - adding missing links while consu-
   ming linked data. In 1st International Workshop on Consuming Linked Data (COLD
   2010), Shanghai.
Kobilarov, G., Scott, T., Raimond, Y., Oliver, S., Sizemore, C., Smethurst, M., Bizer,
  C., e Lee, R. (2009). Media meets semantic web — how the bbc uses dbpedia and
  linked data to make connections. In Proceedings of the 6th European Semantic Web
  Conference on The Semantic Web: Research and Applications, ESWC 2009 Heraklion,
  pages 723–737, Berlin, Heidelberg. Springer-Verlag.
Mendes, P. N., Mühleisen, H., e Bizer, C. (2012). Sieve: linked data quality assessment
  and fusion. In Proceedings of the 2012 Joint EDBT/ICDT Workshops, EDBT-ICDT
  ’12, pages 116–123, New York, NY, USA. ACM.
Moreau, L., Clifford, B., Freire, J., Futrelle, J., Gil, Y., Groth, P. T., Kwasnikowska, N.,
  Miles, S., Missier, P., Myers, J., Plale, B., Simmhan, Y., Stephan, E. G., e den Bussche,
  J. V. (2011). The open provenance model core specification (v1.1). Future Generation
  Comp. Syst., 27(6):743–756.
Sahoo, S. S. e Sheth, A. (2009). Provenir ontology: Towards a framework for escience
  provenance management. Microsoft eScience Workshop.
Schultz, A., Matteini, A., Isele, R., Bizer, C., e Becker, C. (2011). LDIF - Linked Data
  Integration Framework, pages 1–4.
Silva, V. d. S. (2010). Uma abordagem para alinhamento de ontologias biomédicas para
   apoiar a anotação genômica. Master’s thesis, Universidade Federal do Rio de Janeiro.


                                            223