<!DOCTYPE article PUBLIC "-//NLM//DTD JATS (Z39.96) Journal Archiving and Interchange DTD v1.0 20120330//EN" "JATS-archivearticle1.dtd">
<article xmlns:xlink="http://www.w3.org/1999/xlink">
  <front>
    <journal-meta />
    <article-meta>
      <title-group>
        <article-title>IntegraWeb: uma arquitetura baseada em mapeamentos semânticos</article-title>
      </title-group>
      <contrib-group>
        <contrib contrib-type="author">
          <string-name>Felipe L. Pierin</string-name>
          <email>fpierin@ime.usp.br</email>
          <xref ref-type="aff" rid="aff0">0</xref>
        </contrib>
        <contrib contrib-type="author">
          <string-name>Jaime S. Sichman</string-name>
          <email>jaime.sichman@usp.br</email>
          <xref ref-type="aff" rid="aff0">0</xref>
        </contrib>
        <aff id="aff0">
          <label>0</label>
          <institution>Instituto de Matemática e Estatística (IME) - Universidade de São Paulo</institution>
          ,
          <addr-line>USP</addr-line>
        </aff>
      </contrib-group>
      <abstract>
        <p>While a large amount of content is produced and published on the Internet by different sources and formats, relevant information about the same domain is spread across the Web in the various portals, which hinders a broad, objective and centralized view of this information. The integration of this data spread in the network allows for smarter queries, with richer results of meaning and closer to the user's interest. However it tends to be costly since there are few reusable and easily integrable models. In this work, we propose an ontology-based architecture for the integration of Internet data and we illustrate its application in real cases on the Internet. Resumo. Dado que grande quantidade de conteúdo é produzida e publicada na Internet por diferentes fontes e formatos, a informação relevante sobre um mesmo domínio acaba espalhada pela Web nos diversos portais, o que dificulta uma visão ampla, centralizada e objetiva sobre esta informação. A integração desses dados espalhados na rede permite consultas mais inteligentes, com resultados mais ricos de significado e mais próximos do interesse do usuário. No entanto, tal integração tende a ser custosa, visto que são poucos os modelos reaproveitáveis e facilmente integráveis entre si. Neste trabalho, propõe-se uma arquitetura baseada em ontologias para a integração de dados da Internet e ilustra-se sua aplicação em casos reais na Internet.</p>
      </abstract>
    </article-meta>
  </front>
  <body>
    <sec id="sec-1">
      <title>1. Introdução</title>
      <p>
        A capacidade de armazenar, correlacionar e produzir informação é um tema cada vez mais
relevante [
        <xref ref-type="bibr" rid="ref7">Gray et al. 2014</xref>
        ]. Nesse contexto, a maioria dos dados que formam a Internet
é composta por conteúdo gerado dinamicamente, sem estrutura bem definida, que, de
maneira geral, só podem ser compreendidas por humanos mas que só podem ser processados
eficazmente por computadores [
        <xref ref-type="bibr" rid="ref14">Stumme et al. 2006</xref>
        ]. Além disso as informações não são
centralizadas e ficam concentradas em silos de informação como Wikipédia, Facebook e
Google Maps, o que pode gerar situações indesejáveis tais como duplicação dos dados,
informação incompleta ou excessivamente distribuída.
      </p>
      <p>Um exemplo de duplicação é o cadastro do perfil de um individuo no Facebook e
no LinkedIn. Nesse caso, como diferentes organizações não compartilham esse conteúdo,
há o custo do armazenamento dos dados que não é compartilhado e o retrabalho do usuário
que preenche o próprio perfil repetidas vezes. Além disso, as informações publicadas na
Internet muitas vezes carecem de mecanismos que as inter-relacionem automaticamente
o que pode a tornar é incompleta; tal situação poderia ser mitigada pela união dos dados
armazenados em diferentes fontes. Considere-se os portais de divulgação de eventos no
Brasil: é comum encontrar cenários em que um determinado portal possui a informação
da existência e local de uma palestra mas não informa o horário; um segundo portal
indica o local da execução da mesma palestra, o horário e o palestrante. Deste modo, não é
possível identificar as palestras de um determinado individuo senão pela busca em ambos
os sites e composição da informação. Embora trabalhosa, tal pesquisa ainda é possível se
limitada a uma palestra especifica de um individuo em especial; no entanto, ao estender a
todas as palestras, contidas em diferentes sites da Internet, a mesma pesquisa passa a ser
inviável uma vez que são muitos os portais e informações que precisam ser avaliados. Ao
combinar as informações de todos os portais acerca desse mesmo domínio, torna-se
possível entender e pesquisar melhor as informações sobre o assunto e automatizar processos
como, por exemplo, montar a grade de apresentações de um determinado palestrante sem
o ônus de pesquisar em diferentes portais. Por exemplo, atualmente um indivíduo que
gosta de eventos culturais e que tenha o interesse em decidir entre ir a uma palestra dentro
de uma faculdade ou a um evento artístico que acontece em um parque precisa
necessariamente navegar por diferentes portais para entender a localização, o horário e então
decidir entre uma, outra, ou ambas as atividades. Nesse caso, ao menos um portal de uma
faculdade e um portal de eventos artísticos acaba sendo visitado na Internet, já que na
realidade do Brasil e na de outros países do mundo o portal que concentra dados sobre
cerimônias dentro de uma organização é muitas vezes mantido na própria organização.
Nesse sentido, uma nova abordagem para captura e pesquisa da informação distribuída na
Internet é necessária.</p>
      <p>A integração entre fontes com domínios distintos é outro ponto relevante de
atenção. Levando em consideração o exemplo dos eventos distribuídos por diferentes portais
na Internet, podemos tornar essa consulta ainda mais rica unindo a essa base de
conhecimento os dados sobre outros domínios como, por exemplo, a informação sobre transporte
público. Em grandes metrópoles como São Paulo é cada vez mais frequente a adoção de
transportes públicos como ônibus, metrô ou táxi para se deslocar pela cidade. No entanto,
para pessoas que dependem exclusivamente desses meios de transporte, muitas vezes a
escolha de um passeio, restaurante ou estabelecimento em geral pode depender da
proximidade, por exemplo, de uma estação de metrô. Indo além, podemos querer saber os
restaurantes abertos localizados perto de uma determinada palestra que desejamos assistir.
Atualmente os portais de divulgação de bares e restaurantes não dispõem de inteligência
para definir o significado de "perto"ou "longe"e por isso não são capazes de trazer
esses dados com precisão. Desse modo, ao combinar informações como estações de metrô
com os diferentes eventos na cidade e adicionar significado a essa informação de maneira
a permitir estabelecer questões como proximidade entre diferentes pontos pode tornar a
pesquisa de um individuo ainda mais rica e relevante.</p>
    </sec>
    <sec id="sec-2">
      <title>2. Panorama tecnológico</title>
      <p>A busca da informação na Internet pode ser melhorada a partir da integração e
correlacionamento das informações publicadas na Internet. A definição e uso de ontologias como às
do projeto Schema.org1 são um passo nesse sentido e o fazem atribuindo significado à
informação, marcando o conteúdo a fim de permitir que o computador passe a compreender
conceitos mais abstratos como Teatro ou Cinema. Apesar disso, não são suficientes para
alcançar a integração dos dados, pois dependem de mecanismos capazes de recuperar as
informações contidas nos diferentes portais de dados para marcar a informarção e então
convertê-las para a terminologia homogênea pré-definida. Informações sobre uma mesma
peça de teatro, uma sessão de cinema ou um evento cultural qualquer podem muitas vezes
serem encontradas dentro de diferentes portais na Internet. Desse modo, a recuperação
dos dados que estão espalhados na rede deve levar em consideração essa condição. Um
sistema capaz de centralizar esses dados dentro da ótica de ontologias deve ser capaz
de identificar, tratar e mesclar os conteúdos encontrados propiciando informações mais
completas.</p>
      <p>A Web Semântica tem o potencial de promover auxilio a tomada de decisão sobre
um assunto compartilhado. A proposição de uma arquitetura capaz de alcançar a
integração do conteúdo de diferentes portais na Internet e de proporcionar consultas mais
próximas do interesse do usuário a partir do uso de ontologias, é portanto, tema muito
relevante. Ao recuperar a informação relevante dos portais da Internet e aplicar anotação
semântica com o uso de ontologias, torna-se possível alcançar uma condição em que os
dados podem ser centralizados, correlacionados, enriquecidos e publicados para novas
consultas agora com semântica agregada. Tal condição possibilita responder perguntas
que envolvem buscas complexas que dependem da informação que está inicialmente
distribuída por entre diferentes portais como, por exemplo, quais restaurantes de comida
italiana estão mais próximos a uma exposição que ocorre em São Paulo, quais eventos
acontecem próximo ao metrô Butantã, entre outras. Esse é objetivo deste trabalho.</p>
      <p>
        Na Internet os dados são publicados a todo momento mas ficam restritos a
grandes silos de informação o que dificulta uma visão homogênea sobre um
determinado domínio de interesse[
        <xref ref-type="bibr" rid="ref6">Civili et al. 2013</xref>
        ]. No entanto, a necessidade de
gerenciar informações provenientes de fontes distintas promove a pesquisa acerca de
maneiras mais inteligentes, capazes de lidar com as divergências entre documentos,
duplicações ou ruídos, para realizar a integração de dados sobre um mesmo domínio
[
        <xref ref-type="bibr" rid="ref16">Vettor et al. 2014</xref>
        ]. Esses mecanismos, por sua vez, podem ser descritos dentro de
duas abordagens distintas e conhecidas como Global As View (GAV) ou Local As View
(LAV) [
        <xref ref-type="bibr" rid="ref1">Abdellaoui and Nader 2015</xref>
        ,
        <xref ref-type="bibr" rid="ref17">Wang et al. 2017</xref>
        ,
        <xref ref-type="bibr" rid="ref12">Putra and Khalil 2017</xref>
        ]. A
estratégia GAV é tradicionalmente utilizada para aplicações em que há consultas federadas nas
quais uma única consulta dispara pesquisas em múltiplas fontes de dados e unifica a
informação recuperada por meio de múltiplas camadas de abstrações. Já o método LAV realiza
a materialização desses dados em um banco de dados único. Neste trabalho optamos por
aplicar a estratégia LAV que funciona melhor para o contexto da Internet em que existem
situações nas quais existem fontes de dados incompletas, que podem estar inacessíveis
em determinado momento [
        <xref ref-type="bibr" rid="ref12">Putra and Khalil 2017</xref>
        ].
      </p>
    </sec>
    <sec id="sec-3">
      <title>3. Trabalhos relacionados</title>
      <p>
        Em geral os estudos que buscam a integração dos dados na Internet atribuem as máquinas
um papel relevante e vão desde o uso de ontologias para mapear um domínio comum
visando a solução do problema da integração de dados heterogêneos [
        <xref ref-type="bibr" rid="ref2">Ahmed 2008</xref>
        ], a
integração baseada em Sistemas Multi-Agentes [
        <xref ref-type="bibr" rid="ref15">Sui et al. 2009</xref>
        ] ou o acesso a informação
baseado em ontologias [
        <xref ref-type="bibr" rid="ref6">Civili et al. 2013</xref>
        ,
        <xref ref-type="bibr" rid="ref11">Kharlamov et al. 2013</xref>
        ].
      </p>
      <p>
        Levando em consideração que a maior parte dos documentos existentes na Web
está definida valendo-se de formatos semi-estruturados, e.g. XML, é de se esperar que a
integração de dados seja feita por meio de anotações semânticas. Iniciativas como o SIOC
[
        <xref ref-type="bibr" rid="ref4">Bojars et al. 2008</xref>
        ] buscam uma proposta valendo-se do apontamento ontológico em
RDF para interligar redes sociais como Flickr e Facebook através das APIs
disponibilizadas por estes sites, outras estudos como o Deep Annotation [
        <xref ref-type="bibr" rid="ref8">Handschuh et al. 2003</xref>
        ]
propõem a construção de uma ferramenta capaz de facilitar a anotação semântica dos dados
já expostos na Web de anotar os dados. Já trabalhos como o Bottari [
        <xref ref-type="bibr" rid="ref3">Balduini et al. 2012</xref>
        ]
aliam a interpretação da diversidade de conteúdo produzido das publicações de
pessoas no Twitter, seguida de mapeamento semântico desses dados em uma ontologia
padronizada para sugerir pontos de interesse. Trabalhos como o SBWS2 e o ASSAM
[
        <xref ref-type="bibr" rid="ref10">Heßand Kushmerick 2003</xref>
        ,
        <xref ref-type="bibr" rid="ref9">Heßet al. 2004</xref>
        ] buscam realizar mapeamento semântico
sobre uma descrição de serviços WSDL3 que funcionam sobre o procolo SOAP4.
      </p>
      <p>
        Outra linha de estudo é o acesso a informação de banco de
dados relacionais pré-existentes. Trabalhos como o VirtuosoRDF5, D2RQ6,
Ontop [
        <xref ref-type="bibr" rid="ref13">Rodríguez-Muro et al. 2013</xref>
        ,
        <xref ref-type="bibr" rid="ref5">Calvanese et al. 2016</xref>
        ] e o MastroStudio
[
        <xref ref-type="bibr" rid="ref6">Civili et al. 2013</xref>
        ], são capazes de gerar representações RDF que derivam
diretamente de acordos implícitos e explícitos dos bancos de dados (BD) relacionais
permitindo assim o acesso à informação baseado em ontologias (ODBA). Neste trabalho
busca-se a integração de dados expostos na Internet, por meio da interpretação dos
documentos expostos na Web e exposição da informação anotada semanticamente a fim
de possibililtar o acesso a dados baseado em Ontologias para um domínio específico.
      </p>
    </sec>
    <sec id="sec-4">
      <title>4. Proposta de arquitetura</title>
      <p>
        Uma arquitetura de integração da informação na Internet depende da definição de
uma estrutura que represente com clareza um determinado domínio de conhecimento
[
        <xref ref-type="bibr" rid="ref2">Ahmed 2008</xref>
        ] e de mecanismos capazes de interpretar, identificar e converter para uma
semântica comum os dados relevantes sobre os documentos publicados. O escopo dos
domínios de dados deve ser delimitado bem como as fontes de informação da qual
serão extraídos. Além disso deve-se considerar também o acesso à informação, a forma
pela qual a informação recuperada e anotada poderá ser utilizada. Propomos uma
arquitetura formada por uma camada de recuperação de dados, uma camada de persistência e
centralização da informação e uma camada de apresentação para o acesso à informação,
conforme ilustrado pela Figura 1.
      </p>
    </sec>
    <sec id="sec-5">
      <title>4.1. Domínio de escopo</title>
      <p>Nesta proposta o escopo foi delimitado para eventos e restaurantes uma vez que são
diversas as fontes de divulgação a respeito de exposições, peças de teatros, palestras, aulas,
2http://asio.bbn.com/sbws.html
3https://www.w3.org/TR/wsdl
4https://www.w3.org/TR/soap/
5http://virtuoso.openlinksw.com/
6http://d2rq.org/</p>
      <p>Figura 1. Proposta de arquitetura de sistema de integração de dados da Web
entre outros a fim de tornar possível uma visão ampla sobre os eventos que acontecem
em determinada data, horário ou região tomando como base a geolocalização. Quanto às
fontes de dados utilizadas, neste trabalho adotaram-se os portais Guia Da Semana7, Guia
da Folha8 e o portal de Eventos da USP9. Os portais foram escolhidos dado a relevância
deles na divulgação dos eventos aos quais se dedicam.</p>
    </sec>
    <sec id="sec-6">
      <title>4.2. Recuperação e anotação</title>
      <p>Delimitado escopo e portais de conteúdo, define-se o processo de recuperação e anotação
da informação. Em primeiro lugar, os dados são recuperados dos portais de eventos
escolhidos a partir de técnicas de recuperação de informação usando expressões regulares.
O conteúdo selecionado é anotado com uma ontologia obtida do portal Schema.org,
gerando assim uma informação com semantica agregada. A informação é então armazenada
em um repositório de dados para acesso baseado em ontologias. Como resultado deste
processo, obtém-se um repositório de dados semanticamente anotado que pode ser
consultado de maneira centralizada. Neste trabalho utilizamos os conceitos “Estabelecimento
de alimentos” (FoodEstablishment), “Evento” (Event) e suas respectivas derivações.</p>
      <p>O processo de identificar e extrair dados nos portais escolhidos acontece na
camada de recuperação de dados. Ela contém toda a inteligência da recuperação da
informação relevante a partir da mediação da requisição para uma fonte de dados na Internet e a
7https://www.guiadasemana.com.br/
8http://guia.folha.uol.com.br/
9http://www.eventos.usp.br/</p>
      <p>Figura 2. Padrões de repetição em portais de conteúdo
consequente transformação daquele conteúdo escolhido para um documento RDF válido
conforme representado pela setas 1 na Figura 1. Essa transformação decorre da criação
de um conjunto de regras baseadas em expressões regulares criadas especificamente para
cada portal escolhido a partir da identificação de padrões de repetição de dados contidas
em cada um dos portais escolhidos. A Figura 2 ilustra a identificação do padrão de
repetição para a informação sobre latitude de longitude de eventos em diferentes portais.
Desse modo, a partir da junção de diferentes expressões regulares trabalhando
conjuntamente sobre o conteúdo dos diferentes documentos dos portais escolhidos é que emerge
a inteligência da interpretação do conteúdo relevante nesses portais. Finalmente, toda a
informação recuperada é então transformada em triplas RDF que podem ser armazenadas
em uma base de dados para consultas posteriores.</p>
      <p>Figura 3. Processo de resolução de conflitos</p>
    </sec>
    <sec id="sec-7">
      <title>4.3. Persistência</title>
      <p>A camada de persistência e centralização possui a responsabilidade de persistir de forma
centralizada as informações recuperadas na camada anterior, o que está indicado pelo
fluxo de informação nas setas 2 e 3 da arquitetura. Também é responsável por resolver
possíveis conflitos de informação, inferir sobre os dados obtidos e disponibilizar acesso
a eles. A centralização dos dados é importante dada a natureza descentralizada da
Internet; uma vez que a informação está espalhada por servidores na Web, estes podem
apresentar barreiras para a integração de dados em tempo real como, por exemplo, a
velocidade de transferência de dados, quando os servidores estão distantes fisicamente, ou
por indisponibilidade de dados, quando o servidor não funciona corretamente. Nesses
casos, uma simples busca realizada em um modelo descentralizado pode tornar-se
excessivamente lenta, uma vez que toda a informação contida nos diferentes portais escolhidos
precisará ser obtida, armazenada e inferida a cada consulta. Já a atualização dos dados
acontece por meio de um processo diário de interpretação da informação publicada nos
portais escolhidos que ocorre de forma paralela ao processo de inferência sobre a
informação. Finalmente o acesso aos dados, representado pelas setas 6 e 7, acontece por meio
da exposição de serviços para consulta SPARQL.</p>
      <p>Dados sobre eventos e restaurantes podem ser enriquecidos e contextualizados
através de suas respectivas geolocalizações. Na proposta de arquitetura deste trabalho a
camada de persistência com o uso de ontologias admite a definição de conceitos
específicos como a definição do que é perto (ou do que é longe) em relação a outro ponto que
possui latitude e longitudes definidos. É possível então entender se determinada
palestra ocorre perto de um metrô ou de um determinado restaurante. O conceito “perto” foi
definido neste trabalho com a distância de quinhentos metros para atingir tal finalidade.
Assim, caso dois pontos “a” e “b” que possuem respectivamente as latitudes e longitudes
(x1,y1) e (x2,y2) estiverem distantes em um raio de até quinhentos metros, então uma
nova tripla “?a iweb:near ?b” é adicionada na base de dados sugerindo que “a” está perto
de “b”.</p>
    </sec>
    <sec id="sec-8">
      <title>4.3.1. Resolução de conflitos</title>
      <p>A resolução de duplicações e conflitos é importante quando informações sobre um mesmo
domínio são recuperadas de diferentes portais. Nesses casos, diferentes fontes podem, por
exemplo, descrever não somente um mesmo evento mas também informações distintas
sobre ele como datas diferentes de uma apresentação de uma peça de teatro ou
endereços divergentes sobre um show tornando assim necessário escolher qual das informações
sobre as diferentes propriedades será mantida. Neste trabalho a resolução de conflitos
acontece por meio de um processo de avaliação baseado em regras pré-definidas, criadas
a partir do domínio dos dados escolhido na qual se decide se um tripla RDF será
armazenada ou descartada como ilustra a Figura 3. A procedência da informação é também
considerada nesse processo. Isso significa que alguns dados podem ser escolhidos em
detrimento de outros, baseado em uma ordem de confiabilidade das fontes de informação.
Desse modo, a decisão entre duas informações contidas em triplas que possuem objetos
diferentes sendo uma extraída de um site A e de outro site B dependem da ordem de
precedência pré-estabelecida. Supondo que se estabeleça que a informação do portal B é
mais relevante que a do portal A pelo pelo fato deste último ter conteúdo mais preciso,
maior abrangência territorial ou qualquer outro, então a informação de A será sempre
substituída pela informação de B. Por fim, os dados são substituídos quando a ordem de
preferência não é estabelecida.</p>
    </sec>
    <sec id="sec-9">
      <title>4.4. Apresentação</title>
      <p>A camada de apresentação simplifica e contextualiza a busca de informações sobre o
domínio. Representada pelas setas 5 e 8 ela recebe consultas que são traduzidas para
SPARQL sem exigência de conhecimento prévio nessa linguagem. Por outro lado, não
impede consultas mais elaboradas por usuários mais avançados nessa linguagem. O
resultado da consulta é desenhado em cima de uma mapa, que contém informações sobre ruas
e estabelecimentos na região dos eventos e estabelecimentos encontrados, como mostrado
na Figura 4.</p>
    </sec>
    <sec id="sec-10">
      <title>5. Resultados</title>
      <p>O primeiro aspecto avaliado foi a capacidade de integrar informações de diferentes
portais. A Figura 4 mostra a distribuição geográfica da informação sobre os eventos
publicados nas fontes escolhidas. Os eventos recuperados do portal da USP estão rotulados como
item A e estão concentrados em regiões próximas a campus da USP, como na região do
Butantã, São Carlos e Ribeirão Preto. Os eventos obtidos do portal Guia Da Semana,
rotulados como B, estão aglomerados na região central da cidade de São Paulo e
abrangem, em maioria, peças de teatro, exposições e shows. Já o Guia da Folha, rotulado como
C, possui conteúdo mais diversificado em toda a cidade de São Paulo, abrangendo desde
restaurantes a exposições. O item D, por sua vez ilustra uma consulta realizada sobre
uma implementação da arquitetura proposta neste trabalho, apresentando todos os
resultados que estão próximos do metrô Sé, utilizando o conceito que define a proximidade e
agregando os valores dos diferentes portais.</p>
      <p>Como mencionado anteriormente, a resolução de conflitos é uma tarefa essencial
quando estamos lidando com informações provenientes de diferentes fontes de dados.
Um exemplo desta situação se refere à peça de teatro “A Era do Rock”, publicada tanto
no portal Guia da Semana quanto no portal Guia da Folha. Enquanto a primeira fonte
indica uma localização claramente incorreta fora do país, a segunda a informação marca
corretamente o Teatro Porto Seguro, conforme ilustra a Figura 5. Quando a informação
é recuperada do portal Guia da Folha, ela é admitida durante o processo de resolução de
conflito e como tal portal Guia da Folha possui preferência sobre a informação do site
Guia da Semana, a geolocalização incorreta é então substituída e a informação torna-se
mais confiável.</p>
      <p>A Figura 6 mostra o conflito já resolvido na implementação da arquitetura. Na
parte superior da imagem, está o exemplo de quando os dados do evento são capturados
de uma fonte de dados com inconsistência da informação e adicionados à base de
conhecimento, e abaixo dela os dados já ajustados após o processo de resolução de conflitos
por fonte mais confiável. Além disso, outra vantagem observável na proposta apresentada
neste trabalho é a capacidade de combinar as informações provenientes das diferentes
fontes escolhidas. No exemplo anterior, além de atualizar a informação sobre latitude e
longitude do evento, a informação também foi complementada com uma descrição mais
específica com o título "overview"o que agrega mais detalhes e consequentemente oferece
uma informação mais abrangente ao usuário final.</p>
    </sec>
    <sec id="sec-11">
      <title>6. Conclusões</title>
      <p>A Web Semântica tem o potencial de correlacionar dados espalhados entre fontes de
informação diversas na Web, contidos em diferentes portais e representados em formatos</p>
      <p>Figura 4. Distribuição e integração de fontes de dados
variados. A aplicação de ontologias auxilia a elevar a qualidade da informação, atribuindo
significado aos dados publicados e propiciando consultas mais ricas e mais próximas dos
interesses finais dos indivíduos, auxiliando-os na tomada de decisões do dia-a-dia. A
premissa deste trabalho é que ao combinar a tecnologia de Web Semântica com mecanismos
de recuperação de dados na Web, permite-se que o conteúdo relevante dos portais
espalhados pela Internet possa ser extraído de maneira automatizada para oferecer um resultado
muito mais expressivo ao usuário final. Nesse contexto, apresentamos uma proposta de
arquitetura capaz de permitir a integração da informação contida em portais heterogêneos, a
partir do uso de representações bem estabelecidas do portal Schema.org, e a centralização
da informação para consulta aos dados com o uso de ontologias.</p>
      <p>Há grandes obstáculos a serem superados no que diz respeito à extração de dados.
Como a maioria dos portais não anota semanticamente o seu conteúdo, que é gerado
dinamicamente, torna-se necessária a aplicação de artifícios para a recuperação de conteúdo
a partir da estrutura sintática desses documentos. Propostas como a apresentada neste
trabalho são vulneráveis à mudança da maneira pela qual a informação é exposta para os
usuários. Em outras palavras, se um determinado portal muda sua forma de
apresentação para os seus usuários, o processo de extração de dados deve ser atualizado. Além
disso, quanto maior a frequência de modificação da estrutura desses documentos, maior é
a quantidade de manutenção na infra-estrutura de recuperação do conteúdo do portal.</p>
      <p>A própria natureza da Internet é um obstáculo para a recuperação de dados dada
a necessidade de se percorrer variados portais da Web para a construção de um resultado</p>
      <p>Figura 5. Conflito de informações em diferentes portais
abrangente. Isso porque nesse tipo de solução há variáveis a se considerar que englobam
velocidade do servidor, disponibilidade da informação, estrutura de rede, entre outros.
Além disso, é inviável a recuperação de todo o conteúdo de grandes portais a cada
consulta, uma vez que essas organizações possuem bases gigantescas de dados. A
centralização de conteúdo em uma base de dados semântica diminui os problemas intrínsecos à
rede e permite que o conhecimento possa ser construído e atualizado de maneira gradual, o
que tende a oferecer mais informações a qualquer momento e independe do gargalo
ocasionado pela consulta federada em várias fontes de informação de maneira simultânea.
Desse modo a inferência sobre dados também não precisa acontecer após cada consulta
realizada, mas sim de maneira assíncrona, o que implica em resultados mais rápidos.</p>
      <p>A arquitetura foi implementada e testada utilizando-se diferentes conceitos, tais
como exposições, peças de teatro e restaurantes. Além disso, os dados sobre um
determinado domínio podem divergir de acordo com a fonte pela qual esta foi extraída, o que
pode ser superado por meio de mecanismos de resolução de conflitos como a priorização
de fontes. Por fim, informações que dizem respeito a um mesmo conteúdo podem ser
agregadas, tornando a informação mais completa e relevante.</p>
      <p>Diferente de trabalhos como o VirtuosoRDF e o D2RQ que se valem das
definições estruturais de tabelas, colunas entre outras características bem definidas no banco de
dados, neste trabalho utilizamos a informação contida na própria Internet para promover
a junção das fontes de informação através do mapeamento semântico. Espera-se que este
trabalho possa ser mais um incentivo para o reuso de informação exposta na Internet e
para o avanço da Web Semântica. Trata-se de uma amostra de que a nova proposta da
Web na qual todos os dados estão interconectados não é uma utopia e pode estar mais
próxima do que imaginamos.</p>
      <p>Figura 6. Resolução de conflito e mesclagem de dados</p>
      <p>A conclusão deste trabalho abre portas para novas pesquisas voltadas para a
melhoria da integração da informação na Web. Entre as sugestões futuras, encontram-se:
(i) a pesquisa de mecanismos mais eficientes de reconhecimento e recuperação de
informação relevantes, (ii) a auto-detecção e mapeamento em tempo real dos dados contidos
em documentos Web para documentos semanticamente anotados, (iii) a construção de
motores capazes de converter consultas SPARQL em HTML, assim como hoje algumas
consultas SPARQL podem ser traduzidas diretamente para SQL e (iv) mecanismos
capazes de reconhecer a mudança da estrutura sintática das páginas HTML e que tenham a
habilidade de se auto ajustar a elas.</p>
    </sec>
    <sec id="sec-12">
      <title>Referências</title>
    </sec>
  </body>
  <back>
    <ref-list>
      <ref id="ref1">
        <mixed-citation>
          <string-name>
            <surname>Abdellaoui</surname>
            ,
            <given-names>S.</given-names>
          </string-name>
          and
          <string-name>
            <surname>Nader</surname>
            ,
            <given-names>F.</given-names>
          </string-name>
          (
          <year>2015</year>
          ).
          <article-title>Semantic Data Warehouse at the heart of Competitive Intelligence Systems: design approach</article-title>
          .
          <source>In 2015 6Th International Conference on Information Systems and Economic Intelligence (Siie)</source>
          , pages
          <fpage>141</fpage>
          -
          <lpage>145</lpage>
          . IEEE.
        </mixed-citation>
      </ref>
      <ref id="ref2">
        <mixed-citation>
          <string-name>
            <surname>Ahmed</surname>
            ,
            <given-names>E.</given-names>
          </string-name>
          (
          <year>2008</year>
          ).
          <article-title>Resource capability discovery and description management system for bioinformatics data and service integration - An experiment with gene regulatory networks</article-title>
          .
          <source>In Proceedings of 11th International Conference on Computer and Information Technology, ICCIT 2008</source>
          , pages
          <fpage>56</fpage>
          -
          <lpage>61</lpage>
          . IEEE.
        </mixed-citation>
      </ref>
      <ref id="ref3">
        <mixed-citation>
          <string-name>
            <surname>Balduini</surname>
            ,
            <given-names>M.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Celino</surname>
            ,
            <given-names>I.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Dell'Aglio</surname>
            ,
            <given-names>D.</given-names>
          </string-name>
          ,
          <string-name>
            <given-names>Della</given-names>
            <surname>Valle</surname>
          </string-name>
          ,
          <string-name>
            <given-names>E.</given-names>
            ,
            <surname>Huang</surname>
          </string-name>
          ,
          <string-name>
            <given-names>Y.</given-names>
            ,
            <surname>Lee</surname>
          </string-name>
          ,
          <string-name>
            <given-names>T.</given-names>
            ,
            <surname>Kim</surname>
          </string-name>
          ,
          <string-name>
            <given-names>S. H.</given-names>
            , and
            <surname>Tresp</surname>
          </string-name>
          ,
          <string-name>
            <surname>V.</surname>
          </string-name>
          (
          <year>2012</year>
          ).
          <article-title>BOTTARI: An augmented reality mobile application to deliver personalized and location-based recommendations by continuous analysis of social media streams</article-title>
          .
          <source>Journal of Web Semantics</source>
          ,
          <volume>16</volume>
          :
          <fpage>33</fpage>
          -
          <lpage>41</lpage>
          .
        </mixed-citation>
      </ref>
      <ref id="ref4">
        <mixed-citation>
          <string-name>
            <surname>Bojars</surname>
            ,
            <given-names>U.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Breslin</surname>
            ,
            <given-names>J. G.</given-names>
          </string-name>
          ,
          <article-title>Finn, a</article-title>
          ., and
          <string-name>
            <surname>Decker</surname>
            ,
            <given-names>S.</given-names>
          </string-name>
          (
          <year>2008</year>
          ).
          <article-title>Using the Semantic Web for linking and reusing data across Web 2.0 communities</article-title>
          .
          <source>Web Semantics</source>
          ,
          <volume>6</volume>
          (
          <issue>1</issue>
          ):
          <fpage>21</fpage>
          -
          <lpage>28</lpage>
          .
        </mixed-citation>
      </ref>
      <ref id="ref5">
        <mixed-citation>
          <string-name>
            <surname>Calvanese</surname>
            ,
            <given-names>D.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Cogrel</surname>
            ,
            <given-names>B.</given-names>
          </string-name>
          , and
          <string-name>
            <surname>Komla-Ebri</surname>
            ,
            <given-names>S.</given-names>
          </string-name>
          (
          <year>2016</year>
          ).
          <article-title>Ontop: Answering SPARQL queries over relational databases</article-title>
          .
          <source>Semantic Web</source>
          ,
          <volume>0</volume>
          (
          <issue>0</issue>
          ).
        </mixed-citation>
      </ref>
      <ref id="ref6">
        <mixed-citation>
          <string-name>
            <surname>Civili</surname>
            ,
            <given-names>C.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Ruzzi</surname>
            ,
            <given-names>M.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Santarelli</surname>
            ,
            <given-names>V.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Savo</surname>
            ,
            <given-names>D. F.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Console</surname>
            ,
            <given-names>M.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>De Giacomo</surname>
            ,
            <given-names>G.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Lembo</surname>
            ,
            <given-names>D.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Lenzerini</surname>
            ,
            <given-names>M.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Lepore</surname>
            ,
            <given-names>L.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Mancini</surname>
            ,
            <given-names>R.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Poggi</surname>
            ,
            <given-names>A.</given-names>
          </string-name>
          , and
          <string-name>
            <surname>Rosati</surname>
            ,
            <given-names>R.</given-names>
          </string-name>
          (
          <year>2013</year>
          ).
          <article-title>Mastro Studio: Managing Ontology-based Data Access Applications</article-title>
          .
          <source>Proceedings of the VLDB Endowment</source>
          ,
          <volume>6</volume>
          (
          <issue>12</issue>
          ):
          <fpage>1314</fpage>
          -
          <lpage>1317</lpage>
          .
        </mixed-citation>
      </ref>
      <ref id="ref7">
        <mixed-citation>
          <string-name>
            <surname>Gray</surname>
            ,
            <given-names>A. J.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Groth</surname>
            ,
            <given-names>P.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Loizou</surname>
            ,
            <given-names>A.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Askjaer</surname>
            ,
            <given-names>S.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Brenninkmeijer</surname>
            ,
            <given-names>C.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Burger</surname>
            ,
            <given-names>K.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Chichester</surname>
            ,
            <given-names>C.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Evelo</surname>
            ,
            <given-names>C. T.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Goble</surname>
            ,
            <given-names>C.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Harland</surname>
            ,
            <given-names>L.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Pettifer</surname>
            ,
            <given-names>S.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Thompson</surname>
            ,
            <given-names>M.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Waagmeester</surname>
            ,
            <given-names>A.</given-names>
          </string-name>
          , and
          <string-name>
            <surname>Williams</surname>
            ,
            <given-names>A. J.</given-names>
          </string-name>
          (
          <year>2014</year>
          ).
          <article-title>Applying linked data approaches to pharmacology: Architectural decisions and implementation</article-title>
          .
          <source>Semantic Web</source>
          ,
          <volume>5</volume>
          (
          <issue>2</issue>
          ):
          <fpage>101</fpage>
          -
          <lpage>113</lpage>
          .
        </mixed-citation>
      </ref>
      <ref id="ref8">
        <mixed-citation>
          <string-name>
            <surname>Handschuh</surname>
            ,
            <given-names>S.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Staab</surname>
            ,
            <given-names>S.</given-names>
          </string-name>
          , and
          <string-name>
            <surname>Volz</surname>
            ,
            <given-names>R.</given-names>
          </string-name>
          (
          <year>2003</year>
          ).
          <article-title>On deep annotation</article-title>
          .
          <source>Proceedings of the twelfth international conference on World Wide Web - WWW '03, page 431.</source>
        </mixed-citation>
      </ref>
      <ref id="ref9">
        <mixed-citation>
          <string-name>
            <surname>Heß</surname>
            ,
            <given-names>A.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Johnston</surname>
            ,
            <given-names>E.</given-names>
          </string-name>
          , and
          <string-name>
            <surname>Kushmerick</surname>
            ,
            <given-names>N.</given-names>
          </string-name>
          (
          <year>2004</year>
          ).
          <article-title>Assam: A tool for semi-automatically annotating semantic web services</article-title>
          .
          <source>3rd International Semantic Web Conference (ISWC</source>
          <year>2004</year>
          ).
        </mixed-citation>
      </ref>
      <ref id="ref10">
        <mixed-citation>
          <string-name>
            <surname>Heß</surname>
            ,
            <given-names>A.</given-names>
          </string-name>
          and
          <string-name>
            <surname>Kushmerick</surname>
            ,
            <given-names>N.</given-names>
          </string-name>
          (
          <year>2003</year>
          ). Learning to Attach Semantic Metadata to Web Services.
          <source>The Semantic Web - ISWC</source>
          <year>2003</year>
          ,
          <volume>2870</volume>
          :
          <fpage>258</fpage>
          -
          <lpage>273</lpage>
          .
        </mixed-citation>
      </ref>
      <ref id="ref11">
        <mixed-citation>
          <string-name>
            <surname>Kharlamov</surname>
            ,
            <given-names>E.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Jiménez-Ruiz</surname>
            ,
            <given-names>E.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Zheleznyakov</surname>
            ,
            <given-names>D.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Bilidas</surname>
            ,
            <given-names>D.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Giese</surname>
            ,
            <given-names>M.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Haase</surname>
            ,
            <given-names>P.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Horrocks</surname>
            ,
            <given-names>I.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Kllapi</surname>
            ,
            <given-names>H.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Koubarakis</surname>
            ,
            <given-names>M.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Özçep</surname>
          </string-name>
          , Ö.,
          <string-name>
            <surname>Rodríguez-Muro</surname>
            ,
            <given-names>M.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Rosati</surname>
            ,
            <given-names>R.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Schmidt</surname>
            ,
            <given-names>M.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Schlatte</surname>
            ,
            <given-names>R.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Soylu</surname>
            ,
            <given-names>A.</given-names>
          </string-name>
          , and
          <string-name>
            <surname>Waaler</surname>
            ,
            <given-names>A.</given-names>
          </string-name>
          (
          <year>2013</year>
          ).
          <article-title>Optique: Towards OBDA systems for industry</article-title>
          .
          <source>In Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics)</source>
          , volume
          <volume>7955</volume>
          LNCS, pages
          <fpage>125</fpage>
          -
          <lpage>140</lpage>
          . Springer Berlin Heidelberg.
        </mixed-citation>
      </ref>
      <ref id="ref12">
        <mixed-citation>
          <string-name>
            <surname>Putra</surname>
            ,
            <given-names>S. J.</given-names>
          </string-name>
          and
          <string-name>
            <surname>Khalil</surname>
            ,
            <given-names>I.</given-names>
          </string-name>
          (
          <year>2017</year>
          ).
          <article-title>Context for the intelligent search of information</article-title>
          .
          <source>In 2017 5th International Conference on Cyber and IT Service Management (CITSM)</source>
          , pages
          <fpage>1</fpage>
          -
          <lpage>4</lpage>
          . IEEE.
        </mixed-citation>
      </ref>
      <ref id="ref13">
        <mixed-citation>
          <string-name>
            <surname>Rodríguez-Muro</surname>
            ,
            <given-names>M.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Kontchakov</surname>
            ,
            <given-names>R.</given-names>
          </string-name>
          , and
          <string-name>
            <surname>Zakharyaschev</surname>
            ,
            <given-names>M.</given-names>
          </string-name>
          (
          <year>2013</year>
          ).
          <article-title>Ontop at work</article-title>
          .
          <source>In PROC. OF OWL: EXPERIENCES AND DIRECTIONS WORKSHOP 2013</source>
          (
          <article-title>OWLED 2013)</article-title>
          . CEURWS.
        </mixed-citation>
      </ref>
      <ref id="ref14">
        <mixed-citation>
          <string-name>
            <surname>Stumme</surname>
            ,
            <given-names>G.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Hotho</surname>
            ,
            <given-names>A.</given-names>
          </string-name>
          , and
          <string-name>
            <surname>Berendt</surname>
            ,
            <given-names>B.</given-names>
          </string-name>
          (
          <year>2006</year>
          ).
          <article-title>Semantic Web Mining: State of the art and future directions</article-title>
          .
          <source>Web Semantics: Science, Services and Agents on the World Wide Web</source>
          ,
          <volume>4</volume>
          :
          <fpage>124</fpage>
          -
          <lpage>143</lpage>
          .
        </mixed-citation>
      </ref>
      <ref id="ref15">
        <mixed-citation>
          <string-name>
            <surname>Sui</surname>
            ,
            <given-names>X.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Wang</surname>
            ,
            <given-names>S.</given-names>
          </string-name>
          , and
          <string-name>
            <surname>Li</surname>
            ,
            <given-names>Z.</given-names>
          </string-name>
          (
          <year>2009</year>
          ).
          <article-title>Research on the model of Integration with Semantic Web and Agent Personalized Recommendation System</article-title>
          .
          <source>In 2009 13th International Conference on Computer Supported Cooperative Work in Design</source>
          , pages
          <fpage>233</fpage>
          -
          <lpage>237</lpage>
          . IEEE.
        </mixed-citation>
      </ref>
      <ref id="ref16">
        <mixed-citation>
          <string-name>
            <surname>Vettor</surname>
            ,
            <given-names>P. D.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Mrissa</surname>
            ,
            <given-names>M.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Benslimane</surname>
            ,
            <given-names>D.</given-names>
          </string-name>
          , and
          <string-name>
            <surname>Berbar</surname>
            ,
            <given-names>S.</given-names>
          </string-name>
          (
          <year>2014</year>
          ).
          <article-title>A Service Oriented Architecture for Linked Data Integration</article-title>
          .
          <source>In 2014 IEEE 8th International Symposium on Service Oriented System Engineering</source>
          , pages
          <fpage>198</fpage>
          -
          <lpage>203</lpage>
          . IEEE.
        </mixed-citation>
      </ref>
      <ref id="ref17">
        <mixed-citation>
          <string-name>
            <surname>Wang</surname>
            ,
            <given-names>A.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Croft</surname>
            ,
            <given-names>J.</given-names>
          </string-name>
          , and
          <string-name>
            <surname>Dragut</surname>
            ,
            <given-names>E.</given-names>
          </string-name>
          (
          <year>2017</year>
          ).
          <article-title>Reflections on Data Integration for SDN</article-title>
          .
          <source>In Proceedings of the ACM International Workshop on Security in Software Defined Networks &amp; Network Function Virtualization - SDN-NFVSec '17</source>
          , pages
          <fpage>65</fpage>
          -
          <lpage>68</lpage>
          , New York, New York, USA. ACM Press.
        </mixed-citation>
      </ref>
    </ref-list>
  </back>
</article>