<!DOCTYPE article PUBLIC "-//NLM//DTD JATS (Z39.96) Journal Archiving and Interchange DTD v1.0 20120330//EN" "JATS-archivearticle1.dtd">
<article xmlns:xlink="http://www.w3.org/1999/xlink">
  <front>
    <journal-meta />
    <article-meta>
      <title-group>
        <article-title>Ontologias para descrição de recursos multimídia: uma proposta para o CPDOC-FGV</article-title>
      </title-group>
      <contrib-group>
        <contrib contrib-type="author">
          <string-name>Daniela L. Silva</string-name>
          <email>danielalucas@hotmail.com</email>
          <xref ref-type="aff" rid="aff0">0</xref>
        </contrib>
        <contrib contrib-type="author">
          <string-name>Renato R. Souza</string-name>
          <email>renato.souza@fgv.br</email>
        </contrib>
        <contrib contrib-type="author">
          <string-name>Fabrício M. Mendonça</string-name>
          <xref ref-type="aff" rid="aff0">0</xref>
        </contrib>
        <contrib contrib-type="author">
          <string-name>Maurício B. Almeida</string-name>
          <xref ref-type="aff" rid="aff0">0</xref>
        </contrib>
        <contrib contrib-type="author">
          <string-name>- Goiabeiras -</string-name>
        </contrib>
        <contrib contrib-type="author">
          <string-name>- Vitória - Brasil</string-name>
        </contrib>
        <contrib contrib-type="author">
          <string-name>- Rio de Janeiro - Brasil</string-name>
        </contrib>
        <aff id="aff0">
          <label>0</label>
          <institution>Escola de Ciência da Informação - Universidade Federal de Minas Gerais Av. Antônio Carlos</institution>
          ,
          <addr-line>6627 - Campus Pampulha - 31.270-901 - Belo Horizonte -</addr-line>
          <country country="BR">Brasil</country>
        </aff>
      </contrib-group>
      <fpage>212</fpage>
      <lpage>217</lpage>
      <abstract>
        <p>This paper describes a proposal for building an ontology in the multimedia description domain, in the context of the center for teaching and research in the Social Sciences and Contemporary History (CPDOC) from the FGV. It also presents the results from a state-of-art review study of the multimedia and controlled vocabularies available, and its relation with the Semantic Web Linked Data recommendation. Resumo. O artigo descreve uma proposta para construção de uma ontologia para o domínio da descrição multimídia envolvendo o Centro de Pesquisa e Documentação de História Contemporânea do Brasil (CPDOC) da FGV. Apresenta-se também um resultado conciso do estudo do estado da arte da temática de vocabulários e metadados multimídia e sua relação com Linked Data.</p>
      </abstract>
    </article-meta>
  </front>
  <body>
    <sec id="sec-1">
      <title>1. Introdução</title>
      <p>
        metodologias, tecnologias e padrões de metadados para aumentar o escopo da
interoperabilidade e da integração plena de informações heterogêneas entre sistemas de
informação [
        <xref ref-type="bibr" rid="ref2">Berners-Lee, Hendler e Lassila 2001</xref>
        ] [
        <xref ref-type="bibr" rid="ref3">Berners-Lee 2006</xref>
        ]; e b)
instrumentos de representação de relacionamentos semânticos e conceituais como
ontologias e vocabulários controlados [
        <xref ref-type="bibr" rid="ref5">Gruber 1993</xref>
        ], [
        <xref ref-type="bibr" rid="ref6">Guarino 1998</xref>
        ], [
        <xref ref-type="bibr" rid="ref11">Silva, Souza e
Almeida, 2008</xref>
        ] objetivando endereçar problemas relacionados à interoperabilidade de
sistemas e bases de dados, além das dificuldades intrínsecas à manipulação da
linguagem natural como, por exemplo, as questões de polissemia e sinonímia.
      </p>
      <p>
        Uma das principais mudanças que reflete a Web é a desterritorialização do
documento e a sua desvinculação de uma forma física tradicional como o papel,
possibilitando uma integração entre diferentes suportes (texto, imagem, som, vídeo) e a
modificação na forma linear de acesso promovida pela inserção das tecnologias
hipertexto e hipermídia. Em esfera global, observam-se nos últimos três anos [
        <xref ref-type="bibr" rid="ref10">Schandl
et al. 2011</xref>
        ] um crescimento significativo de dados semanticamente relacionados e
distribuídos na Web – o que se tem denominado na literatura de Linked Data. Nesse
contexto, padrões de metadados recomendados pelo World Wide Web Consortium
(W3C) vêm sendo utilizados para descrever e representar recursos multimídia,
possibilitando ampliar os pontos de acesso e melhorar a gestão, a organização e a
recuperação de acervos digitais. Entretanto, o relacionamento entre multimídia e Linked
Data ainda é pouco estudado nas comunidades multimídia e ciência da Web [
        <xref ref-type="bibr" rid="ref10">Schandl et
al. 2011</xref>
        ], abrindo-se oportunidades de pesquisa voltadas a tecnologias eficientes para
geração, exposição, descobrimento e consumo de recursos multimídia semanticamente
vinculados na Web.
      </p>
      <p>Este artigo objetiva apresentar uma proposta endereçada à construção de uma
ontologia de domínio da descrição multimídia para o Centro de Pesquisa e
Documentação de História Contemporânea do Brasil (CPDOC). O Centro é dedicado ao
estudo e à preservação da memória do país e, atualmente, abriga o mais importante
acervo de arquivos pessoais de homens públicos no Brasil (em manuscritos, impressos,
fotografias, áudios e vídeos) organizado em sistemas de informações com características
próprias. A ontologia de domínio proposta busca a melhoria dos processos de
organização da informação do acervo multimídia do CPDOC e a integração de seus
sistemas junto a Web de dados.</p>
      <p>O presente artigo está estruturado da seguinte forma: na seção 2 são
apresentados conceitos, tecnologias e problemas que circundam a temática vocabulários
e metadados multimídia e seu relacionamento emergente com o paradigma Linked Data;
na seção 3 é descrita a metodologia para construção de modelos semânticos a um Centro
de Pesquisa e Documentação; na seção 4 apresenta-se um resultado parcial de pesquisa
sobre vocabulários considerados úteis para o contexto multimídia na Web, e que podem
servir para reuso e extensão em um processo de construção de ontologias; e finalmente,
a seção 5 é dedicada às considerações finais.</p>
    </sec>
    <sec id="sec-2">
      <title>2. Descrição de recursos multimídia e Linked Data</title>
      <p>
        Utilizar metadados é a forma mais comumente empregada para agregar semântica a
informações [
        <xref ref-type="bibr" rid="ref4">Gilliland 2000</xref>
        ] com o propósito de facilitar a busca de recursos
informacionais. No caso de recursos multimídia, os metadados podem ser usados tanto
para descrever atributos técnicos de baixo nível do conteúdo (cores, texturas, timbres de
som, descrição de melodia) quanto para descrever características semânticas de alto
nível como, por exemplo, classificação de gênero ou representação de informação sobre
pessoas retratadas na mídia.
      </p>
      <p>
        No escopo da Web Semântica [
        <xref ref-type="bibr" rid="ref2">Berners-Lee, Hendler e Lassila 2001</xref>
        ], os
metadados são agregados através das chamadas linguagens de marcação (do inglês,
markup languages). Estas linguagens, cujo padrão mais conhecido e utilizado é o XML
(eXtensible Markup Language), definem tags ou marcações que são adicionadas aos
dados a fim de indicar alguma informação importante. Ainda que o padrão XML tenha
se tornado bastante popular, logo se percebeu que somente esse padrão não é suficiente
para permitir a correta interpretação das informações por um sistema informatizado,
pois tal sistema não consegue inferir, através das marcações, o que uma informação
significa. Tal limitação pode acarretar deficiências nas buscas e na interoperabilidade
entre sistemas.
      </p>
      <p>
        Alternativas estão sendo propostas para este problema pelo W3C no projeto da
Web Semântica. Uma dessas alternativas é a adoção do conceito de ontologias para a
compatibilização de conceitos encontrados em bancos de dados dos mais diversos tipos
na Web. As ontologias apresentam-se como possibilidades de representação de
conhecimento em sistemas de informação na medida em que buscam organizar e
padronizar conceitos, termos e definições aceitas por uma comunidade particular. Várias
linguagens baseadas em XML têm sido propostas para representar ontologias como
RDF (Resource Description Framework), RDF Schema e OWL (Ontology Web
Language); além da linguagem de consulta para dados modelados em RDF, a SPARQL
[
        <xref ref-type="bibr" rid="ref1">Allemang e Hendler 2008</xref>
        ].
      </p>
      <p>
        O enriquecimento semântico sobre dados abertos e vinculados, também
conhecido como iniciativa LOD - linked open data [
        <xref ref-type="bibr" rid="ref3">Berners-Lee 2006</xref>
        ], é uma
abordagem recente proposta pelo W3C. A proposta é usar os padrões abertos concebidos
pelo W3C em projetos para a Web Semântica a fim de interligar e anotar dados
reutilizando vocabulários, ontologias e esquemas de metadados. Nesse sentido, busca-se
uma visão integrada de dados e uma maximização da interoperabilidade semântica entre
conjuntos de dados (data sets) de produtores e consumidores de conteúdo na Web. Os
conjuntos de dados Geonames1 e DBpedia2 são comumente usados e fazem parte da
“nuvem LOD3”. Entretanto, seus esquemas (além de outros disponíveis na nuvem) não
são suficientes para uma atribuição semântica satisfatória aos dados, pois não
compreendem um modelo conceitual adequado para representar parte de suas realidades.
Além disso, possuem deficiências na qualidade das informações publicadas na nuvem: i)
falta de descrição conceitual nos conjuntos de dados; ii) ausência de links nos esquemas
de dados; e iii) falta de expressividade semântica na representação de dados [
        <xref ref-type="bibr" rid="ref8">Jain et al.
2010</xref>
        ].
      </p>
      <p>Provedores de conteúdo multimídia podem enriquecer semanticamente seus
esquemas de metadados com especificações estruturadas e bem definidas de
1 http://www.geonames.org/
2 http://dbpedia.org/About
3 Representação gráfica de fontes de dados populares e das ligações entre as mesmas. Cf.
http://www.w3.org/wiki/TaskForces/CommunityProjects/LinkingOpenData/DataSets/Statistics
conhecimento (por meio de ontologias, por exemplo), viabilizando o consumo e o reuso
de informações de alta qualidade e, muitas vezes, multilíngue fornecidas por bases de
conhecimento publicamente acessíveis, como o DBpedia, por exemplo. Além disso,
podem introduzir links para seus descritores de metadados aumentando a visibilidade e a
expansão na cobertura de seus conteúdos na Web. Observam-se, assim, mudanças
significativas nos modelos de organização e representação do conhecimento no espaço
digital no que tange a propostas de melhorar os sistemas de busca e navegação por meio
da agregação de abordagens semânticas aos recursos na Web, de forma a obter
resultados mais significativos pelos usuários.</p>
    </sec>
    <sec id="sec-3">
      <title>3. Metodologia para construção de modelos semânticos para o CPDOC integrados a Web de dados</title>
      <p>Uma parte significativa dos conjuntos documentais do CPDOC encontra-se em formato
digital e disponível para consulta online. Apesar de poderem ser acessados através do
mesmo portal, possuem interfaces e processos de descrição e publicização distintos. São
cerca de: 1,2 milhão de documentos manuscritos e impressos (ou 5.1 milhões de
páginas); 80 mil fotografias; 6 mil horas de entrevistas em áudio e vídeo; e 8 mil
verbetes de natureza biográfica e temática.</p>
      <p>O CPDOC conta hoje com um projeto de integração de dados de seus sistemas
de informação visando à criação de um portal semântico com interface única para
buscas temáticas transversais e integradas. Foi engendrado para promover uma maior
integração das bases de dados internas com as externas, como a própria Wikipédia, com
benefícios no sentido de aumento da publicização e estruturação de redes sociais de
colaboração para contribuições e eventuais correções para o acervo. O projeto prevê a
criação de ontologias para descrição de recursos multimídia (áudio, vídeo, imagem,
texto) e ontologias no domínio de história contemporânea.</p>
      <p>
        No que tange à ontologia para o domínio da descrição multimídia, foco desta
proposta de trabalho, o propósito é conceber modelos conceituais ontologicamente
consistentes e bem fundamentados, isto é, dando ênfase à explicitação na semântica dos
esquemas de dados internos e externos de interesse do CPDOC. Uma ontologia de
domínio bem fundamentada é um modelo de domínio específico que se articula com um
domínio de sistema de categorias formal e independente, denominado ontologias de
fundamentação [
        <xref ref-type="bibr" rid="ref7">Guizzardi e Wagner 2009</xref>
        ]. As categorias ontológicas podem ser úteis
no sentindo de esclarecer o significado pretendido dos termos adotados por meio de um
conjunto de distinções semânticas, evitando ambiguidade e melhorando, principalmente,
a qualidade na representação de dados no contexto Linked Data.
      </p>
      <p>
        A proposta é construir a ontologia de domínio da descrição multimídia orientada
por uma ontologia de fundamentação como, por exemplo, a Unified Foundational
Ontology (UFO) [
        <xref ref-type="bibr" rid="ref7">Guizzardi e Wagner 2009</xref>
        ] e a Descriptive Ontology for Linguistic
and Cognitive Engineering (DOLCE) [
        <xref ref-type="bibr" rid="ref9">Masolo et al., 2003</xref>
        ], observando-se, ainda,
vocabulários e metadados multimídia disponíveis na Web com vistas a reuso ou a
extensão. A ontologia de domínio bem fundamentada para descrição multimídia será
útil para a integração semântica entre as bases de dados do CPDOC e estas, por sua vez,
ligadas com conjuntos de dados pertencentes à Web de dados. Tal integração será
estabelecida por meio de modelos conceituais dos conjuntos de dados envolvidos
ligados à implementação da ontologia de domínio. Acredita-se que a utilização de um
nível conceitual é relevante no sentido de abstrair características tecnológicas, além de
fornecer uma descrição conceitual para conjuntos de dados e melhorar a compreensão
humana e a atribuição semântica às máquinas.
      </p>
    </sec>
    <sec id="sec-4">
      <title>4. Resultados parciais</title>
      <p>
        O objetivo da presente seção é apresentar e descrever de modo sucinto alguns
vocabulários (incluindo ontologias) que foram desenvolvidos nos últimos anos pelas
comunidades de Web Semântica e Linked Data, os quais se mostram relevantes no
contexto de marcação semântica para conteúdos multimídia. Tais vocabulários são
considerados uma boa prática para reuso ou extensão [
        <xref ref-type="bibr" rid="ref10">Schandl et al. 2011</xref>
        ]. O Quadro 1
exibe os vocabulários. Para a exploração da literatura sobre vocabulários e metadados
multimídia utilizou-se da técnica de pesquisa bibliográfica e documental em artigos
científicos, livros e relatórios técnicos de pesquisa. Para a identificação de documentos
relacionados à temática, foram consultadas bases de dados de documentos científicos no
portal de periódicos da Capes e na biblioteca digital Citeseer. No que diz respeito ao
portal de periódicos da Capes, as editoras consultadas foram: i) Association Computing
Machinery; ii) Journal Multimedia Tools and Applications; e iii) IEEE MultiMedia.
      </p>
      <p>Quadro 1: Vocabulários relevantes para o contexto multimídia</p>
      <p>Vocabulário
Dublin Core
Friend of a Friend
Basic Geo Vocabulary
Creative Commons
Review Vocabulary
Multimedia Metadata
Ontology
Core Ontology for
Multimedia
Exif Vocabulary
Visual Resources
Association
Categories for the
Description of Works of
Art</p>
      <p>Característica
Fornece propriedades para descrever artefatos criados pelo homem como
proveniência, formato, idioma, direitos autorais. Voltado ao domínio de
metadados bibliográfico.</p>
      <p>Descreve pessoas, organizações e relacionamentos entre eles.</p>
      <p>Define propriedades para a representação de coordenadas geográficas
(latitude, longitude e altitude).</p>
      <p>Fornece termos e classes para representar informação legal sobre obras,
licenças associadas e permissão de distribuição e uso.</p>
      <p>Fornece termos que representam revisões, críticas e comentários para
objetos arbitrários.</p>
      <p>Fornece um framework para a integração de aspectos centrais de
metadados multimídia.</p>
      <p>Fornece primitivas para explicitar a composição de um objeto mídia e o
que nele deve ser representado. É considerada uma ontologia bem
fundamentada para descrição multimídia.</p>
      <p>Especifica formatos a serem usados para imagens e sons em câmaras
digitais.</p>
      <p>Fornece uma organização categórica para a descrição de trabalhos ligados
a cultura visual bem como imagens que os documentam.</p>
      <p>Descreve objetos de arte e imagens, além de incluir discussões e assuntos
relacionados à construção de sistemas de informação no domínio da arte.</p>
      <p>
        Segundo [
        <xref ref-type="bibr" rid="ref10">Schandl et al. 2011</xref>
        ], existem muitos vocabulários relevantes para
dados multimídia, entretanto, ressaltam que uma grande parte ainda não é utilizada no
contexto de Linked Data.
      </p>
    </sec>
    <sec id="sec-5">
      <title>5. Considerações finais</title>
      <p>Este artigo permitiu evidenciar que há uma quantidade considerável de padrões de
metadados, vocabulários e ontologias na tentativa de melhor representar recursos
multimídia visando recuperação semântica através de bibliotecas, portais e bases de
dados digitais abertos.</p>
      <p>Esforços na construção de ontologias podem ser poupados tendo em vista a
exploração de vocabulários em comunidades de interesse. Contudo, surgem desafios na
identificação e seleção de uma variedade de padrões de metadados, vocabulários e
ontologias disponíveis e que precisam ser compatíveis com as entidades reais de um
domínio específico. Tais desafios encontram-se i) no alinhamento de vocabulários e
ontologias que reflete aspectos de interoperabilidade semântica e sintática para o
provimento de compartilhamento entre sistemas e aplicações na web; e ii) na
modelagem conceitual adequada para representar consensualmente parte da realidade de
um domínio.</p>
    </sec>
  </body>
  <back>
    <ref-list>
      <ref id="ref1">
        <mixed-citation>
          <string-name>
            <surname>ALLEMANG</surname>
            ,
            <given-names>D.</given-names>
          </string-name>
          ; HENDLER,
          <string-name>
            <surname>J.</surname>
          </string-name>
          (
          <year>2008</year>
          )
          <article-title>Semantic web for the working ontologist: modeling in RDF, RDFS</article-title>
          and
          <string-name>
            <surname>OWL</surname>
          </string-name>
          , Elsevier, MA, USA.
        </mixed-citation>
      </ref>
      <ref id="ref2">
        <mixed-citation>
          <string-name>
            <surname>BERNERS-LEE</surname>
            ,
            <given-names>T; HENDLER</given-names>
          </string-name>
          , J.; LASSILA,
          <string-name>
            <surname>O.</surname>
          </string-name>
          (
          <year>2001</year>
          ) “
          <article-title>The Semantic Web”</article-title>
          .
          <source>Scientific American</source>
          , vol.
          <volume>284</volume>
          ,
          <issue>nº</issue>
          . 5,
          <issue>maio</issue>
          , p.
          <fpage>34</fpage>
          -
          <lpage>43</lpage>
          .
        </mixed-citation>
      </ref>
      <ref id="ref3">
        <mixed-citation>
          <string-name>
            <surname>BERNERS-LEE</surname>
            ,
            <given-names>T.</given-names>
          </string-name>
          (
          <year>2006</year>
          ) “
          <article-title>Linked Data - Design Issues”</article-title>
          . Available at: &lt; http://www.w3.org/DesignIssues/LinkedData.html &gt;.
        </mixed-citation>
      </ref>
      <ref id="ref4">
        <mixed-citation>
          <string-name>
            <surname>GILLILAND</surname>
          </string-name>
          ,
          <string-name>
            <surname>Anne</surname>
            <given-names>J</given-names>
          </string-name>
          . (
          <year>2000</year>
          ) “
          <article-title>Introduction to metadata: setting the stage”</article-title>
          . Available at:&lt;http://www.getty.edu/research/publications/electronic_publications/intrometadata /setting.pdf &gt;.
        </mixed-citation>
      </ref>
      <ref id="ref5">
        <mixed-citation>
          <string-name>
            <surname>GRUBER</surname>
            ,
            <given-names>T.</given-names>
          </string-name>
          (
          <year>1993</year>
          ) “
          <article-title>What is an Ontology?” ksl.stanford.edu/kst/what-is-an-ontology</article-title>
          .
          <source>html&gt;.</source>
        </mixed-citation>
      </ref>
      <ref id="ref6">
        <mixed-citation>
          <string-name>
            <surname>GUARINO</surname>
            ,
            <given-names>N.</given-names>
          </string-name>
          (
          <year>1998</year>
          ) “
          <article-title>Formal ontology in information systems”</article-title>
          . Available at: &lt;http://citeseer.ist.psu.edu/guarino98formal.html&gt;.
        </mixed-citation>
      </ref>
      <ref id="ref7">
        <mixed-citation>
          <string-name>
            <surname>GUIZZARDI</surname>
            ,
            <given-names>G.</given-names>
            ; WAGNER, G.
          </string-name>
          (
          <year>2009</year>
          )
          <article-title>Using the Unified Foundational Ontology (UFO) as a foundation for general conceptual modeling languages</article-title>
          . Springer-Verlag, Berlin.
        </mixed-citation>
      </ref>
      <ref id="ref8">
        <mixed-citation>
          <string-name>
            <surname>JAIN</surname>
            ,
            <given-names>P.</given-names>
          </string-name>
          ; HITZLER,
          <string-name>
            <surname>P.</surname>
          </string-name>
          ; YEH,
          <string-name>
            <surname>P.</surname>
          </string-name>
          ; VERMA,
          <string-name>
            <given-names>K.</given-names>
            ;
            <surname>SHELT</surname>
          </string-name>
          ,
          <string-name>
            <surname>A.</surname>
          </string-name>
          (
          <year>2010</year>
          ) “
          <article-title>Linked Data is Merely More Data”</article-title>
          . Semantic Technology Conference. Available at: &lt; http://knoesis.wright.edu/library/publications/linkedai2010_submission_13.pdf &gt;
        </mixed-citation>
      </ref>
      <ref id="ref9">
        <mixed-citation>
          <string-name>
            <surname>MASOLO</surname>
            ,
            <given-names>C.</given-names>
          </string-name>
          ;
          <string-name>
            <surname>BORGO</surname>
            ,
            <given-names>S.</given-names>
          </string-name>
          ; GANGEMI,
          <string-name>
            <given-names>A.</given-names>
            ; GUARINO, N.;
            <surname>OLTRAMARI</surname>
          </string-name>
          ,
          <string-name>
            <surname>A.</surname>
          </string-name>
          (
          <year>2003</year>
          )
          <article-title>Ontology Library: WonderWeb Deliverable D18</article-title>
          . Trento, Italy. Available at: &lt;http://www.loa-cnr.it/Papers/D18.pdf&gt;.
        </mixed-citation>
      </ref>
      <ref id="ref10">
        <mixed-citation>
          <string-name>
            <surname>SCHANDL</surname>
            ,
            <given-names>B.</given-names>
          </string-name>
          ;
          <string-name>
            <surname>HASLHOFER</surname>
            ,
            <given-names>B.</given-names>
          </string-name>
          ; BÜRGER,
          <string-name>
            <given-names>T.</given-names>
            ;
            <surname>LANGEGGER</surname>
          </string-name>
          ,
          <string-name>
            <surname>A.</surname>
          </string-name>
          ; HALB,
          <string-name>
            <surname>W.</surname>
          </string-name>
          (
          <year>2011</year>
          )
          <article-title>Linked Data and multimedia: the state of affairs</article-title>
          .
          <source>Multimedia Tools and Applications</source>
          , online first,
          <fpage>1</fpage>
          -
          <lpage>34</lpage>
          .
        </mixed-citation>
      </ref>
      <ref id="ref11">
        <mixed-citation>
          <string-name>
            <surname>SILVA</surname>
            ,
            <given-names>D. L. da; SOUZA</given-names>
          </string-name>
          ,
          <string-name>
            <surname>R. R.</surname>
          </string-name>
          ; ALMEIDA,
          <string-name>
            <surname>M. B.</surname>
          </string-name>
          (
          <year>2008</year>
          )
          <article-title>“Ontologias e vocabulários controlados: comparação de metodologias para construção”</article-title>
          .
          <source>Ciência da Informação</source>
          , v.
          <volume>37</volume>
          , n.3, p.
          <fpage>60</fpage>
          -
          <lpage>75</lpage>
          .
        </mixed-citation>
      </ref>
    </ref-list>
  </back>
</article>