<!DOCTYPE article PUBLIC "-//NLM//DTD JATS (Z39.96) Journal Archiving and Interchange DTD v1.0 20120330//EN" "JATS-archivearticle1.dtd">
<article xmlns:xlink="http://www.w3.org/1999/xlink">
  <front>
    <journal-meta />
    <article-meta>
      <title-group>
        <article-title>Ontologia Probabilística para Auxiliar na Recuperação de Modelos Biológicos1</article-title>
      </title-group>
      <contrib-group>
        <contrib contrib-type="author">
          <string-name>Wladimir Pereira</string-name>
        </contrib>
        <contrib contrib-type="author">
          <string-name>Kate Revoredo</string-name>
          <email>katerevoredo@uniriotec.br</email>
        </contrib>
        <contrib contrib-type="author">
          <string-name>Programa de Pós-Graduação em Informática</string-name>
        </contrib>
        <contrib contrib-type="author">
          <string-name>Av. Pasteur</string-name>
        </contrib>
        <contrib contrib-type="author">
          <string-name>- Urca - Cep</string-name>
        </contrib>
        <contrib contrib-type="author">
          <string-name>- Rio de Janeiro - RJ - Brazil</string-name>
        </contrib>
      </contrib-group>
      <pub-date>
        <year>2006</year>
      </pub-date>
      <fpage>188</fpage>
      <lpage>193</lpage>
      <abstract>
        <p>The Cell Component Ontology (CelO), an ontology expressed in OWL-DL that describes semantically biological models associated with the context of electrophysiology, has no support for dealing with uncertainty. It is demonstrated in this paper that a computational environment based on ontologies (CelO) and Bayesian Networks can help researchers in the modeling phase of the cycle of experimental knowledge of Biology, retrieving accurately biological models. Resumo. A Cell Component Ontology (CelO), uma ontologia expressa em OWL-DL que possibilita expressar a semântica de modelos biológicos associados ao contexto da eletrofisiologia, não possui suporte para lidar com a incerteza. É demonstrado neste trabalho que um ambiente computacional baseado em ontologias (CelO) e Redes Bayesianas é capaz de auxiliar o pesquisador na fase de modelagem do ciclo experimental de conhecimento da Biologia, recuperando modelos biológicos de uma maneira mais precisa.</p>
      </abstract>
    </article-meta>
  </front>
  <body>
    <sec id="sec-1">
      <title>1. Introdução</title>
      <p>
        Figura 1. Representação em esquema dos elementos de um modelo CellML
[
        <xref ref-type="bibr" rid="ref10">Matos et al. 2010</xref>
        ]
      </p>
      <p>O objetivo da ontologia CelO é acrescentar semântica a modelos biológicos
descritos em CellML, associados ao contexto da eletrofisiologia, possibilitando
expressar o conhecimento intrínseco do modelo, possibilitar a validação semântica de
novos modelos, reusar componentes de outros modelos, automatizar processos de
composição de modelos e possibilitar que a procura de modelos seja realizada de forma
semântica.</p>
      <p>A integração da ontologia CelO com a CellML possibilita que o pesquisador
modele em um nível alto de abstração e execute computacionalmente o modelo sem
necessidade de conhecimento da linguagem em XML.</p>
      <p>
        De acordo com [
        <xref ref-type="bibr" rid="ref9">Macedo 2005</xref>
        ], o ciclo experimental do conhecimento da
Biologia passa por três fases, que podem ser vistas na Figura 2: na primeira, modelos
biológicos são propostos e hipóteses são apresentadas; na segunda, simulações
computacionais são executadas com os modelos biológicos propostos, combinando
dados de diferentes experimentos físicos, gerando predições sobre o comportamento do
sistema, provendo uma visão mais acurada dos fenômenos estudados; na terceira, o
resultado de cada simulação é analisado, podendo surgir novas hipóteses desta análise, o
que reiniciaria o ciclo.
      </p>
      <p>
        Figura 2. Ciclo Experimental do Conhecimento da Biologia [
        <xref ref-type="bibr" rid="ref9">Macedo 2005</xref>
        ]
Na fase de modelagem, que é o foco deste trabalho, o pesquisador pode obter na
ontologia CelO a representação semântica do conceito ou fenômeno de interesse (por
exemplo, o “potencial da membrana” e “canal iônico de sódio”) e pesquisar quais
modelos biológicos estão de alguma forma associados ao conceito ou ao fenômeno
pesquisado. Em seguida, o pesquisador pode escolher um dos modelos biológicos
listados para executar as simulações.
      </p>
      <p>Dentro deste ciclo, a etapa de recuperação de um modelo biológico a ser tomado
como ponto de partida deve ser precisa e retornar o modelo biológico mais adequado à
necessidade do pesquisador, já que novos modelos biológicos são desenvolvidos a partir
de componentes de um modelo biológico existente. Um novo componente pode ser
inserido e o modelo biológico ajustado, estabelecendo a conexão deste com os demais
componentes. Após a simulação, dependendo dos resultados obtidos, a inclusão deste
novo componente é confirmada ou o mesmo é substituído. Este processo pode se repetir
por diversas vezes, o que torna o processo trabalhoso e sujeito a erros.</p>
      <p>A CelO não possui suporte para lidar com a incerteza, ou seja, não é possível
definir um grau intermediário de pertinência dos modelos biológicos existentes no
repositório à consulta realizada. Como exemplo, ao pesquisar por “potencial da
membrana” e “canal iônico de sódio”, o agente responsável pela pesquisa, caso não
consiga encontrar uma resposta categórica, deveria agir com um grau de incerteza,
informando os modelos biológicos com maior probabilidade de atender às necessidades
do pesquisador.</p>
      <p>
        Por outro lado, a pesquisa feita por
        <xref ref-type="bibr" rid="ref6">Ding e Peng [2004</xref>
        ] e o trabalho de
        <xref ref-type="bibr" rid="ref7">Ding et
al. [2006</xref>
        ], que gerou a linguagem BayesOWL, tiveram o objetivo de estender a OWL
para representar a incerteza por meio do uso de redes bayesianas [
        <xref ref-type="bibr" rid="ref3">Charniak 1991</xref>
        ]. Os
autores apresentam o conceito de probabilidade dentro da OWL, isto é, a semântica da
OWL é ampliada através de marcações adicionais visando representar a incerteza. O
resultado é uma ontologia que pode ser traduzida em uma rede Bayesiana, porém, em
ambos os casos, o uso de anotações particulares do domínio limitam a capacidade de
expressar modelos probabilísticos mais complexos ou genéricos, restringindo as
soluções para classes de problemas muito específicos. No caso da BayesOWL, o foco é
o mapeamento de ontologias, desta forma, a estrutura da linguagem é adequada para que
este objetivo seja alcançado.
      </p>
      <p>
        Visando a interoperabilidade com ontologias não probabilísticas, a linguagem
PR-OWL foi proposta por [
        <xref ref-type="bibr" rid="ref4">Costa e Laskey 2006</xref>
        ]. A linguagem também é uma extensão
para a linguagem OWL e o modelador pode obter uma ontologia em OWL padrão e
utilizar os recursos da PR-OWL apenas para as partes da ontologia que necessitarem de
suporte probabilístico. Em sua abordagem, ontologias OWL podem ser usadas para
representar modelos probabilísticos complexos, de uma forma que é suficientemente
flexível para ser usado por diversas ferramentas probabilísticas baseadas em redes
Bayesianas. O problema desta abordagem é que, para lidar com a incerteza, é necessário
modificar e reorganizar a base de conhecimento original, através da introdução de novas
relações. Tarefa esta que pode ser trabalhosa e normalmente requer um bom
conhecimento em redes Bayesianas. Além disso, requer a participação de um
especialista para criar as tabelas de probabilidades condicionais.
      </p>
      <p>
        Em [
        <xref ref-type="bibr" rid="ref5">Devitt et al. 2006</xref>
        ], os autores apresentam um algoritmo para automatizar a
construção de Redes Bayesianas e representar com precisão um domínio de interesse.
As tarefas envolvidas neste processo exigem a introdução de um especialista na
definição de quais propriedades da ontologia ou quais relações entre os conceitos
correspondem aos relacionamentos da rede bayesiana. É uma abordagem muito
interessante, porque as dependências entre os nós que correspondem as classes da
ontologia que não estão explicitadas na ontologia podem ser identificadas por este
especialista. A tarefa de estimar as probabilidades condicionais não foi tratada nesse
trabalho.
      </p>
      <p>O objetivo deste trabalho é demonstrar que um ambiente computacional baseado
em ontologias (CelO) e Redes Bayesianas é capaz de auxiliar o pesquisador na fase de
modelagem do ciclo experimental de conhecimento da Biologia, recuperando modelos
biológicos de uma maneira mais precisa.</p>
    </sec>
    <sec id="sec-2">
      <title>2. Proposta</title>
      <p>Conforme pôde ser visto nos trabalhos citados na seção anterior, uma abordagem
frequentemente utilizada para a gestão do conhecimento e da incerteza é a combinação
de Ontologias e Redes Bayesianas.</p>
      <p>
        Rede Bayesiana (RB) é um grafo direcionado acíclico, onde cada nó é uma
variável identificada a partir do domínio de aplicação e cada arco representa a
dependência direta entre as variáveis. Cada variável tem um domínio de valores
possíveis que ela pode assumir e associada a ela há uma tabela de probabilidades
condicionais (CPT) que fornece a probabilidade para cada valor possível desta variável
[
        <xref ref-type="bibr" rid="ref3">Charniak 1991</xref>
        ].
      </p>
      <p>A Figura 3 mostra um exemplo de RB onde é possível perceber que a variável
dog-out é influenciada diretamente tanto pela variável family-out como pela variável
bowel-problem e que a mesma possui uma CPT associada a ela que pode ser definida
como P(dog-out) = &lt;0.99, 0.90, 0.97, 0.30&gt;.</p>
      <p>
        Figura 3. Exemplo de Rede Bayesiana [
        <xref ref-type="bibr" rid="ref3">Charniak 1991</xref>
        ]
      </p>
      <p>
        O uso de ontologias foi descrito em [
        <xref ref-type="bibr" rid="ref8">Guarino 1995</xref>
        ] como um meio para
adicionar semântica à web. Ele define ontologias como uma representação formal de um
conhecimento compartilhado, processável por máquinas. Uma ontologia representa as
classes de entidades de um domínio de aplicação, as propriedades das classes, as
relações entre as classes e os papéis que as classes podem desempenhar.
      </p>
      <p>
        O conhecimento pode ser extraído de uma ontologia usando o raciocínio lógico,
explorando as relações entre as classes (conceitos) e os fatos armazenados nele (as
instâncias das classes). Isto é, ontologias consistem em duas partes: uma parte referida
como TBox, que contém o conhecimento sobre os conceitos (classes, por exemplo) e as
relações entre eles (ou seja, papéis); e uma outra parte referida como ABox, que contém
conhecimento sobre as entidades (ou seja, indivíduos) e como eles se relacionam com as
classes [
        <xref ref-type="bibr" rid="ref1">Andrea e Franco 2011</xref>
        ].
      </p>
      <p>
        Segundo [
        <xref ref-type="bibr" rid="ref5">Devitt et al. 2006</xref>
        ], a tarefa de construção da estrutura da RB é
dependente do conhecimento de um especialista e possui as seguintes etapas:
1. Identificar os conceitos relevantes definidos no TBox da ontologia e mapear
cada um deles como uma variável da RB.
      </p>
      <sec id="sec-2-1">
        <title>2. Especificar os valores possíveis para cada uma destas variáveis.</title>
      </sec>
      <sec id="sec-2-2">
        <title>3. Identificar as relações de influência entre as variáveis.</title>
        <p>A etapa de obtenção dos parâmetros das distribuições de probabilidade para cada
variável (as CPTs) consiste na aprendizagem das distribuições de probabilidade inicial,
que são calculadas diretamente das instâncias de ontologia (ABox).</p>
        <p>A ideia é que a RB gerada após estas etapas represente o conhecimento
probabilístico codificado por uma ontologia tanto em nível de conceito como em nível
de instância e, quando associado à ontologia CelO, torne a recuperação de modelos
biológicos mais precisa, o que auxiliará o pesquisador na fase de modelagem.</p>
      </sec>
    </sec>
    <sec id="sec-3">
      <title>3. Considerações Finais</title>
      <p>Neste trabalho é proposta uma abordagem que visa auxiliar o pesquisador na fase de
modelagem do ciclo experimental de conhecimento da Biologia, recuperando modelos
biológicos de uma maneira mais precisa. Além de detalhar a proposta, foram
apresentados os conceitos de RB e de Ontologias, além de trabalhos relacionados ao
tema.</p>
      <p>Ao contrário de algumas das pesquisas citadas, esta abordagem tem como
grande vantagem o fato de existir uma separação entre o conhecimento do domínio e o
conhecimento probabilístico, isto é, os conceitos de probabilidade não são representados
dentro da ontologia e a base de conhecimentos não é alterada. Desta forma, a proposta
não exige que a OWL seja estendida.</p>
      <p>Além disso, consideramos a abordagem proposta neste artigo mais vantajosa em
um contexto geral já que propõe aprender uma RB a partir das instâncias da ontologia,
diminuindo a necessidade de um especialista na definição das distribuições de
probabilidade condicional.</p>
      <p>
        Para a avaliação da proposta, será realizado um experimento, utilizando um
repositório de modelos biológicos representados através da CelO, com foco no processo
de recuperação de modelos. Visando confirmar o ganho da proposta, serão comparados
os resultados obtidos com os apresentados em [
        <xref ref-type="bibr" rid="ref10">Matos et al. 2010</xref>
        ].
      </p>
    </sec>
    <sec id="sec-4">
      <title>Referências</title>
    </sec>
  </body>
  <back>
    <ref-list>
      <ref id="ref1">
        <mixed-citation>
          <string-name>
            <surname>Andrea</surname>
            ,
            <given-names>B.</given-names>
          </string-name>
          , e Franco,
          <string-name>
            <surname>T.</surname>
          </string-name>
          (
          <year>2011</year>
          ).
          <article-title>Mining Bayesian networks out of ontologies</article-title>
          .
          <source>Journal of Intelligent Information Systems. Published online first, 13 June</source>
          <year>2011</year>
          . doi:
          <volume>10</volume>
          .1007/s10844-011-0165-4.
        </mixed-citation>
      </ref>
      <ref id="ref2">
        <mixed-citation>
          <string-name>
            <surname>Bray</surname>
            ,
            <given-names>T.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Paoli</surname>
          </string-name>
          , J. e
          <string-name>
            <surname>Sperberg-McQueen</surname>
            ,
            <given-names>C. M.</given-names>
          </string-name>
          (
          <year>2000</year>
          ).
          <article-title>Extensible Markup Language (XML). W3C recommendation</article-title>
          . World Wide Web Consortium. http://www.w3.org/XML/.
        </mixed-citation>
      </ref>
      <ref id="ref3">
        <mixed-citation>
          <string-name>
            <surname>Charniak</surname>
            ,
            <given-names>E.</given-names>
          </string-name>
          (
          <year>1991</year>
          ).
          <article-title>Baysean Networks without Tears</article-title>
          .
          <source>AI Magazine</source>
          , v.
          <volume>12</volume>
          , n. 4, p.
          <fpage>50</fpage>
          -
          <lpage>63</lpage>
          .
        </mixed-citation>
      </ref>
      <ref id="ref4">
        <mixed-citation>
          <string-name>
            <surname>Costa</surname>
            , P. C. G. e Laskey,
            <given-names>K. B.</given-names>
          </string-name>
          (
          <year>2006</year>
          ).
          <article-title>PR-OWL: A framework for probabilistic ontologies</article-title>
          .
          <source>In Proceedings of the 2006 conference on Formal Ontology in Cuellar, A. A.</source>
          ,
          <string-name>
            <surname>Lloyd</surname>
            ,
            <given-names>C. M.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Nielsen</surname>
            ,
            <given-names>P. F.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Bullivant</surname>
            ,
            <given-names>D.P.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Nickerson</surname>
            ,
            <given-names>D.P.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Hunter</surname>
            ,
            <given-names>P.J.</given-names>
          </string-name>
          (
          <year>2003</year>
          ).
          <article-title>An Overview of CellML 1.1, a Biological Model Description Language</article-title>
          . Simulation, v.
          <volume>79</volume>
          , n.
          <volume>12</volume>
          , p.
          <fpage>740</fpage>
          -
          <lpage>747</lpage>
          .
        </mixed-citation>
      </ref>
      <ref id="ref5">
        <mixed-citation>
          <string-name>
            <surname>Devitt</surname>
            ,
            <given-names>A.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Danev</surname>
          </string-name>
          , B. e
          <string-name>
            <surname>Matusikova</surname>
            ,
            <given-names>K.</given-names>
          </string-name>
          (
          <year>2006</year>
          ).
          <article-title>Constructing Bayesian Networks Automatically using Ontologies</article-title>
          .
          <source>In Proceedings of Second Workshop on Formal Ontologies Meets Industry (FOMI</source>
          <year>2006</year>
          ).
        </mixed-citation>
      </ref>
      <ref id="ref6">
        <mixed-citation>
          <string-name>
            <surname>Ding</surname>
            ,
            <given-names>Z. e</given-names>
          </string-name>
          <string-name>
            <surname>Peng</surname>
            ,
            <given-names>Y.</given-names>
          </string-name>
          (
          <year>2004</year>
          ).
          <article-title>A Probabilistic Extension to The Web Ontology Language OWL</article-title>
          .
          <source>In Thirty Seventh Hawaii International Conference on System Sciences (HICSS 04)</source>
          , IEEE CS Press,
          <year>2004</year>
          , pp.
          <volume>40111</volume>
          .1.
        </mixed-citation>
      </ref>
      <ref id="ref7">
        <mixed-citation>
          <string-name>
            <surname>Ding</surname>
            ,
            <given-names>Z.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Peng</surname>
            ,
            <given-names>Y. e Pan</given-names>
          </string-name>
          ,
          <string-name>
            <surname>R.</surname>
          </string-name>
          (
          <year>2006</year>
          ).
          <article-title>BayesOWL: Uncertainty modeling in semantic web ontologies</article-title>
          .
          <source>Soft Computing in Ontologies and Semantic Web</source>
          , p.
          <fpage>3</fpage>
          -
          <lpage>29</lpage>
          .
        </mixed-citation>
      </ref>
      <ref id="ref8">
        <mixed-citation>
          <string-name>
            <surname>Guarino</surname>
            ,
            <given-names>N.</given-names>
          </string-name>
          (
          <year>1995</year>
          ).
          <article-title>Formal ontology, conceptual analysis and knowledge representation</article-title>
          .
          <source>International Journal of Human Computer Studies</source>
          , v.
          <volume>43</volume>
          , n. 5, p.
          <fpage>625</fpage>
          -
          <lpage>640</lpage>
          .
        </mixed-citation>
      </ref>
      <ref id="ref9">
        <mixed-citation>
          <string-name>
            <surname>Macedo</surname>
            ,
            <given-names>J. A. F.</given-names>
          </string-name>
          (
          <year>2005</year>
          ).
          <article-title>Um Modelo Conceitual para Biologia Molecular</article-title>
          .
          <source>PhD thesis</source>
          , Departamento de Informática da PUC-Rio. Available at http://www.maxwell.lambda.ele.pucrio.br/Busca_etds.
          <source>php?strSecao=resultado&amp;nrSeq=7939</source>
        </mixed-citation>
      </ref>
      <ref id="ref10">
        <mixed-citation>
          <string-name>
            <surname>Matos</surname>
            ,
            <given-names>E. E.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Campos</surname>
            ,
            <given-names>F.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Braga</surname>
            , R. e Palazzi,
            <given-names>D.</given-names>
          </string-name>
          (
          <year>2010</year>
          ).
          <article-title>CelOWS: an ontology based framework for the provision of semantic web services related to biological models</article-title>
          .
          <source>Journal of Biomedical Informatics</source>
          , v.
          <volume>43</volume>
          , n. 1, p.
          <fpage>125</fpage>
          -
          <lpage>136</lpage>
          .
        </mixed-citation>
      </ref>
    </ref-list>
  </back>
</article>