<!DOCTYPE article PUBLIC "-//NLM//DTD JATS (Z39.96) Journal Archiving and Interchange DTD v1.0 20120330//EN" "JATS-archivearticle1.dtd">
<article xmlns:xlink="http://www.w3.org/1999/xlink">
  <front>
    <journal-meta>
      <journal-title-group>
        <journal-title>[10] T.R. Gruber. Toward principles for the design of ontologies used for knowledge sharing.
International Journal of Human Computer Studies</journal-title>
      </journal-title-group>
    </journal-meta>
    <article-meta>
      <title-group>
        <article-title>Sistema de Aquisic¸ a˜o semi-autom a´tica de Ontologias</article-title>
      </title-group>
      <contrib-group>
        <contrib contrib-type="author">
          <string-name>Gabriel Gonc¸alves</string-name>
          <email>gabrielgonc@gmail.com</email>
        </contrib>
        <contrib contrib-type="author">
          <string-name>Rodrigo Wilkens</string-name>
          <email>rwilkens@inf.ufrgs.br</email>
        </contrib>
        <contrib contrib-type="author">
          <string-name>Aline Villavicencio</string-name>
          <email>avillavicencio@inf.ufrgs.br</email>
        </contrib>
        <contrib contrib-type="author">
          <string-name>CSAIL</string-name>
        </contrib>
        <contrib contrib-type="author">
          <string-name>MIT (EUA)</string-name>
        </contrib>
      </contrib-group>
      <pub-date>
        <year>1998</year>
      </pub-date>
      <volume>2</volume>
      <fpage>539</fpage>
      <lpage>545</lpage>
      <abstract>
        <p>This paper presents an ongoing work on ontology learning from text, focusing on the acquisition of concepts and relations. In order to do that, this work investigates approaches for ontology learning, and presents a proposal based on graphs metrics to identify concepts, and text analysis to find relations between the concepts. Resumo. Este artigo apresenta um trabalho em andamento na a´rea de aprendizado de ontologias a partir de texto, focando na identificac¸a˜o de conceitos e relac¸o˜es. Para isto, este trabalho investiga abordagems para o aprendizado de ontologias e apresenta uma proposta baseada me´tricas de grafos para identificar conceitos, e ana´lise do texto com os conceitos encontrados para obter relac¸o˜es.</p>
      </abstract>
    </article-meta>
  </front>
  <body>
    <sec id="sec-1">
      <title>-</title>
      <p>Para muitas l´ınguas e dom ´ınios o aprendizado de ontologias tem que ser realizado
a partir de poucos recursos lingu´ısticos dispon ´ıveis. Nesse contexto, este trabalho objetiva</p>
      <p>Figura 1. Hierarquia dos processos de aprendizado de ontologia [2]
investigar dois aspectos do aprendizado de ontologias, a identificac¸a˜o de conceitos e de
relac¸ o˜es entre conceitos, focando na identificac¸a˜o de conceitos simples e na identificac¸a˜o
de elementos que indicam relac¸ o˜es entre termos. Para tanto esse trabalho inicia com uma
revisa˜o do estado da arte, na sec¸a˜o 2. A seguir, na sec¸a˜o 3 sa˜o apresentadas as te´cnicas
utilizados na abordagem proposta. Na sec¸a˜o 4 sa˜o discutidas as conclus o˜es e os trabalhos
futuros.</p>
    </sec>
    <sec id="sec-2">
      <title>2. Trabalhos Relacionados</title>
      <p>Gruber [10] define uma ontologia como uma especificaca¸˜o formal e expl´ıcita de uma
conceitualizac¸a˜o compartilhada por um dom´ınio de interesse, onde formal significa que a
ontologia deve ser interpreta´vel por computador e aceita por um grupo ou comunidade da
a´rea que a ontologia modela. Ale´m disso, deve ser restrita a um dado dom´ınio de interesse
e, portanto, modelar conceitos e relac¸ o˜es relevantes a uma tarefa ou aplicac¸a˜o particular
do dom´ınio [2]. Atualmente n a˜o ha´ um consenso sobre os me´todos para o aprendizado
automa´tico de ontologias, que segundo [2], podem ser divididos em seis n´ıveis: termos,
sin oˆnimos, conceitos, hierarquias de conceitos, relac¸ o˜es e regras. A hierarquia dessas
tarefas no processo de aprendizado de ontologias e´ mostrada na Figura 1.</p>
      <p>A aquisic¸a˜o de termos consiste em encontrar automaticamente palavras que
representem conceitos de um dom´ınio. Este e´ o passo inicial do aprendizado de ontologias,
sendo seus resultados usados em todas as etapas posteriores. As te´cnicas mais
utilizadas para tanto sa˜o a indexac¸a˜o de termos, ana´lise de frequeˆncia, coocorreˆncia e uma
combinac¸a˜o dos dois me´todos anteriores [14]. Segundo Buitelaar [2], a extrac¸a˜o de
conceitos e´ uma etapa controversa, por na˜o estar claro o que exatamente e´ um conceito. Nesta
etapa podem ser considerados como conceitos uma definic¸a˜o, instancias de um conceito
ou um conjunto multil´ıngue de termos, dependendo do uso que o pesquisador da ontologia
gerar.</p>
      <p>A identificac¸a˜o de sin oˆnimos visa a aquisic¸a˜o semaˆntica de variantes de termos, ou
seja, encontrar entre os termos de um texto aqueles que compartilham func¸ o˜es semaˆnticas.
Para tanto, o estado da arte mapeia a semaˆntica de cada palavra e identifica as palavras
que possuem intersecc¸a˜o, sendo este mapeamento comumente realizado pelo contexto
dos termos [3] ou diretamente pala semaˆntica dos termos [17].</p>
      <p>A extrac¸a˜o de taxonomias busca identificar uma organizac¸a˜o hiera´rquica entre
os conceitos, sendo comum o uso de listas de termos que indicam tais relac¸ o˜es, o que
gera uma boa precisa˜o na identificac¸a˜o, mas devido ao fato destes padr o˜es serem muito
espec´ıficos esta abordagem apresenta uma baixa cobertura das relac¸ o˜es existentes [11].
Outra abordagem e´ a hip o´tese de distribuic¸a˜o, onde sa˜o derivadas automaticamente as
hierarquias de termos a partir do texto usando ana´lise de conceitos formais [8] (ex. [4], [7],
[9]). A comunidade de recuperac¸a˜o de informac¸a˜o trata esta tarefa a partir da avaliac¸a˜o
da distribuic¸a˜o e relevaˆncia dos termos nos documentos, como mostrado por Sanderson e
Croft em [15].</p>
      <p>A extrac¸a˜o de outras relac¸ o˜es na˜o hiera´rquicas entre conceitos (por exemplo,
relac¸ o˜es entre sintomas, doenc¸as e drogas) tem sido feita a partir de textos, em geral
procurando por relac¸ o˜es entre pares de conceitos com mesma classe gramatical.</p>
      <p>Por fim, a extrac¸a˜o de regras, discutida em [12] e [5], e´ a a´rea pesquisada menos
abordada em aprendizado de ontologias [2]. O objetivo deste passo e´ encontrar regras
gramaticais que rejam as relac¸ o˜es das ontologias.</p>
      <p>Dentro desse contexto, esse trabalho e´ similar ao de [3] no uso de mutual
information para a extrac¸a˜o de sinonimia, com a difierenc¸a de que utilizamos esta m e´trica sobre
um grafo do texto, e na˜o diretamente sobre ele, e a [16] que verificam relac¸o˜es, diferindo
por generalizarmos os padr o˜es encontrados.</p>
    </sec>
    <sec id="sec-3">
      <title>3. Metodologia</title>
      <p>O objetivo deste trabalho e´ gerar automaticamente ontologias a partir de um corpus do
dom´ınio, com foco na identificac¸ a˜o de conceitos e relac¸ o˜es do dom´ınio, discutidos
respectivamente nas sec¸ o˜es 3.1 e 3.2.</p>
    </sec>
    <sec id="sec-4">
      <title>3.1. Aquisic¸ a˜o de Termos e Conceitos</title>
      <p>Neste trabalho na˜o diferenciamos termos e conceitos no processo de aquisic¸a˜o devido a`
natureza pr o´xima destes, assim tornando o resultante do sistema mais pr o´ximo de uma
ontologia lingu´ıstica de dom ´ınio. O processo inicia com a gerac¸ a˜o de um grafo a partir do
corpus, onde as palavras sa˜o os n o´s, que sa˜o ligados uns aos outros quando as palavras que
formam os n o´s encontram-se na mesma sentenc¸a, como ilustrado na Figura 2. Nas Figuras
2.i e 2.ii, as frases “Jo a˜o e Maria foram ao parque domingo”e “Domingo o parque estava
lotado”, respectivamente, s a˜o transformadas em grafos. As duas frases unidas geram um
grafo, cujas arestas sa˜o pesadas de acordo com o n u´mero de vezes que cada par de n o´s
coocorre no texto. (Figura 2.iii). Sobre este grafo utilizamos as seguintes me´tricas de
grafos para gerar candidatos a conceitos:
• centralidade para verificar a impor taˆncia do n o´ no grafo,
• grau, que representa o numero de ligac¸ o˜es de um n o´ e
• closeness, que verifica a me´dia dos caminhos m´ınimos para se chegar ao n o´.</p>
    </sec>
    <sec id="sec-5">
      <title>3.2. Aquisic¸ a˜o de Relac¸ o˜es</title>
      <p>Para a obtenc¸a˜o das relac¸ o˜es na˜o hiera´rquicas realizamos uma ana´lise do corpus para
identificar pos s´ıveis express o˜es que indiquem alguma relac¸a˜o entre os termos. Este processo
foi dividido em treˆs etapas sequenciais: extrac¸a˜o de relac¸ o˜es; generalizac¸a˜o das relac¸ o˜es
para obter padr o˜es; e re-extrac¸a˜o das relac¸ o˜es utilizando os padr o˜es encontrados.</p>
      <p>Figura 2. Exemplo de texto transformado em grafo.</p>
      <p>Para a extrac¸a˜o de relac¸ o˜es o sistema identifica no corpus todos os conceitos e
segmenta as palavras que ocorrem entre eles.1 Todas as palavras que se encontram
entre um par de conceitos sa˜o consideradas candidatas a relac¸a˜o. Estas relac¸ o˜es
candidatas sa˜o filtradas, permanecendo apenas palavras cujas classes gramaticais sa˜o permitidas
(neste ponto utilizamos filtros que combinam informac¸o˜es lexicais e morfosinta´ticas para
uma extrac¸a˜o mais direcionada). Desta forma e´ obtida a primeira lista de relac¸ o˜es entre
conceitos (este processo e´ exemplificado na Figura 3, onde duas relac¸o˜es distintas sa˜o
encontradas para a frase2 entre os conceitos obras e licensas, e distribuic¸ a˜o e trabalhos).</p>
      <p>Figura 3. Extra c¸ a˜o de rela c¸ o˜es entre conceitos.</p>
      <p>Na segunda etapa, generalizac¸a˜o das relac¸ o˜es, consideramos as relac¸ o˜es apenas
como uma sequeˆncia de classes gramaticais (no exemplo da Figura 3, etapa 2, as palavras
sa˜o substitu´ıdas por suas classes gramaticais). Estas relac¸ o˜es formam uma segunda lista,
onde esta˜o as relac¸ o˜es compostas de classes gramaticais e suas respectivas frequeˆncias.
1Assume-se que na˜o pode haver um conceito entre um par de conceitos.</p>
      <p>2A frase esta´ anotada com suas classes gramaticais (prop: nome pro´prio, pron-pers: pronome pessoal,
vfin: verbo finito, prp: preposica¸˜o, art: artigo, adj: adjetivo, pron-det: pronome determinado, n: substantivo,
v-pcp: verbo no partic´ıpio, pron-ind: pronome indeterminado, conj-c: conjunc¸ a˜o coordenada, v-ger: verbo
no geru´ndio, v-inf: verbo no infinitivo).
Neste ponto, as relac¸o˜es sa˜o generalizados de acordo com seu nu´mero de palavras e de
classes gramaticais que compartilham a mesma posic¸a˜o. Na Figura 3, etapa 3, as duas
relac¸o˜es teˆm o mesmo tamanho e compartilham o mesmo elemento na posic¸a˜o treˆs,
gerando uma nova relac¸a˜o gene´rica contendo treˆs elementos, restringindo apenas o terceiro.</p>
      <p>O objetivo da primeira etapa e´ mostrar as relac¸o˜es que ocorrem diretamente no
corpus, enquanto a segunda etapa objetiva criar padro˜es gene´ricos de identificac¸a˜o. Com
estas informac¸o˜es, a terceira etapa, re-extrac¸a˜o das relac¸o˜es, utiliza a lista gerada pela
etapa 2 como modelo para identificar novas relac¸o˜es no corpus, ou seja, relac¸o˜es que na˜o
foram identificadas na primeira etapa.</p>
    </sec>
    <sec id="sec-6">
      <title>4. Conclus o˜es e Trabalhos Futuros</title>
      <p>O aprendizado de ontologias e´ um campo interdisciplinar, que abrange diversas a´reas da
computac¸a˜o, como processamento de linguagem natural. As propostas para aprendizado
semi-automa´tico de ontologias permitem diminuir consideravelmente o custo e esforc¸o
envolvidos na construc¸a˜o de ontologias.</p>
      <p>Dentro desse contexto, esse trabalho apresentou uma abordagem baseada em
grafos para a identificac¸a˜o de termos e relac¸o˜es a partir de corpora. Essa abordagem permite
extrair de forma recursiva novas expresso˜es que PODEM indicar relac¸o˜es entre termos.</p>
      <p>Como trabalhos futuros se preveˆ uma avaliac¸a˜o sistema´tica dos resultados
obtidos, por cada etapa do processo, por um especialista do dom´ınio. Os trabalhos futuros
envolvem ainda a aquisic¸a˜o de sinoˆnimos e aquisic¸a˜o de relac¸o˜es hiera´rquicas, assim
permitindo alem da identificac¸a˜o das relac¸o˜es gerais, aquelas relac¸o˜es mais espec´ıficas (por
exemplo, “tipo de”, “ e´ um”). Pretendemos tamb e´m validar os resultados obtidos com o
sistema utilizando corpus de diferentes dom´ınios, como o corpus GENIA 3 do dom´ınio
de biologia.</p>
    </sec>
    <sec id="sec-7">
      <title>Agradecimentos</title>
    </sec>
    <sec id="sec-8">
      <title>Refereˆncias</title>
      <p>
        Esta pesquisa tem apoio dos projetos COMUNICA (FINEP/SEBRAE 1194/07),
CAPESCOFECUB (707/11) e CNPq
        <xref ref-type="bibr" rid="ref1">(479824/2009-6, 202007/2010-3 e 309569/2009-5)</xref>
        .
[1] Resource description framework (rdf) model and syntax, 2011.
[2] P. Buitelaar, P. Cimiano, and B. Magnini. Ontology learning from text: An overview.
Ontology learning from text: Methods, evaluation and applications, 123:3–12, 2005.
[3] A. Chotimongkol and A.I. Rudnicky. Automatic concept identification in goal-oriented
conversations. In Seventh International Conference on Spoken Language
Processing, 2002.
[4] P. Cimiano, A. Hotho, and S. Staab. Learning concept hierarchies from text corpora using
formal concept analysis. Journal of Artificial Intelligence Research, 24(1):305–339,
2005.
[5] I. Dagan, O. Glickman, and B. Magnini. The pascal recognising textual entailment
challenge. Machine Learning Challenges, pages 177–190, 2006.
3http://www-tsujii.is.s.u-tokyo.ac.jp/ genia/topics/Corpus/
[8] B. Ganter and R. Wille. Formal concept analysis. WISSENSCHAFTLICHE
      </p>
      <p>ZEITSCHRIFT-TECHNISCHEN UNIVERSITAT DRESDEN, 45:8–13, 1996.
[12] D. Lin and P. Pantel. Discovery of inference rules from text, April 5 2001. US Patent</p>
      <p>App. 09/826,355.
[18] H. Yang and J. Callan. Metric-based ontology learning. In Proceeding of the 2nd
international workshop on Ontologies and information systems for the semantic web, pages
1–8. ACM, 2008.</p>
    </sec>
  </body>
  <back>
    <ref-list>
      <ref id="ref1">
        <mixed-citation>
          [6]
          <string-name>
            <given-names>E.</given-names>
            <surname>Drymonas</surname>
          </string-name>
          .
          <article-title>Ontology learning from text based on multi-word term concepts: The ontogain method</article-title>
          .
          <source>Master's thesis</source>
          , Department of Electronic and Computer Engineering, Technical University of Crete, Greece,
          <year>2009</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref2">
        <mixed-citation>
          [9]
          <string-name>
            <surname>G. Grefenstette.</surname>
          </string-name>
          <article-title>Explorations in automatic thesaurus discovery</article-title>
          . Springer,
          <year>1994</year>
          .
        </mixed-citation>
      </ref>
    </ref-list>
  </back>
</article>