=Paper= {{Paper |id=Vol-1442/paper_13 |storemode=property |title=Abordagens para Estimar Relevância de Relações Não-Taxonômicas Extraídas de Corpus de Domínio |pdfUrl=https://ceur-ws.org/Vol-1442/paper_13.pdf |volume=Vol-1442 |dblpUrl=https://dblp.org/rec/conf/ontobras/LopesFCV15 }} ==Abordagens para Estimar Relevância de Relações Não-Taxonômicas Extraídas de Corpus de Domínio== https://ceur-ws.org/Vol-1442/paper_13.pdf
        Abordagens para Estimar Relevância de Relações
        Não-Taxonômicas Extraı́das de Corpus de Domı́nio
        Lucelene Lopes1 , Maria José Finatto2 , Alena Ciulla2 , Renata Vieira1
                                Faculdade de Informática – PUCRS
                                    Porto Alegre – RS – Brazil

                                   2
                                       Faculdade de Letras – UFRGS
                                        Porto Alegre – RS – Brazil


 {lucelene.lopes,renata.vieira}@pucrs.br {alena.ciulla,mjose.finatto}@ufrgs.br

     Abstract. This paper performs a comparison between two approaches to weight
     the relevance of extracted non-taxonomic relations found in domain corpora.
     The first approach computes the relevance according to the verb absolute fre-
     quency. The second approach computes the relevance according to the verb
     frequency and uniqueness in each corpus using tf-dcf relevance index, an index
     that takes into account the high frequency of verbs in the target corpus, and
     the low frequency in contrasting corpora. The preliminary results are evaluated
     for three domain corpora and the top relevant relations are evaluated by expert
     terminologists.
     Resumo. Este artigo apresenta uma comparação entre duas abordagens de
     ponderação de relevância de relações não-taxonômicas extraı́das de corpora
     de domı́nio. A primeira abordagem calcula a relevância de acordo com a
     frequência absoluta dos verbos. A segunda abordagem calcula a relevância
     de acordo com a frequência do verbo e sua especificidade em cada corpus uti-
     lizando o ı́ndice de relevância tf-dcf, um ı́ndice que leva em consideração a
     alta frequência no corpus alvo, e a baixa frequência em corpora contrastantes.
     Os resultados preliminares foram avaliados para três corpora de domı́nio e as
     relações mais relevantes foram avaliadas por terminologistas.

1. Introdução
A descoberta de relações não-taxonômicas é uma tarefa difı́cil da aprendizagem de
ontologias [Kavalec and Átek 2005]. Esta tarefa se divide em dois momentos: detec-
tar que conceitos estão relacionados; e etiquetar cada relação detectada (em geral pela
definição de um verbo que descreve a relação) [Sánchez and Moreno 2008]. Diver-
sos trabalhos cientı́ficos seguem esse processo, por exemplo [Weichselbraun et al. 2009,
Serra and Girardi 2011, Ferreira et al. 2013]. Esses trabalhos baseiam-se na detecção de
verbos transitivos que relacionam dois sintagmas nominais, usualmente sujeito e objeto.
Caso esses sintagmas nominais representem conceitos, ou instâncias de conceitos, esta
tripla (sujeito,verbo,objeto) representará uma instância de uma relação da ontologia.
       O estudo e a descrição dos verbos do português do Brasil (PB) são elementos im-
portantes no âmbito dos Estudos da Linguagem, visto que, entre outros elementos da lin-
guagem escrita, são elementos vitais para subsidiar uma série de recursos de representação
e de recuperação de informação com apoio computacional a partir de acervos documen-
tais. Afinal, os verbos, além do papel fundamental para o funcionamento gramatical de
qualquer lı́ngua, oferecem via predicação, elementos para a representação de diferentes
relações não-taxonômicas, que extrapolam relações hierárquicas do tipo parte-todo. Os
elementos relacionados assim pelos verbos podem corresponder a termos ou a conceitos
de um domı́nio.
         Um exemplo dessa importância do verbo, para a depreensão de relações entre itens
de uma ontologia ou mapa conceitual é a expressão da relação não-taxonômica do tipo
“X causa Y” que se depreende, por exemplo, nas seguintes frases: (1) Tabagismo causa
câncer./ (2) Tabagismo pode causar câncer de pulmão./ (3) Tabagismo favorece o aparec-
imento de câncer de pulmão. Todavia, muitos dos trabalhos de que dispomos em PLN e
mesmo em Linguı́stica, tem se centrado na descrição de estruturas sintáticas de verbos,
como a anotação de papéis semânticos ou de argumentos, que visa reconhecer padrões
de associação entre determinados sujeitos e complementos nominais e um dado tipo de
verbo [Scarton 2013, Zilio 2015], sem preocupação especı́fica de caracterizar padrões de
verbos em diferentes domı́nios.
         Assumindo a existência de uma forma eficiente e eficaz de recuperar automati-
camente este tipo de relação de um corpus de domı́nio [Lopes 2012], o desafio é filtrar
dentre as relações extraı́das quais são particularmente relevantes para o domı́nio. Na ver-
dade, esse tipo de detecção das relações frequentemente mostra um número grande de
relações e poucos estudos se dedicam a estabelecer uma ordem de relevância entre as
relações detectadas.
         Este artigo apresenta um trabalho inicial que propõe uma forma alternativa de es-
timar a relevância de relações não-taxonômicas de um domı́nio baseado no contraste com
outros domı́nios. Dessa forma, a próxima seção apresenta a abordagem elementar que
considera a relevância dos verbos extraı́dos pela sua frequência absoluta e a abordagem
proposta. Em seguida, a seção 3 apresenta a comparação destas duas abordagens sobre
três corpora de domı́nio.

2. Abordagens de Ponderação
Nesta seção apresenta-se a abordagem elementar que assume a frequência absoluta e a
abordagem proposta que utiliza a frequência contrastada com outros corpora como indi-
cador de relevância.

2.1. Abordagem por Frequência Absoluta
A primeira abordagem considerada neste trabalho toma os verbos mais frequentes como
sendo as relações não-taxonômicas mais relevantes. Dessa forma, esse processo anal-
isa o corpus alvo e identifica os verbos que relacionam dois termos, ou seja, os textos
anotados são percorridos e todo verbo que conecta dois sintagmas nominais (um sujeito
e um objeto) é considerado uma instância de relação. As instâncias são contabilizadas,
considerando-se os verbos em sua forma canônica (infinitivo), ou seja, a frequência ab-
soluta dos verbos é contabilizada, ignorando-se tempos verbais e flexões de pessoa e
número.
        A vantagem dessa abordagem é que os verbos com maior frequência absoluta
serão naturalmente mais produtivos na quantidade de relações geradas, pois quanto maior
o número de instâncias, maior o número de relações a considerar. Segundo o levan-
tamento de um grande corpus do PB [Biderman 1998], que gerou um dicionário de
frequências, temos a situação sobre verbos mais frequentemente empregados, indepen-
dentemente de domı́nio, conforme apresentado na tabela 1. No entanto, essa abordagem
por frequência absoluta tenderá a privilegiar os verbos usuais semelhante aos encontrados
por [Biderman 1998].


     Tabela 1. Os 20 verbos lematizados no infinitivo mais frequentes no corpus de
     Biderman - fonte: [Finatto 2012].
    ranking verbo ranking verbo ranking verbo ranking verbo ranking verbo
       1     ser       5      poder    9    dar        13     ficar   17    chegar
       2     ter       6      dizer    10   ver        14     achar   18    precisar
       3     ir        7      haver    11   saber      15     dever   19    começar
       4     estar     8      fazer    12   querer     16     falar   20    olhar


2.2. Abordagem por Frequência Contrastada (tf-dcf )
Buscando ter mais especificidade nas relações a considerar, a abordagem proposta neste
trabalho baseia-se na aplicação do ı́ndice tf-dcf (term frequency, disjoint corpora fre-
quency) [Lopes et al. 2012]. Este ı́ndice é originalmente empregado para calcular a
relevância de um termo em um corpus alvo, diretamente proporcional à frequência ab-
soluta do termo no corpus alvo e inversamente proporcional a sua frequência em cor-
pora contrastantes. Dessa forma, essa abordagem inicia contabilizando as ocorrências
dos verbos no corpus alvo e em todos os corpora contrastantes. Em seguida, os valores
de frequência absoluta dos verbos são utilizados como entrada para a fórmula do ı́ndice
tf-dcf aplicada a verbos, em vez de termos1 (Eq. 1).

                                                   tf(c)
                                                     v
                             tf-dcf(c)
                                   v = Y
                                                                                       (1)
                                              1 + log 1 + tf(g)
                                                            v
                                        g∈G


       Onde tf(c)
               v representa a frequência absoluta do verbo v no corpus c; e G representa
o conjunto de corpora contrastantes.

3. Experimentos
Para ilustrar as diferenças das duas abordagens apresentadas escolhemos três corpora de
domı́nio, um sobre Geologia (Geo), um sobre Pneumopatias (Pneumo), e o Curso de
Linguı́stica Geral (CLG), de Ferdinand de Saussure, um texto fundamental para a área de
Lı́nguistica. Adicionalmente, como a abordagem baseada no ı́ndice tf-dcf requer o uso de
corpora contrastantes, foram utilizados três outros corpora sobre Modelagem estocástica
(SM), Mineração de dados (DM) e Processamento paralelo (PP) como contrastantes. As-
sim, para calcular os ı́ndices tf-dcf de cada corpus são usados como contrastantes os dois
outros corpora, além dos três corpora adicionais (SM, DM, PP). A tabela 2 apresenta as
caracterı́sticas desses corpora e indica, para os três corpora alvos o número de relações
extraı́das. A tabela 3 apresenta as dez relações consideradas mais relevantes para cada um
dos corpora segundo a frequência absoluta (tf ) e o ı́ndice tf-dcf.
                               Tabela 2. Caracterı́sticas dos corpora utilizados.
                                      Número de Número de Número de Relações
                             corpus     Textos      Sentenças   Tokens     Extraı́das
                              Geo            139       39,648   1,165,220      1,395
                             Pneumo           71        9,239     241,806         433
                              CLG             25        3,486      34,295         192
                               SM             88       44,222   1,173,401
                               DM             53       42,932   1,127,816
                               PP             62       40,928   1,086,771


         Tabela 3. Relações mais relevantes de cada corpus segundo ambas abordagens.
                        Geo                          Pneumo                          CLG
           #      tf          tf-dcf           tf             tf-dcf           tf           tf-dcf
           1     ser        recobrir          ser           acometer          ser       obscurecer
           2 apresentar       cortar      apresentar          inalar          ter         acentuar
           3     ter         aflorar          ter          contaminar     constituir     consagrar
           4   mostrar        erodir         estar        contraindicar      estar    pode equiparar
           5    estar     condicionar      mostrar       dever intimidar apresentar        falsear
           6 representar retrabalhar      poder ser       poder agravar     tornar        suscitar
           7 constituir    cristalizar   demonstrar     poder contaminar     fazer        unificar
           8   possuir    ser depositar     revelar      poder justificar  formar     pode exprimir
           9   indicar      postular         fazer         recomendar     produzir      transtornar
          10   permitir      drenar     ser considerar       infectar         dar          apagar


        Conforme [Biderman 1998], na sua lista dos verbos mais frequentes do PB,
encabeçando-a temos os auxiliares “ser”, “estar”, “ter”. Até o verbo “ir” registrou um
elevado número de valores modais e aspectuais, razão para estar também nos primeiros
lugares da hierarquia dos verbos usuais. Constam dessa lista ainda verbos modalizadores
como “poder”, ou vicários, e/ou suportes como “fazer”, “dar”; entre os de significação
plena, apenas “dizer”, “falar”, “olhar” e “ver” [Biderman 1998] (p. 174). Se excluirmos
os verbos que integram uma locução ou que são auxiliares do levantamento por domı́nio
com tf-dcf , temos que (“recobrir”, “cortar” e “aflorar”); (“acometer”, “inalar” e “con-
taminar”); e (“obscurecer”, “acentuar” e “consagrar”) seriam, respectivamente, os ver-
bos de maior especificidades nos domı́nios de Geologia, Pneumologia e Linguı́stica,
considerando-se os corpora sob exame e os tipos de textos envolvidos.

                  Tabela 4. Exemplos de relações mais relevantes para o corpus Geo.
 #                             Frequência Absoluta                                              Índice tf-dcf
                          superfı́cie → ser → molhável                          cascalho → recobrir → formação ferruginosa
 1       É mostrado que a ausência de ácidos não garante que a su-   Horizonte cascalhento ferruginoso friável de superfı́cie cor-
         perfı́cie será molhável por a fase aquosa.                    responde ao solo ou os cascalhos que eventualmente reco-
                                                                         brem as formações ferruginosas.
                   footwall → apresentar → soerguimento                        corpo de granito → cortar → foliação gnáissica
 2       Desta forma, o footwall apresenta sempre um soergui-            Os corpos de granito e pegmatito são usualmente subconcor-
         mento, enquanto o hangingwall é o domı́nio subsidente.         dantes, mas com freqüência cortam a foliação gnáissica.
                        empregado → ter → gerente                                     tonalito → aflorar → belt de Crixás
 3       Utilizando-se este paradigma, pode-se induzir que cada em-      No extremo sudoeste da área o tonalito aflora como um
         pregado tem um gerente, o que é uma generalização a partir   corpo triangular, limitado a nordeste pelos Gnaisses Crixás
         dos dados existentes naquelas relações.                       Açu e a oeste pelo greenstone belt de Crixás.


     1
     A única adaptação da formulação do ı́ndice tf-dcf para termos ao considerar verbos consiste em con-
siderar frequência absoluta de verbos (tfv ) ao invés de frequência de termos (tft ).
           Tabela 5. Exemplos de relações mais relevantes para o corpus Pneumo.
 #                          Frequência Absoluta                                               Índice tf-dcf
                     efeito → ser → fator importante                   espondilite tuberculosa → acometer → disco intervertebral
 1   O efeito idade é um fator importante na chance de abandono       A espondilite tuberculosa acomete o disco intervertebral
     do hábito de fumar.                                              mais tardiamente no curso da doença.
       moxifloxacina → apresentar → metabolização hepática                 nadador → inalar → grande quantidade de ar
 2   A moxifloxacina, entretanto, apresenta metabolização            Durante a prática do esporte, os nadadores inalam grandes
     hepática, e a principal via de excreção é a biliar.           quantidades de ar logo acima de a superfı́cie da água.
                      stress → ter → papel relevante                         balangeroı́ta → contaminar → corpos minerais
 3   Como exemplos, podemos citar as doenças coronarianas, em         A balangeroı́ta contamina os corpos minerais da Itália, e
     as quais o stress tem um papel relevante.                         assim por diante.



              Tabela 6. Exemplos de relações mais relevantes para o corpus CLG.
 #                            Frequência Absoluta                                             Índice tf-dcf
                           lı́ngua → ser → sistema                                escrita → obscurecer → visão da lı́ngua
 1   Visto ser a lı́ngua um sistema em que todos os termos são        O resultado evidente de tudo isso é que a escrita obscurece
     solidários e o valor de um resulta tão somente da presença     a visão da lı́ngua.
     simultânea de outros, segundo o esquema:
                    lı́ngua → ter → caráter de fixidez                    evolução de som → acentuar → diferença existente
 2   Se a lı́ngua tem um caráter de fixidez, não é somente porque   A evolução dos sons não faz mais que acentuar as
     está ligada ao peso da coletividade, mas também porque está    diferenças existentes antes de ela.
     situada no tempo.
                       lı́ngua → constituir → sistema                                uso → consagrar → dupla grafia
 3   Uma lı́ngua constitui um sistema.                                 Vimos na que, contrariamente ao que se verifica para outros
                                                                       sons, o uso consagrou para aqueles uma dupla grafia.



        As tabelas 4, 5 e 6 apresentam exemplos (sentenças do corpus) das três relações
mais relevantes para cada um dos corpora, respectivamente, segundo cada uma das abor-
dagens. Observando estes exemplos, percebe-se que as relações mais relevantes segundo
abordagem baseada no ı́ndice tf-dcf apresentam caracterı́sticas claras de relações não-
taxonômicas. Por exemplo, observa-se as triplas geradas por tf-dcf “cascalho recobre
formação ferruginosa”, “espondite tuberculosa acomete disco intervertebral”, e “escrita
obscurece visão da lı́ngua”.
       Já os exemplos das relações mais relevantes segundo a frequência absoluta tem
um caracter que se assemelha mais a definição de propriedades/atributos, como é o caso
de “superfı́cie é molhável”, ou ainda de “stress tem papel relevante”. Ainda encontra-se
casos que podem ser vistos como uma relação taxonômica, como por exemplo: “lı́ngua é
sistema”, ou seja, uma lı́ngua é um tipo de sistema.

4. Considerações Finais e Trabalhos Futuros
Neste estudo, mostramos dois tipos de abordagens no que diz respeito ao tratamento
automático dos verbos em corpora de domı́nio com o propósito de identificar relações
não-taxonômicas mais relevantes. Enquanto que a primeira abordagem, que considera a
frequência em termos absolutos, aponta para aqueles verbos que são mais gerais da lı́ngua,
a segunda abordagem, que se vale do ı́ndice tf-dcf, fornece uma lista de verbos que são
mais especı́ficos do domı́nio a que pertencem os textos.
        Acreditamos, portanto, que atingimos nosso objetivo de identificar as relações
mais relevantes para o domı́nio, contribuição do estudo através do ı́ndice tf-dcf que con-
siste no auxı́lio à construção de ontologias e na recuperação automática de informações,
visto que acrescenta dados importantes sobre o verbo, um elemento vital - e pouco explo-
rado, do ponto de vista do processamento automático - para o funcionamento da lı́ngua.
Além disso, temos também uma importante contribuição para os Estudos da Linguagem,
ressaltando o papel dos verbos em diferentes domı́nios.
         Cabe observar, contudo, que, quanto aos corpora em exame neste estudo, o
CLG destaca-se dos outros corpora analisados, por vários motivos. Em primeiro lugar,
ainda que se trate de um texto importante dentro do domı́nio da Linguı́stica, não é uma
compilação de textos cientı́ficos, como os corpora de Geologia e de Pneumopatias e, além
disso, é uma tradução de um texto escrito originalmente em francês, em 1916. Outro as-
pecto é o de que é o único representante de um domı́nio de áreas humanas, enquanto que
todos os outros são das áreas Exatas, da Saúde ou das Ciências Naturais, incluindo-se os
corpora contrastantes. Por isso, fica como sugestão para trabalhos futuros, a contraposição
dos verbos do CLG com os verbos de um corpus de textos de jornais, por exemplo, em
que a linguagem ordinária desse gênero pode, em contraste, oferecer um panorama mais
especı́fico do domı́nio da Linguı́stica.

Referências
Biderman, M. T. C. (1998). A face quantitativa da linguagem: um dicionário de
  freqüências do português. Alfa, São Paulo, Brasil.
Ferreira, V. H., Lopes, L., Vieira, R., and Finatto, M. J. B. (2013). Automatic extraction
  of domain specific non-taxonomic relations from portuguese corpora. In Knowledge
  Discovery in Ontologies - KDO 2013, Proc. of WI-IAT 2013, pages 161–165.
Finatto, M. J. B. (2012). Projeto porpopular, frequência de verbos em português e no jor-
   nal popular popular brasileiro. In As Ciências do Léxico: lexicologia, lexicografia, ter-
   minologia, volume VI, pages 277–244. Edit. da UFMS/Lab. de Edição FALE-UFMG.
Kavalec, M. and Átek, V. S. (2005). A study on automated relation labelling in ontology
  learning. In Ontology Learning from Text: Methods, Evaluation and Applications,
  pages 44–58. IOS Press.
Lopes, L. (2012). Extração automática de conceitos a partir de textos em lı́ngua por-
  tuguesa. PhD thesis, PUCRS University - Computer Science Department, Porto Ale-
  gre, Brazil.
Lopes, L., Fernandes, P., and Vieira, R. (2012). Domain term relevance through tf-dcf.
  In Proceedings of the 2012 International Conference on Artificial Intelligence (ICAI
  2012), pages 1001–1007, Las Vegas, USA. CSREA Press.
Sánchez, D. and Moreno, A. (2008). Learning non-taxonomic relationships from web
   documents for domain ontology construction. Data Knowl. Eng., 64(3):600–623.
Scarton, C. E. (2013). Verbnet.br: construção semiautomática de um léxico verbal online
  e independente de domı́nio para o português do brasil. Master’s thesis, ICMC - USP.
Serra, I. and Girardi, R. (2011). A process for extracting non-taxonomic relationships of
  ontologies from text. Intelligent Information Management, 3:119–124.
Weichselbraun, A., Wohlgenannt, G., Scharl, A., Granitzer, M., Neidhart, T., and Juffin-
  ger, A. (2009). Discovery and evaluation of non-taxonomic relations in domain on-
  tologies. International Journal of Metadata, Semantics and Ontologies, 4(3):212–222.
Zilio, L. (2015). Um Recurso Léxico com Anotação de Papéis Semânticos para o Por-
   tuguês. PhD thesis, PPG Letras - UFRGS.