=Paper=
{{Paper
|id=Vol-2728/master5
|storemode=property
|title=O Uso de Anotação Semântica e Ontologias na Busca de Similaridade entre Entrevistas Não-Estruturadas em Banco de Dados (The Use of Semantic Annotations and Ontologies in the Search for Similarity Among Unstructured Interviews in a Database)
|pdfUrl=https://ceur-ws.org/Vol-2728/master5.pdf
|volume=Vol-2728
|authors=Rovilson de Freitas,Elaine Parros Machado de Sousa
|dblpUrl=https://dblp.org/rec/conf/ontobras/FreitasS20
}}
==O Uso de Anotação Semântica e Ontologias na Busca de Similaridade entre Entrevistas Não-Estruturadas em Banco de Dados (The Use of Semantic Annotations and Ontologies in the Search for Similarity Among Unstructured Interviews in a Database)==
O uso de anotação semântica e ontologias na busca de
similaridade entre entrevistas não-estruturadas em banco de
dados
Rovilson de Freitas1, Elaine Parros Machado de Sousa2
¹Instituto de Ciências Matemáticas e de Computação – Universidade de São Paulo
(ICMC-USP) - Avenida Trabalhador São-carlense, 400 - Centro
CEP: 13566-590 - São Carlos - SP
2
Departamento de Ciências da Computação - Instituto de Ciências Matemáticas e de
Computação – Universidade de São Paulo
(ICMC-USP) – São Carlos
rovilson.freitas@usp.br, parros@icmc.usp.br
Abstract. The Olympic Studies Group (GEO), from the School of Education of
the University of São Paulo (FE-USP), has carried out nearly twenty years of
research related to Olympism. One of the research lines involves interviewing
Brazilian Olympic athletes in an unstructured manner. There is a hypothesis
that there are knowledge and similarities in this collection, but researchers need
a computational tool to point them out. This work aims to propose a tool, based
on semantic annotation and ontology, to meet this demand, not only assisting
GEO’s researchers, but also allowing other groups to benefit.
Resumo. O Grupo de Estudos Olímpicos (GEO), da Faculdade de Educação da
Universidade de São Paulo (FE-USP), realiza há quase vinte anos diversas
pesquisas relacionadas ao olimpismo. Uma delas envolve entrevistar, de
maneira não-estruturada, os atletas olímpicos brasileiros. Existe a hipótese, por
parte do grupo, de que há conhecimento e similaridades nesse acervo, mas os
pesquisadores precisam de uma ferramenta computacional para aponta-los. O
objetivo desse trabalho é justamente propor uma técnica que, baseada em
anotação semântica e ontologia, possa atender essa demanda, não só apoiando
o trabalho dos pesquisadores do GEO, mas também abrindo a possibilidade de
que outros grupos sejam beneficiados.
1. Introdução
Com aproximadamente vinte anos de existência, o Grupo de Estudos Olímpicos (GEO),
da Faculdade de Educação da Universidade de São Paulo, atua em pesquisas relacionadas
ao olimpismo. Uma de suas principais fontes de dados são as entrevistas, realizadas
principalmente com atletas olímpicos. Essas entrevistas não possuem um roteiro definido,
nem uma sequência pré-determinada. Também não estão armazenadas ou organizadas
num sistema informatizado. Isso traz grandes dificuldades ao grupo, desde a busca por
uma entrevista em específico até buscar possíveis objetos de pesquisa nelas. Muitas vezes,
a análise de uma ou mais entrevistas dentro de um contexto pode proporcionar a
descoberta de novos conhecimentos, resultando em novas pesquisas.
Copyright © 2020 for this paper by its authors. Use permitted under Creative Commons License Attribution 4.0 International (CC BY 4.0).
2. Objetivo
Partindo da necessidade de organização dessas entrevistas em meio informatizado, além
de possivelmente facilitar o processo de análise por parte do pesquisador, o objetivo desse
trabalho é criar uma técnica para encontrar a similaridade entre as entrevistas não-
estruturadas, armazenadas num banco de dados relacional, usando os recursos de
anotação semântica e ontologia. Para isso, o trabalho propõe a criação de uma ontologia
para o Grupo de Estudos Olímpicos, considerando sua realidade e especificidade.
3. Ontologia em Ciências da Computação e Anotações Semânticas
No contexto das Ciências da Computação, Gruber (1995) define ontologia como uma
especificação explícita de uma conceitualização. Essa modelagem utiliza o conceito de
classes, atributos e relacionamentos. Essas informações reúnem dados sobre seus
significados, restrições e aplicações lógicas existentes. Normalmente, são desenvolvidas
numa linguagem que permite que a abstração da estrutura de dados e estratégias de
implementação.
Guizzardi (2000) apud Guarino (1998), onde o autor estende a definição dada por Gruber:
“()uma ontologia é na verdade uma especificação parcial e explícita que tenta,
da melhor forma possível, aproximar a estrutura de mundo definida por uma
conceituação. Uma ontologia, portanto, passa a ter compromisso apenas com a
consistência em um determinado domínio e não com a completude. Ao
conjunto de elementos de um domínio que podem ser representados em uma
ontologia é dado o nome de universo de discurso.”
Para Vickery (1997) e Smith (2004), ontologias podem alimentar um banco de dados com
informações sobre categorias (conceitos) existentes no mundo/domínio, além das
propriedades referentes a esses conceitos, bem como as relações existentes entre eles,
além de permitir a integração de bancos de dados, de softwares ou de modelos de negócio.
Um outro conceito que, combinado com a ontologia pode auxiliar no processo de busca
de similaridade, é o de anotação semântica.Esse processo, vincula modelos semânticos e
linguagem natural, criando inter-relações entre ontologias e documentos estruturados ou
não-estruturados (ARRUDA, 2017). Ainda segundo Arruda apud Li, Bontcheva (2007) e
Kiriakov(2004):
“Cria inter-relações entre ontologias e documentos não estruturados ou
semiestruturados. A anotação semântica é a atribuição de links para a descrição
semântica de cada entidade localizada nos documentos”
4. Trabalhos correlatos
Arruda (2017) apresenta em sua dissertação de mestrado a proposta de um método
semântico baseado em ontologia (SOM4SImD) para detectar similaridade entre
documentos no contexto da educação especial. Os resultados finais mostraram que o
método SOM4SImD é mais vantajoso na obtenção de similaridade entre documentos. A
título de comparação, esse trabalho teve um índice de precisão de 0,96, contra 0,71 de
outro trabalho com características equivalentes.
Taieb, Aouicha e Hamadou (2014) apresentam uma nova medida para quantificar o grau
de similaridade semântica entre conceitos e palavras com base na hierarquia WordNet e
usando uma série de parâmetros topológicos relacionados à taxonomia “é um”. Os
resultados demonstram que, em comparação com outros métodos computacionais
disponíveis atualmente, a medida apresentada nesse estudo resulta em melhores níveis de
desempenho.
Mendonça e Soares (2017) propõem a aplicação da metodologia Ontoforinfoscience na
elaboração de duas ontologias: a Hemonto, ontologia biomédica para componentes de
sangue humano e a Ontolegis, uma ontologia de domínio jurídico. O trabalho conclui que,
a metodologia foi útil para o desenvolvimento das ontologias, e seus detalhamentos
permitiram auxiliar os desenvolvedores em questões lógicas e filosóficas do processo de
construção e no entendimento de conceitos técnicos de ontologias.
Foi encontrado no dbpedia, um exemplo de ontologia no contexto de Jogos Olímpicos1.
Essa ontologia, pode oferecer algumas informações importantes para a elaboração da
ontologia do Grupo de Estudos Olímpicos.
5. Materiais e Métodos
O acervo de entrevistas do GEO será armazenado em uma base de dados criada utilizando o
Sistema Gerenciador de Banco de Dados (SGBD) PostgreSQL2. Além de ser um sistema de
código aberto (o que não trará custos para o grupo), o PostgreSQL oferece o suporte adequado
para os tipos de dados envolvidos no projeto, incluindo textos longos (caso das entrevistas).
Neste trabalho, será desenvolvida uma ontologia, que terá como contexto principal alguns dos
principais assuntos propostos e trabalhados pelo GEO. O Grupo traz algumas informações
passiveis de futuros estudos, e esses dados formarão essa primeira versão da ontologia, que
servirá de ponto inicial para as análises. Será utilizada, para o desenvolvimento dessa
ontologia, a metodologia Ontoforinfoscience, proposta por Mendonça (2015). Para avaliar a
sua eficiência, a própria metodologia propõe formas de avaliação do processo, divididas em
duas partes: critério de validação (Compromisso ontológico, especificação, validação
especializada e expansibilidade) e critério de verificação (Completude, integridade,
consistência, precisão e documentação)
Uma vez armazenadas no banco de dados, será realizado o processo de anotação semântica
nas entrevistas. Os termos utilizados na anotação serão fornecidos pela ontologia,
considerando seus sinônimos e variações. Será utilizada a ferramenta GATE3 como suporte
para as anotações.
Para demonstrar o grau de similaridade entre as entrevistas, serão utilizadas as medidas de
similaridade semântica de Lin (1998). Como ferramenta de suporte inicial, a proposta é
1
http://dbpedia.org/ontology/olympicGames
2
https://www.postgresql.org/
3
https://gate.ac.uk/download/
utilizar a linguagem de programação Python 1, que oferece suporte para tarefas que envolvam
alta capacidade de texto.
6. Considerações finais
Considerando as pesquisas conduzidas no Brasil nesse momento, em muitos casos o uso de
entrevistas é fundamental. Transformar esse grande acervo de texto em resultados práticos,
sem auxílio computacional, pode se tornar uma tarefa muito árdua. Oferecer aos
pesquisadores uma ferramenta que possa auxiliá-los nesse processo, além de, potencialmente,
acelerar o trabalho de pesquisa, também pode proporcionar que esses pesquisadores observem
questões que antes não haviam sido percebidas.
Num contexto de entrevistas sem organização e perguntas pré-definidas, as dificuldades são
ainda maiores. Afinal, não existe uma lógica que possa ser captada ou percebida de maneira
mais simples, necessitando então, de uma técnica que possa mostrar o que é similar dentro
delas e, eventualmente, até mesmo o que as diferencia.
Ao citar as entrevistas não-estruturadas (em especial no caso do GEO), é importante salientar
que não se trata de uma desorganização. A abordagem do GEO para a realização das
entrevistas está baseada em teorias notórias e importantes da área de humanidades (como
narrativas biográficas, histórias de vida, preservação da memória, etc.). A entrevista nesse
formato é fundamental e necessária para que os pesquisadores do grupo possam conduzir seus
trabalhos de acordo com essas teorias.
Ainda assim, mediante a todos os recursos escassos da realidade atual, é necessário que esses
pesquisadores possam ter um suporte computacional, para que esse trabalho seja realizado
mais rapidamente, evitando ações repetitivas e/ou desnecessárias.
Com esse projeto, pretende-se mostrar que o uso de ontologias e anotações semânticas pode
gerar uma técnica e, consequentemente, uma ferramenta que ajude nesse processo,
beneficiando não apenas esse grupo em especial, mas outros grupos de estudo que tem o
mesmo procedimento em suas pesquisas, contribuindo para futuras descobertas no campo
científico.
Referências
ARRUDA, C. G. d. SOM4SImD: Um método semântico baseado em ontologia para detectar
similaridade entre documentos. Dissertação (Mestrado em Ciência da Computação) - Centro
de Ciências Exatas e de Tecnologia da Universidade Federal de São Carlos, São Carlos, 2017.
Disponível em: Acesso em: 12-05-2019.
CASTRO, S. Ontologia. Rio de Janeiro: Jorge Zahar, 2008
GRUBER, T. R. Toward Principles for the Design of Ontologies used for Knowledge
Sharing. Int. J. Human-Computer Studies, v. 43, n. 5/6, 1995. Disponível em: <
https://www.sciencedirect.com/science/article/abs/pii/S1071581985710816> Acesso
em: 18-08-2020.
GUIZZARDI, G. Uma abordagem metodológica de desenvolvimento para e com reuso,
baseada em ontologias formais de domínio, Dissertação (Mestrado em Ciências da
1
https://www.python.org/
Computação) Universidade Federal do Espírito Santo, Brasil. 2000. Disponível em <
http://www.inf.ufes.br/~gguizzardi/dissertacao_msc.pdf> Acessado em: 20-08-2020.
LIN, D. An information-theoretic definition of similarity. In Proceedings of the 15th
International Conference on Machine Learning, Madison, WI, 1998. Disponível em: <
https://www.cse.iitb.ac.in/~cs626-449/Papers/WordSimilarity/3.pdf>. Acesso em 15-05-
2019.
MENDONÇA, F. M. OntoForInfoScience: metodologia para construção de ontologias
pelos cientistas da informação: uma aplicação prática no desenvolvimento da ontologia
sobre componentes do sangue humano (Hemonto). 2015. Tese (Doutorado)-
Universidade Federal de Minas Gerais, Belo Horizonte, Brasil, 2015.
MENDONCA F. M.; SOARES A. L. Construindo ontologias com a metodologia
ontoforinfoscience: uma abordagem detalhada das atividades do desenvolvimento
ontológico. Ciência da Informação, v. 46, n. 1, 28 dez. 2017. Disponível em:
Acesso em 07-10/2020.
SMITH, B. Ontology and Information Systems, 2004. Disponível em:
Acesso em: 20-07-2019.
TAIEB, M.A.H; AOUICHA, M.B; HAMADOU, A.B. Ontology-based approach for
measuring semantic similarity, Engineering Applications of Artificial Intelligence, Volume
36, 2014, pg 238-261, Disponível em
.
VICKERY, B. C. Ontologies. Journal of Information Science, v. 23, n. 4, p. 277-286, 1997.
Disponível em: . Acesso
em: 17-07-2019.