1. Introdução

Utilização de Ontologia para Busca em Base de Dados de Acórdãos do STF

Rafael B. Oliveira

rafaelbo@ime.usp.br 0

Renata Wassermann

renata@ime.usp.br 0

Laboratório de Lógica

Inteligência Artificial e Métodos Formais

0 0 Instituto de Matemática e Estatística (IME) Universidade de São Paulo (USP) - São Paulo , SP - Brazil

This paper is about a practical implementation of a search mechanism, whereby the concepts of an ontological layer are applied over the federal jurisprudence repository of court decisions (STF). After some brief considerations about the basis of this project, we discuss the steps followed to build the system. Resumo. Este artigo apresenta uma implementação real de um mecanismo de busca, onde os conceitos de uma camada ontológica são aplicados ao repositório de acórdãos do orgão de jurisprudência federal (STF). Após algumas breves considerações sobre as bases deste projeto, serão discutidos os passos seguidos para a construção do sistema.

1. Introdução

A Figura 2 mostra um dos acórdãos retornados como resultado para o termo pesquisado da Figura 1 e isto, do ponto de vista do usuário é uma abordagem pouco intuitiva e em alguns casos imprecisa, pois nesta consulta, o termo relator p/ acórdão está relacionado na realidade com a necessidade de se encontrar quem são os ministros desafiadores.

Figura 1. Tela de pesquisa de acórdãos do STF Um usuário sem o conhecimento específico sobre a estrutura do acórdão não consegue encontrar a informação desejada.

Seria muito mais conveniente se o mecanismo permitisse a realização de buscas de interesse por meio de perguntas mais específicas e intuitivas.

Figura 2. Exemplo de um acórdão em seu inteiro teor

Com foco nesta dificuldade, neste trabalho é apresentada a construção de um mecanismo de pesquisa, onde internamente, por meio da utilização de ontologias, OBDA (Ontology Based Data Access) (Calvanese et al. 2013) e SPARQL 1, é construída uma camada semântica para representação do conhecimento contido nos acórdãos do STF e provida uma interface de busca mais simplicada e mais próxima de uma linguagem natural.

Na próxima seção descrevemos brevemente o escopo da ontologia. Na Seção 3, descrevemos a construção da ontologia como extensão de uma ontologia já existente na literatura. A Seção 4 trata da obtenção dos dados do STF e a Seção 5 descreve o tratamento feito para classificar as decisões dos acórdãos em positivas e negativas. Na Seção 6 mostramos como os elementos da ontologia são mapeados em termos do banco de dados. Finalmente, na Seção 7 descrevemos o mecanismo de consulta implementado.

2. Questões de Competência

Com o objetivo de identificar as entidades que deveriam pertencer ao domínio da ontologia, foi seguida a metodologia de desenvolvimento proposta por (Grüninger and Fox 1995). Neste, a recomendação é para que, juntamente com um especialista de domínio, sejam levantadas questões de competência, cujas respostas a ontologia deve prover. Então juntamente com especialistas da área jurídica foram identificadas inicialmente as questões mostradas na Tabela 1:

Quais ministros do STF, enquanto relatores, dão provimento sim para ações diretas de inconstitucionalidade? Quais ministros são desafiados? Quais ministros são desafiadores?

Tabela 1. Questões de Competência

Com base nestas questões de competência foram identificadas algumas entidades e relações conforme descrito na Tabela 2.

Entitade 1

Relator Relator para Acórdão

Voto Acórdão Acórdão Decisão Relator Relação é um é um contém possui possui possui desafiado por

Entitade 2

Ministro Ministro Relator

Decisão Classe de Processo

Classificação Relator para Acórdão Tabela 2. Entidades e suas relações

3. Definição da Ontologia

Após a definição e delimitação do escopo da ontologia, uma busca por ontologias existentes indicou, no trabalho (Bourguet and Costa 2016) , uma ontologia com uma abordagem muito próxima das necessidades para este trabalho. Nele, os autores, após um extensivo 1https://www.w3.org/TR/rdf-sparql-query/ trabalho de pesquisa a fim de se encontrar uma ontologia que servisse como modelo para todos os conceitos pertinentes a área jurídica, mais especificamente a jurisprudência do mesmo, modelaram uma ontologia denominada JurisJFES, mostrada na Figura 3.

Figura 3. JurisJFES - ontologia proposta por (Bourguet and Costa 2016) Na Figura 3, as figuras geométricas em formato de elipses representam as entidades e a de formato diamante representa as enumerações possíveis para as áreas do direito, tais como: direito civil, direito penal, direito administrativo, etc. As setas tracejadas representam uma relação de herança como por exemplo, todo relator também é um ministro. E por fim as setas não tracejadas representam relação de propriedade como por exemplo, um acórdão tem votos.

Algumas das entidades que foram extraídas das questões de competências, foram encontradas na JurisJFES, e outras tiverem de ser acrescentadas, resultando na ontologia da Figura 4. As entidades adicionadas estão identificadas pela cor verde.

As entidades adicionadas dizem respeito a um novo papel para os ministros que é o de Relator para Acórdão, Classe Processo que detalha mais precisamente qual é o tipo do acórdão e Decisão que irá representar tanto a decisão por escrito quanto qual a sua classificação, ou seja positiva ou negativa.

4. Obtenção e Tratamento da Base de Dados de Acórdãos do STF

Os documentos de acórdãos do STF fora otidos através de um mecanismo de extração, desenvolvido no trabalho (Calò 2014), que de forma automática obteve cerca de 50.000 documentos de acórdãos, referentes ao período de 2001 a 2014.

Antes da etapa de mapeamento, ainda foi necessário um trabalho de adaptar os dados obtidos para uma base de dados relacional MySQL 2, já que no mecanismo utilizado para extração, os dados eram gravados em um formato diferente. Nesta adaptação, pelo fato de alguns documentos de acórdãos possuírem uma formatação muito diferente do que

Figura 4. JurisJFSP - ontologia adaptada para este trabalho a maioria dos outros, cerca de 10.000 documentos foram perdidos por não ser possível adaptá-los.

Esta exigência de utilizar uma base de dados relacional é devida ao uso do Ontop, ferramenta utilizada na fase de mapeamento, detalhada na Seção 6.

5. Treinamento e Classificação das Decisões dos Acórdãos

Uma das questões de competência que esperava-se que o mecanismo de busca desenvolvido fosse capaz de responder, era: • Quais ministros do STF, enquanto relatores, dão provimento sim para ações diretas de inconstitucionalidade?

Como as informações do acórdão não aparecem uniformemente, algumas informações precisaram ser extraídas dos textos, como foi o caso do campo “decisão”, conforme mostrado na Figura 2. Para conseguir identificar se uma decisão é positiva ou negativa em relação ao caso julgado, foi utilizada uma técnica de Machine Learning (Aprendizagem de Máquina), chamada Naive Bayes. Esta técnica, conforme demonstrado por (Rish 2001), possui um alto desempenho na classificação automática de textos e seu uso compreende duas fases, sendo a primeira de aprendizado e a última de classificação.

Na fase de aprendizado, foram separadas e classificadas manualmente 2000 decisões. As 2000 decisões, de maneira resumida, apresentam os seguintes tipos de decisão:

Estas decisões, classificadas manualmente, serviram de paramêtro de comparação para a fase de classificação automática e como resultado final foram obtidos aproximadamente 20.000 classificações de decisões, pois nem todos os acórdãos possuiam o campo decisão preenchido.

Trecho da decisão deu provimento ao agravo regimental... deu provimento parcial ao agravo regimental...

julgou procedente a ação direta... deu provimento ao recurso extraordinário...

julgou improcedente a ação direta...

rejeitou os embargos de declaração...

negou provimento ao agravo regimental... negou provimento ao recurso extraordinário...

Classificação positivo positivo positivo positivo negativo negativo negativo negativo

Tabela 3. Identificação e classificação das decisões

6. Mapeamento entre Ontologia e Base de Dados

O OBDA, sigla para Ontology Based Data Access (Acesso à Dados Baseado em Ontologia), define um padrão que permite a criação de um mapeamento entre uma ontologia e uma base de dados relacional.

O mapeamento foi realizado por meio de um plugin do Protégé3, chamado Ontop4. O Ontop é um framework de código aberto para OBDA, desenvolvido pela Free University of Bozen-Bolzano. Segundo (Bagosi et al. 2014) , ele suporta todas as recomendações do W3C (OWL5, R2RML6, SPARQL 1.0, etc.) e os principais sistemas de banco de dados relacionais, tanto comerciais quanto livres. Para cada componente do sistema OBDA, o Ontop suporta uma série de padrões: • Mapeamento: O Ontop aceita duas linguagens de mapeamento: (1) uma própria e nativa do próprio Ontop, a qual é de fácil aprendizado e utilização e (2) a (RDB2RDF 7 mapping language) R2RML que é uma recomendação do W3C.

Neste trabalho foi utilizado a linguagem nativa do OntoP. • Ontologia: O Ontop tem suporte completo ao OWL2 QL, o fragmento de OWL mais adequado para consultas a ontlogias com muitos dados.8 • Base de Dados: O Ontop suporta todos os bancos de dados que impleurlmentam SQL99. Isto inclui a maioria dos bancos de dados relacionais como: PostgreSQL, MySQL, H2, DB2, Oracle e MS SQL Server. • Consulta: O Ontop suporta todas as funcionalidades do SPARQL 1.0 e SPARQL OWL QL do SPARQL 1.1

Com a utilização da ferramenta Protégé para modelagem da ontologia e do plugin OntoP para mapeamento entre a base de dados relacional e a ontologia, foram realizados os mapeamentos que permitiram a resposta para as questões de competência. As figuras 5, 6, 7 e 8 mostram alguns dos mapeamentos realizados por meio do OntoP.

Como se pode observar na Figura 8, a primeira parte é o mapeamento para o OntoP e a última parte especifica o comando para obter os dados da base de dados. 3http://protege.stanford.edu 4http://ontop.inf.unibz.it/ 5https://www.w3.org/OWL 6https://www.w3.org/TR/r2rml/ 7https://www.w3.org/2001/sw/rdb2rdf/ 8https://www.w3.org/TR/owl2-profiles/#OWL_2_QL

Figura 5. Mapeamento que define a entidade Acórdão como um tipo

Figura 6. Mapeamento da relação Acórdão tem uma Decisão Figura 7. Mapeamento que define a entidade Relator como um tipo

Figura 8. Mapeamento da relação Voto tem um Relator

7. Construção do mecanismo de consulta

Com os dados do banco de dados relacional mapeados para a ontologia, a última etapa do desenvolvimento do mecanismo de busca, envolveu a utilização de outras tecnologias como: Java, Regex, Spring e Angular. Estas tecnologias não serão detalhadas aqui pois não são o foco deste trabalho, porém por meio delas foi desenvolvido o sistema conforme ilustrado na Figura 9.

Figura 9. Arquitetura do mecanismo de busca para os acórdões do STF utilizando ontologia

O módulo de interface é o módulo responsável por receber as consultas dos usuários na forma de linguagem natural e encaminha-las para o segundo módulo, o de aplicação. Neste, por meio de expressões regulares, é identificada a consulta correspondente na ontologia que será utilizada, como por exemplo na consulta: • Quais ministros são desafiados?

É possível identificar os termos ministro e desafiado e a partir deste ponto, realizar o mapeamento para uma consulta previamente escrita em SPARQL.

Figura 10. Consulta em SPARQL para a questão de competência "Quais ministros são desafiados?"

A Figura 10 apresenta a consulta em SPARQL correspondente a questão e nela é possível identificar algumas das entidades definidas pela ontologia, dentre elas: Acórdão, Voto, Ministro Relator e Ministro Relator para Acórdão. Estas entidades estão relacionadas à busca por ministros desafiados, pois quando em um Voto de um Acórdão, encontram-se os papéis de Ministro Relator e Ministro Relator para Acórdão, o ministro relator original foi desafiado pelo ministro relator para acórdão. Ressalta-se que o mapeamento desse conhecimento só foi possível com o auxílio de especialistas da área.

Nas Figuras 11, 12 e 13, podemos ver a interface do sistema implementado e as respostas às questões de competência.

Figura 11. Resultado para questão "Quais ministros são desafiados?"

Figura 12. Resultado para a questão "Quais ministros são desafiadores?"

8. Conclusões e Próximos Passos

Neste trabalho propusemos uma implementação prática de um mecanismo de busca, que visa melhorar a maneira como hoje são feitas as buscas por acórdãos do STF.

A ontologia JurisJFES, conforme proposta no trabalho (Bourguet and Costa 2016) , não possuia nenhuma implementação na prática até o momento. A ontologia foi descrita em OWL e estendida para conter as classes e propriedades necessárias para responder as questões de competência sugeridas por especialistas.

Alguns campos do acórdão são escritos em texto livre e portanto foi necessário implementar um classificador para separar as decisões positivas das negativas.

Figura 13. Resultado para a questão "Quais ministros do STF, enquanto relatores, dão provimento sim para ações diretas de inconstitucionalidade?"

As entidades do banco de dados foram mapeadas em elementos da ontologia, o que permite que o usuário faça consultas sem conhecer a organização do banco de dados.

Desta forma espera-se que em continuidade a este trabalho o mecanismo de busca seja expandido para permitir que mais questões sejam respondidas, tais como: • Quais decisões foram divergentes • Quais decisões foram unânimes • Em quais decisões divergentes houve condução do relator original • Em quais decisões divergentes houve condução do relator para acórdão

Além disso, outro ponto que espera-se abordar em um trabalho futuro será suportar os documentos de acórdãos de outros órgãos além do STF como por exemplo o STJ.

Com relação a classificação automática das decisões, há a necessidade de melhorar a precisão do que se entende por decisão positiva e negativa, pois em alguns casos uma decisão pode ser parcial e classificá-la meramente como positiva ou negativa não representa muito bem o real sentido da decisão.

Referências

[Calò 2014] Calò, A. (2014). Extração e análise de informações jurídicas públicas. https : ==www:linux:ime:usp:br= sandro=mac0499=M onograf ia:pdf . Trabalho de conclusão de curso, Instituto de Matemática e Estatística, Universidade de São Paulo, SP. [Grüninger and Fox 1995] Grüninger, M. and Fox, M. S. (1995). Methodology for the design and evaluation of ontologies. In Proceedings of the Workshop on Basic Ontological Issues in Knowledge Sharing, IJCAI-95, Montreal. [Rish 2001] Rish, I. (2001). An empirical study of the Naive Bayes classifier. In IJCAI 2001 Workshop on Empirical Methods in Artificial Intelligence, volume 3, pages 41– 46. [Sampaio and Júnior 1984] Sampaio, T. and Júnior, F. (1984). Introdução ao estudo do direito. Forense.

[Bagosi et al. 2014] Bagosi, T. , Calvanese , D. , Hardi , J. , Komla-Ebri , S. , Lanti , D. , Rezk , M. , Rodriguez-Muro , M. , Slusnys , M. , and Xiao , G. ( 2014 ). The Ontop framework for Ontology Based Data Access . In Proc. of the 8th Chinese Semantic Web Symposium and Web Science Conference (Posters and Demos) , volume 480 of Communications in Computer and Information Science, pages 67 - 77 . Springer.

[Bourguet and Costa 2016 ] Bourguet, J.-R. and Costa , M. Z. ( 2016 ). About the exposition of Brazilian jurisprudences . In Brazilian Ontology Research Seminar, Ontobras2016 , Curitiba.

[Calvanese et al. 2013] Calvanese , D. , Giese , M. , Haase , P. , Horrocks , I. , Hubauer , T. , Ioannidis , Y. , Jiménez-Ruiz , E. , Kharlamov , E. , Kllapi , H. , Klüwer , J. , et al. ( 2013 ). Optique: OBDA solution for big data . In Extended Semantic Web Conference , pages 293 - 295 . Springer.