Obtenção do Arcabouço Legal por meio da Adição das Remissões Externas aos Documentos Legais Francisco de Oliveira1 , José M. Parente de Oliveira1 1 Instituto Tecnológico de Aeronática (ITA) São José dos Campos – SP – Brazil {francisco.sismicro@gmail.com, parente@ita.br} Abstract. Legal documents have internal and external relationships. The hy- pothesis of this research is that the addition of external references between legal documents allows recovering the legal framework about a certain subject mat- ter. To achieve this, legal documents were converted into RDF triples associated with a legal ontology. The resultant dataset was stored into a repository that allows SPARQL queries to be issued. The relevance of the data returned was classified by legal experts. The positive correlation of the measures assures the high similarity of the classification made by the specialists. F-Measure metric was applied and showed values, on average, twice the values obtained in the Google search engine, that has been adjusted to focus on the legal domain. Keywords: RDF, Ontology, Linked Open Data, Law Resumo. Documentos legais possuem relacionamentos internos e externos. A hipótese desta pesquisa é que a adição de referências externas entre documen- tos legais permite recuperar o arcabouço legal sobre um determinado assunto. Para conseguir isso, documentos legais foram convertidos em triplas RDF asso- ciadas a uma ontologia legal. O conjunto de dados resultante foi armazenado em um repositório que permite efetuar consultas SPARQL. A relevância dos da- dos retornados foi classificada por especialistas legais. A correlação positiva das medidas assegura a alta similaridade da classificação feita pelos especial- istas. A aplicação da Medida-F mostrou valores, em média, o dobro dos valores obtidos no buscador do Google, que foi ajustado para focar no domı́nio legal. Palavras-Chave: RDF, Ontologia, Dados Ligados Abertos, Lei 1. Introdução Desde o lançamento da web comercial em 1991 até os dias de hoje, o que se viu foi a explosão do volume de dados disponı́veis [Baeza-Yates 2013], distribuı́dos em diversos domı́nios. Entre os vários campos de informação disponı́veis na web está o domı́nio legal cujos principais provedores são os órgãos governamentais. A importância do domı́nio legal se faz presente no cotidiano de empresas, governos e, também, dos cidadãos. As normas, em sua maioria, são desconhecidas dos cidadãos comuns. Isso tem várias causas, entre elas a quantidade e a complexidade inerente ao domı́nio legal. Além do grande número de textos legais publicados, há o alto grau de dependência entre as normas [Machado 2013], na forma de interligações, que constituem uma rica rede de informações [Lima 2008]. Por outro lado, em muitas situações do dia a dia é necessário recuperar o conjunto de dispositivos legais relacionados a um assunto de interesse com o propósito de encontrar soluções para problemas particulares. No presente trabalho, um dispositivo legal é considerado como sendo uma unidade ou fragmento de informação legal. Dessa forma, um dispositivo legal poderá ser um ar- tigo, um parágrafo, um inciso, uma alı́nea, um item e assim por diante. As interligações entre os vários dispositivos legais são efetuadas por meio de remissões internas ou ex- ternas, [Machado 2013], [Machado 2014]. As remissões internas interligam dispositivos contidos em um mesmo documento legal. As remissões externas referenciam dispositivos legais que estão em documentos distintos. No exemplo a seguir, o Decreto 2.556 que regulamenta o artigo 3o. da Lei 9.609, Lei do Software. A Lei 9.609, por sua vez, revoga a Lei 7.646. Esta lei, também, remete ao Artigo 16 da Lei 5.869. Na Figura 1 foram destacados apenas os elementos necessários para mostrar os relacionamentos do Decreto 2.556. Figura 1. Interligações entre dispositivos legais. O presente artigo tem como objetivo apresentar um método para recuperar o con- junto de dispositivos legais relevantes sobre um determinado assunto ou tema de inter- esse. Para tanto, adicionamos as remissões existentes aos documentos legais e assim acionamos a rede de informações relacionadas. O artigo está organizado da forma que segue. Na Seção 2 são apresentados alguns trabalhos relacionados. Na Seção 3, apresen- tamos o método proposto para recuperação do arcabouço legal de interesse. Na Seção 4, apresentamos os experimentos realizados e os resultados obtidos. Por fim, na Seção 5, ap- resentamos conclusões sobre o trabalho, as limitações encontradas e possı́veis trabalhos futuros. 2. Trabalhos Relacionados Em [Machado 2013] foi realizada uma extensa pesquisa com o objetivo de se criar um Modelo Conceitual Formal de Relacionamentos do Ordenamento Jurı́dico Positivo (MROJ). O resultado do esforço de pesquisa é um conjunto de ontologias composto por Ontologia do Sistema Lógico Jurı́dico, Ontologia da Teoria da Norma Jurı́dica, Ontolo- gia do Ordenamento Jurı́dico, Ontologia da Sistemática Legal Externa e Ontologia da Divisão Tricotômica das Pétreas. Como benefı́cios do trabalho o autor cita a expres- sividade do modelo conceitual, a possibilidade de implementação do modelo em diversas linguagens ontológicas com diferentes nı́veis de expressividade de acordo com os requisi- tos computacionais, a interoperabilidade e a possibilidade de publicação do conhecimento legal e sua respectiva semântica. Tal trabalho serviu aos objetivos da pesquisa em curso por fornecer a Ontologia da Sistemática Legal Externa, base para a criação das triplas e a associação da ontologia ao repositório das triplas geradas. Outro trabalho de conceitualização e modelagem ontológica vem de [Lima 2008] que desenvolveu na sua tese de doutorado um modelo conceitual que chamou de Modelo Genérico de Relacionamentos (MGR). O autor aplicou o seu modelo no projeto Coletânea Brasileira de Normas e Julgados de Telecomunicações por meio de uma pesquisa ação. O MGR é, segundo seu autor, formado por três entidades principais que são o Conceito, a Unidade de Informação e o Relacionamento. A partir delas são criadas subclasses para atender às necessidades do modelo. Como resultado final do modelo, são geradas uma ontologia para a organização da informação e uma tipologia. No trabalho de mestrado de [Machado 2010], o autor aproveita o caráter hierárquico dos textos legais para melhorar o processo de busca de informação do orde- namento jurı́dico em relação aos métodos convencionais. O autor aplica técnicas ampla- mente utilizadas em recuperação de informação como a extração de radicais, indexação, lista de termos, entre outros. Diferentemente da pesquisa aqui relatada, no trabalho do autor a premissa é a busca do documento legal que contém certa informação, tal como fazem os mecanismos de buscas. Na esfera governamental existe o projeto LexML-BR [PRODASEN 2016] que é baseado numa iniciativa multinacional. Pelo lado brasileiro, esse projeto visa organizar a informação jurı́dica disponibilizada pelos vários órgãos do governo brasileiro, conforme [Machado 2013]. Para a realização do objetivo, foi criado um portal de acesso público, no endereço www.lexml.gov.br, contendo mais de um milhão de documentos entre os quais aqueles referentes à legislação brasileira. Esse acervo pode ser pesquisado por meio de termos de busca que podem ser informados no portal. Por meio de algoritmos de recuperação de informação, é retornada uma lista dos documentos cujos termos de busca estão na respectiva ementa. Na Finlândia, há o projeto FinLex [Frosterus 2013]. O projeto tem por finalidade publicar os dados legais finlandeses como dados ligados abertos mediante a aplicação das tecnologias de web semântica. A similaridade desse trabalho com o da atual pesquisa é a disponibilização da informação na forma de dados abertos. Na Itália, além do projeto LexML-IT, similar ao LexML-BR, há vários esforços de pesquisa, como, por exemplo, [Soria 2007] que, por meio de anotação semântica em textos legais italianos, procurou melhorar a recuperação de informação jurı́dica. Na área de conformidade legal encontra-se o trabalho alemão de [Thatmann 2014], cuja finalidade foi prover uma ontologia lightweight para repre- sentar o Ato Federal Alemão para Proteção de Dados (BDSG). Utiliza ontologia legal para tratar documentos jurı́dicos alemães relacionados à conformidade de SaS (Software as service). 3. Método para Recuperação do Arcabouço Legal O método consiste em explicitar as remissões internas e externas existentes nos docu- mentos legais de forma a percorrer a rede de interligações dos documentos. A Figura 2 apresenta um esquema do método, contendo as etapas e produtos intermediários e final. Na sequência, o método é apresentado em detalhes. Figura 2. Abordagem utilizada para solucionar o problema 3.1. Etapa 1 - Capturar os arquivos contendo os textos legais Os documentos legais estão contidos em arquivos de computador de variados formatos, sendo os mais comuns o HTML, o DOC, o RTF e o PDF. Neste trabalho optou-se por tra- balhar apenas com os documentos no formato HTML, que é o formato padrão atual para a publicação da legislação. A Tabela 1 apresenta um resumo dos formatos de documentos coletados em 06 de Agosto de 2017. Formato do documento Número de arquivos HTML 70.016 PDF 8.302 DOC/RTF 1.737 Total 80.055 Tabela 1. Formatos de documentos legais Após o download dos arquivos HTMLs, foi necessária uma reorganização dos ar- quivos legais, eliminação de redundâncias e separação dos arquivos que serão convertidos para RDF (leis, decretos e decretos-lei). Depois desta reorganização, o total de arquivos HTML a serem convertidos reduziu de 70.016 para 35.314 arquivos. 3.2. Etapa 2 - Converter o documento legal para a forma de triplas RDF RDF - Resource Description Framework é uma linguagem formal com especificação definida por The World Wide Web Consortium (W3C) (https://www.w3.org/ RDF/). Fornece uma maneira de descrever os recursos através de metadados na forma de triplas. Uma tripla é um conjunto ordenado formado por três elementos: um sujeito, um predicado e um objeto, nesta ordem. Como as triplas referenciam sujeitos e objetos, elas podem ser interligadas com outras triplas que se refiram ao mesmo recurso ou objeto. Assim, RDF forma um grafo rotulado e dirigido para representação de informações na Web. A conversão dos documentos do formato HTML para o formato RDF é feita por meio de um programa de computador, aqui chamado de File Parser, criado especifica- mente para essa finalidade, que escaneia o diretório contendo os arquivos HTML. Cada arquivo HTML é passado para o File Parser que faz a conversão por meio de rotinas de tratamento de texto. A conversão é mediada pela ontologia Ontologia Sistemática Externa Legal de [Machado 2013], que foi modificada e estendida, ver Figura 3. A conversão uti- lizou a parte da articulação da ontologia, em destaque no retângulo na parte superior da figura. Figura 3. Ontologia Legal modificada e estendida 3.3. Etapa 3 - Armazenar as triplas em um repositório de triplas (triplestore) Para efeito deste trabalho de pesquisa, o triplestore escolhido foi o TDB que faz parte do projeto de software Apache Jena, disponı́vel em https://jena.apache.org/. É um repositório de triplas que pode ser acessado diretamente por meio da API Jena ou como um enpoint SPARQL. O File Parser gera um arquivo RDF serializado no formato Turtle. Depois envia-o para o triplestore por meio da API do Jena. 3.4. Etapa 4 - Disponibilizar o acesso às triplas por meio de um endpoint SPARQL O acesso às triplas é disponibilizado por meio de um endpoint SPARQL. Neste trabalho optou-se pelo servidor Fuseki, que também faz parte do Apache Jena. Para os experimen- tos especı́ficos deste trabalho, as queries (consultas) SPARQL foram enviadas diretamente de um programa em Java que utiliza a API do Jena. 3.5. Etapa 5 - Disponibilizar os arquivos legais como datasets RDF Todas as triplas armazenadas no repositório também estão disponı́veis em arquivos RDF serializados em Turtle. Os conjuntos de dados (datasets) RDF podem ser publicados na forma e sob os princı́pios de dados ligados abertos. 4. Experimentos e Resultados Nesta seção são apresentados os experimentos realizados e os resultados obtidos nestes ensaios. 4.1. Experimentos A conversão dos 35.314 documentos legais (em HTML) gerou 1.930.236 triplas no repositório. No quadro da Figura 4 tem-se os quantitativos de predicados pertencentes às triplas convertidas. Neste quadro, o nome do predicado está na coluna Predicado e a quantidade correspondente de ocorrências, geradas na conversão, está na coluna Quan- titativo. Os predicados são oriundos da ontologia legal adotada. São responsáveis pela interligação das triplas de itens legais geradas. Dessa maneira, explicitam as remissões. Por exemplo, o predicado lex:regulamentadoPor liga um item legal A, sujeito da tripla, relacionado a um item legal B, objeto da tripla, de forma que B é a regulamentação legal de A. Nas colunas da esquerda na primeira linha do quadro da Figura 4, há o registro de 1.284 ocorrências para esse predicado. Figura 4. Quantitativo de Predicados Os experimentos consistiram de consultas por meio de termos relativos a certos temas. Os temas testados foram definidos aleatoriamente. São eles: • (ACP) acumulação cargo público • (DCO) direito consumidor • (DHE) direitos humanos escola • (FFI) fraude financeira • (AIN) acesso informação • (MIL) meios ilı́citos • (PRV) prevaricação • (PCR) programa computador registrado • (VDO) violência doméstica • (TRD) tratamento desumano. As consultas foram regidas por um conjunto de algoritmos. O principal deles é o Algo- ritmo sparqlQuery, que e´ mostrado a seguir em Algoritmo 1. Este recebe os termos de busca e ativa as subconsultas que fazem as buscas e retornam as triplas que casam com os termos informados. Para cada tripla retornada, o algoritmo faz a busca das triplas vizinhas até a distância de dois nós. Data: Lista de termos Result: Lista de triplas de dispositivos legais triples = getQueryResults(Lista de termos); while exists triple in triples do read current triple; add triple to Result; neighbours = getNeighbours(triple(subject)); while exists neighbour in neighbours do read current neighbour; add neighbour to Result; nextNeighbours = getNextNeighbours(neighbour(object)); while exists nextNeighbour in nextNeighbours do read current nextNeighbour; add nextNeighbour to Result; end end end Algorithm 1: sparqlQuery A análise da relevância dos resultados das consultas se deu em duas etapas. Em primeiro lugar, os dispositivos legais retornados na forma de triplas RDF foram submeti- dos à apreciação de dois advogados. Cada um deles, pré-classificou cada tripla retornada como relevante ou não relevante em relação ao respectivo tema de busca. Após a pré-classificação feita pelos advogados, a relevância dos resultados foi cal- culada com base nas métricas de Precisão, Cobertura e Medida-F, comumente utilizadas na área de Recuperação de Informação [Manning et al. 2008], que são definidas a seguir. • Precisão (Precision): É uma medida que indica qual é a fração dos resultados retornados que são relevantes para as necessidades de informação. • Cobertura (Recall): Indica qual fração de documentos relevantes na coleção foram retornados pelo sistema. • Medida-F (F-measure): É utilizada para balancear eventuais distorções oriun- das do cálculo da precisão ou cobertura. A Medida-F (F-measure) é a média harmônica entre as duas medidas anteriores. 4.2. Resultados A classificação de relevância das triplas retornadas foi compilada, juntamente com os cálculos das métricas, e estão representados na Figura 5. Figura 5. Resultados: Precisão, Cobertura e Medida-F Os dados da figura foram utilizados para o cálculo da correlação da classificação feita pelos especialistas. Este cálculo objetiva verificar se os dados permitem uma classificação consistente. Eventuais divergências na classificação, observáveis na tabela, podem ter diversas causas, entre elas a própria subjetividade do classificador. O resultado da correlação é apresentado no final desta seção. Com o propósito de obter mais evidências a respeito dos benefı́cios do método ap- resentado, as consultas anteriormente realizadas foram replicadas no buscador do Google (www.google.com/search). Para fazer as buscas no mecanismo do Google, os seguintes critérios foram adotados: • Indicação do site de busca - para restringir a pesquisa às páginas contendo preferencialmente documentos legais, o site de busca foi restrito ao site ofi- cial www.planalto.gov.br. Com isso, tentou-se eliminar o aspecto mul- tidomı́nio do buscador. Isso foi feito por meio do uso de site:www.planalto.gov.br junto aos termos de busca no campo de pesquisa do buscador. • Critério de relevância - a classificação feita pelo especialista 1 foi adotada, aleatoriamente, como critério de relevância. • Limitação da classificação de relevância a um subconjunto das páginas retor- nadas em cada busca - foram consideradas as primeiras dez páginas retornadas. Para o cálculo da precisão, o quociente utilizado foi o menor valor entre 10 e o número de triplas retornadas conforme a Figura 5. Para o cálculo da cobertura, o quociente utilizado foi o menor valor entre 10 e o número de resultados relevantes classificados pelo especialista 1. Por exemplo, a busca por Direitos humanos escola retornou 13 triplas na consulta SPARQL, sendo que 6 delas foram classificadas como relevantes pelo especialista 1. Então foi utilizado o valor 10 como denominador para o cálculo de precisão, min(10, 13). E o denominador 6 foi destacado para o cálculo de cobertura, min(6, 10). A Figura 6 mostra um trecho do retorno de busca no Google. De acordo com especificação anterior, apenas os primeiros dez itens retornados foram considera- dos para a aplicação das métricas. Aqueles documentos resultantes da busca que, segundo o especialista no domı́nio legal, foram classificados como relevantes, re- ceberam uma marcação ao lado esquerdo do item correspondente. Esta marcação foi feita por meio do sı́mbolo X como se observa na figura. Figura 6. Retorno parcial de busca no Google. As métricas aplicadas aos resultados das buscas efetuadas no Google, considerando-se os critérios e restrições acima, são apresentadas na Figura 7. Além dos resultados especı́ficos para o Google, a figura também mostra a Medida-F obtida na classificação do especialista 1 para efeito de comparação. Os mecanismos de buscas em geral, devido às suas caracterı́sticas multidomı́nio, não são bons parâmetros para comparações. Por esse motivo, no presente experimento, houve a necessidade de restringir as buscas ao domı́nio legal conforme destacado acima em Indicação do site de busca. A Figura 8 apresenta graficamente o resultado do cálculo da correlação das classificações feitas pelos especialistas. O propósito é verificar se os dados obtidos nos re- tornos das consultas às triplas legais permitem uma classificação consistente. O resultado da medida estatı́stica foi uma correlação positiva, no valor de 0,98. Esse resultado cor- robora a intenção de que os itens legais retornados na consulta, pela aplicação do método proposto, fornecem subsı́dios para a classificação da relevância. Figura 7. Resultados das buscas no Google. Figura 8. Correlação das classificações dos especialistas Os resultados da métrica de Medida-F calculada comparativamente para o Espe- cialista 1 e para o Google são apresentados na Figura 9. As linhas de tendência das duas medidas evidenciam a vantagem do método adotado nesta pesquisa sobre os resultados do buscador mais usado na atualidade. 5. Conclusão Essa pesquisa abordou o problema de recuperar o arcabouço legal por meio da adição das remissões externas aos textos legais. O caminho para viabilizar este objetivo passou pela utilização de uma ontologia legal e conceitos e tecnologias da web semântica. O pro- jeto e implementação de um método para coletar os textos legais, convertê-los em triplas RDF e armazená-las num triplestore, também fez parte da trilha. A complementação do caminho se deu pelas consultas ao repositório em linguagem SPARQL que possibilitam a recuperação do arcabouço legal. Os resultados foram avaliados por meio do uso de métricas do campo da Recuperação de Informação. Os resultados da pesquisa apresen- Figura 9. Gráfico de Resultados: Google taram Medida-F, em média, igual ao dobro daquelas obtidas no buscador do Google, que foi ajustado para focar no domı́nio legal. A conversão dos documentos legais para o formato RDF precisa de aperfeiçoamentos. Os problemas concentram-se nos conteúdos dos arquivos em HTML. A lı́ngua portuguesa e sua acentuação caracterı́stica trouxe dificuldades à execução do projeto. Outro problema encontrado foi a ocorrência de documentos legais mal formados, com marcação incompleta, com erros de digitação ou com nomenclatura não padronizada. O software construı́do para efetuar as consultas tem vários pontos a melhorar ou evoluir. Por isso tudo, vislumbra-se uma série de possibilidades de melhoria, complementação ou evolução do presente trabalho. A automatização da coleta dos arquivos com os textos legais é importante para a manutenção e atualização da base de triplas RDF, assim como a melhoria do con- versor ( File Parser) é outra necessidade. Tanto a interpretação sintática dos documen- tos legais originais quanto sua representação por meio de triplas devem ser melhoradas. Também, requer-se o aprimoramento da ontologia legal, mediante novas extensões. Outro aspecto a considerar em relação ao presente trabalho, seria complementá-lo com os resul- tados de pesquisas nos campos da recuperação de informação e do processamento de linguagem natural. O campo da semântica dos conteúdos revela-se promissor. Recuperar o arcabouço legal de maneira que os dispositivos de semântica similar aos argumentos de busca sejam retornados é tarefa em aberto. 6. Agradecimentos É importante destacar e agradecer a contribuição dos advogados, Dr. Joaquim Carlos Paixão Júnior e Dr. Danilo Bueno Berber, que participaram ativamente efetuando a classificação da relevância dos resultados das buscas por dispositivos legais. References [Baeza-Yates 2013] Baeza-Yates, R.; Ribeiro-Neto, B. (2013). Recuperação de Informação: conceitos e tecnologia das máquinas de busca. Bookman, Porto Ale- gre, 2a edition. [Frosterus 2013] Frosterus, Matias; Tuominen, J. H. E. (2013). Facilitating re-use of legal data in applications - finnish law as a linked open data service. page 10. Extended Semantic Web Conference, Springer Berlin Heidelberg. [Lima 2008] Lima, J. A. O. (2008). Modelo Genérico de Relacionamentos na Organização da Informação Legislativa e Jurı́dica. Doutorado em ciência da informação, Universidade de Brası́lia - UnB, Brası́lia. [Machado 2013] Machado, A. L. (2013). Modelo Conceitual Formal de Relacionamen- tos do Ordenamento Jurı́dico Positivo. Doutorado em ciência da computação, Instituto Tecnológico de Aeronáutica - ITA, São José dos Campos. [Machado 2014] Machado, A. L.; Parente de Oliveira, J. M. (2014). A legal ontology of relationships for civil law system. In Proceedings of 1st Joint Workshop ONTO.COM / ODISE on Ontologies in Conceptual Modeling and Information Systems Engineering- Co-located with 8th International Conference on Formal Ontology in Information Sys- tems (FOIS 2014), Rio de Janeiro, Brasil. [Machado 2010] Machado, R. A. C. (2010). Seeklex - recuperação de informação em subdocumentos hierarquizados. Mestrado em engenharia de sistemas e computação, Universidade Federal do Rio de Janeiro - UFRJ, Rio de Janeiro. [Manning et al. 2008] Manning, C. D., Raghavan, P., and Schutze, H. (2008). Introduc- tion to Information Retrieval. Cambridge University Press, New York, 1st edition. [PRODASEN 2016] PRODASEN (2013 (accessado em 01 de Setembro de 2016)). Lexml - rede de informação legislativa e jurı́dica - portal especializado em informação jurı́dica e legislativa. http://www.lexml.gov.br/. [Soria 2007] Soria, C; Bartolini, R. L. A. M. S. P. V. (2007). Automatic extraction of semantics in law documents. In Proceedings of the V Legislative XML Workshop, pages 253–266, Florence, Italy. [Thatmann 2014] Thatmann, D.; Schuster, E. C. G. (2014). Mapping legal requirements to slas: an ontology based approach for cloud-based service consumption. In SW4LAW 2014 and JURIX 2014-DC Semantic Web for the Law and Second Jurix Doctoral Con- sortium, pages 5–16. Technische Universitat, Technische Universitat.