=Paper=
{{Paper
|id=Vol-3346/Paper3
|storemode=property
|title=Uso de Ontologias no Suporte a Aplicação de Machine Learning: Um Caso no Domínio de
Evasão Escolar
|pdfUrl=https://ceur-ws.org/Vol-3346/Paper3.pdf
|volume=Vol-3346
|authors=Eduardo Moura da Silva,Filipe Wall Mutz,Fabiano Borges Ruy
|dblpUrl=https://dblp.org/rec/conf/ontobras/SilvaMR22
}}
==Uso de Ontologias no Suporte a Aplicação de Machine Learning: Um Caso no Domínio de
Evasão Escolar==
Uso de Ontologias no Suporte a Aplicação de Machine Learning: um Caso no Domínio de Evasão Escolar Eduardo Moura da Silva1 , Filipe Wall Mutz2 and Fabiano Borges Ruy1 1 Programa de Pós-graduação em Computação Aplicada (PPComp) - Instituto Federal do Espírito Santo (IFES), Av. dos Sabiás, 330 - Morada de Laranjeiras, Serra - ES, Brasil 2 Departamento de Informática, Universidade Federal do Espírito Santo (UFES), Av. Fernando Ferrari, 514 - Goiabeiras, Vitória - ES, Brasil Abstract With technological advances in the area of Artificial Intelligence, studies and applications combining machine learning and ontologies are increasingly present. In this convergence, ontologies enable a better understanding of the domain and the data, which is essential for providing semantic integration of different data sources and for favoring a proper application of ML techniques. This combination allows creating solutions that generate ML models able for dealing with different data sources. This paper presents a case in the field of school dropout, demonstrating how this combination allows the development of technological resources for predicting school dropout that can be applied to different educational institutions. Keywords Ontologies, Machine Learning, School Dropout, Semantic Integration 1. Introdução Segundo Gaioso [1], a evasão escolar é um fenômeno social, definido como a interrupção no ciclo de estudos. Para Araújo et al. [2], a evasão é caracterizada pelo abandono do curso, rompendo com o vínculo estabelecido, não renovando o compromisso ou sua manifestação de continuar no estabelecimento de ensino. A Comissão Especial de Estudos sobre a Evasão nas Universidades Públicas Brasileiras [3], designada pelo MEC, define evasão como a saída definitiva do aluno de seu curso de origem, sem concluí-lo. Percebe-se diferentes amplitudes nos conceitos de evasão, mas de forma geral, tem-se como fator comum a interrupção no ciclo de estudos. Este trabalho adota um conceito baseado nas definições de [1] e [3], considerando a evasão escolar como um fenômeno social, definido como a interrupção no ciclo de estudos que dê origem à saída definitiva do curso, da instituição ou do sistema escolar. A evasão escolar é uma questão que preocupa não apenas os gestores escolares, mas também o Estado e a sociedade em geral, pois é um fenômeno que gera impacto para todos. Esse é um problema que preocupa as instituições de ensino públicas e privadas, pois as saídas de alunos provocam graves consequências sociais, acadêmicas e econômicas [4]. Para a instituição, a Proceedings of the 15th Seminar on Ontology Research in Brazil (ONTOBRAS) and 6th Doctoral and Masters Consortium on Ontologies (WTDO), November 22-25, 2022 $ eduardo.silva@ifes.edu.br (E. M. d. Silva); filipe.mutz@ufes.edu.br (F. W. Mutz); fabianoruy@ifes.edu.br (F. B. Ruy) © 2022 Copyright for this paper by its authors. Use permitted under Creative Commons License Attribution 4.0 International (CC BY 4.0). CEUR Workshop Proceedings http://ceur-ws.org ISSN 1613-0073 CEUR Workshop Proceedings (CEUR-WS.org) evasão acarreta ociosidade do espaço físico, de professores, de funcionários e de equipamentos, o que, nas instituições públicas, se reflete em desperdícios dos investimentos do governo e, nas particulares, perdas financeiras em relação às mensalidades [5]. Para os estudantes, por sua vez, a evasão pode representar o atraso ou cancelamento de um sonho, perda de oportunidades de trabalho, de crescimento pessoal e de melhoria de renda, entre muitas outras consequências. Visto que a evasão escolar é um relevante problema que causa grandes impactos na sociedade, há a necessidade de compreender esse fenômeno e tomar ações para mitigá-lo. Nesse sentido, dados acadêmicos e sociais dos alunos cumprem um importante papel, permitindo compreender o contexto e as situações que podem levar a evasão. Tais dados podem ser trabalhados de diversas maneiras: com a utilização de ferramentas de business intelligence para geração de relatórios e insights, com uso de técnicas de mineração de dados, e com a aplicação de técnicas de Inteligência Artificial (IA), como as de Aprendizado de Máquina, que podem antecipar situações a serem tratadas. Aprendizado de Máquina (Machine Learning - ML) envolve um conjunto de técnicas que empregam um princípio de inferência denominado indução, no qual é possível obter conclusões genéricas a partir de um conjunto particular de exemplos [6]. Algoritmos de ML se propõem a resolver tarefas pela identificação de padrões em dados de um determinado domínio e diversas técnicas são utilizadas para tentar selecionar soluções que generalizem para dados ainda não conhecidos. Beltran et al. [7] ressaltam que é importante conhecer bem os dados disponíveis para aplicar corretamente as técnicas de ML. Modelos conceituais, como ontologias, são ferramentas que auxiliam a compreensão do domínio estudado. Ontologias podem representar de forma con- sistente o conhecimento de um domínio, por meio de seus conceitos e relações, indicando a interpretação desejada ao domínio, independentemente das aplicações específicas [8]. Elas são artefatos de representação da informação muito úteis para integração de dados e para garantir interoperabilidade semântica das informações que representam [9]. Assim, ontologias estão sendo cada vez mais usadas para fornecer conhecimento em análises baseadas em similaridade e modelos de ML. Os métodos empregados para combinar ontologias e ML ainda são novos e estão sendo ativamente desenvolvidos [10]. Tal combinação é favorável especialmente em aplicações em que se deseja processar múltiplas fontes de dados. No contexto de evasão escolar, técnicas de integração semântica e ML podem se complementar. Enquanto uma abordagem de integração semântica produz uma representação consistente de dados escolares independentemente de quais ou quantas fontes, técnicas de ML podem favorecer a identificação de padrões de comportamentos úteis à gestão escolar. Como é um fenômeno presente em diferentes contextos escolares, é fundamental que soluções tecnológicas construídas com objetivo de minimizar esse fenômeno possam ser aplicadas a diferentes entidades educacionais. Um dos grandes desafios para a criação de soluções com essa característica está relacionado ao fato de que os dados advêm de fontes distintas e estão armazenados segundo formatos, esquemas e, muitas vezes, semânticas diferentes. Este trabalho apresenta um case no domínio de evasão escolar que demonstra como o uso de ontologias pode apoiar a aplicação de técnicas de ML para realizar a predição da evasão escolar, e como tal combinação favorece a aplicação a diferentes instituições de ensino. Como contribuições, vale citar: uma Ontologia de Evasão Escolar que permite um melhor entendimento do domínio e a geração de repositórios de dados padronizados; uma abordagem que propõe os passos para a criação de recursos tecnológicos combinando ontologias e ML; e um case apresentando resultados de predições de Evasão Escolar a partir de duas bases de dados públicas. O artigo está organizado da seguinte forma: a Seção 2 aborda alguns conceitos importantes relacionados às tecnologias base deste artigo: ontologias e machine learning; a Seção 3 apresenta o desenvolvimento de um case de integração e aplicação de ML para predição de Evasão Escolar usando uma ontologia como suporte; a Seção 4 discute os trabalhos correlatos; e a Seção 5, as considerações finais. 2. Ontologias e ML De acordo com Studer et al. [11], uma ontologia é uma especificação formal e explícita de uma conceituação compartilhada. É uma teoria lógica utilizada para capturar os modelos pretendidos de uma conceituação e excluir os não pretendidos [12]. Ou seja, uma teoria utilizada para especificar e explicitar uma conceituação. O uso de ontologias pode facilitar a integração de dados de várias maneiras, incluindo representação de metadados, verificação automática de dados, conceituação global, suporte para consultas semânticas de alto nível e se estende além das abordagens tradicionais de uso de elementos de dados comuns e modelos de dados comuns [13]. As ontologias têm se mostrado como importante ferramenta para realização de integração de dados [14] [8], entretanto o processo de criação de ontologias não é trivial. Além do conheci- mento do domínio, é importante aplicar técnicas de Engenharia de Ontologias e recursos tais como ontologias de fundamentação e uma linguagem de modelagem adequada. Visando maior expressividade na representação do domínio e facilidades na criação e evolução da ontologia, bem como na criação de repositórios de dados padronizados. Este trabalho adota UFO e OntoUML. UFO [15] é uma ontologia de fundamentação que define distinções úteis para compreender e representar um domínio. São providas distinções básicas tais como sortais rígidos (kind, subkind) e antirrígidos (role, phase), mediadores em relações materiais (relator), além de não sortais para generalizações (category, rolemixin). A linguagem OntoUML [16] captura essas distinções em uma extensão da UML, e tem sido usada na construção de modelos conceituais em diversos domínios [17]. Com o estabelecimento de uma ontologia no domínio e escopo desejado, esta pode ser utilizada como referência semântica para a integração de dados, promovendo a interoperabilidade de dados a partir de uma base comum para interpretação e redução de inconsistências conceituais [14]. Os dados, independentemente de suas origens, podem ser mapeados para um repositório comum que provê uniformidade para aplicações diversas [8]. Mais especificamente, um repositório baseado em uma ontologia provê uma estrutura ade- quada, semanticamente enriquecida, para a aplicação de algoritmos de ML. Além de permitir lidar de maneira homogênea com múltiplas fontes de dados, a ontologia também fornece um melhor entendimento do domínio e das características inerentes aos dados, facilitando, na apli- cação de ML, a transformação de campos específicos de entrada para otimizar o processamento e a seleção dos algoritmos a serem aplicados. As características dos dados e do problema abordado levam à aplicação de algoritmos de classificação que estão contidos no aprendizado de máquina supervisionado. No Aprendizado Supervisionado, para cada amostra apresentada ao algoritmo de aprendizado é necessário definir a saída que o modelo deve produzir para uma dada entrada [18]. Quando as saídas são discretas, esse problema é chamado de classificação e para valores contínuos, é chamado de regressão. Em classificação, cada exemplo é composto por uma entrada (e.g., uma imagem, um áudio ou vetor de valores (atributos)), e por uma classe de saída associada. O objetivo do algoritmo é construir um modelo capaz de determinar corretamente a classe de exemplos diferentes daqueles usados durante o treinamento. Um problema de classificação pode ser definido formalmente da seguinte maneira: dado um conjunto de exemplos de treinamento composto por pares (𝑥𝑖 , 𝑐𝑗 ), no qual 𝑥𝑖 representa um vetor de atributos de entrada, e 𝑐𝑗 sua classe associada, deve-se encontrar uma função que mapeie cada 𝑥𝑖 para sua classe associada 𝑐𝑗 , tal que i = 1, 2, ..., n, em que n é o número de exemplos de treinamento, e j = 1, 2, ..., m, em que m é o número de classes do problema [19]. Com algoritmos de classificação é possível realizar algumas predições no contexto da evasão escolar. Por exemplo, Fernando Filho et al. [20] apresentam um estudo de caso no qual realizou- se predições de evasão escolar com o uso de técnicas de classificação. Contudo a aplicação dessas técnicas, assim como no exemplo citado, são muitas das vezes direcionadas para uma base de dados específica. De acordo com Kulmanov et al. [10], com o rápido crescimento de métodos para construir modelos preditivos, em particular métodos de ML, ontologias podem agora desempenhar um papel no fornecimento sistemático de conhecimento de domínio para habilitar ou melhorar os modelos preditivos. O uso de uma abordagem de integração de dados baseada em ontologia permite não apenas padronizar as definições de variáveis de dados por meio de um vocabulário comum e controlado, mas também torna as relações semânticas entre variáveis de diferentes fontes explícitas e claras para todos os usuários [13]. 3. Uso de ontologias no suporte à integração de dados e predição da evasão escolar A partir da ontologia, para realizar o ciclo completo desde a captura dos dados de fontes distintas até a predição da evasão escolar, foram necessárias atividades tais como a identificação das fontes de dados, o acesso e captura dos dados, a transformação dos dados para o modelo comum, e experimentação com técnicas de ML. Tais atividades foram organizadas em uma abordagem, conforme apresenta a Figura 1. Em um trabalho anterior [21], foi utilizada uma versão da abordagem que contemplava apenas análise de dados, mas não o uso de técnicas de ML. Agora a abordagem está mais completa, com melhorias e extensões voltadas a construir e aplicar modelos de ML para realizar predições. O suporte provido pela ontologia para abstrair a origem dos dados e possibilitar a realização de predições ocorre dentro da abordagem. É a partir da ontologia que os dados podem ser padronizados em repositórios usando o mesmo schema, para posterior geração e aplicação de modelos de ML. A Figura 1 apresenta etapas da abordagem, descritas independentemente de domínio, e aplicadas no case de evasão escolar. Figura 1: Abordagem para aplicação de ML em dados de diferentes fontes. 1. Modelar Ontologia - cria uma Ontologia de Referência, construída a partir da conceituação do domínio. 2. Obter Dados - consiste em acessar / capturar os dados disponíveis do domínio a partir de suas fontes. Para aplicação de técnicas de ML é importante o acesso a dados históricos, pois é o que permite a identificação dos padrões por parte dos algoritmos. Portanto, nesta etapa deve-se ter acesso a dados históricos e dados atuais para os quais se deseja realizar a predição. 3. Mapear Schemas - realiza o mapeamento semântico entre os schemas das Fontes de Dados (2) e a Ontologia de Referência (1), indicando qual é a relação dos tipos dos dados com os correspondentes conceitos e propriedades da ontologia. 4. Transformar Dados - processa os dados, conforme o mapeamento, para um formato baseado na ontologia. Para aplicação das técnicas de ML, são criados dois repositórios, um para os dados históricos e outro para os dados atuais, ambos populados com instâncias da ontologia criadas a partir de diferentes recortes dos dados da base. 5. Empregar Técnicas de ML - baseado no repositório de dados históricos, faz a aplicação das técnicas de aprendizado de máquina para geração do modelo de ML. 6. Aplicar Modelo de ML - realiza a predição para os dados atuais baseada no modelo gerado pela aplicação das técnicas de ML. 7. Gerar Relatórios - gera relatórios com dados das predições realizadas pelo modelo de ML. Com a utilização de uma ontologia como interlíngua, os mesmos tipos de informações podem ser extraídos de forma transparente a partir de diferentes origens de dados. Por exemplo, aplicando a abordagem para uma Instituição A, será gerado um repositório padronizado pela ontologia para essa instituição; de posse desse repositório podem ser aplicadas técnicas de ML para realizar predições acerca de seus dados. Em seguida, sem a necessidade de adequações na aplicação, pode-se aplicar a abordagem para uma Instituição B, gerando seu próprio repositório. Como o formato dos repositórios é padronizado pela ontologia, as mesmas técnicas de ML poderão ser aplicadas para geração dos modelos de ML e para a realização de predições para a Instituição B ou quaisquer outras no mesmo contexto. 3.1. Ontologia de Evasão Escolar Aplicando-se a abordagem, a primeira atividade é a criação da Ontologia de Referência, neste caso, no domínio de Evasão Escolar. Seu propósito é representar as principais características do domínio, necessárias para possibilitar a identificação de padrões e um melhor entendimento dos fatores que influenciam na decisão das pessoas evadirem. Ela é utilizada para abstrair a origem e formato dos dados e para gerar repositórios padronizados que permitam a aplicação de técnicas de ML para múltiplas fontes, gerando modelos capazes de identificar alunos com maiores potenciais de evasão. Assim, a ontologia pode ser utilizada para projetar uma solução de IA que possa ser utilizada em diferentes instituições, com variados tipos e níveis de escolaridade. A ontologia foi construída com base no método SABiO (Systematic Approach for Building Ontologies) [22]. Para a fase de captura e formalização foi utilizado UFO-A [23] e os conceitos foram definidos a partir de referências como: Lei 9.394/1996 - Lei de Diretrizes e Bases da Educação; Decreto 9.235/2017 - que dispõe sobre o exercício das funções de regulação, supervisão e avaliação das instituições de educação superior; Constituição Federal Brasileira de 1988; glossário do Censo da Educação Superior, realizado pelo INEP [24]; apresentação de resultados do Censo da Educação Superior [25]; tabela de classificação de áreas de conhecimento da Capes [26]; e publicações, tais como [27] e [28]. Como linguagem de modelagem foi utilizada OntoUML [23]. A ontologia, apresentada na Figura 2, é uma evolução da versão publicada em [21], a partir da qual foram adicionados conceitos para representar variados níveis de ensino (além do ensino superior), e outros conceitos no módulo acadêmico para ser possível representar notas e frequências dos alunos; além de informações sobre as probabilidades de evasão. Os conceitos que foram acrescentados estão representados em cores mais claras dentro de cada módulo, conforme pode ser visualizado na Figura 2. No módulo Organização (em amarelo), o principal conceito é Instituição Educacional, que representa os tipos de organizações que estão inseridas no domínio, que são organizações que oferecem atividades educacionais. Elas possuem uma Categoria Administrativa e podem ser dos tipos Universidade, Faculdade, Instituto ou, voltadas à educação básica, Escola ou Colégio. Estas instituições englobam um ou mais Níveis Escolares, ou seja, podem ser da educação superior e/ou da educação básica (infantil, fundamental e médio). Para ilustrar instâncias desses conceitos: a Escola Estadual de Ensino Fundamental Manuel Lopes é uma instância de Escola, possui Categoria Administrativa pública estadual, e é uma Instituição Nível fundamental. No módulo Socioeconômico (em azul), o principal conceito é de Pessoa, que apresenta algumas características que podem ser úteis para a identificação de padrões de evasão escolar: Cor, Estado Civil, Idade, Gênero e Renda. Por exemplo, Maria da Silva é uma instância de Pessoa, que possui Estado Civil solteira, Cor parda, Renda per capta de R$ 1200, Idade de 13 anos e Gênero feminino. No módulo Acadêmico (em verde), os principais conceitos são Turma, Aluno e Matrícula. A turma pode ser Turma da Educação Básica ou Turma da Educação Superior, é formada Figura 2: Ontologia de Evasão Escolar. por um conjunto de Alunos e possui Diários para os seus Componentes Curriculares. Os diários são os locais onde se fazem Registros de Notas e Registros de Frequências dos alunos da turma. Como instâncias desses conceitos tem-se por exemplo, Turma da educação básica 6º ano A, que tem como um de seus Alunos Maria da Silva e possui o Diário 23297 do Componente Curricular Matemática, neste diário há um Registro de Nota 9,5 para Maria da Silva em uma atividade avaliativa. Aluno é o papel (role) que uma Pessoa assume ao fazer Matrícula em uma Instituição Edu- cacional. A Matrícula é responsável por estabelecer uma relação (relator) de vínculo entre o Aluno e a Instituição Educacional, e possui uma Situação de Matrícula (Desvinculado do curso, Formado, Matriculado), por meio da qual se saberá, por exemplo, se um aluno evadiu ou concluiu. Por fim, o conceito Probabilidade de Evasão foi adicionado à ontologia como uma forma de representar os resultados das predições realizadas pelo modelo de ML, complementando o modelo e permitindo um suporte na aplicação de ML e outras técnicas. Figura 3: Exemplo de como é realizado o mapeamento dos dados para ontologia. As definições dos conceitos da Ontologia de Evasão Escolar e suas respectivas referências estão disponíveis nesta página1 . 3.2. Mapeamento dos dados para a ontologia Como fontes de dados para a aplicação foram utilizados microdados do ano base 2019, da Plataforma Nilo Peçanha (PNP)2 e do Censo da Educação Superior do INEP3 . Os dados da PNP do ano base de 20204 foram utilizados como referência a dados atuais, base para o qual são realizadas as predições e gerados os resultados. Foi definido um padrão de mapeamento dos dados para os conceitos da ontologia, em que, inicialmente, a estrutura dos dados de cada fonte foi estudada para melhor compreensão. Em seguida, em cada base de dados (PNP e Censo), para cada conceito, foi identificado o dado com a semântica correspondente (os termos foram utilizados como apoio para encontrar as correspondências, mas elas são definidas pelo significado do dado/conceito). A Figura 3 ilustra o mapeamento. Neste processo de mapeamento, é gerado manualmente um arquivo para cada fonte de dados no formato CSV (comma-separated values), que foi selecionado por ser mais adequado aos algoritmos a serem aplicados. Assim, como resultado do mapeamento, para cada origem de dados é gerado um arquivo, no qual a primeira coluna é o índice do dado na sua origem e a segunda coluna é o respectivo conceito ou propriedade da ontologia. Na Figura 3 estão representados alguns dados da PNP (na tabela) mapeados para conceitos da Ontologia de Evasão Escolar. As setas representam os mapeamentos entre a fonte de dados e a 1 Conceitos da Ontologia de Evasão Escolar: https://github.com/ontologia/conceitos-evasao-escolar/wiki/ Conceitos-da-Ontologia-Evas%C3%A3o-Escolar---v2 2 Microdados PNP ano base 2019: http://dadosabertos.mec.gov.br/pnp/item/118-2019-microdados-matriculas 3 Censo Educação Superior ano base 2019: https://www.gov.br/inep/pt-br/acesso-a-informacao/dados-abertos/ microdados/censo-da-educacao-superior 4 Microdados PNP ano base 2020: http://dadosabertos.mec.gov.br/pnp/item/134-2020-microdados-matriculas ontologia, com os números representando os índices das colunas de dados em sua fonte. Por exemplo, o campo Código de Matrícula é mapeado para o conceito Aluno, pois é o identificador do aluno no domínio. Se um aluno possuir mais de uma matrícula ao longo do tempo, haverá duas instâncias do role Aluno. Já o campo Data de Matrícula é mapeado para o relator Matrícula. De posse dos dados e dos arquivos de mapeamento é possível gerar os repositórios de instâncias da ontologia. Para isso foi desenvolvida uma aplicação que executa o passo 4 da abordagem, Transformar Dados, gerando os repositórios padronizados pela ontologia. Importante ressaltar que para cada origem de dados será gerado um repositório com o schema padronizado pela ontologia. As duas bases utilizadas para o experimento possuem grandes volumes de dados, reunindo informações de diversas instituições de ensino do Brasil, por isso foi importante a definição de uma arquitetura de alto desempenho para a criação dos repositórios. 3.3. Treinamento e Avaliação de Modelos de ML Uma vez que os dados das múltiplas fontes estão uniformizados e integrados com base na ontologia, eles são utilizados na etapa 5 para treinar e avaliar algoritmos de ML. Os algoritmos recebem como entrada os dados socioeconômicos e de contexto acadêmico de um estudante e geram como saída uma classificação indicando se a previsão é de o aluno evadir ou não. Tais predições foram obtidas a partir de dados históricos das instituições. Os experimentos foram realizados de forma independente usando as bases de dados da PNP e do Censo. Para cada base, os dados de um ano foram utilizados para treinamento e avaliação dos modelos, e dados do ano seguinte para demonstração de seu uso. O código-fonte desta etapa foi desenvolvido usando a linguagem de programação Python e a biblioteca scikit-learn [29]. A validação cruzada aninhada [30] foi utilizada para busca de hiperparâmetros e avaliação dos modelos. São exemplos de hiperparâmetros o número de k vizinhos mais próximos, utilizados pelo algoritmo KNN, e o número m de árvores de decisão presentes no algoritmo Boosting. Apesar de ter um maior custo computacional, essa validação leva a uma estimativa mais correta da performance dos modelos em um ambiente de produção. Nesta técnica, é realizado um primeiro nível de K-Fold cross validation em que a cada iteração um fold é utilizado como conjunto de teste e os demais como treinamento. Para cada conjunto de teste, é realizado um segundo nível de K-Fold cross validation sobre os dados separados para treinamento. A cada iteração do segundo nível, um fold é utilizado como conjunto de validação e os demais como treinamento. O objetivo do segundo nível é selecionar os hiperparâmetros que maximizem a performance média nos folds de validação [30]. Ao final do loop interno (o segundo nível), o conjunto completo de treinamento e os hiperparâmetros são utilizados para treinar os modelos que, em seguida, são avaliados usando o conjunto de teste. As métricas reportadas são as médias dentre os folds de teste. É importante enfatizar que os dados de teste permanecem intocados pelo loop interno. Um conjunto de preprocessamentos foi aplicado sobre os atributos oriundos dos conceitos do domínio: dados faltantes foram preenchidos utilizando a moda dos valores; para substituição de dados categóricos foram realizados experimentos com OneHotEncoder e com OrdinalEncoder (a primeira estratégia aumenta a dimensão dos dados e não apresentou melhoria no desempenho, portanto foram substituídos por números inteiros); foi realizada uma operação de normalização para mapear os valores para o intervalo [0, 1]; por fim, foram selecionados atributos com maior (a) PNP (b) Censo Figura 4: Tabelas de métricas score em um Teste F usando as anotações [31]. Os parâmetros de preprocessamento foram obtidos no loop interno da validação cruzada aninhada. Os algoritmos de ML avaliados foram KNN, Decision Trees, Bagging, Random Forests, Extra Trees, AdaBoost e Gradient Boosting [31]. A maioria desses modelos são ensembles de Decision Trees que são conhecidos por exibirem bom desempenho com dados tabulares [32, 33]. Ensembles combinam modelos de forma a obter resultados melhores do que aqueles que seriam alcançados individualmente [33]. Uma diversidade de projeções (seleções) sobre os atributos, seleções de amostras de treinamento e técnicas de fusão das predições dos modelos podem ser utilizadas para alcançar este objetivo. Os algoritmos de ML foram avaliados utilizando matrizes de confusão e as métricas derivadas accuracy, precision, recall e f1-score [31], com os melhores resultados estão indicados em verde na Figura 4. Ela apresenta os valores das métricas para cada algoritmo, sendo que a Tabela 4a se refere a uma instituição educacional da base da PNP e a Tabela 4b se refere a uma instituição da base do Censo. Importante ressaltar que com a mesma aplicação desenvolvida para empregar as técnicas de ML, foi possível gerar os modelos para as duas fontes de dados, pois as técnicas são aplicadas sobre os repositórios que estão padronizados pela ontologia. Após o treinamento e a avaliação preliminar dos modelos, um deles foi selecionado e utilizado para predição da evasão usando dados atuais de uma instituição da base PNP. O algoritmo Bagging foi selecionado porque é um dos que obteve um melhor desempenho considerando a métrica f1-score, que é indicada para bases desbalanceadas. Essa métrica é a média harmônica entre a precisão e a revocação, métricas que valorizam os acertos de alunos que de fato evadiram. O modelo selecionado é utilizado para calcular a probabilidade da evasão escolar para cada aluno da base. Esses dados são inseridos no repositório por meio do conceito Probabilidade de Evasão que foi adicionado na ontologia com essa finalidade. Assim, após a aplicação do modelo de ML, o repositório é consultado para gerar um relatório que permite visualizar quem são os alunos que o modelo está apontando com risco de evasão e quais as probabilidades disso acontecer segundo o modelo. A Figura 5 apresenta uma visão deste relatório. As colunas do relatório consistem em conceitos da Ontologia de Evasão Escolar, e os dados são instâncias desses conceitos. Por exemplo, na primeira linha do relatório tem-se o Aluno de identificação 87799278 de Gênero M (masculino) e Idade de 64 anos, possui Renda familiar per Figura 5: Amostragem do relatório de resultados das predições de evasão. capita 1