=Paper=
{{Paper
|id=Vol-2733/paper20
|storemode=property
|title=Métodos de Machine Learning Aplicados no Cenário da Educaçáo a Distância Brasileira (Machine Learning Techniques Applied to the Brazilian Distance Education)
|pdfUrl=https://ceur-ws.org/Vol-2733/paper20.pdf
|volume=Vol-2733
|authors=Charles Nicollas C. Freitas,Roberta M. M. Gouveia,Rodrigo G. F. Soares
|dblpUrl=https://dblp.org/rec/conf/siie/FreitasGS20
}}
==Métodos de Machine Learning Aplicados no Cenário da Educaçáo a Distância Brasileira (Machine Learning Techniques Applied to the Brazilian Distance Education)==
Métodos de Machine Learning Aplicados no Cenário da Educação a Distância Brasileira Charles Nicollas C. Freitas Roberta M. M. Gouveia Rodrigo G. F. Soares Departamento de Estatı́stica e Informática - DEINFO DEINFO - UFRPE DEINFO - UFRPE Universidade Federal Rural de Pernambuco - UFRPE Recife-PE, Brasil Recife-PE, Brasil Recife-PE, Brasil roberta.gouveia@ufrpe.br rodrigo.gfsoares@ufrpe.br cnicollas21@hotmail.com Abstract—Tackling student evasion has been a major challenge tional Data Mining - EDM, Machine Learning (ML), Banco for the Brazilian Educational System. In the last few years, there de Dados, estatı́stica, dentre outras que compõem a base de has been an increasing interest in Distance Education to address conhecimento utilizada na análise de dados educacionais. such an important issue. This new paradigm facilitates the attendance of students who have difficulties in attending classes Este trabalho aplica o processo Knowledge Discovery in in person due to work, geographical or socioeconomic reasons. Databases (KDD), também conhecido como Descoberta de However, Distance Education has also shown a growing number Conhecimento em Bases de Dados, com intuito de encontrar of evading students. To tackle Distance Education evasion, padrões de comportamento e descobrir novos conhecimentos we propose the use of Data Mining and Machine Learning em bases de dados educacionais. A motivação do estudo surge techniques to predict the number of students at risk of evasion. Such an approach might help Education Institutions to quantify, do interesse em adquirir regras significativas, na tentativa plan and develop solutions to this problem. Our work employs de melhor compreender algumas adversidades da educação Decision Trees, Bootstrap Aggregating Ensemble, Multilayer superior, enfrentados na modalidade a distância. Assim, os Perceptron and Support Vector Machines to produce accurate resultados desse estudo podem ser úteis para profissionais estimates of evading students in Higher Education Institutions envolvidos com a implementação de métodos de Mineração de that have Distance Education programs. Our experiments showed that our approach could deliver good generalization Dados - MD, do inglês Data Mining, no contexto da Educação performance. a Distância (EaD). Inicialmente foi realizado um levantamento acerca de traba- Resumo—Combater a evasão de alunos tem sido um grande lhos relacionados com EaD e as áreas interdisciplinares elen- desafio para o Sistema Educacional Brasileiro. Nos últimos anos, cadas acima. Em seguida, focou-se na obtenção e tratamento tem havido um interesse crescente pela Educação a Distância para lidar com tal problema. Esse novo paradigma facilita dos dados, dando seguimento à etapa de pré-processamento, o atendimento a alunos que têm dificuldade em frequentar finalizando com aplicação de técnicas e algoritmos de Data as aulas presencialmente por motivos laborais, geográficos ou Mining para descoberta de novos conhecimentos e detecção socioeconômicos. No entanto, a Educação a Distância também de padrões nos dados. Diante desse contexto, o objetivo do tem mostrado um número crescente de alunos evadidos. Para trabalho consiste em aplicar o processo KDD para traçar enfrentar a evasão na Educação a Distância, propomos o uso de técnicas de Data Mining e Machine Learning para prever o o perfil da EaD em uma universidade pública brasileira, número de alunos em risco de evasão. Tal abordagem pode ajudar com vista à obtenção de um melhor entendimento acerca de as instituições de ensino a quantificar, planejar e desenvolver estudantes e cursos realizados em ambientes e-learning. soluções para este problema. Nosso trabalho emprega Árvores de A busca por uma educação além do limite espaço-tempo, Decisão, Bootstrap Aggregating Ensemble, Multilayer Perceptron que visa transformar e evoluir o processo tradicional de e Support Vector Machines para produzir estimativas precisas de evasão de alunos em instituições de ensino superior com progra- aprendizagem, é uma das propostas da EaD [1]. O conceito mas de Educação a Distância. Nossos experimentos mostraram formal de EaD, definido pelo Secretaria de Educação Superior que nossa abordagem pode fornecer um bom desempenho de (SESu) do Ministério da Educação (MEC), está presente no generalização para a predição de evasão. Decreto no 5.622, 19.12.2005, que regulamenta o Art. 80 da Index Terms—Educational Data Mining, Machine Learning, Lei 9394/96, Lei de Diretrizes e Bases da Educação Nacional Knowledge Discovery in Databases, Educational Systems, Algo- - LDB. De acordo com o MEC, a EaD é definida como rithms [2]: ”A modalidade educacional na qual a mediação didático- pedagógica nos processos de ensino e aprendizagem ocorre I. I NTRODUÇ ÃO com a utilização de meios e tecnologias de informação e As tecnologias de informação e comunicação, quando bem comunicação, com estudantes e professores desenvolvendo utilizadas, tornam-se um diferencial para instituições edu- atividades educativas em lugares ou tempos diversos.” cacionais que buscam excelência em sua atuação. Este ar- A internet e os softwares educacionais de suporte ao tigo insere-se nas áreas interdisciplinares de Data Science, processo de ensino-aprendizagem surgiram como potenci- Mineração de Dados Educacionais - MDE, do inglês Educa- alizadores da EaD, dando inı́cio ao termo e-learning, ou Copyright © 2020 for this paper by its authors. Use permitted under Creative Commons License Attribution 4.0 International (CC BY 4.0). aprendizagem eletrônica, que especifica a EaD realizada por meio de plataformas computacionais e Ambientes Virtuais de Aprendizagem - AVA. Vale destacar que existe uma sutil diferença entre os termos EaD e e-learning, já que a EaD pode ser realizada sem o suporte eletrônico, enquanto e- learning necessita do suporte eletrônico [3]. Assim, nesse trabalho é utilizado o termo Educação a Distância de forma genérica, tanto para referenciar a EaD tradicional (sem o suporte eletrônico), como e-learning (com suporte eletrônico), ou seja, EaD designando a modalidade de ensino a distância independentemente da mı́dia que a suporta. Embora tenha aumentado o número de instituições educa- cionais que aderiram à EaD em seus cursos de graduação Fig. 1. Principais áreas relacionadas com EDM. e especializações, o Brasil ainda está em fase de transição nessa modalidade, visto que algumas delas estão se limitando a reproduzir para o ambiente virtual pequenas adaptações do en- O artigo está organizado como segue: a seção 2 tem o ob- sino presencial. Em alguns casos, as aulas são disponibilizadas jetivo de contextualizar o problema e os métodos de Machine do ensino presencial para o virtual sem qualquer alteração Learning usados no trabalho. Na seção 3 são descritos os didático-pedagógica nos processos de ensino-aprendizagem. experimentos realizados. A seção 4 apresenta os resultados Essas práticas contribuem para aumentar os ı́ndices de evasão e suas respectivas análises. Por fim, as conclusões e possı́veis e retenção dos estudantes. trabalhos futuros são apresentados na seção 5. A Mineração de Dados Educacionais utiliza técnicas de MD para explorar dados oriundos de contextos educacionais, II. M ETODOLOGIA sendo aplicada nos seguintes domı́nios: (I) Educação Offline: A aplicação do Data Mining visa encontrar o perfil do para análises de dados de desempenho e comportamento dos estudante e detectar ineficiências da EaD, que por sua vez estudantes, bem como análises de currı́culo/histórico escolar, desestimulam os alunos a prosseguirem nos cursos. Os resul- ou seja, dados gerados em ambientes de sala de aula; (II) tados obtidos com Data Mining são utilizados a fim de detectar Aprendizagem Eletrônica, mais conhecida como e-learning, padrões, descobrir regras significativas e estabelecer relações e Sistema de Gestão da Aprendizagem, do inglês Learning entre os ı́ndices de evasão e retenção, o perfil socioeconômico Management System - LMS: para análise de dados armazena- dos alunos e as caracterı́sticas inerentes da EaD. Ao consta- dos em sistemas LMS no formato de logs e bases de da- tar tais relacionamentos e pontos fracos, ações poderão ser dos; (III) Sistemas Tutores Inteligentes, do inglês Intelligent tomadas, por parte da instituição, para eliminá-las, buscando Tutoring System - ITS, e Sistemas Hipermı́dias Adaptativos reduzir os altos ı́ndices de evasão constatados na modalidade Educacionais, do inglês Adaptive Educational Hypermedia a distância. System: os quais são aplicados sobre dados de sistemas que A principal relevância da pesquisa no desenvolvimento se adaptam ao percurso de cada estudante no ambiente virtual cientı́fico e tecnológico refere-se ao fato do trabalho propor de aprendizagem [4]. uma análise do cenário da EaD, por meio do processo com- Conforme ilustra a “Fig. 1”, a EDM é a combinação putacional de descoberta de conhecimento em bases de dados, de 3 (três) principais áreas de conhecimento: Ciência da utilizando técnicas de classificação de padrões. Computação, Educação e Estatı́stica. A interseção dessas áreas Foram obtidos dados acadêmicos de uma Instituição Federal fornece três subáreas, que são: e-learning, Data Mining e de Ensino Superior (IFES) para análise pontual e concreta Machine Learning, e Learning Analytics. da educação a distância. Os dados dos estudantes da EaD A área interdisciplinar de Mineração de Dados Educacionais referem-se a um perı́odo de 8 anos, e foram obtidos nos vem se consolidando na última década, tendo vários pa- formatos txt e xlsx, sendo em seguida, consolidados em um pers publicados em revistas e conferências relevantes. Alguns arquivo csv. A pesquisa é baseada no anonimato, por isso pesquisadores realizaram levantamentos detalhados acerca da não foram obtidas informações como nome e CPF, visando MDE, sendo fontes de referências recomendadas [4], [5], [6], preservar as identidades dos alunos. Foram obtidos dados [7], [8]. Na literatura existem vários trabalhos relacionados à dos seguintes cursos: Licenciatura em Letras; Licenciatura em aplicação de técnicas de MD e ML no contexto educacional Pedagogia; Licenciatura em Computação e Bacharelado em [9], [10], [11], [12], [13], [14], [15], [16], [17], [18], [19], Administração Pública. [20], [21]. Esses artigos trazem excelentes contribuições sobre Os dados obtidos foram de contexto histórico, para uma aplicações de algoritmos de mineração de dados, tanto no análise distintiva da evolução da EaD na instituição, sendo cenário da educação presencial, quanto em ambientes virtuais obtidos as seguintes informações: (I) Histórico Escolar; (II) de aprendizagem da educação a distância. São reflexões fun- Dados gerais sobre o aluno, tais como: Forma de ingresso; damentadas sobre os desafios da educação, especialmente em Perı́odo de ingresso; Curso; Área de Conhecimento; Polo; instituições públicas de ensino superior. Modalidade (licenciatura, bacharelado, tecnólogo etc.); Idade; Gênero/Sexo; Estado Civil; Naturalidade; Nacionalidade; Et- métodos de árvore de decisão e redes neurais. Devido a sua nia/Raça (cor da pele); Deficiência; Situação Acadêmica simplicidade e o alto poder preditivo, é um dos algoritmos (Cursando, Concluı́do, Abandono etc.); (III) Dados Socioe- mais utilizados. O algoritmo Naive Bayes parte do princı́pio conômicos, tais como informações sobre ensino fundamental e que não exista relação de dependência entre os atributos, no médio (tipo de escola); Renda familiar; Trabalho remunerado; entanto, nem sempre isto é possı́vel [22]. Se possui computador em casa; Acesso à internet etc. A técnica de Redes Neurais é muito utilizada em tarefas de Esses dados são essenciais para compreender quais são classificação, regressão e segmentação. Os dados são trabalha- as potenciais deficiências e obstáculos enfrentados pelos do- dos com base no funcionamento do cérebro humano, apren- centes, estudantes e gestores, como também ter um entendi- dendo a tomar decisões baseadas nas experiências anteriores mento sobre os estudantes da modalidade a distância em (nas instâncias anteriores dos dados). Os neurônios do cérebro uma IFES, afinal o principal objetivo é obter um respaldo são representados por nodos que estão conectados em outros cientı́fico necessário para detectar padrões e descobrir regras nodos por sinapses, formando uma rede de processamento. significativas sobre os ı́ndices de evasão e retenção em cursos a Os valores das entradas são multiplicados nos neurônios pelos distância, adquirindo um melhor entendimento acerca da EaD pesos de suas sinapses, conforme vão percorrendo a rede. Ao no cenário brasileiro. final, temos uma classificação ou a previsão da entrada [23]. As árvores de decisão têm como objetivo principal dividir A. Métodos de Machine Learning as instâncias em classes. Cada nó da árvore testa o domı́nio Os algoritmos de Data Mining interpretam os dados a fim de uma variável de entrada e o redireciona para o nó seguinte. de produzir uma quantidade de padrões úteis, válidos e de fácil Cada sub-árvore representa o resultado de um teste e a folha é entendimento. Os resultados gerados podem ser usados para a classificação que aquele registro recebeu. Ao final, cada nó predições e têm por finalidade conduzir a tomadas de decisões terminal terá os registros da entrada que se adéquam às regras inteligentes. O fator humano faz parte de todo o processo, por regidas por esse nó, representando assim, uma classe [23]. isso não pode ser uma ação totalmente automatizada. Os classificadores ensembles, comitê de especialistas, predi- Os algoritmos de mineração de dados favorecem a extração zem a classe de um registro elegendo a maioria dos votos feitos de informações de grandes volumes de dados, e a análise pelos classificadores base. Para isso, deve-se evitar: subcon- estatı́stica desses dados permite que se observem tendências juntos idênticos (os erros serão os mesmos), e subconjuntos e respostas para situações diversos, tais como: encontrar e disjuntos (erros não correlacionados). Para que a performance detectar cursos onde as evasões são mais frequentes; determi- de um método ensemble seja melhor que a de um classificador nar perfis (comportamentos tı́picos), e associar categorias de simples, os classificadores base devem ser independentes, e alunos e cursos com caracterı́sticas de sucesso na EaD; elen- devem ter performance melhor que um random guessing [11]. car dificuldades frequentemente enfrentadas pelos docentes e Os dois tipos de ensembles escolhidos neste trabalho foram: discentes da EaD; identificar nos AVAs as disciplinas com alto Bagging e Adaboost. ı́ndice de reprovação e suas causas etc. O Support Vector Machines é baseado no conceito de planos Alguns pré-requisitos são essenciais para o sucesso da de decisão que definem limites de decisão (Vetor Suporte). Um mineração de dados, por isso foram construı́dos modelos plano de decisão separa um conjunto de objetos com diferentes baseados em metas preditivas e descritivas. Diante das metas associações de classe. SVM é essencialmente um método preditivas, tem-se, por exemplo, a utilização da tarefa de classificação que executa tarefas de classificação através da Classificação por Árvore de Decisão. construção de hiperplanos em um espaço multidimensional Dentre os vários métodos de Machine Learning disponı́veis que separa casos de diferentes rótulos de classe. Ele suporta na literatura, cinco deles se mostram adequados aos resultados ambas as tarefas de regressão e de classificação e pode pretendidos por este estudo. Os métodos aplicados foram: lidar com múltiplas variáveis contı́nuas. Para construir um Classificação por Árvore de Decisão, Classificação Bayesiana, hiperplano ótimo, o SVM emprega um algoritmo iterativo de Classificação por Redes Neurais, Classificação por Ensembles formação, que é usado para minimizar uma função de erro e Classificação por Support Vector Machine - SVM, todos [24]. inerentes ao Aprendizado Supervisionado. Os algoritmos de Há um número de núcleos que podem ser usados em classificação utilizados foram: NaiveBayes, J48 (árvore de modelos Support Vector Machines. Estes incluem linear, poli- decisão), MultilayerPerceptron - que implementa o backprop- nomial, função radial base (RBF) e sigmóide. Estas funções de agation para classificação (Redes Neurais), LibSVM (SVM), núcleo representam um produto de ponto de pontos de dados Bagging e AdaBoost (Ensembles). de entrada mapeado para o maior espaço de caracterı́sticas A Classificação Bayesiana (Bayesian Classification) é uma dimensionais por transformação. técnica estatı́stica (probabilidade condicional) baseada no teo- Nem todas as regras geradas pelo Data Mining são conside- rema de Thomas Bayes. Segundo o teorema de Bayes, é radas relevantes para o processo de extração do conhecimento possı́vel encontrar a probabilidade de certo evento ocorrer, em banco de dados, visto que o especialista precisa interpretá- dada a probabilidade de outro evento que já ocorreu. Com- las no contexto em que está inserido e só depois aplicá-las, parativos mostram que os algoritmos Bayesianos, chamados afinal o fator humano também faz parte do processo. Desta de Naive Bayes, obtiveram resultados compatı́veis com os forma, o especialista do negócio precisa avaliar as regras para que o resultado seja aplicável na prática. permite avaliar subconjuntos de atributos em dados de treina- mento ou um conjunto de testes independente. Utiliza um III. E XPERIMENTOS classificador para estimar a ”mérito” de um conjunto de Com o objetivo de verificar a adequação do conjunto atributos. Junto ao CSE foi utilizado um método de pesquisa de de dados propostos, foram realizados experimentos com a atributos BestFirst, que auxilia na busca por um subconjunto base de dados citada anteriormente, contendo informações de atributos que represente a base original. Foi escolhida de estudantes em quatro cursos realizado a distância. Foram a direção Forward, que começa com o conjunto vazio de desenvolvidos procedimentos para extração dos atributos con- atributos e procura para frente, considerando todas as possı́veis siderados significativos para este trabalho. adições de atributos individuais e deleções em um determinado ponto, no caso o searchTermination que é o parâmetro de A. Pré-Processamento parada do método, sendo o valor 5 escolhido nesse trabalho. Para se ter uma visão geral preliminar dos dados, se Após a realização da etapa anterior, foram selecionados 20 configura uma boa prática fazer inicialmente uma análise atributos dos 214 da base original, isto significa que estes descritiva dos dados, também conhecida como análise ex- atributos representam melhor a base original em termos de ploratória dos dados. Neste diagnóstico inicial, medições são generalização do problema. Dentre os atributos selecionados, feitas sobre os atributos dos dados como média/mediana, tem-se as seguintes informações sobre os estudante: nome do desvio padrão, valor mı́nimo, máximo, outliers, entre outros curso, área de conhecimento, polo, ano de ingresso, status . Estas medidas auxiliam no encaminhamento da solução acadêmico, estado civil, idade, naturalidade (estado), tipo de de pré-processamento a ser adotada e também, em caso de deficiência, tipo de escola do ensino médio, tipo de escola valores ausentes já será possı́vel verificar a sua existência e, do ensino fundamental, se possui internet, se possui trabalho consequentemente a sua solução. remunerado e média geral. Valores ausentes, ou missing values , são atributos que não tem valores preenchidos. O tratamento pode ser feito pela B. Avaliação dos Modelos de Machine Learning simples remoção do atributo (em caso de grande incidência) ou do exemplar (em caso de poucas ocorrências). Ou ainda O objetivo principal do experimento é verificar a relevância o valor pode ser substituı́do por uma constante calculara pela dos atributos elencados acima, bem como analisar o impacto média, mediana, valor máximo ou mı́nimo. Outro tratamento da aplicação de técnica de seleção de atributos na acurácia da que pode ser diagnosticado na análise descritiva são os valores previsão de desempenho dos seis classificadores. A acurácia ruidosos ou que estão fora do padrão (outliers). Este tipo de é a proporção entre o número de estudantes corretamente situação ocorre quando surge algum exemplar com valor de classificados pelos algoritmos em sua respectiva classe, e o atributo que foge de um padrão. Por fim, um cenário que número total de estudantes considerados no estudo. surge tipicamente quando se faz integração de dados é a Para o desenvolvimento deste trabalho foram utilizados seis inconsistência de valores. A inconsistência ocorre quando há algoritmos de classificação, como descritos anteriormente, que falta de um critério bem definido entre os valores dos atributos são eles: MultilayerPerceptron (MLP), NaiveBayes, SVM, J48, ou dos exemplares. Adaboost e Bagging. Para auxiliar na avaliação dos resultados A normalização de valores consiste em uma técnica para e o cálculo da acurácia utilizou-se o método K-fold Cross- deixar os valores dos atributos em uma mesma escala. Abor- Validation, que consiste em uma técnica para a estratificação dagem de solução comum é calcular o valor máximo de um da base dados em conjunto de treinamento e teste. Geralmente, atributo para dividi-lo aos demais exemplares com mesmo sugere-se a adoção de k igual a 10 como valor padrão para o atributo. A normalização faz parte de um tratamento chamado número de partições dos dados [25]. transformação de valores que ainda compreende a mudança O primeiro experimento corresponde à seleção dos me- de tipos categóricos para numéricos. No caso do gênero, por lhores parâmetros definidos a priori para cada um dos seis exemplo, atributo nominal, como são apenas dois valores, eles algoritmos. O processo de avaliação de desempenho de cada poderiam ser transformados para binário 0 e 1. No entanto, combinação de parâmetros se baseia no método descrito ante- deve-se ter cuidado para não transformar um atributo nominal riormente, sendo 30 parâmetros para MLP, SVM e Bagging, 18 em ordinal no processo de transformação, isto é, o valor não parâmetros para J48, 6 parâmetros para Adaboost, e nenhum pode ideia de ordem. parâmetro para NaiveBayes. Assim é possı́vel definir quais Finalmente, foi feita a seleção de atributos na fase de são os melhores parâmetros de cada algoritmo, para posteri- pré-processamento. Dentre as causas que levam a se fazer ormente definir qual a porcentagem de assertividade de cada este tipo de análise, tem-se: integração de bases, falta de um deles. definição clara de atributos que representam um problema, Os gráficos apresentados na “Fig. 2” destacam os resultados grande disponibilidade de dados e outras. A seleção consiste obtidos no experimento de seleção de parâmetros por modelo, basicamente em escolher o melhor conjunto de dados que demonstrando a precisão dos algoritmos para predizer o de- representam a base original com a mesma capacidade analı́tica. sempenho em cada combinação de parâmetros. O resultado Para a realização da seleção de exemplares foi utilizado apresentado, no eixo vertical, corresponde a um valor médio o método Classifier Subset Evaluator (CSE). Este método obtido para as combinações de parâmetros, onde foram se- lecionados os melhores parâmetros de cada algoritmo para a a técnica de otimização de parâmetros empregada no experi- realização do segundo experimento. mento 1, obteve os melhores resultados em termos da taxa acurácia. Destaca-se que nos seis classificadores utilizados neste experimento esta tendência pode ser observada. Um aspecto a ser destacado, a partir dos testes realizados, aponta para a viabilidade da utilização de um conjunto am- plo de atributos para representação do perfil dos estudantes, potencialmente generalizáveis a diversos cenários de cursos EAD. Tomando-se como base o experimento 2, observou-se que o algoritmo J48 apresentou melhor classificação, com taxa de acerto de 90,35% e 0,28 de desvio padrão. Já o algoritmo Adaboost apresentou menor acurácia, 87,35%, e maior desvio padrão (0,59). Os resultados obtidos demonstram que os al- goritmos Bagging, MultilayerPercepetron, J48 e SVM podem ser utilizados para realizar inferências em relação aos ı́ndices de evasão dos alunos, por possuı́rem taxa de acurácia acima da média geral (89,51%) de todos os algoritmos analisados. Apesar do desbalanceamento do atributo classe (Situação Acadêmica), a medida de desempenho utilizada neste trabalho (Taxa de Acurácia) está coerente com as demais métricas da matriz de confusão, a saber: Precision, Recall, F-Measure, e AUC - Area Under the ROC Curve. A partir dos resultados dos experimentos foi possı́vel adquirir o respaldo cientı́fico necessário para detectar padrões e descobrir regras significativas na tentativa de melhor com- preender a EaD, esta que, por sua vez, exige inovação e infraestrutura tecnológica, além de apoio ao estudante em Fig. 2. Experimento de seleção de parâmetros por modelo. nı́veis mais elevados, em comparação à modalidade presencial. Conforme relatório analı́tico do Censo da EaD no Brasil, Para o experimento 2, foram utilizados todos os melhores 53% dos estudantes brasileiros da modalidade a distância são parâmetros obtidos no experimento 1. Com o objetivo de testar mulheres, com 39,3% entre 26-30 anos. Aproximadamente a significância estatı́stica dos resultados obtidos, utilizou-se a 70% das instituições privadas e públicas federais contam com técnica de teste estatı́stico pair-wise T-Test [25], com nı́vel estudantes que, em sua maioria, estudam e trabalham. Em se significância de 5%. tratando das taxas de evasão reportadas nos cursos a distância, A Tabela I apresenta o resumo com os resultados do O Censo da EaD registra uma evasão de 26% a 50% – segundo experimento executado. Nela, constam o percentual alertando que a desistência dos estudantes da EaD é maior em de acurácia médio e o desvio padrão dos seis algoritmos comparação aos cursos presenciais. As instituições apontam o analisados. Como o desvio padrão refere-se a quantidade de fator tempo como o mais influente no fenômeno da evasão, variação (dispersão) dos dados dentro da amostra em relação seguido do fator financeiro [26]. à média, então um baixo valor para desvio padrão indica que V. C ONCLUS ÕES a amostra tende a ser mais homogênea. O trabalho pretende provocar interesse em instituições, TABLE I pesquisadores e profissionais envolvidos com a implementação ACUR ÁCIA M ÉDIA E DESVIO PADR ÃO DOS CLASSIFICADORES . e utilização de sistemas de informações gerenciais de apoio Adaboost J48 Bagging à decisão no contexto da EaD. Tais tecnologias se propõem Acurácia em fornecer indicadores de qualidade às IFES, proporcionando 87,35 (0,59) 90,35 (0,28) 90,33 (0,31) (Desvio Padrão) tomadas de decisões que visam, dentre outras ações, a redução MLP SVM NaiveBayes da evasão e retenção de estudantes e, consequentemente, a Acurácia melhoria da EaD. 89,85 (0,57) 89,91 (0,38) 89,31 (0,56) (Desvio Padrão) A metodologia foi fundamentada no processo KDD, que por sua vez propõe encontrar e interpretar padrões/regras mediante integração de diversas fontes de dados, sendo proposto para IV. A N ÁLISE DE R ESULTADOS determinar as etapas que produzem conhecimentos a partir Avaliando os resultados obtidos percebe-se que a utilização dos dados e, principalmente, definir a etapa de Data Mining do conjunto completo de atributos proposto, juntamente com [27]. O objetivo é extrair de bases de dados, sem nenhuma formulação prévia de hipóteses, informações desconhecidas a [10] Brandão, J. O. S.; Silva, A. J.; Gouveia, R. M. M.; Soares, R. G. F. priori, factı́veis, válidas e acionáveis, que poderão ser úteis Aprendizagem de Máquina para Predição de Desempenho de Estudantes de Graduação na UFPE. In: Brazilian Conference on Intelligent Systems para a tomada de decisão [28], [29]. (BRACIS) – XIV Encontro Nacional de Inteligência Artificial e Com- Por meio da análise do histórico acadêmico e perfil socioe- putacional (ENIAC), 2017. conômico de estudantes, uma instituição educacional pode ser [11] E. A. Amrieh, T. Hamtini, I. Aljarah. Mining educational data to predict student’s academic performance using ensemble methods. International capaz de acompanhar o rendimento acadêmico do discente, Journal of Database Theory and Application, v. 9, n. 8, p. 119-136, verificando se ele possui potencial para se evadir ou não do 2016, doi: http://dx.doi.org/10.14257/ijdta.2016.9.8.13 curso. Tendo esse conhecimento prévio, as instituições de [12] C. N. Freitas, R. M. M. Gouveia, A. Silva. Online Analytical Processing em ambientes virtuais de aprendizagem da educação a distância. In: ensino superior poderão avaliar as necessidades individuais do DesafIE - Workshop de Desafios da Computação Aplicada à Educação aluno, e assim, agir de maneira proativa e mais efetiva para – XXXV Congresso da Sociedade Brasileira de Computação, 2015. que o estudante possa continuar sua graduação. [13] L. A. Silva; A. H. Morin; T. M. C. Sato. Práticas de Mineração de Dados no Exame Nacional do Ensino Médio. In: Congresso Brasileiro Com os resultados dos experimentos realizados neste tra- de Informática na Educação – Workshop de Mineração de Dados em balho, é possı́vel a obtenção de indicadores a serem im- Ambientes Virtuais do Ensino/Aprendizagem, 2014. p. 651-660. plementados em ambientes virtuais de aprendizagem para a [14] R. Baker, S. Isotani, A. Carvalho. Mineração de dados educacionais: oportunidades para o Brasil. Revista Brasileira previsão de ı́ndice de evasão de estudantes. Estes indicadores de Informática na Educação, v. 19, n. 02, p. 03, 2011, podem ser melhorados à medida que a base de dados de doi:http://dx.doi.org/10.5753/rbie.2011.19.02.03 treinamento for aumentando. Portanto, o trabalho viabilizou [15] A. J. C. Kampff. Mineração de dados educacionais para geração de a avaliação de desempenho de seis modelos de Machine alertas em ambientes virtuais de aprendizagem como apoio à prática docente. Tese (doutorado), Universidade Federal do Rio Grande do Learning – NaiveBayes, J48, MultilayerPerceptron, LibSVM, Sul, Programa de Pós-Graduação em Informática na Educação. Porto Bagging e AdaBoost, com vistas à descoberta de conhecimento Alegre/RS/Brasil, 2009. no contexto da educação superior brasileira da modalidade a [16] L. C. Santana; A. M. Maciel; R. L. Rodrigues. Avaliação do perfil de uso no ambiente moodle utilizando técnicas de mineração de dados. distância. In: Simpósio Brasileiro de Informática na Educação, 2014. Congresso Brasileiro de Informática na Educação, 2014. AGRADECIMENTO [17] H. Guércio, P. Marques, V. Ströele, C. K. Pereira, E. Barrere. Análise do desempenho estudantil na educação a distância aplicando técnicas Os autores agradecem o apoio da Fundação de Amparo a de mineração de dados. In: Congresso Brasileiro de Informática na Ciência e Tecnologia de Pernambuco - FACEPE, Conselho Na- Educação – Workshop de Mineração de Dados em Ambientes Virtuais de Ensino/Aprendizagem, p. 641-650, 2014 cional de Desenvolvimento Cientı́fico e Tecnológico - CNPq, [18] E. Gottardo, C. A. A. Kaestner, R. V. Noronha. Estimativa de e Universidade Federal Rural de Pernambuco - UFRPE. desempenho acadêmico de estudantes: análise da aplicação de técnicas de mineração de dados em cursos a distância. Revista Brasileira de Informática na Educação, v. 22, n. 01, p. 45, 2014, R EFERENCES doi:http://dx.doi.org/10.5753/rbie.2014.22.01.45 [1] J. M. Moran. Educação a distância no brasil: situação e perspectivas, [19] S. Singh, V. Kumar. Classification of Student’s data Using Data Mining 2014. Disponı́vel em: http://www2.eca.usp.br/moran. Acesso: 18 jun. Techniques for Training & Placement Department in Technical Educa- 2020. tion. International Journal of Computer Science and Network - IJCSN, Vol. 1(4), 2012. [2] BRASIL. Leis de diretrizes e bases da educação nacional. Decreto n. 5.622, de 19 de dezembro de 2005. Regulamenta o art. 80 da Lei [20] M. L. B. Lorenzo, E. G. Sánchez. Predicción de pérdida de implicación 9.394/96, 20 dez. 1996. Disponı́vel em: http://encurtador.com.br/ckKSZ. de los participantes de un curso en lı́nea masivo y abierto. In: XVIII Acesso em 08 jun. 2014. Simposio Internacional de Informática Educativa - SIIE, 2016. [3] R. M. M. Gouveia. Análises e perspectivas da educação a distância no [21] F. Tanaka, G. Silva, S. Peres, M. Fantinato. Predição de desempenho de ensino superior brasileiro. Revista Acesso Livre, p. 207-228, 2017. alunos no ensino a distância via mineração de processos. In: Brazilian [4] C. Romero and S. Ventura. Educational Data Mining: A Review of Conference on Intelligent Systems (BRACIS) - XIV Encontro Nacional the State of the Art” in IEEE Transactions on Systems, Man, and de Inteligência Artificial e Computacional – ENIAC, 2017. Cybernetics, Part C (Applications and Reviews), vol. 40, no. 6, pp. 601- [22] A. Q. Ayinde, A. B. Adetunji, M. Bello, O. A. Odeniyi. Performance 618, 2010, doi: 10.1109/TSMCC.2010.2053532. Evaluation of Naive Bayes and Decision Stump Algorithms in Mining [5] C. Romero and S. Ventura. Educational data mining and learning Students’ Educational Data. International Journal of Computer Science analytics: An updated survey. Wiley Interdisciplinary Reviews: Data Issues - IJCSI, v. 10, n. 4, p. 147, 2013. Mining and Knowledge Discovery, v. 10, n. 3, p. e1355, 2020, doi: [23] T. Devasia, T. P. Vinushree, V. Hegde. Prediction of students perfor- https://doi.org/10.1002/widm.1355 mance using Educational Data Mining”. International Conference on [6] A. Peña-Ayala. Educational data mining: a survey and a data mining- Data Mining and Advanced Computing - Sapience, IEEE, 2016, doi: based analysis of recent works. Expert systems with applications, v. 41, 10.1109/SAPIENCE.2016.7684167 p. 1432-1462, 2014, doi: https://doi.org/10.1016/j.eswa.2013.08.042 [24] D. Ifenthaler, C. Widanapathirana. Development and Validation of [7] S. K. Mohamad, Z. Tasir. Educational data mining a review. a Learning Analytics Framework: Two Case Studies Using Support Procedia Social and Behavioral Sciences, v. 97, 2013, doi: Vector Machines. Springer - Tech Know Learn 19, 221–240, 2014, doi: https://doi.org/10.1016/j.sbspro.2013.10.240 https://doi.org/10.1007/s10758-014-9226-4 [8] H. Aldowah, H. Al-Samarraie, W. M. Fauzy. Educational data min- [25] I. H. Witten, E. Frank, M. A. Hall. Data mining: practical machine ing and learning analytics for 21st century higher education: A re- learning tools and techniques. 4rd ed. Morgan Kaufmann - Elsevier, view and synthesis. Telematics and Informatics, 37, 13-49, 2019, doi: 2016. https://doi.org/10.1016/j.tele.2019.01.007 [26] ABED – Associação Brasileira de Educação a Distância. Censo EAD [9] E. Fernandes, M. Holanda, M. Victorino, V. Borges, R. Car- BR: relatório analı́tico da aprendizagem a distância no brasil. Inter- valho, G. V. Erven. Educational data mining: predictive anal- Saberes, 2018. ysis of academic performance of public school students in [27] P. Tan, M. Steinbach, A. Karpatne, V. Kumar. Introduction to Data the capital of Brazil. Journal of Business Research, v. 94, Mining”. 2nd ed. Pearson, 2018. p. 335-343, 2019, doi: https://doi.org/10.1016/j.jbusres.2018.02.012 [28] W. J. Frawley, G. Piatetsky-Shapiro, C. J. Matheus. Knowledge discov- https://www.overleaf.com/project/5f0c75b9b4fb520001add8f4 ery in databases: An overview. AI magazine, v. 13, n. 3, p. 57, 1992. [29] U. Fayyad, G. Piatetsky-Shapiro, P. Smyth. From data mining to knowledge discovery in databases. AI Magazine, v. 17, n. 3, p. 37-54, 1996.