-

M e´todos de Machine Learning Aplicados no Cen a´rio da Educa c¸ a˜o a Dist aˆncia Brasileira

Charles Nicollas C. Freitas

cnicollas21@hotmail.com 0 1

Rodrigo G. F. Soares

rodrigo.gfsoares@ufrpe.br 0 1 0 Departamento de Estat ́ıstica e Informa ́tica - DEINFO Universidade Federal Rural de Pernambuco - UFRPE 1 Recife-PE , Brasil

-Tackling student evasion has been a major challenge for the Brazilian Educational System. In the last few years, there has been an increasing interest in Distance Education to address such an important issue. This new paradigm facilitates the attendance of students who have difficulties in attending classes in person due to work, geographical or socioeconomic reasons. However, Distance Education has also shown a growing number of evading students. To tackle Distance Education evasion, we propose the use of Data Mining and Machine Learning techniques to predict the number of students at risk of evasion. Such an approach might help Education Institutions to quantify, plan and develop solutions to this problem. Our work employs Decision Trees, Bootstrap Aggregating Ensemble, Multilayer Perceptron and Support Vector Machines to produce accurate estimates of evading students in Higher Education Institutions that have Distance Education programs. Our experiments showed that our approach could deliver good generalization performance.

Resumo—Combater a evasa˜o de alunos tem sido um grande desafio para o Sistema Educacional Brasileiro. Nos u´ ltimos anos, tem havido um interesse crescente pela Educac¸a˜o a Distaˆncia para lidar com tal problema. Esse novo paradigma facilita o atendimento a alunos que teˆm dificuldade em frequentar as aulas presencialmente por motivos laborais, geogra´ficos ou socioeconoˆmicos. No entanto, a Educac¸a˜o a Distaˆncia tambe´m tem mostrado um nu´ mero crescente de alunos evadidos. Para enfrentar a evasa˜o na Educac¸a˜o a Distaˆncia, propomos o uso de te´cnicas de Data Mining e Machine Learning para prever o nu´ mero de alunos em risco de evasa˜o. Tal abordagem pode ajudar as instituic¸ o˜es de ensino a quantificar, planejar e desenvolver soluc¸o˜es para este problema. Nosso trabalho emprega A´ rvores de Decisa˜o, Bootstrap Aggregating Ensemble, Multilayer Perceptron e Support Vector Machines para produzir estimativas precisas de evasa˜o de alunos em instituic¸o˜es de ensino superior com programas de Educac¸a˜o a Distaˆncia. Nossos experimentos mostraram que nossa abordagem pode fornecer um bom desempenho de generalizac¸a˜o para a predic¸a˜o de evasa˜o.

Index Terms—Educational Data Mining, Machine Learning, Knowledge Discovery in Databases, Educational Systems, Algorithms

I. INTRODU C¸ A˜O

As tecnologias de informac¸a˜o e comunicac¸a˜o, quando bem utilizadas, tornam-se um diferencial para instituic¸o˜es educacionais que buscam exceleˆncia em sua atuac¸a˜o. Este artigo insere-se nas a´reas interdisciplinares de Data Science, Minerac¸a˜o de Dados Educacionais - MDE, do ingleˆs Educa

Roberta M. M. Gouveia DEINFO - UFRPE

tional Data Mining - EDM, Machine Learning (ML), Banco de Dados, estat´ıstica, dentre outras que compo˜em a base de conhecimento utilizada na ana´lise de dados educacionais.

Este trabalho aplica o processo Knowledge Discovery in Databases (KDD), tambe´m conhecido como Descoberta de Conhecimento em Bases de Dados, com intuito de encontrar padro˜es de comportamento e descobrir novos conhecimentos em bases de dados educacionais. A motivac¸a˜o do estudo surge do interesse em adquirir regras significativas, na tentativa de melhor compreender algumas adversidades da educac¸a˜o superior, enfrentados na modalidade a distaˆncia. Assim, os resultados desse estudo podem ser u´teis para profissionais envolvidos com a implementac¸a˜o de me´todos de Minerac¸a˜o de Dados - MD, do ingleˆs Data Mining, no contexto da Educac¸a˜o a Distaˆncia (EaD).

Inicialmente foi realizado um levantamento acerca de trabalhos relacionados com EaD e as a´reas interdisciplinares elencadas acima. Em seguida, focou-se na obtenc¸a˜o e tratamento dos dados, dando seguimento a` etapa de pre´-processamento, finalizando com aplicac¸a˜o de te´cnicas e algoritmos de Data Mining para descoberta de novos conhecimentos e detecc¸a˜o de padro˜es nos dados. Diante desse contexto, o objetivo do trabalho consiste em aplicar o processo KDD para trac¸ar o perfil da EaD em uma universidade pu´blica brasileira, com vista a` obtenc¸a˜o de um melhor entendimento acerca de estudantes e cursos realizados em ambientes e-learning.

A busca por uma educac¸a˜o ale´m do limite espac¸o-tempo, que visa transformar e evoluir o processo tradicional de aprendizagem, e´ uma das propostas da EaD [ 1 ]. O conceito formal de EaD, definido pelo Secretaria de Educac¸a˜o Superior (SESu) do Ministe´rio da Educac¸a˜o (MEC), esta´ presente no Decreto no 5.622, 19.12.2005, que regulamenta o Art. 80 da Lei 9394/96, Lei de Diretrizes e Bases da Educac¸a˜o Nacional - LDB. De acordo com o MEC, a EaD e´ definida como [ 2 ]: ”A modalidade educacional na qual a mediac¸a˜o dida´ticopedago´gica nos processos de ensino e aprendizagem ocorre com a utilizac¸a˜o de meios e tecnologias de informac¸a˜o e comunicac¸a˜o, com estudantes e professores desenvolvendo atividades educativas em lugares ou tempos diversos.”

A internet e os softwares educacionais de suporte ao processo de ensino-aprendizagem surgiram como potencializadores da EaD, dando in´ıcio ao termo e-learning, ou aprendizagem eletroˆnica, que especifica a EaD realizada por meio de plataformas computacionais e Ambientes Virtuais de Aprendizagem - AVA. Vale destacar que existe uma sutil diferenc¸a entre os termos EaD e e-learning, ja´ que a EaD pode ser realizada sem o suporte eletroˆnico, enquanto elearning necessita do suporte eletroˆnico [ 3 ]. Assim, nesse trabalho e´ utilizado o termo Educac¸a˜o a Distaˆncia de forma gene´rica, tanto para referenciar a EaD tradicional (sem o suporte eletroˆnico), como e-learning (com suporte eletroˆnico), ou seja, EaD designando a modalidade de ensino a distaˆncia independentemente da m´ıdia que a suporta.

Embora tenha aumentado o nu´mero de instituic¸o˜es educacionais que aderiram a` EaD em seus cursos de graduac¸a˜o e especializac¸o˜es, o Brasil ainda esta´ em fase de transic¸a˜o nessa modalidade, visto que algumas delas esta˜o se limitando a reproduzir para o ambiente virtual pequenas adaptac¸o˜es do ensino presencial. Em alguns casos, as aulas sa˜o disponibilizadas do ensino presencial para o virtual sem qualquer alterac¸a˜o dida´tico-pedago´gica nos processos de ensino-aprendizagem. Essas pra´ticas contribuem para aumentar os ´ındices de evasa˜o e retenc¸a˜o dos estudantes.

A Minerac¸a˜o de Dados Educacionais utiliza te´cnicas de MD para explorar dados oriundos de contextos educacionais, sendo aplicada nos seguintes dom´ınios: (I) Educac¸ a˜o Offline: para ana´lises de dados de desempenho e comportamento dos estudantes, bem como ana´lises de curr´ıculo/histo´rico escolar, ou seja, dados gerados em ambientes de sala de aula; (II) Aprendizagem Eletroˆnica, mais conhecida como e-learning, e Sistema de Gesta˜o da Aprendizagem, do ingleˆs Learning Management System - LMS: para ana´lise de dados armazenados em sistemas LMS no formato de logs e bases de dados; (III) Sistemas Tutores Inteligentes, do ingleˆs Intelligent Tutoring System - ITS, e Sistemas Hiperm´ıdias Adaptativos

Educacionais, do ingleˆs Adaptive Educational Hypermedia

System: os quais sa˜o aplicados sobre dados de sistemas que se adaptam ao percurso de cada estudante no ambiente virtual de aprendizagem [ 4 ].

Conforme ilustra a “Fig. 1”, a EDM e´ a combinac¸a˜o de 3 (treˆs) principais a´reas de conhecimento: Cieˆncia da Computac¸a˜o, Educac¸a˜o e Estat´ıstica. A intersec¸a˜o dessas a´reas fornece treˆs suba´reas, que sa˜o: e-learning, Data Mining e

Machine Learning, e Learning Analytics.

A a´rea interdisciplinar de Minerac¸a˜o de Dados Educacionais vem se consolidando na u´ltima de´cada, tendo va´rios papers publicados em revistas e confereˆncias relevantes. Alguns pesquisadores realizaram levantamentos detalhados acerca da MDE, sendo fontes de refereˆncias recomendadas [ 4 ], [ 5 ], [ 6 ], [ 7 ], [ 8 ]. Na literatura existem va´rios trabalhos relacionados a` aplicac¸a˜o de te´cnicas de MD e ML no contexto educacional [ 9 ], [ 10 ], [ 11 ], [ 12 ], [ 13 ], [ 14 ], [ 15 ], [ 16 ], [ 17 ], [ 18 ], [ 19 ], [ 20 ], [ 21 ]. Esses artigos trazem excelentes contribuic¸o˜es sobre aplicac¸o˜es de algoritmos de minerac¸a˜o de dados, tanto no cena´rio da educac¸a˜o presencial, quanto em ambientes virtuais de aprendizagem da educac¸a˜o a distaˆncia. Sa˜o reflexo˜es fundamentadas sobre os desafios da educac¸a˜o, especialmente em instituic¸o˜es pu´blicas de ensino superior.

O artigo esta´ organizado como segue: a sec¸a˜o 2 tem o objetivo de contextualizar o problema e os me´todos de Machine Learning usados no trabalho. Na sec¸a˜o 3 sa˜o descritos os experimentos realizados. A sec¸a˜o 4 apresenta os resultados e suas respectivas ana´lises. Por fim, as concluso˜es e poss´ıveis trabalhos futuros sa˜o apresentados na sec¸a˜o 5.

II. METODOLOGIA

A aplicac¸a˜o do Data Mining visa encontrar o perfil do estudante e detectar ineficieˆncias da EaD, que por sua vez desestimulam os alunos a prosseguirem nos cursos. Os resultados obtidos com Data Mining sa˜o utilizados a fim de detectar padro˜es, descobrir regras significativas e estabelecer relac¸o˜es entre os ´ındices de evasa˜o e retenc¸ a˜o, o perfil socioeconoˆmico dos alunos e as caracter´ısticas inerentes da EaD. Ao constatar tais relacionamentos e pontos fracos, ac¸o˜es podera˜o ser tomadas, por parte da instituic¸a˜o, para elimina´-las, buscando reduzir os altos ´ındices de evasa˜o constatados na modalidade a distaˆncia.

A principal relevaˆncia da pesquisa no desenvolvimento cient´ıfico e tecnolo´gico refere-se ao fato do trabalho propor uma ana´lise do cena´rio da EaD, por meio do processo computacional de descoberta de conhecimento em bases de dados, utilizando te´cnicas de classificac¸a˜o de padro˜es.

Foram obtidos dados acadeˆmicos de uma Instituic¸a˜o Federal de Ensino Superior (IFES) para ana´lise pontual e concreta da educac¸a˜o a distaˆncia. Os dados dos estudantes da EaD referem-se a um per´ıodo de 8 anos, e foram obtidos nos formatos txt e xlsx, sendo em seguida, consolidados em um arquivo csv. A pesquisa e´ baseada no anonimato, por isso na˜o foram obtidas informac¸o˜es como nome e CPF, visando preservar as identidades dos alunos. Foram obtidos dados dos seguintes cursos: Licenciatura em Letras; Licenciatura em Pedagogia; Licenciatura em Computac¸a˜o e Bacharelado em Administrac¸a˜o Pu´blica.

Os dados obtidos foram de contexto histo´rico, para uma ana´lise distintiva da evoluc¸a˜o da EaD na instituic¸a˜o, sendo obtidos as seguintes informac¸o˜es: (I) Histo´rico Escolar; (II) Dados gerais sobre o aluno, tais como: Forma de ingresso; Per´ıodo de ingresso; Curso; A´ rea de Conhecimento; Polo; Modalidade (licenciatura, bacharelado, tecno´logo etc.); Idade; Geˆnero/Sexo; Estado Civil; Naturalidade; Nacionalidade; Etnia/Rac¸a (cor da pele); Deficieˆncia; Situac¸a˜o Acadeˆmica (Cursando, Conclu´ıdo, Abandono etc.); (III) Dados Socioeconoˆmicos, tais como informac¸o˜es sobre ensino fundamental e me´dio (tipo de escola); Renda familiar; Trabalho remunerado; Se possui computador em casa; Acesso a` internet etc.

Esses dados sa˜o essenciais para compreender quais sa˜o as potenciais deficieˆncias e obsta´culos enfrentados pelos docentes, estudantes e gestores, como tambe´m ter um entendimento sobre os estudantes da modalidade a distaˆncia em uma IFES, afinal o principal objetivo e´ obter um respaldo cient´ıfico necessa´rio para detectar padro˜es e descobrir regras significativas sobre os ´ındices de evasa˜o e retenc¸a˜o em cursos a distaˆncia, adquirindo um melhor entendimento acerca da EaD no cena´rio brasileiro.

A. Me´todos de Machine Learning

Os algoritmos de Data Mining interpretam os dados a fim de produzir uma quantidade de padro˜es u´teis, va´lidos e de fa´cil entendimento. Os resultados gerados podem ser usados para predic¸o˜es e teˆm por finalidade conduzir a tomadas de deciso˜es inteligentes. O fator humano faz parte de todo o processo, por isso na˜o pode ser uma ac¸a˜o totalmente automatizada.

Os algoritmos de minerac¸a˜o de dados favorecem a extrac¸a˜o de informac¸o˜es de grandes volumes de dados, e a ana´lise estat´ıstica desses dados permite que se observem tendeˆncias e respostas para situac¸o˜es diversos, tais como: encontrar e detectar cursos onde as evaso˜es sa˜o mais frequentes; determinar perfis (comportamentos t´ıpicos), e associar categorias de alunos e cursos com caracter´ısticas de sucesso na EaD; elencar dificuldades frequentemente enfrentadas pelos docentes e discentes da EaD; identificar nos AVAs as disciplinas com alto ´ındice de reprovac¸a˜o e suas causas etc.

Alguns pre´-requisitos sa˜o essenciais para o sucesso da minerac¸a˜o de dados, por isso foram constru´ıdos modelos baseados em metas preditivas e descritivas. Diante das metas preditivas, tem-se, por exemplo, a utilizac¸a˜o da tarefa de Classificac¸a˜o por A´ rvore de Decisa˜o.

Dentre os va´rios me´todos de Machine Learning dispon´ıveis na literatura, cinco deles se mostram adequados aos resultados pretendidos por este estudo. Os me´todos aplicados foram: Classificac¸a˜o por A´ rvore de Decisa˜o, Classificac¸a˜o Bayesiana, Classificac¸a˜o por Redes Neurais, Classificac¸a˜o por Ensembles e Classificac¸a˜o por Support Vector Machine - SVM, todos inerentes ao Aprendizado Supervisionado. Os algoritmos de classificac¸a˜o utilizados foram: NaiveBayes, J48 (a´rvore de decisa˜o), MultilayerPerceptron - que implementa o backpropagation para classificac¸a˜o (Redes Neurais), LibSVM (SVM), Bagging e AdaBoost (Ensembles).

A Classificac¸a˜o Bayesiana (Bayesian Classification) e´ uma te´cnica estat´ıstica (probabilidade condicional) baseada no teorema de Thomas Bayes. Segundo o teorema de Bayes, e´ poss´ıvel encontrar a probabilidade de certo evento ocorrer, dada a probabilidade de outro evento que ja´ ocorreu. Comparativos mostram que os algoritmos Bayesianos, chamados de Naive Bayes, obtiveram resultados compat´ıveis com os me´todos de a´rvore de decisa˜o e redes neurais. Devido a sua simplicidade e o alto poder preditivo, e´ um dos algoritmos mais utilizados. O algoritmo Naive Bayes parte do princ´ıpio que na˜o exista relac¸a˜o de dependeˆncia entre os atributos, no entanto, nem sempre isto e´ poss´ıvel [ 22 ].

A te´cnica de Redes Neurais e´ muito utilizada em tarefas de classificac¸a˜o, regressa˜o e segmentac¸a˜o. Os dados sa˜o trabalhados com base no funcionamento do ce´rebro humano, aprendendo a tomar deciso˜es baseadas nas experieˆncias anteriores (nas instaˆncias anteriores dos dados). Os neuroˆnios do ce´rebro sa˜o representados por nodos que esta˜o conectados em outros nodos por sinapses, formando uma rede de processamento. Os valores das entradas sa˜o multiplicados nos neuroˆnios pelos pesos de suas sinapses, conforme va˜o percorrendo a rede. Ao final, temos uma classificac¸a˜o ou a previsa˜o da entrada [ 23 ].

As a´rvores de decisa˜o teˆm como objetivo principal dividir as instaˆncias em classes. Cada no´ da a´rvore testa o dom´ınio de uma varia´vel de entrada e o redireciona para o no´ seguinte. Cada sub-a´rvore representa o resultado de um teste e a folha e´ a classificac¸a˜o que aquele registro recebeu. Ao final, cada no´ terminal tera´ os registros da entrada que se ade´quam a`s regras regidas por esse no´, representando assim, uma classe [ 23 ].

Os classificadores ensembles, comiteˆ de especialistas, predizem a classe de um registro elegendo a maioria dos votos feitos pelos classificadores base. Para isso, deve-se evitar: subconjuntos ideˆnticos (os erros sera˜o os mesmos), e subconjuntos disjuntos (erros na˜o correlacionados). Para que a performance de um me´todo ensemble seja melhor que a de um classificador simples, os classificadores base devem ser independentes, e devem ter performance melhor que um random guessing [ 11 ]. Os dois tipos de ensembles escolhidos neste trabalho foram:

Bagging e Adaboost.

O Support Vector Machines e´ baseado no conceito de planos de decisa˜o que definem limites de decisa˜o (Vetor Suporte). Um plano de decisa˜o separa um conjunto de objetos com diferentes associac¸o˜es de classe. SVM e´ essencialmente um me´todo classificac¸a˜o que executa tarefas de classificac¸a˜o atrave´s da construc¸a˜o de hiperplanos em um espac¸o multidimensional que separa casos de diferentes ro´tulos de classe. Ele suporta ambas as tarefas de regressa˜o e de classificac¸a˜o e pode lidar com mu´ltiplas varia´veis cont´ınuas. Para construir um hiperplano o´timo, o SVM emprega um algoritmo iterativo de formac¸a˜o, que e´ usado para minimizar uma func¸a˜o de erro [ 24 ].

Ha´ um nu´mero de nu´cleos que podem ser usados em modelos Support Vector Machines. Estes incluem linear, polinomial, func¸a˜o radial base (RBF) e sigmo´ide. Estas func¸o˜es de nu´cleo representam um produto de ponto de pontos de dados de entrada mapeado para o maior espac¸o de caracter´ısticas dimensionais por transformac¸a˜o.

Nem todas as regras geradas pelo Data Mining sa˜o consideradas relevantes para o processo de extrac¸a˜o do conhecimento em banco de dados, visto que o especialista precisa interpreta´las no contexto em que esta´ inserido e so´ depois aplica´-las, afinal o fator humano tambe´m faz parte do processo. Desta forma, o especialista do nego´cio precisa avaliar as regras para que o resultado seja aplica´vel na pra´tica.

III. EXPERIMENTOS

Com o objetivo de verificar a adequac¸a˜o do conjunto de dados propostos, foram realizados experimentos com a base de dados citada anteriormente, contendo informac¸o˜es de estudantes em quatro cursos realizado a distaˆncia. Foram desenvolvidos procedimentos para extrac¸a˜o dos atributos considerados significativos para este trabalho.

A. Pre´-Processamento

Para se ter uma visa˜o geral preliminar dos dados, se configura uma boa pra´tica fazer inicialmente uma ana´lise descritiva dos dados, tambe´m conhecida como ana´lise explorato´ria dos dados. Neste diagno´stico inicial, medic¸o˜es sa˜o feitas sobre os atributos dos dados como me´dia/mediana, desvio padra˜o, valor m´ınimo, ma´ximo, outliers, entre outros . Estas medidas auxiliam no encaminhamento da soluc¸a˜o de pre´-processamento a ser adotada e tambe´m, em caso de valores ausentes ja´ sera´ poss´ıvel verificar a sua existeˆncia e, consequentemente a sua soluc¸a˜o.

Valores ausentes, ou missing values , sa˜o atributos que na˜o tem valores preenchidos. O tratamento pode ser feito pela simples remoc¸a˜o do atributo (em caso de grande incideˆncia) ou do exemplar (em caso de poucas ocorreˆncias). Ou ainda o valor pode ser substitu´ıdo por uma constante calculara pela me´dia, mediana, valor ma´ximo ou m´ınimo. Outro tratamento que pode ser diagnosticado na ana´lise descritiva sa˜o os valores ruidosos ou que esta˜o fora do padra˜o (outliers). Este tipo de situac¸a˜o ocorre quando surge algum exemplar com valor de atributo que foge de um padra˜o. Por fim, um cena´rio que surge tipicamente quando se faz integrac¸a˜o de dados e´ a inconsisteˆncia de valores. A inconsisteˆncia ocorre quando ha´ falta de um crite´rio bem definido entre os valores dos atributos ou dos exemplares.

A normalizac¸a˜o de valores consiste em uma te´cnica para deixar os valores dos atributos em uma mesma escala. Abordagem de soluc¸a˜o comum e´ calcular o valor ma´ximo de um atributo para dividi-lo aos demais exemplares com mesmo atributo. A normalizac¸a˜o faz parte de um tratamento chamado transformac¸a˜o de valores que ainda compreende a mudanc¸a de tipos catego´ricos para nume´ricos. No caso do geˆnero, por exemplo, atributo nominal, como sa˜o apenas dois valores, eles poderiam ser transformados para bina´rio 0 e 1. No entanto, deve-se ter cuidado para na˜o transformar um atributo nominal em ordinal no processo de transformac¸a˜o, isto e´, o valor na˜o pode ideia de ordem.

Finalmente, foi feita a selec¸a˜o de atributos na fase de pre´-processamento. Dentre as causas que levam a se fazer este tipo de ana´lise, tem-se: integrac¸a˜o de bases, falta de definic¸a˜o clara de atributos que representam um problema, grande disponibilidade de dados e outras. A selec¸a˜o consiste basicamente em escolher o melhor conjunto de dados que representam a base original com a mesma capacidade anal´ıtica.

Para a realizac¸a˜o da selec¸a˜o de exemplares foi utilizado o me´todo Classifier Subset Evaluator (CSE). Este me´todo permite avaliar subconjuntos de atributos em dados de treinamento ou um conjunto de testes independente. Utiliza um classificador para estimar a ”me´rito” de um conjunto de atributos. Junto ao CSE foi utilizado um me´todo de pesquisa de atributos BestFirst, que auxilia na busca por um subconjunto de atributos que represente a base original. Foi escolhida a direc¸ a˜o Forward, que comec¸a com o conjunto vazio de atributos e procura para frente, considerando todas as poss´ıveis adic¸o˜es de atributos individuais e delec¸o˜es em um determinado ponto, no caso o searchTermination que e´ o paraˆmetro de parada do me´todo, sendo o valor 5 escolhido nesse trabalho.

Apo´s a realizac¸a˜o da etapa anterior, foram selecionados 20 atributos dos 214 da base original, isto significa que estes atributos representam melhor a base original em termos de generalizac¸a˜o do problema. Dentre os atributos selecionados, tem-se as seguintes informac¸o˜es sobre os estudante: nome do curso, a´rea de conhecimento, polo, ano de ingresso, status acadeˆmico, estado civil, idade, naturalidade (estado), tipo de deficieˆncia, tipo de escola do ensino me´dio, tipo de escola do ensino fundamental, se possui internet, se possui trabalho remunerado e me´dia geral.

B. Avaliac¸a˜o dos Modelos de Machine Learning

O objetivo principal do experimento e´ verificar a relevaˆncia dos atributos elencados acima, bem como analisar o impacto da aplicac¸a˜o de te´cnica de selec¸a˜o de atributos na acura´cia da previsa˜o de desempenho dos seis classificadores. A acura´cia e´ a proporc¸a˜o entre o nu´mero de estudantes corretamente classificados pelos algoritmos em sua respectiva classe, e o nu´mero total de estudantes considerados no estudo.

Para o desenvolvimento deste trabalho foram utilizados seis algoritmos de classificac¸a˜o, como descritos anteriormente, que sa˜o eles: MultilayerPerceptron (MLP), NaiveBayes, SVM, J48, Adaboost e Bagging. Para auxiliar na avaliac¸a˜o dos resultados e o ca´lculo da acura´cia utilizou-se o me´todo K-fold CrossValidation, que consiste em uma te´cnica para a estratificac¸a˜o da base dados em conjunto de treinamento e teste. Geralmente, sugere-se a adoc¸a˜o de k igual a 10 como valor padra˜o para o nu´mero de partic¸o˜es dos dados [ 25 ].

O primeiro experimento corresponde a` selec¸a˜o dos melhores paraˆmetros definidos a priori para cada um dos seis algoritmos. O processo de avaliac¸a˜o de desempenho de cada combinac¸a˜o de paraˆmetros se baseia no me´todo descrito anteriormente, sendo 30 paraˆmetros para MLP, SVM e Bagging, 18 paraˆmetros para J48, 6 paraˆmetros para Adaboost, e nenhum paraˆmetro para NaiveBayes. Assim e´ poss´ıvel definir quais sa˜o os melhores paraˆmetros de cada algoritmo, para posteriormente definir qual a porcentagem de assertividade de cada um deles.

Os gra´ficos apresentados na “Fig. 2” destacam os resultados obtidos no experimento de selec¸a˜o de paraˆmetros por modelo, demonstrando a precisa˜o dos algoritmos para predizer o desempenho em cada combinac¸a˜o de paraˆmetros. O resultado apresentado, no eixo vertical, corresponde a um valor me´dio obtido para as combinac¸o˜es de paraˆmetros, onde foram selecionados os melhores paraˆmetros de cada algoritmo para a realizac¸a˜o do segundo experimento.

Para o experimento 2, foram utilizados todos os melhores paraˆmetros obtidos no experimento 1. Com o objetivo de testar a significaˆncia estat´ıstica dos resultados obtidos, utilizou-se a te´cnica de teste estat´ıstico pair-wise T-Test [ 25 ], com n´ıvel significaˆncia de 5%.

A Tabela I apresenta o resumo com os resultados do segundo experimento executado. Nela, constam o percentual de acura´cia me´dio e o desvio padra˜o dos seis algoritmos analisados. Como o desvio padra˜o refere-se a quantidade de variac¸a˜o (dispersa˜o) dos dados dentro da amostra em relac¸a˜o a` me´dia, enta˜o um baixo valor para desvio padra˜o indica que a amostra tende a ser mais homogeˆnea.

Avaliando os resultados obtidos percebe-se que a utilizac¸a˜o do conjunto completo de atributos proposto, juntamente com a te´cnica de otimizac¸a˜o de paraˆmetros empregada no experimento 1, obteve os melhores resultados em termos da taxa acura´cia. Destaca-se que nos seis classificadores utilizados neste experimento esta tendeˆncia pode ser observada.

Um aspecto a ser destacado, a partir dos testes realizados, aponta para a viabilidade da utilizac¸a˜o de um conjunto amplo de atributos para representac¸a˜o do perfil dos estudantes, potencialmente generaliza´veis a diversos cena´rios de cursos EAD.

Tomando-se como base o experimento 2, observou-se que o algoritmo J48 apresentou melhor classificac¸a˜o, com taxa de acerto de 90,35% e 0,28 de desvio padra˜o. Ja´ o algoritmo Adaboost apresentou menor acura´cia, 87,35%, e maior desvio padra˜o (0,59). Os resultados obtidos demonstram que os algoritmos Bagging, MultilayerPercepetron, J48 e SVM podem ser utilizados para realizar infereˆncias em relac¸a˜o aos ´ındices de evasa˜o dos alunos, por possu´ırem taxa de acura´cia acima da me´dia geral (89,51%) de todos os algoritmos analisados.

Apesar do desbalanceamento do atributo classe (Situac¸a˜o Acadeˆmica), a medida de desempenho utilizada neste trabalho (Taxa de Acura´cia) esta´ coerente com as demais me´tricas da matriz de confusa˜o, a saber: Precision, Recall, F-Measure, e

AUC - Area Under the ROC Curve.

A partir dos resultados dos experimentos foi poss´ıvel adquirir o respaldo cient´ıfico necessa´rio para detectar padro˜es e descobrir regras significativas na tentativa de melhor compreender a EaD, esta que, por sua vez, exige inovac¸a˜o e infraestrutura tecnolo´gica, ale´m de apoio ao estudante em n´ıveis mais elevados, em comparac¸a˜o a` modalidade presencial. Conforme relato´rio anal´ıtico do Censo da EaD no Brasil, 53% dos estudantes brasileiros da modalidade a distaˆncia sa˜o mulheres, com 39,3% entre 26-30 anos. Aproximadamente 70% das instituic¸o˜es privadas e pu´blicas federais contam com estudantes que, em sua maioria, estudam e trabalham. Em se tratando das taxas de evasa˜o reportadas nos cursos a distaˆncia, O Censo da EaD registra uma evasa˜o de 26% a 50% – alertando que a desisteˆncia dos estudantes da EaD e´ maior em comparac¸a˜o aos cursos presenciais. As instituic¸o˜es apontam o fator tempo como o mais influente no fenoˆmeno da evasa˜o, seguido do fator financeiro [ 26 ].

V. CONCLUS O˜ES

O trabalho pretende provocar interesse em instituic¸o˜es, pesquisadores e profissionais envolvidos com a implementac¸a˜o e utilizac¸a˜o de sistemas de informac¸o˜es gerenciais de apoio a` decisa˜o no contexto da EaD. Tais tecnologias se propo˜em em fornecer indicadores de qualidade a`s IFES, proporcionando tomadas de deciso˜es que visam, dentre outras ac¸o˜es, a reduc¸a˜o da evasa˜o e retenc¸a˜o de estudantes e, consequentemente, a melhoria da EaD.

A metodologia foi fundamentada no processo KDD, que por sua vez propo˜e encontrar e interpretar padro˜es/regras mediante integrac¸a˜o de diversas fontes de dados, sendo proposto para determinar as etapas que produzem conhecimentos a partir dos dados e, principalmente, definir a etapa de Data Mining [ 27 ]. O objetivo e´ extrair de bases de dados, sem nenhuma formulac¸a˜o pre´via de hipo´ teses, informac¸o˜ es desconhecidas a priori, fact´ıveis, va´lidas e aciona´veis, que podera˜o ser u´ teis para a tomada de decisa˜o [ 28 ], [29].

Por meio da ana´lise do histo´ rico acadeˆmico e perfil socioeconoˆ mico de estudantes, uma instituic¸a˜o educacional pode ser capaz de acompanhar o rendimento acadeˆmico do discente, verificando se ele possui potencial para se evadir ou na˜o do curso. Tendo esse conhecimento pre´vio, as instituic¸o˜ es de ensino superior podera˜o avaliar as necessidades individuais do aluno, e assim, agir de maneira proativa e mais efetiva para que o estudante possa continuar sua graduac¸a˜o.

Com os resultados dos experimentos realizados neste trabalho, e´ poss´ıvel a obtenc¸a˜o de indicadores a serem implementados em ambientes virtuais de aprendizagem para a previsa˜o de ´ındice de evasa˜o de estudantes. Estes indicadores podem ser melhorados a` medida que a base de dados de treinamento for aumentando. Portanto, o trabalho viabilizou a avaliac¸a˜o de desempenho de seis modelos de Machine

Learning – NaiveBayes, J48, MultilayerPerceptron, LibSVM,

Bagging e AdaBoost, com vistas a` descoberta de conhecimento no contexto da educac¸a˜o superior brasileira da modalidade a distaˆncia.

AGRADECIMENTO

Os autores agradecem o apoio da Fundac¸a˜o de Amparo a Cieˆncia e Tecnologia de Pernambuco - FACEPE, Conselho Nacional de Desenvolvimento Cient´ıfico e Tecnolo´ gico - CNPq, e Universidade Federal Rural de Pernambuco - UFRPE. [29] U. Fayyad, G. Piatetsky-Shapiro, P. Smyth. From data mining to knowledge discovery in databases. AI Magazine, v. 17, n. 3, p. 37-54, 1996.

[1]

J. M.

Moran . Educac¸a˜o a distaˆncia no brasil: situac¸a˜o e perspectivas, 2014 . Dispon´ıvel em: http://www2.eca.usp.br/moran. Acesso: 18 jun . 2020 .

[2] BRASIL. Leis de diretrizes e bases da educac¸a˜o nacional . Decreto n. 5 .622, de 19 de dezembro de 2005 . Regulamenta o art . 80 da Lei 9.394/96 , 20 dez. 1996 . Dispon´ıvel em: http://encurtador.com.br/ckKSZ. Acesso em 08 jun . 2014 .

[3]

R. M. M.

Gouveia . Ana´lises e perspectivas da educac¸ a˜o a distaˆncia no ensino superior brasileiro . Revista Acesso Livre , p. 207 - 228 , 2017 .

[4]

Romero and

Ventura . Educational Data Mining: A Review of the State of the Art” in IEEE Transactions on Systems, Man, and Cybernetics , Part C ( Applications and Reviews), vol. 40 , no. 6 , pp. 601 - 618 , 2010 , doi: 10.1109/TSMCC. 2010 . 2053532 .

[5]

Romero and

Ventura . Educational data mining and learning analytics: An updated survey . Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery , v. 10 , n. 3, p. e1355 , 2020 , doi: https://doi.org/10.1002/widm.1355

[6]

Pen ˜a-Ayala. Educational data mining: a survey and a data miningbased analysis of recent works. Expert systems with applications , v. 41 , p. 1432 - 1462 , 2014 , doi: https://doi.org/10.1016/j.eswa. 2013 . 08 .042

[7]

S. K.

Mohamad ,

Tasir . Educational data mining a review . Procedia Social and Behavioral Sciences, v. 97 , 2013 , doi: https://doi.org/10.1016/j.sbspro. 2013 . 10 .240

[8]

Aldowah ,

Al-Samarraie ,

W. M.

Fauzy . Educational data mining and learning analytics for 21st century higher education: A review and synthesis . Telematics and Informatics , 37 , 13 - 49 , 2019 , doi: https://doi.org/10.1016/j.tele. 2019 . 01 .007

[9]

Fernandes ,

Holanda ,

Victorino ,

Borges ,

Carvalho ,

G. V.

Erven . Educational data mining: predictive analysis of academic performance of public school students in the capital of Brazil . Journal of Business Research , v. 94 , p. 335 - 343 , 2019 , doi: https://doi.org/10.1016/j.jbusres. 2018 . 02 .012 https://www.overleaf.com/project/5f0c75b9b4fb520001add8f4

[10] Branda˜o, J. O. S. ; Silva , A. J. ; Gouveia, R. M. M. ; Soares ,

R. G. F.

Aprendizagem de Ma´ quina para Predic¸ a˜

o de Desempenho de Estudantes de Graduac¸

a˜o na UFPE . In: Brazilian Conference on Intelligent Systems (BRACIS ) - XIV Encontro Nacional de Inteligeˆncia Artificial e Computacional (ENIAC), 2017 .

[11]

E. A.

Amrieh ,

Hamtini , I. Aljarah. Mining educational data to predict student's academic performance using ensemble methods . International Journal of Database Theory and Application , v. 9 , n. 8, p. 119 - 136 , 2016 , doi: http://dx.doi.org/10.14257/ijdta. 2016 . 9 .8. 13

[12]

C. N.

Freitas , R. M. M. Gouveia , A.

Silva. Online Analytical

Processing em ambientes virtuais de aprendizagem da educac¸ a˜o a distaˆncia . In: DesafIE - Workshop de Desafios da Computac¸ a˜o Aplicada a` Educac¸a˜o - XXXV Congresso da Sociedade Brasileira de Computac¸a˜o, 2015 .

[13]

L. A.

Silva; A. H. Morin; T. M. C. Sato . Pra´ticas de Minerac¸ a˜o de Dados no Exame Nacional do Ensino Me´dio . In: Congresso Brasileiro de Informa´tica na Educac¸ a˜o - Workshop de Minerac¸a˜o de Dados em Ambientes Virtuais do Ensino/Aprendizagem, 2014 . p. 651 - 660 .

[14]

Baker ,

Isotani ,

Carvalho . Minerac¸a˜o de dados educacionais: oportunidades para o Brasil . Revista Brasileira de Informa´ tica na Educac¸a˜o, v . 19 , n. 02 , p. 03 , 2011 , doi:http://dx.doi.org/10.5753/rbie. 2011 . 19 .02.03

[15]

A. J. C.

Kampff . Minerac¸a˜o de dados educacionais para gerac¸ a˜o de alertas em ambientes virtuais de aprendizagem como apoio a` pra´tica docente . Tese (doutorado) , Universidade Federal do Rio Grande do Sul , Programa de Po´ s-Graduac¸a˜o em Informa´tica na Educac¸ a˜o . Porto Alegre/RS/Brasil, 2009 .

[16]

L. C.

Santana; A. M. Maciel; R. L. Rodrigues . Avaliac¸a˜o do perfil de uso no ambiente moodle utilizando te´cnicas de minerac¸a˜o de dados . In: Simpo´sio Brasileiro de Informa´ tica na Educac¸ a˜o, 2014 . Congresso Brasileiro de Informa´ tica na Educac¸a˜o , 2014 .

[17]

Gue ´rcio,

Marques , V. Stro¨ele,

C. K.

Pereira , E. Barrere. Ana´lise do desempenho estudantil na educac¸a˜o a distaˆncia aplicando te´cnicas de minerac¸a˜o de dados . In: Congresso Brasileiro de Informa´tica na Educac¸a˜o - Workshop de Minerac¸a˜o de Dados em Ambientes Virtuais de Ensino/Aprendizagem, p. 641 - 650 , 2014

[18]

Gottardo ,

C. A. A.

Kaestner ,

R. V.

Noronha . Estimativa de desempenho acadeˆmico de estudantes: ana´lise da aplicac¸a˜o de te´cnicas de minerac¸a˜o de dados em cursos a distaˆncia . Revista Brasileira de Informa´ tica na Educac¸a˜o, v . 22 , n. 01 , p. 45 , 2014 , doi:http://dx.doi.org/10.5753/rbie. 2014 . 22 .01.45

[19]

Singh ,

Kumar . Classification of Student's data Using Data Mining Techniques for Training & Placement Department in Technical Education . International Journal of Computer Science and Network - IJCSN , Vol. 1 ( 4 ), 2012 .

[20] M. L. B. Lorenzo , E. G. Sa´nchez . Prediccio´n de pe´rdida de implicacio´n de los participantes de un curso en l´ ınea masivo y abierto . In: XVIII Simposio Internacional de Informa´tica Educativa - SIIE , 2016 .

[21]

Tanaka , G. Silva,

Peres ,

Fantinato . Predic¸ a˜o de desempenho de alunos no ensino a distaˆncia via minerac¸a˜o de processos . In: Brazilian Conference on Intelligent Systems (BRACIS ) - XIV Encontro Nacional de Inteligeˆncia Artificial e Computacional - ENIAC , 2017 .

[22]

A. Q.

Ayinde ,

A. B.

Adetunji ,

Bello ,

O. A.

Odeniyi . Performance Evaluation of Naive Bayes and Decision Stump Algorithms in Mining Students' Educational Data . International Journal of Computer Science Issues - IJCSI , v. 10 , n. 4, p. 147 , 2013 .

[23]

Devasia ,

T. P.

Vinushree ,

Hegde . Prediction of students performance using Educational Data Mining” . International Conference on Data Mining and Advanced Computing - Sapience , IEEE, 2016 , doi: 10.1109/SAPIENCE. 2016 .7684167

[24]

Ifenthaler ,

Widanapathirana . Development and Validation of a Learning Analytics Framework: Two Case Studies Using Support Vector Machines . Springer - Tech Know Learn 19 , 221 - 240 , 2014 , doi: https://doi.org/10.1007/s10758-014-9226-4

[25]

I. H.

Witten , E. Frank,

M. A.

Hall . Data mining: practical machine learning tools and techniques . 4rd ed. Morgan Kaufmann - Elsevier, 2016 .

[26] ABED - Associac¸a˜o Brasileira de Educac¸ a˜o a Distaˆncia. Censo EAD BR: relato´rio anal´ıtico da aprendizagem a distaˆncia no brasil . InterSaberes , 2018 .

[27]

Tan ,

Steinbach ,

Karpatne ,

Kumar . Introduction to Data Mining” . 2nd ed. Pearson, 2018 .

[28]

W. J.

Frawley ,

Piatetsky-Shapiro ,

C. J.

Matheus . Knowledge discovery in databases: An overview . AI magazine, v. 13 , n. 3, p. 57 , 1992 .