=Paper= {{Paper |id=Vol-2733/paper20 |storemode=property |title=Métodos de Machine Learning Aplicados no Cenário da Educaçáo a Distância Brasileira (Machine Learning Techniques Applied to the Brazilian Distance Education) |pdfUrl=https://ceur-ws.org/Vol-2733/paper20.pdf |volume=Vol-2733 |authors=Charles Nicollas C. Freitas,Roberta M. M. Gouveia,Rodrigo G. F. Soares |dblpUrl=https://dblp.org/rec/conf/siie/FreitasGS20 }} ==Métodos de Machine Learning Aplicados no Cenário da Educaçáo a Distância Brasileira (Machine Learning Techniques Applied to the Brazilian Distance Education)== https://ceur-ws.org/Vol-2733/paper20.pdf
          Métodos de Machine Learning Aplicados no
          Cenário da Educação a Distância Brasileira
                   Charles Nicollas C. Freitas                              Roberta M. M. Gouveia                  Rodrigo G. F. Soares
     Departamento de Estatı́stica e Informática - DEINFO                      DEINFO - UFRPE                       DEINFO - UFRPE
     Universidade Federal Rural de Pernambuco - UFRPE                           Recife-PE, Brasil                    Recife-PE, Brasil
                      Recife-PE, Brasil                                      roberta.gouveia@ufrpe.br            rodrigo.gfsoares@ufrpe.br
                  cnicollas21@hotmail.com



   Abstract—Tackling student evasion has been a major challenge             tional Data Mining - EDM, Machine Learning (ML), Banco
for the Brazilian Educational System. In the last few years, there          de Dados, estatı́stica, dentre outras que compõem a base de
has been an increasing interest in Distance Education to address            conhecimento utilizada na análise de dados educacionais.
such an important issue. This new paradigm facilitates the
attendance of students who have difficulties in attending classes              Este trabalho aplica o processo Knowledge Discovery in
in person due to work, geographical or socioeconomic reasons.               Databases (KDD), também conhecido como Descoberta de
However, Distance Education has also shown a growing number                 Conhecimento em Bases de Dados, com intuito de encontrar
of evading students. To tackle Distance Education evasion,                  padrões de comportamento e descobrir novos conhecimentos
we propose the use of Data Mining and Machine Learning                      em bases de dados educacionais. A motivação do estudo surge
techniques to predict the number of students at risk of evasion.
Such an approach might help Education Institutions to quantify,             do interesse em adquirir regras significativas, na tentativa
plan and develop solutions to this problem. Our work employs                de melhor compreender algumas adversidades da educação
Decision Trees, Bootstrap Aggregating Ensemble, Multilayer                  superior, enfrentados na modalidade a distância. Assim, os
Perceptron and Support Vector Machines to produce accurate                  resultados desse estudo podem ser úteis para profissionais
estimates of evading students in Higher Education Institutions              envolvidos com a implementação de métodos de Mineração de
that have Distance Education programs. Our experiments
showed that our approach could deliver good generalization                  Dados - MD, do inglês Data Mining, no contexto da Educação
performance.                                                                a Distância (EaD).
                                                                               Inicialmente foi realizado um levantamento acerca de traba-
   Resumo—Combater a evasão de alunos tem sido um grande                   lhos relacionados com EaD e as áreas interdisciplinares elen-
desafio para o Sistema Educacional Brasileiro. Nos últimos anos,           cadas acima. Em seguida, focou-se na obtenção e tratamento
tem havido um interesse crescente pela Educação a Distância
para lidar com tal problema. Esse novo paradigma facilita                   dos dados, dando seguimento à etapa de pré-processamento,
o atendimento a alunos que têm dificuldade em frequentar                   finalizando com aplicação de técnicas e algoritmos de Data
as aulas presencialmente por motivos laborais, geográficos ou              Mining para descoberta de novos conhecimentos e detecção
socioeconômicos. No entanto, a Educação a Distância também             de padrões nos dados. Diante desse contexto, o objetivo do
tem mostrado um número crescente de alunos evadidos. Para                  trabalho consiste em aplicar o processo KDD para traçar
enfrentar a evasão na Educação a Distância, propomos o uso
de técnicas de Data Mining e Machine Learning para prever o                o perfil da EaD em uma universidade pública brasileira,
número de alunos em risco de evasão. Tal abordagem pode ajudar            com vista à obtenção de um melhor entendimento acerca de
as instituições de ensino a quantificar, planejar e desenvolver           estudantes e cursos realizados em ambientes e-learning.
soluções para este problema. Nosso trabalho emprega Árvores de              A busca por uma educação além do limite espaço-tempo,
Decisão, Bootstrap Aggregating Ensemble, Multilayer Perceptron             que visa transformar e evoluir o processo tradicional de
e Support Vector Machines para produzir estimativas precisas de
evasão de alunos em instituições de ensino superior com progra-
                                                                            aprendizagem, é uma das propostas da EaD [1]. O conceito
mas de Educação a Distância. Nossos experimentos mostraram               formal de EaD, definido pelo Secretaria de Educação Superior
que nossa abordagem pode fornecer um bom desempenho de                      (SESu) do Ministério da Educação (MEC), está presente no
generalização para a predição de evasão.                               Decreto no 5.622, 19.12.2005, que regulamenta o Art. 80 da
   Index Terms—Educational Data Mining, Machine Learning,                   Lei 9394/96, Lei de Diretrizes e Bases da Educação Nacional
Knowledge Discovery in Databases, Educational Systems, Algo-
                                                                            - LDB. De acordo com o MEC, a EaD é definida como
rithms
                                                                            [2]: ”A modalidade educacional na qual a mediação didático-
                                                                            pedagógica nos processos de ensino e aprendizagem ocorre
                         I. I NTRODUÇ ÃO
                                                                            com a utilização de meios e tecnologias de informação e
   As tecnologias de informação e comunicação, quando bem               comunicação, com estudantes e professores desenvolvendo
utilizadas, tornam-se um diferencial para instituições edu-               atividades educativas em lugares ou tempos diversos.”
cacionais que buscam excelência em sua atuação. Este ar-                    A internet e os softwares educacionais de suporte ao
tigo insere-se nas áreas interdisciplinares de Data Science,               processo de ensino-aprendizagem surgiram como potenci-
Mineração de Dados Educacionais - MDE, do inglês Educa-                  alizadores da EaD, dando inı́cio ao termo e-learning, ou



       Copyright © 2020 for this paper by its authors. Use permitted under Creative Commons License Attribution 4.0 International (CC BY 4.0).
aprendizagem eletrônica, que especifica a EaD realizada por
meio de plataformas computacionais e Ambientes Virtuais
de Aprendizagem - AVA. Vale destacar que existe uma sutil
diferença entre os termos EaD e e-learning, já que a EaD
pode ser realizada sem o suporte eletrônico, enquanto e-
learning necessita do suporte eletrônico [3]. Assim, nesse
trabalho é utilizado o termo Educação a Distância de forma
genérica, tanto para referenciar a EaD tradicional (sem o
suporte eletrônico), como e-learning (com suporte eletrônico),
ou seja, EaD designando a modalidade de ensino a distância
independentemente da mı́dia que a suporta.
   Embora tenha aumentado o número de instituições educa-
cionais que aderiram à EaD em seus cursos de graduação                           Fig. 1. Principais áreas relacionadas com EDM.
e especializações, o Brasil ainda está em fase de transição
nessa modalidade, visto que algumas delas estão se limitando a
reproduzir para o ambiente virtual pequenas adaptações do en-            O artigo está organizado como segue: a seção 2 tem o ob-
sino presencial. Em alguns casos, as aulas são disponibilizadas        jetivo de contextualizar o problema e os métodos de Machine
do ensino presencial para o virtual sem qualquer alteração            Learning usados no trabalho. Na seção 3 são descritos os
didático-pedagógica nos processos de ensino-aprendizagem.             experimentos realizados. A seção 4 apresenta os resultados
Essas práticas contribuem para aumentar os ı́ndices de evasão         e suas respectivas análises. Por fim, as conclusões e possı́veis
e retenção dos estudantes.                                            trabalhos futuros são apresentados na seção 5.
   A Mineração de Dados Educacionais utiliza técnicas de
MD para explorar dados oriundos de contextos educacionais,                                     II. M ETODOLOGIA
sendo aplicada nos seguintes domı́nios: (I) Educação Offline:            A aplicação do Data Mining visa encontrar o perfil do
para análises de dados de desempenho e comportamento dos               estudante e detectar ineficiências da EaD, que por sua vez
estudantes, bem como análises de currı́culo/histórico escolar,        desestimulam os alunos a prosseguirem nos cursos. Os resul-
ou seja, dados gerados em ambientes de sala de aula; (II)               tados obtidos com Data Mining são utilizados a fim de detectar
Aprendizagem Eletrônica, mais conhecida como e-learning,               padrões, descobrir regras significativas e estabelecer relações
e Sistema de Gestão da Aprendizagem, do inglês Learning               entre os ı́ndices de evasão e retenção, o perfil socioeconômico
Management System - LMS: para análise de dados armazena-               dos alunos e as caracterı́sticas inerentes da EaD. Ao consta-
dos em sistemas LMS no formato de logs e bases de da-                   tar tais relacionamentos e pontos fracos, ações poderão ser
dos; (III) Sistemas Tutores Inteligentes, do inglês Intelligent        tomadas, por parte da instituição, para eliminá-las, buscando
Tutoring System - ITS, e Sistemas Hipermı́dias Adaptativos              reduzir os altos ı́ndices de evasão constatados na modalidade
Educacionais, do inglês Adaptive Educational Hypermedia                a distância.
System: os quais são aplicados sobre dados de sistemas que                A principal relevância da pesquisa no desenvolvimento
se adaptam ao percurso de cada estudante no ambiente virtual            cientı́fico e tecnológico refere-se ao fato do trabalho propor
de aprendizagem [4].                                                    uma análise do cenário da EaD, por meio do processo com-
   Conforme ilustra a “Fig. 1”, a EDM é a combinação                 putacional de descoberta de conhecimento em bases de dados,
de 3 (três) principais áreas de conhecimento: Ciência da             utilizando técnicas de classificação de padrões.
Computação, Educação e Estatı́stica. A interseção dessas áreas      Foram obtidos dados acadêmicos de uma Instituição Federal
fornece três subáreas, que são: e-learning, Data Mining e            de Ensino Superior (IFES) para análise pontual e concreta
Machine Learning, e Learning Analytics.                                 da educação a distância. Os dados dos estudantes da EaD
   A área interdisciplinar de Mineração de Dados Educacionais        referem-se a um perı́odo de 8 anos, e foram obtidos nos
vem se consolidando na última década, tendo vários pa-               formatos txt e xlsx, sendo em seguida, consolidados em um
pers publicados em revistas e conferências relevantes. Alguns          arquivo csv. A pesquisa é baseada no anonimato, por isso
pesquisadores realizaram levantamentos detalhados acerca da             não foram obtidas informações como nome e CPF, visando
MDE, sendo fontes de referências recomendadas [4], [5], [6],           preservar as identidades dos alunos. Foram obtidos dados
[7], [8]. Na literatura existem vários trabalhos relacionados à       dos seguintes cursos: Licenciatura em Letras; Licenciatura em
aplicação de técnicas de MD e ML no contexto educacional             Pedagogia; Licenciatura em Computação e Bacharelado em
[9], [10], [11], [12], [13], [14], [15], [16], [17], [18], [19],        Administração Pública.
[20], [21]. Esses artigos trazem excelentes contribuições sobre          Os dados obtidos foram de contexto histórico, para uma
aplicações de algoritmos de mineração de dados, tanto no            análise distintiva da evolução da EaD na instituição, sendo
cenário da educação presencial, quanto em ambientes virtuais         obtidos as seguintes informações: (I) Histórico Escolar; (II)
de aprendizagem da educação a distância. São reflexões fun-        Dados gerais sobre o aluno, tais como: Forma de ingresso;
damentadas sobre os desafios da educação, especialmente em            Perı́odo de ingresso; Curso; Área de Conhecimento; Polo;
instituições públicas de ensino superior.                            Modalidade (licenciatura, bacharelado, tecnólogo etc.); Idade;
Gênero/Sexo; Estado Civil; Naturalidade; Nacionalidade; Et-           métodos de árvore de decisão e redes neurais. Devido a sua
nia/Raça (cor da pele); Deficiência; Situação Acadêmica           simplicidade e o alto poder preditivo, é um dos algoritmos
(Cursando, Concluı́do, Abandono etc.); (III) Dados Socioe-             mais utilizados. O algoritmo Naive Bayes parte do princı́pio
conômicos, tais como informações sobre ensino fundamental e         que não exista relação de dependência entre os atributos, no
médio (tipo de escola); Renda familiar; Trabalho remunerado;          entanto, nem sempre isto é possı́vel [22].
Se possui computador em casa; Acesso à internet etc.                     A técnica de Redes Neurais é muito utilizada em tarefas de
   Esses dados são essenciais para compreender quais são             classificação, regressão e segmentação. Os dados são trabalha-
as potenciais deficiências e obstáculos enfrentados pelos do-        dos com base no funcionamento do cérebro humano, apren-
centes, estudantes e gestores, como também ter um entendi-            dendo a tomar decisões baseadas nas experiências anteriores
mento sobre os estudantes da modalidade a distância em                (nas instâncias anteriores dos dados). Os neurônios do cérebro
uma IFES, afinal o principal objetivo é obter um respaldo             são representados por nodos que estão conectados em outros
cientı́fico necessário para detectar padrões e descobrir regras      nodos por sinapses, formando uma rede de processamento.
significativas sobre os ı́ndices de evasão e retenção em cursos a   Os valores das entradas são multiplicados nos neurônios pelos
distância, adquirindo um melhor entendimento acerca da EaD            pesos de suas sinapses, conforme vão percorrendo a rede. Ao
no cenário brasileiro.                                                final, temos uma classificação ou a previsão da entrada [23].
                                                                          As árvores de decisão têm como objetivo principal dividir
A. Métodos de Machine Learning                                        as instâncias em classes. Cada nó da árvore testa o domı́nio
    Os algoritmos de Data Mining interpretam os dados a fim            de uma variável de entrada e o redireciona para o nó seguinte.
de produzir uma quantidade de padrões úteis, válidos e de fácil    Cada sub-árvore representa o resultado de um teste e a folha é
entendimento. Os resultados gerados podem ser usados para              a classificação que aquele registro recebeu. Ao final, cada nó
predições e têm por finalidade conduzir a tomadas de decisões      terminal terá os registros da entrada que se adéquam às regras
inteligentes. O fator humano faz parte de todo o processo, por         regidas por esse nó, representando assim, uma classe [23].
isso não pode ser uma ação totalmente automatizada.                    Os classificadores ensembles, comitê de especialistas, predi-
    Os algoritmos de mineração de dados favorecem a extração       zem a classe de um registro elegendo a maioria dos votos feitos
de informações de grandes volumes de dados, e a análise             pelos classificadores base. Para isso, deve-se evitar: subcon-
estatı́stica desses dados permite que se observem tendências          juntos idênticos (os erros serão os mesmos), e subconjuntos
e respostas para situações diversos, tais como: encontrar e          disjuntos (erros não correlacionados). Para que a performance
detectar cursos onde as evasões são mais frequentes; determi-        de um método ensemble seja melhor que a de um classificador
nar perfis (comportamentos tı́picos), e associar categorias de         simples, os classificadores base devem ser independentes, e
alunos e cursos com caracterı́sticas de sucesso na EaD; elen-          devem ter performance melhor que um random guessing [11].
car dificuldades frequentemente enfrentadas pelos docentes e           Os dois tipos de ensembles escolhidos neste trabalho foram:
discentes da EaD; identificar nos AVAs as disciplinas com alto         Bagging e Adaboost.
ı́ndice de reprovação e suas causas etc.                                O Support Vector Machines é baseado no conceito de planos
    Alguns pré-requisitos são essenciais para o sucesso da           de decisão que definem limites de decisão (Vetor Suporte). Um
mineração de dados, por isso foram construı́dos modelos              plano de decisão separa um conjunto de objetos com diferentes
baseados em metas preditivas e descritivas. Diante das metas           associações de classe. SVM é essencialmente um método
preditivas, tem-se, por exemplo, a utilização da tarefa de           classificação que executa tarefas de classificação através da
Classificação por Árvore de Decisão.                               construção de hiperplanos em um espaço multidimensional
    Dentre os vários métodos de Machine Learning disponı́veis        que separa casos de diferentes rótulos de classe. Ele suporta
na literatura, cinco deles se mostram adequados aos resultados         ambas as tarefas de regressão e de classificação e pode
pretendidos por este estudo. Os métodos aplicados foram:              lidar com múltiplas variáveis contı́nuas. Para construir um
Classificação por Árvore de Decisão, Classificação Bayesiana,    hiperplano ótimo, o SVM emprega um algoritmo iterativo de
Classificação por Redes Neurais, Classificação por Ensembles       formação, que é usado para minimizar uma função de erro
e Classificação por Support Vector Machine - SVM, todos              [24].
inerentes ao Aprendizado Supervisionado. Os algoritmos de                 Há um número de núcleos que podem ser usados em
classificação utilizados foram: NaiveBayes, J48 (árvore de          modelos Support Vector Machines. Estes incluem linear, poli-
decisão), MultilayerPerceptron - que implementa o backprop-           nomial, função radial base (RBF) e sigmóide. Estas funções de
agation para classificação (Redes Neurais), LibSVM (SVM),            núcleo representam um produto de ponto de pontos de dados
Bagging e AdaBoost (Ensembles).                                        de entrada mapeado para o maior espaço de caracterı́sticas
    A Classificação Bayesiana (Bayesian Classification) é uma       dimensionais por transformação.
técnica estatı́stica (probabilidade condicional) baseada no teo-         Nem todas as regras geradas pelo Data Mining são conside-
rema de Thomas Bayes. Segundo o teorema de Bayes, é                   radas relevantes para o processo de extração do conhecimento
possı́vel encontrar a probabilidade de certo evento ocorrer,           em banco de dados, visto que o especialista precisa interpretá-
dada a probabilidade de outro evento que já ocorreu. Com-             las no contexto em que está inserido e só depois aplicá-las,
parativos mostram que os algoritmos Bayesianos, chamados               afinal o fator humano também faz parte do processo. Desta
de Naive Bayes, obtiveram resultados compatı́veis com os               forma, o especialista do negócio precisa avaliar as regras para
que o resultado seja aplicável na prática.                          permite avaliar subconjuntos de atributos em dados de treina-
                                                                      mento ou um conjunto de testes independente. Utiliza um
                     III. E XPERIMENTOS                               classificador para estimar a ”mérito” de um conjunto de
   Com o objetivo de verificar a adequação do conjunto              atributos. Junto ao CSE foi utilizado um método de pesquisa de
de dados propostos, foram realizados experimentos com a               atributos BestFirst, que auxilia na busca por um subconjunto
base de dados citada anteriormente, contendo informações            de atributos que represente a base original. Foi escolhida
de estudantes em quatro cursos realizado a distância. Foram          a direção Forward, que começa com o conjunto vazio de
desenvolvidos procedimentos para extração dos atributos con-        atributos e procura para frente, considerando todas as possı́veis
siderados significativos para este trabalho.                          adições de atributos individuais e deleções em um determinado
                                                                      ponto, no caso o searchTermination que é o parâmetro de
A. Pré-Processamento                                                 parada do método, sendo o valor 5 escolhido nesse trabalho.
   Para se ter uma visão geral preliminar dos dados, se                 Após a realização da etapa anterior, foram selecionados 20
configura uma boa prática fazer inicialmente uma análise            atributos dos 214 da base original, isto significa que estes
descritiva dos dados, também conhecida como análise ex-             atributos representam melhor a base original em termos de
ploratória dos dados. Neste diagnóstico inicial, medições são    generalização do problema. Dentre os atributos selecionados,
feitas sobre os atributos dos dados como média/mediana,              tem-se as seguintes informações sobre os estudante: nome do
desvio padrão, valor mı́nimo, máximo, outliers, entre outros        curso, área de conhecimento, polo, ano de ingresso, status
. Estas medidas auxiliam no encaminhamento da solução               acadêmico, estado civil, idade, naturalidade (estado), tipo de
de pré-processamento a ser adotada e também, em caso de             deficiência, tipo de escola do ensino médio, tipo de escola
valores ausentes já será possı́vel verificar a sua existência e,   do ensino fundamental, se possui internet, se possui trabalho
consequentemente a sua solução.                                     remunerado e média geral.
   Valores ausentes, ou missing values , são atributos que não
tem valores preenchidos. O tratamento pode ser feito pela             B. Avaliação dos Modelos de Machine Learning
simples remoção do atributo (em caso de grande incidência)
ou do exemplar (em caso de poucas ocorrências). Ou ainda                O objetivo principal do experimento é verificar a relevância
o valor pode ser substituı́do por uma constante calculara pela        dos atributos elencados acima, bem como analisar o impacto
média, mediana, valor máximo ou mı́nimo. Outro tratamento           da aplicação de técnica de seleção de atributos na acurácia da
que pode ser diagnosticado na análise descritiva são os valores     previsão de desempenho dos seis classificadores. A acurácia
ruidosos ou que estão fora do padrão (outliers). Este tipo de       é a proporção entre o número de estudantes corretamente
situação ocorre quando surge algum exemplar com valor de            classificados pelos algoritmos em sua respectiva classe, e o
atributo que foge de um padrão. Por fim, um cenário que             número total de estudantes considerados no estudo.
surge tipicamente quando se faz integração de dados é a               Para o desenvolvimento deste trabalho foram utilizados seis
inconsistência de valores. A inconsistência ocorre quando há       algoritmos de classificação, como descritos anteriormente, que
falta de um critério bem definido entre os valores dos atributos     são eles: MultilayerPerceptron (MLP), NaiveBayes, SVM, J48,
ou dos exemplares.                                                    Adaboost e Bagging. Para auxiliar na avaliação dos resultados
   A normalização de valores consiste em uma técnica para          e o cálculo da acurácia utilizou-se o método K-fold Cross-
deixar os valores dos atributos em uma mesma escala. Abor-            Validation, que consiste em uma técnica para a estratificação
dagem de solução comum é calcular o valor máximo de um            da base dados em conjunto de treinamento e teste. Geralmente,
atributo para dividi-lo aos demais exemplares com mesmo               sugere-se a adoção de k igual a 10 como valor padrão para o
atributo. A normalização faz parte de um tratamento chamado         número de partições dos dados [25].
transformação de valores que ainda compreende a mudança               O primeiro experimento corresponde à seleção dos me-
de tipos categóricos para numéricos. No caso do gênero, por        lhores parâmetros definidos a priori para cada um dos seis
exemplo, atributo nominal, como são apenas dois valores, eles        algoritmos. O processo de avaliação de desempenho de cada
poderiam ser transformados para binário 0 e 1. No entanto,           combinação de parâmetros se baseia no método descrito ante-
deve-se ter cuidado para não transformar um atributo nominal         riormente, sendo 30 parâmetros para MLP, SVM e Bagging, 18
em ordinal no processo de transformação, isto é, o valor não      parâmetros para J48, 6 parâmetros para Adaboost, e nenhum
pode ideia de ordem.                                                  parâmetro para NaiveBayes. Assim é possı́vel definir quais
   Finalmente, foi feita a seleção de atributos na fase de          são os melhores parâmetros de cada algoritmo, para posteri-
pré-processamento. Dentre as causas que levam a se fazer             ormente definir qual a porcentagem de assertividade de cada
este tipo de análise, tem-se: integração de bases, falta de        um deles.
definição clara de atributos que representam um problema,              Os gráficos apresentados na “Fig. 2” destacam os resultados
grande disponibilidade de dados e outras. A seleção consiste        obtidos no experimento de seleção de parâmetros por modelo,
basicamente em escolher o melhor conjunto de dados que                demonstrando a precisão dos algoritmos para predizer o de-
representam a base original com a mesma capacidade analı́tica.        sempenho em cada combinação de parâmetros. O resultado
   Para a realização da seleção de exemplares foi utilizado       apresentado, no eixo vertical, corresponde a um valor médio
o método Classifier Subset Evaluator (CSE). Este método             obtido para as combinações de parâmetros, onde foram se-
lecionados os melhores parâmetros de cada algoritmo para a           a técnica de otimização de parâmetros empregada no experi-
realização do segundo experimento.                                  mento 1, obteve os melhores resultados em termos da taxa
                                                                      acurácia. Destaca-se que nos seis classificadores utilizados
                                                                      neste experimento esta tendência pode ser observada.
                                                                         Um aspecto a ser destacado, a partir dos testes realizados,
                                                                      aponta para a viabilidade da utilização de um conjunto am-
                                                                      plo de atributos para representação do perfil dos estudantes,
                                                                      potencialmente generalizáveis a diversos cenários de cursos
                                                                      EAD.
                                                                         Tomando-se como base o experimento 2, observou-se que
                                                                      o algoritmo J48 apresentou melhor classificação, com taxa de
                                                                      acerto de 90,35% e 0,28 de desvio padrão. Já o algoritmo
                                                                      Adaboost apresentou menor acurácia, 87,35%, e maior desvio
                                                                      padrão (0,59). Os resultados obtidos demonstram que os al-
                                                                      goritmos Bagging, MultilayerPercepetron, J48 e SVM podem
                                                                      ser utilizados para realizar inferências em relação aos ı́ndices
                                                                      de evasão dos alunos, por possuı́rem taxa de acurácia acima
                                                                      da média geral (89,51%) de todos os algoritmos analisados.
                                                                         Apesar do desbalanceamento do atributo classe (Situação
                                                                      Acadêmica), a medida de desempenho utilizada neste trabalho
                                                                      (Taxa de Acurácia) está coerente com as demais métricas da
                                                                      matriz de confusão, a saber: Precision, Recall, F-Measure, e
                                                                      AUC - Area Under the ROC Curve.
                                                                         A partir dos resultados dos experimentos foi possı́vel
                                                                      adquirir o respaldo cientı́fico necessário para detectar padrões
                                                                      e descobrir regras significativas na tentativa de melhor com-
                                                                      preender a EaD, esta que, por sua vez, exige inovação e
                                                                      infraestrutura tecnológica, além de apoio ao estudante em
       Fig. 2. Experimento de seleção de parâmetros por modelo.
                                                                      nı́veis mais elevados, em comparação à modalidade presencial.
                                                                      Conforme relatório analı́tico do Censo da EaD no Brasil,
    Para o experimento 2, foram utilizados todos os melhores          53% dos estudantes brasileiros da modalidade a distância são
parâmetros obtidos no experimento 1. Com o objetivo de testar        mulheres, com 39,3% entre 26-30 anos. Aproximadamente
a significância estatı́stica dos resultados obtidos, utilizou-se a   70% das instituições privadas e públicas federais contam com
técnica de teste estatı́stico pair-wise T-Test [25], com nı́vel      estudantes que, em sua maioria, estudam e trabalham. Em se
significância de 5%.                                                 tratando das taxas de evasão reportadas nos cursos a distância,
    A Tabela I apresenta o resumo com os resultados do                O Censo da EaD registra uma evasão de 26% a 50% –
segundo experimento executado. Nela, constam o percentual             alertando que a desistência dos estudantes da EaD é maior em
de acurácia médio e o desvio padrão dos seis algoritmos            comparação aos cursos presenciais. As instituições apontam o
analisados. Como o desvio padrão refere-se a quantidade de           fator tempo como o mais influente no fenômeno da evasão,
variação (dispersão) dos dados dentro da amostra em relação      seguido do fator financeiro [26].
à média, então um baixo valor para desvio padrão indica que
                                                                                             V. C ONCLUS ÕES
a amostra tende a ser mais homogênea.
                                                                         O trabalho pretende provocar interesse em instituições,
                               TABLE I                                pesquisadores e profissionais envolvidos com a implementação
     ACUR ÁCIA M ÉDIA E DESVIO PADR ÃO DOS CLASSIFICADORES .       e utilização de sistemas de informações gerenciais de apoio
                         Adaboost           J48          Bagging      à decisão no contexto da EaD. Tais tecnologias se propõem
     Acurácia                                                        em fornecer indicadores de qualidade às IFES, proporcionando
                        87,35 (0,59)    90,35 (0,28)   90,33 (0,31)
     (Desvio Padrão)                                                 tomadas de decisões que visam, dentre outras ações, a redução
                            MLP            SVM          NaiveBayes
                                                                      da evasão e retenção de estudantes e, consequentemente, a
     Acurácia                                                        melhoria da EaD.
                        89,85 (0,57)    89,91 (0,38)   89,31 (0,56)
     (Desvio Padrão)                                                    A metodologia foi fundamentada no processo KDD, que por
                                                                      sua vez propõe encontrar e interpretar padrões/regras mediante
                                                                      integração de diversas fontes de dados, sendo proposto para
              IV. A N ÁLISE DE R ESULTADOS                           determinar as etapas que produzem conhecimentos a partir
  Avaliando os resultados obtidos percebe-se que a utilização       dos dados e, principalmente, definir a etapa de Data Mining
do conjunto completo de atributos proposto, juntamente com            [27]. O objetivo é extrair de bases de dados, sem nenhuma
formulação prévia de hipóteses, informações desconhecidas a                 [10] Brandão, J. O. S.; Silva, A. J.; Gouveia, R. M. M.; Soares, R. G. F.
priori, factı́veis, válidas e acionáveis, que poderão ser úteis                    Aprendizagem de Máquina para Predição de Desempenho de Estudantes
                                                                                       de Graduação na UFPE. In: Brazilian Conference on Intelligent Systems
para a tomada de decisão [28], [29].                                                  (BRACIS) – XIV Encontro Nacional de Inteligência Artificial e Com-
   Por meio da análise do histórico acadêmico e perfil socioe-                      putacional (ENIAC), 2017.
conômico de estudantes, uma instituição educacional pode ser                   [11] E. A. Amrieh, T. Hamtini, I. Aljarah. Mining educational data to predict
                                                                                       student’s academic performance using ensemble methods. International
capaz de acompanhar o rendimento acadêmico do discente,                               Journal of Database Theory and Application, v. 9, n. 8, p. 119-136,
verificando se ele possui potencial para se evadir ou não do                          2016, doi: http://dx.doi.org/10.14257/ijdta.2016.9.8.13
curso. Tendo esse conhecimento prévio, as instituições de                      [12] C. N. Freitas, R. M. M. Gouveia, A. Silva. Online Analytical Processing
                                                                                       em ambientes virtuais de aprendizagem da educação a distância. In:
ensino superior poderão avaliar as necessidades individuais do                        DesafIE - Workshop de Desafios da Computação Aplicada à Educação
aluno, e assim, agir de maneira proativa e mais efetiva para                           – XXXV Congresso da Sociedade Brasileira de Computação, 2015.
que o estudante possa continuar sua graduação.                                  [13] L. A. Silva; A. H. Morin; T. M. C. Sato. Práticas de Mineração de
                                                                                       Dados no Exame Nacional do Ensino Médio. In: Congresso Brasileiro
   Com os resultados dos experimentos realizados neste tra-                            de Informática na Educação – Workshop de Mineração de Dados em
balho, é possı́vel a obtenção de indicadores a serem im-                            Ambientes Virtuais do Ensino/Aprendizagem, 2014. p. 651-660.
plementados em ambientes virtuais de aprendizagem para a                          [14] R. Baker, S. Isotani, A. Carvalho. Mineração de dados
                                                                                       educacionais: oportunidades para o Brasil. Revista Brasileira
previsão de ı́ndice de evasão de estudantes. Estes indicadores                       de Informática na Educação, v. 19, n. 02, p. 03, 2011,
podem ser melhorados à medida que a base de dados de                                  doi:http://dx.doi.org/10.5753/rbie.2011.19.02.03
treinamento for aumentando. Portanto, o trabalho viabilizou                       [15] A. J. C. Kampff. Mineração de dados educacionais para geração de
a avaliação de desempenho de seis modelos de Machine                                 alertas em ambientes virtuais de aprendizagem como apoio à prática
                                                                                       docente. Tese (doutorado), Universidade Federal do Rio Grande do
Learning – NaiveBayes, J48, MultilayerPerceptron, LibSVM,                              Sul, Programa de Pós-Graduação em Informática na Educação. Porto
Bagging e AdaBoost, com vistas à descoberta de conhecimento                           Alegre/RS/Brasil, 2009.
no contexto da educação superior brasileira da modalidade a                     [16] L. C. Santana; A. M. Maciel; R. L. Rodrigues. Avaliação do perfil de
                                                                                       uso no ambiente moodle utilizando técnicas de mineração de dados.
distância.                                                                            In: Simpósio Brasileiro de Informática na Educação, 2014. Congresso
                                                                                       Brasileiro de Informática na Educação, 2014.
                           AGRADECIMENTO                                          [17] H. Guércio, P. Marques, V. Ströele, C. K. Pereira, E. Barrere. Análise
                                                                                       do desempenho estudantil na educação a distância aplicando técnicas
   Os autores agradecem o apoio da Fundação de Amparo a                              de mineração de dados. In: Congresso Brasileiro de Informática na
Ciência e Tecnologia de Pernambuco - FACEPE, Conselho Na-                             Educação – Workshop de Mineração de Dados em Ambientes Virtuais
                                                                                       de Ensino/Aprendizagem, p. 641-650, 2014
cional de Desenvolvimento Cientı́fico e Tecnológico - CNPq,                      [18] E. Gottardo, C. A. A. Kaestner, R. V. Noronha. Estimativa de
e Universidade Federal Rural de Pernambuco - UFRPE.                                    desempenho acadêmico de estudantes: análise da aplicação de
                                                                                       técnicas de mineração de dados em cursos a distância. Revista
                                                                                       Brasileira de Informática na Educação, v. 22, n. 01, p. 45, 2014,
                              R EFERENCES                                              doi:http://dx.doi.org/10.5753/rbie.2014.22.01.45
 [1] J. M. Moran. Educação a distância no brasil: situação e perspectivas,   [19] S. Singh, V. Kumar. Classification of Student’s data Using Data Mining
     2014. Disponı́vel em: http://www2.eca.usp.br/moran. Acesso: 18 jun.               Techniques for Training & Placement Department in Technical Educa-
     2020.                                                                             tion. International Journal of Computer Science and Network - IJCSN,
                                                                                       Vol. 1(4), 2012.
 [2] BRASIL. Leis de diretrizes e bases da educação nacional. Decreto n.
     5.622, de 19 de dezembro de 2005. Regulamenta o art. 80 da Lei               [20] M. L. B. Lorenzo, E. G. Sánchez. Predicción de pérdida de implicación
     9.394/96, 20 dez. 1996. Disponı́vel em: http://encurtador.com.br/ckKSZ.           de los participantes de un curso en lı́nea masivo y abierto. In: XVIII
     Acesso em 08 jun. 2014.                                                           Simposio Internacional de Informática Educativa - SIIE, 2016.
 [3] R. M. M. Gouveia. Análises e perspectivas da educação a distância no     [21] F. Tanaka, G. Silva, S. Peres, M. Fantinato. Predição de desempenho de
     ensino superior brasileiro. Revista Acesso Livre, p. 207-228, 2017.               alunos no ensino a distância via mineração de processos. In: Brazilian
 [4] C. Romero and S. Ventura. Educational Data Mining: A Review of                    Conference on Intelligent Systems (BRACIS) - XIV Encontro Nacional
     the State of the Art” in IEEE Transactions on Systems, Man, and                   de Inteligência Artificial e Computacional – ENIAC, 2017.
     Cybernetics, Part C (Applications and Reviews), vol. 40, no. 6, pp. 601-     [22] A. Q. Ayinde, A. B. Adetunji, M. Bello, O. A. Odeniyi. Performance
     618, 2010, doi: 10.1109/TSMCC.2010.2053532.                                       Evaluation of Naive Bayes and Decision Stump Algorithms in Mining
 [5] C. Romero and S. Ventura. Educational data mining and learning                    Students’ Educational Data. International Journal of Computer Science
     analytics: An updated survey. Wiley Interdisciplinary Reviews: Data               Issues - IJCSI, v. 10, n. 4, p. 147, 2013.
     Mining and Knowledge Discovery, v. 10, n. 3, p. e1355, 2020, doi:            [23] T. Devasia, T. P. Vinushree, V. Hegde. Prediction of students perfor-
     https://doi.org/10.1002/widm.1355                                                 mance using Educational Data Mining”. International Conference on
 [6] A. Peña-Ayala. Educational data mining: a survey and a data mining-              Data Mining and Advanced Computing - Sapience, IEEE, 2016, doi:
     based analysis of recent works. Expert systems with applications, v. 41,          10.1109/SAPIENCE.2016.7684167
     p. 1432-1462, 2014, doi: https://doi.org/10.1016/j.eswa.2013.08.042          [24] D. Ifenthaler, C. Widanapathirana. Development and Validation of
 [7] S. K. Mohamad, Z. Tasir. Educational data mining a review.                        a Learning Analytics Framework: Two Case Studies Using Support
     Procedia Social and Behavioral Sciences, v. 97, 2013, doi:                        Vector Machines. Springer - Tech Know Learn 19, 221–240, 2014, doi:
     https://doi.org/10.1016/j.sbspro.2013.10.240                                      https://doi.org/10.1007/s10758-014-9226-4
 [8] H. Aldowah, H. Al-Samarraie, W. M. Fauzy. Educational data min-              [25] I. H. Witten, E. Frank, M. A. Hall. Data mining: practical machine
     ing and learning analytics for 21st century higher education: A re-               learning tools and techniques. 4rd ed. Morgan Kaufmann - Elsevier,
     view and synthesis. Telematics and Informatics, 37, 13-49, 2019, doi:             2016.
     https://doi.org/10.1016/j.tele.2019.01.007                                   [26] ABED – Associação Brasileira de Educação a Distância. Censo EAD
 [9] E. Fernandes, M. Holanda, M. Victorino, V. Borges, R. Car-                        BR: relatório analı́tico da aprendizagem a distância no brasil. Inter-
     valho, G. V. Erven. Educational data mining: predictive anal-                     Saberes, 2018.
     ysis of academic performance of public school students in                    [27] P. Tan, M. Steinbach, A. Karpatne, V. Kumar. Introduction to Data
     the capital of Brazil. Journal of Business Research, v. 94,                       Mining”. 2nd ed. Pearson, 2018.
     p. 335-343, 2019, doi: https://doi.org/10.1016/j.jbusres.2018.02.012         [28] W. J. Frawley, G. Piatetsky-Shapiro, C. J. Matheus. Knowledge discov-
     https://www.overleaf.com/project/5f0c75b9b4fb520001add8f4                         ery in databases: An overview. AI magazine, v. 13, n. 3, p. 57, 1992.
[29] U. Fayyad, G. Piatetsky-Shapiro, P. Smyth. From data mining to
     knowledge discovery in databases. AI Magazine, v. 17, n. 3, p. 37-54,
     1996.