=Paper=
{{Paper
|id=Vol-2733/paper20
|storemode=property
|title=Métodos de Machine Learning Aplicados no Cenário da Educaçáo a Distância Brasileira (Machine Learning Techniques Applied to the Brazilian Distance Education)
|pdfUrl=https://ceur-ws.org/Vol-2733/paper20.pdf
|volume=Vol-2733
|authors=Charles Nicollas C. Freitas,Roberta M. M. Gouveia,Rodrigo G. F. Soares
|dblpUrl=https://dblp.org/rec/conf/siie/FreitasGS20
}}
==Métodos de Machine Learning Aplicados no Cenário da Educaçáo a Distância Brasileira (Machine Learning Techniques Applied to the Brazilian Distance Education)==
<pdf width="1500px">https://ceur-ws.org/Vol-2733/paper20.pdf</pdf>
<pre>
          Métodos de Machine Learning Aplicados no
          Cenário da Educação a Distância Brasileira
                   Charles Nicollas C. Freitas                              Roberta M. M. Gouveia                  Rodrigo G. F. Soares
     Departamento de Estatı́stica e Informática - DEINFO                      DEINFO - UFRPE                       DEINFO - UFRPE
     Universidade Federal Rural de Pernambuco - UFRPE                           Recife-PE, Brasil                    Recife-PE, Brasil
                      Recife-PE, Brasil                                      roberta.gouveia@ufrpe.br            rodrigo.gfsoares@ufrpe.br
                  cnicollas21@hotmail.com


   Abstract—Tackling student evasion has been a major challenge             tional Data Mining - EDM, Machine Learning (ML), Banco
for the Brazilian Educational System. In the last few years, there          de Dados, estatı́stica, dentre outras que compõem a base de
has been an increasing interest in Distance Education to address            conhecimento utilizada na análise de dados educacionais.
such an important issue. This new paradigm facilitates the
attendance of students who have difficulties in attending classes              Este trabalho aplica o processo Knowledge Discovery in
in person due to work, geographical or socioeconomic reasons.               Databases (KDD), também conhecido como Descoberta de
However, Distance Education has also shown a growing number                 Conhecimento em Bases de Dados, com intuito de encontrar
of evading students. To tackle Distance Education evasion,                  padrões de comportamento e descobrir novos conhecimentos
we propose the use of Data Mining and Machine Learning                      em bases de dados educacionais. A motivação do estudo surge
techniques to predict the number of students at risk of evasion.
Such an approach might help Education Institutions to quantify,             do interesse em adquirir regras significativas, na tentativa
plan and develop solutions to this problem. Our work employs                de melhor compreender algumas adversidades da educação
Decision Trees, Bootstrap Aggregating Ensemble, Multilayer                  superior, enfrentados na modalidade a distância. Assim, os
Perceptron and Support Vector Machines to produce accurate                  resultados desse estudo podem ser úteis para profissionais
estimates of evading students in Higher Education Institutions              envolvidos com a implementação de métodos de Mineração de
that have Distance Education programs. Our experiments
showed that our approach could deliver good generalization                  Dados - MD, do inglês Data Mining, no contexto da Educação
performance.                                                                a Distância (EaD).
                                                                               Inicialmente foi realizado um levantamento acerca de traba-
   Resumo—Combater a evasão de alunos tem sido um grande                   lhos relacionados com EaD e as áreas interdisciplinares elen-
desafio para o Sistema Educacional Brasileiro. Nos últimos anos,           cadas acima. Em seguida, focou-se na obtenção e tratamento
tem havido um interesse crescente pela Educação a Distância
para lidar com tal problema. Esse novo paradigma facilita                   dos dados, dando seguimento à etapa de pré-processamento,
o atendimento a alunos que têm dificuldade em frequentar                   finalizando com aplicação de técnicas e algoritmos de Data
as aulas presencialmente por motivos laborais, geográficos ou              Mining para descoberta de novos conhecimentos e detecção
socioeconômicos. No entanto, a Educação a Distância também             de padrões nos dados. Diante desse contexto, o objetivo do
tem mostrado um número crescente de alunos evadidos. Para                  trabalho consiste em aplicar o processo KDD para traçar
enfrentar a evasão na Educação a Distância, propomos o uso
de técnicas de Data Mining e Machine Learning para prever o                o perfil da EaD em uma universidade pública brasileira,
número de alunos em risco de evasão. Tal abordagem pode ajudar            com vista à obtenção de um melhor entendimento acerca de
as instituições de ensino a quantificar, planejar e desenvolver           estudantes e cursos realizados em ambientes e-learning.
soluções para este problema. Nosso trabalho emprega Árvores de              A busca por uma educação além do limite espaço-tempo,
Decisão, Bootstrap Aggregating Ensemble, Multilayer Perceptron             que visa transformar e evoluir o processo tradicional de
e Support Vector Machines para produzir estimativas precisas de
evasão de alunos em instituições de ensino superior com progra-
                                                                            aprendizagem, é uma das propostas da EaD [1]. O conceito
mas de Educação a Distância. Nossos experimentos mostraram               formal de EaD, definido pelo Secretaria de Educação Superior
que nossa abordagem pode fornecer um bom desempenho de                      (SESu) do Ministério da Educação (MEC), está presente no
generalização para a predição de evasão.                               Decreto no 5.622, 19.12.2005, que regulamenta o Art. 80 da
   Index Terms—Educational Data Mining, Machine Learning,                   Lei 9394/96, Lei de Diretrizes e Bases da Educação Nacional
Knowledge Discovery in Databases, Educational Systems, Algo-
                                                                            - LDB. De acordo com o MEC, a EaD é definida como
rithms
                                                                            [2]: ”A modalidade educacional na qual a mediação didático-
                                                                            pedagógica nos processos de ensino e aprendizagem ocorre
                         I. I NTRODUÇ ÃO
                                                                            com a utilização de meios e tecnologias de informação e
   As tecnologias de informação e comunicação, quando bem               comunicação, com estudantes e professores desenvolvendo
utilizadas, tornam-se um diferencial para instituições edu-               atividades educativas em lugares ou tempos diversos.”
cacionais que buscam excelência em sua atuação. Este ar-                    A internet e os softwares educacionais de suporte ao
tigo insere-se nas áreas interdisciplinares de Data Science,               processo de ensino-aprendizagem surgiram como potenci-
Mineração de Dados Educacionais - MDE, do inglês Educa-                  alizadores da EaD, dando inı́cio ao termo e-learning, ou


       Copyright © 2020 for this paper by its authors. Use permitted under Creative Commons License Attribution 4.0 International (CC BY 4.0).
aprendizagem eletrônica, que especifica a EaD realizada por
meio de plataformas computacionais e Ambientes Virtuais
de Aprendizagem - AVA. Vale destacar que existe uma sutil
diferença entre os termos EaD e e-learning, já que a EaD
pode ser realizada sem o suporte eletrônico, enquanto e-
learning necessita do suporte eletrônico [3]. Assim, nesse
trabalho é utilizado o termo Educação a Distância de forma
genérica, tanto para referenciar a EaD tradicional (sem o
suporte eletrônico), como e-learning (com suporte eletrônico),
ou seja, EaD designando a modalidade de ensino a distância
independentemente da mı́dia que a suporta.
   Embora tenha aumentado o número de instituições educa-
cionais que aderiram à EaD em seus cursos de graduação                           Fig. 1. Principais áreas relacionadas com EDM.
e especializações, o Brasil ainda está em fase de transição
nessa modalidade, visto que algumas delas estão se limitando a
reproduzir para o ambiente virtual pequenas adaptações do en-            O artigo está organizado como segue: a seção 2 tem o ob-
sino presencial. Em alguns casos, as aulas são disponibilizadas        jetivo de contextualizar o problema e os métodos de Machine
do ensino presencial para o virtual sem qualquer alteração            Learning usados no trabalho. Na seção 3 são descritos os
didático-pedagógica nos processos de ensino-aprendizagem.             experimentos realizados. A seção 4 apresenta os resultados
Essas práticas contribuem para aumentar os ı́ndices de evasão         e suas respectivas análises. Por fim, as conclusões e possı́veis
e retenção dos estudantes.                                            trabalhos futuros são apresentados na seção 5.
   A Mineração de Dados Educacionais utiliza técnicas de
MD para explorar dados oriundos de contextos educacionais,                                     II. M ETODOLOGIA
sendo aplicada nos seguintes domı́nios: (I) Educação Offline:            A aplicação do Data Mining visa encontrar o perfil do
para análises de dados de desempenho e comportamento dos               estudante e detectar ineficiências da EaD, que por sua vez
estudantes, bem como análises de currı́culo/histórico escolar,        desestimulam os alunos a prosseguirem nos cursos. Os resul-
ou seja, dados gerados em ambientes de sala de aula; (II)               tados obtidos com Data Mining são utilizados a fim de detectar
Aprendizagem Eletrônica, mais conhecida como e-learning,               padrões, descobrir regras significativas e estabelecer relações
e Sistema de Gestão da Aprendizagem, do inglês Learning               entre os ı́ndices de evasão e retenção, o perfil socioeconômico
Management System - LMS: para análise de dados armazena-               dos alunos e as caracterı́sticas inerentes da EaD. Ao consta-
dos em sistemas LMS no formato de logs e bases de da-                   tar tais relacionamentos e pontos fracos, ações poderão ser
dos; (III) Sistemas Tutores Inteligentes, do inglês Intelligent        tomadas, por parte da instituição, para eliminá-las, buscando
Tutoring System - ITS, e Sistemas Hipermı́dias Adaptativos              reduzir os altos ı́ndices de evasão constatados na modalidade
Educacionais, do inglês Adaptive Educational Hypermedia                a distância.
System: os quais são aplicados sobre dados de sistemas que                A principal relevância da pesquisa no desenvolvimento
se adaptam ao percurso de cada estudante no ambiente virtual            cientı́fico e tecnológico refere-se ao fato do trabalho propor
de aprendizagem [4].                                                    uma análise do cenário da EaD, por meio do processo com-
   Conforme ilustra a “Fig. 1”, a EDM é a combinação                 putacional de descoberta de conhecimento em bases de dados,
de 3 (três) principais áreas de conhecimento: Ciência da             utilizando técnicas de classificação de padrões.
Computação, Educação e Estatı́stica. A interseção dessas áreas      Foram obtidos dados acadêmicos de uma Instituição Federal
fornece três subáreas, que são: e-learning, Data Mining e            de Ensino Superior (IFES) para análise pontual e concreta
Machine Learning, e Learning Analytics.                                 da educação a distância. Os dados dos estudantes da EaD
   A área interdisciplinar de Mineração de Dados Educacionais        referem-se a um perı́odo de 8 anos, e foram obtidos nos
vem se consolidando na última década, tendo vários pa-               formatos txt e xlsx, sendo em seguida, consolidados em um
pers publicados em revistas e conferências relevantes. Alguns          arquivo csv. A pesquisa é baseada no anonimato, por isso
pesquisadores realizaram levantamentos detalhados acerca da             não foram obtidas informações como nome e CPF, visando
MDE, sendo fontes de referências recomendadas [4], [5], [6],           preservar as identidades dos alunos. Foram obtidos dados
[7], [8]. Na literatura existem vários trabalhos relacionados à       dos seguintes cursos: Licenciatura em Letras; Licenciatura em
aplicação de técnicas de MD e ML no contexto educacional             Pedagogia; Licenciatura em Computação e Bacharelado em
[9], [10], [11], [12], [13], [14], [15], [16], [17], [18], [19],        Administração Pública.
[20], [21]. Esses artigos trazem excelentes contribuições sobre          Os dados obtidos foram de contexto histórico, para uma
aplicações de algoritmos de mineração de dados, tanto no            análise distintiva da evolução da EaD na instituição, sendo
cenário da educação presencial, quanto em ambientes virtuais         obtidos as seguintes informações: (I) Histórico Escolar; (II)
de aprendizagem da educação a distância. São reflexões fun-        Dados gerais sobre o aluno, tais como: Forma de ingresso;
damentadas sobre os desafios da educação, especialmente em            Perı́odo de ingresso; Curso; Área de Conhecimento; Polo;
instituições públicas de ensino superior.                            Modalidade (licenciatura, bacharelado, tecnólogo etc.); Idade;
Gênero/Sexo; Estado Civil; Naturalidade; Nacionalidade; Et-           métodos de árvore de decisão e redes neurais. Devido a sua
nia/Raça (cor da pele); Deficiência; Situação Acadêmica           simplicidade e o alto poder preditivo, é um dos algoritmos
(Cursando, Concluı́do, Abandono etc.); (III) Dados Socioe-             mais utilizados. O algoritmo Naive Bayes parte do princı́pio
conômicos, tais como informações sobre ensino fundamental e         que não exista relação de dependência entre os atributos, no
médio (tipo de escola); Renda familiar; Trabalho remunerado;          entanto, nem sempre isto é possı́vel [22].
Se possui computador em casa; Acesso à internet etc.                     A técnica de Redes Neurais é muito utilizada em tarefas de
   Esses dados são essenciais para compreender quais são             classificação, regressão e segmentação. Os dados são trabalha-
as potenciais deficiências e obstáculos enfrentados pelos do-        dos com base no funcionamento do cérebro humano, apren-
centes, estudantes e gestores, como também ter um entendi-            dendo a tomar decisões baseadas nas experiências anteriores
mento sobre os estudantes da modalidade a distância em                (nas instâncias anteriores dos dados). Os neurônios do cérebro
uma IFES, afinal o principal objetivo é obter um respaldo             são representados por nodos que estão conectados em outros
cientı́fico necessário para detectar padrões e descobrir regras      nodos por sinapses, formando uma rede de processamento.
significativas sobre os ı́ndices de evasão e retenção em cursos a   Os valores das entradas são multiplicados nos neurônios pelos
distância, adquirindo um melhor entendimento acerca da EaD            pesos de suas sinapses, conforme vão percorrendo a rede. Ao
no cenário brasileiro.                                                final, temos uma classificação ou a previsão da entrada [23].
                                                                          As árvores de decisão têm como objetivo principal dividir
A. Métodos de Machine Learning                                        as instâncias em classes. Cada nó da árvore testa o domı́nio
    Os algoritmos de Data Mining interpretam os dados a fim            de uma variável de entrada e o redireciona para o nó seguinte.
de produzir uma quantidade de padrões úteis, válidos e de fácil    Cada sub-árvore representa o resultado de um teste e a folha é
entendimento. Os resultados gerados podem ser usados para              a classificação que aquele registro recebeu. Ao final, cada nó
predições e têm por finalidade conduzir a tomadas de decisões      terminal terá os registros da entrada que se adéquam às regras
inteligentes. O fator humano faz parte de todo o processo, por         regidas por esse nó, representando assim, uma classe [23].
isso não pode ser uma ação totalmente automatizada.                    Os classificadores ensembles, comitê de especialistas, predi-
    Os algoritmos de mineração de dados favorecem a extração       zem a classe de um registro elegendo a maioria dos votos feitos
de informações de grandes volumes de dados, e a análise             pelos classificadores base. Para isso, deve-se evitar: subcon-
estatı́stica desses dados permite que se observem tendências          juntos idênticos (os erros serão os mesmos), e subconjuntos
e respostas para situações diversos, tais como: encontrar e          disjuntos (erros não correlacionados). Para que a performance
detectar cursos onde as evasões são mais frequentes; determi-        de um método ensemble seja melhor que a de um classificador
nar perfis (comportamentos tı́picos), e associar categorias de         simples, os classificadores base devem ser independentes, e
alunos e cursos com caracterı́sticas de sucesso na EaD; elen-          devem ter performance melhor que um random guessing [11].
car dificuldades frequentemente enfrentadas pelos docentes e           Os dois tipos de ensembles escolhidos neste trabalho foram:
discentes da EaD; identificar nos AVAs as disciplinas com alto         Bagging e Adaboost.
ı́ndice de reprovação e suas causas etc.                                O Support Vector Machines é baseado no conceito de planos
    Alguns pré-requisitos são essenciais para o sucesso da           de decisão que definem limites de decisão (Vetor Suporte). Um
mineração de dados, por isso foram construı́dos modelos              plano de decisão separa um conjunto de objetos com diferentes
baseados em metas preditivas e descritivas. Diante das metas           associações de classe. SVM é essencialmente um método
preditivas, tem-se, por exemplo, a utilização da tarefa de           classificação que executa tarefas de classificação através da
Classificação por Árvore de Decisão.                               construção de hiperplanos em um espaço multidimensional
    Dentre os vários métodos de Machine Learning disponı́veis        que separa casos de diferentes rótulos de classe. Ele suporta
na literatura, cinco deles se mostram adequados aos resultados         ambas as tarefas de regressão e de classificação e pode
pretendidos por este estudo. Os métodos aplicados foram:              lidar com múltiplas variáveis contı́nuas. Para construir um
Classificação por Árvore de Decisão, Classificação Bayesiana,    hiperplano ótimo, o SVM emprega um algoritmo iterativo de
Classificação por Redes Neurais, Classificação por Ensembles       formação, que é usado para minimizar uma função de erro
e Classificação por Support Vector Machine - SVM, todos              [24].
inerentes ao Aprendizado Supervisionado. Os algoritmos de                 Há um número de núcleos que podem ser usados em
classificação utilizados foram: NaiveBayes, J48 (árvore de          modelos Support Vector Machines. Estes incluem linear, poli-
decisão), MultilayerPerceptron - que implementa o backprop-           nomial, função radial base (RBF) e sigmóide. Estas funções de
agation para classificação (Redes Neurais), LibSVM (SVM),            núcleo representam um produto de ponto de pontos de dados
Bagging e AdaBoost (Ensembles).                                        de entrada mapeado para o maior espaço de caracterı́sticas
    A Classificação Bayesiana (Bayesian Classification) é uma       dimensionais por transformação.
técnica estatı́stica (probabilidade condicional) baseada no teo-         Nem todas as regras geradas pelo Data Mining são conside-
rema de Thomas Bayes. Segundo o teorema de Bayes, é                   radas relevantes para o processo de extração do conhecimento
possı́vel encontrar a probabilidade de certo evento ocorrer,           em banco de dados, visto que o especialista precisa interpretá-
dada a probabilidade de outro evento que já ocorreu. Com-             las no contexto em que está inserido e só depois aplicá-las,
parativos mostram que os algoritmos Bayesianos, chamados               afinal o fator humano também faz parte do processo. Desta
de Naive Bayes, obtiveram resultados compatı́veis com os               forma, o especialista do negócio precisa avaliar as regras para
que o resultado seja aplicável na prática.                          permite avaliar subconjuntos de atributos em dados de treina-
                                                                      mento ou um conjunto de testes independente. Utiliza um
                     III. E XPERIMENTOS                               classificador para estimar a ”mérito” de um conjunto de
   Com o objetivo de verificar a adequação do conjunto              atributos. Junto ao CSE foi utilizado um método de pesquisa de
de dados propostos, foram realizados experimentos com a               atributos BestFirst, que auxilia na busca por um subconjunto
base de dados citada anteriormente, contendo informações            de atributos que represente a base original. Foi escolhida
de estudantes em quatro cursos realizado a distância. Foram          a direção Forward, que começa com o conjunto vazio de
desenvolvidos procedimentos para extração dos atributos con-        atributos e procura para frente, considerando todas as possı́veis
siderados significativos para este trabalho.                          adições de atributos individuais e deleções em um determinado
                                                                      ponto, no caso o searchTermination que é o parâmetro de
A. Pré-Processamento                                                 parada do método, sendo o valor 5 escolhido nesse trabalho.
   Para se ter uma visão geral preliminar dos dados, se                 Após a realização da etapa anterior, foram selecionados 20
configura uma boa prática fazer inicialmente uma análise            atributos dos 214 da base original, isto significa que estes
descritiva dos dados, também conhecida como análise ex-             atributos representam melhor a base original em termos de
ploratória dos dados. Neste diagnóstico inicial, medições são    generalização do problema. Dentre os atributos selecionados,
feitas sobre os atributos dos dados como média/mediana,              tem-se as seguintes informações sobre os estudante: nome do
desvio padrão, valor mı́nimo, máximo, outliers, entre outros        curso, área de conhecimento, polo, ano de ingresso, status
. Estas medidas auxiliam no encaminhamento da solução               acadêmico, estado civil, idade, naturalidade (estado), tipo de
de pré-processamento a ser adotada e também, em caso de             deficiência, tipo de escola do ensino médio, tipo de escola
valores ausentes já será possı́vel verificar a sua existência e,   do ensino fundamental, se possui internet, se possui trabalho
consequentemente a sua solução.                                     remunerado e média geral.
   Valores ausentes, ou missing values , são atributos que não
tem valores preenchidos. O tratamento pode ser feito pela             B. Avaliação dos Modelos de Machine Learning
simples remoção do atributo (em caso de grande incidência)
ou do exemplar (em caso de poucas ocorrências). Ou ainda                O objetivo principal do experimento é verificar a relevância
o valor pode ser substituı́do por uma constante calculara pela        dos atributos elencados acima, bem como analisar o impacto
média, mediana, valor máximo ou mı́nimo. Outro tratamento           da aplicação de técnica de seleção de atributos na acurácia da
que pode ser diagnosticado na análise descritiva são os valores     previsão de desempenho dos seis classificadores. A acurácia
ruidosos ou que estão fora do padrão (outliers). Este tipo de       é a proporção entre o número de estudantes corretamente
situação ocorre quando surge algum exemplar com valor de            classificados pelos algoritmos em sua respectiva classe, e o
atributo que foge de um padrão. Por fim, um cenário que             número total de estudantes considerados no estudo.
surge tipicamente quando se faz integração de dados é a               Para o desenvolvimento deste trabalho foram utilizados seis
inconsistência de valores. A inconsistência ocorre quando há       algoritmos de classificação, como descritos anteriormente, que
falta de um critério bem definido entre os valores dos atributos     são eles: MultilayerPerceptron (MLP), NaiveBayes, SVM, J48,
ou dos exemplares.                                                    Adaboost e Bagging. Para auxiliar na avaliação dos resultados
   A normalização de valores consiste em uma técnica para          e o cálculo da acurácia utilizou-se o método K-fold Cross-
deixar os valores dos atributos em uma mesma escala. Abor-            Validation, que consiste em uma técnica para a estratificação
dagem de solução comum é calcular o valor máximo de um            da base dados em conjunto de treinamento e teste. Geralmente,
atributo para dividi-lo aos demais exemplares com mesmo               sugere-se a adoção de k igual a 10 como valor padrão para o
atributo. A normalização faz parte de um tratamento chamado         número de partições dos dados [25].
transformação de valores que ainda compreende a mudança               O primeiro experimento corresponde à seleção dos me-
de tipos categóricos para numéricos. No caso do gênero, por        lhores parâmetros definidos a priori para cada um dos seis
exemplo, atributo nominal, como são apenas dois valores, eles        algoritmos. O processo de avaliação de desempenho de cada
poderiam ser transformados para binário 0 e 1. No entanto,           combinação de parâmetros se baseia no método descrito ante-
deve-se ter cuidado para não transformar um atributo nominal         riormente, sendo 30 parâmetros para MLP, SVM e Bagging, 18
em ordinal no processo de transformação, isto é, o valor não      parâmetros para J48, 6 parâmetros para Adaboost, e nenhum
pode ideia de ordem.                                                  parâmetro para NaiveBayes. Assim é possı́vel definir quais
   Finalmente, foi feita a seleção de atributos na fase de          são os melhores parâmetros de cada algoritmo, para posteri-
pré-processamento. Dentre as causas que levam a se fazer             ormente definir qual a porcentagem de assertividade de cada
este tipo de análise, tem-se: integração de bases, falta de        um deles.
definição clara de atributos que representam um problema,              Os gráficos apresentados na “Fig. 2” destacam os resultados
grande disponibilidade de dados e outras. A seleção consiste        obtidos no experimento de seleção de parâmetros por modelo,
basicamente em escolher o melhor conjunto de dados que                demonstrando a precisão dos algoritmos para predizer o de-
representam a base original com a mesma capacidade analı́tica.        sempenho em cada combinação de parâmetros. O resultado
   Para a realização da seleção de exemplares foi utilizado       apresentado, no eixo vertical, corresponde a um valor médio
o método Classifier Subset Evaluator (CSE). Este método             obtido para as combinações de parâmetros, onde foram se-
lecionados os melhores parâmetros de cada algoritmo para a           a técnica de otimização de parâmetros empregada no experi-
realização do segundo experimento.                                  mento 1, obteve os melhores resultados em termos da taxa
                                                                      acurácia. Destaca-se que nos seis classificadores utilizados
                                                                      neste experimento esta tendência pode ser observada.
                                                                         Um aspecto a ser destacado, a partir dos testes realizados,
                                                                      aponta para a viabilidade da utilização de um conjunto am-
                                                                      plo de atributos para representação do perfil dos estudantes,
                                                                      potencialmente generalizáveis a diversos cenários de cursos
                                                                      EAD.
                                                                         Tomando-se como base o experimento 2, observou-se que
                                                                      o algoritmo J48 apresentou melhor classificação, com taxa de
                                                                      acerto de 90,35% e 0,28 de desvio padrão. Já o algoritmo
                                                                      Adaboost apresentou menor acurácia, 87,35%, e maior desvio
                                                                      padrão (0,59). Os resultados obtidos demonstram que os al-
                                                                      goritmos Bagging, MultilayerPercepetron, J48 e SVM podem
                                                                      ser utilizados para realizar inferências em relação aos ı́ndices
                                                                      de evasão dos alunos, por possuı́rem taxa de acurácia acima
                                                                      da média geral (89,51%) de todos os algoritmos analisados.
                                                                         Apesar do desbalanceamento do atributo classe (Situação
                                                                      Acadêmica), a medida de desempenho utilizada neste trabalho
                                                                      (Taxa de Acurácia) está coerente com as demais métricas da
                                                                      matriz de confusão, a saber: Precision, Recall, F-Measure, e
                                                                      AUC - Area Under the ROC Curve.
                                                                         A partir dos resultados dos experimentos foi possı́vel
                                                                      adquirir o respaldo cientı́fico necessário para detectar padrões
                                                                      e descobrir regras significativas na tentativa de melhor com-
                                                                      preender a EaD, esta que, por sua vez, exige inovação e
                                                                      infraestrutura tecnológica, além de apoio ao estudante em
       Fig. 2. Experimento de seleção de parâmetros por modelo.
                                                                      nı́veis mais elevados, em comparação à modalidade presencial.
                                                                      Conforme relatório analı́tico do Censo da EaD no Brasil,
    Para o experimento 2, foram utilizados todos os melhores          53% dos estudantes brasileiros da modalidade a distância são
parâmetros obtidos no experimento 1. Com o objetivo de testar        mulheres, com 39,3% entre 26-30 anos. Aproximadamente
a significância estatı́stica dos resultados obtidos, utilizou-se a   70% das instituições privadas e públicas federais contam com
técnica de teste estatı́stico pair-wise T-Test [25], com nı́vel      estudantes que, em sua maioria, estudam e trabalham. Em se
significância de 5%.                                                 tratando das taxas de evasão reportadas nos cursos a distância,
    A Tabela I apresenta o resumo com os resultados do                O Censo da EaD registra uma evasão de 26% a 50% –
segundo experimento executado. Nela, constam o percentual             alertando que a desistência dos estudantes da EaD é maior em
de acurácia médio e o desvio padrão dos seis algoritmos            comparação aos cursos presenciais. As instituições apontam o
analisados. Como o desvio padrão refere-se a quantidade de           fator tempo como o mais influente no fenômeno da evasão,
variação (dispersão) dos dados dentro da amostra em relação      seguido do fator financeiro [26].
à média, então um baixo valor para desvio padrão indica que
                                                                                             V. C ONCLUS ÕES
a amostra tende a ser mais homogênea.
                                                                         O trabalho pretende provocar interesse em instituições,
                               TABLE I                                pesquisadores e profissionais envolvidos com a implementação
     ACUR ÁCIA M ÉDIA E DESVIO PADR ÃO DOS CLASSIFICADORES .       e utilização de sistemas de informações gerenciais de apoio
                         Adaboost           J48          Bagging      à decisão no contexto da EaD. Tais tecnologias se propõem
     Acurácia                                                        em fornecer indicadores de qualidade às IFES, proporcionando
                        87,35 (0,59)    90,35 (0,28)   90,33 (0,31)
     (Desvio Padrão)                                                 tomadas de decisões que visam, dentre outras ações, a redução
                            MLP            SVM          NaiveBayes
                                                                      da evasão e retenção de estudantes e, consequentemente, a
     Acurácia                                                        melhoria da EaD.
                        89,85 (0,57)    89,91 (0,38)   89,31 (0,56)
     (Desvio Padrão)                                                    A metodologia foi fundamentada no processo KDD, que por
                                                                      sua vez propõe encontrar e interpretar padrões/regras mediante
                                                                      integração de diversas fontes de dados, sendo proposto para
              IV. A N ÁLISE DE R ESULTADOS                           determinar as etapas que produzem conhecimentos a partir
  Avaliando os resultados obtidos percebe-se que a utilização       dos dados e, principalmente, definir a etapa de Data Mining
do conjunto completo de atributos proposto, juntamente com            [27]. O objetivo é extrair de bases de dados, sem nenhuma
formulação prévia de hipóteses, informações desconhecidas a                 [10] Brandão, J. O. S.; Silva, A. J.; Gouveia, R. M. M.; Soares, R. G. F.
priori, factı́veis, válidas e acionáveis, que poderão ser úteis                    Aprendizagem de Máquina para Predição de Desempenho de Estudantes
                                                                                       de Graduação na UFPE. In: Brazilian Conference on Intelligent Systems
para a tomada de decisão [28], [29].                                                  (BRACIS) – XIV Encontro Nacional de Inteligência Artificial e Com-
   Por meio da análise do histórico acadêmico e perfil socioe-                      putacional (ENIAC), 2017.
conômico de estudantes, uma instituição educacional pode ser                   [11] E. A. Amrieh, T. Hamtini, I. Aljarah. Mining educational data to predict
                                                                                       student’s academic performance using ensemble methods. International
capaz de acompanhar o rendimento acadêmico do discente,                               Journal of Database Theory and Application, v. 9, n. 8, p. 119-136,
verificando se ele possui potencial para se evadir ou não do                          2016, doi: http://dx.doi.org/10.14257/ijdta.2016.9.8.13
curso. Tendo esse conhecimento prévio, as instituições de                      [12] C. N. Freitas, R. M. M. Gouveia, A. Silva. Online Analytical Processing
                                                                                       em ambientes virtuais de aprendizagem da educação a distância. In:
ensino superior poderão avaliar as necessidades individuais do                        DesafIE - Workshop de Desafios da Computação Aplicada à Educação
aluno, e assim, agir de maneira proativa e mais efetiva para                           – XXXV Congresso da Sociedade Brasileira de Computação, 2015.
que o estudante possa continuar sua graduação.                                  [13] L. A. Silva; A. H. Morin; T. M. C. Sato. Práticas de Mineração de
                                                                                       Dados no Exame Nacional do Ensino Médio. In: Congresso Brasileiro
   Com os resultados dos experimentos realizados neste tra-                            de Informática na Educação – Workshop de Mineração de Dados em
balho, é possı́vel a obtenção de indicadores a serem im-                            Ambientes Virtuais do Ensino/Aprendizagem, 2014. p. 651-660.
plementados em ambientes virtuais de aprendizagem para a                          [14] R. Baker, S. Isotani, A. Carvalho. Mineração de dados
                                                                                       educacionais: oportunidades para o Brasil. Revista Brasileira
previsão de ı́ndice de evasão de estudantes. Estes indicadores                       de Informática na Educação, v. 19, n. 02, p. 03, 2011,
podem ser melhorados à medida que a base de dados de                                  doi:http://dx.doi.org/10.5753/rbie.2011.19.02.03
treinamento for aumentando. Portanto, o trabalho viabilizou                       [15] A. J. C. Kampff. Mineração de dados educacionais para geração de
a avaliação de desempenho de seis modelos de Machine                                 alertas em ambientes virtuais de aprendizagem como apoio à prática
                                                                                       docente. Tese (doutorado), Universidade Federal do Rio Grande do
Learning – NaiveBayes, J48, MultilayerPerceptron, LibSVM,                              Sul, Programa de Pós-Graduação em Informática na Educação. Porto
Bagging e AdaBoost, com vistas à descoberta de conhecimento                           Alegre/RS/Brasil, 2009.
no contexto da educação superior brasileira da modalidade a                     [16] L. C. Santana; A. M. Maciel; R. L. Rodrigues. Avaliação do perfil de
                                                                                       uso no ambiente moodle utilizando técnicas de mineração de dados.
distância.                                                                            In: Simpósio Brasileiro de Informática na Educação, 2014. Congresso
                                                                                       Brasileiro de Informática na Educação, 2014.
                           AGRADECIMENTO                                          [17] H. Guércio, P. Marques, V. Ströele, C. K. Pereira, E. Barrere. Análise
                                                                                       do desempenho estudantil na educação a distância aplicando técnicas
   Os autores agradecem o apoio da Fundação de Amparo a                              de mineração de dados. In: Congresso Brasileiro de Informática na
Ciência e Tecnologia de Pernambuco - FACEPE, Conselho Na-                             Educação – Workshop de Mineração de Dados em Ambientes Virtuais
                                                                                       de Ensino/Aprendizagem, p. 641-650, 2014
cional de Desenvolvimento Cientı́fico e Tecnológico - CNPq,                      [18] E. Gottardo, C. A. A. Kaestner, R. V. Noronha. Estimativa de
e Universidade Federal Rural de Pernambuco - UFRPE.                                    desempenho acadêmico de estudantes: análise da aplicação de
                                                                                       técnicas de mineração de dados em cursos a distância. Revista
                                                                                       Brasileira de Informática na Educação, v. 22, n. 01, p. 45, 2014,
                              R EFERENCES                                              doi:http://dx.doi.org/10.5753/rbie.2014.22.01.45
 [1] J. M. Moran. Educação a distância no brasil: situação e perspectivas,   [19] S. Singh, V. Kumar. Classification of Student’s data Using Data Mining
     2014. Disponı́vel em: http://www2.eca.usp.br/moran. Acesso: 18 jun.               Techniques for Training & Placement Department in Technical Educa-
     2020.                                                                             tion. International Journal of Computer Science and Network - IJCSN,
                                                                                       Vol. 1(4), 2012.
 [2] BRASIL. Leis de diretrizes e bases da educação nacional. Decreto n.
     5.622, de 19 de dezembro de 2005. Regulamenta o art. 80 da Lei               [20] M. L. B. Lorenzo, E. G. Sánchez. Predicción de pérdida de implicación
     9.394/96, 20 dez. 1996. Disponı́vel em: http://encurtador.com.br/ckKSZ.           de los participantes de un curso en lı́nea masivo y abierto. In: XVIII
     Acesso em 08 jun. 2014.                                                           Simposio Internacional de Informática Educativa - SIIE, 2016.
 [3] R. M. M. Gouveia. Análises e perspectivas da educação a distância no     [21] F. Tanaka, G. Silva, S. Peres, M. Fantinato. Predição de desempenho de
     ensino superior brasileiro. Revista Acesso Livre, p. 207-228, 2017.               alunos no ensino a distância via mineração de processos. In: Brazilian
 [4] C. Romero and S. Ventura. Educational Data Mining: A Review of                    Conference on Intelligent Systems (BRACIS) - XIV Encontro Nacional
     the State of the Art” in IEEE Transactions on Systems, Man, and                   de Inteligência Artificial e Computacional – ENIAC, 2017.
     Cybernetics, Part C (Applications and Reviews), vol. 40, no. 6, pp. 601-     [22] A. Q. Ayinde, A. B. Adetunji, M. Bello, O. A. Odeniyi. Performance
     618, 2010, doi: 10.1109/TSMCC.2010.2053532.                                       Evaluation of Naive Bayes and Decision Stump Algorithms in Mining
 [5] C. Romero and S. Ventura. Educational data mining and learning                    Students’ Educational Data. International Journal of Computer Science
     analytics: An updated survey. Wiley Interdisciplinary Reviews: Data               Issues - IJCSI, v. 10, n. 4, p. 147, 2013.
     Mining and Knowledge Discovery, v. 10, n. 3, p. e1355, 2020, doi:            [23] T. Devasia, T. P. Vinushree, V. Hegde. Prediction of students perfor-
     https://doi.org/10.1002/widm.1355                                                 mance using Educational Data Mining”. International Conference on
 [6] A. Peña-Ayala. Educational data mining: a survey and a data mining-              Data Mining and Advanced Computing - Sapience, IEEE, 2016, doi:
     based analysis of recent works. Expert systems with applications, v. 41,          10.1109/SAPIENCE.2016.7684167
     p. 1432-1462, 2014, doi: https://doi.org/10.1016/j.eswa.2013.08.042          [24] D. Ifenthaler, C. Widanapathirana. Development and Validation of
 [7] S. K. Mohamad, Z. Tasir. Educational data mining a review.                        a Learning Analytics Framework: Two Case Studies Using Support
     Procedia Social and Behavioral Sciences, v. 97, 2013, doi:                        Vector Machines. Springer - Tech Know Learn 19, 221–240, 2014, doi:
     https://doi.org/10.1016/j.sbspro.2013.10.240                                      https://doi.org/10.1007/s10758-014-9226-4
 [8] H. Aldowah, H. Al-Samarraie, W. M. Fauzy. Educational data min-              [25] I. H. Witten, E. Frank, M. A. Hall. Data mining: practical machine
     ing and learning analytics for 21st century higher education: A re-               learning tools and techniques. 4rd ed. Morgan Kaufmann - Elsevier,
     view and synthesis. Telematics and Informatics, 37, 13-49, 2019, doi:             2016.
     https://doi.org/10.1016/j.tele.2019.01.007                                   [26] ABED – Associação Brasileira de Educação a Distância. Censo EAD
 [9] E. Fernandes, M. Holanda, M. Victorino, V. Borges, R. Car-                        BR: relatório analı́tico da aprendizagem a distância no brasil. Inter-
     valho, G. V. Erven. Educational data mining: predictive anal-                     Saberes, 2018.
     ysis of academic performance of public school students in                    [27] P. Tan, M. Steinbach, A. Karpatne, V. Kumar. Introduction to Data
     the capital of Brazil. Journal of Business Research, v. 94,                       Mining”. 2nd ed. Pearson, 2018.
     p. 335-343, 2019, doi: https://doi.org/10.1016/j.jbusres.2018.02.012         [28] W. J. Frawley, G. Piatetsky-Shapiro, C. J. Matheus. Knowledge discov-
     https://www.overleaf.com/project/5f0c75b9b4fb520001add8f4                         ery in databases: An overview. AI magazine, v. 13, n. 3, p. 57, 1992.
[29] U. Fayyad, G. Piatetsky-Shapiro, P. Smyth. From data mining to
     knowledge discovery in databases. AI Magazine, v. 17, n. 3, p. 37-54,
     1996.

</pre>