<!DOCTYPE article PUBLIC "-//NLM//DTD JATS (Z39.96) Journal Archiving and Interchange DTD v1.0 20120330//EN" "JATS-archivearticle1.dtd">
<article xmlns:xlink="http://www.w3.org/1999/xlink">
  <front>
    <journal-meta />
    <article-meta>
      <title-group>
        <article-title>M e´todos de Machine Learning Aplicados no Cen a´rio da Educa c¸ a˜o a Dist aˆncia Brasileira</article-title>
      </title-group>
      <contrib-group>
        <contrib contrib-type="author">
          <string-name>Charles Nicollas C. Freitas</string-name>
          <email>cnicollas21@hotmail.com</email>
          <xref ref-type="aff" rid="aff0">0</xref>
          <xref ref-type="aff" rid="aff1">1</xref>
        </contrib>
        <contrib contrib-type="author">
          <string-name>Rodrigo G. F. Soares</string-name>
          <email>rodrigo.gfsoares@ufrpe.br</email>
          <xref ref-type="aff" rid="aff0">0</xref>
          <xref ref-type="aff" rid="aff1">1</xref>
        </contrib>
        <aff id="aff0">
          <label>0</label>
          <institution>Departamento de Estat ́ıstica e Informa ́tica - DEINFO Universidade Federal Rural de Pernambuco - UFRPE</institution>
        </aff>
        <aff id="aff1">
          <label>1</label>
          <institution>Recife-PE</institution>
          ,
          <country country="BR">Brasil</country>
        </aff>
      </contrib-group>
      <abstract>
        <p>-Tackling student evasion has been a major challenge for the Brazilian Educational System. In the last few years, there has been an increasing interest in Distance Education to address such an important issue. This new paradigm facilitates the attendance of students who have difficulties in attending classes in person due to work, geographical or socioeconomic reasons. However, Distance Education has also shown a growing number of evading students. To tackle Distance Education evasion, we propose the use of Data Mining and Machine Learning techniques to predict the number of students at risk of evasion. Such an approach might help Education Institutions to quantify, plan and develop solutions to this problem. Our work employs Decision Trees, Bootstrap Aggregating Ensemble, Multilayer Perceptron and Support Vector Machines to produce accurate estimates of evading students in Higher Education Institutions that have Distance Education programs. Our experiments showed that our approach could deliver good generalization performance.</p>
      </abstract>
    </article-meta>
  </front>
  <body>
    <sec id="sec-1">
      <title>-</title>
      <p>Resumo—Combater a evasa˜o de alunos tem sido um grande
desafio para o Sistema Educacional Brasileiro. Nos u´ ltimos anos,
tem havido um interesse crescente pela Educac¸a˜o a Distaˆncia
para lidar com tal problema. Esse novo paradigma facilita
o atendimento a alunos que teˆm dificuldade em frequentar
as aulas presencialmente por motivos laborais, geogra´ficos ou
socioeconoˆmicos. No entanto, a Educac¸a˜o a Distaˆncia tambe´m
tem mostrado um nu´ mero crescente de alunos evadidos. Para
enfrentar a evasa˜o na Educac¸a˜o a Distaˆncia, propomos o uso
de te´cnicas de Data Mining e Machine Learning para prever o
nu´ mero de alunos em risco de evasa˜o. Tal abordagem pode ajudar
as instituic¸ o˜es de ensino a quantificar, planejar e desenvolver
soluc¸o˜es para este problema. Nosso trabalho emprega A´ rvores de
Decisa˜o, Bootstrap Aggregating Ensemble, Multilayer Perceptron
e Support Vector Machines para produzir estimativas precisas de
evasa˜o de alunos em instituic¸o˜es de ensino superior com
programas de Educac¸a˜o a Distaˆncia. Nossos experimentos mostraram
que nossa abordagem pode fornecer um bom desempenho de
generalizac¸a˜o para a predic¸a˜o de evasa˜o.</p>
      <p>Index Terms—Educational Data Mining, Machine Learning,
Knowledge Discovery in Databases, Educational Systems,
Algorithms</p>
    </sec>
    <sec id="sec-2">
      <title>I. INTRODU C¸ A˜O</title>
      <p>As tecnologias de informac¸a˜o e comunicac¸a˜o, quando bem
utilizadas, tornam-se um diferencial para instituic¸o˜es
educacionais que buscam exceleˆncia em sua atuac¸a˜o. Este
artigo insere-se nas a´reas interdisciplinares de Data Science,
Minerac¸a˜o de Dados Educacionais - MDE, do ingleˆs
Educa</p>
    </sec>
    <sec id="sec-3">
      <title>Roberta M. M. Gouveia</title>
      <sec id="sec-3-1">
        <title>DEINFO - UFRPE</title>
        <p>tional Data Mining - EDM, Machine Learning (ML), Banco
de Dados, estat´ıstica, dentre outras que compo˜em a base de
conhecimento utilizada na ana´lise de dados educacionais.</p>
        <p>Este trabalho aplica o processo Knowledge Discovery in
Databases (KDD), tambe´m conhecido como Descoberta de
Conhecimento em Bases de Dados, com intuito de encontrar
padro˜es de comportamento e descobrir novos conhecimentos
em bases de dados educacionais. A motivac¸a˜o do estudo surge
do interesse em adquirir regras significativas, na tentativa
de melhor compreender algumas adversidades da educac¸a˜o
superior, enfrentados na modalidade a distaˆncia. Assim, os
resultados desse estudo podem ser u´teis para profissionais
envolvidos com a implementac¸a˜o de me´todos de Minerac¸a˜o de
Dados - MD, do ingleˆs Data Mining, no contexto da Educac¸a˜o
a Distaˆncia (EaD).</p>
        <p>Inicialmente foi realizado um levantamento acerca de
trabalhos relacionados com EaD e as a´reas interdisciplinares
elencadas acima. Em seguida, focou-se na obtenc¸a˜o e tratamento
dos dados, dando seguimento a` etapa de pre´-processamento,
finalizando com aplicac¸a˜o de te´cnicas e algoritmos de Data
Mining para descoberta de novos conhecimentos e detecc¸a˜o
de padro˜es nos dados. Diante desse contexto, o objetivo do
trabalho consiste em aplicar o processo KDD para trac¸ar
o perfil da EaD em uma universidade pu´blica brasileira,
com vista a` obtenc¸a˜o de um melhor entendimento acerca de
estudantes e cursos realizados em ambientes e-learning.</p>
        <p>
          A busca por uma educac¸a˜o ale´m do limite espac¸o-tempo,
que visa transformar e evoluir o processo tradicional de
aprendizagem, e´ uma das propostas da EaD [
          <xref ref-type="bibr" rid="ref1">1</xref>
          ]. O conceito
formal de EaD, definido pelo Secretaria de Educac¸a˜o Superior
(SESu) do Ministe´rio da Educac¸a˜o (MEC), esta´ presente no
Decreto no 5.622, 19.12.2005, que regulamenta o Art. 80 da
Lei 9394/96, Lei de Diretrizes e Bases da Educac¸a˜o Nacional
- LDB. De acordo com o MEC, a EaD e´ definida como
[
          <xref ref-type="bibr" rid="ref2">2</xref>
          ]: ”A modalidade educacional na qual a mediac¸a˜o
dida´ticopedago´gica nos processos de ensino e aprendizagem ocorre
com a utilizac¸a˜o de meios e tecnologias de informac¸a˜o e
comunicac¸a˜o, com estudantes e professores desenvolvendo
atividades educativas em lugares ou tempos diversos.”
        </p>
        <p>
          A internet e os softwares educacionais de suporte ao
processo de ensino-aprendizagem surgiram como
potencializadores da EaD, dando in´ıcio ao termo e-learning, ou
aprendizagem eletroˆnica, que especifica a EaD realizada por
meio de plataformas computacionais e Ambientes Virtuais
de Aprendizagem - AVA. Vale destacar que existe uma sutil
diferenc¸a entre os termos EaD e e-learning, ja´ que a EaD
pode ser realizada sem o suporte eletroˆnico, enquanto
elearning necessita do suporte eletroˆnico [
          <xref ref-type="bibr" rid="ref3">3</xref>
          ]. Assim, nesse
trabalho e´ utilizado o termo Educac¸a˜o a Distaˆncia de forma
gene´rica, tanto para referenciar a EaD tradicional (sem o
suporte eletroˆnico), como e-learning (com suporte eletroˆnico),
ou seja, EaD designando a modalidade de ensino a distaˆncia
independentemente da m´ıdia que a suporta.
        </p>
        <p>Embora tenha aumentado o nu´mero de instituic¸o˜es
educacionais que aderiram a` EaD em seus cursos de graduac¸a˜o
e especializac¸o˜es, o Brasil ainda esta´ em fase de transic¸a˜o
nessa modalidade, visto que algumas delas esta˜o se limitando a
reproduzir para o ambiente virtual pequenas adaptac¸o˜es do
ensino presencial. Em alguns casos, as aulas sa˜o disponibilizadas
do ensino presencial para o virtual sem qualquer alterac¸a˜o
dida´tico-pedago´gica nos processos de ensino-aprendizagem.
Essas pra´ticas contribuem para aumentar os ´ındices de evasa˜o
e retenc¸a˜o dos estudantes.</p>
        <p>A Minerac¸a˜o de Dados Educacionais utiliza te´cnicas de
MD para explorar dados oriundos de contextos educacionais,
sendo aplicada nos seguintes dom´ınios: (I) Educac¸ a˜o Offline:
para ana´lises de dados de desempenho e comportamento dos
estudantes, bem como ana´lises de curr´ıculo/histo´rico escolar,
ou seja, dados gerados em ambientes de sala de aula; (II)
Aprendizagem Eletroˆnica, mais conhecida como e-learning,
e Sistema de Gesta˜o da Aprendizagem, do ingleˆs Learning
Management System - LMS: para ana´lise de dados
armazenados em sistemas LMS no formato de logs e bases de
dados; (III) Sistemas Tutores Inteligentes, do ingleˆs Intelligent
Tutoring System - ITS, e Sistemas Hiperm´ıdias Adaptativos</p>
      </sec>
      <sec id="sec-3-2">
        <title>Educacionais, do ingleˆs Adaptive Educational Hypermedia</title>
        <p>
          System: os quais sa˜o aplicados sobre dados de sistemas que
se adaptam ao percurso de cada estudante no ambiente virtual
de aprendizagem [
          <xref ref-type="bibr" rid="ref4">4</xref>
          ].
        </p>
        <p>Conforme ilustra a “Fig. 1”, a EDM e´ a combinac¸a˜o
de 3 (treˆs) principais a´reas de conhecimento: Cieˆncia da
Computac¸a˜o, Educac¸a˜o e Estat´ıstica. A intersec¸a˜o dessas a´reas
fornece treˆs suba´reas, que sa˜o: e-learning, Data Mining e</p>
      </sec>
      <sec id="sec-3-3">
        <title>Machine Learning, e Learning Analytics.</title>
        <p>
          A a´rea interdisciplinar de Minerac¸a˜o de Dados Educacionais
vem se consolidando na u´ltima de´cada, tendo va´rios
papers publicados em revistas e confereˆncias relevantes. Alguns
pesquisadores realizaram levantamentos detalhados acerca da
MDE, sendo fontes de refereˆncias recomendadas [
          <xref ref-type="bibr" rid="ref4">4</xref>
          ], [
          <xref ref-type="bibr" rid="ref5">5</xref>
          ], [
          <xref ref-type="bibr" rid="ref6">6</xref>
          ],
[
          <xref ref-type="bibr" rid="ref7">7</xref>
          ], [
          <xref ref-type="bibr" rid="ref8">8</xref>
          ]. Na literatura existem va´rios trabalhos relacionados a`
aplicac¸a˜o de te´cnicas de MD e ML no contexto educacional
[
          <xref ref-type="bibr" rid="ref9">9</xref>
          ], [
          <xref ref-type="bibr" rid="ref10">10</xref>
          ], [
          <xref ref-type="bibr" rid="ref11">11</xref>
          ], [
          <xref ref-type="bibr" rid="ref12">12</xref>
          ], [
          <xref ref-type="bibr" rid="ref13">13</xref>
          ], [
          <xref ref-type="bibr" rid="ref14">14</xref>
          ], [
          <xref ref-type="bibr" rid="ref15">15</xref>
          ], [
          <xref ref-type="bibr" rid="ref16">16</xref>
          ], [
          <xref ref-type="bibr" rid="ref17">17</xref>
          ], [
          <xref ref-type="bibr" rid="ref18">18</xref>
          ], [
          <xref ref-type="bibr" rid="ref19">19</xref>
          ],
[
          <xref ref-type="bibr" rid="ref20">20</xref>
          ], [
          <xref ref-type="bibr" rid="ref21">21</xref>
          ]. Esses artigos trazem excelentes contribuic¸o˜es sobre
aplicac¸o˜es de algoritmos de minerac¸a˜o de dados, tanto no
cena´rio da educac¸a˜o presencial, quanto em ambientes virtuais
de aprendizagem da educac¸a˜o a distaˆncia. Sa˜o reflexo˜es
fundamentadas sobre os desafios da educac¸a˜o, especialmente em
instituic¸o˜es pu´blicas de ensino superior.
        </p>
        <p>O artigo esta´ organizado como segue: a sec¸a˜o 2 tem o
objetivo de contextualizar o problema e os me´todos de Machine
Learning usados no trabalho. Na sec¸a˜o 3 sa˜o descritos os
experimentos realizados. A sec¸a˜o 4 apresenta os resultados
e suas respectivas ana´lises. Por fim, as concluso˜es e poss´ıveis
trabalhos futuros sa˜o apresentados na sec¸a˜o 5.</p>
      </sec>
    </sec>
    <sec id="sec-4">
      <title>II. METODOLOGIA</title>
      <p>A aplicac¸a˜o do Data Mining visa encontrar o perfil do
estudante e detectar ineficieˆncias da EaD, que por sua vez
desestimulam os alunos a prosseguirem nos cursos. Os
resultados obtidos com Data Mining sa˜o utilizados a fim de detectar
padro˜es, descobrir regras significativas e estabelecer relac¸o˜es
entre os ´ındices de evasa˜o e retenc¸ a˜o, o perfil socioeconoˆmico
dos alunos e as caracter´ısticas inerentes da EaD. Ao
constatar tais relacionamentos e pontos fracos, ac¸o˜es podera˜o ser
tomadas, por parte da instituic¸a˜o, para elimina´-las, buscando
reduzir os altos ´ındices de evasa˜o constatados na modalidade
a distaˆncia.</p>
      <p>A principal relevaˆncia da pesquisa no desenvolvimento
cient´ıfico e tecnolo´gico refere-se ao fato do trabalho propor
uma ana´lise do cena´rio da EaD, por meio do processo
computacional de descoberta de conhecimento em bases de dados,
utilizando te´cnicas de classificac¸a˜o de padro˜es.</p>
      <p>Foram obtidos dados acadeˆmicos de uma Instituic¸a˜o Federal
de Ensino Superior (IFES) para ana´lise pontual e concreta
da educac¸a˜o a distaˆncia. Os dados dos estudantes da EaD
referem-se a um per´ıodo de 8 anos, e foram obtidos nos
formatos txt e xlsx, sendo em seguida, consolidados em um
arquivo csv. A pesquisa e´ baseada no anonimato, por isso
na˜o foram obtidas informac¸o˜es como nome e CPF, visando
preservar as identidades dos alunos. Foram obtidos dados
dos seguintes cursos: Licenciatura em Letras; Licenciatura em
Pedagogia; Licenciatura em Computac¸a˜o e Bacharelado em
Administrac¸a˜o Pu´blica.</p>
      <p>Os dados obtidos foram de contexto histo´rico, para uma
ana´lise distintiva da evoluc¸a˜o da EaD na instituic¸a˜o, sendo
obtidos as seguintes informac¸o˜es: (I) Histo´rico Escolar; (II)
Dados gerais sobre o aluno, tais como: Forma de ingresso;
Per´ıodo de ingresso; Curso; A´ rea de Conhecimento; Polo;
Modalidade (licenciatura, bacharelado, tecno´logo etc.); Idade;
Geˆnero/Sexo; Estado Civil; Naturalidade; Nacionalidade;
Etnia/Rac¸a (cor da pele); Deficieˆncia; Situac¸a˜o Acadeˆmica
(Cursando, Conclu´ıdo, Abandono etc.); (III) Dados
Socioeconoˆmicos, tais como informac¸o˜es sobre ensino fundamental e
me´dio (tipo de escola); Renda familiar; Trabalho remunerado;
Se possui computador em casa; Acesso a` internet etc.</p>
      <p>Esses dados sa˜o essenciais para compreender quais sa˜o
as potenciais deficieˆncias e obsta´culos enfrentados pelos
docentes, estudantes e gestores, como tambe´m ter um
entendimento sobre os estudantes da modalidade a distaˆncia em
uma IFES, afinal o principal objetivo e´ obter um respaldo
cient´ıfico necessa´rio para detectar padro˜es e descobrir regras
significativas sobre os ´ındices de evasa˜o e retenc¸a˜o em cursos a
distaˆncia, adquirindo um melhor entendimento acerca da EaD
no cena´rio brasileiro.</p>
      <sec id="sec-4-1">
        <title>A. Me´todos de Machine Learning</title>
        <p>Os algoritmos de Data Mining interpretam os dados a fim
de produzir uma quantidade de padro˜es u´teis, va´lidos e de fa´cil
entendimento. Os resultados gerados podem ser usados para
predic¸o˜es e teˆm por finalidade conduzir a tomadas de deciso˜es
inteligentes. O fator humano faz parte de todo o processo, por
isso na˜o pode ser uma ac¸a˜o totalmente automatizada.</p>
        <p>Os algoritmos de minerac¸a˜o de dados favorecem a extrac¸a˜o
de informac¸o˜es de grandes volumes de dados, e a ana´lise
estat´ıstica desses dados permite que se observem tendeˆncias
e respostas para situac¸o˜es diversos, tais como: encontrar e
detectar cursos onde as evaso˜es sa˜o mais frequentes;
determinar perfis (comportamentos t´ıpicos), e associar categorias de
alunos e cursos com caracter´ısticas de sucesso na EaD;
elencar dificuldades frequentemente enfrentadas pelos docentes e
discentes da EaD; identificar nos AVAs as disciplinas com alto
´ındice de reprovac¸a˜o e suas causas etc.</p>
        <p>Alguns pre´-requisitos sa˜o essenciais para o sucesso da
minerac¸a˜o de dados, por isso foram constru´ıdos modelos
baseados em metas preditivas e descritivas. Diante das metas
preditivas, tem-se, por exemplo, a utilizac¸a˜o da tarefa de
Classificac¸a˜o por A´ rvore de Decisa˜o.</p>
        <p>Dentre os va´rios me´todos de Machine Learning dispon´ıveis
na literatura, cinco deles se mostram adequados aos resultados
pretendidos por este estudo. Os me´todos aplicados foram:
Classificac¸a˜o por A´ rvore de Decisa˜o, Classificac¸a˜o Bayesiana,
Classificac¸a˜o por Redes Neurais, Classificac¸a˜o por Ensembles
e Classificac¸a˜o por Support Vector Machine - SVM, todos
inerentes ao Aprendizado Supervisionado. Os algoritmos de
classificac¸a˜o utilizados foram: NaiveBayes, J48 (a´rvore de
decisa˜o), MultilayerPerceptron - que implementa o
backpropagation para classificac¸a˜o (Redes Neurais), LibSVM (SVM),
Bagging e AdaBoost (Ensembles).</p>
        <p>
          A Classificac¸a˜o Bayesiana (Bayesian Classification) e´ uma
te´cnica estat´ıstica (probabilidade condicional) baseada no
teorema de Thomas Bayes. Segundo o teorema de Bayes, e´
poss´ıvel encontrar a probabilidade de certo evento ocorrer,
dada a probabilidade de outro evento que ja´ ocorreu.
Comparativos mostram que os algoritmos Bayesianos, chamados
de Naive Bayes, obtiveram resultados compat´ıveis com os
me´todos de a´rvore de decisa˜o e redes neurais. Devido a sua
simplicidade e o alto poder preditivo, e´ um dos algoritmos
mais utilizados. O algoritmo Naive Bayes parte do princ´ıpio
que na˜o exista relac¸a˜o de dependeˆncia entre os atributos, no
entanto, nem sempre isto e´ poss´ıvel [
          <xref ref-type="bibr" rid="ref22">22</xref>
          ].
        </p>
        <p>
          A te´cnica de Redes Neurais e´ muito utilizada em tarefas de
classificac¸a˜o, regressa˜o e segmentac¸a˜o. Os dados sa˜o
trabalhados com base no funcionamento do ce´rebro humano,
aprendendo a tomar deciso˜es baseadas nas experieˆncias anteriores
(nas instaˆncias anteriores dos dados). Os neuroˆnios do ce´rebro
sa˜o representados por nodos que esta˜o conectados em outros
nodos por sinapses, formando uma rede de processamento.
Os valores das entradas sa˜o multiplicados nos neuroˆnios pelos
pesos de suas sinapses, conforme va˜o percorrendo a rede. Ao
final, temos uma classificac¸a˜o ou a previsa˜o da entrada [
          <xref ref-type="bibr" rid="ref23">23</xref>
          ].
        </p>
        <p>
          As a´rvores de decisa˜o teˆm como objetivo principal dividir
as instaˆncias em classes. Cada no´ da a´rvore testa o dom´ınio
de uma varia´vel de entrada e o redireciona para o no´ seguinte.
Cada sub-a´rvore representa o resultado de um teste e a folha e´
a classificac¸a˜o que aquele registro recebeu. Ao final, cada no´
terminal tera´ os registros da entrada que se ade´quam a`s regras
regidas por esse no´, representando assim, uma classe [
          <xref ref-type="bibr" rid="ref23">23</xref>
          ].
        </p>
        <p>
          Os classificadores ensembles, comiteˆ de especialistas,
predizem a classe de um registro elegendo a maioria dos votos feitos
pelos classificadores base. Para isso, deve-se evitar:
subconjuntos ideˆnticos (os erros sera˜o os mesmos), e subconjuntos
disjuntos (erros na˜o correlacionados). Para que a performance
de um me´todo ensemble seja melhor que a de um classificador
simples, os classificadores base devem ser independentes, e
devem ter performance melhor que um random guessing [
          <xref ref-type="bibr" rid="ref11">11</xref>
          ].
Os dois tipos de ensembles escolhidos neste trabalho foram:
        </p>
      </sec>
      <sec id="sec-4-2">
        <title>Bagging e Adaboost.</title>
        <p>
          O Support Vector Machines e´ baseado no conceito de planos
de decisa˜o que definem limites de decisa˜o (Vetor Suporte). Um
plano de decisa˜o separa um conjunto de objetos com diferentes
associac¸o˜es de classe. SVM e´ essencialmente um me´todo
classificac¸a˜o que executa tarefas de classificac¸a˜o atrave´s da
construc¸a˜o de hiperplanos em um espac¸o multidimensional
que separa casos de diferentes ro´tulos de classe. Ele suporta
ambas as tarefas de regressa˜o e de classificac¸a˜o e pode
lidar com mu´ltiplas varia´veis cont´ınuas. Para construir um
hiperplano o´timo, o SVM emprega um algoritmo iterativo de
formac¸a˜o, que e´ usado para minimizar uma func¸a˜o de erro
[
          <xref ref-type="bibr" rid="ref24">24</xref>
          ].
        </p>
        <p>Ha´ um nu´mero de nu´cleos que podem ser usados em
modelos Support Vector Machines. Estes incluem linear,
polinomial, func¸a˜o radial base (RBF) e sigmo´ide. Estas func¸o˜es de
nu´cleo representam um produto de ponto de pontos de dados
de entrada mapeado para o maior espac¸o de caracter´ısticas
dimensionais por transformac¸a˜o.</p>
        <p>Nem todas as regras geradas pelo Data Mining sa˜o
consideradas relevantes para o processo de extrac¸a˜o do conhecimento
em banco de dados, visto que o especialista precisa
interpreta´las no contexto em que esta´ inserido e so´ depois aplica´-las,
afinal o fator humano tambe´m faz parte do processo. Desta
forma, o especialista do nego´cio precisa avaliar as regras para
que o resultado seja aplica´vel na pra´tica.</p>
      </sec>
    </sec>
    <sec id="sec-5">
      <title>III. EXPERIMENTOS</title>
      <p>Com o objetivo de verificar a adequac¸a˜o do conjunto
de dados propostos, foram realizados experimentos com a
base de dados citada anteriormente, contendo informac¸o˜es
de estudantes em quatro cursos realizado a distaˆncia. Foram
desenvolvidos procedimentos para extrac¸a˜o dos atributos
considerados significativos para este trabalho.</p>
      <sec id="sec-5-1">
        <title>A. Pre´-Processamento</title>
        <p>Para se ter uma visa˜o geral preliminar dos dados, se
configura uma boa pra´tica fazer inicialmente uma ana´lise
descritiva dos dados, tambe´m conhecida como ana´lise
explorato´ria dos dados. Neste diagno´stico inicial, medic¸o˜es sa˜o
feitas sobre os atributos dos dados como me´dia/mediana,
desvio padra˜o, valor m´ınimo, ma´ximo, outliers, entre outros
. Estas medidas auxiliam no encaminhamento da soluc¸a˜o
de pre´-processamento a ser adotada e tambe´m, em caso de
valores ausentes ja´ sera´ poss´ıvel verificar a sua existeˆncia e,
consequentemente a sua soluc¸a˜o.</p>
        <p>Valores ausentes, ou missing values , sa˜o atributos que na˜o
tem valores preenchidos. O tratamento pode ser feito pela
simples remoc¸a˜o do atributo (em caso de grande incideˆncia)
ou do exemplar (em caso de poucas ocorreˆncias). Ou ainda
o valor pode ser substitu´ıdo por uma constante calculara pela
me´dia, mediana, valor ma´ximo ou m´ınimo. Outro tratamento
que pode ser diagnosticado na ana´lise descritiva sa˜o os valores
ruidosos ou que esta˜o fora do padra˜o (outliers). Este tipo de
situac¸a˜o ocorre quando surge algum exemplar com valor de
atributo que foge de um padra˜o. Por fim, um cena´rio que
surge tipicamente quando se faz integrac¸a˜o de dados e´ a
inconsisteˆncia de valores. A inconsisteˆncia ocorre quando ha´
falta de um crite´rio bem definido entre os valores dos atributos
ou dos exemplares.</p>
        <p>A normalizac¸a˜o de valores consiste em uma te´cnica para
deixar os valores dos atributos em uma mesma escala.
Abordagem de soluc¸a˜o comum e´ calcular o valor ma´ximo de um
atributo para dividi-lo aos demais exemplares com mesmo
atributo. A normalizac¸a˜o faz parte de um tratamento chamado
transformac¸a˜o de valores que ainda compreende a mudanc¸a
de tipos catego´ricos para nume´ricos. No caso do geˆnero, por
exemplo, atributo nominal, como sa˜o apenas dois valores, eles
poderiam ser transformados para bina´rio 0 e 1. No entanto,
deve-se ter cuidado para na˜o transformar um atributo nominal
em ordinal no processo de transformac¸a˜o, isto e´, o valor na˜o
pode ideia de ordem.</p>
        <p>Finalmente, foi feita a selec¸a˜o de atributos na fase de
pre´-processamento. Dentre as causas que levam a se fazer
este tipo de ana´lise, tem-se: integrac¸a˜o de bases, falta de
definic¸a˜o clara de atributos que representam um problema,
grande disponibilidade de dados e outras. A selec¸a˜o consiste
basicamente em escolher o melhor conjunto de dados que
representam a base original com a mesma capacidade anal´ıtica.</p>
        <p>Para a realizac¸a˜o da selec¸a˜o de exemplares foi utilizado
o me´todo Classifier Subset Evaluator (CSE). Este me´todo
permite avaliar subconjuntos de atributos em dados de
treinamento ou um conjunto de testes independente. Utiliza um
classificador para estimar a ”me´rito” de um conjunto de
atributos. Junto ao CSE foi utilizado um me´todo de pesquisa de
atributos BestFirst, que auxilia na busca por um subconjunto
de atributos que represente a base original. Foi escolhida
a direc¸ a˜o Forward, que comec¸a com o conjunto vazio de
atributos e procura para frente, considerando todas as poss´ıveis
adic¸o˜es de atributos individuais e delec¸o˜es em um determinado
ponto, no caso o searchTermination que e´ o paraˆmetro de
parada do me´todo, sendo o valor 5 escolhido nesse trabalho.</p>
        <p>Apo´s a realizac¸a˜o da etapa anterior, foram selecionados 20
atributos dos 214 da base original, isto significa que estes
atributos representam melhor a base original em termos de
generalizac¸a˜o do problema. Dentre os atributos selecionados,
tem-se as seguintes informac¸o˜es sobre os estudante: nome do
curso, a´rea de conhecimento, polo, ano de ingresso, status
acadeˆmico, estado civil, idade, naturalidade (estado), tipo de
deficieˆncia, tipo de escola do ensino me´dio, tipo de escola
do ensino fundamental, se possui internet, se possui trabalho
remunerado e me´dia geral.</p>
      </sec>
      <sec id="sec-5-2">
        <title>B. Avaliac¸a˜o dos Modelos de Machine Learning</title>
        <p>O objetivo principal do experimento e´ verificar a relevaˆncia
dos atributos elencados acima, bem como analisar o impacto
da aplicac¸a˜o de te´cnica de selec¸a˜o de atributos na acura´cia da
previsa˜o de desempenho dos seis classificadores. A acura´cia
e´ a proporc¸a˜o entre o nu´mero de estudantes corretamente
classificados pelos algoritmos em sua respectiva classe, e o
nu´mero total de estudantes considerados no estudo.</p>
        <p>
          Para o desenvolvimento deste trabalho foram utilizados seis
algoritmos de classificac¸a˜o, como descritos anteriormente, que
sa˜o eles: MultilayerPerceptron (MLP), NaiveBayes, SVM, J48,
Adaboost e Bagging. Para auxiliar na avaliac¸a˜o dos resultados
e o ca´lculo da acura´cia utilizou-se o me´todo K-fold
CrossValidation, que consiste em uma te´cnica para a estratificac¸a˜o
da base dados em conjunto de treinamento e teste. Geralmente,
sugere-se a adoc¸a˜o de k igual a 10 como valor padra˜o para o
nu´mero de partic¸o˜es dos dados [
          <xref ref-type="bibr" rid="ref25">25</xref>
          ].
        </p>
        <p>O primeiro experimento corresponde a` selec¸a˜o dos
melhores paraˆmetros definidos a priori para cada um dos seis
algoritmos. O processo de avaliac¸a˜o de desempenho de cada
combinac¸a˜o de paraˆmetros se baseia no me´todo descrito
anteriormente, sendo 30 paraˆmetros para MLP, SVM e Bagging, 18
paraˆmetros para J48, 6 paraˆmetros para Adaboost, e nenhum
paraˆmetro para NaiveBayes. Assim e´ poss´ıvel definir quais
sa˜o os melhores paraˆmetros de cada algoritmo, para
posteriormente definir qual a porcentagem de assertividade de cada
um deles.</p>
        <p>Os gra´ficos apresentados na “Fig. 2” destacam os resultados
obtidos no experimento de selec¸a˜o de paraˆmetros por modelo,
demonstrando a precisa˜o dos algoritmos para predizer o
desempenho em cada combinac¸a˜o de paraˆmetros. O resultado
apresentado, no eixo vertical, corresponde a um valor me´dio
obtido para as combinac¸o˜es de paraˆmetros, onde foram
selecionados os melhores paraˆmetros de cada algoritmo para a
realizac¸a˜o do segundo experimento.</p>
        <p>
          Para o experimento 2, foram utilizados todos os melhores
paraˆmetros obtidos no experimento 1. Com o objetivo de testar
a significaˆncia estat´ıstica dos resultados obtidos, utilizou-se a
te´cnica de teste estat´ıstico pair-wise T-Test [
          <xref ref-type="bibr" rid="ref25">25</xref>
          ], com n´ıvel
significaˆncia de 5%.
        </p>
        <p>A Tabela I apresenta o resumo com os resultados do
segundo experimento executado. Nela, constam o percentual
de acura´cia me´dio e o desvio padra˜o dos seis algoritmos
analisados. Como o desvio padra˜o refere-se a quantidade de
variac¸a˜o (dispersa˜o) dos dados dentro da amostra em relac¸a˜o
a` me´dia, enta˜o um baixo valor para desvio padra˜o indica que
a amostra tende a ser mais homogeˆnea.</p>
        <p>Avaliando os resultados obtidos percebe-se que a utilizac¸a˜o
do conjunto completo de atributos proposto, juntamente com
a te´cnica de otimizac¸a˜o de paraˆmetros empregada no
experimento 1, obteve os melhores resultados em termos da taxa
acura´cia. Destaca-se que nos seis classificadores utilizados
neste experimento esta tendeˆncia pode ser observada.</p>
        <p>Um aspecto a ser destacado, a partir dos testes realizados,
aponta para a viabilidade da utilizac¸a˜o de um conjunto
amplo de atributos para representac¸a˜o do perfil dos estudantes,
potencialmente generaliza´veis a diversos cena´rios de cursos
EAD.</p>
        <p>Tomando-se como base o experimento 2, observou-se que
o algoritmo J48 apresentou melhor classificac¸a˜o, com taxa de
acerto de 90,35% e 0,28 de desvio padra˜o. Ja´ o algoritmo
Adaboost apresentou menor acura´cia, 87,35%, e maior desvio
padra˜o (0,59). Os resultados obtidos demonstram que os
algoritmos Bagging, MultilayerPercepetron, J48 e SVM podem
ser utilizados para realizar infereˆncias em relac¸a˜o aos ´ındices
de evasa˜o dos alunos, por possu´ırem taxa de acura´cia acima
da me´dia geral (89,51%) de todos os algoritmos analisados.</p>
        <p>Apesar do desbalanceamento do atributo classe (Situac¸a˜o
Acadeˆmica), a medida de desempenho utilizada neste trabalho
(Taxa de Acura´cia) esta´ coerente com as demais me´tricas da
matriz de confusa˜o, a saber: Precision, Recall, F-Measure, e</p>
      </sec>
      <sec id="sec-5-3">
        <title>AUC - Area Under the ROC Curve.</title>
        <p>
          A partir dos resultados dos experimentos foi poss´ıvel
adquirir o respaldo cient´ıfico necessa´rio para detectar padro˜es
e descobrir regras significativas na tentativa de melhor
compreender a EaD, esta que, por sua vez, exige inovac¸a˜o e
infraestrutura tecnolo´gica, ale´m de apoio ao estudante em
n´ıveis mais elevados, em comparac¸a˜o a` modalidade presencial.
Conforme relato´rio anal´ıtico do Censo da EaD no Brasil,
53% dos estudantes brasileiros da modalidade a distaˆncia sa˜o
mulheres, com 39,3% entre 26-30 anos. Aproximadamente
70% das instituic¸o˜es privadas e pu´blicas federais contam com
estudantes que, em sua maioria, estudam e trabalham. Em se
tratando das taxas de evasa˜o reportadas nos cursos a distaˆncia,
O Censo da EaD registra uma evasa˜o de 26% a 50% –
alertando que a desisteˆncia dos estudantes da EaD e´ maior em
comparac¸a˜o aos cursos presenciais. As instituic¸o˜es apontam o
fator tempo como o mais influente no fenoˆmeno da evasa˜o,
seguido do fator financeiro [
          <xref ref-type="bibr" rid="ref26">26</xref>
          ].
        </p>
      </sec>
    </sec>
    <sec id="sec-6">
      <title>V. CONCLUS O˜ES</title>
      <p>O trabalho pretende provocar interesse em instituic¸o˜es,
pesquisadores e profissionais envolvidos com a implementac¸a˜o
e utilizac¸a˜o de sistemas de informac¸o˜es gerenciais de apoio
a` decisa˜o no contexto da EaD. Tais tecnologias se propo˜em
em fornecer indicadores de qualidade a`s IFES, proporcionando
tomadas de deciso˜es que visam, dentre outras ac¸o˜es, a reduc¸a˜o
da evasa˜o e retenc¸a˜o de estudantes e, consequentemente, a
melhoria da EaD.</p>
      <p>
        A metodologia foi fundamentada no processo KDD, que por
sua vez propo˜e encontrar e interpretar padro˜es/regras mediante
integrac¸a˜o de diversas fontes de dados, sendo proposto para
determinar as etapas que produzem conhecimentos a partir
dos dados e, principalmente, definir a etapa de Data Mining
[
        <xref ref-type="bibr" rid="ref27">27</xref>
        ]. O objetivo e´ extrair de bases de dados, sem nenhuma
formulac¸a˜o pre´via de hipo´ teses, informac¸o˜ es desconhecidas a
priori, fact´ıveis, va´lidas e aciona´veis, que podera˜o ser u´ teis
para a tomada de decisa˜o [
        <xref ref-type="bibr" rid="ref28">28</xref>
        ], [29].
      </p>
      <p>Por meio da ana´lise do histo´ rico acadeˆmico e perfil
socioeconoˆ mico de estudantes, uma instituic¸a˜o educacional pode ser
capaz de acompanhar o rendimento acadeˆmico do discente,
verificando se ele possui potencial para se evadir ou na˜o do
curso. Tendo esse conhecimento pre´vio, as instituic¸o˜ es de
ensino superior podera˜o avaliar as necessidades individuais do
aluno, e assim, agir de maneira proativa e mais efetiva para
que o estudante possa continuar sua graduac¸a˜o.</p>
      <p>Com os resultados dos experimentos realizados neste
trabalho, e´ poss´ıvel a obtenc¸a˜o de indicadores a serem
implementados em ambientes virtuais de aprendizagem para a
previsa˜o de ´ındice de evasa˜o de estudantes. Estes indicadores
podem ser melhorados a` medida que a base de dados de
treinamento for aumentando. Portanto, o trabalho viabilizou
a avaliac¸a˜o de desempenho de seis modelos de Machine</p>
      <sec id="sec-6-1">
        <title>Learning – NaiveBayes, J48, MultilayerPerceptron, LibSVM,</title>
        <p>Bagging e AdaBoost, com vistas a` descoberta de conhecimento
no contexto da educac¸a˜o superior brasileira da modalidade a
distaˆncia.</p>
      </sec>
    </sec>
    <sec id="sec-7">
      <title>AGRADECIMENTO</title>
      <p>Os autores agradecem o apoio da Fundac¸a˜o de Amparo a
Cieˆncia e Tecnologia de Pernambuco - FACEPE, Conselho
Nacional de Desenvolvimento Cient´ıfico e Tecnolo´ gico - CNPq,
e Universidade Federal Rural de Pernambuco - UFRPE.
[29] U. Fayyad, G. Piatetsky-Shapiro, P. Smyth. From data mining to
knowledge discovery in databases. AI Magazine, v. 17, n. 3, p. 37-54,
1996.</p>
    </sec>
  </body>
  <back>
    <ref-list>
      <ref id="ref1">
        <mixed-citation>
          [1]
          <string-name>
            <given-names>J. M.</given-names>
            <surname>Moran</surname>
          </string-name>
          .
          <article-title>Educac¸a˜o a distaˆncia no brasil: situac¸a˜o e perspectivas, 2014</article-title>
          . Dispon´ıvel em: http://www2.eca.usp.br/moran. Acesso:
          <volume>18</volume>
          <fpage>jun</fpage>
          .
          <year>2020</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref2">
        <mixed-citation>
          [2]
          <string-name>
            <surname>BRASIL.</surname>
          </string-name>
          <article-title>Leis de diretrizes e bases da educac¸a˜o nacional</article-title>
          .
          <source>Decreto n. 5</source>
          .622, de 19 de dezembro de
          <year>2005</year>
          .
          <article-title>Regulamenta o art</article-title>
          .
          <source>80 da Lei 9.394/96</source>
          , 20 dez.
          <year>1996</year>
          . Dispon´ıvel em: http://encurtador.com.br/ckKSZ. Acesso em
          <volume>08</volume>
          <fpage>jun</fpage>
          .
          <year>2014</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref3">
        <mixed-citation>
          [3]
          <string-name>
            <given-names>R. M. M.</given-names>
            <surname>Gouveia</surname>
          </string-name>
          .
          <article-title>Ana´lises e perspectivas da educac¸ a˜o a distaˆncia no ensino superior brasileiro</article-title>
          .
          <source>Revista Acesso Livre</source>
          , p.
          <fpage>207</fpage>
          -
          <lpage>228</lpage>
          ,
          <year>2017</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref4">
        <mixed-citation>
          [4]
          <string-name>
            <given-names>C.</given-names>
            <surname>Romero</surname>
          </string-name>
          and
          <string-name>
            <given-names>S.</given-names>
            <surname>Ventura</surname>
          </string-name>
          .
          <article-title>Educational Data Mining: A Review of the State of the Art”</article-title>
          in
          <source>IEEE Transactions on Systems, Man, and Cybernetics</source>
          , Part C (
          <article-title>Applications</article-title>
          and Reviews), vol.
          <volume>40</volume>
          , no.
          <issue>6</issue>
          , pp.
          <fpage>601</fpage>
          -
          <lpage>618</lpage>
          ,
          <year>2010</year>
          , doi: 10.1109/TSMCC.
          <year>2010</year>
          .
          <volume>2053532</volume>
          .
        </mixed-citation>
      </ref>
      <ref id="ref5">
        <mixed-citation>
          [5]
          <string-name>
            <given-names>C.</given-names>
            <surname>Romero</surname>
          </string-name>
          and
          <string-name>
            <given-names>S.</given-names>
            <surname>Ventura</surname>
          </string-name>
          .
          <article-title>Educational data mining and learning analytics: An updated survey</article-title>
          .
          <source>Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery</source>
          , v.
          <volume>10</volume>
          , n. 3, p.
          <fpage>e1355</fpage>
          ,
          <year>2020</year>
          , doi: https://doi.org/10.1002/widm.1355
        </mixed-citation>
      </ref>
      <ref id="ref6">
        <mixed-citation>
          [6]
          <string-name>
            <given-names>A.</given-names>
            <surname>Pen</surname>
          </string-name>
          <article-title>˜a-Ayala. Educational data mining: a survey and a data miningbased analysis of recent works. Expert systems with applications</article-title>
          , v.
          <volume>41</volume>
          , p.
          <fpage>1432</fpage>
          -
          <lpage>1462</lpage>
          ,
          <year>2014</year>
          , doi: https://doi.org/10.1016/j.eswa.
          <year>2013</year>
          .
          <volume>08</volume>
          .042
        </mixed-citation>
      </ref>
      <ref id="ref7">
        <mixed-citation>
          [7]
          <string-name>
            <given-names>S. K.</given-names>
            <surname>Mohamad</surname>
          </string-name>
          ,
          <string-name>
            <given-names>Z.</given-names>
            <surname>Tasir</surname>
          </string-name>
          .
          <article-title>Educational data mining a review</article-title>
          .
          <source>Procedia Social and Behavioral Sciences, v. 97</source>
          ,
          <year>2013</year>
          , doi: https://doi.org/10.1016/j.sbspro.
          <year>2013</year>
          .
          <volume>10</volume>
          .240
        </mixed-citation>
      </ref>
      <ref id="ref8">
        <mixed-citation>
          [8]
          <string-name>
            <given-names>H.</given-names>
            <surname>Aldowah</surname>
          </string-name>
          ,
          <string-name>
            <given-names>H.</given-names>
            <surname>Al-Samarraie</surname>
          </string-name>
          ,
          <string-name>
            <given-names>W. M.</given-names>
            <surname>Fauzy</surname>
          </string-name>
          .
          <article-title>Educational data mining and learning analytics for 21st century higher education: A review and synthesis</article-title>
          .
          <source>Telematics and Informatics</source>
          ,
          <volume>37</volume>
          ,
          <fpage>13</fpage>
          -
          <lpage>49</lpage>
          ,
          <year>2019</year>
          , doi: https://doi.org/10.1016/j.tele.
          <year>2019</year>
          .
          <volume>01</volume>
          .007
        </mixed-citation>
      </ref>
      <ref id="ref9">
        <mixed-citation>
          [9]
          <string-name>
            <given-names>E.</given-names>
            <surname>Fernandes</surname>
          </string-name>
          ,
          <string-name>
            <given-names>M.</given-names>
            <surname>Holanda</surname>
          </string-name>
          ,
          <string-name>
            <given-names>M.</given-names>
            <surname>Victorino</surname>
          </string-name>
          ,
          <string-name>
            <given-names>V.</given-names>
            <surname>Borges</surname>
          </string-name>
          ,
          <string-name>
            <given-names>R.</given-names>
            <surname>Carvalho</surname>
          </string-name>
          ,
          <string-name>
            <given-names>G. V.</given-names>
            <surname>Erven</surname>
          </string-name>
          .
          <article-title>Educational data mining: predictive analysis of academic performance of public school students in the capital of Brazil</article-title>
          .
          <source>Journal of Business Research</source>
          , v.
          <volume>94</volume>
          , p.
          <fpage>335</fpage>
          -
          <lpage>343</lpage>
          ,
          <year>2019</year>
          , doi: https://doi.org/10.1016/j.jbusres.
          <year>2018</year>
          .
          <volume>02</volume>
          .012 https://www.overleaf.com/project/5f0c75b9b4fb520001add8f4
        </mixed-citation>
      </ref>
      <ref id="ref10">
        <mixed-citation>
          [10] Branda˜o,
          <string-name>
            <given-names>J. O. S.</given-names>
            ;
            <surname>Silva</surname>
          </string-name>
          ,
          <string-name>
            <surname>A. J.</surname>
          </string-name>
          ; Gouveia,
          <string-name>
            <given-names>R. M. M.</given-names>
            ;
            <surname>Soares</surname>
          </string-name>
          ,
          <string-name>
            <given-names>R. G. F.</given-names>
            <surname>Aprendizagem</surname>
          </string-name>
          de Ma´
          <article-title>quina para Predic¸ a˜</article-title>
          <string-name>
            <surname>o de Desempenho de Estudantes de Graduac¸</surname>
          </string-name>
          <article-title>a˜o na UFPE</article-title>
          .
          <source>In: Brazilian Conference on Intelligent Systems (BRACIS</source>
          )
          <string-name>
            <surname>- XIV Encontro Nacional de Inteligeˆncia Artificial e Computacional</surname>
          </string-name>
          (ENIAC),
          <year>2017</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref11">
        <mixed-citation>
          [11]
          <string-name>
            <given-names>E. A.</given-names>
            <surname>Amrieh</surname>
          </string-name>
          ,
          <string-name>
            <given-names>T.</given-names>
            <surname>Hamtini</surname>
          </string-name>
          ,
          <string-name>
            <surname>I. Aljarah.</surname>
          </string-name>
          <article-title>Mining educational data to predict student's academic performance using ensemble methods</article-title>
          .
          <source>International Journal of Database Theory and Application</source>
          , v.
          <volume>9</volume>
          , n. 8, p.
          <fpage>119</fpage>
          -
          <lpage>136</lpage>
          ,
          <year>2016</year>
          , doi: http://dx.doi.org/10.14257/ijdta.
          <year>2016</year>
          .
          <volume>9</volume>
          .8.
          <fpage>13</fpage>
        </mixed-citation>
      </ref>
      <ref id="ref12">
        <mixed-citation>
          [12]
          <string-name>
            <given-names>C. N.</given-names>
            <surname>Freitas</surname>
          </string-name>
          ,
          <string-name>
            <surname>R. M. M. Gouveia</surname>
            ,
            <given-names>A.</given-names>
          </string-name>
          <string-name>
            <surname>Silva. Online Analytical</surname>
          </string-name>
          <article-title>Processing em ambientes virtuais de aprendizagem da educac¸ a˜o a distaˆncia</article-title>
          . In: DesafIE - Workshop de Desafios da Computac¸
          <article-title>a˜o Aplicada a` Educac¸a˜o - XXXV Congresso da</article-title>
          Sociedade Brasileira de Computac¸a˜o,
          <year>2015</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref13">
        <mixed-citation>
          [13]
          <string-name>
            <given-names>L. A.</given-names>
            <surname>Silva; A. H. Morin; T. M. C.</surname>
          </string-name>
          <article-title>Sato</article-title>
          . Pra´ticas de Minerac¸
          <article-title>a˜o de Dados no Exame Nacional do Ensino Me´dio</article-title>
          . In: Congresso Brasileiro de Informa´tica na Educac¸ a˜o - Workshop de Minerac¸a˜o de Dados em Ambientes Virtuais do Ensino/Aprendizagem,
          <year>2014</year>
          . p.
          <fpage>651</fpage>
          -
          <lpage>660</lpage>
          .
        </mixed-citation>
      </ref>
      <ref id="ref14">
        <mixed-citation>
          [14]
          <string-name>
            <given-names>R.</given-names>
            <surname>Baker</surname>
          </string-name>
          ,
          <string-name>
            <given-names>S.</given-names>
            <surname>Isotani</surname>
          </string-name>
          ,
          <string-name>
            <given-names>A.</given-names>
            <surname>Carvalho</surname>
          </string-name>
          .
          <article-title>Minerac¸a˜o de dados educacionais: oportunidades para o Brasil</article-title>
          . Revista Brasileira de Informa´
          <article-title>tica na Educac¸a˜o, v</article-title>
          .
          <volume>19</volume>
          , n.
          <volume>02</volume>
          , p.
          <fpage>03</fpage>
          ,
          <year>2011</year>
          , doi:http://dx.doi.org/10.5753/rbie.
          <year>2011</year>
          .
          <volume>19</volume>
          .02.03
        </mixed-citation>
      </ref>
      <ref id="ref15">
        <mixed-citation>
          [15]
          <string-name>
            <given-names>A. J. C.</given-names>
            <surname>Kampff</surname>
          </string-name>
          .
          <article-title>Minerac¸a˜o de dados educacionais para gerac¸ a˜o de alertas em ambientes virtuais de aprendizagem como apoio a` pra´tica docente</article-title>
          .
          <source>Tese (doutorado)</source>
          ,
          <source>Universidade Federal do Rio Grande do Sul</source>
          , Programa de Po´
          <article-title>s-Graduac¸a˜o em Informa´tica na Educac¸ a˜o</article-title>
          . Porto Alegre/RS/Brasil,
          <year>2009</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref16">
        <mixed-citation>
          [16]
          <string-name>
            <given-names>L. C.</given-names>
            <surname>Santana; A. M. Maciel; R. L. Rodrigues</surname>
          </string-name>
          .
          <article-title>Avaliac¸a˜o do perfil de uso no ambiente moodle utilizando te´cnicas de minerac¸a˜o de dados</article-title>
          . In: Simpo´sio Brasileiro de Informa´
          <article-title>tica na Educac¸ a˜o, 2014</article-title>
          . Congresso Brasileiro de Informa´
          <source>tica na Educac¸a˜o</source>
          ,
          <year>2014</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref17">
        <mixed-citation>
          [17]
          <string-name>
            <given-names>H.</given-names>
            <surname>Gue</surname>
          </string-name>
          ´rcio,
          <string-name>
            <given-names>P.</given-names>
            <surname>Marques</surname>
          </string-name>
          , V. Stro¨ele,
          <string-name>
            <given-names>C. K.</given-names>
            <surname>Pereira</surname>
          </string-name>
          ,
          <string-name>
            <surname>E. Barrere.</surname>
          </string-name>
          <article-title>Ana´lise do desempenho estudantil na educac¸a˜o a distaˆncia aplicando te´cnicas de minerac¸a˜o de dados</article-title>
          . In: Congresso Brasileiro de Informa´tica na Educac¸a˜o - Workshop de Minerac¸a˜o de Dados em Ambientes Virtuais de Ensino/Aprendizagem, p.
          <fpage>641</fpage>
          -
          <lpage>650</lpage>
          ,
          <year>2014</year>
        </mixed-citation>
      </ref>
      <ref id="ref18">
        <mixed-citation>
          [18]
          <string-name>
            <given-names>E.</given-names>
            <surname>Gottardo</surname>
          </string-name>
          ,
          <string-name>
            <given-names>C. A. A.</given-names>
            <surname>Kaestner</surname>
          </string-name>
          ,
          <string-name>
            <given-names>R. V.</given-names>
            <surname>Noronha</surname>
          </string-name>
          . Estimativa de desempenho acadeˆmico de estudantes:
          <article-title>ana´lise da aplicac¸a˜o de te´cnicas de minerac¸a˜o de dados em cursos a distaˆncia</article-title>
          . Revista Brasileira de Informa´
          <article-title>tica na Educac¸a˜o, v</article-title>
          .
          <volume>22</volume>
          , n.
          <volume>01</volume>
          , p.
          <fpage>45</fpage>
          ,
          <year>2014</year>
          , doi:http://dx.doi.org/10.5753/rbie.
          <year>2014</year>
          .
          <volume>22</volume>
          .01.45
        </mixed-citation>
      </ref>
      <ref id="ref19">
        <mixed-citation>
          [19]
          <string-name>
            <given-names>S.</given-names>
            <surname>Singh</surname>
          </string-name>
          ,
          <string-name>
            <given-names>V.</given-names>
            <surname>Kumar</surname>
          </string-name>
          .
          <article-title>Classification of Student's data Using Data Mining Techniques for Training &amp; Placement Department in Technical Education</article-title>
          .
          <source>International Journal of Computer Science and Network - IJCSN</source>
          , Vol.
          <volume>1</volume>
          (
          <issue>4</issue>
          ),
          <year>2012</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref20">
        <mixed-citation>
          [20]
          <string-name>
            <surname>M. L. B. Lorenzo</surname>
            ,
            <given-names>E. G.</given-names>
          </string-name>
          <article-title>Sa´nchez</article-title>
          . Prediccio´n de pe´rdida de implicacio´n de los participantes de un curso en l´
          <article-title>ınea masivo y abierto</article-title>
          .
          <source>In: XVIII Simposio Internacional de Informa´tica Educativa - SIIE</source>
          ,
          <year>2016</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref21">
        <mixed-citation>
          [21]
          <string-name>
            <given-names>F.</given-names>
            <surname>Tanaka</surname>
          </string-name>
          , G. Silva,
          <string-name>
            <given-names>S.</given-names>
            <surname>Peres</surname>
          </string-name>
          ,
          <string-name>
            <given-names>M.</given-names>
            <surname>Fantinato</surname>
          </string-name>
          .
          <article-title>Predic¸ a˜o de desempenho de alunos no ensino a distaˆncia via minerac¸a˜o de processos</article-title>
          .
          <source>In: Brazilian Conference on Intelligent Systems (BRACIS</source>
          )
          <string-name>
            <surname>- XIV Encontro Nacional de Inteligeˆncia Artificial e Computacional - ENIAC</surname>
          </string-name>
          ,
          <year>2017</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref22">
        <mixed-citation>
          [22]
          <string-name>
            <given-names>A. Q.</given-names>
            <surname>Ayinde</surname>
          </string-name>
          ,
          <string-name>
            <given-names>A. B.</given-names>
            <surname>Adetunji</surname>
          </string-name>
          ,
          <string-name>
            <given-names>M.</given-names>
            <surname>Bello</surname>
          </string-name>
          ,
          <string-name>
            <given-names>O. A.</given-names>
            <surname>Odeniyi</surname>
          </string-name>
          .
          <article-title>Performance Evaluation of Naive Bayes and Decision Stump Algorithms in Mining Students' Educational Data</article-title>
          .
          <source>International Journal of Computer Science Issues - IJCSI</source>
          , v.
          <volume>10</volume>
          , n. 4, p.
          <fpage>147</fpage>
          ,
          <year>2013</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref23">
        <mixed-citation>
          [23]
          <string-name>
            <given-names>T.</given-names>
            <surname>Devasia</surname>
          </string-name>
          ,
          <string-name>
            <given-names>T. P.</given-names>
            <surname>Vinushree</surname>
          </string-name>
          ,
          <string-name>
            <given-names>V.</given-names>
            <surname>Hegde</surname>
          </string-name>
          .
          <article-title>Prediction of students performance using Educational Data Mining”</article-title>
          .
          <source>International Conference on Data Mining and Advanced Computing - Sapience</source>
          , IEEE,
          <year>2016</year>
          , doi: 10.1109/SAPIENCE.
          <year>2016</year>
          .7684167
        </mixed-citation>
      </ref>
      <ref id="ref24">
        <mixed-citation>
          [24]
          <string-name>
            <given-names>D.</given-names>
            <surname>Ifenthaler</surname>
          </string-name>
          ,
          <string-name>
            <given-names>C.</given-names>
            <surname>Widanapathirana</surname>
          </string-name>
          .
          <article-title>Development and Validation of a Learning Analytics Framework: Two Case Studies Using Support Vector Machines</article-title>
          . Springer - Tech
          <source>Know Learn</source>
          <volume>19</volume>
          ,
          <fpage>221</fpage>
          -
          <lpage>240</lpage>
          ,
          <year>2014</year>
          , doi: https://doi.org/10.1007/s10758-014-9226-4
        </mixed-citation>
      </ref>
      <ref id="ref25">
        <mixed-citation>
          [25]
          <string-name>
            <given-names>I. H.</given-names>
            <surname>Witten</surname>
          </string-name>
          , E. Frank,
          <string-name>
            <given-names>M. A.</given-names>
            <surname>Hall</surname>
          </string-name>
          .
          <article-title>Data mining: practical machine learning tools and techniques</article-title>
          . 4rd ed. Morgan Kaufmann - Elsevier,
          <year>2016</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref26">
        <mixed-citation>
          [26]
          <article-title>ABED - Associac¸a˜o Brasileira de Educac¸ a˜o a Distaˆncia. Censo EAD BR: relato´rio anal´ıtico da aprendizagem a distaˆncia no brasil</article-title>
          .
          <source>InterSaberes</source>
          ,
          <year>2018</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref27">
        <mixed-citation>
          [27]
          <string-name>
            <given-names>P.</given-names>
            <surname>Tan</surname>
          </string-name>
          ,
          <string-name>
            <given-names>M.</given-names>
            <surname>Steinbach</surname>
          </string-name>
          ,
          <string-name>
            <given-names>A.</given-names>
            <surname>Karpatne</surname>
          </string-name>
          ,
          <string-name>
            <given-names>V.</given-names>
            <surname>Kumar</surname>
          </string-name>
          .
          <article-title>Introduction to Data Mining”</article-title>
          . 2nd ed. Pearson,
          <year>2018</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref28">
        <mixed-citation>
          [28]
          <string-name>
            <given-names>W. J.</given-names>
            <surname>Frawley</surname>
          </string-name>
          ,
          <string-name>
            <given-names>G.</given-names>
            <surname>Piatetsky-Shapiro</surname>
          </string-name>
          ,
          <string-name>
            <given-names>C. J.</given-names>
            <surname>Matheus</surname>
          </string-name>
          .
          <article-title>Knowledge discovery in databases: An overview</article-title>
          .
          <source>AI</source>
          magazine, v.
          <volume>13</volume>
          , n. 3, p.
          <fpage>57</fpage>
          ,
          <year>1992</year>
          .
        </mixed-citation>
      </ref>
    </ref-list>
  </back>
</article>