=Paper=
{{Paper
|id=Vol-2231/LALA_2018_paper_33
|storemode=property
|title=Aprendizaje estadístico para detectar potencial abandono en educación superior: Caso de estudio de una universidad pública(Statistical learning to detect potential dropouts in higher education: A public university
case study)
|pdfUrl=https://ceur-ws.org/Vol-2231/LALA_2018_paper_33.pdf
|volume=Vol-2231
|authors=César Noboa,Milton Ordóñez,Jorge Magallanes
}}
==Aprendizaje estadístico para detectar potencial abandono en educación superior: Caso de estudio de una universidad pública(Statistical learning to detect potential dropouts in higher education: A public university
case study)==
Statistical Learning to Detect Potential Dropouts in Higher Education: A Public University Case Study César Noboa1, Milton Ordóñez2, Jorge Magallanes3 1 Escuela Superior Politécnica del Litoral, ESPOL, (Oficina de Admisiones), Campus Gustavo Galindo Km. 30.5 Vía Perimetral, P.O. Box 09-01-5863, Guayaquil, Ecuador enoboa@espol.edu.ec 2 Escuela Superior Politécnica del Litoral, ESPOL, (Gerencia de Tecnologías y Sistemas de Información), Campus Gustavo Galindo Km. 30.5 Vía Perimetral, P.O. Box 09-01-5863, Guayaquil, Ecuador xordonez@espol.edu.ec 3 Escuela Superior Politécnica del Litoral, ESPOL, (Facultad de Ingeniería en Electricidad y Computación), Campus Gustavo Galindo Km. 30.5 Vía Perimetral, P.O. Box 09-01-5863, Guayaquil, Ecuador jmagalla@espol.edu.ec Abstract. Early detection of students tending to drop out is crucial to improve not only graduation rates but also education quality. By using basic statistical learning techniques, this work presents a simple way to predict possible dropouts based on their demographic and academic characteristics. In order to reasonably predict while gaining a better understanding of the dropout phenomenon, after a preliminary analysis, 4 classification methods are applied including 2 easy-to- interpret ones. Some of the main results of this study show that almost 22% of current students are potential dropouts while being an older student and failing many subjects tend to cause dropout; on the other hand, passing more than 12 subjects and long-term access to library materials can prevent students from leaving college. Palabras Clave: College Dropout, Early Dropout Prediction, Dropout Risk Factors, Statistical Learning Classification Techniques. 1 Introducción En la educación superior, la deserción estudiantil es un problema relevante, no sólo en América Latina sino en países desarrollados. Aunque no existe consenso para medir la calidad de la educación, uno de los indicadores importantes es el tiempo de titulación para graduarse (TTG), el cual está relacionado directamente con la deserción estudiantil [1]. Las estimaciones a nivel mundial sitúan esta tasa de deserción en el 40% [2]. En Estados Unidos, esta tasa es de alrededor del 30% y representa una pérdida de 9 billones de dólares en la educación de estos estudiantes [3]. Sin embargo, la deserción no sólo afecta a la calidad de la educación y a la economía de un país, sino que tiene repercusiones sobre el desarrollo de la sociedad, puesto que ésta demanda las contribuciones derivadas de la población con educación superior como son: la innovación, la producción de conocimiento y el descubrimiento científico [1]. Existen varias investigaciones que determinan en alguna medida la deserción en América Latina. En la gran mayoría se trata acerca de la determinación de los factores que conllevan a la deserción, la medición del número de desertores y los mecanismos para disminuirlo [4]. Existen dos propuestas para la cuantificación de la deserción: La primera, se establece como la proporción de estudiantes que se titulan en un tiempo determinado que corresponde a la duración de la carrera; y la segunda, simplemente es el número de estudiantes que abandona sus estudios. Para disminuir la deserción, estas investigaciones proponen mejorar los mecanismos de detección temprana de potenciales desertores. La aplicación de los métodos de aprendizaje estadístico para abordar el problema de la deserción ya ha sido propuesta por varios estudios, analizando ya sea, la deserción o culminación de un curso [5,6] o de una carrera [3,7,8,9]. Algunos de los métodos empleados en estas investigaciones son: regresión logística, k-vecinos más cercanos, árboles de decisión incluido random forests, redes bayesianas, redes neuronales, entre otros. En el presente trabajo, se ha preferido mantener un equilibrio entre facilidad de interpretación y precisión [10], poniendo especial énfasis en la detección de desertores antes que en la reducción de malas clasificaciones. Se han escogido 2 métodos que generan modelos comprensibles: árboles de decisión y regresión logística; y 2 métodos que tienen gran capacidad de precisión: naive bayes y k-vecinos más cercanos. Estos 4 métodos empleados de manera conjunta producirán una solución de compromiso entre comprensibilidad y precisión, siendo esta última evaluada principalmente por el porcentaje de desertores detectados. En este artículo, se presenta un marco de trabajo para los sistemas de detección temprana de potenciales desertores, en el cual se propone utilizar las 4 técnicas ya mencionadas de manera conjunta. Para medir la efectividad del marco de trabajo, estas técnicas son aplicadas sobre el conjunto de datos del Sistema Académico de la Escuela Superior Politécnica del Litoral (ESPOL), institución pública de educación superior del Ecuador. 2 Metodología 2.1 Análisis preliminar En esencia este proyecto trata de comparar las características de los estudiantes desertores versus las características de aquellos que no lo son, para luego de esto definir una regla o modelo que los diferencie. En este trabajo, un estudiante es considerado desertor si ha dejado de estudiar los últimos 3 años (2015, 2016, y 2017) y no se ha graduado. En la Fig. 1 se observa la tendencia del porcentaje de deserción de los estudiantes que ingresaron a la ESPOL en el período 2009-2013 clasificados por género. Este porcentaje de deserción ha ido decreciendo hasta situarse en el 10.56% para las mujeres y el 14.48% para los hombres; sin embargo, aún son porcentajes altos, especialmente, si se los traduce a cantidades absolutas. 35.00% 30.00% 25.00% 20.00% 15.00% 10.00% 5.00% 0.00% 2009 2010 2011 2012 2013 Mujeres Hombres Fig. 1. Comportamiento de la deserción por año y sexo. La Fig. 1 también refleja que existe una considerable diferencia en la deserción de ambos grupos. Ésta muestra no sólo que ha existido mayor porcentaje de desertores varones que de mujeres, sino que la brecha entre estos 2 grupos se ha acortado, pero siempre ha existido. La Tabla 1 muestra la comparación porcentual de desertores según su género. El estadístico 𝜒 2 de Pearson para la prueba de independencia de esta tabla de contingencia es 78.96 con un valor p< 0.0001, lo cual indica que la deserción y el género no son independientes. Sin embargo, esto último no implica que el género tiene la capacidad suficiente para discriminar entre estudiantes desertores y no desertores. Tabla 1. Deserción de estudiantes que ingresaron desde el 2009 al 2013. Femenino Masculino Todos Cantidad % Cantidad % Cantidad % Desertor 498 14.75 1,105 22.62 1,603 19.40 No Desertor 2,878 85.25 3,781 77.38 6,659 80.60 Totales 3,376 100.00 4,886 100.00 8,262 100.00 2.2 Selección del conjunto de datos objetivo Para la selección del conjunto de datos objetivo, se tomará como “instante de tiempo” el segundo semestre del año 2011. En concreto, el conjunto de datos objetivo lo conforman los estudiantes que ingresaron a la ESPOL desde el año 2009 y estudiaron en el semestre 2011-2s con las características que tuvieron en ese instante de tiempo. Este conjunto de datos consta de 4294 estudiantes de los cuales 525 son desertores. El conjunto de variables seleccionadas se divide en 2 grupos: las variables relacionadas a las características personales del estudiante y las variables relacionadas a su comportamiento académico. En la Tabla 2 se indica la descripción de cada una de estas variables. El período de prueba mencionado en las variables “Superadas” y “Perdidas” se refiere al semestre en que un estudiante tiene la última oportunidad de aprobar una materia luego de haberla reprobado 2 veces en semestres anteriores; reprobar dicha materia en el período a prueba restringe al estudiante de continuar en la misma carrera. Tabla 2. Descripción de las variables seleccionadas. # Variable Descripción Tipo Posibles valores 1 SEXO Sexo del estudiante Categórica {F, M} 2 EDAD Edad del estudiante Numérica 16 en adelante Indicador del nivel 3 FACTOR_P Numérica 0 a 40 socioeconómico 4 RESIDENCIA Tipo de residencia Categórica {LOCAL,PROV} 5 APROBADAS # de materias aprobadas Numérica 0 en adelante 6 REPROBADAS # de materias reprobadas Numérica 0 en adelante 7 PROMEDIO Promedio general Numérica 0 a 10 8 ANTIGÜEDAD # de semestres de estudio Numérica 0a5 # de veces en que perdió Desde 0 en 9 PERDIDAS Numérica un período de prueba adelante # de veces en que superó Desde 0 en 10 SUPERADAS Numérica un período de prueba adelante # de días de consulta de material de la biblioteca Desde 0 en 11 T_AUTONOMO Numérica principal en el semestre adelante actual Etiqueta que indica si el Categórica, 12 DESERTOR estudiante ha o no ha variable {SI,NO} desertado respuesta 2.3 Entrenamiento de los modelos de clasificación Para la aplicación de las técnicas se toma el 70% de los datos para entrenamiento y el 30% restante para pruebas. Se toman varias muestras aleatorias con el esquema 70-30. Posterior a la generación de los modelos con las muestras de entrenamiento, se evalúa la precisión de los modelos. Los métodos aplicados que presentan modelos fáciles de interpretar son: árbol de decisión y regresión logística. Ambos métodos permiten determinar las variables que tienen mayor influencia en la deserción universitaria. En la Fig. 2 se observa el árbol de decisión obtenido con una de las muestras. Fig. 2. Árbol de decisión obtenido de una muestra. Los árboles de decisión pueden presentar reglas incidentales que carecen de generalidad, tomarlas en cuenta conduciría al efecto conocido como sobreajuste [11]. Luego del entrenamiento con las distintas muestras se obtiene la siguiente regla general: Si (APROBADAS < 12.5 y REPROBADAS > 4.5) entonces ES DESERTOR caso contrario NO ES DESERTOR La regresión logística es un método de clasificación que permite predecir la probabilidad de deserción del estudiante. Fig. 3. Reporte de regresión logística de una muestra, generado con el programa estadístico R. Los resultados de la aplicación de este método a una de las muestras de entrenamiento se exponen en la Fig. 3. Tal como se observa, las variables pro-deserción son edad y número de materias reprobadas con coeficientes de 0.2 y 0.23 respectivamente; mientras que las variables que podrían evitar la deserción son el número de materias aprobadas y el trabajo autónomo del estudiante con coeficientes de -0.1 y -0.006 respectivamente; todas estas variables de influencia con un valor p menor a 0.0001. Los otros 2 métodos que se aplican al conjunto de datos son: K-vecinos más cercanos y Naive Bayes. Estos métodos que se conocen como métodos retardados, no siempre generan un modelo explícito a la manera del árbol de decisión o la regresión logística y emplean el mayor tiempo de procesamiento cuando son consultados acerca de la clasificación de un nuevo elemento [12]. 2.4 Validación de los modelos de clasificación El principal interés es predecir con razonable precisión la tasa de deserción de un conjunto de estudiantes, es por esto, que el porcentaje de correctas clasificaciones no es muy utilizado como medida de evaluación. Aplicando validación cruzada 10-fold para los métodos naive bayes y regresión logística se obtienen porcentajes de detección promedio de 28.57% y 28.56% respectivamente. La técnica de validación cruzada es especialmente útil para la determinación del valor idóneo de k, en el método de los k-vecinos más cercanos. En este caso, se emplea la validación cruzada Leave-One-Out, que consiste en tomar todos los elementos excepto uno para entrenar el modelo, siendo el elemento sobrante empleado para la prueba [13]. Los resultados de esta validación se muestran en la Fig. 4, se observa que el valor de k que produce el mayor porcentaje de detección es k=2. Sin embargo, no es conveniente elegir este valor, pues en caso de existir un vecino desertor y otro no- desertor no se podría determinar la clase a la que pertenece el estudiante que se requiere clasificar. Por lo tanto, el k idóneo para este modelo es k=1, con la ventaja adicional de que el costo computacional es menor. 35.00% 30.00% 25.00% 20.00% 15.00% 10.00% 5.00% 0.00% 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 % de Detección Fig. 4. Promedio del % de detección de k-nn para distintos valores de k. 3 Resultados y discusión En esta sección, se presentan los resultados de evaluar cada método con 5 conjuntos de prueba. Al evaluar cada método se podrá obtener las tasas de: malas clasificaciones, falsos positivos, falsos negativos y detección. En el caso de regresión logística es común etiquetar a un nuevo estudiante como desertor si la probabilidad de deserción que se obtiene es mayor que 0.5. Sin embargo, valores menores para este umbral disminuyen los falsos negativos, aunque en contraparte aumentan los falsos positivos. A este respecto, la Fig. 5 muestra el comportamiento de las distintas tasas al variar el umbral. La selección del umbral no es del todo objetiva; depende, en gran medida, de los recursos disponibles de la institución para atender a los falsos positivos. De acuerdo a la figura, un valor para el umbral pudiera ser 0.3 ó 0.4, ya que se obtiene un porcentaje de detección mayor al 30% con un porcentaje de falsos positivos menor al 10%. Es interesante notar que el porcentaje de malas clasificaciones (% de error) varía muy poco para valores del umbral entre 0.3 y 0.8. 100.00% 90.00% 80.00% 70.00% 60.00% 50.00% 40.00% 30.00% 20.00% 10.00% 0.00% 0.2 0.3 0.4 0.5 0.6 0.7 0.8 Umbral % falsos negativos % falsos positivos % detección % de error Fig. 5. Tendencias de los principales indicadores de regresión logística, promedio. La Tabla 3 muestra un resumen de la prueba de cada uno de los métodos. En esta tabla se observan los mejores y peores resultados por cada método, siendo el método con mejor porcentaje de detección promedio, la regresión logística con umbral 0.4. Tabla 3. Porcentajes de detección por método y por muestra. Métodos Árbol Knn1 Naive Bayes Logit (0.4) muestra 1 26.03% 30.14% 39.04% 39.04% muestra 2 20.00% 33.33% 34.67% 31.33% muestra 3 14.81% 30.25% 26.54% 27.16% muestra 4 19.38% 34.38% 27.50% 28.75% muestra 5 18.37% 25.85% 27.21% 29.93% Promedio 19.72% 30.79% 30.99% 31.24% Para encontrar el porcentaje de detección global de desertores, es necesario aplicar de forma secuencial cada método e ir contabilizando los nuevos desertores que surgen. La Tabla 4 muestra el resumen final de la aplicación sucesiva de los 4 métodos del proyecto. Tal como se observa, la estimación de la capacidad del proyecto para predecir la deserción universitaria es mayor al 52% y su precisión para clasificar correctamente es mayor al 82%. Tabla 4. Porcentaje de detección acumulado y precisión por muestra. Métodos Árbol Knn1 Naive Bayes Logit (0.4) Precisión muestra 1 26.03% 41.78% 55.48% 57.53% 84.24% muestra 2 20.00% 39.33% 52.66% 53.33% 82.14% muestra 3 14.81% 34.57% 47.53% 48.77% 80.20% muestra 4 19.38% 32.50% 41.88% 49.38% 81.44% muestra 5 18.37% 36.73% 48.98% 51.70% 82.69% Promedio 19.72% 36.98% 49.31% 52.14% 82.14% Fig. 6. Diagrama de Venn de posibles desertores 2017-2S. Finalmente, se aplican los métodos entrenados al conjunto de 9,159 estudiantes registrados en el segundo semestre del año 2017, de los cuales por supuesto se desconoce su futura deserción. La Fig. 6 muestra los potenciales desertores empleando los 4 métodos. De acuerdo a esto, más del 22% de los estudiantes posiblemente desertarán. Es notorio que los métodos incomprensibles naive bayes y knn-1 agregan gran cantidad de desertores que los otros 2 métodos no detectan (311 + 747 vs. 9 + 73). 4 Conclusiones y trabajos futuros De manera general, los resultados obtenidos muestran que mientras más avanza el estudiante en sus estudios menos probable es su deserción; y a excepción de la edad, las características personales de los estudiantes poco inciden en su retiro de la universidad. De acuerdo al método de árbol de decisión, reprobar más de 4 materias en las primeras fases de la carrera contribuye significativamente a la deserción. En el caso de la regresión logística, las variables que más contribuyen a la deserción son: la edad y la cantidad de materias reprobadas. En promedio, se obtuvo que los estudiantes con mayor edad tienen 22% más posibilidades (odds) de desertar frente a los que son un año menor; y, por cada materia reprobada las posibilidades de desertar frente a no hacerlo se incrementan en un 28%; en cambio, cada materia aprobada reduce la razón entre la probabilidad de desertar versus no desertar en un 16% y la consulta de material bibliográfico reduce esta misma razón en 1% por cada día de consulta. Puesto que las variables “perdidas” y “superadas” no influyen en la deserción, se concluye que reprobar una materia estando a prueba no es garantía de deserción universitaria; así como superar un período de prueba tampoco implica mayor resiliencia en los estudios. Luego de los experimentos realizados, se estima que la capacidad promedio del proyecto para detectar un posible desertor es mayor al 52%; y, la capacidad promedio para clasificar a un estudiante en el grupo correcto es mayor al 82%. En el caso de la predicción sobre los datos actuales, al aplicar los 4 métodos de discriminación a los 9,159 estudiantes registrados en el segundo semestre del 2017, se obtuvo que alrededor del 22% de los estudiantes fueron detectados como posibles desertores por al menos uno de los métodos; mientras que 220 estudiantes fueron detectados por más de 2 métodos aumentando así su riesgo de deserción. Los resultados preliminares obtenidos en este artículo indican que el proceso de enseñanza-aprendizaje pudiera verse beneficiado al enfocarse en los estudiantes detectados como posibles desertores, permitiendo que éstos tengan mayor acceso no sólo a material bibliográfico especializado sino a mejores oportunidades de incrementar su trabajo autónomo favoreciendo así su aprendizaje activo. Algunos de los siguientes pasos para potenciar estos resultados serían, estimar el tiempo que tienen los directivos antes de que el estudiante deserte, como se calcula en [3]; y, la incorporación al análisis de aspectos no cognitivos, como se sugiere en [7]. También un análisis longitudinal semestre a semestre para obtener la precisión promedio para detectar potenciales desertores, la incorporación de otros métodos como SVM para incrementar la capacidad de detección y el aumento en la recolección de datos relativos al trabajo autónomo del estudiante que va más allá de consultas bibliográficas, son algunas de las propuestas para futuras investigaciones. Referencias 1. Ferreyra, M.; Avitabile, C.; Botero, J.; Haimovich, F.; Urzúa, S.: Momento decisivo La educación superior en América Latina y el Caribe Resumen. Grupo Banco Mundial (2017) 2. El Telégrafo: La deserción universitaria bordea el 40%. https://www.eltelegrafo.com.ec/noticias/sociedad/4/la-desercion-universitaria-bordea-el-40 (2016). Accedido el 19 de Mayo de 2018 3. Aulck, L.; Velagapudi, N.; Blumenstock, J.; West, J.: Predicting student dropout in higher education. ICML Workshop on #Data4Good: Machine Learning in Social Good Applications, pp. 16-20 (2016) 4. Munizaga, F.; Cifuentes, B.; Beltrán, A.: Retención y Abandono Estudiantil en la Educación Superior Universitaria en América Latina y el Caribe: Una Revisión Sistemática. Education policy analysis archives, Vol. 26, No. 61, pp. 1-36 (2018) 5. Oedaa, S.; Hashimoto, G.: Log-Data Clustering Analysis for Dropout Prediction in Beginner Programming Classes. Procedia Computer Science, Vol. 112, pp. 614-621 (2017) 6. Badr, G.; Algobail, A.; Almutairi, H.; Almutery, M.: Predicting Students’ Performance in University Courses: A Case Study and Tool in KSU Mathematics Department. Procedia Computer Science, Vol. 82, pp. 80-89 (2016) 7. Hutt, S.; Gardener, M.; Kamentz, D.; Duckworth, A.; D'Mello, S.: Prospectively Predicting 4-year College Graduation from Student Applications. Proceedings of the 8th International Conference on Learning Analytics and Knowledge, pp. 280-289 (2018) 8. Ahuja, R.; Kankane, Y.: Predicting the probability of student's degree completion by using different data mining techniques. Fourth International Conference on Image Information Processing (ICIIP), pp. 1-4 (2017) 9. Martins, L.; Carvalho, R.; Victorino, C.; Holanda, M.: Early Prediction of College Attrition Using Data Mining. 16th IEEE International Conference on Machine Learning and Applications (ICMLA), pp. 1075-1078 (2017) 10. James, G.; Witten, D.; Hastie, T.; Tibshirani, R.: An Introduction to Statistical Learning. Springer 7th Ed, pp. 25 (2014) 11. Russell, S.; Norvig, P.: Artificial Intelligence A Modern Approach. Pearson Education 3rd Ed, pp. 705 (2010) 12. Makhabel, B.: Learning Data Mining with R. Packt Publishing 1st Ed, pp. 143 (2015) 13. Witten, I.; Frank, E.; Hall, M.; Pal, C.: Data Mining Practical Machine Learning Tools and Techniques. Elsevier 4th Ed, pp. 167-169 (2016)