Learning Analytics as an analysis factor of university academic performance Daysi García-Tinisaray1[0000-0002-7128-5432] José Luis Pino Mejias2[0000-0001-9344-9242] and Juan Manuel Muñoz Pichardo3[0000-0001-8841-1987] 1 Universidad Técnica Particular de Loja, San Cayetano Alto, Ecuador 2 Universidad de Sevilla, S. Fernando. 4, 4100, España 3 Universidad de Sevilla, S. Fernando. 4, 4100, España dkgarcia@utpl.edu.ec Abstract. The main objective of this research is to use the Learning Analytics ap- proach to identify the covariates that influence the academic performance of university students. There is a multilevel analysis of two levels, in the first level there are 23,583 units of analysis (number of observations-students) and 468 units in the second one (number of groups-classrooms). The results show that the highest percentage of varia- bility is explained by level 1 (students), that all the variables of the Learning Analytics approach have a positive influence and that the participation in chats, forums and video- collaborations cause the greatest impact since they provoke an increase of between 1 and 2 points in academic performance. Keywords: Learning Analytics, Academic performance, Multilevel. 1 Introducción El análisis de datos está en auge en el área de la educación sobre todo porque existen herramientas para procesar un volumen creciente de datos, facilitando de esta forma el uso de la información relacionada con el estudiante, el docente, la entidad educativa, etc. con fines de mejorar el aprendizaje. Las plataformas de enseñanza virtual tales como WEbCT, Moodle, Blackboard, Cla- roline, Dokeos y recientemente las plataformas MOOC (Massive Open Online Courses) permiten a las universidades monitorizar en tiempo real la actividad de los estudiantes. La integración de esta información con otras variables está en el origen de las técnicas de extracción de conocimiento útil para la mejora del proceso de enseñanza – aprendi- zaje, conocidas como análisis del aprendizaje (learning analytics). En materia de rendimiento académico en la educación superior, la mayoría de las investigaciones relevantes presentan un marcado interés en la inclusión de factores per- sonales, son pocos los estudios que hacen un abordaje multinivel que incluya variables del enfoque learning analytic. Los modelos multinivel son más aplicables en el campo educativo porque en estas poblaciones las observaciones individuales no son comple- tamente independientes, es decir se presenta una estructura jerárquica, por lo que según [1], esto implica una dependencia de las observaciones de nivel micro (alumnos) dentro del nivel macro (aulas o centros). Esta dependencia se refiere a que los estudiantes del 2 mismo grupo comparten el mismo ambiente, mismos profesores, normas, comunica- ción, etc. A diferencia de la regresión clásica, los modelos multinivel permiten incluir en una misma ecuación, variables independientes de diferentes niveles de agregación. Bajo estas premisas el objetivo central de esta investigación es emplear el enfoque Learning Analytics para identificar los factores y covariables que influyen en el rendi- miento académico de los estudiantes universitarios. Se plantean dos preguntas básicas: ¿Qué proporción de la variación en el rendimiento académico puede atribuirse a las variables que engloba el Learning Analytics? ¿Existe una relación entre el rendimiento académico y el contexto de los estudiantes? Al identificar la influencia que ejercen sobre el rendimiento académico las variables consideradas (dentro de las cuales consta un grupo de variables de interacción: partici- pación en foro, chat, video-colaboración, número de mensajes enviados al profesor, número de comentarios en el curso de la asignatura, número de accesos al LMS), esta investigación se convierte en un punto de partida de procesos de retroalimentación edu- cativa que permitirán a las instituciones mejorar la focalización de las intervenciones y los servicios de apoyo a estudiantes con mayor riesgo de fracaso académico. Los resultados del análisis multinivel indican que las variables del nivel 1: edad, rinde supletorio, repite materia, participa en chat, participa en foro, participa en video- colaboración, N° comentarios, N° accesos al LMS y las variables del nivel 2: tasa de repetidores, ciclo y tipo de docente son estadísticamente significativas. Este artículo está estructurado en seis secciones. La segunda sección contiene la re- visión de la literatura. La tercera sección presenta la metodología. En la cuarta sección se presentan los resultados. En la quinta sección se encuentra la discusión de resultados. Finalmente, en la sexta sección constan las conclusiones. 2 Revisión de la literatura En la actualidad, los enfoques de análisis de datos más usados en el ámbito de la edu- cación superior son la minería de datos educativos (del inglés, Educational Data Mi- ning, EDM), el análisis académico (del inglés, Academic Analytics, AA) y el análisis del aprendizaje (del inglés, Learning Analytics, LA). El análisis del aprendizaje, análisis académico y minería de datos se centran especí- ficamente en herramientas y métodos para la exploración de datos que provienen de contextos educativos [2]. Hoy en día se considera que estas técnicas ayudan a moldear el futuro de la educación superior y a generar nuevos enfoques y estrategias en mejora de la enseñanza y del aprendizaje. La diferencia entre estos tres enfoques se establece en los siguientes planteamientos [3]:  La minería de datos es un desafío técnico ¿Cómo se puede extraer valor de los gran- des conjuntos de datos relacionados con el aprendizaje?  El análisis del aprendizaje es un desafío educativo ¿Cómo se puede optimizar las oportunidades para el aprendizaje en línea? 3  El análisis académico es un desafío económico / político ¿Cómo se puede mejorar sustancialmente las oportunidades de aprendizaje y los resultados educativos a nivel nacional o internacional? Estos enfoques no solo recogen y exploran grandes cantidades de información, sino que permiten construir y poner a prueba modelos que se centran en el estudiante, ya sea de forma individual o en el contexto de la institución, con la finalidad de predecir o mejorar el rendimiento académico. El Learning Analytics surge a partir de dos tendencias convergentes: el uso cada vez mayor de los Entornos Virtuales de Aprendizaje en las instituciones educativas y la aplicación de técnicas de minería de datos para los procesos de inteligencia de negocios en sistemas de información de la organización [4]. “Learning Analytics es la medición, recopilación, análisis y presentación de datos sobre los alumnos y sus contextos, a efectos de entender y optimizar el aprendizaje y los entornos en los que ocurren los sucesos de aprendizaje” [5] El informe Horizont [6] menciona que el Learning Analytics tiene su origen en la minería de datos aplicada al sector comercial en donde se realizaban análisis de las actividades de los consumidores con la finalidad de personalizar la publicidad. Este tipo de análisis permite usar los datos asociados con el aprendizaje de los estu- diantes y generar informes que sean útiles para los docentes (actividades y progreso de los estudiantes), para los estudiantes (retroalimentación) y para los administradores (in- cremento de aulas de clase, tasa de graduación, etc.) [7]. 3 Metodología 3.1 Fuente de datos Los datos utilizados provienen de una de las universidades ecuatorianas con más número de estudiantes a nivel de educación superior a distancia en Latinoamérica, a partir de esta información se desarrollan los dos análisis antes mencionados cuya variable obje- tivo es el rendimiento académico. La población objeto de estudio comprende un ámbito individual, grupal y contextual, los participantes que la conforman son 23,583 estudiantes y 468 aulas. Los datos se or- denaron jerárquicamente, de tal forma que las observaciones se agrupen correctamente en cada uno de los niveles de agregación. Los datos fueron levantados en el año 2014. En el proceso de inclusión de variables usadas para la modelización del rendimiento académico se tuvo en cuenta el enfoque de enseñanza centrada en la teoría del Learning Analytics, por lo que se trabaja con datos suministrados por el Entorno Virtual de Apren- dizaje, una de las herramientas de apoyo principales en esta modalidad de estudio. 4 3.2 Variables Las variables se han seleccionado en pro del cumplimiento de los objetivos específicos. Estas variables son de carácter académico, demográfico, pedagógico y tecnológico (en el ámbito tecnológico se trabaja con variables que involucra el enfoque “learning analy- tics”). Se toman en cuenta variables individuales del estudiante (nivel inferior), variables del docente y asignatura (nivel intermedio) y variables de la escuela (nivel superior). Todas las variables se obtienen dentro de la misma universidad, de esta forma, se supone que la correlación promedio (conocida como la correlación intraclase) entre las variables de los alumnos de la misma universidad y del mismo tipo de asignatura (troncal) es ma- yor que la correlación de las mismas variables medidas entre los alumnos de universida- des distintas. Estas covariables se presentan en la Tabla 1. La variable de respuesta se denomina rendimiento académico y es la calificación final del estudiante que se mide en un rango de 0 a 40 puntos (incluye la sumatoria de los exámenes, trabajos a distancia y otras actividades). Table 1. Variables de estudio Niveles Covariables Dimensión Edad Género Sociodemográficas Región Repite la asignatura Rinde supletorio Antecedentes académicos Tiene Beca N° de consultas al profesor Nivel 1 Estudiantes N° de comentarios (23,583) N° de accesos a LMS* N° de accesos asignatura Tiempo de uso LMS Learning analytics Participación en foros Participación en video colaboración Participación en chat Número de matriculados Número de repetidores Asignatura Número de créditos Nivel 2 Ciclo de asignatura Aulas (468) Años de experiencia Evaluación docente Docente Formación académica Tipo de docente *Learning Management System. 5 3.3 Ecuaciones El inicio de la aplicación de los modelos multinivel en el campo educativo se debe prin- cipalmente al aporte que realizaron [8], en su investigación “Statistical modelling issues in school effectiveness studies” en la cual introdujeron por primera vez el análisis mul- tinivel para determinar la efectividad escolar, demostrando la existencia de errores me- todológicos al usar las regresiones tradicionales en investigaciones anteriores y recono- ciendo la presencia de una estructura jerárquica en la presentación y análisis de datos entre estudiantes y escuelas. Los modelos multinivel han estado aplicándose con mayor fuerza en el campo de la salud y educación desde hace más de dos décadas [9], [10], [11]. El análisis multinivel se desarrolla de acuerdo a la estructura anidada que presente la población en estudio, ésta básicamente suele ser de 2 o 3 niveles. Conforme se aumentan los niveles se supone que aumenta la heterogeneidad. El modelo de 2 niveles se compone de dos estimaciones en donde i =1,…,nj unidades del nivel 1 se encuentran anidados dentro de j=1,…,J unidades del nivel 2. yij = β0j + β1jx1ij +....... + βnjx nij + eij (1) La ecuación (1) representa la modelización del nivel 1, en donde yij es la variable dependiente para el caso i en la unidad j, βnj es el coeficiente del nivel 1, xnij es la variable explicativa n para el caso i en la unidad j y el efecto aleatorio del nivel 1 se representa por eij. βnj = γ n0 + γ n1W1j +.... + γ np Wnj + u nj (2) La modelización de 2 niveles se establece en la ecuación (2), en donde βnj es la varia- ble dependiente (coeficientes del nivel 1), γnp coeficientes del novel 2, Wnj representa a las variables explicativas p para la unidad j del nivel 2 y unj es el efecto aleatorio del nivel 2. 4 Resultados Se realiza un procedimiento “stepwise” hacia adelante, es decir incrementando el número de variables explicativas del nivel 1 y del nivel 2 para ir ampliando la capacidad de explicación y ajuste del modelo, aunque para ello esta secuencia metodológica au- mente simultáneamente la complejidad del mismo. Las estimaciones “stepwise” se desarrollan bajo una especificación lineal debido a las características de los datos y con el apoyo del software Stata/SE 12.0 a través de la fun- cionalidad Statistic – Multilevel mixed-effects models. El análisis se inicia con el paso 0 (Modelo nulo-ANOVA con efectos aleatorios) en el cual no se incluyen variables explicativas, es decir, se estima un modelo nulo para comprobar la significatividad y luego explicar la varianza, expandiendo el modelo a tra- vés de la incorporación de predictores de los dos niveles en la parte fija y aleatoria 6 Table 2. Modelo Final Mixed-effects ML regression Number of obs = 23,583 Deviance = 161611.82 Wald chi2(16) = 6146.69 Log likelihood = -80805.908 Prob > chi2 = 0.0000 REND_ACADEMICO Coef. Std. Err. Z P>z [95% Conf. Interval] Tasa_Repetidores -21.2218 1.609523 -13.19 0.000 -24.3764 -18.06719 Ciclo .7623473 .0697031 10.94 0.000 .6257318 .8989628 Tipo_docente Tiempo completo 0 (base) Administrativo 1.510935 .5678153 2.66 0.008 .3980378 2.623833 Invitado .9573145 .3116882 3.07 0.002 .3464169 1.568212 Edad .0837473 .0062392 13.42 0.000 .0715186 .095976 Rinde_supletorio -.5267685 .2636077 -2.00 0.046 -1.04343 -.0101069 Rinde_supletorio*Ciclo -.3366908 .0581579 -5.79 0.000 -.4506782 -.2227034 Repite_materia 2.808255 .2476235 11.34 0.000 2.322922 3.293588 Repite_materia*Ciclo -.2486661 .0633913 -3.92 0.000 -.3729107 -.1244215 Participa_chat 1.313279 .1692679 7.76 0.000 .98152 1.645038 Participa_foro 2.057453 .1272299 16.17 0.000 1.808087 2.306819 Participa_video 1.31303 .1937892 6.78 0.000 .9332105 1.69285 N_comentarios .091933 .0222558 4.13 0.000 .0483125 .1355535 N_accesos_LMS .0438462 .0025096 17.47 0.000 .0389275 .048765 N_acce- .0696397 .0086301 8.07 0.000 .052725 .0865544 sos_LMS*Tasa_Repetidores N_accesos_LMS*Ciclo -.0042219 .0003348 -12.61 0.000 -.004878 -.0035658 _cons 20.25.424 .5565587 36.39 0.000 19.1634 21.34.507 Random-effects Parameters Estimate Std. Err. [95% Conf. Interval] AULA: Independent var(Rinde_supletorio) 3.243811 .4901397 2.412.343 4.361863 var(Repite_materia) .8369861 .4001639 .3279125 2.13638 var(Partica_chat) .4351275 .3708907 .0818607 2.312903 var(Participa_foro) .3788677 .2529417 .1023773 1.402075 var(Participa_video) .5905212 .4444584 .135075 2.581642 var(_cons) 7.385529 .6798355 6.166359 8.845746 var(Residual) 52.75249 .5014936 51.77868 53.74461 LR test vs. linear regression: chi2(6) = 2003.78 Prob > chi2 = 0.00 7 Se continua con el paso 1 (Explicación del intercepto con variables del nivel 2) se consideran únicamente predictores del nivel 2, con la finalidad de explicar la variabilidad a través de variables del nivel 2. Para el paso 2 (Significación de las variables explicativas del nivel 1) se ingresan predictores del nivel 1 y estos son los que explican la varianza del rendimiento acadé- mico dentro de los grupos. En el paso 3 (Regresión con interacciones y variables de los niveles 1 y 2) se consideran los resultados anteriores para generar una estimación basada en las variables explicativas de los estudiantes y de las aulas que son estadísticamente significativas y se realizan las interacciones multinivel a nivel del alumno con variables explicativas de las aulas. Finalmente en el paso 4 (Variabilidad en los coeficientes de los predictores del nivel 1), a diferencia del paso 3, se incluye en la parte de efectos aleatorios las pendientes significativas del nivel 1. Analizando todas las estimaciones para dos niveles (estudiantes y aulas), las estima- ciones que explican un mayor porcentaje de la varianza son las del paso 3 y 4, sin em- bargo, la estimación que mejor se ajusta es la del paso 4, por lo que es este modelo el que se considera como modelo final definitivo para dar respuesta al objetivo prefijado. El modelo que resulta en el paso 4 se presenta en la Tabla 2 estos datos muestran que después de incluir las interacciones, el componente de la varianza de las pendientes de las variables explicativas del nivel 1 muestra una variación leve pero significativa entre aulas. 5 Discusión de resultados El modelo final involucra: tres covariables del Nivel 2: tasa de repetidores, ciclo y tipo de docente. Ocho variables del Nivel 1: edad, rinde supletorio, repite materia, participa en chat, participa en foro, participa en video colaboración, N° comentarios, N° accesos al LMS. Cuatro interacciones multinivel. La varianza de cinco pendientes del Nivel 1. El coeficiente de la variable tasa de repetidores medida en el intervalo [0,1], nos in- dica que un aumento en 10 puntos porcentuales de estudiantes matriculados por segunda o tercera vez en una asignatura troncal, ocasiona una disminución de 2.1 puntos en el rendimiento académico. Esto significa que a pesar de que se asume que los estudiantes tienen más experiencia que los estudiantes nuevos en la materia, no obtienen una mejor nota, lo cual podría estar ligado a la metodología de enseñanza o a los instrumentos de evaluación. Otra variable del nivel 2 es la variable ciclo. Los resultados indican que cuando la asignatura se encuentra en un ciclo superior el rendimiento académico incrementa en 0.8 décimas. Esto se puede esperar ya que se considera que conforme un estudiante avanza a ciclos superiores tiene más conocimientos y en cierta forma ha adquirido madurez aca- démica. 8 La pendiente de la variable tipo de docente influye positivamente sobre el rendimiento académico, ya que, este tiende a subir aproximadamente 1 punto si el docente es admi- nistrativo o invitado. Estos resultados se pueden explicar posiblemente por dos razones: la primera sería que los docentes a tiempo completo son más estrictos y la segunda puede ser que estos docentes tienen más créditos o asignaturas a su cargo en comparación a los docentes invitados o administrativos. Estos en sí son dos supuestos, que se deberían de verificar en base a otros aspectos como salario que perciben, número de asignaturas que tienen a su cargo, años de experiencia, etc. En cuanto a la edad, los resultados indican que por un año más de edad que tenga el estudiante, el puntaje del rendimiento académico subirá en 0.08 décimas. El comporta- miento de estos resultados coinciden con los planteados por [12], [13], quiénes encon- traron que la edad tiene una relación positiva y significativa con el rendimiento acadé- mico de los estudiantes universitarios. El coeficiente de la pendiente de la variable rinde supletorio y su interacción con el ciclo indican que si un estudiante se queda suspenso y está en un ciclo superior el rendi- miento académico disminuirá en 0.86 décimas (resultante de la suma de los coeficientes -0.52677 y -0.33669 recogidos en la Tabla 2). Mientras que analizando los resultados de la variable repite materia y su interacción con el ciclo nos muestra que si un estudiante repite la materia y está en un ciclo superior, el rendimiento académico en promedio subirá en 2.6 décimas (resultante de la suma de los coeficientes 2.80826 y -0.24867 re- cogidos en la Tabla 2). Todas las variables del enfoque Learning Analytics tienen una relación positiva con el rendimiento académico, siendo la participación en chat, foro y video-colaboración las que ocasionan el mayor impacto ya que provocan un incremento de entre 1 y 2 puntos en el rendimiento académico, afirmando de esta forma que si existe una relación signi- ficativa con el rendimiento académico tal como lo plantean [4], [14]. La variable N° accesos al LMS interacciona con la tasa de repetidores y el ciclo de la asignatura, lo cual indica que ocasiona un incremento de cerca de 0.11 décimas en el rendimiento acadé- mico (resultado de la suma de los coeficientes 0.04385, 0.06964 y -0.00422 recogidos en la Tabla 2). 6 Conclusiones Las variables incluidas en la presente investigación permiten identificar cual es la in- fluencia que ejercen sobre el rendimiento académico, estas estimaciones pueden permitir a una institución educativa mejorar la focalización de las intervenciones y los servicios de apoyo a estudiantes en riesgo de problemas académicos. Los resultados obtenidos dan respuesta a las hipótesis y objetivos planteados, además este trabajo es un punto de partida para futuras investigaciones que consideren que el ámbito tecnológico se está convirtiendo en una de las mejores herramientas de enseñanza aprendizaje, sobre todo en educación a distancia 9 Todas las variables del enfoque Learning Analytics tienen una influencia positiva sobre el rendimiento académico de estudiantes universitarios, específicamente la parti- cipación en chats, foros y video-colaboraciones ocasionan el mayor impacto ya que provocan un incremento de entre 1 y 2 puntos en el rendimiento académico. References 1. Snijders, T., Bosker, R.: Standard errors and sample sizes for two-level research. Journal of educational statistics, 18(3), 237–259 (1993). 2. Dyckhoff, A., Zielke, D., Bültmann, M., Chatti, M., Schroeder, U.: Design and Implemen- tation of a Learning Analytics Toolkit for Teachers. Journal of Educational Technology & Society, 58–76 (2012). 3. Ferguson, R.: Learning analytics: drivers, developments and challenges International Jour- nal of Technology Enhanced Learning, 304–317 (2012). 4. Agudo, A., Hernandez, A., Iglesias, S.: Predicting academic performance with learning an- alytics in virtual learning environments: a comparative study of three interaction classifica- tions. 2012 International Symposium on Computers in Education (SIIE), pp. 1–6. IEEE Xplore, Andorra la Vella (2012). 5. Siemens, G., Gasevic, D., Haythornthwaite, C., Dawson, S., Buckingham, S., Ferguson, R.: Open Learning Analytics: an integrated & modularized platform Proposal to design, imple- ment and evaluate an open platform to integrate heterogeneous learning analytics tech- niques. Obtenido de http://solaresearch.org/OpenLearningAnalytics.pdf 6. Johnson, L., Smith, R., Willis, H., Levine, A., Haywood, K. The 2011 Horizon Report. Homepage, de http://net.educause.edu/ir/library/pdf/hr2011.pdf, last accessed 2015/10/15. 7. Brown, M.: Learning Analytics: the coming third wave. EDUCAUSE Learning Initiative Brief, 1 (4), 1–4 (2011). 8. Aitkin, M., Longford, N.: Statistical modelling issues in school effectiveness studies. Journal of the Royal Statistical Society, 1–43 (1986). 9. Goldstein, H., Spiegelhalter, and D.: League tables and their limitations: statistical issues in comparisons of institutional performance. Journal of the Royal Statistical Society, 385–443 (1996). 10. Goldstein, H., Rasbash, J., Yang, M., Woodhouse, G., Pan, H., Nuttall, D.: A multilevel analysis of school examination results. Oxford review of education, 425–433 (1993). 11. Draper, D.: Inference and hierarchical modeling in the social sciences (with discusion). Jour- nal of Educational and Behavioral Statistics, 115–147(1995). 12. Nasir, M.: Demographic characteristics as correlates of academic achievement of university students. Academic Research International, 400–405 (2012). 13. Alhajraf, N., Alasfour, A.: The impact of demographic and academic characteristics on ac- ademic performance. International Business Research, 92–100 (2014). 14. Yu, T., Jo, I.: Educational Technology Approach toward Learning Analytics: Relationship between Student Online Behavior and Learning Performance in Higher Education. ACM International Conference Proceeding Series, 269–270 (2014).