=Paper=
{{Paper
|id=Vol-2231/LALA_2018_paper_9
|storemode=property
|title=Modelamiento de las fases del proceso de minería de datos educativa mediante Redes Workflow(Modeling of the phases of the educational data mining through workflow networks)
|pdfUrl=https://ceur-ws.org/Vol-2231/LALA_2018_paper_9.pdf
|volume=Vol-2231
|authors=Emilcy J. Hernández-Leal,Néstor D. Duque-Méndez
}}
==Modelamiento de las fases del proceso de minería de datos educativa mediante Redes Workflow(Modeling of the phases of the educational data mining through workflow networks)==
Modeling of the phases of the educational data mining through workflow networks Emilcy J. Hernández-Leal1, Néstor D. Duque-Méndez1 1 Universidad Nacional de Colombia, Sede Manizales ejhernandezl@unal.edu.co, ndduqueme@unal.edu.co Abstract. Workflow networks are derived from Petri networks and are used for the modeling of systems, processes, and procedures. The objective of this work is to explore the application of workflow networks for the modeling of the phases of the data mining process and to apply it to a particular case for educational data. Given that in the data mining process it is possible to find some problems related to duplicate tasks, tasks that become invisible and presence of noise in the data, it is proposed that through the workflow networks these mining processes can be previously modeled and identify the problems mentioned in time. To make the simulation of the networks, the Workflow Petri net Designer (WoPeD) software version 3.5.1 is used. With the results achieved it can be demonstrated that it is possible to apply this approach to inspect the planning of data mining processes and for the particular case of educational data, to verify that they have the neces- sary conditions and resources to execute the techniques and analysis. Keywords: Educational Data, Data Mining, Modeling, Workflow Networks. 1 Introducción Los procesos de descubrimiento de patrones, que incluyen la minería de datos, son usados para el tratamiento y análisis de datos provenientes de diferentes dominios o campos de estudio, contienen una gran variedad de técnicas, pero en general se rigen por una serie de etapas que van desde la integración de las fuentes de datos, pasando por el tratamiento, limpieza, carga, almacenamiento, hasta los procesos de análisis como tal y la visualización de resultados [1]. La minería de datos se ha aplicado a datos educativos, en este caso toma el nombre de minería de datos educativa (EDM por sus siglas en inglés) [2]. Para este trabajo son empleadas Redes Workflow con el fin de simular un proceso de minería de datos apli- cada al dominio de datos educativos y evaluar el funcionamiento de un modelo de aná- lisis y minería de datos educativos y de interacciones en plataformas virtuales de apren- dizaje para una institución de educación superior. Para lo anterior se ha planteado un 2 modelamiento del proceso de minería de datos y se ha especificado al caso particular de los datos educativos que alimentarán el proceso. El documento se organiza de la siguiente forma: en la sección 2 se presenta el referente teórico de las Redes Workflow y se describe cómo funcionan los procesos de minería de datos y cada una de sus etapas. En la sección 3 se presenta el caso particular que se desea modelar por medio de las redes, dando un contexto general del dominio de datos educativo a trabajar. En la sección 4 se muestra el modelamiento y simulación del pro- ceso y la discusión de los resultados obtenidos. Se finaliza con la sección 5 en la cual se traen a colación las conclusiones y se expone el trabajo futuro. 2 Referente teórico A continuación, se describe brevemente algunos conceptos relacionados con la pro- puesta: 2.1 Redes Workflow Las Redes de Petri, fueron introducidas por Carl Adam Petri en la década de los sesenta, de allí su nombre. En general, las redes Petri se usan como una herramienta matemática y gráfica para el estudio y modelado de diferentes sistemas. Con este tipo de redes se pueden analizar de forma completa diferentes fenómenos. Además, existen varias sub- clases de las Redes Petri habituales como: Red Petri Ordinaria, Red Petri Simple, Grafo Marcado, Máquina de Estados, Red de Libre Elección, Red Petri Lugar, entre otras [3]. Se han derivado también de las redes Petri otros tipos de redes como las Workflow que poseen diversas técnicas de análisis eficiente. En términos de ecuaciones se pueden definir de la siguiente forma [4]: Una Red Workflow N= (P,T,F,α,Ω) es una red Petri (P,T,F) donde P es un conjunto finito de lugares, T es un conjunto finito de transiciones y F los arcos, con un lugar de inicio distinguido α que pertenece a P y una transición final distinguida ∅≠Ω⊆T, tal que 1. Para todo p ∈P se cumple •p=∅ implica p=α, 2. para cada t ∈T se cumple t•=∅ implica t∈Ω, y 3. cada nodo x∈P∪T está en una trayectoria desde el lugar inicial α hasta alguna transición final ω∈Ω. Las redes Workflow están compuestas por tareas que son ejecutadas en un orden espe- cífico. Una tarea es una actividad o un evento y se puede asumir que cada tarea es atómica, cuando esta inicia existen solo dos posibilidades, que finalice satisfactoria- mente o que falle. Una implicación importante de esta suposición es que todos los re- cursos requeridos para finalizar la tarea serán retenidos por la tarea hasta que ésta fina- lice o falle [5]. Las Redes Workflow pueden tener varios patrones de enrutamiento, es 3 decir, de paso de una transición a otra; hay cuatro patrones básicos: secuencial, itera- tivo, paralelo y selectivo [6], los cuales son representados en la Fig. 1 como (a), (b), (c) y (d) respectivamente. Fig. 1. Ejemplos de patrones de enrutamiento en las redes Workflow Fuente: Tomado de [6] 2.2 Tareas o etapas de la minería de datos Con el aumento general en la producción de datos y su disponibilidad, los procesos de minería de datos han tomado relevancia. Estos procesos tienen como fin descubrir, mo- nitorear y mejorar procesos reales para extraer conocimiento desde registros de eventos. La minería de datos suele estar enmarcada en el proceso de descubrir conocimiento a partir de una base de datos, KDD, el cual describe una secuencia de etapas, donde cada etapa es primordial y juega un papel en la transformación de los datos en conocimiento. El proceso incluye la selección de las fuentes de datos, el tratamiento y almacenamiento de los mismos, el análisis a través de métodos estadísticos, algoritmos de minería de datos u otras técnicas y la evaluación, interpretación y visualización de resultados. Al final de las etapas de un proceso de minería de datos se suele obtener un modelo des- criptivo, que luego puede ser convertido en un modelo predictivo, de ser necesario [7]. Para efectos de este trabajo se denomina minería de datos al proceso completo de KDD, en la Fig. 2 se presentan las etapas generales de la minería. 4 Fig. 2. Proceso de minería de datos Fuente: Adaptado de [8] 3 Descripción del proceso de Minería de Datos Educativa a modelar En [9] se desarrolló un modelo para el descubrimiento de patrones basado en el análisis de datos educativos y de las interacciones existentes entre los estudiantes y las plata- formas virtuales de aprendizaje, con el uso de minería de datos educativa y analíticas de aprendizaje, que puede contribuir a la realización de algunas recomendaciones para fortalecer el proceso de enseñanza y aprendizaje, de manera que este se pueda adaptar y posiblemente personalizar de acuerdo a las características propias de los estudiantes y de sus interacciones. El modelo mencionado consta una serie de componentes, los cuales se pueden apreciar en la Fig. 3. A su vez estos componentes se particularizan en una serie de etapas y tareas que son mostradas en la Tabla 1. Fig. 3. Modelo propuesto para el descubrimiento de patrones en datos educativos. Fuente: Tomado de [10]. 5 Tabla 1. Fases y tareas contempladas en el modelo propuesto. Fases Tareas 1.1 Identificación del dominio de datos 1. Comprensión del dominio 1.2 Revisión de conocimiento previo relevante en el de datos dominio de datos 1.3 Identificación de los objetivos del usuario final 2.1 Identificación de fuentes: datos históricos, datos en tiempo real, data stream, entre otras 2. Recolección de fuentes de 2.2 Identificación de las estructuras de datos: datos es- datos tructurados, semi-estructurados y no estructurados 2.3 Caracterización de las fuentes de datos 3.1 Modelamiento de filtros para identificar datos atí- picos y datos faltantes 3. Pre-procesamiento y lim- 3.2 Eliminación de ruido y datos atípicos pieza de datos 3.3 Identificación y estrategias de llenado de datos fal- tantes 4.1 Revisión de la caracterización de las fuentes de da- tos 4. Almacenamiento de datos 4.2 Selección de la estrategia (s) de almacenamiento 4.3 Construcción del esquema de almacenamiento y poblado de datos 5.1 Selección de variables 5. Selección y adaptación del 5.2 Reducción de dimensionalidad y/o aplicación de dataset métodos de transformación de datos 6.1 Selección de la tarea de minería: predictiva o des- criptiva 6. Aplicación de técnicas – al- 6.2 Selección del algoritmo para la tarea goritmos de Minería de Datos 6.3 Selección de la herramienta para la aplicación del algoritmo 7.1 Interpretación de patrones extraídos 7. Análisis del conocimiento 7.2 Consolidación del conocimiento descubierto descubierto 7.3 Evaluación del conocimiento descubierto Fuente: Elaboración propia a partir de [10] Para analizar el comportamiento del flujo de datos en el modelo propuesto e identificar si es posible llegar a los análisis esperados a través de las fases y tareas propuestas, se transfirió a una representación formal y procesable, para así poder identificar también el cumplimiento de las condiciones previas y si existen casos de ausencia de recursos. En la sección siguiente se describe el proceso de modelo y análisis que fue llevado a cabo con ayuda de un software. 6 4 Modelado y análisis de un proceso de KDD y Minería de Datos Educativa En los procesos de minería de datos existen algunas deficiencias, que en ocasiones no se pueden evitar, como las tareas duplicadas, las tareas invisibles y el ruido en los datos; las redes Workflow se han utilizado para el modelado de procesos de KDD y en parti- cular de minería de datos, mostrando que con el uso de estas, los problemas enunciados pueden llegar a ser identificados a tiempo [11]. Adicionalmente, se ha registrado que en la aplicación de las técnicas de minería de datos se pueden encontrar otro tipo de problemas al tratar grandes volúmenes de registros de eventos que hacen referencia a diferentes actividades y de allí se ha evidenciado, que es conveniente descomponer los procesos de minería para poderlos analizar con mayor facilidad [12]. De acuerdo a lo anterior, se decidió usar las redes Workflow para representar en primer lugar el proceso de minería de datos (ver Fig. 4) y luego el modelo de descubrimiento de patrones en datos educativos descrito en la sección anterior (ver Fig. 5), haciendo uso del software WoPeD en versión 3.5.1, este software es de código abierto y cuenta con licencia LGPL, su fin es proporcionar una herramienta de modelado sencilla de utilizar para hacer simulación y análisis de flujo de procesos y descripción de recursos utilizando redes de control; WoPeD está dirigido a investigadores, docentes y estudian- tes que se encuentran trabajando con la aplicación de las redes de Petri y redes Workflow. Se identificaron en primer lugar las condiciones, como por ejemplo la necesidad de comprender el dominio de datos y de recolectar las fuentes de datos; y los recursos, como por ejemplo los datos como tal o el dataset ya construido. Las fases se represen- taron en nodos tipo transición y se unieron con los nodos tipo lugar por medio de arcos orientados, para mostrar la secuencia lógica definida en el modelo estudiado. Fig. 4. Red Workflow para el proceso general de KDD y minería de datos Fuente: Elaboración propia mediante el software WoPeD v. 3.5.1 7 Fig. 5. Red Workflow correspondiente al modelo analizado Fuente: Elaboración propia mediante el software WoPeD v. 3.5.1 Después de construir la red de la Fig. 5 se verificó que las tareas de las fases del modelo propuesto se vieran reflejadas en este, luego se dio inicio a la ejecución de la simulación y se logró cotejar que era posible llegar al nodo de lugar final a partir del nodo de partida y pasando por las transiciones correspondientes con la secuencia de disparos. En la Tabla 2 se presenta el análisis estructural y de robustez para las propiedades de la red construida. Tabla 2. Análisis de las propiedades de la red Workflow que representa el modelo Tipo de análisis Elementos analizados Resultado Nodos tipo lugar 20 Nodos tipo transición 15 Operadores 10 Análisis estructural Arcos 42 Operadores usados erróneamente 0 Violaciones de libre elección 0 Lugar inicial 01 Lugar final 01 Componentes conectados 31 Robustez Componentes fuertemente conectados 31 (soundness) Lugares no acotados (boundness) 0 Transiciones muertas (dead-lock) 0 Transiciones no vivas (non-live-transitions) 0 Fuente: Elaboración propia a partir del software WoPeD v. 3.5.1 8 Para el análisis estructural se muestran, en la Tabla 2, elementos como los nodos tipo lugar, transición, operadores y arcos; así mismo no se encuentran operadores usados erróneamente ni hay violaciones de libre elección. Para el análisis de robustez, que re- fleja el punto de vista funcional, se dan a conocer algunos aspectos básicos como el número de lugar inicial, lugar final, componentes conectados y fuertemente conectados; también otros indicadores como los lugares no acotados, las transiciones muertas y las transiciones no vivas, los cuales al estar en cero demuestran que la red que representa el modelo de descubrimiento de patrones de datos educativos no tiene bloqueos de eje- cución, por lo cual, se pueden llevar a cabo las fases y tareas derivadas del proceso general de minería de datos. 5 Conclusiones y trabajo futuro Se logró representar las fases del modelo de descubrimiento de patrones en datos edu- cativos mediante el uso de Redes Workflow y se comprobó que es posible su aplicación para llegar a los resultados esperados representados en el conocimiento consolidado, que permitirá luego la realización de algunas recomendaciones para fortalecer el pro- ceso de enseñanza y aprendizaje y la posible adaptación y personalización de acuerdo a las características propias de los estudiantes y de sus interacciones. Esta contribución corresponde a un primer paso para corroborar que este tipo de proce- sos de minería de datos pueden simulados con anterioridad a su ejecución en un entorno real. Con lo cual se contribuye a evitar posibles fracasos en procesos experimentales y reducir la incertidumbre inicial del proceso. Además, se determinó que los nodos tipo lugar y las transiciones simuladas corresponden a una aproximación considerable de lo que se puede observar en la ejecución en un entorno real de este tipo de procesos. Se ratifica que las Redes Workflow son adecuadas para la representación de procesos de minería de datos a partir de un conjunto de datos educativos, ya que permiten ejecu- tar los flujos entre las etapas y comprobar la capacidad de cumplimiento de los objetivos del modelo de análisis de datos respectivo. A pesar de que estos procesos de minería de datos se suelen ver como flujos lineales, se encuentra que al revisar cada fase y tareas específicas, se encuentran múltiples condiciones de entrada y salida de algunas de las fases y se refleja su complejidad; así mismo, se demuestra la importancia de una fase inicial de comprensión del dominio de datos, la cual produce salidas que alimentan no solo la fase contigua sino también otras fases posteriores en el proceso. Como trabajo futuro se plantea hacer una revisión más exhaustiva de cada una de las fases y tareas, explorando la inclusión de otros aspectos como fuentes de datos y deta- llando la transición correspondiente a la aplicación del algoritmo de minería. Con lo anterior se espera poder proponer un modelo de minería de datos educativa no lineal, que posteriormente pueda ayudar para la automatización de las fases del mismo. 9 Teniendo como base está simulación del proceso de minería de datos aplicado al domi- nio de datos educativo, se planea validar con el caso de estudio que se propone en [10], el cual considera un entorno real. Agradecimientos Al programa de Formación de Capital Humano de Alto Nivel para el Departamento de Norte de Santander en el marco de la Convocatoria N°753 de Colciencias. Referencias [1] S. H. Begum, “Data Mining Tools and Trends – An Overview,” Int. J. Emerg. Res. Manag. &Technology, pp. 6–12, 2013. [2] R. S. Baker and P. S. Inventado, “Educational Data Mining and Learning Analytics,” in Learning Analytics, New York, NY: Springer New York, 2014, pp. 61–75. [3] M. L. Llorens Agost, “Redes Reconfigurables. Modelizacíon y Verificacíon,” Universidad Politécnica de Valencia, 2003. [4] C. Favre, D. Fahland, and H. Völzer, “The relationship between workflow graphs and free-choice workflow nets,” Inf. Syst., vol. 47, pp. 197–219, 2015. [5] J. Wang and D. Li, “Resource oriented workflow nets and workflow resource requirement analysis,” Int. J. Softw. Eng. Knowl. Eng., vol. 23, no. 05, pp. 677–693, Jun. 2013. [6] S. Jing and Y. Du, “An Approach of Data Mining Process Based on Stochastic Well- formed Workflows,” Inf. Technol. J., vol. 13, no. 13, pp. 2224–2228, 2014. [7] N. L. Quiroz Gil and C. A. Valencia, “Aplicación del proceso de KDD en el contexto de bibliomining: El caso Elogim,” Rev. Interam. Bibl., vol. 35, no. 1, pp. 97–108, 2012. [8] M. A. Bramer, Principles of data mining. Springer, 2013. [9] N. D. D. Méndez, M. G. Ocampo, and F. Moreira, “Storage Scheme for Analysis of Academic Data and Interaction of Students With Virtual Education Platforms,” in Proceedings of the 5th International Conference on Technological Ecosystems for Enhancing Multiculturality - TEEM 2017, 2017, pp. 1–7. [10] M. Giraldo Ocampo, “Descubrimiento de patrones en interacciones entre estudiantes y plataformas virtuales de educación mediante el uso de analíticas de aprendizaje,” Universidad Nacional de Colombia, 2017. [11] J. Wang, S. Yu, and Y. Du, “The Equivalency between Logic Petri Workflow Nets and Workflow Nets,” Sci. World J., pp. 1–7, 2015. [12] W. M. P. van der Aalst, “Decomposing Petri nets for process mining: A generic approach,” Distrib. Parallel Databases, vol. 31, no. 4, pp. 471–507, Jul. 2013.