=Paper=
{{Paper
|id=Vol-2231/LALA_2018_paper_31
|storemode=property
|title=Dibujando el mapa del tráfico en las redes escolares(Drawing the traffic map in school networks)
|pdfUrl=https://ceur-ws.org/Vol-2231/LALA_2018_paper_31.pdf
|volume=Vol-2231
|authors=Juan Francisco Rodriguez Saredo,Regina Motz
}}
==Dibujando el mapa del tráfico en las redes escolares(Drawing the traffic map in school networks)==
<pdf width="1500px">https://ceur-ws.org/Vol-2231/LALA_2018_paper_31.pdf</pdf>
<pre>
      Drawing the traffic map in school networks

                    Juan Francisco Rodriguez Saredo1 and Regina Motz2
       1
               Programa de Desarrollo de las Ciencias Básicas, Informática, Uruguay
           2
                Instituto de Computación, Facultad de Ingenierı́a, UdelaR, Uruguay
                               {jfrodriguez,rmotz}@fing.edu.uy


       Abstract. This work shows an application designed to identify groups
       in the use of an online educational network associated with the socioe-
       conomic characteristics of the neighborhoods of Montevideo where their
       users live. The network has a wide coverage throughout the national
       territory and offers Internet access to all students (children and adoles-
       cents). The knowledge obtained from the study can be applied as support
       for decision making.

       Keywords: Clustering, Hopkins, Clara.


1     Introducción
La gestión y análisis de los datos obtenidos en los ambientes educacionales habit-
ualmente presentan dificultades para su conducción. La aplicación de técnicas de
clustering para obtener conocimiento útil de ellos, posee dificultades adicionales
tales como la definición del espacio por sus atributos, la medida de distancia a
utilizar y las muestras con las cuales generar el modelo, entre otras.
    La originalidad y dificultad de este trabajo radica en que se debe trabajar con
dos datasets de muy diferente origen: por un lado se dispone de datos de acceso a
los recursos provenientes de una red extendida en todo el territorio nacional, con
una amplia cobertura que posibilita el acceso a Internet desde todos los centros
educacionales (Primaria, Secundaria y UTU) [6] y, por otro lado, datos que se
recabaron de la Web en carácter de datos abiertos disponibles y provenientes de
organismos oficiales 3 .
    Resulta interesante determinar si existe algún tipo de relación entre el uso
de los recursos educacionales en lı́nea y el lugar donde habita el estudiante. Los
barrios de la ciudad poseen caracterı́sticas únicas que genera una idiosincra-
sia que, se conjetura, influye en sus hábitos de estudio. Un factor importante
para analizar es el constituido por los aspectos relacionados con el nivel socio
económico de cada uno de los barrios.
    Existen abundantes estudios relativos a usos de técnicas de clustering en
ambientes de educación. Algunos de ellos consolidan los diferentes tipos de al-
goritmos de agrupación aplicados en el contexto de la minerı́a de datos educa-
tivos, para abordar diferentes problemas que se presentan en EDM (educational
3
     http://municipioe.montevideo.gub.uy/sites/municipioe/files/
    censo 2011 - informe im.pdf
data mining) [1] y otros aplican las técnicas a datos que no pertenecen a una
plataforma de estudio en particular sino que también abarcan registros de acceso
a cualquier otro tipo de sitio Web [6].
    A los efectos de aplicar las técnicas descriptivas se clasifican las localidades de
la ciudad en cuatro categorı́as, fundamentados en los datos abiertos mencionados
anteriormente (éstas se describen en la Sección 4, Análisis del Problema).


2    Alcance del Trabajo

Los datos son originados a través de dos fuentes. Una de ellas la constituye
la red educacional donde cada local de estudio tiene asignado un conjunto de
direcciones IP, las cuales son fijas, conocidas y están asociadas a su ubicación ge-
ográfica y al tipo de local de estudio. Los registros de navegación disponibles son
almacenados en formato de texto plano y contienen ciertos atributos de las visitas
a los sitios Web. De cada observación generada, se utilizan los atributos: fecha,
hora, IP y URL solicitada. La segunda fuente proporciona datos demográficos
provenientes de organismos oficiales y aportan importante información sobre los
municipios que forman la capital del paı́s y las caracterı́sticas socio-económicas
de los barrios que lo integran. Estos datos pueden ser accedidos en la Web.
    El trabajo intenta obtener relaciones entre las conductas de empleo de los
recursos educacionales utilizables en la red y la situación socio-económica del
estudiante basado en su lugar de residencia.


3    Objetivo

El objetivo principal es aplicar técnicas de analı́tica sobre los datos obtenidos
de los archivos que se generan diariamente por la navegación de los usuarios
de la red, asociando las ip de los centros de estudio con las caracterı́sticas de la
localidad donde habita. Los resultados obtenidos serán destinados al soporte para
la toma de decisiones de las autoridades del Plan, facilitándose su interpretación
por medio de una adecuada visualización de los resultados a través de mapas
“inteligentes”.


4    Análisis del Problema

El análisis del problema permite identificar los siguientes desafı́os:

 – De los datos generados en la red, extraer aquellos relacionados con accesos
   a sitios de estudio.
 – A partir de los datos disponibles en la Web, construir un ranking de los bar-
   rios que represente en forma fidedigna la situación socio-económica de cada
   uno (En este ı́tem se considerarán los datos demográficos oficiales disponibles
   en la Web).
 – Asociar ambos grupos de datos.
 – Determinar los grupos de datos a los cuales aplicar las técnicas de clustering.
 – Técnicas de Agrupamiento a ser empleada.

   Los cinco puntos antes nombrados son desarrollados a continuación.

Datos generados en la red La extracción de los datos de tráfico en Internet a
sitios de estudio se efectuó a través de rutinas desarrolladas en Python, aplicando
expresiones regulares al atributo “URL solicitada”. Luego de una adecuada san-
itación de los datos se extraen los registros que contienen dichas expresiones. Un
ejemplo de las expresiones regulares empleadas para este caso es:

 ’\setminus S+clients3\setminus S+’,
 ’\setminus S+windowsupdate\setminus S+’,
 ’\setminus S+mcafee\setminus S+’,
 ’\setminus S+216.239.32.20/generate_204\S+’,
 ’\setminus S+clients1\setminus S+’,
 ’\setminus S+connectivitycheck\setminus S+’,
 ’\setminus S+URLMOD\setminus S+’,
 ’\setminus S+msftncsi\setminus S+’

Clasificación de los barrios Los datos disponibles en la Web sobre la situación
socio-económica de los barrios componentes de cada municipio se fundamentan
en los registros obtenidos en el último Censo Nacional. Esta información está
acompañada de valoraciones generales sobre los municipios que dividen a Mon-
tevideo. Se utilizó un procedimiento ad hoc para la construcción del ranking: se
observaron las valoraciones de cada municipio y a cada caracterı́stica positiva
detectada en la valoración, se le asignó un coeficiente positivo y a las negativas
uno negativo. Este procedimiento permitió clasificar a los municipios en cuatro
categorı́as: Muy Favorable (MF ), Favorable (F ), Desfavorable (D) y Muy Desfa-
vorable (MD). Luego se revisaron los barrios de cada municipio y puntualmente
algunos fueron cambiados de categorı́a en base al conocimiento de su realidad
particular (4 barrios en un total de 75).

Asociación de los registros de tráfico con los barrios Para logar la aso-
ciación de los dos grupos de datos fue necesario efectuar un procesamiento
apropiado de los atributos comunes entre ellos, que posibilitara un posterior
relacionamiento. El atributo común es el nombre del barrio y se debió realizar
un relevamiento de cada uno de los registros de los centros de estudio (alrededor
de 1200 en Montevideo) que utilizan el sistema.

Grupos de datos a los cuales aplicar las técnicas de clustering A par-
tir del análisis exploratorio de los datos (desarrollado en la Sección 5) se puede
definir tres grandes grupos de usuarios: Primaria (Escuela Pública), Secundaria
(Liceo Público), UTU (Centros de estudio públicos donde se enseñan mayor-
mente oficios, de nivel enseñanza media).
Técnicas de Agrupamiento a ser empleada Se considera que dos locales de
estudio están próximos, si la cantidad de conexiones en un perı́odo de tiempo son
parecidas con un umbral de tolerancia. El espacio ası́ definido no es euclı́deo, lo
cual condiciona la elección del algoritmo de clustering a ser utilizado. Un espacio
es euclidiano si el promedio de cualquier conjunto de sus puntos pertenece al
espacio [5].


5    Análisis exploratorio de los datos
Para el análisis exploratorio de los datos, se empleó el lenguaje R (versión 3.6.1)
conectado a la base de datos MongoDB (versión 3.2.10 ). A los efectos de evaluar
si existe una tendencia al agrupamiento de los datos se utiliza el estadı́stico de
Hopkins [3]. La función Hopkins del paquete clustertend disponible en R permitió
obtener en todos los estudios valores cercanos a 0,004, lo que es indicativo de
presencia de agrupamientos.

Evaluación de la existencia de agrupamientos Los estudios que se re-
alizaron en esta etapa consistieron en la apreciación de la existencia de agru-
pamientos y en la determinación del tamaño de la muestra para cada estudio.
    El Lenguaje R permite al menos dos formas de evaluar la tendencia a la clus-
terización de los datos. Una de ellas es el estadı́stico de Hopkins que indica qué
tan alejado está una muestra aleatoria de presentar una distribución uniforme
y, en consecuencia, de presentar agrupaciones (cuanto más alejado de tal dis-
tribución mayor es la probabilidad de que los datos se agrupen). La otra opción
es el uso de otra funcionalidad consistente en la evaluación visual de la tendencia
al agrupamiento de los datos (VAT: Visual Assessment of cluster Tendency). El
procedimiento se fundamenta en el cálculo de la matriz de disimilaridad entre
los objetos de la muestra considerando que la distancia es euclı́dea [4].
    Debido a que la medida de distancia no es euclı́dea, el método VAT es
descartado, empleándose el estadı́stico de Hopkins para evaluar la existencia
de clústeres.

Tamaño de la muestra A los efectos de determinar el tamaño de la muestra
más apropiado, se empleó el concepto de saturación (saturación es denominada la
situación en la cual, agregar nuevas observaciones, no mejora las perspectivas de
obtener nueva información) [2]. En esta etapa, también se identificaron posibles
outliers.

Procedimiento Luego de asociados los registros se exportaron a una base de
datos relacional y se condujeron consultas para observar las tendencias.
    A los efectos de normalizar los datos de entrada se dividió la cantidad de
conexiones entre la población de cada barrio, evitando que localidades con gran
cantidad de habitantes distorsionen los resultados.
    Algunos resultados de las consultas efectuadas se presentan en la Figura 1.
    De este resultado se destaca que los únicos barrios cuyos centros educativos
utilizaban en ese dı́a los recursos eran los considerados Muy Desfavorables (MD).
                 Fig. 1. Cuadro con cantidad de accesos por barrio


   En base a esta información, el estudio se orientó a investigar la existencia
de clústeres de centros de estudio en determinados barrios que utilizaban con
mayor intensidad la red educacional en función de su realidad socio-económica.


6   Técnicas aplicadas y resultados obtenidos

Debido a que el espacio no es euclı́deo se empleó el paquete de datamining
disponible en el lenguaje R: CLARA (Clústering Large Applications). Este algo-
ritmo efectúa la búsqueda de clústeres en base a medoides (puntos ya existentes
del clúster), prescindiendo de la búsqueda de centroides.
    A continuación se presentan algunos de los resultados que evidencian el mayor
uso de los recursos por parte de los sectores socio-económicos más desamparados.

Sumarizaciones Iniciales En la tabla de la Figura 2 se presentan la cantidad
de habitantes de acuerdo al tipo socio-económico categorizado en este trabajo y
la cantidad de barrios de acuerdo a los tipos. Ambos resultados fueron impor-
tantes en el transcurso del estudio tanto para efectuar los cálculos como para la
interpretación de los resultados.


                          Fig. 2. Datos de la población.


    En la Imagen 1 de la Figura 3 se presentan los datos de una muestra cor-
respondiente a la conectividad de acuerdo al tipo socio-económico y al tipo de
local de enseñanza correspondiente a 14 dı́as seleccionados en forma aleatoria.
La última columna de la mencionada tabla consiste en los logaritmos naturales
del porcentaje de la población de cada barrio (ya que son número muy pequeños)
y se presentan en la gráfica de barras de la Imagen 2 de la misma Figura. En
ella, el opuesto del logaritmo indica el uso que cada estrato de la población (una
longitud de la barra pequeña es indicativo que hay un uso intenso de los re-
cursos). Por ejemplo, los alumnos de UTU del tipo MF serı́an los que menos
utilizan los recursos (para la muestra seleccionada) y los alumnos de Escuela
Pública del tipo MD (contexto económico-social muy desfavorable) quienes más
los emplean.


                    Fig. 3. Empleo de los recursos educativos.


Resultados obtenidos para los estudiantes de enseñanza primaria (Es-
cuela Pública) Para este sector se presentan 3 estudios realizados en marzo
2016, noviembre 2016 y mayo 2017.

Estudio 1 En la primer imagen de la Figura 4 se observan los datos empleados
para la construcción del dendograma presentado en la segunda imagen.


                 Fig. 4. Datos y dendograma para escuela pública


    Del análisis del dendograma se observan cuatro clústeres bien definidos (sin
ningún dato mal clasificado de acuerdo al algoritmo). Se aprecian un agru-
pamiento de barrios Desfavorables, D (color anaranjado) y de Muy Desfavor-
ables, MD (color rojo). Luego se aprecian dos clústeres de Faborables, F (color
amarillo) y Muy Favorables, MF (color verde). Se concluye que para estos datos
existe una mayor cantidad de barrios que utilizan los recursos pertenecientes
a contextos Desfavorables. El siguiente agrupamiento con mayor cantidad de
barrios corresponde a contextos Muy Desfavorables.
    Las categorı́as F y MF, si bien se agrupan en dos clústeres diferentes, se
puede comprobar que el uso que hacen de los recursos es mı́nimo. Por último la
hoja que no pertenece a ningún grupo presenta 608 conexiones, quedando fuera
de los grupos y se trata de un barrio del tipo D.


Estudio 2 El segundo estudio corresponde a una muestra de noviembre de 2016
de Escuela Pública. El dendograma correspondiente se presenta en la primer
imagen de la Figura 5. Se utiliza el mismo sistema de referencia de colores para
las categorı́as de los barrios que en el Estudio 1. Se observan cuatro clústeres. El
primero y el tercero (empezando por izquierda) corresponden a localidades D, el
segundo presenta una prevalencia de barrios también D y el cuarto, no permite
decidir ya que estan mezcladas varias categorı́as.


Estudio 3 El estudio correspondiente a mayo de 2017 de las escuelas públicas,
se aprecia en la segunda imagen de la Figura 5. De los cinco agrupamientos
identificados, los tres primeros presentan individuos de todas las poblaciones no
permitiendo desarrollar una conclusión y el cuarto y quinto presentan una mayor
presencia de D y MD si se consideran conjuntamente.


            Fig. 5. Dendogramas para la actividad en escuelas públicas.


Resultados obtenidos para los estudiantes de enseñanza media (Liceo
Público) Del estudio para los liceos públicos, en marzo de 2016, se obtiene el
dendograma de la Figura 6, donde se aprecian cuatro agrupamientos. Se observa
una tendencia diferente a la presentada en las muestras correspondientes a la
Escuela Pública. El primer clúster es mayoritariamenteF y MF, el segundo es MF
y el tercero es mayormente D. El cuarto no presenta caracterı́sticas relevantes.
               Fig. 6. Dendograma para la actividad en liceo público


Resultados obtenidos para los estudiantes de enseñanza media (UTU )
Al igual que en los otros centros de estudio se observan los agrupamientos de
acuerdo a los barrios (Figura 7). Empleando el mismo sistema de referencias de
colores, se observan cuatro agrupamientos, tres de los cuales son mayoritaria-
mente F y uno de ellos MD y D.


                  Fig. 7. Dendograma para la actividad en UTU.


Bosquejo de un mapa de tráfico En base a los datos disponibles se presenta
una distribución del uso de la red por barrio en Montevideo, la cual presenta
una idea primaria de la visualización del empleo de los recursos en relación
a la distribución geográfica. El suministro de datos en tiempo real permitirá la
activación de indicadores que podrı́an cruzarse con datos provenientes de diversas
fuentes, como se estableció en la Sección 3, Objetivo (Figura 8).
                              Fig. 8. Mapa de tráfico.


7   Conclusiones y trabajos futuros

Los clústeres obtenidos en cada uno de los estudios indica la presencia de agru-
pamientos relacionados con la situación socio-económica de cada barrio.
    A nivel de primaria (escuelas públicas) se observan agrupamientos más acen-
tuados y definidos que en los otros tipos de locales de estudio en los datos cor-
respondientes a los primeros meses. En los sucesivos meses, se podrı́a considerar
una tendencia a la uniformización en el uso.
    De la observación de los datos se puede afirmar que en el año 2016 los barrios
más desamparados eran los que más utilizaban los recursos (casi en exclusividad).
En abril 2017 aunque el uso era mayor por parte de todos, los barrios con más
pobreza son los que más lo emplean.
    En cambio, para Liceos Públicos y UTU se observa una tendencia a un mayor
uso en las categorı́as favorables y muy favorables.
    La presencia de estos agrupamientos permite formular algunas conjeturas
que relacionan el nivel social y económico con el uso de la red educacional. En
caso de que efectivamente sea ésta la realidad, se podrá llevar adelante polı́ticas
integradas (sociales y educativas) para aprovechar las caracterı́sticas relevadas
en el estudio.
    En lo que concierne a la visualización de los resultados, si las autoridades
educativas entienden que es de interés, se suministrará a los mapas inteligentes
datos obtenidos en tiempo real. Esto permitirá, enmarcado en un adecuado y
más ambicioso proyecto de ciencia de datos, un análisis temporal complementado
con otras fuentes de información con el objetivo de prevención de inasistencias
y mejoras educativas (relativas al uso de los recursos). Por ejemplo si se dispone
de información proveniente del Ministerio del Interior de un incremento de ac-
tividades delictivas en determinados lugares, puede detectarse la incidencia en
la asistencia a clases (efectuando el cruzamiento de datos provenientes del min-
isterio nombrado y los recibidos por el uso de la red educativa).
    Una aplicación interesante podrı́a consistir en el cruce de datos provenientes
del Ministerio de Salud Pública relativos a enfermedades estacionales (gripes y
resfrı́os, por ejemplo) e inasistencias a clase detectadas por el poco empleo de la
red.
    En relación a las expresiones regulares utilizadas para identificar los sitios de
estudio, es posible ampliar el corpus a los efectos de mejorar la calidad de los
agrupamientos.


References
1. Dutt, A., Aghabozrgi, S., Ismail, M., Mahroeian, H.: Clustering algorithms applied
   in educational data mining. International Journal of Information and Electronics
   Engineering 5(2), 112 (2015)
2. Glaser, B., Strauss, A.: Discovery of grounded theory: Strategies for qualitative re-
   search. Routledge (2017)
3. Han, J., Pei, J., Kamber, M.: Data mining: concepts and techniques. Elsevier (2011)
4. Hu,    Y.,    Hathaway,      R.J.:    An     algorithm    for   clustering    tendency
   assessment.      WSEAS       Trans.      Math.      7(7),   441–450      (Jul    2008),
   http://dl.acm.org/citation.cfm?id=1466906.1466908
5. Leskovec, J., Rajaraman, A., Ullman, J.: Mining of Massive Dataset. Cambridge
   University Press (2014)
6. Saredo, J., Motz, R.: Application of clustering techniques on data generated by an
   Online Educational Network. In: Anais dos Workshops do Congresso Brasileiro de
   Informática na Educação. vol. 6, p. 714 (2017)

</pre>