-

Aplicacion de metodos de aprendiza je automatico en un sistema basado en ontolog a

Mar a-Isabel Castellanos

mcastellanosd@uho.edu.cu 0

Ariam Rivas

arivasm90@gmail.com 1

Emilio Lucas

elucasl@uho.edu.cu 0 0 Departamento de Ingenier a Informatica, Universidad de Holgu n , Cuba 1 Departamento de Matematica, Universidad de Holgu n , Cuba

86 97

The ontology-based system for the management of environmental indicators in corporations (SIGCIA) allows the detection of an indicator alteration, if it exceeds a limit value. In this case, this system recommends the possible environmental impacts, the causes of the indicator alteration and the mitigation actions. In order to make these recommendations, the limit value for each indicator must be pre-de ned in the software by the environmental management specialist. This means that the determination of limit values is done subjectively, based on the knowledge of the historical behavior of the indicator in a speci c organization; so it is necessary to have an automatic forecast method. This research transits through all the phases of the process of Knowledge Discovery in Data (KDD). A selection of attributes in the dataset was made applying several selectors and a group of regression models were applied. Arti cial Neural Networks with Multi-Layer Perceptron topology showed best performance. It allows the prediction of the limit value of the energy consumption indicator, dataset selected as study case. The prediction of limit values and the potential o ered by the ontology-based recommendation system make it a powerful tool to support decision-making in the process of environmental management, with broad generalization possibilities in Cuban business sector.

Environmental Indicators Arti cial Neural Networks Forecast Ontology-based System

Resumen. El sistema basado en ontolog a para la gestion de los indicadores ambientales empresariales (SIGCIA) permite detectar la alteracion de un indicador, si sobrepasa un valor l mite; recomendando los posibles impactos ambientales, las causas de la alteracion del indicador y las acciones de mitigacion. Para poder realizar estas recomendaciones, en el software debe estar prede nido por el especialista de gestion ambiental el valor l mite para cada indicador. Esto trae como consecuencia que la determinacion de valores l mites se realice de forma subjetiva, en base al conocimiento del comportamiento historico del indicador en una organizacion espec ca; por lo que se hace necesario contar con un metodo de pronostico automatico. Esta investigacion transita por todas las fases del proceso de Descubrimiento del Conocimiento en Datos (KDD). Se realiza una seleccion de atributos en el conjunto de datos, donde se aplicaron varios selectores y algoritmos de regresion. El de mejor rendimiento fue las Redes Neuronales Arti ciales con topolog a Multi-Layer Perceptron; el cual permite la prediccion del valor l mite del indicador de consumo de energ a que fue el conjunto de datos seleccionado como caso de estudio. La prediccion de valores l mites, unido a las potencialidades que ofrece el sistema de recomendacion basado en ontolog a, convierten al SIGCIA en una potente herramienta de apoyo a la toma de decisiones en el proceso de Gestion Ambiental, con una amplia posibilidad de generalizacion en el sector empresarial cubano.

Palabras claves: Indicadores Ambientales, Redes Neuronales Arti ciales, Prediccion, Sistema Basado en Ontolog a 1.

Introduccion

La herramienta de gestion mas importante para el control medioambiental son los indicadores1. Los indicadores ambientales condensan la informacion y simpli can el acercamiento a los fenomenos medioambientales, a menudo complejos, lo que los hace muy utiles para la comunicacion [ 10 ].

La utilidad de estos indicadores consiste en facilitar, tanto a la direccion de la organizacion como al resto de los miembros, informacion relevante y resumida, en forma de declaraciones concisas e ilustrativas para la toma de decisiones. Por lo tanto, aseguran una rapida evaluacion de las principales mejoras y de los puntos debiles en la proteccion ambiental de la empresa; para aquellos que han de tomar las decisiones [ 13 ].

Por esta razon, es una necesidad el uso de indicadores ambientales para medir el comportamiento de la organizacion en esta area, facilitar la comunicacion y condensar la informacion ambiental. El uso de indicadores, a su vez, contribuye a una mejora en la gestion del conocimiento ambiental.

Para gestionar el conocimiento es determinante su representacion, lo cual no es mas que el proceso de estructurar el conocimiento sobre un problema de manera que sea mas facil de resolver. En aras de potenciar la gestion y espec camente la representacion del conocimiento, las Tecnolog as Semanticas (TS) son cada vez mas utilizadas [ 14 ][ 16 ]. Dentro de las TS, las ontolog as son actualmente una de las Formas de Representacion del Conocimiento (FRC) mas empleadas [ 6 ][ 17 ].

En este sentido los autores [ 3 ] desarrollaron un Sistema basado en ontolog a para la gestion del conocimiento de indicadores ambientales (SIGCIA); con el objetivo de gestionar el conocimiento ambiental que se in ere del almacenamiento historico de los indicadores ambientales empresariales. En esta investigacion se propone el uso de las Redes Neuronales Arti ciales (RNA) para predecir el valor l mite del indicador a partir de su almacenamiento historico. Entre las potencialidades que las RNA ofrecen esta que no necesitan un experto humano al cual extraerle el conocimiento. 1 Un dato que ha sido seleccionado a partir de un conjunto estad stico mas amplio por poseer una signi cacion y una representatividad particular [ 10 ].

Sistema basado en ontolog a de indicadores ambientales

Una de las formas de representacion del conocimiento mas empleadas actualmente son las ontolog as; las cuales ofrecen dis miles ventajas para la modelacion, generacion, distribucion y uso del conocimiento producido y acumulado en las organizaciones [ 1 ][ 4 ]. Dadas estas ventajas para la gestion del conocimiento, las ontolog as son ampliamente usadas para gestionar los amplios volumenes de informacion ambiental que devienen de este proceso, principalmente del almacenamiento historico de los indicadores ambientales.

El sistema SIGCIA se basa en la ontolog a OntoEnvironmental, en la cual se modelan los indicadores ambientales que rigen el proceso de gestion ambiental empresarial. En la Figura 1 se muestra el sistema de indicadores al que se hace referencia.

Este software basado en este sistema de indicadores, permite el calculo de estos teniendo en cuenta que el indicador debe tener prede nido su valor l mite (el cual es de nido por el Especialista de Gestion Ambiental de forma manual, en correspondencia al concomimiento tacito sobre el comportamiento historico del indicador). En respuesta a esta accion el sistema se encarga de comparar el valor y el valor l mite del indicador. En caso de que el valor del indicador resulte mayor que el valor l mite, el sistema declara que el indicador esta alterado y mediante la maquina de inferencia recomienda las posibles causas, los posibles impactos ambientales y las acciones de mitigacion [ 3 ].

No obstante a las potenciales mejoras que la implantacion del sistema SIGCIA ofrece para el correcto desempen~o del proceso de gestion ambiental en las organizaciones, aun existe la siguiente de ciencia. Al Especialista de Gestion Ambiental se le di culta el establecimiento de valores l mites debido a que los indicadores re ejan diversas area de la entidad (por ejemplo area energetica, transporte), por lo tanto se establece el valor de una forma subjetiva. Esto trae como consecuencia que una mala decision al establecer un valor l mite restrinja las potencialidades que el sistema ofrece, al no hacer las recomendaciones de forma oportuna. 3.

Proceso de descubrimiento de conocimiento en datos Los grandes volumenes de datos e informacion que se manejan en la actualidad han tra do como consecuencia la necesidad de desarrollar tecnicas y herramientas que permitan asistir al hombre a extraer informacion util, conocimiento y patrones de los datos almacenados. Para suplir esta necesidad surge el Proceso de Descubrimiento de Conocimiento en Datos (KDD ).

De acuerdo a Fayyad [ 8 ] es de nido como: El proceso no trivial de identi cacion en los datos, de patrones validos, novedosos, comprensibles y potencialmente utiles. El KDD es un area de la computacion que intenta explotar la enorme cantidad de informacion mediante el descubrimiento de patrones utiles y representativos, extrayendo conocimiento que pueda asistir a un humano para llevar a cabo tareas de forma mas e ciente y satisfactoria. A continuacion se muestran de manera general las fases por las que atraviesa este proceso: Seleccion: desarrolla un entendimiento del dominio del problema y de los datos que seran utilizados en la tarea de descubrimiento de conocimiento. Pre-procesamiento y transformacion: cubre el total de actividades para la construccion de conjunto de datos nal. En esta tarea se incluye la seleccion de registros, atributos, limpieza de los datos, tratamiento de los valores ausentes, entre otros. Tambien se realiza la transformacion de los datos en el formato requerido por la herramienta de miner a de datos seleccionada. Esta tarea consume entre el 35% y 20% del tiempo [ 5 ].

Miner a de datos (MD): es la determinacion de la tarea de descubrimiento a realizar (clasi cacion, regresion, agrupamiento) y la aplicacion de uno o varios algoritmos, de dicha tarea, con el n de descubrir patrones ocultos en los datos. Esta tarea ocupa entre el 15% y 20% del tiempo de realizacion del proyecto.

Interpretacion y evaluacion: se interpretan y evaluan los patrones descubiertos, por lo que en ocasiones es necesario regresar a los pasos anteriores, lo que implica repetir el proceso, tal vez con otros datos, algoritmos, metas y estrategias. Este paso puede ser auxiliado por visualizaciones y contribuye a eliminar patrones redundantes o irrelevantes. 3.1.

Seleccion de los datos

Todo proyecto KDD tiene sus or genes en la peticion de un cliente el cual quiere mejorar algunos de sus procesos, haciendo uso de los datos historicos de dichos procesos. Para sacar el maximo provecho de estos datos se hace necesario que los que realicen de este tipo de proyecto conozcan y comprendan dichos datos.

El almacenamiento historico de cada indicador ambiental constituye un conjunto de datos. A este indicador es necesario calcularle su valor l mite para delimitar cuando esta alterado y recomendar las posibles causas, los posibles impactos ambientales y las acciones de mitigacion. Para determinar el valor l mite se aplico el esquema KDD, con la idea de encontrar un modelo que permita obtener dicho valor de la manera mas exacta posible.

Para la realizacion de esta investigacion se cuenta con los datos referentes al indicador de consumo de energ a mensual de la Empresa Constructora del Poder Popular (ECOPP) de la provincia de Holgu n, Cuba. Esta informacion contiene un historial de aproximadamente 5 an~os (del 1 de diciembre del 2010 hasta 1 de noviembre del 2015). La ECOPP para registrar en sus archivos el consumo de electricidad mensual maneja cinco parametros como se muestra en la tabla 1.

La gura 2 muestra el comportamiento de las instancias del conjunto de datos. Se puede observar como en la mayor a de los meses el consumo de energ a se encuentra entre 1600-2445 (watt/hora).

Seleccion de atributos

La Seleccion de Atributos (SA) se puede de nir como el proceso de obtener los n atributos mas representativos de los N originales a partir de la eliminacion de los redundantes e irrelevantes. De una manera mas formal, el objetivo es seleccionar un subconjunto de atributos S del espacio original A con clase C, tal que P (CjS) P (CjA), es decir, obtener mejor o igual desempen~o predictivo mediante la eliminacion de atributos ruidosos y redundantes.

Existen varios criterios para agrupar los algoritmos de SA. Uno de ellos lo constituye el modo de aplicacion, segun el cual pueden ser vistos como de ltro ( lter) o envolvente (wrapper). En esta investigacion el modo de aplicacion de los algoritmos de seleccion de atributos fue mediante el criterio de wrapper.

Los envolventes son aquellos que se auxilian de la precision del clasi cador para evaluar a los subconjuntos del espacio. Esta estrategia ofrece mejores resultados, ya que en un paso previo a la clasi cacion el algoritmo de aprendizaje escoge a los atributos que mejor representen el conocimiento para su construccion; sin embargo es altamente costosa. Se emplearon cinco algoritmos de estrategias envolventes: LinearRegression (LR), MultilayerPerceptron (MLP), M5P, K vecinos mas cercanos (K-nn) y M5Rules (M5R).

LinearRegression El analisis regresivo es una tecnica utilizada para inter y extra polar las observaciones, las cuales pueden clasi carse como regresion lineal o no lineal. Se habla de modelo de regresion cuando la variable de respuesta y las variables explicativas son todas cuantitativas. Ademas permite determinar el modelo o ecuacion matematica que mejor representa la relacion existente entre las variables que se analizan [ 18 ].

MultilayerPerceptron Una Red Neuronal Arti cial (RNA) es un modelo computacional que pretende simular el funcionamiento del cerebro. El proceso de aprendizaje de una RNA de topolog a MultilayerPerceptron consiste en determinar los pesos que permitan codi car el conocimiento subyacente en los datos [ 2 ]. Esto consiste en hacer variar los pesos en funcion de alguna regla de aprendizaje hasta que los mismos sean constantes, con lo que se dice que la red ha aprendido. El buen funcionamiento predictivo del mismo viene dado por la alta tolerancia al ruido de los datos y la habilidad de capturar relaciones complejas entre los atributos y la clase.

M5P En el caso del algoritmo M5P, se trata de obtener un arbol de modelos (un modelo lineal que predice el valor de la clase), si bien se puede utilizar para obtener un arbol de regresion, por ser este un caso espec co de arbol de modelos [ 12 ].

K vecinos mas cercanos Es un algoritmo simple que almacena todos los casos disponibles y clasi ca los nuevos casos sobre la base de una medida de similitud (funciones de distancia). K-nn se ha utilizado en el reconocimiento de patrones estad sticos, estimacion y ya en el inicio de decada de 1970 como una tecnica no parametrica. Un caso se clasi ca por un voto de la mayor a de sus vecinos, con el caso que se asigna a la clase mas comun entre sus vecinos mas cercanos K, medidos por una funcion de la distancia. Si K = 1, entonces el caso es simplemente asignado a la clase de su vecino mas cercano [ 15 ]. M5Rules El algoritmo M5R [ 11 ] es un algoritmo de induccion simple aunque los conjuntos de reglas de los arboles de modelos son precisos. El algoritmo trabaja construyendo modelos de arboles repetidamente y selecciona la mejor regla en cada iteracion. Produce conjuntos de reglas que son en general tan precesio y a la vez mas pequen~os que los arboles de modelos contruidos con el conjunto de datos completo. 3.3.

Miner a de datos

En esta investigacion se ha preparado un estudio experimental para explorar el comportamiento de las RNA, en conjuntos de datos donde su tipo de clase es continua. Se ha utilizado para la ejecucion de los experimentos la herramienta Weka [ 9 ]. Desarrollada en la Universidad de Waikato (Nueva Zelanda) bajo licencia GNU (General Public License), se caracteriza por la independencia de arquitectura.

Es utilizado un esquema de experimentacion basado en validacion cruzada que garantiza una mayor robustez estad stica. Esta propuesta consiste en un procedimiento de validacion cruzada con diez particiones con una corrida como lo propone [ 7 ]. Como parametro de evaluacion se emplea: coe ciente de correlacion y error medio absoluto.

La correlacion es la tecnica estad stica que estudia el problema de medir la intensidad o el grado de relacion que existe entre las variables que se investigan. El Coe ciente de Correlacion, es un valor comprendido entre 1 y 1, indica la relacion lineal que existe entre dos variables. El error medio absoluto mide la magnitud media de los errores en un conjunto de pronosticos, sin tener en cuenta su direccion. Mide la precision para las variables continuas.

Se realizo una experimentacion utilizando los algoritmos de seleccion de estrategia Wrapper mencionados anteriormente y como algoritmos de regresion: LR, MLP, M5P, K-nn y M5R. Los resultados arrojados se muestran en la Tabla 2 y Tabla 3. 3.4.

Interpretacion y evaluacion

En la Tabla 2 y en la Tabla 3 los valores resaltados son los algoritmos de mejor coe ciente de correlacion y error absoluto medio respectivamente. Se puede observar como el algoritmo de regresion MLP con el selector de atributos de estrategia Wrapper MLP es el de mayor coe ciente de correlacion en la Tabla 2 y el de menor error medio absoluto en la Tabla 3.

En la Figura 3 se muestra el consumo de energ a electrica en la ECOPP durante cinco an~os. En dicha gra ca de tendencia los consumos estan presentados por meses. El color azul representa el consumo real, mientras que el color rojo es el consumo pronosticado por el algoritmo MLP. Se puede apreciar como el error del clasi cador es bajo.

Integracion del algoritmo de prediccion de valores l mites en el SIGCIA

Con el modelo optimo seleccionado, MLP, se dio paso a la integracion del algoritmo de prediccion de valores l mites, Figura 4, en el modelo SIGCIA. En este diagrama el primer paso es que el usuario introduzca los datos, que constituyen el valor del indicador para ese mes. Luego el modelo de RNA seleccionado analiza estos datos de entrada y realiza su pronostico, que para el SIGCIA va ser el valor l mite. Cuando se obtenga el valor real del indicador este se compara con el pronostico (valor l mite). En caso de ser mayor el real, mediante la maquina de inferencia, que posee la arquitectura del SIGCIA, esta recomienda las posibles causas de alteracion del indicador, los posibles impactos ambientales y las acciones de mitigacion.

Para lograr la integracion del algoritmo de prediccion de valores l mites al SIGCIA, se crea en el sistema un grupo de clases. Una clase (Modelo Clasi cacion) la cual se encarga de construir el Dataset haciendo uso de los datos que se encuentran en la tabla (tb consumo energ a) incluida en la base de datos db indicadores. Para la construccion del modelo y clasi car la instancia se hace uso de la librer a WEKA ver Figura 5.

Fig. 5. Integracion de Weka al SIGCIA.

Cuando el usuario (Especialista de Gestion Ambiental) desea gestionar el valor l mite del indicador, en este caso consumo total de energ a, una vez seleccionado el indicador hace click en el boton adicionar y se muestra una ventana de dialogo donde se tienen dos opciones, introducir el valor manualmente o generar el valor como se muestra en la Figura 6. Si el usuario selecciona la opcion de generar el valor l mite, se le muestra un formulario el cual debe llenar para el correcto funcionamiento del algoritmo (ver Figura 7). Luego de llenar los datos del formulario correctamente el usuario hace click en el boton insertar, acto seguido se ejecuta el metodo generarValorl mite() el cual crea primeramente una instancia temporal con los datos introducidos por el usuario en el formulario, construye el modelo de regresion, clasi ca la instancia y propone el valor l mite. Una vez de nido el valor l mite del indicador; el usuario calcula el valor real del mismo para el mes en curso. Este valor es guardado en la base de datos y se actualiza el dataset. Posteriormente si el valor del indicador real sobrepasa el valor l mite el sistema ofrece un conjunto de recomendaciones, fruto de las consultas realizadas a la ontolog a OntoEnvironmental.

Conclusiones

En el estudio de los algoritmos de seleccion de atributos con la estrategia Wrapper para seleccionar los metodos a aplicar en la investigacion, permitio constatar que exist an atributos redundantes e irrelevantes, debido a que el de mejores resultados fue Wrapper (MLP) eliminando el atributo Intensidad. El estudio realizado sobre los cinco modelos de regresion de distintas ramas, arrojo que el algoritmo de regresion MultiLayerPerceptron en cuanto a los parametros medidos (coe ciente de correlacion y error absoluto medio) fue el de mejores resultados.

La integracion del algoritmo de regresion MultiLayerPerceptron al sistema SIGCIA permite la prediccion del valor l mite del indicador consumo de energ a que fue el conjunto de datos seleccionado en la investigacion actual. Lo anterior facilita el trabajo del Especialista de Gestion Ambiental debido a que el sistema realiza las recomendaciones de forma oportuna y favorece la toma de decisiones al respecto. Los resultados obtenidos con la aplicacion del algoritmo de regresion MultiLayerPerceptron al conjunto de datos tomado de la Empresa Constructora del Poder Popular acerca del indicador consumo de energ a demuestra que para este indicador en otras organizaciones el algoritmo antes mencionado se puede generalizar.

1. Arp , R. , Smith , B. , Spear , A.D. : Building ontologies with basic formal ontology . Mit Press ( 2015 )

2. Bishop , C. : Extremely well-written, up-to-date. Requires a good mathematical background, but rewards careful reading, putting neural networks rmly into a statistical context . Neural Networks for Pattern Recognition ( 1995 )

3. Castellanos Dom ngez, M.I. ,

Quevedo

Castro , C.M. , Vega Ram rez, A., Grangel Gonzalez , I. , Moreno Rodr guez, R.: Sistema basado en ontolog a para el apoyo a la toma de decisiones en el proceso de gestion ambiental empresarial . In: II International Workshop of Semantic Web . vol. 1797 . CEUR-WS , La Habana , Cuba ( 2016 ), http://ceur-ws. org/ Vol- 1797 /

4. Cimiano , P. , McCrae , J. , Buitelaar , P. : Lexicon model for ontologies: Community report . W3C Ontology-Lexicon Community Group ( 2016 )

5. Cios , K.J. , Kurgan , L.A. : Trends in Data Mining and Knowledge Discovery (Dm ), 1 { 26 ( 2000 )

6. Davis , E.: Representations of commonsense knowledge . Morgan Kaufmann ( 2014 )

7. Demsar , J.: Comparison of Classi ers over Multiple Data Sets . Journal of Machine Learning Research vol. 7 : 31 ( 2006 )

8. Fayyad , U. : The KDD Process for Extracting Useful Knowledge from Volumes of Data 39 ( 11 ), 27 { 34 ( 1996 )

9. Frank , I.H.W. , E:

Practical Machine Learning Tools and Techniques (

2005 )

10. Heink , U. , Kowarik , I. : What are indicators? On the de nition of indicators in ecology and environmental planning . Ecological Indicators ELSEVIER 10 , 584 { 593 ( 2010 ), www.elsevier.com/locate/ecolind

11. Holmes , G. , Hall , M. , Frank , E.: Generating Rule Sets from Model Trees ( 1999 )

12. Holte , R.C.: Very Simple Classi cation Rules Perform Well on Most Commonly Used Datasets ( 1988 ), 63 { 91 ( 1993 )

13. IHOBE: Gu a de Indicadores Medioambientales para la Empresa ( 1999 )

14. Kharlamov , E. , Solomakhina , N., O zcep, O.L. , Zheleznyakov , D. , Hubauer , T. , Lamparter , S. , Roshchin , M. , Soylu , A. , Watson , S. : How semantic technologies can enhance data access at siemens energy . In: International Semantic Web Conference . pp. 601 { 619 . Springer ( 2014 )

15. Kheli J., F..J.: K-NN Regression to Improve Statistical Feature Extraction for Texture Retrieval . IEEE Transactions on Image Processing pp. 20 , 293 { 298 . ( 2011 )

16. Meron

~o Pen~uela,

A. , Ashkpour , A. , Van Erp , M. , Mandemakers , K. , Breure , L. , Scharnhorst , A. , Schlobach , S. , Van Harmelen , F. : Semantic technologies for historical research: A survey . Semantic Web 6 ( 6 ), 539 { 564 ( 2015 )

17. Tiropanis , T. , Davis , H.C. , Cerri , S.A. : Semantic Technologies and Learning . In: Encyclopedia of the Sciences of Learning , pp. 3029 { 3032 . Springer ( 2012 )

18. Torres-Reyna : Regression Analysis . Data Analysis 101 . University Princeton ( 2009 )