1. Introducción

ICA2TEXT: Un sistema para la descripción automática en lenguaje natural de series temporales de calidad del aire

Andrea Cascallar-Fuentes

andrea.cascallar.fuentes@usc.es

Javier Gallego-Fernández

javier.gallego.fernandez@rai.usc.es

Alejandro Ramos-Soto

alejandro.ramos@inverbisanalytics.com

Anthony Saunders-Estévez

Alberto Bugarín-Diz

alberto.bugarin.diz@usc.es

62 65

ICA2TEXT: A system for the automatic natural language description of air quality time series 1Grupo de Sistemas Intelixentes, Centro Singular de Investigación en Tecnoloxías Intelixentes, Universidade de Santiago de Compostela, Rúa de Jenaro de la Fuente Domínguez s/n, Campus Vida 15782, Santiago de Compostela, España 2Rede de Calidade do Aire de Galicia, MeteoGalicia, Xunta de Galicia, Calle Roma 6 15707 Fontiñas, Santiago de Compostela, España Resumen En este proyecto describimos ICA2TEXT, un sistema data-to-text para generar automáticamente descripciones textuales sobre series temporales de calidad del aire proporcionadas por MeteoGalicia. Los resultados de la evaluación por parte de dos expertos meteorólogos fueron muy satisfactorios, lo que confirma que las descripciones textuales propuestas se ajustan a este tipo de datos y servicios tanto en contenido como en diseño. Actualmente, este sistema se encuentra en una fase final de pruebas y será desplegado como servicio público de la web de MeteoGalicia [1]. English translation. In this project we describe ICA2TEXT, a data-to-text system to automatically generate textual descriptions about air quality time series provided by MeteoGalicia. Assessment results by two experts meteorologists were very satisfactory, which confirm that the proposed textual descriptions fit this type of data and service both in content and layout. This system is currently in a final testing phase and will be deployed as a public service on the MeteoGalicia website [1].

eol>términos lingüísticos borrosos sistemas data-to-text generación de lenguaje natural

1. Introducción

Profundizar en la información realmente relevante que hay detrás de los datos plantea la necesidad de emplear técnicas que se adapten a las necesidades específicas de cada dominio y que puedan escalar a medida que se acumulan los datos.

La Generación de Lenguaje Natural (NLG) es un campo centrado en la generación de texto a partir de varias fuentes de datos. Dentro del NLG, los sistemas data-totext (D2T) [2] generan automáticamente textos a partir de grandes conjuntos de datos numéricos o simbólicos, proporcionando información comprensible. Normalmente, el diseño de los sistemas D2T incluye i) una etapa de análisis de datos donde se extrae la información relevante y ii) una etapa de generación donde se transmite la información en lenguaje natural. Relacionado con esto, desde el campo de la lógica borrosa se ha propuesto varios enfoques para generar descripciones lingüísticas de los datos (LDD) o resúmenes lingüísticos utilizando términos lingüísticos.

En este trabajo describimos ICA2TEXT, un sistema data-to-text basado en la lógica borrosa y la generación de lenguaje natural para describir automáticamente series temporales sobre el índice de calidad del aire (ICA), que es un indicador ampliamente utilizado en todo el mundo de la calidad del aire.

2. Contexto del problema

La presencia de contaminantes en el aire y, por tanto, el deterioro de la calidad del aire puede tener efectos nocivos para la salud de las personas. Hemos trabajado con datos describen el Índice de Calidad del Aire (ICA) en la red de 50 estaciones meteorológicas que envían datos actualizados cada hora en tiempo real en Galicia proporcionados por MeteoGalicia [1]. Para determinar la calidad del aire, este servicio mide cinco contaminantes diferentes: 2, 2, 25, 10 and 3.

Basándose en los criterios de la Agencia Europea de Medio Ambiente [3], esta variable tiene seis etiquetas con una percepción positiva, neutra o negativa (Tabla 1).

Debido a la importancia de esta información, los meteorólogos de MeteoGalicia pretenden ofrecerla a los ciudadanos de forma comprensible, hasta ahora en formato gráfico. Por ello, surge la necesidad de dotar a esta in

Tabla 1

Etiquetas del índice de calidad del aire con su percepción e índice numérico.

Percepción Positiva Neutra Negativa Etiqueta Muy bueno Bueno Regular Malo Muy malo Pésimo Índice 0 1 2 3 4 5 formación gráfica de una descripción textual que facilite su comprensión. En este contexto, hemos desarrollado el sistema ICA2TEXT en colaboración con los expertos de MeteoGalicia para describir lingüísticamente las series temporales de calidad del aire. El diseño de este sistema ha sido realizado de modo que atiende a las necesidades de este ámbito en cuanto a la flexibilidad de la riqueza lingüística requerida, abordando el manejo de la imprecisión en la descripción de series temporales. En los siguientes apartados se muestra en detalle el diseño del sistema siguiendo los requerimientos de los expertos.

Figura 1: Representación de la arquitectura de nuestra propuesta. Los rectángulos representan las etapas, mientras que las elipses representan los resultados.

3. Descripciones lingüísticas de las series temporales del ICA

Este sistema se compone de las siguientes etapas (Figura 1), que componen la arquitectura data-to-text propuesta para describir las series temporales.

3.2. Planificación del documento

Una vez identificados los mensajes y sus relaciones, en esta fase se generan todos los mensajes que se pueden incluir en la descripción final y se da una estructura a la descripción lingüística. La estructura de la descripción lingüística es la siguiente: i resumen general, ii intensificación (si procede) y iii excepción (si procede). Además, el resumen general incluye una descripción general y la descripción de la tendencia si procede, mientras que las secciones de intensificación y excepción contienen valores excepcionales ordenados de forma ascendente por valor o fecha. Realizamos las descripciones lingüísticas en los idiomas español y gallego utilizando SimpleNLG-ES [4] y SimpleNLG-GL [ 5 ].

3.3. Microplanificación

A partir de los mensajes generados previamente y de la estructura definida, en esta fase se seleccionan los casos a destacar y, por tanto, los mensajes que se van a mostrar. Las reglas de microplanificación se basan en las máximas griceanas [6].

En cuanto al resumen general se define que i) al describir un caso negativo se debe incluir el contaminante causante y ii) la tendencia sólo se incluye si las etiquetas de inicio y fin son diferentes.

En cuanto a la intensificación y a la excepción se define que i) el contaminante causante de un ICA negativo se omite si ha sido indicado en el resumen general, ii) se debe seleccionar la referencia temporal más general posible con un grado de verdad mayor o igual a 0.9 y iii) los periodos de tiempo con el mismo valor se agrupan en la descripción.

3.4. Realización de la estructura

3.1. Determinación de contenido Una vez que hemos definido la estructura y los mensajes que compondrán la descripción lingüística, se genera Esta fase se compone de dos sub-etapas: i) Análisis de los automáticamente asegurándonos de que sea correcta ortodatos, en el que se identifican los patrones y las tendencias, gráfica, morfológica y sintácticamente. En este escenario, e ii) interpretación de los datos, en la que se identifican tanto en la intensificación como en la excepción, si el los mensajes que representan los patrones y la relación número de casos destacados es superior a 2, se dispondrán entre ellos. como una lista. Sin embargo, cuando el número de ele

Hemos diseñado un modelo temporal borroso para abor- mentos sea igual o inferior a 2 se incluirán ambos como dar el problema de manejar la imprecisión de la infor- texto plano. mación temporal al resumir las series temporales. Este modelo temporal se ha diseñado para agrupar los datos, si 3.5. Definición de los componentes es posible, en la referencia temporal más general. Nuestro objetivo es que el discurso sea legible y comprensible, En esta sección, presentamos el diseño de los componenaunque se pierda algo de precisión o exactitud en las des- tes necesarios para generar la descripción lingüística de la cripciones. serie de índices de calidad del aire.

3.5.1. Cálculo de las etiquetas

En primer lugar, calculamos la etiqueta del índice general de calidad del aire que mejor representa la serie temporal global para incluirla en la descripción general. Esta etiqueta se obtuvo como una media ponderada en la que el valor más reciente es el más relevante para describir la situación general a través de la referencia temporal “En las últimas horas”. Además, en descripción de la tendencia, su valor también se calculaba con una media ponderada.

3.5.2. Referencias temporales

En el libro de estilo de MeteoGalicia, se define la franja horaria para las diferentes partes del día {mañana, tarde, noche} en verano e invierno.

Aunque los rangos que definen estos momentos del día se declaran de forma estática (al igual que la definición de un día completo desde las 00:00:00 hasta las 23:59:59), su uso al hablar está condicionado por la imprecisión del lenguaje. De modo que hemos definido de forma difusa las siguientes referencias temporales: • Día completo: en lugar de una definición estricta desde las 00:00:00 hasta las 23:59:59, agrupamos como día también las dos horas anteriores y posteriores con un peso en el rango [0, 1]. • Mañana, tarde, noche: como se ha mencionado anteriormente, estas referencias temporales están definidas en el libro de estilo de MeteoGalicia. Utilizando esa definición como base, las hemos definido como un conjunto borroso trapezoidal en el que las dos horas anteriores y posteriores a los límites se consideran con un peso en el rango [0, 1]. • Primeras, centrales y últimas horas de la {mañana, tarde y noche}: hemos definido estas tres referencias temporales para describir situaciones más específicas. Estas etiquetas también se definen como conjuntos borrosos trapezoidales.

4. Validación por expertos

Hemos pedido a dos meteorólogos expertos de la Red de Calidad del Aire de MeteoGalicia [1] que evaluaran la calidad de las descripciones lingüísticas generadas por ICA2TEXT en este dominio y su adecuación rellenando el cuestionario compuesto por 30 situaciones meteorológicas diferentes utilizando una escala de 5 puntos donde 1 significa “el experto está absolutamente en desacuerdo” y 5 “el experto está absolutamente de acuerdo”. Ninguno de estos dos expertos había participado en la definición de ninguna parte del modelo.

Es cuestionario está formado por cinco preguntas, agrupadas en dos categorías: contenido de la descripción lingüística (Q1, Q2) y diseño (Q3, Q4, Q5). Cada caso del

Tabla 2

Preguntas del cuestionario de validación de expertos del índice de calidad del aire.

Código

Q1 Q2 Q3 Q4 Q5

Pregunta

La descripción lingüística representa correctamente los datos representados en la ifgura La descripción concuerda con la forma en que describirías los datos El vocabulario se usa correctamente La organización de la descripción lingüística facilitar su comprensión La ortografía, la puntuación y la estructura son correctas Figura 2: Ejemplo del cuestionario de evolución del ICA diseñado para la validación de expertos.

Tabla 3

Resultado de la evaluación realizada por expertos.

Q1 Q2 Q3 Q4

Q5 Contenido Estructura General cuestionario está formado por una representación gráfica de la serie temporal y la descripción textual generada que describía el caso, pidiéndoles que evaluaran la idoneidad de las descripciones para describir las distintas situaciones.

La figura 2 muestra un ejemplo extraído del cuestionario.

En la Tabla 3 presentamos un resumen de las puntuaciones de los expertos para cada una de las preguntas de forma individual y agrupada por dimensión. En general, los resultados muestran que los expertos están de acuerdo con las descripciones lingüísticas, ya que la media de las puntuaciones es de 4,67 y la moda muestra que el mayor valor utilizado es 5, es decir, la puntuación máxima. Por lo tanto, podemos concluir que estas descripciones lingüísticas generadas son muy adecuadas tanto en contenido como en forma para describir series temporales de índices de calidad del aire. venciones han sido cofinanciadas por el Fondo Europeo de Desarrollo Regional (programa FEDER).

En este trabajo hemos descrito el desarrollo de ICA2TEXT, un sistema que genera descripciones lingüísticas de datos de calidad del aire en castellano y gallego Referencias en colaboración con expertos de MeteoGalicia. Nuestro objetivo era cubrir las necesidades detectadas de acom- [1] MeteoGalicia, MeteoGalicia website, 2021. URL: pañar la información gráfica que ofrecen en su web con www.meteogalicia.gal, [Accessed February 2021]. descripciones textuales que faciliten su comprensión por [2] E. Reiter, An architecture for data-to-text sysparte de los usuarios. tems, in: Proceedings of the Eleventh European

Las series temporales para cada estación nunca supera Workshop on Natural Language Generation, Associalos 150 registros. Nuestra aproximación consume una me- tion for Computational Linguistics, 2007, pp. 97–104. dia de 10s para generar las dos descripciones textuales URL: https://doi.org/10.3115%2F1610163.1610180. (una por idioma) para las 50 estaciones de MeteoGalicia. doi:10.3115/1610163.1610180. Este tamaño es lo usual por lo que nuestra aproximación [3] European Environment Agency, European Air Quapuede ser utilizada con datos de cualquier agencia meteo- lity Index website, 2021. URL: www.eea.europa.eu, rológica realizando las adaptaciones pertinentes. [Accessed February 2021].

ICA2TEXT permite incluir un nuevo idioma, incluyen- [4] A. Ramos-Soto, J. J. Gallardo, A. Bugarín, Adapdo los elementos necesarios en los archivos de configura- ting SimpleNLG to Spanish, in: Proceedings of ción. Para los idiomas para los que ya existe una versión the 10th International Conference on Natural Lande SimpleNLG se podría adaptar fácilmente teniendo en guage Generation, INLG, Association for Compucuenta las características de cada idioma. En caso de que tational Linguistics, 2017, pp. 144–148. URL: https: no exista, habría que crear plantillas o un realizador lin- //doi.org/10.18653/v1/w17-3521. doi:10.18653/ güístico para este idioma. v1/w17-3521.

Con respecto a su reutilización con otro tipo de datos, [ 5 ] A. Cascallar-Fuentes, A. Ramos-Soto, A. Bugarín, a la hora de describir series temporales se utiliza un tipo Adapting SimpleNLG to Galician language, in: Prode relato muy habitual, donde se describe una valoración ceedings of the 11th International Conference on Nageneral de una situación incluyendo matices de intensi- tural Language Generation, Association for Compuifcación y excepción. En el modelo que hemos definido tational Linguistics, 2018, pp. 67–72. URL: https: hemos seguido esta estructura, de modo que, para reutili- //doi.org/10.18653/v1/w18-6507. doi:10.18653/ zar ICA2TEXT con otros tipos de datos, debería adaptarse v1/w18-6507. la fase de preprocesado de los datos y las tareas realizadas [6] H. P. Grice, Logic and conversation, in: Speech acts, dentro de la fase de determinación de contenido. Por otro Brill, 1975, pp. 41–58. lado, en caso de que los requisitos del lenguaje sean muy diferentes, habría que adaptar todas la fases del diseño en gran medida.

Los resultados de la validación realizada por expertos en la materia han sido muy satisfactorios. Como consecuencia, actualmente está siendo sometido a una fase final de pruebas y se desplegará como servicio público en la web oficial de MeteoGalicia.

Como trabajo actual y futuro, estamos aplicando nuestro modelo al diseño de nuevos sistemas D2T en otros ámbitos, como la notificación automática de series temporales en el ámbito de la sanidad electrónica.

Agradecimientos

5. Discusión y conclusiones