ICA2TEXT: Un sistema para la descripción automática en lenguaje natural de series temporales de calidad del aire ICA2TEXT: A system for the automatic natural language description of air quality time series Andrea Cascallar-Fuentes1 , Javier Gallego-Fernández1 , Alejandro Ramos-Soto1 , Anthony Saunders-Estévez2 and Alberto Bugarín-Diz1 1 Grupo de Sistemas Intelixentes, Centro Singular de Investigación en Tecnoloxías Intelixentes, Universidade de Santiago de Compostela, Rúa de Jenaro de la Fuente Domínguez s/n, Campus Vida 15782, Santiago de Compostela, España 2 Rede de Calidade do Aire de Galicia, MeteoGalicia, Xunta de Galicia, Calle Roma 6 15707 Fontiñas, Santiago de Compostela, España Resumen En este proyecto describimos ICA2TEXT, un sistema data-to-text para generar automáticamente descripciones textuales sobre series temporales de calidad del aire proporcionadas por MeteoGalicia. Los resultados de la evaluación por parte de dos expertos meteorólogos fueron muy satisfactorios, lo que confirma que las descripciones textuales propuestas se ajustan a este tipo de datos y servicios tanto en contenido como en diseño. Actualmente, este sistema se encuentra en una fase final de pruebas y será desplegado como servicio público de la web de MeteoGalicia [1]. English translation. In this project we describe ICA2TEXT, a data-to-text system to automatically generate textual descriptions about air quality time series provided by MeteoGalicia. Assessment results by two experts meteorologists were very satisfactory, which confirm that the proposed textual descriptions fit this type of data and service both in content and layout. This system is currently in a final testing phase and will be deployed as a public service on the MeteoGalicia website [1]. Keywords términos lingüísticos borrosos, sistemas data-to-text, generación de lenguaje natural. 1. Introducción de la lógica borrosa se ha propuesto varios enfoques para generar descripciones lingüísticas de los datos (LDD) o Profundizar en la información realmente relevante que hay resúmenes lingüísticos utilizando términos lingüísticos. detrás de los datos plantea la necesidad de emplear técni- En este trabajo describimos ICA2TEXT, un sistema cas que se adapten a las necesidades específicas de cada data-to-text basado en la lógica borrosa y la generación dominio y que puedan escalar a medida que se acumulan de lenguaje natural para describir automáticamente series los datos. temporales sobre el índice de calidad del aire (ICA), que La Generación de Lenguaje Natural (NLG) es un cam- es un indicador ampliamente utilizado en todo el mundo po centrado en la generación de texto a partir de varias de la calidad del aire. fuentes de datos. Dentro del NLG, los sistemas data-to- text (D2T) [2] generan automáticamente textos a partir de grandes conjuntos de datos numéricos o simbólicos, pro- 2. Contexto del problema porcionando información comprensible. Normalmente, el diseño de los sistemas D2T incluye i) una etapa de análisis La presencia de contaminantes en el aire y, por tanto, de datos donde se extrae la información relevante y ii) una el deterioro de la calidad del aire puede tener efectos etapa de generación donde se transmite la información en nocivos para la salud de las personas. Hemos trabajado lenguaje natural. Relacionado con esto, desde el campo con datos describen el Índice de Calidad del Aire (ICA) en la red de 50 estaciones meteorológicas que envían SEPLN-PD 2022. Annual Conference of the Spanish Association for datos actualizados cada hora en tiempo real en Galicia Natural Language Processing 2022: Projects and Demonstrations, proporcionados por MeteoGalicia [1]. Para determinar la September 21-23, 2022, A Coruña, Spain calidad del aire, este servicio mide cinco contaminantes $ andrea.cascallar.fuentes@usc.es (A. Cascallar-Fuentes); diferentes: 𝑆𝑂2 , 𝑁 𝑂2 , 𝑃 𝑀 25, 𝑃 𝑀 10 and 𝑂3 . javier.gallego.fernandez@rai.usc.es (J. Gallego-Fernández); alejandro.ramos@inverbisanalytics.com (A. Ramos-Soto); Basándose en los criterios de la Agencia Europea de calidadedoaire.cma@xunta.gal (A. Saunders-Estévez); Medio Ambiente [3], esta variable tiene seis etiquetas con alberto.bugarin.diz@usc.es (A. Bugarín-Diz) una percepción positiva, neutra o negativa (Tabla 1).  0000-0003-1857-5796 (A. Cascallar-Fuentes); Debido a la importancia de esta información, los me- 0000-0001-6136-8413 (A. Ramos-Soto); 0000-0003-3574-3843 teorólogos de MeteoGalicia pretenden ofrecerla a los ciu- (A. Bugarín-Diz) © 2022 Copyright for this paper by its authors. Use permitted under Creative dadanos de forma comprensible, hasta ahora en formato Commons License Attribution 4.0 International (CC BY 4.0). CEUR CEUR Workshop Proceedings (CEUR-WS.org) Workshop Proceedings http://ceur-ws.org ISSN 1613-0073 gráfico. Por ello, surge la necesidad de dotar a esta in- 62 Tabla 1 3.2. Planificación del documento Etiquetas del índice de calidad del aire con su percepción e índice numérico. Una vez identificados los mensajes y sus relaciones, en Percepción Positiva Neutra Negativa esta fase se generan todos los mensajes que se pueden Etiqueta Muy bueno Bueno Regular Malo Muy malo Pésimo incluir en la descripción final y se da una estructura a la Índice 0 1 2 3 4 5 descripción lingüística. La estructura de la descripción lingüística es la siguiente: i resumen general, ii intensifi- formación gráfica de una descripción textual que facilite cación (si procede) y iii excepción (si procede). Además, su comprensión. En este contexto, hemos desarrollado el el resumen general incluye una descripción general y la sistema ICA2TEXT en colaboración con los expertos de descripción de la tendencia si procede, mientras que las MeteoGalicia para describir lingüísticamente las series secciones de intensificación y excepción contienen valores temporales de calidad del aire. El diseño de este sistema excepcionales ordenados de forma ascendente por valor ha sido realizado de modo que atiende a las necesidades o fecha. Realizamos las descripciones lingüísticas en los de este ámbito en cuanto a la flexibilidad de la riqueza lin- idiomas español y gallego utilizando SimpleNLG-ES [4] güística requerida, abordando el manejo de la imprecisión y SimpleNLG-GL [5]. en la descripción de series temporales. En los siguien- tes apartados se muestra en detalle el diseño del sistema 3.3. Microplanificación siguiendo los requerimientos de los expertos. A partir de los mensajes generados previamente y de la estructura definida, en esta fase se seleccionan los casos a destacar y, por tanto, los mensajes que se van a mostrar. Las reglas de microplanificación se basan en las máximas griceanas [6]. En cuanto al resumen general se define que i) al des- Figura 1: Representación de la arquitectura de nuestra cribir un caso negativo se debe incluir el contaminante propuesta. Los rectángulos representan las etapas, mien- tras que las elipses representan los resultados. causante y ii) la tendencia sólo se incluye si las etiquetas de inicio y fin son diferentes. En cuanto a la intensificación y a la excepción se define que i) el contaminante causante de un ICA negativo se omite si ha sido indicado en el resumen general, ii) se debe 3. Descripciones lingüísticas de seleccionar la referencia temporal más general posible las series temporales del ICA con un grado de verdad mayor o igual a 0.9 y iii) los periodos de tiempo con el mismo valor se agrupan en la Este sistema se compone de las siguientes etapas (Figu- descripción. ra 1), que componen la arquitectura data-to-text propuesta para describir las series temporales. 3.4. Realización de la estructura 3.1. Determinación de contenido Una vez que hemos definido la estructura y los mensa- jes que compondrán la descripción lingüística, se genera Esta fase se compone de dos sub-etapas: i) Análisis de los automáticamente asegurándonos de que sea correcta orto- datos, en el que se identifican los patrones y las tendencias, gráfica, morfológica y sintácticamente. En este escenario, e ii) interpretación de los datos, en la que se identifican tanto en la intensificación como en la excepción, si el los mensajes que representan los patrones y la relación número de casos destacados es superior a 2, se dispondrán entre ellos. como una lista. Sin embargo, cuando el número de ele- Hemos diseñado un modelo temporal borroso para abor- mentos sea igual o inferior a 2 se incluirán ambos como dar el problema de manejar la imprecisión de la infor- texto plano. mación temporal al resumir las series temporales. Este modelo temporal se ha diseñado para agrupar los datos, si 3.5. Definición de los componentes es posible, en la referencia temporal más general. Nuestro objetivo es que el discurso sea legible y comprensible, En esta sección, presentamos el diseño de los componen- aunque se pierda algo de precisión o exactitud en las des- tes necesarios para generar la descripción lingüística de la cripciones. serie de índices de calidad del aire. 63 3.5.1. Cálculo de las etiquetas Tabla 2 Preguntas del cuestionario de validación de expertos del En primer lugar, calculamos la etiqueta del índice general índice de calidad del aire. de calidad del aire que mejor representa la serie temporal Código Pregunta global para incluirla en la descripción general. Esta etique- Q1 La descripción lingüística representa co- ta se obtuvo como una media ponderada en la que el valor rrectamente los datos representados en la más reciente es el más relevante para describir la situación figura general a través de la referencia temporal “En las últimas Q2 La descripción concuerda con la forma en horas”. Además, en descripción de la tendencia, su valor que describirías los datos también se calculaba con una media ponderada. Q3 El vocabulario se usa correctamente Q4 La organización de la descripción lingüísti- 3.5.2. Referencias temporales ca facilitar su comprensión Q5 La ortografía, la puntuación y la estructura En el libro de estilo de MeteoGalicia, se define la franja son correctas horaria para las diferentes partes del día {mañana, tarde, noche} en verano e invierno. Aunque los rangos que definen estos momentos del día se declaran de forma estática (al igual que la definición de un día completo desde las 00:00:00 hasta las 23:59:59), su uso al hablar está condicionado por la imprecisión del lenguaje. De modo que hemos definido de forma difusa las siguientes referencias temporales: • Día completo: en lugar de una definición estricta Figura 2: Ejemplo del cuestionario de evolución del ICA desde las 00:00:00 hasta las 23:59:59, agrupamos diseñado para la validación de expertos. como día también las dos horas anteriores y poste- riores con un peso en el rango [0, 1]. • Mañana, tarde, noche: como se ha mencionado Tabla 3 anteriormente, estas referencias temporales están Resultado de la evaluación realizada por expertos. definidas en el libro de estilo de MeteoGalicia. Media Desv. Típica Moda Mediana IQR Q1 4.58 0.87 5 5 1 Utilizando esa definición como base, las hemos Q2 4.15 1.01 5 4 1 definido como un conjunto borroso trapezoidal en Q3 4.75 0.70 5 5 0 el que las dos horas anteriores y posteriores a los Q4 4.92 0.28 5 5 0 Q5 4.97 0.18 5 5 0 límites se consideran con un peso en el rango [0, Contenido 4.37 0.96 5 5 1 1]. Estructura 4.88 0.46 5 5 0 • Primeras, centrales y últimas horas de la {mañana, General 4.67 0.75 5 5 0 tarde y noche}: hemos definido estas tres referen- cias temporales para describir situaciones más es- pecíficas. Estas etiquetas también se definen como cuestionario está formado por una representación gráfica conjuntos borrosos trapezoidales. de la serie temporal y la descripción textual generada que describía el caso, pidiéndoles que evaluaran la idoneidad de las descripciones para describir las distintas situaciones. 4. Validación por expertos La figura 2 muestra un ejemplo extraído del cuestionario. En la Tabla 3 presentamos un resumen de las puntua- Hemos pedido a dos meteorólogos expertos de la Red de ciones de los expertos para cada una de las preguntas de Calidad del Aire de MeteoGalicia [1] que evaluaran la forma individual y agrupada por dimensión. En general, calidad de las descripciones lingüísticas generadas por los resultados muestran que los expertos están de acuerdo ICA2TEXT en este dominio y su adecuación rellenando con las descripciones lingüísticas, ya que la media de las el cuestionario compuesto por 30 situaciones meteoroló- puntuaciones es de 4,67 y la moda muestra que el mayor gicas diferentes utilizando una escala de 5 puntos donde valor utilizado es 5, es decir, la puntuación máxima. Por lo 1 significa “el experto está absolutamente en desacuerdo” tanto, podemos concluir que estas descripciones lingüís- y 5 “el experto está absolutamente de acuerdo”. Ninguno ticas generadas son muy adecuadas tanto en contenido de estos dos expertos había participado en la definición de como en forma para describir series temporales de índices ninguna parte del modelo. de calidad del aire. Es cuestionario está formado por cinco preguntas, agru- padas en dos categorías: contenido de la descripción lin- güística (Q1, Q2) y diseño (Q3, Q4, Q5). Cada caso del 64 5. Discusión y conclusiones venciones han sido cofinanciadas por el Fondo Europeo de Desarrollo Regional (programa FEDER). En este trabajo hemos descrito el desarrollo de ICA2TEXT, un sistema que genera descripciones lingüís- ticas de datos de calidad del aire en castellano y gallego Referencias en colaboración con expertos de MeteoGalicia. Nuestro objetivo era cubrir las necesidades detectadas de acom- [1] MeteoGalicia, MeteoGalicia website, 2021. URL: pañar la información gráfica que ofrecen en su web con www.meteogalicia.gal, [Accessed February 2021]. descripciones textuales que faciliten su comprensión por [2] E. Reiter, An architecture for data-to-text sys- parte de los usuarios. tems, in: Proceedings of the Eleventh European Las series temporales para cada estación nunca supera Workshop on Natural Language Generation, Associa- los 150 registros. Nuestra aproximación consume una me- tion for Computational Linguistics, 2007, pp. 97–104. dia de 10s para generar las dos descripciones textuales URL: https://doi.org/10.3115%2F1610163.1610180. (una por idioma) para las 50 estaciones de MeteoGalicia. doi:10.3115/1610163.1610180. Este tamaño es lo usual por lo que nuestra aproximación [3] European Environment Agency, European Air Qua- puede ser utilizada con datos de cualquier agencia meteo- lity Index website, 2021. URL: www.eea.europa.eu, rológica realizando las adaptaciones pertinentes. [Accessed February 2021]. ICA2TEXT permite incluir un nuevo idioma, incluyen- [4] A. Ramos-Soto, J. J. Gallardo, A. Bugarín, Adap- do los elementos necesarios en los archivos de configura- ting SimpleNLG to Spanish, in: Proceedings of ción. Para los idiomas para los que ya existe una versión the 10th International Conference on Natural Lan- de SimpleNLG se podría adaptar fácilmente teniendo en guage Generation, INLG, Association for Compu- cuenta las características de cada idioma. En caso de que tational Linguistics, 2017, pp. 144–148. URL: https: no exista, habría que crear plantillas o un realizador lin- //doi.org/10.18653/v1/w17-3521. doi:10.18653/ güístico para este idioma. v1/w17-3521. Con respecto a su reutilización con otro tipo de datos, [5] A. Cascallar-Fuentes, A. Ramos-Soto, A. Bugarín, a la hora de describir series temporales se utiliza un tipo Adapting SimpleNLG to Galician language, in: Pro- de relato muy habitual, donde se describe una valoración ceedings of the 11th International Conference on Na- general de una situación incluyendo matices de intensi- tural Language Generation, Association for Compu- ficación y excepción. En el modelo que hemos definido tational Linguistics, 2018, pp. 67–72. URL: https: hemos seguido esta estructura, de modo que, para reutili- //doi.org/10.18653/v1/w18-6507. doi:10.18653/ zar ICA2TEXT con otros tipos de datos, debería adaptarse v1/w18-6507. la fase de preprocesado de los datos y las tareas realizadas [6] H. P. Grice, Logic and conversation, in: Speech acts, dentro de la fase de determinación de contenido. Por otro Brill, 1975, pp. 41–58. lado, en caso de que los requisitos del lenguaje sean muy diferentes, habría que adaptar todas la fases del diseño en gran medida. Los resultados de la validación realizada por expertos en la materia han sido muy satisfactorios. Como conse- cuencia, actualmente está siendo sometido a una fase final de pruebas y se desplegará como servicio público en la web oficial de MeteoGalicia. Como trabajo actual y futuro, estamos aplicando nues- tro modelo al diseño de nuevos sistemas D2T en otros ámbitos, como la notificación automática de series tempo- rales en el ámbito de la sanidad electrónica. Agradecimientos Esta investigación ha sido financiada por el Ministe- rio de Ciencia, Innovación y Universidades (subvencio- nes TIN2017-84796-C2-1-R, PID2020-112623GB-I00, y PDC2021-121072-C21) y la Consellería de Educa- ción, Universidade e Formación Profesional (subvencio- nes ED431C2018/29 y ED431G2019/04). Todas las sub- 65