<!DOCTYPE article PUBLIC "-//NLM//DTD JATS (Z39.96) Journal Archiving and Interchange DTD v1.0 20120330//EN" "JATS-archivearticle1.dtd">
<article xmlns:xlink="http://www.w3.org/1999/xlink">
  <front>
    <journal-meta />
    <article-meta>
      <title-group>
        <article-title>ICA2TEXT: Un sistema para la descripción automática en lenguaje natural de series temporales de calidad del aire</article-title>
      </title-group>
      <contrib-group>
        <contrib contrib-type="author">
          <string-name>Andrea Cascallar-Fuentes</string-name>
          <email>andrea.cascallar.fuentes@usc.es</email>
        </contrib>
        <contrib contrib-type="author">
          <string-name>Javier Gallego-Fernández</string-name>
          <email>javier.gallego.fernandez@rai.usc.es</email>
        </contrib>
        <contrib contrib-type="author">
          <string-name>Alejandro Ramos-Soto</string-name>
          <email>alejandro.ramos@inverbisanalytics.com</email>
        </contrib>
        <contrib contrib-type="author">
          <string-name>Anthony Saunders-Estévez</string-name>
        </contrib>
        <contrib contrib-type="author">
          <string-name>Alberto Bugarín-Diz</string-name>
          <email>alberto.bugarin.diz@usc.es</email>
        </contrib>
      </contrib-group>
      <fpage>62</fpage>
      <lpage>65</lpage>
      <abstract>
        <p>ICA2TEXT: A system for the automatic natural language description of air quality time series 1Grupo de Sistemas Intelixentes, Centro Singular de Investigación en Tecnoloxías Intelixentes, Universidade de Santiago de Compostela, Rúa de Jenaro de la Fuente Domínguez s/n, Campus Vida 15782, Santiago de Compostela, España 2Rede de Calidade do Aire de Galicia, MeteoGalicia, Xunta de Galicia, Calle Roma 6 15707 Fontiñas, Santiago de Compostela, España Resumen En este proyecto describimos ICA2TEXT, un sistema data-to-text para generar automáticamente descripciones textuales sobre series temporales de calidad del aire proporcionadas por MeteoGalicia. Los resultados de la evaluación por parte de dos expertos meteorólogos fueron muy satisfactorios, lo que confirma que las descripciones textuales propuestas se ajustan a este tipo de datos y servicios tanto en contenido como en diseño. Actualmente, este sistema se encuentra en una fase final de pruebas y será desplegado como servicio público de la web de MeteoGalicia [1]. English translation. In this project we describe ICA2TEXT, a data-to-text system to automatically generate textual descriptions about air quality time series provided by MeteoGalicia. Assessment results by two experts meteorologists were very satisfactory, which confirm that the proposed textual descriptions fit this type of data and service both in content and layout. This system is currently in a final testing phase and will be deployed as a public service on the MeteoGalicia website [1].</p>
      </abstract>
      <kwd-group>
        <kwd>eol&gt;términos lingüísticos borrosos</kwd>
        <kwd>sistemas data-to-text</kwd>
        <kwd>generación de lenguaje natural</kwd>
      </kwd-group>
    </article-meta>
  </front>
  <body>
    <sec id="sec-1">
      <title>1. Introducción</title>
      <p>Profundizar en la información realmente relevante que hay
detrás de los datos plantea la necesidad de emplear
técnicas que se adapten a las necesidades específicas de cada
dominio y que puedan escalar a medida que se acumulan
los datos.</p>
      <p>La Generación de Lenguaje Natural (NLG) es un
campo centrado en la generación de texto a partir de varias
fuentes de datos. Dentro del NLG, los sistemas
data-totext (D2T) [2] generan automáticamente textos a partir de
grandes conjuntos de datos numéricos o simbólicos,
proporcionando información comprensible. Normalmente, el
diseño de los sistemas D2T incluye i) una etapa de análisis
de datos donde se extrae la información relevante y ii) una
etapa de generación donde se transmite la información en
lenguaje natural. Relacionado con esto, desde el campo
de la lógica borrosa se ha propuesto varios enfoques para
generar descripciones lingüísticas de los datos (LDD) o
resúmenes lingüísticos utilizando términos lingüísticos.</p>
      <p>En este trabajo describimos ICA2TEXT, un sistema
data-to-text basado en la lógica borrosa y la generación
de lenguaje natural para describir automáticamente series
temporales sobre el índice de calidad del aire (ICA), que
es un indicador ampliamente utilizado en todo el mundo
de la calidad del aire.</p>
    </sec>
    <sec id="sec-2">
      <title>2. Contexto del problema</title>
      <p>La presencia de contaminantes en el aire y, por tanto,
el deterioro de la calidad del aire puede tener efectos
nocivos para la salud de las personas. Hemos trabajado
con datos describen el Índice de Calidad del Aire (ICA)
en la red de 50 estaciones meteorológicas que envían
datos actualizados cada hora en tiempo real en Galicia
proporcionados por MeteoGalicia [1]. Para determinar la
calidad del aire, este servicio mide cinco contaminantes
diferentes:  2,   2,   25,   10 and  3.</p>
      <p>Basándose en los criterios de la Agencia Europea de
Medio Ambiente [3], esta variable tiene seis etiquetas con
una percepción positiva, neutra o negativa (Tabla 1).</p>
      <p>Debido a la importancia de esta información, los
meteorólogos de MeteoGalicia pretenden ofrecerla a los
ciudadanos de forma comprensible, hasta ahora en formato
gráfico. Por ello, surge la necesidad de dotar a esta
in</p>
      <sec id="sec-2-1">
        <title>Tabla 1</title>
        <p>Etiquetas del índice de calidad del aire con su percepción
e índice numérico.</p>
        <p>Percepción Positiva Neutra Negativa
Etiqueta Muy bueno Bueno Regular Malo Muy malo Pésimo
Índice 0 1 2 3 4 5
formación gráfica de una descripción textual que facilite
su comprensión. En este contexto, hemos desarrollado el
sistema ICA2TEXT en colaboración con los expertos de
MeteoGalicia para describir lingüísticamente las series
temporales de calidad del aire. El diseño de este sistema
ha sido realizado de modo que atiende a las necesidades
de este ámbito en cuanto a la flexibilidad de la riqueza
lingüística requerida, abordando el manejo de la imprecisión
en la descripción de series temporales. En los
siguientes apartados se muestra en detalle el diseño del sistema
siguiendo los requerimientos de los expertos.</p>
        <p>Figura 1: Representación de la arquitectura de nuestra
propuesta. Los rectángulos representan las etapas,
mientras que las elipses representan los resultados.</p>
      </sec>
    </sec>
    <sec id="sec-3">
      <title>3. Descripciones lingüísticas de las series temporales del ICA</title>
      <p>Este sistema se compone de las siguientes etapas
(Figura 1), que componen la arquitectura data-to-text propuesta
para describir las series temporales.</p>
      <sec id="sec-3-1">
        <title>3.2. Planificación del documento</title>
        <p>
          Una vez identificados los mensajes y sus relaciones, en
esta fase se generan todos los mensajes que se pueden
incluir en la descripción final y se da una estructura a la
descripción lingüística. La estructura de la descripción
lingüística es la siguiente: i resumen general, ii
intensificación (si procede) y iii excepción (si procede). Además,
el resumen general incluye una descripción general y la
descripción de la tendencia si procede, mientras que las
secciones de intensificación y excepción contienen valores
excepcionales ordenados de forma ascendente por valor
o fecha. Realizamos las descripciones lingüísticas en los
idiomas español y gallego utilizando SimpleNLG-ES [4]
y SimpleNLG-GL [
          <xref ref-type="bibr" rid="ref1">5</xref>
          ].
        </p>
      </sec>
      <sec id="sec-3-2">
        <title>3.3. Microplanificación</title>
        <p>A partir de los mensajes generados previamente y de la
estructura definida, en esta fase se seleccionan los casos a
destacar y, por tanto, los mensajes que se van a mostrar.
Las reglas de microplanificación se basan en las máximas
griceanas [6].</p>
        <p>En cuanto al resumen general se define que i) al
describir un caso negativo se debe incluir el contaminante
causante y ii) la tendencia sólo se incluye si las etiquetas
de inicio y fin son diferentes.</p>
        <p>En cuanto a la intensificación y a la excepción se define
que i) el contaminante causante de un ICA negativo se
omite si ha sido indicado en el resumen general, ii) se debe
seleccionar la referencia temporal más general posible
con un grado de verdad mayor o igual a 0.9 y iii) los
periodos de tiempo con el mismo valor se agrupan en la
descripción.</p>
      </sec>
      <sec id="sec-3-3">
        <title>3.4. Realización de la estructura</title>
        <p>3.1. Determinación de contenido Una vez que hemos definido la estructura y los
mensajes que compondrán la descripción lingüística, se genera
Esta fase se compone de dos sub-etapas: i) Análisis de los automáticamente asegurándonos de que sea correcta
ortodatos, en el que se identifican los patrones y las tendencias, gráfica, morfológica y sintácticamente. En este escenario,
e ii) interpretación de los datos, en la que se identifican tanto en la intensificación como en la excepción, si el
los mensajes que representan los patrones y la relación número de casos destacados es superior a 2, se dispondrán
entre ellos. como una lista. Sin embargo, cuando el número de
ele</p>
        <p>Hemos diseñado un modelo temporal borroso para abor- mentos sea igual o inferior a 2 se incluirán ambos como
dar el problema de manejar la imprecisión de la infor- texto plano.
mación temporal al resumir las series temporales. Este
modelo temporal se ha diseñado para agrupar los datos, si 3.5. Definición de los componentes
es posible, en la referencia temporal más general. Nuestro
objetivo es que el discurso sea legible y comprensible, En esta sección, presentamos el diseño de los
componenaunque se pierda algo de precisión o exactitud en las des- tes necesarios para generar la descripción lingüística de la
cripciones. serie de índices de calidad del aire.</p>
        <sec id="sec-3-3-1">
          <title>3.5.1. Cálculo de las etiquetas</title>
          <p>En primer lugar, calculamos la etiqueta del índice general
de calidad del aire que mejor representa la serie temporal
global para incluirla en la descripción general. Esta
etiqueta se obtuvo como una media ponderada en la que el valor
más reciente es el más relevante para describir la situación
general a través de la referencia temporal “En las últimas
horas”. Además, en descripción de la tendencia, su valor
también se calculaba con una media ponderada.</p>
        </sec>
        <sec id="sec-3-3-2">
          <title>3.5.2. Referencias temporales</title>
          <p>En el libro de estilo de MeteoGalicia, se define la franja
horaria para las diferentes partes del día {mañana, tarde,
noche} en verano e invierno.</p>
          <p>Aunque los rangos que definen estos momentos del día
se declaran de forma estática (al igual que la definición de
un día completo desde las 00:00:00 hasta las 23:59:59),
su uso al hablar está condicionado por la imprecisión del
lenguaje. De modo que hemos definido de forma difusa
las siguientes referencias temporales:
• Día completo: en lugar de una definición estricta
desde las 00:00:00 hasta las 23:59:59, agrupamos
como día también las dos horas anteriores y
posteriores con un peso en el rango [0, 1].
• Mañana, tarde, noche: como se ha mencionado
anteriormente, estas referencias temporales están
definidas en el libro de estilo de MeteoGalicia.
Utilizando esa definición como base, las hemos
definido como un conjunto borroso trapezoidal en
el que las dos horas anteriores y posteriores a los
límites se consideran con un peso en el rango [0,
1].
• Primeras, centrales y últimas horas de la {mañana,
tarde y noche}: hemos definido estas tres
referencias temporales para describir situaciones más
específicas. Estas etiquetas también se definen como
conjuntos borrosos trapezoidales.</p>
        </sec>
      </sec>
    </sec>
    <sec id="sec-4">
      <title>4. Validación por expertos</title>
      <p>Hemos pedido a dos meteorólogos expertos de la Red de
Calidad del Aire de MeteoGalicia [1] que evaluaran la
calidad de las descripciones lingüísticas generadas por
ICA2TEXT en este dominio y su adecuación rellenando
el cuestionario compuesto por 30 situaciones
meteorológicas diferentes utilizando una escala de 5 puntos donde
1 significa “el experto está absolutamente en desacuerdo”
y 5 “el experto está absolutamente de acuerdo”. Ninguno
de estos dos expertos había participado en la definición de
ninguna parte del modelo.</p>
      <p>Es cuestionario está formado por cinco preguntas,
agrupadas en dos categorías: contenido de la descripción
lingüística (Q1, Q2) y diseño (Q3, Q4, Q5). Cada caso del</p>
      <sec id="sec-4-1">
        <title>Tabla 2</title>
        <p>Preguntas del cuestionario de validación de expertos del
índice de calidad del aire.</p>
      </sec>
      <sec id="sec-4-2">
        <title>Código</title>
        <p>Q1
Q2
Q3
Q4
Q5</p>
      </sec>
      <sec id="sec-4-3">
        <title>Pregunta</title>
        <p>La descripción lingüística representa
correctamente los datos representados en la
ifgura
La descripción concuerda con la forma en
que describirías los datos
El vocabulario se usa correctamente
La organización de la descripción
lingüística facilitar su comprensión
La ortografía, la puntuación y la estructura
son correctas
Figura 2: Ejemplo del cuestionario de evolución del ICA
diseñado para la validación de expertos.</p>
      </sec>
      <sec id="sec-4-4">
        <title>Tabla 3</title>
        <p>Resultado de la evaluación realizada por expertos.</p>
        <p>Q1
Q2
Q3
Q4</p>
        <p>Q5
Contenido
Estructura
General
cuestionario está formado por una representación gráfica
de la serie temporal y la descripción textual generada que
describía el caso, pidiéndoles que evaluaran la idoneidad
de las descripciones para describir las distintas situaciones.</p>
        <p>La figura 2 muestra un ejemplo extraído del cuestionario.</p>
        <p>En la Tabla 3 presentamos un resumen de las
puntuaciones de los expertos para cada una de las preguntas de
forma individual y agrupada por dimensión. En general,
los resultados muestran que los expertos están de acuerdo
con las descripciones lingüísticas, ya que la media de las
puntuaciones es de 4,67 y la moda muestra que el mayor
valor utilizado es 5, es decir, la puntuación máxima. Por lo
tanto, podemos concluir que estas descripciones
lingüísticas generadas son muy adecuadas tanto en contenido
como en forma para describir series temporales de índices
de calidad del aire.
venciones han sido cofinanciadas por el Fondo Europeo
de Desarrollo Regional (programa FEDER).</p>
        <p>En este trabajo hemos descrito el desarrollo de
ICA2TEXT, un sistema que genera descripciones
lingüísticas de datos de calidad del aire en castellano y gallego Referencias
en colaboración con expertos de MeteoGalicia. Nuestro
objetivo era cubrir las necesidades detectadas de acom- [1] MeteoGalicia, MeteoGalicia website, 2021. URL:
pañar la información gráfica que ofrecen en su web con www.meteogalicia.gal, [Accessed February 2021].
descripciones textuales que faciliten su comprensión por [2] E. Reiter, An architecture for data-to-text
sysparte de los usuarios. tems, in: Proceedings of the Eleventh European</p>
        <p>Las series temporales para cada estación nunca supera Workshop on Natural Language Generation,
Associalos 150 registros. Nuestra aproximación consume una me- tion for Computational Linguistics, 2007, pp. 97–104.
dia de 10s para generar las dos descripciones textuales URL: https://doi.org/10.3115%2F1610163.1610180.
(una por idioma) para las 50 estaciones de MeteoGalicia. doi:10.3115/1610163.1610180.
Este tamaño es lo usual por lo que nuestra aproximación [3] European Environment Agency, European Air
Quapuede ser utilizada con datos de cualquier agencia meteo- lity Index website, 2021. URL: www.eea.europa.eu,
rológica realizando las adaptaciones pertinentes. [Accessed February 2021].</p>
        <p>ICA2TEXT permite incluir un nuevo idioma, incluyen- [4] A. Ramos-Soto, J. J. Gallardo, A. Bugarín,
Adapdo los elementos necesarios en los archivos de configura- ting SimpleNLG to Spanish, in: Proceedings of
ción. Para los idiomas para los que ya existe una versión the 10th International Conference on Natural
Lande SimpleNLG se podría adaptar fácilmente teniendo en guage Generation, INLG, Association for
Compucuenta las características de cada idioma. En caso de que tational Linguistics, 2017, pp. 144–148. URL: https:
no exista, habría que crear plantillas o un realizador lin- //doi.org/10.18653/v1/w17-3521. doi:10.18653/
güístico para este idioma. v1/w17-3521.</p>
        <p>
          Con respecto a su reutilización con otro tipo de datos, [
          <xref ref-type="bibr" rid="ref1">5</xref>
          ] A. Cascallar-Fuentes, A. Ramos-Soto, A. Bugarín,
a la hora de describir series temporales se utiliza un tipo Adapting SimpleNLG to Galician language, in:
Prode relato muy habitual, donde se describe una valoración ceedings of the 11th International Conference on
Nageneral de una situación incluyendo matices de intensi- tural Language Generation, Association for
Compuifcación y excepción. En el modelo que hemos definido tational Linguistics, 2018, pp. 67–72. URL: https:
hemos seguido esta estructura, de modo que, para reutili- //doi.org/10.18653/v1/w18-6507. doi:10.18653/
zar ICA2TEXT con otros tipos de datos, debería adaptarse v1/w18-6507.
la fase de preprocesado de los datos y las tareas realizadas [6] H. P. Grice, Logic and conversation, in: Speech acts,
dentro de la fase de determinación de contenido. Por otro Brill, 1975, pp. 41–58.
lado, en caso de que los requisitos del lenguaje sean muy
diferentes, habría que adaptar todas la fases del diseño en
gran medida.
        </p>
        <p>Los resultados de la validación realizada por expertos
en la materia han sido muy satisfactorios. Como
consecuencia, actualmente está siendo sometido a una fase final
de pruebas y se desplegará como servicio público en la
web oficial de MeteoGalicia.</p>
        <p>Como trabajo actual y futuro, estamos aplicando
nuestro modelo al diseño de nuevos sistemas D2T en otros
ámbitos, como la notificación automática de series
temporales en el ámbito de la sanidad electrónica.</p>
      </sec>
    </sec>
    <sec id="sec-5">
      <title>Agradecimientos</title>
    </sec>
  </body>
  <back>
    <ref-list>
      <ref id="ref1">
        <mixed-citation>5. Discusión y conclusiones</mixed-citation>
      </ref>
    </ref-list>
  </back>
</article>