=Paper= {{Paper |id=Vol-1961/paper04 |storemode=property |title= Estudio de un enfoque híbrido para la generación del lenguaje natural (Study of a hybrid approach for natural language generation) |pdfUrl=https://ceur-ws.org/Vol-1961/paper04.pdf |volume=Vol-1961 |authors=Cristina Barros }} == Estudio de un enfoque híbrido para la generación del lenguaje natural (Study of a hybrid approach for natural language generation) == https://ceur-ws.org/Vol-1961/paper04.pdf
Estudio de un enfoque hı́brido para la Generación del Lenguaje
                            Natural
         Study of a hybrid approach for Natural Language Generation
                                   Cristina Barros
                  Departamento de Lenguajes y Sistemas Informáticos
                                Universidad de Alicante
           Carretera de San Vicente del Raspeig s/n - 03690 Alicante (España)
                                   cbarros@dlsi.ua.es

      Resumen: Este proyecto de tesis plantea una aproximación hı́brida para la genera-
      ción del lenguaje natural, la cual permitirá mejorar la calidad del texto producido,
      favoreciendo la independencia del dominio, del género textual y de la aplicación
      final donde se utilice. Con el fin de lograr este objetivo, se ha implementado un
      enfoque flexible de generación centrado en la fase de realización, el cual, apoyándose
      en conocimientos estadı́sticos y en lexicones, permite generar textos para diferentes
      dominios e idiomas guiados por la entrada.
      Palabras clave: Generación del lenguaje natural, “caracterı́stica semilla”, modelos
      de lenguaje factorizados, realización, aproximación hı́brida
      Abstract: The main objective of this thesis is to propose a hybrid natural language
      generation approach which will improve the quality of the produced text, encoura-
      ging the independence of domain, text type and application. In order to achieve this
      objective, we present a flexible natural language generation approach focused on the
      surface realisation stage, which, based on statistical knowledge and lexicons, allows
      the generation of text for different domains and languages guided by the system
      input.
      Keywords: Natural language generation, seed feature, factored language models,
      surface realisation, hybrid approach
1   Motivación                                      pudiendo generar texto, a partir de datos ob-
Dada la necesidad existente para facilitar la        tenidos mediante sensores, que se adecuen a
comunicación y la interacción hombre-máqui-       distintos registros dependiendo del perfil del
na (Jacko, 2012), las Tecnologı́as del Lengua-       usuario.
je Humano, encargadas de procesar el lengua-             Además, también se han diseñado siste-
je humano de forma automática, tienen un            mas de GLN como herramienta de ayuda pa-
papel clave. De entre todas las subdisciplinas       ra la comunicación de personas con algún ti-
pertenecientes a las TLH, el área de la Gene-       po de discapacidad o problemas de compren-
ración del Lenguaje Natural (GLN) es capaz          sión lectora (Reiter et al., 2009; Ferres et al.,
de producir lenguaje a partir de entradas no         2006), ası́ como también pueden incorporar
lingüı́sticas.                                      ténicas para que personas cuasi analfabetas
    Gracias a las caracterı́sticas que ofrece el     puedan leer (Williams and Reiter, 2008).
área de la GLN, esta puede emplearse en
distintos ámbitos, como en la meteorologı́a
                                                     2    Antecedentes y trabajos
(Goldberg, Driedger, and Kittredge, 1994;                 relacionados
Reiter et al., 2005), donde a partir de da-          La tarea de la GLN, a grandes rasgos, consis-
tos numéricos procedentes de sensores y de          te en producir de forma automática estruc-
sistemas de simulación, que representan dis-        turas correctas del lenguaje natural a partir
tintas magnitudes como la temperatura, la            de una representación de la información (Co-
velocidad del viento o el nivel de precipita-        le et al., 1997), ya sea en texto o en forma
ciones de un determinado lugar, se puede ge-         de algún tipo de dato, permitiendo ası́ que se
nerar un informe explicativo. Asimismo, se           proporcione a los usuarios nueva información
han empleado este tipo de ténicas en medici-        inferida.
na (Gatt et al., 2009; Acharya et al., 2016),           Esta tarea se ha dividido comúnmente en
varias etapas diferenciadas: la macro planifi-       terı́stica semilla” puede ser vista como un ob-
cación, la micro planificación y la realización   jeto abstracto (un fonema, una palabra, un
(Reiter and Dale, 2000), siendo el objetivo de       sentimiento, etc.) encargado de guiar el pro-
estas determinar la información contenida en        ceso de generación con respecto al contenido
el nuevo texto a generar (macro planificación)      del texto generado. Por tanto, guiará la ge-
y cómo queremos representar dicha informa-          neración en relación con su vocabulario o el
ción en un nuevo texto (micro planificación y      tipo de palabras que deberá contener el nuevo
realización).                                       texto generado, aportando ası́ la flexibilidad
    Tradicionalmente una de las limitaciones         necesaria al enfoque para poder adaptar con
de los sistemas de GLN es que se han di-             facilidad la generación de textos independien-
señado para dominios muy concretos y para           temente del dominio e idioma. En la Figura
un fin determinado, siendo el desarrollo de          1 se puede ver un esquema general del en-
enfoques de dominio abierto y flexibles un re-       foque de generación que se describirá en las
to para la comunidad investigadora.                  próximas lı́neas.
    Actualmente, uno de los enfoques más re-
cientes para abrodar la tarea de la GLN en
los últimos años es la generación emplean-
do técnicas estadı́sticas (Bohnet, Mille, and
Wanner, 2011; Wan et al., 2009; Lemon, Ja-
narthanam, and Rieser, 2012), cuya idea sub-
yaciente se basa en analizar y calcular la pro-
babilidad de que ciertas palabras aparezcan
juntas. A partir de este tipo de probabilida-
des se puede realizar un estudio de la forma-
                                                     Figura 1: Diagrama del enfoque de generación
ción de una frase a partir de un conjunto de        propuesto en el que se generan frases flexionadas
palabras iniciales. Junto a este tipo de enfo-       guiadas por la “caracterı́stica semilla” de entra-
ques estadı́sticos, existen otros enfoques ba-       da.
sados en el uso de conocimiento, los cuales
recurren a teorı́as lingüı́sticas, como puede           En este enfoque se ha estudiado la apli-
ser la Teorı́a de la Estructura Retórica del        cación de técnicas estadı́sticas para la gene-
discurso (Mann and Thompson, 1988) o la              ración, las cuales, en conjunción con infor-
Teorı́a sentido-texto de Mel’čuk (Žolkovskij       mación obtenida de diversas fuentes (e.g. le-
and Mel’čuk, 1965), para generar un texto           xicones, herramientas, etc.) nos permite una
dado.                                                generación flexible. En este caso, se ha pro-
                                                     bado el método empleando modelos de len-
3   Propuesta de investigación                      guaje factorizados (FLM: Factored Langua-
La hipótesis de partida de esta investiga-          ge Models), que son una extensión de los
ción es que la aplicación de una aproximación     modelos de lenguaje introducidos en (Bilmes
hı́brida para la GLN permitirá incrementar          and Kirchhoff, 2003), donde una palabra es
la calidad del lenguaje producido, favorecien-       vista como un vector de k factores tal que
do su independencia del dominio, del género         wt ≡ {ft1 , ft2 , . . . , ftK }. Estos factores pueden
textual y de la aplicación final que lo utili-      ser cualquier cosa, incuyendo lemas, etiquetas
ce, siendo la implementación de un enfoque          gramaticales, o cualquier otra caracterı́stica
de generación hı́brido el objetivo final de la      léxica, sintáctica o semántica. Una vez que se
tesis.                                               selecciona un conjunto de factores, el objeti-
                                                     vo principal de los FLM es crear un modelo
4   Metodologı́a y experimentos                      estadı́stico P (f |f1 , . . . , fN ) donde la predic-
Con el objetivo de lograr una aproximación          ción de una caracterı́stica f esté basada en
hı́brida que favorezca la independencia del          sus N padres {f1 , . . . , fN }. Estos FLM se em-
dominio, género textual y aplicación, se ha        plean para generar las oraciones, priorizando
implementado un método flexible centrado            la selección de palabras que esten relaciona-
en la fase de realización de la GLN cuya            das con la “caracterı́stica semilla” deseada
novedad, con respecto al estado de la cues-          para la generación.
tión radica en que en la entrada al sistema             Dependiendo de los factores empleados
es una “caracterı́stica semilla”. Esta “carac-       para la generación, el texto generado puede
no contener elementos flexionados, siendo la            viduales para cada una de las caracterı́sti-
flexión automática de frases otro punto clave         cas con un valor de flexión potencial. Se usó
para lograr el objetivo marcado. En este ca-            la implementación de WEKA (Frank, Hall,
so, se ha implementado un módulo de flexión           and Witten, 2016) del algoritmo Random Fo-
de palabras para diferentes idiomas, español           rest para entrenar los modelos de las carac-
e inglés. En el caso del inglés, la flexión se       terı́sticas stemC3 y stemC2. Para entrenar
realiza con reglas escritas a mano dado que             los modelos de las caracterı́sticas suff1, suff2
las flexiones en este idioma tienen muy po-             y stemC1 se empleó la implementación del
cas variantes. Sin embargo, debibo a la com-            algoritmo Random Tree. Con estos modelos
plejidad que entraña la flexión en lenguajes          entrenados se pueden predecir todas las po-
morfológicamente ricos como es en este caso            sibles felxiones de un verbo dado su infini-
el español, se ha realizado la flexión de las         tivo. Para llevar a cabo esta tarea, primero
frases empleando técnicas de aprendizaje au-           se analiza el infinitivo del verbo para poder
tomático en el caso de los verbos, mientras            extraer las caracterı́sticas necesarias para la
que, para el resto de palabras se han emplea-           flexión, y entonces se predice la flexión de ca-
do reglas escritas a mano. Especı́ficamente,            da caracterı́stica usando los modelos entre-
para el aprendizaje de la flexión de verbos es-        nados. Finalmente, las flexiones predichas se
pañoles, en una primera instancia, se elaboró         sustituyen en el infinitivo del verbo por las
un conjunto de datos que contenı́a todas las            caracterı́sticas previamente identificadas, lo
reglas necesarias para poder realizar la fle-           que conduce a una reconstrucción del infini-
xión de todos los verbos independientemente            tivo en la flexión deseada, como se muestra
de su conjugación y del tipo de verbo que sea          en la Figura 3.
(regular e irregular). Este conjunto de datos
fue creado consultando la Real Academia Es-
pañola1 y la Enciclopedia Libre Universal en
Español2 .
    El conjunto de datos está compuesto por
las siguientes caracterı́sticas: (1) ending, (2)
ending stem, (3) penSyl, (4) person, (5) num-
ber, (6) tense, (7) mood, (8) suff1, (9) suff2,
(10) stemC1, (11) stemC2, (12) stemC3.
    Se ha considerado que un verbo español se
puede dividir en tres partes: (1) ending (que           Figura 3: Reconstrucción del verbo “elegir” con
hace referencia a la conjugación); (2) ending          las caracterı́sticas predichas por los modelos.
stem (i.e. la consonante más cercana a la ca-
racterı́stica ending); and (3) penSyl (i.e. la              Este enfoque contribuye al estado de la
penúltima sı́laba del verbo que puede estar            cuestión en lo siguiente: se presenta un méto-
formada por la sı́laba entera o por su vocal            do flexible capaz de generar lenguaje que es
dominante), como se muestra en la Figura 2,             fácilmente adaptable a diferentes dominios e
siendo estas partes las que pueden variar en            idiomas; se presenta un módulo de flexión efi-
la flexión del verbo.                                  ciente, para diversos idiomas, que emplea re-
                                                        glas escritas a la vez que es capaz de predecir
                                                        la flexión de palabras que no se adecuen a las
                                                        reglas, para el caso de los verbos españoles.

                                                        4.1    Progreso de la investigación
                                                          Para validar el enfoque propuesto se han rea-
Figura 2: División del verbo empezar y su flexión       lizado experimentos con respecto a la aplica-
para la primera persona del singular del presente         ción de métodos estadı́sticos ası́ como tam-
de subjuntivo.                                            bién experimentos para validar el módulo de
                                                          flexión.
   Se entrenó un conjunto de modelos indi-                   Con respecto al empleo de los FLM, se
  1
    http://www.rae.es/diccionario-panhispanico-de-        han    escogido varios factores con informa-
dudas/apendices/modelos-de-conjugacion-verbal             ción sintáctica y semántica (incluyendo pala-
  2
    http://enciclopedia.us.es/index.php/Categorı́a:Verbos bras, lemas, etiquetas gramaticales (POS tag:
Part-of-Speech tag) y synsets3 ) para entrenar       distintas: i) dejando la flexión del verbo en
varios modelos FLM y evaluar las frases ge-          un tiempo verbal fijo para todas las frases y
neradas atendiendo a diferentes criterios. Se        ii) flexionando cada frase con un tiempo ver-
generaron un total de 20 frases por cada una         bal aleatorio entre todos los tiempos verbales
de las configuraciones de factores: i) Palabras      simples del español.
+ POS tag, ii) Lemas + POS tag y iii) Synset             En este caso se volvió a realizar una eva-
+ POS tag.                                           luación de usuario colaborativa con un total
   Para evaluar las frases generadas, realiza-       de 3 participantes como asesores. Para esta
mos una evaluación de usuario colaborativa          evaluación se empleó el mismo tipo de cues-
con un total de 12 participantes como aseso-         tionarios que en el experimento de los mode-
res. Para dicha evaluación se emplearon cues-       los estadı́sticos, utilizando los mismos crite-
tionarios con varias preguntas empleando una         rios de evaluación (coherencia y errores gra-
escala de Likert de 5 niveles. Estas preguntas       maticales) con una escala Likert de 5 nive-
estaban relacionadas con la coherencia y los         les. Se evaluaron tanto las frases sin flexionar
errores gramaticales contenidos en las frases        como las frases con los dos tipos de flexión
generadas. El término coherencia se refiere al      comentados.
nivel de significado de las frases, siendo 1 el
                                                         Tipo     de    Coherencia Errores
valor para frases con poco sentido y un 5 el             Flexión                  Gramatica-
valor para frases con un significado comple-                                       les
to. Por otra parte, el término de errores gra-          Sin flexión   2,65       2,73
maticales se refiere a la cantidad de errores            Fija           3,36       3,57
gramaticales que tienen las frases generadas,            Aleatoria      3,31       3,51
siendo 1 el valor usado cuando las frases con-
tienen un alto número de errores y 5 el valor       Tabla 2: Resultados de las medias de la escala de
empleado para denotar la ausencia de errores         Likert de 5 niveles con respecto a la coherencia
en ellas.                                            y errores gramaticales de las frases generadas fle-
                                                     xionadas.
 Factores             Coherencia Errores
                                 Gramati-               En la Tabla 2 se puede ver un resumen
                                 cales
                                                     de los resultados obtenidos, los cuales indi-
 Palabra+POS          2,68       2,83                can una gran mejorı́a en la calidad y expre-
 Lema+POS             3,08       3,00
                                                     sividad de las frases flexionadas con respecto
 Synset+POS           2,85       3,08
                                                     a su variante sin flexionar.
Tabla 1: Resultados de las medias de la escala
de Likert de 5 niveles con respecto a la coheren-    5     Cuestiones de investigación
cia y errores gramaticales de las frases generadas   Siendo la GLN un área de interés en el
estadı́sticamente empleando distintos factores en
                                                     Procesameinto del Lenguaje Natural, y dado
los FLM.
                                                     que estos resultados son prometedores, las si-
                                                     guientes cuestiones a investigar serı́an: i) la
    En la Tabla 1 se puede observar un resu-         investigación de métodos de evaluación au-
men de las medias obtenidas para los criterios       tomática para la GLN con el fin de discernir
mencionados. Estos resultados muestran que           la validez del texto generado, y ii) analizar di-
el empleo de factores más abstractos y gene-        versos métodos basados en conocimiento que
rales (los lemas y synsets en conjunción con        nos permitan mejorar el lenguaje generado.
el POS tag) a la hora de generar nos aporta
una mayor capacidad expresiva.                       Agradecimientos
    Por otro lado, en el caso del módulo de
flexión, debido a que la flexión de oraciones      Esta investigación ha sido financiada por la
en español es más compleja, se realizó un ex-     Generalitat Valenciana mediante el proyec-
perimento donde se generaron un total de 81          to “DIIM2.0: Desarrollo de técnicas Inteli-
frases en español empleando la configuración       gentes e Interactivas de Minerı́a y generación
de Lema + POS tag para el FLM. Las fra-              de información sobre la web 2.0” (PROME-
ses generadas se flexionaron, tal y como se          TEOII/2014/001), y por el Gobierno de Es-
mencionó en el apartado 4, de dos maneras           paña (MINECO) a través del proyecto “RES-
                                                     CATA: Representación canónica y transfor-
  3
      Conjuntos de sinónimos empleados en WordNet   maciones de los textos aplicado a las tec-
nologı́as del lenguaje humano” (TIN2015-         Goldberg, E., N. Driedger, and R. I. Kittred-
65100-R).                                          ge. 1994. Using natural-language proces-
                                                   sing to produce weather forecasts. IEEE
Bibliografı́a                                      Expert, 9(2):45–53.
Acharya, S., B. Di Eugenio, A. D Boyd,           Jacko, J. A. 2012. Human-Computer Inter-
  K. Dunn Lopez, R. Cameron, and                    action Handbook: Fundamentals, Evolving
  G. M Keenan. 2016. Generating sum-                Technologies, and Emerging Applications,
  maries of hospitalizations: A new metric          Third Edition. CRC Press, Inc., 3rd edi-
  to assess the complexity of medical terms         tion.
  and their definitions. In Proceedings of the
  9th International Natural Language Gene-       Lemon, O., S. Janarthanam, and V. Rieser.
  ration conference, pages 26–30. Associa-         2012. Statistical approaches to adapti-
  tion for Computational Linguistics.              ve natural language generation. In Data-
                                                   Driven Methods for Adaptive Spoken Dia-
Bilmes, J. A. and K. Kirchhoff. 2003. Facto-       logue Systems. Springer New York, pages
   red language models and generalized pa-         103–130.
   rallel backoff. In Proceedings of the 2003
   Conference of the North American Chap-        Mann, W. C. and S. A. Thompson. 1988.
   ter of the Association for Computational        Rhetorical structure theory: Toward a fun-
   Linguistics on Human Language Techno-           ctional theory of text organization. Text -
   logy: Companion Volume of the Procee-           Interdisciplinary Journal for the Study of
   dings of HLT-NAACL 2003–short Papers            Discourse, 8(3):243–281.
   - Volume 2, pages 4–6. Association for        Reiter, E. and R. Dale. 2000. Building Natu-
   Computational Linguistics.                      ral Language Generation Systems. Cam-
Bohnet, B., S. Mille, and L. Wanner. 2011.         bridge University Press.
  Statistical language generation from se-       Reiter, E., S. Sripada, J. Hunter, J. Yu,
  mantic structures. In Proceedings of the         and I. Davy. 2005. Choosing words
  International Conference on Dependency           in computer-generated weather forecasts.
  Linguistics.                                     Artificial Intelligence, 167(1):137–169.
Cole, R., J. Mariani, H. Uszkoreit, G. Ba-       Reiter, E., R. Turner, N. Alm, R. Black,
  tista Varile, A. Zaenen, A. Zampolli, and        M. Dempster, and A. Waller. 2009. Using
  V. Zue. 1997. Survey of the State of             NLG to help language-impaired users tell
  the Art in Human Language Technology.            stories and participate in social dialo-
  Cambridge University Press and Giardini.         gues. In Proceedings of the 12th European
Ferres, L., A. Parush, S. Roberts, and             Workshop on Natural Language Genera-
   G. Lindgaard. 2006. Helping people with         tion, pages 1–8. Association for Compu-
   visual impairments gain access to graphi-       tational Linguistics.
   cal information through natural language:     Wan, S., M. Dras, R. Dale, and C. Paris.
   The igraph system. In Proceedings of the        2009. Improving grammaticality in sta-
   10th International Conference on Compu-         tistical sentence generation: Introducing a
   ters Helping People with Special Needs, pa-     dependency spanning tree algorithm with
   ges 1122–1130. Springer.                        an argument satisfaction model. In Pro-
Frank, E., M. A. Hall, and I. H. Witten. 2016.     ceedings of the 12th Conference of the Eu-
   The WEKA Workbench. Online Appen-               ropean Chapter oof the ACL, pages 852–
   dix for ”Data Mining: Practical Machine         860. Association for Computational Lin-
   Learning Tools and Techniques”. Morgan          guistics.
   Kaufmann, 4 edition.                          Williams, S. and E. Reiter. 2008. Gene-
Gatt, A., F. Portet, E. Reiter, J. Hunter,         rating basic skills reports for low-skilled
  S. Mahamood, W. Moncur, and S. Sripa-            readers. Natural Language Engineering,
  da. 2009. From data to text in the neona-        14(04):495–525.
  tal intensive care unit: Using nlg techno-     Žolkovskij, A. and I. A. Mel’čuk. 1965.
  logy for decision support and information          O vozmožnom metode i instrumen-
  management. AI Commun., 22(3):153–                 tax semantičeskogo sinteza.      Naučno-
  186.                                               techničeskaja informacija, 5:23–28.