=Paper=
{{Paper
|id=Vol-1961/paper04
|storemode=property
|title=
                    Estudio de un enfoque híbrido para la generación del lenguaje natural 
                    (Study of a hybrid approach for natural language generation)
                
|pdfUrl=https://ceur-ws.org/Vol-1961/paper04.pdf
|volume=Vol-1961
|authors=Cristina Barros
}}
==
                    Estudio de un enfoque híbrido para la generación del lenguaje natural 
                    (Study of a hybrid approach for natural language generation)
                ==
<pdf width="1500px">https://ceur-ws.org/Vol-1961/paper04.pdf</pdf>
<pre>
Estudio de un enfoque hı́brido para la Generación del Lenguaje
                            Natural
         Study of a hybrid approach for Natural Language Generation
                                   Cristina Barros
                  Departamento de Lenguajes y Sistemas Informáticos
                                Universidad de Alicante
           Carretera de San Vicente del Raspeig s/n - 03690 Alicante (España)
                                   cbarros@dlsi.ua.es

      Resumen: Este proyecto de tesis plantea una aproximación hı́brida para la genera-
      ción del lenguaje natural, la cual permitirá mejorar la calidad del texto producido,
      favoreciendo la independencia del dominio, del género textual y de la aplicación
      final donde se utilice. Con el fin de lograr este objetivo, se ha implementado un
      enfoque flexible de generación centrado en la fase de realización, el cual, apoyándose
      en conocimientos estadı́sticos y en lexicones, permite generar textos para diferentes
      dominios e idiomas guiados por la entrada.
      Palabras clave: Generación del lenguaje natural, “caracterı́stica semilla”, modelos
      de lenguaje factorizados, realización, aproximación hı́brida
      Abstract: The main objective of this thesis is to propose a hybrid natural language
      generation approach which will improve the quality of the produced text, encoura-
      ging the independence of domain, text type and application. In order to achieve this
      objective, we present a flexible natural language generation approach focused on the
      surface realisation stage, which, based on statistical knowledge and lexicons, allows
      the generation of text for different domains and languages guided by the system
      input.
      Keywords: Natural language generation, seed feature, factored language models,
      surface realisation, hybrid approach
1   Motivación                                      pudiendo generar texto, a partir de datos ob-
Dada la necesidad existente para facilitar la        tenidos mediante sensores, que se adecuen a
comunicación y la interacción hombre-máqui-       distintos registros dependiendo del perfil del
na (Jacko, 2012), las Tecnologı́as del Lengua-       usuario.
je Humano, encargadas de procesar el lengua-             Además, también se han diseñado siste-
je humano de forma automática, tienen un            mas de GLN como herramienta de ayuda pa-
papel clave. De entre todas las subdisciplinas       ra la comunicación de personas con algún ti-
pertenecientes a las TLH, el área de la Gene-       po de discapacidad o problemas de compren-
ración del Lenguaje Natural (GLN) es capaz          sión lectora (Reiter et al., 2009; Ferres et al.,
de producir lenguaje a partir de entradas no         2006), ası́ como también pueden incorporar
lingüı́sticas.                                      ténicas para que personas cuasi analfabetas
    Gracias a las caracterı́sticas que ofrece el     puedan leer (Williams and Reiter, 2008).
área de la GLN, esta puede emplearse en
distintos ámbitos, como en la meteorologı́a
                                                     2    Antecedentes y trabajos
(Goldberg, Driedger, and Kittredge, 1994;                 relacionados
Reiter et al., 2005), donde a partir de da-          La tarea de la GLN, a grandes rasgos, consis-
tos numéricos procedentes de sensores y de          te en producir de forma automática estruc-
sistemas de simulación, que representan dis-        turas correctas del lenguaje natural a partir
tintas magnitudes como la temperatura, la            de una representación de la información (Co-
velocidad del viento o el nivel de precipita-        le et al., 1997), ya sea en texto o en forma
ciones de un determinado lugar, se puede ge-         de algún tipo de dato, permitiendo ası́ que se
nerar un informe explicativo. Asimismo, se           proporcione a los usuarios nueva información
han empleado este tipo de ténicas en medici-        inferida.
na (Gatt et al., 2009; Acharya et al., 2016),           Esta tarea se ha dividido comúnmente en
varias etapas diferenciadas: la macro planifi-       terı́stica semilla” puede ser vista como un ob-
cación, la micro planificación y la realización   jeto abstracto (un fonema, una palabra, un
(Reiter and Dale, 2000), siendo el objetivo de       sentimiento, etc.) encargado de guiar el pro-
estas determinar la información contenida en        ceso de generación con respecto al contenido
el nuevo texto a generar (macro planificación)      del texto generado. Por tanto, guiará la ge-
y cómo queremos representar dicha informa-          neración en relación con su vocabulario o el
ción en un nuevo texto (micro planificación y      tipo de palabras que deberá contener el nuevo
realización).                                       texto generado, aportando ası́ la flexibilidad
    Tradicionalmente una de las limitaciones         necesaria al enfoque para poder adaptar con
de los sistemas de GLN es que se han di-             facilidad la generación de textos independien-
señado para dominios muy concretos y para           temente del dominio e idioma. En la Figura
un fin determinado, siendo el desarrollo de          1 se puede ver un esquema general del en-
enfoques de dominio abierto y flexibles un re-       foque de generación que se describirá en las
to para la comunidad investigadora.                  próximas lı́neas.
    Actualmente, uno de los enfoques más re-
cientes para abrodar la tarea de la GLN en
los últimos años es la generación emplean-
do técnicas estadı́sticas (Bohnet, Mille, and
Wanner, 2011; Wan et al., 2009; Lemon, Ja-
narthanam, and Rieser, 2012), cuya idea sub-
yaciente se basa en analizar y calcular la pro-
babilidad de que ciertas palabras aparezcan
juntas. A partir de este tipo de probabilida-
des se puede realizar un estudio de la forma-
                                                     Figura 1: Diagrama del enfoque de generación
ción de una frase a partir de un conjunto de        propuesto en el que se generan frases flexionadas
palabras iniciales. Junto a este tipo de enfo-       guiadas por la “caracterı́stica semilla” de entra-
ques estadı́sticos, existen otros enfoques ba-       da.
sados en el uso de conocimiento, los cuales
recurren a teorı́as lingüı́sticas, como puede           En este enfoque se ha estudiado la apli-
ser la Teorı́a de la Estructura Retórica del        cación de técnicas estadı́sticas para la gene-
discurso (Mann and Thompson, 1988) o la              ración, las cuales, en conjunción con infor-
Teorı́a sentido-texto de Mel’čuk (Žolkovskij       mación obtenida de diversas fuentes (e.g. le-
and Mel’čuk, 1965), para generar un texto           xicones, herramientas, etc.) nos permite una
dado.                                                generación flexible. En este caso, se ha pro-
                                                     bado el método empleando modelos de len-
3   Propuesta de investigación                      guaje factorizados (FLM: Factored Langua-
La hipótesis de partida de esta investiga-          ge Models), que son una extensión de los
ción es que la aplicación de una aproximación     modelos de lenguaje introducidos en (Bilmes
hı́brida para la GLN permitirá incrementar          and Kirchhoff, 2003), donde una palabra es
la calidad del lenguaje producido, favorecien-       vista como un vector de k factores tal que
do su independencia del dominio, del género         wt ≡ {ft1 , ft2 , . . . , ftK }. Estos factores pueden
textual y de la aplicación final que lo utili-      ser cualquier cosa, incuyendo lemas, etiquetas
ce, siendo la implementación de un enfoque          gramaticales, o cualquier otra caracterı́stica
de generación hı́brido el objetivo final de la      léxica, sintáctica o semántica. Una vez que se
tesis.                                               selecciona un conjunto de factores, el objeti-
                                                     vo principal de los FLM es crear un modelo
4   Metodologı́a y experimentos                      estadı́stico P (f |f1 , . . . , fN ) donde la predic-
Con el objetivo de lograr una aproximación          ción de una caracterı́stica f esté basada en
hı́brida que favorezca la independencia del          sus N padres {f1 , . . . , fN }. Estos FLM se em-
dominio, género textual y aplicación, se ha        plean para generar las oraciones, priorizando
implementado un método flexible centrado            la selección de palabras que esten relaciona-
en la fase de realización de la GLN cuya            das con la “caracterı́stica semilla” deseada
novedad, con respecto al estado de la cues-          para la generación.
tión radica en que en la entrada al sistema             Dependiendo de los factores empleados
es una “caracterı́stica semilla”. Esta “carac-       para la generación, el texto generado puede
no contener elementos flexionados, siendo la            viduales para cada una de las caracterı́sti-
flexión automática de frases otro punto clave         cas con un valor de flexión potencial. Se usó
para lograr el objetivo marcado. En este ca-            la implementación de WEKA (Frank, Hall,
so, se ha implementado un módulo de flexión           and Witten, 2016) del algoritmo Random Fo-
de palabras para diferentes idiomas, español           rest para entrenar los modelos de las carac-
e inglés. En el caso del inglés, la flexión se       terı́sticas stemC3 y stemC2. Para entrenar
realiza con reglas escritas a mano dado que             los modelos de las caracterı́sticas suff1, suff2
las flexiones en este idioma tienen muy po-             y stemC1 se empleó la implementación del
cas variantes. Sin embargo, debibo a la com-            algoritmo Random Tree. Con estos modelos
plejidad que entraña la flexión en lenguajes          entrenados se pueden predecir todas las po-
morfológicamente ricos como es en este caso            sibles felxiones de un verbo dado su infini-
el español, se ha realizado la flexión de las         tivo. Para llevar a cabo esta tarea, primero
frases empleando técnicas de aprendizaje au-           se analiza el infinitivo del verbo para poder
tomático en el caso de los verbos, mientras            extraer las caracterı́sticas necesarias para la
que, para el resto de palabras se han emplea-           flexión, y entonces se predice la flexión de ca-
do reglas escritas a mano. Especı́ficamente,            da caracterı́stica usando los modelos entre-
para el aprendizaje de la flexión de verbos es-        nados. Finalmente, las flexiones predichas se
pañoles, en una primera instancia, se elaboró         sustituyen en el infinitivo del verbo por las
un conjunto de datos que contenı́a todas las            caracterı́sticas previamente identificadas, lo
reglas necesarias para poder realizar la fle-           que conduce a una reconstrucción del infini-
xión de todos los verbos independientemente            tivo en la flexión deseada, como se muestra
de su conjugación y del tipo de verbo que sea          en la Figura 3.
(regular e irregular). Este conjunto de datos
fue creado consultando la Real Academia Es-
pañola1 y la Enciclopedia Libre Universal en
Español2 .
    El conjunto de datos está compuesto por
las siguientes caracterı́sticas: (1) ending, (2)
ending stem, (3) penSyl, (4) person, (5) num-
ber, (6) tense, (7) mood, (8) suff1, (9) suff2,
(10) stemC1, (11) stemC2, (12) stemC3.
    Se ha considerado que un verbo español se
puede dividir en tres partes: (1) ending (que           Figura 3: Reconstrucción del verbo “elegir” con
hace referencia a la conjugación); (2) ending          las caracterı́sticas predichas por los modelos.
stem (i.e. la consonante más cercana a la ca-
racterı́stica ending); and (3) penSyl (i.e. la              Este enfoque contribuye al estado de la
penúltima sı́laba del verbo que puede estar            cuestión en lo siguiente: se presenta un méto-
formada por la sı́laba entera o por su vocal            do flexible capaz de generar lenguaje que es
dominante), como se muestra en la Figura 2,             fácilmente adaptable a diferentes dominios e
siendo estas partes las que pueden variar en            idiomas; se presenta un módulo de flexión efi-
la flexión del verbo.                                  ciente, para diversos idiomas, que emplea re-
                                                        glas escritas a la vez que es capaz de predecir
                                                        la flexión de palabras que no se adecuen a las
                                                        reglas, para el caso de los verbos españoles.

                                                        4.1    Progreso de la investigación
                                                          Para validar el enfoque propuesto se han rea-
Figura 2: División del verbo empezar y su flexión       lizado experimentos con respecto a la aplica-
para la primera persona del singular del presente         ción de métodos estadı́sticos ası́ como tam-
de subjuntivo.                                            bién experimentos para validar el módulo de
                                                          flexión.
   Se entrenó un conjunto de modelos indi-                   Con respecto al empleo de los FLM, se
  1
    http://www.rae.es/diccionario-panhispanico-de-        han    escogido varios factores con informa-
dudas/apendices/modelos-de-conjugacion-verbal             ción sintáctica y semántica (incluyendo pala-
  2
    http://enciclopedia.us.es/index.php/Categorı́a:Verbos bras, lemas, etiquetas gramaticales (POS tag:
Part-of-Speech tag) y synsets3 ) para entrenar       distintas: i) dejando la flexión del verbo en
varios modelos FLM y evaluar las frases ge-          un tiempo verbal fijo para todas las frases y
neradas atendiendo a diferentes criterios. Se        ii) flexionando cada frase con un tiempo ver-
generaron un total de 20 frases por cada una         bal aleatorio entre todos los tiempos verbales
de las configuraciones de factores: i) Palabras      simples del español.
+ POS tag, ii) Lemas + POS tag y iii) Synset             En este caso se volvió a realizar una eva-
+ POS tag.                                           luación de usuario colaborativa con un total
   Para evaluar las frases generadas, realiza-       de 3 participantes como asesores. Para esta
mos una evaluación de usuario colaborativa          evaluación se empleó el mismo tipo de cues-
con un total de 12 participantes como aseso-         tionarios que en el experimento de los mode-
res. Para dicha evaluación se emplearon cues-       los estadı́sticos, utilizando los mismos crite-
tionarios con varias preguntas empleando una         rios de evaluación (coherencia y errores gra-
escala de Likert de 5 niveles. Estas preguntas       maticales) con una escala Likert de 5 nive-
estaban relacionadas con la coherencia y los         les. Se evaluaron tanto las frases sin flexionar
errores gramaticales contenidos en las frases        como las frases con los dos tipos de flexión
generadas. El término coherencia se refiere al      comentados.
nivel de significado de las frases, siendo 1 el
                                                         Tipo     de    Coherencia Errores
valor para frases con poco sentido y un 5 el             Flexión                  Gramatica-
valor para frases con un significado comple-                                       les
to. Por otra parte, el término de errores gra-          Sin flexión   2,65       2,73
maticales se refiere a la cantidad de errores            Fija           3,36       3,57
gramaticales que tienen las frases generadas,            Aleatoria      3,31       3,51
siendo 1 el valor usado cuando las frases con-
tienen un alto número de errores y 5 el valor       Tabla 2: Resultados de las medias de la escala de
empleado para denotar la ausencia de errores         Likert de 5 niveles con respecto a la coherencia
en ellas.                                            y errores gramaticales de las frases generadas fle-
                                                     xionadas.
 Factores             Coherencia Errores
                                 Gramati-               En la Tabla 2 se puede ver un resumen
                                 cales
                                                     de los resultados obtenidos, los cuales indi-
 Palabra+POS          2,68       2,83                can una gran mejorı́a en la calidad y expre-
 Lema+POS             3,08       3,00
                                                     sividad de las frases flexionadas con respecto
 Synset+POS           2,85       3,08
                                                     a su variante sin flexionar.
Tabla 1: Resultados de las medias de la escala
de Likert de 5 niveles con respecto a la coheren-    5     Cuestiones de investigación
cia y errores gramaticales de las frases generadas   Siendo la GLN un área de interés en el
estadı́sticamente empleando distintos factores en
                                                     Procesameinto del Lenguaje Natural, y dado
los FLM.
                                                     que estos resultados son prometedores, las si-
                                                     guientes cuestiones a investigar serı́an: i) la
    En la Tabla 1 se puede observar un resu-         investigación de métodos de evaluación au-
men de las medias obtenidas para los criterios       tomática para la GLN con el fin de discernir
mencionados. Estos resultados muestran que           la validez del texto generado, y ii) analizar di-
el empleo de factores más abstractos y gene-        versos métodos basados en conocimiento que
rales (los lemas y synsets en conjunción con        nos permitan mejorar el lenguaje generado.
el POS tag) a la hora de generar nos aporta
una mayor capacidad expresiva.                       Agradecimientos
    Por otro lado, en el caso del módulo de
flexión, debido a que la flexión de oraciones      Esta investigación ha sido financiada por la
en español es más compleja, se realizó un ex-     Generalitat Valenciana mediante el proyec-
perimento donde se generaron un total de 81          to “DIIM2.0: Desarrollo de técnicas Inteli-
frases en español empleando la configuración       gentes e Interactivas de Minerı́a y generación
de Lema + POS tag para el FLM. Las fra-              de información sobre la web 2.0” (PROME-
ses generadas se flexionaron, tal y como se          TEOII/2014/001), y por el Gobierno de Es-
mencionó en el apartado 4, de dos maneras           paña (MINECO) a través del proyecto “RES-
                                                     CATA: Representación canónica y transfor-
  3
      Conjuntos de sinónimos empleados en WordNet   maciones de los textos aplicado a las tec-
nologı́as del lenguaje humano” (TIN2015-         Goldberg, E., N. Driedger, and R. I. Kittred-
65100-R).                                          ge. 1994. Using natural-language proces-
                                                   sing to produce weather forecasts. IEEE
Bibliografı́a                                      Expert, 9(2):45–53.
Acharya, S., B. Di Eugenio, A. D Boyd,           Jacko, J. A. 2012. Human-Computer Inter-
  K. Dunn Lopez, R. Cameron, and                    action Handbook: Fundamentals, Evolving
  G. M Keenan. 2016. Generating sum-                Technologies, and Emerging Applications,
  maries of hospitalizations: A new metric          Third Edition. CRC Press, Inc., 3rd edi-
  to assess the complexity of medical terms         tion.
  and their definitions. In Proceedings of the
  9th International Natural Language Gene-       Lemon, O., S. Janarthanam, and V. Rieser.
  ration conference, pages 26–30. Associa-         2012. Statistical approaches to adapti-
  tion for Computational Linguistics.              ve natural language generation. In Data-
                                                   Driven Methods for Adaptive Spoken Dia-
Bilmes, J. A. and K. Kirchhoff. 2003. Facto-       logue Systems. Springer New York, pages
   red language models and generalized pa-         103–130.
   rallel backoff. In Proceedings of the 2003
   Conference of the North American Chap-        Mann, W. C. and S. A. Thompson. 1988.
   ter of the Association for Computational        Rhetorical structure theory: Toward a fun-
   Linguistics on Human Language Techno-           ctional theory of text organization. Text -
   logy: Companion Volume of the Procee-           Interdisciplinary Journal for the Study of
   dings of HLT-NAACL 2003–short Papers            Discourse, 8(3):243–281.
   - Volume 2, pages 4–6. Association for        Reiter, E. and R. Dale. 2000. Building Natu-
   Computational Linguistics.                      ral Language Generation Systems. Cam-
Bohnet, B., S. Mille, and L. Wanner. 2011.         bridge University Press.
  Statistical language generation from se-       Reiter, E., S. Sripada, J. Hunter, J. Yu,
  mantic structures. In Proceedings of the         and I. Davy. 2005. Choosing words
  International Conference on Dependency           in computer-generated weather forecasts.
  Linguistics.                                     Artificial Intelligence, 167(1):137–169.
Cole, R., J. Mariani, H. Uszkoreit, G. Ba-       Reiter, E., R. Turner, N. Alm, R. Black,
  tista Varile, A. Zaenen, A. Zampolli, and        M. Dempster, and A. Waller. 2009. Using
  V. Zue. 1997. Survey of the State of             NLG to help language-impaired users tell
  the Art in Human Language Technology.            stories and participate in social dialo-
  Cambridge University Press and Giardini.         gues. In Proceedings of the 12th European
Ferres, L., A. Parush, S. Roberts, and             Workshop on Natural Language Genera-
   G. Lindgaard. 2006. Helping people with         tion, pages 1–8. Association for Compu-
   visual impairments gain access to graphi-       tational Linguistics.
   cal information through natural language:     Wan, S., M. Dras, R. Dale, and C. Paris.
   The igraph system. In Proceedings of the        2009. Improving grammaticality in sta-
   10th International Conference on Compu-         tistical sentence generation: Introducing a
   ters Helping People with Special Needs, pa-     dependency spanning tree algorithm with
   ges 1122–1130. Springer.                        an argument satisfaction model. In Pro-
Frank, E., M. A. Hall, and I. H. Witten. 2016.     ceedings of the 12th Conference of the Eu-
   The WEKA Workbench. Online Appen-               ropean Chapter oof the ACL, pages 852–
   dix for ”Data Mining: Practical Machine         860. Association for Computational Lin-
   Learning Tools and Techniques”. Morgan          guistics.
   Kaufmann, 4 edition.                          Williams, S. and E. Reiter. 2008. Gene-
Gatt, A., F. Portet, E. Reiter, J. Hunter,         rating basic skills reports for low-skilled
  S. Mahamood, W. Moncur, and S. Sripa-            readers. Natural Language Engineering,
  da. 2009. From data to text in the neona-        14(04):495–525.
  tal intensive care unit: Using nlg techno-     Žolkovskij, A. and I. A. Mel’čuk. 1965.
  logy for decision support and information          O vozmožnom metode i instrumen-
  management. AI Commun., 22(3):153–                 tax semantičeskogo sinteza.      Naučno-
  186.                                               techničeskaja informacija, 5:23–28.

</pre>