Estudio de un enfoque hı́brido para la Generación del Lenguaje Natural Study of a hybrid approach for Natural Language Generation Cristina Barros Departamento de Lenguajes y Sistemas Informáticos Universidad de Alicante Carretera de San Vicente del Raspeig s/n - 03690 Alicante (España) cbarros@dlsi.ua.es Resumen: Este proyecto de tesis plantea una aproximación hı́brida para la genera- ción del lenguaje natural, la cual permitirá mejorar la calidad del texto producido, favoreciendo la independencia del dominio, del género textual y de la aplicación final donde se utilice. Con el fin de lograr este objetivo, se ha implementado un enfoque flexible de generación centrado en la fase de realización, el cual, apoyándose en conocimientos estadı́sticos y en lexicones, permite generar textos para diferentes dominios e idiomas guiados por la entrada. Palabras clave: Generación del lenguaje natural, “caracterı́stica semilla”, modelos de lenguaje factorizados, realización, aproximación hı́brida Abstract: The main objective of this thesis is to propose a hybrid natural language generation approach which will improve the quality of the produced text, encoura- ging the independence of domain, text type and application. In order to achieve this objective, we present a flexible natural language generation approach focused on the surface realisation stage, which, based on statistical knowledge and lexicons, allows the generation of text for different domains and languages guided by the system input. Keywords: Natural language generation, seed feature, factored language models, surface realisation, hybrid approach 1 Motivación pudiendo generar texto, a partir de datos ob- Dada la necesidad existente para facilitar la tenidos mediante sensores, que se adecuen a comunicación y la interacción hombre-máqui- distintos registros dependiendo del perfil del na (Jacko, 2012), las Tecnologı́as del Lengua- usuario. je Humano, encargadas de procesar el lengua- Además, también se han diseñado siste- je humano de forma automática, tienen un mas de GLN como herramienta de ayuda pa- papel clave. De entre todas las subdisciplinas ra la comunicación de personas con algún ti- pertenecientes a las TLH, el área de la Gene- po de discapacidad o problemas de compren- ración del Lenguaje Natural (GLN) es capaz sión lectora (Reiter et al., 2009; Ferres et al., de producir lenguaje a partir de entradas no 2006), ası́ como también pueden incorporar lingüı́sticas. ténicas para que personas cuasi analfabetas Gracias a las caracterı́sticas que ofrece el puedan leer (Williams and Reiter, 2008). área de la GLN, esta puede emplearse en distintos ámbitos, como en la meteorologı́a 2 Antecedentes y trabajos (Goldberg, Driedger, and Kittredge, 1994; relacionados Reiter et al., 2005), donde a partir de da- La tarea de la GLN, a grandes rasgos, consis- tos numéricos procedentes de sensores y de te en producir de forma automática estruc- sistemas de simulación, que representan dis- turas correctas del lenguaje natural a partir tintas magnitudes como la temperatura, la de una representación de la información (Co- velocidad del viento o el nivel de precipita- le et al., 1997), ya sea en texto o en forma ciones de un determinado lugar, se puede ge- de algún tipo de dato, permitiendo ası́ que se nerar un informe explicativo. Asimismo, se proporcione a los usuarios nueva información han empleado este tipo de ténicas en medici- inferida. na (Gatt et al., 2009; Acharya et al., 2016), Esta tarea se ha dividido comúnmente en varias etapas diferenciadas: la macro planifi- terı́stica semilla” puede ser vista como un ob- cación, la micro planificación y la realización jeto abstracto (un fonema, una palabra, un (Reiter and Dale, 2000), siendo el objetivo de sentimiento, etc.) encargado de guiar el pro- estas determinar la información contenida en ceso de generación con respecto al contenido el nuevo texto a generar (macro planificación) del texto generado. Por tanto, guiará la ge- y cómo queremos representar dicha informa- neración en relación con su vocabulario o el ción en un nuevo texto (micro planificación y tipo de palabras que deberá contener el nuevo realización). texto generado, aportando ası́ la flexibilidad Tradicionalmente una de las limitaciones necesaria al enfoque para poder adaptar con de los sistemas de GLN es que se han di- facilidad la generación de textos independien- señado para dominios muy concretos y para temente del dominio e idioma. En la Figura un fin determinado, siendo el desarrollo de 1 se puede ver un esquema general del en- enfoques de dominio abierto y flexibles un re- foque de generación que se describirá en las to para la comunidad investigadora. próximas lı́neas. Actualmente, uno de los enfoques más re- cientes para abrodar la tarea de la GLN en los últimos años es la generación emplean- do técnicas estadı́sticas (Bohnet, Mille, and Wanner, 2011; Wan et al., 2009; Lemon, Ja- narthanam, and Rieser, 2012), cuya idea sub- yaciente se basa en analizar y calcular la pro- babilidad de que ciertas palabras aparezcan juntas. A partir de este tipo de probabilida- des se puede realizar un estudio de la forma- Figura 1: Diagrama del enfoque de generación ción de una frase a partir de un conjunto de propuesto en el que se generan frases flexionadas palabras iniciales. Junto a este tipo de enfo- guiadas por la “caracterı́stica semilla” de entra- ques estadı́sticos, existen otros enfoques ba- da. sados en el uso de conocimiento, los cuales recurren a teorı́as lingüı́sticas, como puede En este enfoque se ha estudiado la apli- ser la Teorı́a de la Estructura Retórica del cación de técnicas estadı́sticas para la gene- discurso (Mann and Thompson, 1988) o la ración, las cuales, en conjunción con infor- Teorı́a sentido-texto de Mel’čuk (Žolkovskij mación obtenida de diversas fuentes (e.g. le- and Mel’čuk, 1965), para generar un texto xicones, herramientas, etc.) nos permite una dado. generación flexible. En este caso, se ha pro- bado el método empleando modelos de len- 3 Propuesta de investigación guaje factorizados (FLM: Factored Langua- La hipótesis de partida de esta investiga- ge Models), que son una extensión de los ción es que la aplicación de una aproximación modelos de lenguaje introducidos en (Bilmes hı́brida para la GLN permitirá incrementar and Kirchhoff, 2003), donde una palabra es la calidad del lenguaje producido, favorecien- vista como un vector de k factores tal que do su independencia del dominio, del género wt ≡ {ft1 , ft2 , . . . , ftK }. Estos factores pueden textual y de la aplicación final que lo utili- ser cualquier cosa, incuyendo lemas, etiquetas ce, siendo la implementación de un enfoque gramaticales, o cualquier otra caracterı́stica de generación hı́brido el objetivo final de la léxica, sintáctica o semántica. Una vez que se tesis. selecciona un conjunto de factores, el objeti- vo principal de los FLM es crear un modelo 4 Metodologı́a y experimentos estadı́stico P (f |f1 , . . . , fN ) donde la predic- Con el objetivo de lograr una aproximación ción de una caracterı́stica f esté basada en hı́brida que favorezca la independencia del sus N padres {f1 , . . . , fN }. Estos FLM se em- dominio, género textual y aplicación, se ha plean para generar las oraciones, priorizando implementado un método flexible centrado la selección de palabras que esten relaciona- en la fase de realización de la GLN cuya das con la “caracterı́stica semilla” deseada novedad, con respecto al estado de la cues- para la generación. tión radica en que en la entrada al sistema Dependiendo de los factores empleados es una “caracterı́stica semilla”. Esta “carac- para la generación, el texto generado puede no contener elementos flexionados, siendo la viduales para cada una de las caracterı́sti- flexión automática de frases otro punto clave cas con un valor de flexión potencial. Se usó para lograr el objetivo marcado. En este ca- la implementación de WEKA (Frank, Hall, so, se ha implementado un módulo de flexión and Witten, 2016) del algoritmo Random Fo- de palabras para diferentes idiomas, español rest para entrenar los modelos de las carac- e inglés. En el caso del inglés, la flexión se terı́sticas stemC3 y stemC2. Para entrenar realiza con reglas escritas a mano dado que los modelos de las caracterı́sticas suff1, suff2 las flexiones en este idioma tienen muy po- y stemC1 se empleó la implementación del cas variantes. Sin embargo, debibo a la com- algoritmo Random Tree. Con estos modelos plejidad que entraña la flexión en lenguajes entrenados se pueden predecir todas las po- morfológicamente ricos como es en este caso sibles felxiones de un verbo dado su infini- el español, se ha realizado la flexión de las tivo. Para llevar a cabo esta tarea, primero frases empleando técnicas de aprendizaje au- se analiza el infinitivo del verbo para poder tomático en el caso de los verbos, mientras extraer las caracterı́sticas necesarias para la que, para el resto de palabras se han emplea- flexión, y entonces se predice la flexión de ca- do reglas escritas a mano. Especı́ficamente, da caracterı́stica usando los modelos entre- para el aprendizaje de la flexión de verbos es- nados. Finalmente, las flexiones predichas se pañoles, en una primera instancia, se elaboró sustituyen en el infinitivo del verbo por las un conjunto de datos que contenı́a todas las caracterı́sticas previamente identificadas, lo reglas necesarias para poder realizar la fle- que conduce a una reconstrucción del infini- xión de todos los verbos independientemente tivo en la flexión deseada, como se muestra de su conjugación y del tipo de verbo que sea en la Figura 3. (regular e irregular). Este conjunto de datos fue creado consultando la Real Academia Es- pañola1 y la Enciclopedia Libre Universal en Español2 . El conjunto de datos está compuesto por las siguientes caracterı́sticas: (1) ending, (2) ending stem, (3) penSyl, (4) person, (5) num- ber, (6) tense, (7) mood, (8) suff1, (9) suff2, (10) stemC1, (11) stemC2, (12) stemC3. Se ha considerado que un verbo español se puede dividir en tres partes: (1) ending (que Figura 3: Reconstrucción del verbo “elegir” con hace referencia a la conjugación); (2) ending las caracterı́sticas predichas por los modelos. stem (i.e. la consonante más cercana a la ca- racterı́stica ending); and (3) penSyl (i.e. la Este enfoque contribuye al estado de la penúltima sı́laba del verbo que puede estar cuestión en lo siguiente: se presenta un méto- formada por la sı́laba entera o por su vocal do flexible capaz de generar lenguaje que es dominante), como se muestra en la Figura 2, fácilmente adaptable a diferentes dominios e siendo estas partes las que pueden variar en idiomas; se presenta un módulo de flexión efi- la flexión del verbo. ciente, para diversos idiomas, que emplea re- glas escritas a la vez que es capaz de predecir la flexión de palabras que no se adecuen a las reglas, para el caso de los verbos españoles. 4.1 Progreso de la investigación Para validar el enfoque propuesto se han rea- Figura 2: División del verbo empezar y su flexión lizado experimentos con respecto a la aplica- para la primera persona del singular del presente ción de métodos estadı́sticos ası́ como tam- de subjuntivo. bién experimentos para validar el módulo de flexión. Se entrenó un conjunto de modelos indi- Con respecto al empleo de los FLM, se 1 http://www.rae.es/diccionario-panhispanico-de- han escogido varios factores con informa- dudas/apendices/modelos-de-conjugacion-verbal ción sintáctica y semántica (incluyendo pala- 2 http://enciclopedia.us.es/index.php/Categorı́a:Verbos bras, lemas, etiquetas gramaticales (POS tag: Part-of-Speech tag) y synsets3 ) para entrenar distintas: i) dejando la flexión del verbo en varios modelos FLM y evaluar las frases ge- un tiempo verbal fijo para todas las frases y neradas atendiendo a diferentes criterios. Se ii) flexionando cada frase con un tiempo ver- generaron un total de 20 frases por cada una bal aleatorio entre todos los tiempos verbales de las configuraciones de factores: i) Palabras simples del español. + POS tag, ii) Lemas + POS tag y iii) Synset En este caso se volvió a realizar una eva- + POS tag. luación de usuario colaborativa con un total Para evaluar las frases generadas, realiza- de 3 participantes como asesores. Para esta mos una evaluación de usuario colaborativa evaluación se empleó el mismo tipo de cues- con un total de 12 participantes como aseso- tionarios que en el experimento de los mode- res. Para dicha evaluación se emplearon cues- los estadı́sticos, utilizando los mismos crite- tionarios con varias preguntas empleando una rios de evaluación (coherencia y errores gra- escala de Likert de 5 niveles. Estas preguntas maticales) con una escala Likert de 5 nive- estaban relacionadas con la coherencia y los les. Se evaluaron tanto las frases sin flexionar errores gramaticales contenidos en las frases como las frases con los dos tipos de flexión generadas. El término coherencia se refiere al comentados. nivel de significado de las frases, siendo 1 el Tipo de Coherencia Errores valor para frases con poco sentido y un 5 el Flexión Gramatica- valor para frases con un significado comple- les to. Por otra parte, el término de errores gra- Sin flexión 2,65 2,73 maticales se refiere a la cantidad de errores Fija 3,36 3,57 gramaticales que tienen las frases generadas, Aleatoria 3,31 3,51 siendo 1 el valor usado cuando las frases con- tienen un alto número de errores y 5 el valor Tabla 2: Resultados de las medias de la escala de empleado para denotar la ausencia de errores Likert de 5 niveles con respecto a la coherencia en ellas. y errores gramaticales de las frases generadas fle- xionadas. Factores Coherencia Errores Gramati- En la Tabla 2 se puede ver un resumen cales de los resultados obtenidos, los cuales indi- Palabra+POS 2,68 2,83 can una gran mejorı́a en la calidad y expre- Lema+POS 3,08 3,00 sividad de las frases flexionadas con respecto Synset+POS 2,85 3,08 a su variante sin flexionar. Tabla 1: Resultados de las medias de la escala de Likert de 5 niveles con respecto a la coheren- 5 Cuestiones de investigación cia y errores gramaticales de las frases generadas Siendo la GLN un área de interés en el estadı́sticamente empleando distintos factores en Procesameinto del Lenguaje Natural, y dado los FLM. que estos resultados son prometedores, las si- guientes cuestiones a investigar serı́an: i) la En la Tabla 1 se puede observar un resu- investigación de métodos de evaluación au- men de las medias obtenidas para los criterios tomática para la GLN con el fin de discernir mencionados. Estos resultados muestran que la validez del texto generado, y ii) analizar di- el empleo de factores más abstractos y gene- versos métodos basados en conocimiento que rales (los lemas y synsets en conjunción con nos permitan mejorar el lenguaje generado. el POS tag) a la hora de generar nos aporta una mayor capacidad expresiva. Agradecimientos Por otro lado, en el caso del módulo de flexión, debido a que la flexión de oraciones Esta investigación ha sido financiada por la en español es más compleja, se realizó un ex- Generalitat Valenciana mediante el proyec- perimento donde se generaron un total de 81 to “DIIM2.0: Desarrollo de técnicas Inteli- frases en español empleando la configuración gentes e Interactivas de Minerı́a y generación de Lema + POS tag para el FLM. Las fra- de información sobre la web 2.0” (PROME- ses generadas se flexionaron, tal y como se TEOII/2014/001), y por el Gobierno de Es- mencionó en el apartado 4, de dos maneras paña (MINECO) a través del proyecto “RES- CATA: Representación canónica y transfor- 3 Conjuntos de sinónimos empleados en WordNet maciones de los textos aplicado a las tec- nologı́as del lenguaje humano” (TIN2015- Goldberg, E., N. Driedger, and R. I. Kittred- 65100-R). ge. 1994. Using natural-language proces- sing to produce weather forecasts. IEEE Bibliografı́a Expert, 9(2):45–53. Acharya, S., B. Di Eugenio, A. D Boyd, Jacko, J. A. 2012. Human-Computer Inter- K. Dunn Lopez, R. Cameron, and action Handbook: Fundamentals, Evolving G. M Keenan. 2016. Generating sum- Technologies, and Emerging Applications, maries of hospitalizations: A new metric Third Edition. CRC Press, Inc., 3rd edi- to assess the complexity of medical terms tion. and their definitions. In Proceedings of the 9th International Natural Language Gene- Lemon, O., S. Janarthanam, and V. Rieser. ration conference, pages 26–30. Associa- 2012. Statistical approaches to adapti- tion for Computational Linguistics. ve natural language generation. In Data- Driven Methods for Adaptive Spoken Dia- Bilmes, J. A. and K. Kirchhoff. 2003. Facto- logue Systems. Springer New York, pages red language models and generalized pa- 103–130. rallel backoff. In Proceedings of the 2003 Conference of the North American Chap- Mann, W. C. and S. A. Thompson. 1988. ter of the Association for Computational Rhetorical structure theory: Toward a fun- Linguistics on Human Language Techno- ctional theory of text organization. Text - logy: Companion Volume of the Procee- Interdisciplinary Journal for the Study of dings of HLT-NAACL 2003–short Papers Discourse, 8(3):243–281. - Volume 2, pages 4–6. Association for Reiter, E. and R. Dale. 2000. Building Natu- Computational Linguistics. ral Language Generation Systems. Cam- Bohnet, B., S. Mille, and L. Wanner. 2011. bridge University Press. Statistical language generation from se- Reiter, E., S. Sripada, J. Hunter, J. Yu, mantic structures. In Proceedings of the and I. Davy. 2005. Choosing words International Conference on Dependency in computer-generated weather forecasts. Linguistics. Artificial Intelligence, 167(1):137–169. Cole, R., J. Mariani, H. Uszkoreit, G. Ba- Reiter, E., R. Turner, N. Alm, R. Black, tista Varile, A. Zaenen, A. Zampolli, and M. Dempster, and A. Waller. 2009. Using V. Zue. 1997. Survey of the State of NLG to help language-impaired users tell the Art in Human Language Technology. stories and participate in social dialo- Cambridge University Press and Giardini. gues. In Proceedings of the 12th European Ferres, L., A. Parush, S. Roberts, and Workshop on Natural Language Genera- G. Lindgaard. 2006. Helping people with tion, pages 1–8. Association for Compu- visual impairments gain access to graphi- tational Linguistics. cal information through natural language: Wan, S., M. Dras, R. Dale, and C. Paris. The igraph system. In Proceedings of the 2009. Improving grammaticality in sta- 10th International Conference on Compu- tistical sentence generation: Introducing a ters Helping People with Special Needs, pa- dependency spanning tree algorithm with ges 1122–1130. Springer. an argument satisfaction model. In Pro- Frank, E., M. A. Hall, and I. H. Witten. 2016. ceedings of the 12th Conference of the Eu- The WEKA Workbench. Online Appen- ropean Chapter oof the ACL, pages 852– dix for ”Data Mining: Practical Machine 860. Association for Computational Lin- Learning Tools and Techniques”. Morgan guistics. Kaufmann, 4 edition. Williams, S. and E. Reiter. 2008. Gene- Gatt, A., F. Portet, E. Reiter, J. Hunter, rating basic skills reports for low-skilled S. Mahamood, W. Moncur, and S. Sripa- readers. Natural Language Engineering, da. 2009. From data to text in the neona- 14(04):495–525. tal intensive care unit: Using nlg techno- Žolkovskij, A. and I. A. Mel’čuk. 1965. logy for decision support and information O vozmožnom metode i instrumen- management. AI Commun., 22(3):153– tax semantičeskogo sinteza. Naučno- 186. techničeskaja informacija, 5:23–28.