-

Estudio de un enfoque h´ıbrido para la Generaci´on del Lenguaje Natural

Cristina Barros

cbarros@dlsi.ua.es 0 0 Departamento de Lenguajes y Sistemas Informa ́ticos Universidad de Alicante Carretera de San Vicente del Raspeig s/n - 03690 Alicante , Espan ̃a

The main objective of this thesis is to propose a hybrid natural language generation approach which will improve the quality of the produced text, encouraging the independence of domain, text type and application. In order to achieve this objective, we present a flexible natural language generation approach focused on the surface realisation stage, which, based on statistical knowledge and lexicons, allows the generation of text for different domains and languages guided by the system input.

Dada la necesidad existente para facilitar la comunicacio´n y la interaccio´n hombre-m´aquina (Jacko, 2012) , las Tecnolog´ıas del Lenguaje Humano, encargadas de procesar el lenguaje humano de forma autom´atica, tienen un papel clave. De entre todas las subdisciplinas pertenecientes a las TLH, el ´area de la Generacio´n del Lenguaje Natural (GLN) es capaz de producir lenguaje a partir de entradas no lingu¨´ısticas.

Gracias a las caracter´ısticas que ofrece el a´rea de la GLN, esta puede emplearse en distintos ´ambitos, como en la meteorolog´ıa (Goldberg, Driedger, and Kittredge, 1994; Reiter et al., 2005) , donde a partir de datos num´ericos procedentes de sensores y de sistemas de simulaci´on, que representan distintas magnitudes como la temperatura, la velocidad del viento o el nivel de precipitaciones de un determinado lugar, se puede generar un informe explicativo. Asimismo, se han empleado este tipo de t´enicas en medicina (Gatt et al., 2009; Acharya et al., 2016) , pudiendo generar texto, a partir de datos obtenidos mediante sensores, que se adecuen a distintos registros dependiendo del perfil del usuario.

Adema´s, tambi´en se han disen˜ado sistemas de GLN como herramienta de ayuda para la comunicacio´n de personas con algu´n tipo de discapacidad o problemas de comprensi´on lectora (Reiter et al., 2009; Ferres et al., 2006) , as´ı como tambi´en pueden incorporar t´enicas para que personas cuasi analfabetas puedan leer (Williams and Reiter, 2008) . 2

Antecedentes y trabajos relacionados

La tarea de la GLN, a grandes rasgos, consiste en producir de forma autom´atica estructuras correctas del lenguaje natural a partir de una representacio´n de la informacio´n (Cole et al., 1997) , ya sea en texto o en forma de algu´n tipo de dato, permitiendo as´ı que se proporcione a los usuarios nueva informacio´n inferida.

Esta tarea se ha dividido comu´nmente en varias etapas diferenciadas: la macro planificaci´on, la micro planificaci´on y la realizaci´on (Reiter and Dale, 2000) , siendo el objetivo de estas determinar la informacio´n contenida en el nuevo texto a generar (macro planificaci´on) y c´omo queremos representar dicha informacio´n en un nuevo texto (micro planificaci´on y realizaci´on).

Tradicionalmente una de las limitaciones de los sistemas de GLN es que se han disen˜ado para dominios muy concretos y para un fin determinado, siendo el desarrollo de enfoques de dominio abierto y flexibles un reto para la comunidad investigadora.

Actualmente, uno de los enfoques ma´s recientes para abrodar la tarea de la GLN en los u´ltimos an˜os es la generaci´on empleando t´ecnicas estad´ısticas (Bohnet, Mille, and Wanner, 2011; Wan et al., 2009; Lemon, Janarthanam, and Rieser, 2012) , cuya idea subyaciente se basa en analizar y calcular la probabilidad de que ciertas palabras aparezcan juntas. A partir de este tipo de probabilidades se puede realizar un estudio de la formacio´n de una frase a partir de un conjunto de palabras iniciales. Junto a este tipo de enfoques estad´ısticos, existen otros enfoques basados en el uso de conocimiento, los cuales recurren a teor´ıas lingu¨´ısticas, como puede ser la Teor´ıa de la Estructura Reto´rica del discurso (Mann and Thompson, 1988) o la Teor´ıa sentido-texto de Mel’ˇcuk (Zˇolkovskij and Mel’ˇcuk, 1965) , para generar un texto dado. 3

Propuesta de investigaci´on

La hipo´tesis de partida de esta investigacio´n es que la aplicaci´on de una aproximaci´on h´ıbrida para la GLN permitir´a incrementar la calidad del lenguaje producido, favoreciendo su independencia del dominio, del g´enero textual y de la aplicaci´on final que lo utilice, siendo la implementacio´n de un enfoque de generaci´on h´ıbrido el objetivo final de la tesis. 4

Metodolog´ıa y experimentos

Con el objetivo de lograr una aproximaci´on h´ıbrida que favorezca la independencia del dominio, g´enero textual y aplicaci´on, se ha implementado un m´etodo flexible centrado en la fase de realizaci´on de la GLN cuya novedad, con respecto al estado de la cuestio´n radica en que en la entrada al sistema es una “caracter´ıstica semilla”. Esta “caracter´ıstica semilla” puede ser vista como un objeto abstracto (un fonema, una palabra, un sentimiento, etc.) encargado de guiar el proceso de generaci´on con respecto al contenido del texto generado. Por tanto, guiar´a la generaci´on en relacio´n con su vocabulario o el tipo de palabras que deber´a contener el nuevo texto generado, aportando as´ı la flexibilidad necesaria al enfoque para poder adaptar con facilidad la generaci´on de textos independientemente del dominio e idioma. En la Figura 1 se puede ver un esquema general del enfoque de generaci´on que se describir´a en las pr´oximas l´ıneas.

Figura 1: Diagrama del enfoque de generaci´on propuesto en el que se generan frases flexionadas guiadas por la “caracter´ıstica semilla” de entrada.

En este enfoque se ha estudiado la aplicaci´on de t´ecnicas estad´ısticas para la generacio´n, las cuales, en conjuncio´n con informaci´on obtenida de diversas fuentes (e.g. lexicones, herramientas, etc.) nos permite una generaci´on flexible. En este caso, se ha probado el m´etodo empleando modelos de lenguaje factorizados (FLM: Factored Language Models), que son una extensio´n de los modelos de lenguaje introducidos en (Bilmes and Kirchhoff, 2003) , donde una palabra es vista como un vector de k factores tal que wt ≡ {ft1, ft2, . . . , ftK }. Estos factores pueden ser cualquier cosa, incuyendo lemas, etiquetas gramaticales, o cualquier otra caracter´ıstica l´exica, sint´actica o sema´ntica. Una vez que se selecciona un conjunto de factores, el objetivo principal de los FLM es crear un modelo estad´ıstico P (f |f1, . . . , fN ) donde la predicci´on de una caracter´ıstica f est´e basada en sus N padres {f1, . . . , fN }. Estos FLM se emplean para generar las oraciones, priorizando la seleccio´n de palabras que esten relacionadas con la “caracter´ıstica semilla” deseada para la generaci´on.

Dependiendo de los factores empleados para la generaci´on, el texto generado puede no contener elementos flexionados, siendo la flexi´on autom´atica de frases otro punto clave para lograr el objetivo marcado. En este caso, se ha implementado un mo´dulo de flexi´on de palabras para diferentes idiomas, espan˜ol e ingl´es. En el caso del ingl´es, la flexi´on se realiza con reglas escritas a mano dado que las flexiones en este idioma tienen muy pocas variantes. Sin embargo, debibo a la complejidad que entran˜a la flexi´on en lenguajes morfolo´gicamente ricos como es en este caso el espan˜ol, se ha realizado la flexi´on de las frases empleando t´ecnicas de aprendizaje automa´tico en el caso de los verbos, mientras que, para el resto de palabras se han empleado reglas escritas a mano. Espec´ıficamente, para el aprendizaje de la flexi´on de verbos espan˜oles, en una primera instancia, se elaboro´ un conjunto de datos que conten´ıa todas las reglas necesarias para poder realizar la flexio´n de todos los verbos independientemente de su conjugaci´on y del tipo de verbo que sea (regular e irregular). Este conjunto de datos fue creado consultando la Real Academia Espan˜ola1 y la Enciclopedia Libre Universal en Espan˜ol2.

El conjunto de datos est´a compuesto por las siguientes caracter´ısticas: (1) ending, (2) ending stem, (3) penSyl, (4) person, (5) number, (6) tense, (7) mood, (8) suff1, (9) suff2, (10) stemC1, (11) stemC2, (12) stemC3.

Se ha considerado que un verbo espan˜ol se puede dividir en tres partes: (1) ending (que hace referencia a la conjugaci´on); (2) ending stem (i.e. la consonante ma´s cercana a la caracter´ıstica ending ); and (3) penSyl (i.e. la penu´ltima s´ılaba del verbo que puede estar formada por la s´ılaba entera o por su vocal dominante), como se muestra en la Figura 2, siendo estas partes las que pueden variar en la flexi´on del verbo. viduales para cada una de las caracter´ısticas con un valor de flexi´on potencial. Se us´o la implementacio´n de WEKA (Frank, Hall, and Witten, 2016) del algoritmo Random Forest para entrenar los modelos de las caracter´ısticas stemC3 y stemC2. Para entrenar los modelos de las caracter´ısticas suff1, suff2 y stemC1 se emple´o la implementacio´n del algoritmo Random Tree. Con estos modelos entrenados se pueden predecir todas las posibles felxiones de un verbo dado su infinitivo. Para llevar a cabo esta tarea, primero se analiza el infinitivo del verbo para poder extraer las caracter´ısticas necesarias para la flexi´on, y entonces se predice la flexi´on de cada caracter´ıstica usando los modelos entrenados. Finalmente, las flexiones predichas se sustituyen en el infinitivo del verbo por las caracter´ısticas previamente identificadas, lo que conduce a una reconstrucci´on del infinitivo en la flexi´on deseada, como se muestra en la Figura 3.

Figura 3: Reconstrucci´on del verbo “elegir” con las caracter´ısticas predichas por los modelos.

Este enfoque contribuye al estado de la cuestio´n en lo siguiente: se presenta un m´etodo flexible capaz de generar lenguaje que es f´acilmente adaptable a diferentes dominios e idiomas; se presenta un mo´dulo de flexi´on eficiente, para diversos idiomas, que emplea reglas escritas a la vez que es capaz de predecir la flexi´on de palabras que no se adecuen a las reglas, para el caso de los verbos espan˜oles. 4.1

Progreso de la investigaci´on Para validar el enfoque propuesto se han reaFigura 2: Divisi´on del verbo empezar y su flexi´on lizado experimentos con respecto a la aplicapara la primera persona del singular del presente ci´on de m´etodos estad´ısticos as´ı como tamde subjuntivo. bi´en experimentos para validar el mo´dulo de flexi´on.

Se entreno´ un conjunto de modelos indi- Con respecto al empleo de los FLM, se 1http://www.rae.es/diccionario-panhispanico-de- han escogido varios factores con informadudas/apendices/modelos-de-conjugacion-verbal ci´on sint´actica y sema´ntica (incluyendo pala2http://enciclopedia.us.es/index.php/Categor´ıa:Verbos bras, lemas, etiquetas gramaticales (POS tag: Coherencia Errores

Gramaticales Part-of-Speech tag ) y synsets3) para entrenar varios modelos FLM y evaluar las frases generadas atendiendo a diferentes criterios. Se generaron un total de 20 frases por cada una de las configuraciones de factores: i) Palabras + POS tag, ii) Lemas + POS tag y iii) Synset + POS tag.

Para evaluar las frases generadas, realizamos una evaluaci´on de usuario colaborativa con un total de 12 participantes como asesores. Para dicha evaluaci´on se emplearon cuestionarios con varias preguntas empleando una escala de Likert de 5 niveles. Estas preguntas estaban relacionadas con la coherencia y los errores gramaticales contenidos en las frases generadas. El t´ermino coherencia se refiere al nivel de significado de las frases, siendo 1 el valor para frases con poco sentido y un 5 el valor para frases con un significado completo. Por otra parte, el t´ermino de errores gramaticales se refiere a la cantidad de errores gramaticales que tienen las frases generadas, siendo 1 el valor usado cuando las frases contienen un alto nu´mero de errores y 5 el valor empleado para denotar la ausencia de errores en ellas.

Factores Palabra+POS Lema+POS Synset+POS Tabla 1: Resultados de las medias de la escala de Likert de 5 niveles con respecto a la coherencia y errores gramaticales de las frases generadas estad´ısticamente empleando distintos factores en los FLM.

En la Tabla 1 se puede observar un resumen de las medias obtenidas para los criterios mencionados. Estos resultados muestran que el empleo de factores ma´s abstractos y generales (los lemas y synsets en conjuncio´n con el POS tag ) a la hora de generar nos aporta una mayor capacidad expresiva.

Por otro lado, en el caso del mo´dulo de flexi´on, debido a que la flexi´on de oraciones en espan˜ol es ma´s compleja, se realizo´ un experimento donde se generaron un total de 81 frases en espan˜ol empleando la configuraci´on de Lema + POS tag para el FLM. Las frases generadas se flexionaron, tal y como se menciono´ en el apartado 4, de dos maneras 3Conjuntos de sino´nimos empleados en WordNet distintas: i) dejando la flexi´on del verbo en un tiempo verbal fijo para todas las frases y ii) flexionando cada frase con un tiempo verbal aleatorio entre todos los tiempos verbales simples del espan˜ol.

En este caso se volvi´o a realizar una evaluaci´on de usuario colaborativa con un total de 3 participantes como asesores. Para esta evaluaci´on se emple´o el mismo tipo de cuestionarios que en el experimento de los modelos estad´ısticos, utilizando los mismos criterios de evaluaci´on (coherencia y errores gramaticales) con una escala Likert de 5 niveles. Se evaluaron tanto las frases sin flexionar como las frases con los dos tipos de flexi´on comentados.

Tipo Flexi´on

de Sin flexi´on Fija Aleatoria

Coherencia Errores

Gramaticales

En la Tabla 2 se puede ver un resumen de los resultados obtenidos, los cuales indican una gran mejor´ıa en la calidad y expresividad de las frases flexionadas con respecto a su variante sin flexionar. 5

Cuestiones de investigaci´on

Siendo la GLN un ´area de inter´es en el Procesameinto del Lenguaje Natural, y dado que estos resultados son prometedores, las siguientes cuestiones a investigar ser´ıan: i) la investigaci´on de m´etodos de evaluaci´on automa´tica para la GLN con el fin de discernir la validez del texto generado, y ii) analizar diversos m´etodos basados en conocimiento que nos permitan mejorar el lenguaje generado.

Agradecimientos

Esta investigaci´on ha sido financiada por la Generalitat Valenciana mediante el proyecto “DIIM2.0: Desarrollo de t´ecnicas Inteligentes e Interactivas de Miner´ıa y generaci´on de informacio´n sobre la web 2.0” (PROMETEOII/2014/001), y por el Gobierno de Espan˜a (MINECO) a trav´es del proyecto “RESCATA: Representacio´n can´onica y transformaciones de los textos aplicado a las tecnolog´ıas del lenguaje humano” (TIN201565100-R).

Acharya , S. ,

B. Di

Eugenio ,

A. D

Boyd ,

Dunn Lopez ,

Cameron , and

G. M

Keenan . 2016 . Generating summaries of hospitalizations: A new metric to assess the complexity of medical terms and their definitions . In Proceedings of the 9th International Natural Language Generation conference , pages 26 - 30 . Association for Computational Linguistics.

Bilmes , J. A. and

Kirchhoff . 2003 . Factored language models and generalized parallel backoff . In Proceedings of the 2003 Conference of the North American Chapter of the Association for Computational Linguistics on Human Language Technology: Companion Volume of the Proceedings of HLT-NAACL 2003-short Papers - Volume 2 , pages 4 - 6 . Association for Computational Linguistics.

Bohnet , B. , S. Mille, and

Wanner . 2011 . Statistical language generation from semantic structures . In Proceedings of the International Conference on Dependency Linguistics.

Cole , R. ,

Mariani ,

Uszkoreit ,

G. Batista

Varile ,

Zaenen ,

Zampolli , and

Zue . 1997 . Survey of the State of the Art in Human Language Technology . Cambridge University Press and Giardini.

Ferres , L. ,

Parush ,

Roberts , and

Lindgaard . 2006 . Helping people with visual impairments gain access to graphical information through natural language: The igraph system . In Proceedings of the 10th International Conference on Computers Helping People with Special Needs , pages 1122 - 1130 . Springer.

Frank , E. ,

M. A.

Hall ,

and I. H.

Witten . 2016 . The WEKA Workbench . Online Appendix for ”Data Mining: Practical Machine Learning Tools and Techniques” . Morgan Kaufmann, 4 edition .

Gatt , A. ,

Portet ,

Reiter ,

Hunter ,

Mahamood ,

Moncur , and

Sripada . 2009 . From data to text in the neonatal intensive care unit: Using nlg technology for decision support and information management . AI Commun ., 22 ( 3 ): 153 - 186 .

Goldberg , E. ,

Driedger , and

R. I.

Kittredge . 1994 . Using natural-language processing to produce weather forecasts . IEEE Expert , 9 ( 2 ): 45 - 53 .

Jacko , J. A.

2012 . Human-Computer Interaction Handbook: Fundamentals, Evolving Technologies, and Emerging Applications, Third Edition . CRC Press, Inc., 3rd edition.

Lemon , O. ,

Janarthanam , and

Rieser . 2012 . Statistical approaches to adaptive natural language generation . In DataDriven Methods for Adaptive Spoken Dialogue Systems . Springer New York, pages 103 - 130 .

Mann , W. C. and S. A.

Thompson . 1988 . Rhetorical structure theory: Toward a functional theory of text organization . Text - Interdisciplinary Journal for the Study of Discourse , 8 ( 3 ): 243 - 281 .

Reiter , E. and

Dale . 2000 . Building Natural Language Generation Systems . Cambridge University Press.

Reiter , E., S.

Sripada , J.

Hunter , J.

Yu , and I.

Davy . 2005 . Choosing words in computer-generated weather forecasts . Artificial Intelligence , 167 ( 1 ): 137 - 169 .

Reiter , E. ,

Turner ,

Alm ,

Black ,

Dempster , and

Waller . 2009 . Using NLG to help language-impaired users tell stories and participate in social dialogues . In Proceedings of the 12th European Workshop on Natural Language Generation , pages 1 - 8 . Association for Computational Linguistics.

Wan , S. ,

Dras ,

Dale , and C. Paris. 2009 . Improving grammaticality in statistical sentence generation: Introducing a dependency spanning tree algorithm with an argument satisfaction model . In Proceedings of the 12th Conference of the European Chapter oof the ACL , pages 852 - 860 . Association for Computational Linguistics.

Williams , S. and

Reiter . 2008 . Generating basic skills reports for low-skilled readers . Natural Language Engineering , 14 ( 04 ): 495 - 525 .

Zˇolkovskij , A. and I. A . Mel'ˇcuk. 1965 . O vozmoˇznom metode i instrumentax semantiˇceskogo sinteza . Nauˇcnotechniˇceskaja informacija , 5 : 23 - 28 .