Modelos secuenciales para enriquecer la tarea de planificación y generación de discurso Sequence models to boost document planning and discourse generation Marta Vicente Universidad de Alicante mvicente@dlsi.ua.es Resumen: Como parte de un sistema de generación de lenguaje, la macroplani- ficación es la fase responsable de proporcionar la estructura adecuada para que el resultado de un proceso de generación produzca un texto coherente. Presentamos una propuesta que incorpora modelos neuronales en un proceso susceptible de captar y producir esa estructura, empleando arquitecturas que han demostrado su utilidad en otros ámbitos del procesamiento del lenguaje. Palabras clave: Lenguaje natural, macroplanificación, modelos secuenciales Abstract: In Natural Language Generation, Macroplanning is the stage that im- plements the plan to produce a meaningful text. Our approach to Macroplanning is based on the adaptation of different neural architectures, that have been found useful in multiple language processing tasks, to examine how they contribute in de- tecting and providing structure to create discourse. Keywords: Language generation, macroplanning, sequence models 1 Motivación so está adscrito a cierto género textual que, En el ámbito de las tecnologı́as del lengua- en última instancia, se expresa a través de je, el área que compete a la generación de regularidades que conciernen tanto al tipo de lenguaje natural (GLN) incluye la investi- audiencia como a la complejidad léxica o la gación, diseño y realización de artefactos - estructura narrativa. teorı́as, técnicas, metodologı́as, sistemas- cu- La decisión relativa a la organización del yo objetivo último es producir texto. discurso, en el ámbito de la generación de tex- Aunque la disciplina es muy amplia y to, se ha abordado mediante estrategias que abarca múltiples niveles de desarrollo, la pre- van desde la introducción de reglas o esque- sente investigación ha limitado su alcance a mas (Dannélls et al., 2012), pudiendo incluir una de las etapas que constituyen el proce- relaciones entre los elementos del discurso so de generación, la denominada planificación (Williams y Reiter, 2008), hasta la incorpo- del discurso o macroplanificación. ración de técnicas de aprendizaje automáti- Dependiendo de la tarea concreta y el ob- co que buscan determinar la ordenación ópti- jetivo comunicativo que se persiga, el lengua- ma que maximice la coherencia transmitida je natural generado puede adoptar diversas por el texto generado (Lapata, 2006). Las li- formas. De este modo, la tarea de generar mitaciones inherentes a estos planteamientos texto carácter a carácter va a plantear un es- están relacionadas con la dependencia mani- cenario totalmente distinto al requerido por fiesta respecto al dominio o al género, que re- un sistema cuyo cometido sea, por ejemplo, duce la generalización de las aproximaciones retransmitir un partido de fútbol. En este tra- y su posible aplicación en condiciones dife- bajo, vamos a centrarnos en el tipo de ge- rentes a aquellas para las que fueron creados. neración que se lleva a cabo cuando el len- Dentro de este marco, la investigación guaje toma forma de discurso. Ello se refleja aquı́ reseñada se centra en examinar, aplicar en consideraciones estructurales (superar la y analizar diferentes técnicas y aproximacio- frontera de la oración y construir secuencias nes con el objetivo de detectar las más pro- coherentes de texto) ası́ como semánticas y picias para construir procesos de macropla- pragmáticas, dado que, en general, un discur- nificación que se adapten a circunstancias y Lloret, E.; Saquete, E.; Martı́nez-Barco, P.; Moreno, I. (eds.) Proceedings of the Doctoral Symposium of the XXXIV International Conference of the Spanish Society for Natural Language Processing (SEPLN 2018), p. 37–42 Sevilla, Spain, September 19th 2018. Copyright c 2018 by the paper’s authors. Copying permitted for private and academic purposes. necesidades diversas. Una vez construido el creación del plan de documento? El géne- plan del discurso, un módulo de realización ro, por ejemplo, puede determinar qué tipo que interprete los mensajes allı́ contenidos ge- de bloques funcionales deben formar parte nerará la salida adecuadamente agregada y del discurso ([planteamiento, nudo, desenla- flexionada. ce],[resumen, motivación, metodologı́a, discu- sión]). Pero también el objetivo comunicativo 2 Descripción de la investigación (entretener, informar) o el tipo de audiencia La salida de la macroplanificación, por tan- (academia, niños). En cuanto al tema, deter- to, es el plan de discurso o documento y el minarı́a, por ejemplo, si en un cuento se de- objetivo de esta investigación en el momento ben introducir animales como personajes o actual es encontrar el método adecuado para piratas, o aspectos más especı́ficos del espa- aprenderlo automáticamente, asumiendo que cio narrativo. ese plan está asociado a un determinado con- 3 Metodologı́a propuesta texto, que puede estar definido por diferentes elementos como el género, dominio u objetivo La metodologı́a propuesta se basa en el análi- comunicativo. sis y uso de técnicas de aprendizaje para au- tomatizar la extracción y creación de planes 2.1 El plan del documento de documento, relacionados con un tipo de En nuestro planteamiento partimos de que el corpus, que nos permita cierta generalización proceso de GLN requiere de una estructura de los mismos. Se han definido tres objetivos intermedia que dirija y proporcione informa- generales: ción relevante a un módulo de realización. Es a esta estructura a la que nos referimos como Obtener una codificación de cada docu- plan del documento. mento que permita diferenciar y repre- El plan de documento estará compuesto sentar las caracterı́sticas de sus partes, por una serie de elementos de información aprender la organización y constitución (EI). Un EI es un mensaje preverbal, no una de tales partes, cláusula u oración, y debe poder ser trans- inferir los componentes (EI) del plan de formado en texto con sentido completo. Esta documento. traducción última la llevarı́a a cabo el módulo de realización. A partir del análisis de los modelos de len- Una relación de orden puede existir entre guaje y considerando la necesidad de superar los EI que componen un plan de documento. la limitación que representa un planteamien- Su existencia dependerá del tipo de mensa- to basado en bolsa de palabras, nuestra pri- je que se necesite producir. Por ejemplo, es mera aproximación emplea modelos de len- posible que en la reseña de un libro una par- guaje posicionales (Vicente y Lloret, 2017). te del texto se refiera al argumento del libro Basados en métodos de estadı́stica no pa- (A) empleando varias oraciones (A1,A2,A3) ramétrica (Kernel Density Estimation), son y otra parte a la biografı́a del autor (B) con sensibles tanto a la importancia como a la sus propias sentencias (B1,B2,B3). Puede que distribución de los elementos en el texto. el orden entre A y B no sea relevante para En paralelo a este trabajo, se ha comen- el sentido del texto, mientras que es posible zado a desarrollar una segunda lı́nea que in- que el orden de los elementos del argumento corpora las redes neuronales tanto en la ta- (A1,A2,A3) sı́ lo sea. rea de representación de la información como Si podemos asociar un discurso a un géne- en lo relativo a la secuenciación de las par- ro(s), objetivo comunicativo(s) o tema(s), po- tes del discurso. En lo que sigue, se definen demos establecer una relación similar en- los agentes de tal enfoque, incidiendo en las tre estos elementos y el plan de documento potencialidades y los retos que conlleva. ası́ como, en diferente medida, entre estos y un EI. Considerando estas dimensiones como 3.1 Representación del texto condicionantes del discurso, la adscripción de La primera parte de nuestra aproximación secuencias de EIs a condicionantes similares consiste en determinar de qué manera se van influirá en la coherencia del conjunto. a representar las partes del texto y su natu- ¿De qué modo son relevantes esos ele- raleza. El propósito es codificar diferentes ca- mentos en la generación de discurso y en la racterı́sticas del texto, y proporcionar la ex- 38 presión de su significado en unidades proce- sables. d) Arquitectura encoder-decoder . Un texto puede ser dividido en varias Esta alternativa, quizá la más interesante en secciones. Nos referiremos a tales secciones términos de aplicación de redes neuronales, como ventanas. La longitud de las mismas, en su modalidad autoencoder, implica tomar el número de elementos que englobe, de- cualquiera de las anteriores representaciones penderá de la técnica empleada. Algunos como entrada y salida de la arquitectura planteamientos requieren de un numero fijo para proporcionar una nueva codificación de de elementos en la entrada, otros aceptan la misma, generalmente de menor dimensión. un número variable. De ese modo, podemos Esa peculiaridad por la que la entrada y la definir una configuración en la que una salida coinciden es la razón por la que estos ventana contenga siempre 5 palabras frente métodos son considerados semi-supervisados. a otra en la que la ventana coincida con los El diseño del autoencoder, la selección del elementos de cada oración, longitud variable, tipo de red neuronal que se emplee en cada por tanto. una de sus partes, está condicionado por el hecho de que los elementos de la ventana que Cada una de estas ventanas de palabras debe representar forman una secuencia en puede expresarse numéricamente, lo que la que el orden y las dependencias entre los nos permite emplear tales representaciones mismos es relevante. Porque son capaces de en procesamientos posteriores. Los modos modelar tales dependencias, en PLN se suele de representación que consideraremos en trabajar con redes recurrentes en alguna de nuestra investigación son: sus modalidades: LSTM, Bi-LSTM, GRU,... Han sido empleados con éxito en lenguaje en a) Codificación one-hot. A cada tareas como detección de paráfrasis (Socher elemento de la ventana, se le asocia un et al., 2011) o traducción automática (Cho vector del tamaño del vocabulario y en et al., 2014). el ı́ndice correspondiente, se incluye un valor. Éste puede indicar simplemente la Cualquiera sea el tipo de representación presencia/ausencia del elemento, o puede seleccionada, cada documento del corpus ser un coeficiente calculado a partir de la será definido como una secuencia de las mis- frecuencia, el tf-idf, etc. Se determina una mas, entre las que se asumirá una relación de técnica para combinarlos. orden. b) Vectores semánticos (word em- 3.2 Modelos de lenguaje para beddings). Cada elemento de la ventana se estructurar el discurso asocia esta vez a un vector semántico. Los Una de las tendencias en PLN en relación al vectores semánticos pueden estar entrenados uso de redes neuronales es la explotación de previamente y adaptados en caso de que el diferentes tipos de modelos secuenciales con volumen de datos con los que se trabaja sea el fin de construir modelos de lenguaje (ML) insuficiente. Por otro lado, estos vectores (Mikolov et al., 2010). Un ML no solo asigna pueden representar diferentes unidades una probabilidad a un conjunto de palabras, del texto: palabras (Word2vec (Mikolov sino que permite generar una secuencia de las et al., 2013),Glove (Pennington, Socher, y mismas aplicando, por ejemplo, estrategias Manning, 2014)), sentido (Sense2vec (Trask, de búsqueda sobre un espacio de elementos Michalak, y Liu, 2015), párrafos (Le y Mi- posibles. kolov, 2014), etc. Se determina una técnica En el caso de la GLN, los ML se han em- para combinarlos. pleado para generar texto carácter a carácter, por ejemplo, pero también para aprovechar c) Técnicas de Topic modeling , como las propiedades inherentes a los word embed- Latent Direchlt Allocation(LDA) (Blei, Ng, dings como transmisores de significado, de y Jordan, 2003). Podemos asociar un vector modo que, considerando un vocabulario más de topics, o relaciones semánticas latentes, extenso que el asociado a un corpus sobre el a cada ventana del documento empleando que se entrena el ML, se puedan generar se- LDA, asumiendo de ese modo que tal vector cuencias en las que aparecen palabras no con- es una representación densa de la misma. tenidas originalmente en el corpus de entre- 39 namiento. 4 Trabajos relacionados Sin embargo, en cada uno de esos casos, la Además de los trabajos mencionados a lo lar- generación está lejos de crear discurso consi- go del artı́culo, existe una serie de documen- derando elementos estructurales. Esto es, la tos de referencia que revisan los hitos más im- decisión de generar el siguiente elemento, sea portantes de la disciplina de GLN, tanto de éste un carácter o una palabra, está condicio- sus fundamentos (Reiter y Dale, 2000) como nada por la historia inmediatamente anterior de su estado actual incidiendo en el impac- al nuevo elemento. Nuestro planteamiento to de las aproximaciones neuronales (Gatt y busca trascender esa limitación y para ello Krahmer, 2018). aplica un cambio de enfoque. En relación a la aplicación de modelos se- cuenciales y de arquitecturas autoencoder en La estrategia a seguir en esta etapa se ba- GLN, algunos trabajo recientes son (Ferrei- sa, por tanto, en los modelos secuenciales pe- ra et al., 2017), usando modelos secuencia- ro, en lugar de modelar secuencias de pala- les para generar texto desde AMRs (abstractc bras o caracteres, queremos modelar las se- meaning representation) o (Dušek y Jurcıcek, cuencias de representaciones que definen un 2016), que adapta la técnica en el ámbito de documento, tal y como se introdujeron en el diálogo. apartado 3.1. Nos referiremos a este modelo como modelo de representaciones, para dife- 5 Lı́neas y cuestiones abiertas renciarlo de un modelo de lenguaje conven- Este trabajo ofrece una propuesta de inves- cional. tigación que se centra en examinar cómo la estructura del discurso toma parte del pro- ceso de generación considerando arquitectu- 3.3 Generar estructura ras basadas en, aunque no limitadas por, la Una vez definida la metodologı́a para a) re- incorporación de redes neuronales. Múltiples presentar un documento junto a su estructu- configuraciones son definidas y cada una pro- ra en forma de conjunto de representaciones piciará una serie de experimentos con el fin (Sección 3.1) y b) aprender un modelo sobre de analizar y determinar cómo captar estruc- secuencias de representaciones (Sección 3.2), tura y cómo producirla cuando el objetivo de la generación de un plan de documento se la generación es crear discurso. puede plantear desde dos puntos de vista. Las variaciones posibles y la determina- ción de cada etapa suscita multitud de cues- tiones para el debate. 1. Variaciones del texto original. Por Desde un punto de vista pragmático que con- un lado, partiendo de un texto y las re- sidere el discurso como expresión lingüı́stica presentaciones correspondientes, defini- de un contexto más amplio, ¿cómo codificar, remos métodos para construir planes de incluir, procesar información a ese nivel más documento que conduzcan a variantes allá de la concerniente a la adscripción a un del texto original tomándolo como ba- género y lo que ello comporta?¿En qué mane- se. Seleccionando un subconjunto de los ra la comprensión y creación de discurso, en elementos, conseguirı́amos un tipo de re- el ámbito de la generación automática, puede sumen y, en la dirección opuesta, el plan verse afectada por las circunstancias en que de documento podrı́a ser aumentado o se produce? enriquecido con otras representaciones, Por otro lado, en relación con la compo- propiciando la realización de una versión sición y naturaleza de cada representación extendida del texto original. de información: ¿Es mejor una ventana de palabras, de lemas,... tal vez una composi- 2. Generación libre. Por otro lado, ción de diferentes elementos semánticos? y, en podrı́amos emplear el modelo de repre- ese sentido ¿deberı́amos extraer tales carac- sentaciones entrenado sobre el corpus terı́sticas manualmente o deberı́a ser la red para generar una secuencia completa- neuronal la que las aprendiera? mente nueva de elementos EI, consi- En relación con el diseño de cada una de guiendo de ese modo un plan de docu- las arquitecturas, ¿cuál es más adecuada para mento que no coincidiera con ninguno cada tarea? ¿Cuánta profundidad, qué núme- existente en el corpus. ro de unidades por capa? O también, ¿es posi- 40 ble y adecuado combinar el aprendizaje de la En Proceedings of the International Con- representación que determinemos o el mode- ference on Natural Language Generation, lado de la misma con, por ejemplo, otro tipo páginas 1–10. de elementos como la polaridad o la emoción Gatt, A. y E. Krahmer. 2018. Survey of the asociada a la ventana considerada? state of the art in natural language gene- En cuanto a la inclusión de otras técni- ration: Core tasks, applications and eva- cas, ¿qué papel podrı́an jugar aproximacio- luation. Journal of Artificial Intelligence nes como los modelos ocultos de Markov o Research, 61:65–170. las técnicas de topic modelling? ¿Cómo se in- tegrarı́an las caracterı́sticas latentes del texto Lapata, M. 2006. Automatic evaluation procedentes de tales aproximaciones? of information ordering: Kendall’s tau. Cuestiones éstas que se irán resolviendo Computational Linguistics, 32:471–484. en el transcurso de la investigación, desde el Le, Q. y T. Mikolov. 2014. Distributed re- estudio, la experimentación y la evaluación. presentations of sentences and documents. Agradecimientos En International Conference on Machine Learning, páginas 1188–1196. Este proyecto ha sido financiado parcialmen- te por la Generalitat Valenciana a través del Mikolov, T., K. Chen, G. Corrado, y J. Dean. contrato ACIF/2016/501 y la ayuda BEF- 2013. Efficient estimation of word repre- PI/2018/070, ası́ como el proyecto PRO- sentations in vector space. arXiv preprint METEOII/2014/001. También ha participa- arXiv:1301.3781. do en su financiación el Gobierno de España Mikolov, T., M. Karafiát, L. Burget, a través del proyecto RESCATA (TIN2015- J. Černockỳ, y S. Khudanpur. 2010. Re- 65100-R). current neural network based language model. En Proceedings of the Conferen- Bibliografı́a ce of the International Speech Communi- Blei, D. M., A. Y. Ng, y M. I. Jordan. 2003. cation Association. Latent dirichlet allocation. Journal of Pennington, J., R. Socher, y C. D. Manning. Machine Learning Research, 3(Jan):993– 2014. Glove: Global vectors for word re- 1022. presentation. En Empirical Methods in Cho, K., B. van Merrienboer, C. Gulcehre, Natural Language Processing (EMNLP), D. Bahdanau, F. Bougares, H. Schwenk, y páginas 1532–1543. Y. Bengio. 2014. Learning phrase repre- Reiter, E. y R. Dale. 2000. Building natural sentations using rnn encoder–decoder for language generation systems. Cambridge statistical machine translation. En Pro- university press. ceedings of the Conference on Empirical Methods on Natural Language Processing, Socher, R., E. H. Huang, J. Pennin, C. D. páginas 1724–1734. Manning, y A. Y. Ng. 2011. Dynamic pooling and unfolding recursive autoenco- Dannélls, D., L. Carlson, K. Ji, J. Saludes, ders for paraphrase detection. En Advan- K. Kaljurand, M. Damova, A. Kiryakov, ces in neural information processing sys- M. Grinberg, M. K. Bergman, F. Giasson, tems, páginas 801–809. y others. 2012. Multilingual text gene- ration from structured formal representa- Trask, A., P. Michalak, y J. Liu. 2015. sen- tions. University of Gothenburg, 7427. se2vec - A fast and accurate method for word sense disambiguation in neural word Dušek, O. y F. Jurcıcek. 2016. Sequence- embeddings. CoRR, abs/1511.06388. to-sequence generation for spoken dialo- gue via deep syntax trees and strings. En Vicente, M. y E. Lloret. 2017. Analysing po- Proceedings of the Association for Compu- sitional language models for natural lan- tational Linguistics, página 45. guage generation. En Proceedings of the Language & Technology Conference 2017, Ferreira, T. C., I. Calixto, S. Wubben, y páginas 357–361. E. Krahmer. 2017. Linguistic realisation as machine translation: Comparing diffe- Williams, S. y E. Reiter. 2008. Generating rent mt models for amr-to-text generation. basic skills reports for low-skilled readers. 41 Natural Language Engineering, 14(4):495– 525. 42