-

Modelos secuenciales para enriquecer la tarea de planificacoi´n y generacoi´n de discurso

Marta Vicente

mvicente@dlsi.ua.es 0 0 Universidad de Alicante

37 42

In Natural Language Generation, Macroplanning is the stage that implements the plan to produce a meaningful text. Our approach to Macroplanning is based on the adaptation of different neural architectures, that have been found useful in multiple language processing tasks, to examine how they contribute in detecting and providing structure to create discourse.

En ela´mbito de las tecnologıa´ s del lenguaje, ela´rea que compete a la generacoi´n de lenguaje natural (GLN) incluye la investigacoi´n, disne˜o y realizacoi´n de artefactos teoıar´ s, etc´nicas, metodologıa´ s, sistemas- cuyo objetivou´ltimo es producir texto.

Aunque la disciplina es muy amplia y abarca mu´ltiples niveles de desarrollo, la presente investigacoi´n ha limitado su alcance a una de las etapas que constituyen el proceso de generacoi´n, la denominada planificacoi´n del discurso o macroplanificacoi´n.

Dependiendo de la tarea concreta y el objetivo comunicativo que se persiga, el lenguaje natural generado puede adoptar diversas formas. De este modo, la tarea de generar texto caar´cter a caar´cter va a plantear un escenario totalmente distinto al requerido por un sistema cuyo cometido sea, por ejemplo, retransmitir un partido deuf´tbol. En este trabajo, vamos a centrarnos en el tipo de generacoi´n que se lleva a cabo cuando el lenguaje toma forma de discurso. Ello se refleja en consideraciones estructurales (superar la frontera de la oracoi´n y construir secuencias coherentes de texto) aı s´como sema´nticas y pragma´ticas, dado que, en general, un discurso esat´ adscrito a cierto gen´ero textual que, enu´ltima instancia, se expresa a traves´ de regularidades que conciernen tanto al tipo de audiencia como a la complejidad elx´ica o la estructura narrativa.

La decisoi´n relativa a la organizacoi´n del discurso, en ela´mbito de la generacoi´n de texto, se ha abordado mediante estrategias que van desde la introduccoi´n de reglas o esquemas (Dannel´ls et al., 2012), pudiendo incluir relaciones entre los elementos del discurso (Williams y Reiter, 2008) , hasta la incorporacoi´n de etc´nicas de aprendizaje automa´tico que buscan determinar la ordenacoi´no´ptima que maximice la coherencia transmitida por el texto generado (Lapata, 2006) . Las limitaciones inherentes a estos planteamientos esat´n relacionadas con la dependencia manifiesta respecto al dominio o al gen´ero, que reduce la generalizacoi´n de las aproximaciones y su posible aplicacoi´n en condiciones diferentes a aquellas para las que fueron creados.

Dentro de este marco, la investigacoi´n aquır´esne˜ada se centra en examinar, aplicar y analizar diferentes etc´nicas y aproximaciones con el objetivo de detectar las ma´s propicias para construir procesos de macroplanificacoi´n que se adapten a circunstancias y necesidades diversas. Una vez construido el plan del discurso, un mo´dulo de realizacoi´n que interprete los mensajes alılc´ontenidos generaar´ la salida adecuadamente agregada y flexionada. 2

Descripcoi´n de la investigacoi´n

La salida de la macroplanificacoi´n, por tanto, es el plan de discurso o documento y el objetivo de esta investigacoi´n en el momento actual es encontrar el met´odo adecuado para aprenderlo automa´ticamente, asumiendo que ese plan esat´ asociado a un determinado contexto, que puede estar definido por diferentes elementos como el gen´ero, dominio u objetivo comunicativo. 2.1

El plan del documento

En nuestro planteamiento partimos de que el proceso de GLN requiere de una estructura intermedia que dirija y proporcione informacoi´n relevante a un mo´dulo de realizacoi´n. Es a esta estructura a la que nos referimos como plan del documento.

El plan de documento estaar´ compuesto por una serie de elementos de informacoi´n (EI). Un EI es un mensaje preverbal, no una cal´usula u oracoi´n, y debe poder ser transformado en texto con sentido completo. Esta traduccoi´nu´ltima la llevaıar´ a cabo el mo´dulo de realizacoi´n.

Una relacoi´n de orden puede existir entre los EI que componen un plan de documento. Su existencia dependear´ del tipo de mensaje que se necesite producir. Por ejemplo, es posible que en la resne˜a de un libro una parte del texto se refiera al argumento del libro (A) empleando varias oraciones (A1,A2,A3) y otra parte a la biograıaf´ del autor (B) con sus propias sentencias (B1,B2,B3). Puede que el orden entre A y B no sea relevante para el sentido del texto, mientras que es posible que el orden de los elementos del argumento (A1,A2,A3) ı sl´o sea.

Si podemos asociar un discurso a un gen´ero(s), objetivo comunicativo(s) o tema(s), podemos establecer una relacoi´n similar entre estos elementos y el plan de documento aı sc´omo, en diferente medida, entre estos y un EI. Considerando estas dimensiones como condicionantes del discurso, la adscripcoi´n de secuencias de EIs a condicionantes similares influiar´ en la coherencia del conjunto.

¿De que´ modo son relevantes esos elementos en la generacoi´n de discurso y en la creacoi´n del plan de documento? El gen´ero, por ejemplo, puede determinar que´ tipo de bloques funcionales deben formar parte del discurso ([planteamiento, nudo, desenlace],[resumen, motivacoi´n, metodoloıga´ , discusoi´n]). Pero tambein´ el objetivo comunicativo (entretener, informar) o el tipo de audiencia (academia, nni˜os). En cuanto al tema, determinaıar´ , por ejemplo, si en un cuento se deben introducir animales como personajes o piratas, o aspectos ma´s espeıfic´os del espacio narrativo. 3

Metodoloıag´ propuesta

La metodologıa´ propuesta se basa en el ana´lisis y uso de etc´nicas de aprendizaje para automatizar la extraccoi´n y creacoi´n de planes de documento, relacionados con un tipo de corpus, que nos permita cierta generalizacoi´n de los mismos. Se han definido tres objetivos generales:

Obtener una codificacoi´n de cada documento que permita diferenciar y representar las caracteısr´ticas de sus partes, aprender la organizacoi´n y constitucoi´n de tales partes, inferir los componentes (EI) del plan de documento.

A partir del ana´lisis de los modelos de lenguaje y considerando la necesidad de superar la limitacoi´n que representa un planteamiento basado en bolsa de palabras, nuestra primera aproximacoi´n emplea modelos de lenguaje posicionales (Vicente y Lloret, 2017) . Basados en met´odos de estadıs´tica no paramet´rica ( Kernel Density Estimation), son sensibles tanto a la importancia como a la distribucoi´n de los elementos en el texto.

En paralelo a este trabajo, se ha comenzado a desarrollar una segunda ınl´ ea que incorpora las redes neuronales tanto en la tarea de representacoi´n de la informacoi´n como en lo relativo a la secuenciacoi´n de las partes del discurso. En lo que sigue, se definen los agentes de tal enfoque, incidiendo en las potencialidades y los retos que conlleva. 3.1

Representacoin´ del texto

La primera parte de nuestra aproximacoi´n consiste en determinar de que´ manera se van a representar las partes del texto y su naturaleza. El propo´sito es codificar diferentes caracteısr´ticas del texto, y proporcionar la expresoi´n de su significado en unidades procesables.

Un texto puede ser dividido en varias secciones. Nos referiremos a tales secciones como ventanas. La longitud de las mismas, el nu´mero de elementos que englobe, dependear´ de la etc´nica empleada. Algunos planteamientos requieren de un numero fijo de elementos en la entrada, otros aceptan un nu´mero variable. De ese modo, podemos definir una configuracoi´n en la que una ventana contenga siempre 5 palabras frente a otra en la que la ventana coincida con los elementos de cada oracoi´n, longitud variable, por tanto.

Cada una de estas ventanas de palabras puede expresarse numer´icamente, lo que nos permite emplear tales representaciones en procesamientos posteriores. Los modos de representacoi´n que consideraremos en nuestra investigacoi´n son:

a) Codificacoi´n one-hot . A cada elemento de la ventana, se le asocia un vector del taman˜o del vocabulario y en el ın´ dice correspondiente, se incluye un valor. E´ste puede indicar simplemente la presencia/ausencia del elemento, o puede ser un coeficiente calculado a partir de la frecuencia, el tf-idf, etc. Se determina una etc´nica para combinarlos.

b) Vectores sema´nticos (word embeddings). Cada elemento de la ventana se asocia esta vez a un vector sema´ntico. Los vectores sema´nticos pueden estar entrenados previamente y adaptados en caso de que el volumen de datos con los que se trabaja sea insuficiente. Por otro lado, estos vectores pueden representar diferentes unidades del texto: palabras (Word2vec (Mikolov et al., 2013) ,Glove (Pennington, Socher, y Manning, 2014) ), sentido (Sense2vec (Trask, Michalak, y Liu, 2015) , pa´rrafos (Le y Mikolov, 2014) , etc. Se determina una etc´nica para combinarlos.

c) Tec´nicas de Topic modeling , como

Latent Direchlt Allocation(LDA) (Blei, Ng, y Jordan, 2003). Podemos asociar un vector de topics, o relaciones sema´nticas latentes, a cada ventana del documento empleando LDA, asumiendo de ese modo que tal vector es una representacoi´n densa de la misma.

d) Arquitectura encoder-decoder .

Esta alternativa, quiaz´ la ma´s interesante en etr´minos de aplicacoi´n de redes neuronales, en su modalidad autoencoder, implica tomar cualquiera de las anteriores representaciones como entrada y salida de la arquitectura para proporcionar una nueva codificacoi´n de la misma, generalmente de menor dimensoi´n. Esa peculiaridad por la que la entrada y la salida coinciden es la raoz´n por la que estos met´odos son considerados semi-supervisados. El disne˜o del autoencoder, la seleccoi´n del tipo de red neuronal que se emplee en cada una de sus partes, esat´ condicionado por el hecho de que los elementos de la ventana que debe representar forman una secuencia en la que el orden y las dependencias entre los mismos es relevante. Porque son capaces de modelar tales dependencias, en PLN se suele trabajar con redes recurrentes en alguna de sus modalidades: LSTM, Bi-LSTM, GRU,... Han sido empleados conex´ito en lenguaje en tareas como deteccoi´n de paar´frasis (Socher et al., 2011) o traduccoi´n automa´tica (Cho et al., 2014).

Cualquiera sea el tipo de representacoi´n seleccionada, cada documento del corpus sear´ definido como una secuencia de las mismas, entre las que se asumiar´ una relacoi´n de orden. 3.2

Modelos de lenguaje para estructurar el discurso

Una de las tendencias en PLN en relacoi´n al uso de redes neuronales es la explotacoi´n de diferentes tipos de modelos secuenciales con el fin de construir modelos de lenguaje (ML) (Mikolov et al., 2010) . Un ML no solo asigna una probabilidad a un conjunto de palabras, sino que permite generar una secuencia de las mismas aplicando, por ejemplo, estrategias de bu´squeda sobre un espacio de elementos posibles.

En el caso de la GLN, los ML se han empleado para generar texto caar´cter a caar´cter, por ejemplo, pero tambein´ para aprovechar las propiedades inherentes a los word embeddings como transmisores de significado, de modo que, considerando un vocabulario ma´s extenso que el asociado a un corpus sobre el que se entrena el ML, se puedan generar secuencias en las que aparecen palabras no contenidas originalmente en el corpus de entre

Sin embargo, en cada uno de esos casos, la generacoi´n esat´ lejos de crear discurso considerando elementos estructurales. Esto es, la decisoi´n de generar el siguiente elemento, sea es´te un caar´cter o una palabra, esat´ condicionada por la historia inmediatamente anterior al nuevo elemento. Nuestro planteamiento busca trascender esa limitacoi´n y para ello aplica un cambio de enfoque.

La estrategia a seguir en esta etapa se basa, por tanto, en los modelos secuenciales pero, en lugar de modelar secuencias de palabras o caracteres, queremos modelar las secuencias de representaciones que definen un documento, tal y como se introdujeron en el apartado 3.1. Nos referiremos a este modelo como modelo de representaciones, para diferenciarlo de un modelo de lenguaje convencional. 3.3

Generar estructura

Una vez definida la metodologıa´ para a) representar un documento junto a su estructura en forma de conjunto de representaciones (Seccoi´n 3.1) y b) aprender un modelo sobre secuencias de representaciones (Seccoi´n 3.2), la generacoi´n de un plan de documento se puede plantear desde dos puntos de vista. 1. Variaciones del texto original. Por un lado, partiendo de un texto y las representaciones correspondientes, definiremos met´odos para construir planes de documento que conduzcan a variantes del texto original toma´ndolo como base. Seleccionando un subconjunto de los elementos, conseguiıar´ mos un tipo de resumen y, en la direccoi´n opuesta, el plan de documento podıar´ ser aumentado o enriquecido con otras representaciones, propiciando la realizacoi´n de una versoi´n extendida del texto original. 2. Generacoi´n libre. Por otro lado, podıar´ mos emplear el modelo de representaciones entrenado sobre el corpus para generar una secuencia completamente nueva de elementos EI, consiguiendo de ese modo un plan de documento que no coincidiera con ninguno existente en el corpus.

Trabajos relacionados

Adema´s de los trabajos mencionados a lo largo del arıct´ulo, existe una serie de documentos de referencia que revisan los hitos ma´s importantes de la disciplina de GLN, tanto de sus fundamentos (Reiter y Dale, 2000) como de su estado actual incidiendo en el impacto de las aproximaciones neuronales (Gatt y Krahmer, 2018) .

En relacoi´n a la aplicacoi´n de modelos secuenciales y de arquitecturas autoencoder en GLN, algunos trabajo recientes son (Ferreira et al., 2017), usando modelos secuenciales para generar texto desde AMRs (abstractc meaning representation) o (Duseˇk y Jurcıcek, 2016), que adapta la etc´nica en ela´mbito de dai´logo. 5

Lın´ eas y cuestiones abiertas

Este trabajo ofrece una propuesta de investigacoi´n que se centra en examinar oc´mo la estructura del discurso toma parte del proceso de generacoi´n considerando arquitecturas basadas en, aunque no limitadas por, la incorporacoi´n de redes neuronales. Mu´ltiples configuraciones son definidas y cada una propiciaar´ una serie de experimentos con el fin de analizar y determinar oc´mo captar estructura y oc´mo producirla cuando el objetivo de la generacoi´n es crear discurso.

Las variaciones posibles y la determinacoi´n de cada etapa suscita multitud de cuestiones para el debate.

Desde un punto de vista pragma´tico que considere el discurso como expresoi´n linguıs´t¨ica de un contexto ma´s amplio, o¿c´mo codificar, incluir, procesar informacoi´n a ese nivel ma´s alal´ de la concerniente a la adscripcoi´n a un gen´ero y lo que ello comporta?¿En que´ manera la comprensoi´n y creacoi´n de discurso, en ela´mbito de la generacoi´n automa´tica, puede verse afectada por las circunstancias en que se produce?

Por otro lado, en relacoi´n con la composicoi´n y naturaleza de cada representacoi´n de informacoi´n: ¿Es mejor una ventana de palabras, de lemas,... tal vez una composicoi´n de diferentes elementos sema´nticos? y, en ese sentido ¿debeıar´ mos extraer tales caracteısr´ticas manualmente o debeıar´ ser la red neuronal la que las aprendiera?

En relacoi´n con el disne˜o de cada una de las arquitecturas, ¿cua´l es ma´s adecuada para cada tarea? ¿Cua´nta profundidad, que´ nu´mero de unidades por capa? O tambein´, ¿es posible y adecuado combinar el aprendizaje de la representacoi´n que determinemos o el modelado de la misma con, por ejemplo, otro tipo de elementos como la polaridad o la emocoi´n asociada a la ventana considerada?

En cuanto a la inclusoi´n de otras etc´nicas, ¿que´ papel podıar´ n jugar aproximaciones como los modelos ocultos de Markov o las etc´nicas de topic modelling ? ¿Co´mo se integraıar´ n las caracteısr´ticas latentes del texto procedentes de tales aproximaciones?

Cuestioneses´tas que se iar´n resolviendo en el transcurso de la investigacoi´n, desde el estudio, la experimentacoi´n y la evaluacoi´n.

Agradecimientos

Este proyecto ha sido financiado parcialmente por la Generalitat Valenciana a traves´ del contrato ACIF/2016/501 y la ayuda BEFPI/2018/070, aı s´ como el proyecto PROMETEOII/2014/001. Tambein´ ha participado en su financiacoi´n el Gobierno de Espan˜a a traves´ del proyecto RESCATA (TIN201565100-R).

Bibliograıaf´

Blei, D. M., A. Y. Ng, y M. I. Jordan. 2003.

Latent dirichlet allocation. Journal of Machine Learning Research, 3(Jan):993– 1022.

Cho, K., B. van Merrienboer, C. Gulcehre, D. Bahdanau, F. Bougares, H. Schwenk, y Y. Bengio. 2014. Learning phrase representations using rnn encoder–decoder for statistical machine translation. En Proceedings of the Conference on Empirical Methods on Natural Language Processing, pa´ginas 1724–1734.

Dannel´ls, D., L. Carlson, K. Ji, J. Saludes, K. Kaljurand, M. Damova, A. Kiryakov, M. Grinberg, M. K. Bergman, F. Giasson, y others. 2012. Multilingual text generation from structured formal representations. University of Gothenburg, 7427. Duseˇk, O. y F. Jurcıcek. 2016. Sequenceto-sequence generation for spoken dialogue via deep syntax trees and strings. En Proceedings of the Association for Computational Linguistics, pa´gina 45.

Ferreira, T. C., I. Calixto, S. Wubben, y E. Krahmer. 2017. Linguistic realisation as machine translation: Comparing different mt models for amr-to-text generation.

En Proceedings of the International Conference on Natural Language Generation, pa´ginas 1–10. Natural Language Engineering, 14(4):495– 525.

Gatt , A. y E.

Krahmer . 2018 . Survey of the state of the art in natural language generation: Core tasks, applications and evaluation . Journal of Artificial Intelligence Research , 61 : 65 - 170 .

Lapata , M.

2006 . Automatic evaluation of information ordering: Kendall's tau . Computational Linguistics , 32 : 471 - 484 .

Le , Q. y T.

Mikolov . 2014 . Distributed representations of sentences and documents . En International Conference on Machine Learning, pa´ginas 1188-1196.

Mikolov , T. ,

Chen , G. Corrado,

y J.

Dean . 2013 . Efficient estimation of word representations in vector space . arXiv preprint arXiv:1301 . 3781 .

Mikolov , T. , M. Karafi´t, L. Burget, J. Cˇernocky`, y

Khudanpur . 2010 . Recurrent neural network based language model . En Proceedings of the Conference of the International Speech Communication Association.

Pennington , J. , R. Socher, y

C. D.

Manning . 2014 . Glove: Global vectors for word representation . En Empirical Methods in Natural Language Processing (EMNLP) , pa´ginas 1532-1543.

Reiter , E. y R.

Dale . 2000 . Building natural language generation systems . Cambridge university press.

Socher , R. ,

E. H.

Huang ,

Pennin , C. D. Manning, y

A. Y.

Ng . 2011 . Dynamic pooling and unfolding recursive autoencoders for paraphrase detection . En Advances in neural information processing systems , pa´ginas 801- 809 .

Trask , A. , P. Michalak,

y J.

Liu . 2015 . sense2vec - A fast and accurate method for word sense disambiguation in neural word embeddings . CoRR, abs/1511 .06388.

Vicente , M. y E.

Lloret . 2017 . Analysing positional language models for natural language generation . En Proceedings of the Language & Technology Conference 2017 , pa´ginas 357- 361 .

Williams , S. y E.

Reiter . 2008 . Generating basic skills reports for low-skilled readers .