=Paper=
{{Paper
|id=Vol-1961/paper04
|storemode=property
|title=
Estudio de un enfoque híbrido para la generación del lenguaje natural
(Study of a hybrid approach for natural language generation)
|pdfUrl=https://ceur-ws.org/Vol-1961/paper04.pdf
|volume=Vol-1961
|authors=Cristina Barros
}}
==
Estudio de un enfoque híbrido para la generación del lenguaje natural
(Study of a hybrid approach for natural language generation)
==
Estudio de un enfoque hı́brido para la Generación del Lenguaje
Natural
Study of a hybrid approach for Natural Language Generation
Cristina Barros
Departamento de Lenguajes y Sistemas Informáticos
Universidad de Alicante
Carretera de San Vicente del Raspeig s/n - 03690 Alicante (España)
cbarros@dlsi.ua.es
Resumen: Este proyecto de tesis plantea una aproximación hı́brida para la genera-
ción del lenguaje natural, la cual permitirá mejorar la calidad del texto producido,
favoreciendo la independencia del dominio, del género textual y de la aplicación
final donde se utilice. Con el fin de lograr este objetivo, se ha implementado un
enfoque flexible de generación centrado en la fase de realización, el cual, apoyándose
en conocimientos estadı́sticos y en lexicones, permite generar textos para diferentes
dominios e idiomas guiados por la entrada.
Palabras clave: Generación del lenguaje natural, “caracterı́stica semilla”, modelos
de lenguaje factorizados, realización, aproximación hı́brida
Abstract: The main objective of this thesis is to propose a hybrid natural language
generation approach which will improve the quality of the produced text, encoura-
ging the independence of domain, text type and application. In order to achieve this
objective, we present a flexible natural language generation approach focused on the
surface realisation stage, which, based on statistical knowledge and lexicons, allows
the generation of text for different domains and languages guided by the system
input.
Keywords: Natural language generation, seed feature, factored language models,
surface realisation, hybrid approach
1 Motivación pudiendo generar texto, a partir de datos ob-
Dada la necesidad existente para facilitar la tenidos mediante sensores, que se adecuen a
comunicación y la interacción hombre-máqui- distintos registros dependiendo del perfil del
na (Jacko, 2012), las Tecnologı́as del Lengua- usuario.
je Humano, encargadas de procesar el lengua- Además, también se han diseñado siste-
je humano de forma automática, tienen un mas de GLN como herramienta de ayuda pa-
papel clave. De entre todas las subdisciplinas ra la comunicación de personas con algún ti-
pertenecientes a las TLH, el área de la Gene- po de discapacidad o problemas de compren-
ración del Lenguaje Natural (GLN) es capaz sión lectora (Reiter et al., 2009; Ferres et al.,
de producir lenguaje a partir de entradas no 2006), ası́ como también pueden incorporar
lingüı́sticas. ténicas para que personas cuasi analfabetas
Gracias a las caracterı́sticas que ofrece el puedan leer (Williams and Reiter, 2008).
área de la GLN, esta puede emplearse en
distintos ámbitos, como en la meteorologı́a
2 Antecedentes y trabajos
(Goldberg, Driedger, and Kittredge, 1994; relacionados
Reiter et al., 2005), donde a partir de da- La tarea de la GLN, a grandes rasgos, consis-
tos numéricos procedentes de sensores y de te en producir de forma automática estruc-
sistemas de simulación, que representan dis- turas correctas del lenguaje natural a partir
tintas magnitudes como la temperatura, la de una representación de la información (Co-
velocidad del viento o el nivel de precipita- le et al., 1997), ya sea en texto o en forma
ciones de un determinado lugar, se puede ge- de algún tipo de dato, permitiendo ası́ que se
nerar un informe explicativo. Asimismo, se proporcione a los usuarios nueva información
han empleado este tipo de ténicas en medici- inferida.
na (Gatt et al., 2009; Acharya et al., 2016), Esta tarea se ha dividido comúnmente en
varias etapas diferenciadas: la macro planifi- terı́stica semilla” puede ser vista como un ob-
cación, la micro planificación y la realización jeto abstracto (un fonema, una palabra, un
(Reiter and Dale, 2000), siendo el objetivo de sentimiento, etc.) encargado de guiar el pro-
estas determinar la información contenida en ceso de generación con respecto al contenido
el nuevo texto a generar (macro planificación) del texto generado. Por tanto, guiará la ge-
y cómo queremos representar dicha informa- neración en relación con su vocabulario o el
ción en un nuevo texto (micro planificación y tipo de palabras que deberá contener el nuevo
realización). texto generado, aportando ası́ la flexibilidad
Tradicionalmente una de las limitaciones necesaria al enfoque para poder adaptar con
de los sistemas de GLN es que se han di- facilidad la generación de textos independien-
señado para dominios muy concretos y para temente del dominio e idioma. En la Figura
un fin determinado, siendo el desarrollo de 1 se puede ver un esquema general del en-
enfoques de dominio abierto y flexibles un re- foque de generación que se describirá en las
to para la comunidad investigadora. próximas lı́neas.
Actualmente, uno de los enfoques más re-
cientes para abrodar la tarea de la GLN en
los últimos años es la generación emplean-
do técnicas estadı́sticas (Bohnet, Mille, and
Wanner, 2011; Wan et al., 2009; Lemon, Ja-
narthanam, and Rieser, 2012), cuya idea sub-
yaciente se basa en analizar y calcular la pro-
babilidad de que ciertas palabras aparezcan
juntas. A partir de este tipo de probabilida-
des se puede realizar un estudio de la forma-
Figura 1: Diagrama del enfoque de generación
ción de una frase a partir de un conjunto de propuesto en el que se generan frases flexionadas
palabras iniciales. Junto a este tipo de enfo- guiadas por la “caracterı́stica semilla” de entra-
ques estadı́sticos, existen otros enfoques ba- da.
sados en el uso de conocimiento, los cuales
recurren a teorı́as lingüı́sticas, como puede En este enfoque se ha estudiado la apli-
ser la Teorı́a de la Estructura Retórica del cación de técnicas estadı́sticas para la gene-
discurso (Mann and Thompson, 1988) o la ración, las cuales, en conjunción con infor-
Teorı́a sentido-texto de Mel’čuk (Žolkovskij mación obtenida de diversas fuentes (e.g. le-
and Mel’čuk, 1965), para generar un texto xicones, herramientas, etc.) nos permite una
dado. generación flexible. En este caso, se ha pro-
bado el método empleando modelos de len-
3 Propuesta de investigación guaje factorizados (FLM: Factored Langua-
La hipótesis de partida de esta investiga- ge Models), que son una extensión de los
ción es que la aplicación de una aproximación modelos de lenguaje introducidos en (Bilmes
hı́brida para la GLN permitirá incrementar and Kirchhoff, 2003), donde una palabra es
la calidad del lenguaje producido, favorecien- vista como un vector de k factores tal que
do su independencia del dominio, del género wt ≡ {ft1 , ft2 , . . . , ftK }. Estos factores pueden
textual y de la aplicación final que lo utili- ser cualquier cosa, incuyendo lemas, etiquetas
ce, siendo la implementación de un enfoque gramaticales, o cualquier otra caracterı́stica
de generación hı́brido el objetivo final de la léxica, sintáctica o semántica. Una vez que se
tesis. selecciona un conjunto de factores, el objeti-
vo principal de los FLM es crear un modelo
4 Metodologı́a y experimentos estadı́stico P (f |f1 , . . . , fN ) donde la predic-
Con el objetivo de lograr una aproximación ción de una caracterı́stica f esté basada en
hı́brida que favorezca la independencia del sus N padres {f1 , . . . , fN }. Estos FLM se em-
dominio, género textual y aplicación, se ha plean para generar las oraciones, priorizando
implementado un método flexible centrado la selección de palabras que esten relaciona-
en la fase de realización de la GLN cuya das con la “caracterı́stica semilla” deseada
novedad, con respecto al estado de la cues- para la generación.
tión radica en que en la entrada al sistema Dependiendo de los factores empleados
es una “caracterı́stica semilla”. Esta “carac- para la generación, el texto generado puede
no contener elementos flexionados, siendo la viduales para cada una de las caracterı́sti-
flexión automática de frases otro punto clave cas con un valor de flexión potencial. Se usó
para lograr el objetivo marcado. En este ca- la implementación de WEKA (Frank, Hall,
so, se ha implementado un módulo de flexión and Witten, 2016) del algoritmo Random Fo-
de palabras para diferentes idiomas, español rest para entrenar los modelos de las carac-
e inglés. En el caso del inglés, la flexión se terı́sticas stemC3 y stemC2. Para entrenar
realiza con reglas escritas a mano dado que los modelos de las caracterı́sticas suff1, suff2
las flexiones en este idioma tienen muy po- y stemC1 se empleó la implementación del
cas variantes. Sin embargo, debibo a la com- algoritmo Random Tree. Con estos modelos
plejidad que entraña la flexión en lenguajes entrenados se pueden predecir todas las po-
morfológicamente ricos como es en este caso sibles felxiones de un verbo dado su infini-
el español, se ha realizado la flexión de las tivo. Para llevar a cabo esta tarea, primero
frases empleando técnicas de aprendizaje au- se analiza el infinitivo del verbo para poder
tomático en el caso de los verbos, mientras extraer las caracterı́sticas necesarias para la
que, para el resto de palabras se han emplea- flexión, y entonces se predice la flexión de ca-
do reglas escritas a mano. Especı́ficamente, da caracterı́stica usando los modelos entre-
para el aprendizaje de la flexión de verbos es- nados. Finalmente, las flexiones predichas se
pañoles, en una primera instancia, se elaboró sustituyen en el infinitivo del verbo por las
un conjunto de datos que contenı́a todas las caracterı́sticas previamente identificadas, lo
reglas necesarias para poder realizar la fle- que conduce a una reconstrucción del infini-
xión de todos los verbos independientemente tivo en la flexión deseada, como se muestra
de su conjugación y del tipo de verbo que sea en la Figura 3.
(regular e irregular). Este conjunto de datos
fue creado consultando la Real Academia Es-
pañola1 y la Enciclopedia Libre Universal en
Español2 .
El conjunto de datos está compuesto por
las siguientes caracterı́sticas: (1) ending, (2)
ending stem, (3) penSyl, (4) person, (5) num-
ber, (6) tense, (7) mood, (8) suff1, (9) suff2,
(10) stemC1, (11) stemC2, (12) stemC3.
Se ha considerado que un verbo español se
puede dividir en tres partes: (1) ending (que Figura 3: Reconstrucción del verbo “elegir” con
hace referencia a la conjugación); (2) ending las caracterı́sticas predichas por los modelos.
stem (i.e. la consonante más cercana a la ca-
racterı́stica ending); and (3) penSyl (i.e. la Este enfoque contribuye al estado de la
penúltima sı́laba del verbo que puede estar cuestión en lo siguiente: se presenta un méto-
formada por la sı́laba entera o por su vocal do flexible capaz de generar lenguaje que es
dominante), como se muestra en la Figura 2, fácilmente adaptable a diferentes dominios e
siendo estas partes las que pueden variar en idiomas; se presenta un módulo de flexión efi-
la flexión del verbo. ciente, para diversos idiomas, que emplea re-
glas escritas a la vez que es capaz de predecir
la flexión de palabras que no se adecuen a las
reglas, para el caso de los verbos españoles.
4.1 Progreso de la investigación
Para validar el enfoque propuesto se han rea-
Figura 2: División del verbo empezar y su flexión lizado experimentos con respecto a la aplica-
para la primera persona del singular del presente ción de métodos estadı́sticos ası́ como tam-
de subjuntivo. bién experimentos para validar el módulo de
flexión.
Se entrenó un conjunto de modelos indi- Con respecto al empleo de los FLM, se
1
http://www.rae.es/diccionario-panhispanico-de- han escogido varios factores con informa-
dudas/apendices/modelos-de-conjugacion-verbal ción sintáctica y semántica (incluyendo pala-
2
http://enciclopedia.us.es/index.php/Categorı́a:Verbos bras, lemas, etiquetas gramaticales (POS tag:
Part-of-Speech tag) y synsets3 ) para entrenar distintas: i) dejando la flexión del verbo en
varios modelos FLM y evaluar las frases ge- un tiempo verbal fijo para todas las frases y
neradas atendiendo a diferentes criterios. Se ii) flexionando cada frase con un tiempo ver-
generaron un total de 20 frases por cada una bal aleatorio entre todos los tiempos verbales
de las configuraciones de factores: i) Palabras simples del español.
+ POS tag, ii) Lemas + POS tag y iii) Synset En este caso se volvió a realizar una eva-
+ POS tag. luación de usuario colaborativa con un total
Para evaluar las frases generadas, realiza- de 3 participantes como asesores. Para esta
mos una evaluación de usuario colaborativa evaluación se empleó el mismo tipo de cues-
con un total de 12 participantes como aseso- tionarios que en el experimento de los mode-
res. Para dicha evaluación se emplearon cues- los estadı́sticos, utilizando los mismos crite-
tionarios con varias preguntas empleando una rios de evaluación (coherencia y errores gra-
escala de Likert de 5 niveles. Estas preguntas maticales) con una escala Likert de 5 nive-
estaban relacionadas con la coherencia y los les. Se evaluaron tanto las frases sin flexionar
errores gramaticales contenidos en las frases como las frases con los dos tipos de flexión
generadas. El término coherencia se refiere al comentados.
nivel de significado de las frases, siendo 1 el
Tipo de Coherencia Errores
valor para frases con poco sentido y un 5 el Flexión Gramatica-
valor para frases con un significado comple- les
to. Por otra parte, el término de errores gra- Sin flexión 2,65 2,73
maticales se refiere a la cantidad de errores Fija 3,36 3,57
gramaticales que tienen las frases generadas, Aleatoria 3,31 3,51
siendo 1 el valor usado cuando las frases con-
tienen un alto número de errores y 5 el valor Tabla 2: Resultados de las medias de la escala de
empleado para denotar la ausencia de errores Likert de 5 niveles con respecto a la coherencia
en ellas. y errores gramaticales de las frases generadas fle-
xionadas.
Factores Coherencia Errores
Gramati- En la Tabla 2 se puede ver un resumen
cales
de los resultados obtenidos, los cuales indi-
Palabra+POS 2,68 2,83 can una gran mejorı́a en la calidad y expre-
Lema+POS 3,08 3,00
sividad de las frases flexionadas con respecto
Synset+POS 2,85 3,08
a su variante sin flexionar.
Tabla 1: Resultados de las medias de la escala
de Likert de 5 niveles con respecto a la coheren- 5 Cuestiones de investigación
cia y errores gramaticales de las frases generadas Siendo la GLN un área de interés en el
estadı́sticamente empleando distintos factores en
Procesameinto del Lenguaje Natural, y dado
los FLM.
que estos resultados son prometedores, las si-
guientes cuestiones a investigar serı́an: i) la
En la Tabla 1 se puede observar un resu- investigación de métodos de evaluación au-
men de las medias obtenidas para los criterios tomática para la GLN con el fin de discernir
mencionados. Estos resultados muestran que la validez del texto generado, y ii) analizar di-
el empleo de factores más abstractos y gene- versos métodos basados en conocimiento que
rales (los lemas y synsets en conjunción con nos permitan mejorar el lenguaje generado.
el POS tag) a la hora de generar nos aporta
una mayor capacidad expresiva. Agradecimientos
Por otro lado, en el caso del módulo de
flexión, debido a que la flexión de oraciones Esta investigación ha sido financiada por la
en español es más compleja, se realizó un ex- Generalitat Valenciana mediante el proyec-
perimento donde se generaron un total de 81 to “DIIM2.0: Desarrollo de técnicas Inteli-
frases en español empleando la configuración gentes e Interactivas de Minerı́a y generación
de Lema + POS tag para el FLM. Las fra- de información sobre la web 2.0” (PROME-
ses generadas se flexionaron, tal y como se TEOII/2014/001), y por el Gobierno de Es-
mencionó en el apartado 4, de dos maneras paña (MINECO) a través del proyecto “RES-
CATA: Representación canónica y transfor-
3
Conjuntos de sinónimos empleados en WordNet maciones de los textos aplicado a las tec-
nologı́as del lenguaje humano” (TIN2015- Goldberg, E., N. Driedger, and R. I. Kittred-
65100-R). ge. 1994. Using natural-language proces-
sing to produce weather forecasts. IEEE
Bibliografı́a Expert, 9(2):45–53.
Acharya, S., B. Di Eugenio, A. D Boyd, Jacko, J. A. 2012. Human-Computer Inter-
K. Dunn Lopez, R. Cameron, and action Handbook: Fundamentals, Evolving
G. M Keenan. 2016. Generating sum- Technologies, and Emerging Applications,
maries of hospitalizations: A new metric Third Edition. CRC Press, Inc., 3rd edi-
to assess the complexity of medical terms tion.
and their definitions. In Proceedings of the
9th International Natural Language Gene- Lemon, O., S. Janarthanam, and V. Rieser.
ration conference, pages 26–30. Associa- 2012. Statistical approaches to adapti-
tion for Computational Linguistics. ve natural language generation. In Data-
Driven Methods for Adaptive Spoken Dia-
Bilmes, J. A. and K. Kirchhoff. 2003. Facto- logue Systems. Springer New York, pages
red language models and generalized pa- 103–130.
rallel backoff. In Proceedings of the 2003
Conference of the North American Chap- Mann, W. C. and S. A. Thompson. 1988.
ter of the Association for Computational Rhetorical structure theory: Toward a fun-
Linguistics on Human Language Techno- ctional theory of text organization. Text -
logy: Companion Volume of the Procee- Interdisciplinary Journal for the Study of
dings of HLT-NAACL 2003–short Papers Discourse, 8(3):243–281.
- Volume 2, pages 4–6. Association for Reiter, E. and R. Dale. 2000. Building Natu-
Computational Linguistics. ral Language Generation Systems. Cam-
Bohnet, B., S. Mille, and L. Wanner. 2011. bridge University Press.
Statistical language generation from se- Reiter, E., S. Sripada, J. Hunter, J. Yu,
mantic structures. In Proceedings of the and I. Davy. 2005. Choosing words
International Conference on Dependency in computer-generated weather forecasts.
Linguistics. Artificial Intelligence, 167(1):137–169.
Cole, R., J. Mariani, H. Uszkoreit, G. Ba- Reiter, E., R. Turner, N. Alm, R. Black,
tista Varile, A. Zaenen, A. Zampolli, and M. Dempster, and A. Waller. 2009. Using
V. Zue. 1997. Survey of the State of NLG to help language-impaired users tell
the Art in Human Language Technology. stories and participate in social dialo-
Cambridge University Press and Giardini. gues. In Proceedings of the 12th European
Ferres, L., A. Parush, S. Roberts, and Workshop on Natural Language Genera-
G. Lindgaard. 2006. Helping people with tion, pages 1–8. Association for Compu-
visual impairments gain access to graphi- tational Linguistics.
cal information through natural language: Wan, S., M. Dras, R. Dale, and C. Paris.
The igraph system. In Proceedings of the 2009. Improving grammaticality in sta-
10th International Conference on Compu- tistical sentence generation: Introducing a
ters Helping People with Special Needs, pa- dependency spanning tree algorithm with
ges 1122–1130. Springer. an argument satisfaction model. In Pro-
Frank, E., M. A. Hall, and I. H. Witten. 2016. ceedings of the 12th Conference of the Eu-
The WEKA Workbench. Online Appen- ropean Chapter oof the ACL, pages 852–
dix for ”Data Mining: Practical Machine 860. Association for Computational Lin-
Learning Tools and Techniques”. Morgan guistics.
Kaufmann, 4 edition. Williams, S. and E. Reiter. 2008. Gene-
Gatt, A., F. Portet, E. Reiter, J. Hunter, rating basic skills reports for low-skilled
S. Mahamood, W. Moncur, and S. Sripa- readers. Natural Language Engineering,
da. 2009. From data to text in the neona- 14(04):495–525.
tal intensive care unit: Using nlg techno- Žolkovskij, A. and I. A. Mel’čuk. 1965.
logy for decision support and information O vozmožnom metode i instrumen-
management. AI Commun., 22(3):153– tax semantičeskogo sinteza. Naučno-
186. techničeskaja informacija, 5:23–28.