1.1. Propuesta de tesis e inspiración.

Grounding adaptativo basado en aprendizaje automático para sistemas de diálogo negociativos

José Luis Pro Martín

jose.pro@lekta.ai 0 0 Universidad de Sevilla

43 48

In this thesis proposal we address the design of a dialogue manager for negotiative and task-oriented domains with an adaptative grounding system resulting from a hybrid model between rule-based and machine learning heuristics. We will propose a model that, at a first stage, will be knowledge-based and that it will be used to generate a data corpus big enough for, in a second stage, feeding up a machine learning framework that gives us more decision skills in every dialogue turn. We don't aim to substitute the first model with the new one, furthermore, we would like to create some heuristics that allow both models to live together in order to increase the conversational interface robustness.

1.1. Propuesta de tesis e inspiración.

Uno de los mejores trabajos realizados en prospectiva sobre la evolución de las tecnologías del lenguaje y en concreto sobre interfaces conversacionales es el proyecto ROCKIT (financiado por el programa FP7 de la comisión europea) realizado por Renals et al (2015) en el que se muestran las previsiones de posibles líneas de investigación en este área temática hasta el año 2024.

Uno de los cinco escenarios propuestos por ROCKIT es el de asistentes personales inteligentes, en el que se vislumbra que serán capaces de gran capacidad de comprensión del lenguaje natural así como en la generación del mismo haciendo uso eficiente de fuentes heterogéneas de conocimiento, contexto social, servicios de información y perfiles de usuario personalizados.

Los casos de usos en los que estos asistentes personales podrían actuar serían por ejemplo sistemas empresariales en los que se pretende una rápida comunicación con el cliente en sectores del mercado muy verticales como comercio, turismo, salud, aprendizaje, servicios sociales, etc.

Teniendo este informe como fuente de inspiración se pretende, en esta tesis, realizar el diseño e implementación de un entorno de trabajo para la realización de sistemas de diálogo negociativos con una alta capacidad adaptativa en la detección de errores y recuperación de los mismos (grounding) basada en aprendizaje automático:

Sistema de diálogo negociativo - En este tipo de sistemas de diálogo el usuario se encarga de dar información al sistema para que éste pueda llevar a cabo cierta tarea. Dicha información está sujeta a posibles errores que pueden ser detectados y resueltos gracias a: Grounding adaptativo - Dada una serie de estrategias de grounding para la resolución y detección de errores se pretende diseñar un conjunto de heurísticas que permitan el cambio automático entre estas estrategias. Estas heurísticas se basarán en: Aprendizaje automático - Para ello se analizarán distintas propuestas recientemente establecidas en la literatura como son las redes neuronales recursivas (RNN), y en concreto, el subtipo Long Short Term Memory (LSTM). De hecho estos dos tipos de redes neuronales también se han usado para la fase previa a la propia gestión del diálogo en Dyer et al. (2016) y Ballesteros et al. (2016) , respectivamente.

1.2. Retos en el diseño y la implementación.

Los posibles retos en el diseño y puesta en marcha de la propuesta serían:        

Reusabilidad y modularidad.

Flexibilidad y robustez.

Detección y recuperación de errores.

Inclusión temprana de módulos para tratamiento automático de datos en el marco de “Bussiness Inteligence” y “Analytics”.

Posibilidad de integración con reglas de negocio corporativas para la implementación de políticas de seguridad, autenticación y protección de datos.

Sistema de testeo para la gestión del diálogo.

Hibridación de estrategias de diálogo, combinando las aproximaciones basadas en reglas y dirigidas por datos.

Evaluación y etiquetado de los datos adquiridos por el sistema de diálogo. 2.

Origen y trabajo relacionado

Para un compresión del estado actual del área de la gestión del diálogo cabe destacar los trabajos de McTear (2017) y MacTear et al. (2016).

Entornos de trabajo para la realización de gestores de diálogo independientes del dominio se han publicado en Traum y Larsson (2000 ), Bohus y Rudnicky (2007 ) y, más recientemente se ha usado OwlSpeak (Heinroth and Minker, 2013) como gestor genérico de diálogo en el proyecto europeo KRISTINA (2018), gestor al que se le han ampliado las capacidades necesarias para implementar estrategias de diálogo híbridas. En este último se integra la multimodalidad para enriquecer el gestor de diálogo con fuentes adicionales de información tales como análisis de la expresión facial, análisis gestual y otra información paralingüística.

Tradicionalmente, las estrategias de diálogo basadas en reglas se han usado para aplicaciones muy dependientes del dominio con cierto grado de éxito aunque en la práctica no son aplicables en escenarios más complejos. Por contra, la idea básica de los gestores de diálogo estadísticos consiste en el uso de datos de diálogos previos para optimización en la elección de posibles estrategias de diálogo, aunque estas técnicas son sólo aplicables cuando se disponen gran cantidad de datos, algo que no suele suceder en la mayor parte de los dominios. La solución puede ser utilizar una combinación de ambas técnicas como el sistema OpenDial implementado por Lison y Kennington (2016 ).

Para el tratamiento del error y estrategias de grounding se estudian los trabajos de Traum (1994) , Skantze (2007) y López-Cózar et al. (2010) .

Para el estudio de los gestores de diálogo estadísticos cabe destacar a Young et al. (2013) y el trabajo de Griol et al. (2014) . Y para las aplicaciones del aprendizaje automático en gestores de diálogo tenemos a Paek y Pieraccini (2008 ) y a Rieser y Lemon (2011 ).

Los llamados sistemas de diálogo de extremo a extremo (end-to-end) basados en aprendizaje automático tratan de llevar a cabo una simplificación de la arquitectura del sistema y están ahora mismo muy en boga en la literatura, por ejemplo, caben destacar los trabajos de Williams y Zweig (2016 ), TsungHsien et al. (2016 ) y Bordes y Weston (2016 ).

Con Young (2014) nos acercamos a los gestores de diálogo de dominio abierto (open domain).

Descripción de la investigación propuesta

El diseño e implementación de la propuesta de investigación se está llevando a cabo teniendo en cuenta los siguientes elementos.

Etiquetado de actos de diálogo.

Como elemento atómico de información que se usa en la parte del gestor de diálogo utilizamos el concepto de acto de diálogo con un modelo a dos niveles para la anotación (dimensión y función) desde la entrada de usuario.

De hecho la integración con la fase de understanding y la fase de generación del lenguaje se hace con los mismos actos de diálogo lo que facilita la encapsulación del gestor de diálogo a nivel de diseño e implementación. De este modo podemos implementar en paralelo las partes de NLU y NLG sin entrar en conflicto con el DM. De la misma forma se facilitan desde el primer momento las API’s necesarias para integrar reconocedores automáticos del habla y sintetizadores de voz a la entrada y salida del sistema respectivamente.

Proponemos aquí el uso de un módulo llamado “pragmatic mapper”. Este módulo se sitúa entre la fase de NLU y el DM propiamente dicho. La explicación del nombre es la siguiente: “Mapper”: Ya que traduce la información desde algún canal de entrada de información en Actos de Diálogos que podrán ser usados por el gestor de diálogo. “Pragmatic”: Esta traducción se hará teniendo en cuenta el contexto del diálogo y lo que realmente el usuario quería expresar.

Este módulo se usará para integrar los distintos módulos de NLU de forma que toda la información proporcionada por dichos canales puedan ser unificados en un solo esquema de anotación que será el usado por el gestor del diálogo.

Un buen ejemplo podría ser el siguiente: Imaginemos que tenemos dos módulos de NLU trabajando en paralelo. Uno de ellos podría ser un módulo NLU clásico basado en léxico y reglas gramaticales, especializado en la detección de información estructurada en la fase de comprensión del lenguaje natural como podrían ser fechas, números y cantidades monetarias.

Por otro lado podríamos tener un módulo de “intent detection” basado en un clasificador entrenado gracias a técnicas de aprendizaje automático, perfecto para detectar intenciones del usuario con independencia de la proferencia obtenida.

Así que, por ejemplo, dada la siguiente proferencia del usuario: “Me gustaría concertar una cita para el médico para mañana o pasado mañana.”

El módulo de “pragmatic mapper” podría detectar que la primera parte de la proferencia: “Me gustaría concertar una cita para el médico…” ha sido reconocida con un alto nivel de confianza por el módulo de detección de intenciones basado en aprendizaje automático y la traducción correspondiente puede ser anotada como sigue: (REQUEST, ACTION, BOOKAPPOINTMENT)

El mismo módulo “pragmatic mapper” podría ahora detectar que la segunda parte de la proferencia: “…para mañana o pasado mañana” ha sido reconocida con un alto nivel de confianza por una gramática basada en reglas y el correspondiente acto de diálogo podría ser así: (INFORM, PARAMETER, OFFSETDATE: (OR: (OFFSETDATEVALUE: 1)

(OFFSETDATEVALUE: 2)))

Con estos dos actos de diálogo, el gestor de diálogo puede reaccionar y decidir qué hacer a continuación independientemente de las fuentes de información usadas en el NLU.

La parte de la pragmática en este módulo se usa para acceder al contexto del diálogo almacenado por el DM en la memoria del sistema y se usa para escoger correctamente la interpretación correcta de la proferencia del usuario teniendo en cuenta el estado actual del diálogo. Esto puede ser usado para resolver anáforas y elipsis, fenómenos que aparecen ampliamente en diálogos reales entre humanos.

Gestión de diálogo.

El módulo de gestión de diálogo recibe a la entrada la secuencia de actos de diálogo, realiza el procesamiento de los mismos en base al contexto del diálogo y genera los actos de diálogo de salida según las estrategias de diálogo que han sido activadas en ese turno en particular.

En un primer momento la selección de las posibles estrategias válidas en un determinado estado se hace en base a un sistema de producción de reglas basado en heurísticas y reglas de negocio.

Después y gracias a que el sistema se pondrá en producción en un ecosistema industrial empieza la fase de recolección de datos, etiquetado de los mismos, evaluación de los diálogos y mejora iterativa del sistema.

Para poder integrar los módulos de aprendizaje automático se propondrá un modelo de selección basado en redes neuronales recurrentes para escoger la estrategia de diálogo que optimice la métrica escogida para el diálogo actual.

Aprendizaje automático.

Para poder aplicar aprendizaje automático se realizará desde el principio una clasificación de las estrategias válidas para un determinado estado teniendo en cuenta los actos de diálogo presentes en la entrada. A partir de aquí se pueden elegir distintos métodos y redes neuronales para el aprendizaje del sistema, aunque parece que los mejores resultados están apareciendo haciendo uso de redes neuronales recursivas (RNN).

La evaluación de estos sistemas de aprendizaje se llevan a cabo de un tiempo a esta parte haciendo uso de técnicas de simulación de usuario. Dos trabajos que hacen uso de esta técnica son el de Griol et al. (2016) y el de Hillmann y Englebrecht (2016 ).

Estrategias de grounding.

El sistema de grounding para el gestor de diálogo propuesto está diseñado desde un primer momento para permitir correcciones y recuperación de errores en las posibles contribuciones de información que haga el usuario del sistema.

Se proponen tres niveles o estrategias de grounding teniendo en cuenta la importancia de cada parámetro en los posibles dominios de implementación:   

MINOR: Técnica de grounding ingenua. Todos los cambios realizados en los valores de los parámetros se consideran correctos.

IMPLICIT: Confirmación implícita. Después de cada cambio del valor de información se muestra al usuario alguna evidencia de que se ha recibido correctamente para dar al usuario la oportunidad de realizar correcciones.

EXPLICIT: Confirmación explícita. Después de cada cambio de información el sistema pedirá confirmación de forma explícita al usuario sobre ese cambio.

Para la implementación de estas estrategias se han diseñado un conjunto de estados y las transiciones entre ellos basadas en los actos de diálogo detectados en la entrada de cada turno.

Estas transiciones se harán, en primera instancia, teniendo en cuenta un sistema basado en reglas al que posteriormente se le añadirá la posibilidad de estar apoyado por un sistema basado en aprendizaje automático que escoja la mejor estrategia de diálogo en cada situación.

Linguistics: Technical

Dublin: 1402–1413.

Papers,

23-29,

Figura 1: Estados en la estrategia MINOR Entre estos estados de grounding (asignados para cada elemento de información del diálogo) tenemos:    

EMPTY: Ningún valor ha sido asignado al parámetro en el dominio actual.

ASKED: El sistema acaba de preguntar por el valor de uno de los parámetros del diálogo.

ECHOED: El sistema acaba de mostrar al usuario alguna evidencia de que el cambio en el valor de la información ha sido recibido correctamente.

GROUNDED: El sistema piensa que el valor actual del parámetro es correcto.

El conjunto de posibles transiciones en las estrategias MINOR e IMPLICIT se muestran en la Figura 1 y en la Figura 2, respectivamente.

Figura 2: Estados en la estrategia IMPLICIT

Bibliografía

Ballesteros, M., Bohnet, B., Mille, S., Wanner, L. 2014. Deep-syntactic parsing. En Proceedings of COLING 2014, the 25th International Conference on Computational

PhD Thesis, Univerisity of Rochester, New York.

Ballesteros , M. , Dyer , C. , Goldberg , Y. , Smith , N. 2016 . Greedy transition-based dependency parsing with stack-LSTMs . Journal Computational Linguistics , 43 ( 2 ): 311 - 347 .

Bohnet , B. , Nivre , J. Boguslavsky , I. , Farkas , R. , Ginter , F. , Hajic , J. 2013 . Joint morphological and syntactic analysis for richly inflected languages . Transactions of the Association for Computational Linguistics , 1 : 415 - 428 .

Bohus , D. , Rudnicky , A. 2007 . The RavenClaw dialog management framework: Architecture and systems . Computer Speech & Language , 23 ( 3 ): 332 - 361 .

Bordes , A. , Weston , J. 2016 . Learning end-toend goal-oriented dialog . En International Conference on Learning Representations 2017. Accepted as a conference paper at ICLR 2017 .

Dyer , C. , Kuncoro , A. , Ballesteros , M. , Smith , N. 2016 . Recurrent neural network grammars . En Proceedings of NAACL-HLT 2016 , San Diego, California: 199 - 209 .

Griol , D. , Callejas , Z. , Lopez-Cozar , R. , Riccardi , G. 2014 . A domain-independent statistical methodology for dialog management in spoken dialog systems . Computer Speech & Language , 28 ( 3 ): 743 - 768 .

Griol D. , Molina , J. M. , Sanchis , A. , Callejas Z. 2016 . Combining several user models to improve and adapt the dialog management process in spoken dialogue systems. Future and Emergent Trends in Language Technology . First International Workshop, FETLT 2015, Springer, Seville: 65 - 76 .

Heinroth , T. , Minker , W. 2013 . The OwlSpeak Adaptive Spoken Dialogue Manager . Introducing Spoken Dialogue Systems into Intelligent Environments . Springer, New York: 65 - 111 .

Hillmann , S. , Englebrecht , K. 2016 . Modelling goal modifications in user simulation . Future and Emergent Trends in Language Technology. First International Workshop, FETLT 2015 , Springer, Seville: 149 - 159 .

KRISTINA: Knowledge-based information agent with social competence and human interaction capabilities . Programme H2020- EU.2.1.1 .4, id 645012. European Union.

Lison , P. , Kennington , C. 2016 . Opendial: A toolkit for developing spoken dialogue systems with probabilistic rules . En Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics-System Demonstrations , Berlin: 67 - 72 .

López-Cózar , R. , Callejas , Z. , Griol , D. 2010 . Using knowledge of misunderstandings to increase the robustness of spoken dialogue systems . Knowledge-Based Systems , 23 ( 5 ): 471 - 485 .

McTear , M.

2017 . The rise of the conversational interface: A new kid on the block? Future and Emerging Trends in Language Technology . Machine Learning and Big Data, FETLT 2016 , Springer, Seville: 38 - 49 .

McTear , M. , Callejas , Z. , Griol , D. 2016 . The conversational interface: Talking to smart devices , Springer. ISBN: 978 -3- 319 -32965- 9.

Paek , T. , Pieraccini , R. 2008 . Automating spoken dialogue management design using machine learning: an industry perspective . Speech Communication , 50 ( 8-9 ): 716 - 729 .

Rieser , V. , Lemon , O. 2011 . Reinforcement learning for adaptive dialogue systems: A data-driven methodology for dialogue management and natural language generation , Springer. ISBN: 978 -3- 642 - 24941-9.

ROCKIT: Roadmap for conversational interaction technologies . Programme FP7- ICT , id 611902 . European Union.

Skantze , D.

2007 . Error handling in spoken dialogue systems . Managing Uncertainty , Grounding and Miscommunication. PhD Thesis , KTH Royal Institute of Technology in Stockholm. ISBN: 978 -9- 171 -78788-0.

Thomson , B. , Young

2010 . Bayesian update of dialogue state: A POMDP framework for spoken dialogue systems . Computer Speech & Language , 24 : 562 - 588

Traum , D.

1994 . A computational theory of grounding in natural language conversation .

Traum , D. , Larsson

2000 . The information state approach to dialogue management . Current and New Directions in Discourse and Dialogue , Springer: 325 - 353 .

Tsung-Hsien

, Gasic

, Mrksic

, RojasBarahona L. M. , Pei-Hao

, Ultes , S. , Vandyke , D. , Young , S. 2016 . A networkbased end-to-end trainable taskoriented dialogue system . En Proceedings of the 15th Conference of the European Chapter of the Association for Computational Linguistics , 1 , Valencia: 438 - 449 .

Williams , J. D. , Zweig , G. 2016 . End-to-end LSTM-based dialog control optimized with supervised and reinforcement learning . arXiv preprint arXiv:1606 . 01269 .

Young , S. , 2014 . Statistical approaches to opendomain spoken dialogue systems . En Proceedings of the SIGDIAL 2014 Conference, page 1.

Young , S. , Gasic , M. , Thomson , B. , Williams , J. 2013 . POMDP-based Statistical Spoken Dialogue Systems: a Review . En Proceedings of the IEEE , 101 ( 5 ): 1160 - 1179 .