-

Sistemas Interativos Multimodales de Procesamiento del Lenguaje Natural

Elsa Cubel

Alejandro H. Toselli

0 0 Instituto Tecnologico de Informatica Universidad Politecnica de Valencia Camino de Vera

s/n, 46022, Valencia

2007

In this work, a novel approach is introduced in which NLP systems cooperate together with users in the processing and satisfactory achievement of a given task.

Trabajo nanciado parcialmente por la EC (FEDER/FSE) y el MEC/MICINN espan~ol en el marco del proyecto MIPRCV (CSD2007-00018) bajo el programa \Consolider Ingenio 2010", los proyectos iTrans2 (TIN2009-14511) y MITTRAL (TIN2009-14633-C0301).

recuperacion de contenidos multimedia. 1.

Introduccion

El Procesamiento del Lenguaje Natural (PLN) se ocupa de proveer metodos y tecnicas que automaticamente faciliten la comunicacion entre personas o entre personas y maquinas por medio de lenguajes naturales. Entre las l neas de investigacion o aplicaciones atribuidas al PLN, podemos citar el de la s ntesis del habla, reconocimiento de voz, traduccion automatica, reconocimiento de texto manuscrito, etc.

Tradicionalmente, en estas l neas de investigacion, los metodos y tecnicas de PLN utilizados se centraban en el desarrollo de aplicaciones totalmente automatizadas. Sin embargo, dado que los resultados de la mayor a de las mismas distan mucho de ser perfectos, una intervencion humana experta (que denominaremos usuario de ahora en adelante) era nalmente requerida para la validacion de los mismos. En este caso, los usuarios suelen utilizar las aplicaciones de PLN de este tipo, dentro de un proceso de dos etapas: en primer lugar, la aplicacion procesa automaticamente toda la tarea; y a continuacion, el usuario revisa y corrige sus resultados para que la calidad nal sea aceptable. Este proceso es lo que se conoce como post-edicion. Este proceso, aunque permite obtener resultados de calidad, resulta por lo general bastante ine ciente e incomodo para el usuario, quien podr a preferir prescindir de la salida de la aplicacion y procesar la tarea directamente desde cero y por s mismo.

Como alternativa, se propone un enfoque mas pragmatico, conocido como paradigma interactivo-predictivo (IP), en el cual tanto la aplicacion de PLN como el usuario colaboran mutuamente para completar la tarea de manera e ciente. De este modo, se consigue combinar en un mismo sistema, la e cacia (en terminos de rapidez) de las aplicaciones de PLN tradicionales, con la precision aportada por la experiencia del usuario. En este sentido, en la ultima decada la demanda social e industrial de tecnolog as interactivas multimodales para el desarrollo de interfaces avanzadas hombre-maquina ha crecido considerablemente. Especialmente, las areas del reconocimiento de formas y vision por computador han venido jugando un papel preponderante en el desarrollo de este tipo de tecnolog as e interfaces.

En este trabajo presentamos varias tecnolog as IP-PLN, implementadas en diferentes prototipos completamente funcionales de aplicaciones, que muestran in situ los benecios de cada una de ellas. El desarrollo e implementacion de estos prototipos se ha focalizado tambien en el paradigma de la multimodalidad, posibilitando que el usuario pueda interactuar de forma mas natural y ergonomica con dichos prototipos.

Paradigma Interactivo-Predictivo Multimodal

En el marco del proyecto nacional \Multimodal Interaction in Pattern Recognition and Computer Vision" (MIPRCV Consolider-Ingenio 2010), se vienen desarrollando tecnolog as bajo el nuevo paradigma IP multimodal del que hemos hablado. Todos los prototipos desarrollados en este proyecto estan basados en estas tecnolog as y para la mayor a de ellos (principalmente los relacionados con PLN) se ha establecido una forma de interaccion comun del usuario con los mismos. El objetivo es poder emplear un mismo protocolo de interaccion con estos prototipos de aplicacion, disminuyendo as la carga cognitiva del usuario y facilitando un rapido aprendizaje en la utilizacion del sistema. Basicamente, este protocolo establece el modo en que se va a llevar a cabo la interaccion aplicacion-usuario conforme se va procesando una determinada tarea. En otras palabras, a medida que la aplicacion va mostrando resultados parciales, el usuario podra (mediante acciones) proceder a su validacion, correccion, etc.; y, posteriormente, la aplicacion, en base a estas acciones del usuario, podra ofrecer nuevos resultados alternativos.

Las bases sobre las que se ha fundamentado la implementacion de los prototipos son las siguientes: i- Realimentacion del usuario: Las acciones correctivas propuestas progresivamente por el usuario con cada propuesta de resultados, son realimentadas al sistema introduciendo restricciones de contexto que ayudan a sugerir nuevas propuestas de resultados mas precisas. ii- Aprendizaje adaptativo: Se aprovechan las acciones correctivas introducidas por el usuario para adaptar progresivamente in situ los modelos de la tarea, que seran utilizados por la aplicacion para proponer mejores resultados. iii- Multimodalidad: La multimodalidad aparece en estos sistemas de forma natural. Las acciones del usuario destinadas a corregir los resultados que son presentados por la aplicacion en cada momento, pueden provenir de multiples modos: desde las tradicionales pulsaciones de teclado o movimientos del raton a sistemas de reconocimiento del habla o de gestos. 3.

Demostradores

En esta seccion se describen algunos de los prototipos de aplicaciones basados en tecnolog as IP-PLN multimodales desarrollados en el marco del proyecto nacional MIPRCV Consolider-Ingenio 20101.Como se observara, todos estos sistemas funcionan siguiendo el paradigma interactivo-predictivo multimodal, el cual introduce totalmente al usuario como una parte mas del sistema.

Los prototipos comparten una arquitectura cliente-servidor sobre Internet (Alabau et al., 2009).

1http://miprcv.iti.upv.es

Figura 1: Interfaces de prototipos MM-CATTI (izquierda) and CAST (derecha). 3.1.

Prototipos de Transcripcion y Traduccion Interactiva Multimodal

En esta seccion presentamos dos prototipos de transcripcion, completamente funcionales, destinados a la transcripcion de imagenes de texto manuscrito (Toselli et al., 2009) y sen~al de audio (Rodr guez, Casacuberta, y Vidal, 2007) respectivamente. Tambien presentamos un prototipo destinado a la traduccion de textos (Casacuberta et al., 2009). Todos estos prototipos se han desarrollado e implementado siguiendo el paradigma IP multimodal que hemos presentado previamente. En estos prototipos, el usuario interactua con el sistema validando segmentos correctos de transcripcion/traduccion y corrigiendo sus subsiguientes errores. A continuacion, teniendo en cuenta estos segmentos validados y las correciones efectuadas, el prototipo genera mejores sugerencias de transcripcion/traduccion en la siguiente interaccion. El usuario puede realizar las mencionadas validaciones y correcciones mediante el teclado y raton, o por medio de otras modalidades de interaccion mas so sticadas como lapiz electronico (escritura on-line) o reconocimiento del voz.

El prototipo de transcripcion de imagenes de texto manuscrito, denomindo \Multimodal Computer Assisted Transcription of Text Images" (MM-CATTI) ( gura 1 - izquierda), se encuentra accesible en: http://catti.iti.upv.es. A traves del mismo, se podra experimentar con la transcripcion interactiva multimodal de documentos de diferente naturaleza: documentos manuscritos antiguos (Cristo Salvador del siglo XIX), texto manuscrito moderno (IAMDB en ingles), escritura manuscrita realizada en formularios de encuestas, etc.

Por su parte, el prototipo de transcripcion de sen~al de audio, denominado \Computer Assisted Speech Transcription" (CAST) (ver gura 1 - centro), resulta de gran interes en diversas aplicaciones como: subtitulado de programas de television, accesibilidad a personas con discapacidad auditiva, busquedas textuales de contenidos de audio, transcripciones de programas de radio, conferencias, sesiones judiciales, etc.

Para ambos prototipos, MM-CATTI y CAST, de acuerdo a los resultados experimentales, cuando se compara el sistema de transcripcion basada en el paradigma IP multimodal con una transcripcion manual completa, la reduccion estimada de esfuerzo del usuario esta entre un 68 % y un 80 %.

Por otro lado, el prototipo web para la traduccion interactiva (ver gura 2 - izquierda), esta disponible en: http://cat.iti.upv.es/imt. Segun los experimentos llevados a cabo con este prototipo, el usuario reducir a hasta en un 30 % el esfuerzo necesario hasta alcanzar la traduccion correcta si lo comparamos a la utilizacion de un sistema totalmente automatico. Las aplicaciones que puede tener este prototipo son multiples: traduccion de manuales, traduccion de textos o ciales, traduccion de paginas web, etc. 3.2.

Prototipo de Recuperacion Interactiva de Contenidos Multimedia

En las consultas de colecciones con contenidos multimedia, utilizando sistemas convencionales de recuperacion de informacion, se buscan aquellos contenidos que mas se asemejan a la consulta realizada. Muchas veces la informacion recuperada con estos sistemas no cubre las expectativas del usuario; en parte debido a la propia falta de informacion espec ca de la consulta realizada.

Sin embargo, si se utiliza el paradigma IP

Figura 2: Interfaces de prototipos CAT (izquierda) and RISE (derecha). multimodal, el usuario puede proporcionar una retroalimentacion relevante sobre la adecuacion de la informacion recuperada.

En http://rise.iti.upv.es puede experimentarse con el prototipo web de recuperacion interactiva de contenidos multimedia ( gura 2 - derecha), denominado \Relevant Image Search Engine" (RISE) (Cevikalp y Paredes, 2009). Este prototipo de aplicacion es un buscador de imagenes donde, en primer lugar, el usuario introduce el termino que desea buscar. La aplicacion trabaja como un interfaz con Google Images, que es quien provee las imagenes a partir de los terminos de la busqueda que ha introducido el usuario. El usuario selecciona aquellas imagenes que considera que mas se ajustan a lo que desea ver y a partir de entonces, iterativamente, el sistema devolvera aquellas imagenes que sean mas relevantes a partir de la seleccion del usuario. A modo de ejemplo, en la gura 2 - derecha sabemos que el usuario pretende encontrar imagenes de perros que llevan collar. Cada vez que la aplicacion muestra una respuesta, el usuario solamente seleccionara aquellas imagenes en las que aparezcan perros con collar (las tres imagenes que aparecen seleccionadas en la gura). De esta forma, en pocas interacciones se conseguira que la aplicacion solamente muestre imagenes que cumplan los requisitos del usuario.

Conclusiones

En este trabajo se ha presentado el paradigma interactivo-predictivo multimodal bajo el cual, un sistema de PLN facilita y colabora conjuntamente con el usuario en la produccion de resultados de alta calidad. En este contexto, se han presentado diversos prototipos, completamente funcionales, que ejempli can areas de aplicacion de gran interes e importancia: transcripcion de imagenes de texto manuscrito y sen~al de audio, traduccion de textos y recuperacion de contenidos multimedia.

En todos los casos, se ha constatado que los prototipos disen~ados bajo este nuevo paradigma, reducen signi cativemente el esfuerzo que el usuario debe realizar para alcanzar un resultado correcto.

Bibliograf a

[Alabau et al.2009] Alabau, V., D. Ortiz, V. Romero, y J. Ocampo. 2009. A multimodal predictive-interactive application for computer assisted transcription and translation. En ICMI-MLMI '09: Proceedings of the 2009 international conference on Multimodal interfaces, paginas 227{ 228, New York, NY, USA. ACM. [Cevikalp y Paredes2009] Cevikalp, Hakan y Roberto Paredes. 2009. Semi-supervised distance metric learning for visual object classi cation. En VISSAPP (1), paginas 315{322. [Toselli et al.2009] Toselli, Alejandro H., Veronica Romero, Moises Pastor, y Enrique Vidal. 2009. Multimodal interactive transcription of text images. Pattern Recognition, 43(5):1814{1825.