Sistemas Interativos Multimodales de Procesamiento del Lenguaje Natural ∗ Natural Language Processing Interactive Multimodal Systems Elsa Cubel, Alejandro H. Toselli Instituto Tecnológico de Informática Universidad Politécnica de Valencia Camino de Vera s/n, 46022, Valencia {ecubel, ahector}@iti.upv.es Resumen: En este trabajo se plantea una aproximación novedosa en la que los sistemas de PLN cooperan conjuntamente con el usuario en el procesamiento y con- secución satisfactoria de la tarea. Palabras clave: interacción multimodal, transcripción, traducción automática, re- cuperación de imágenes Abstract: In this work, a novel approach is introduced in which NLP systems cooperate together with users in the processing and satisfactory achievement of a given task. Keywords: multimodal interaction, transcription task, machine translation, image retrieval Resumen: En los últimos años ha recuperación de contenidos multimedia. tenido lugar un gran avance, tanto en el desarrollo de tecnologı́as multimodales interactivas como en el de interfaces 1. Introducción avanzadas persona-máquina en el cam- El Procesamiento del Lenguaje Natural po del procesamiento de lenguaje natural (PLN) se ocupa de proveer métodos y técni- (PLN). Especialmente, las áreas del re- cas que automáticamente faciliten la comu- conocimiento de formas y visión por com- nicación entre personas o entre personas y putador vienen jugando un papel prepon- máquinas por medio de lenguajes naturales. derante en el desarrollo de este tipo de Entre las lı́neas de investigación o aplica- tecnologı́as e interfaces. ciones atribuidas al PLN, podemos citar el Actualmente, se considera que la total au- de la sı́ntesis del habla, reconocimiento de tomatización que presentan los sistemas voz, traducción automática, reconocimiento tradicionales de PLN, no resulta lo más de texto manuscrito, etc. conveniente cuando se requieren resulta- Tradicionalmente, en estas lı́neas de inves- dos completamente libres de errores. Por tigación, los métodos y técnicas de PLN uti- el contrario, en este trabajo se plantea lizados se centraban en el desarrollo de apli- una aproximación novedosa en la que caciones totalmente automatizadas. Sin em- los sistemas de PLN cooperan conjunta- bargo, dado que los resultados de la mayorı́a mente con el usuario en el procesamiento de las mismas distan mucho de ser perfectos, y consecución satisfactoria de la tarea. una intervención humana experta (que de- Como ejemplos de esta aproximación nominaremos usuario de ahora en adelante) novedosa, se describen algunas aplica- era finalmente requerida para la validación de ciones muy usuales en PLN, como son los mismos. En este caso, los usuarios suelen la transcripción de textos manuscritos y utilizar las aplicaciones de PLN de este tipo, señal de audio, traducción automática y dentro de un proceso de dos etapas: en primer lugar, la aplicación procesa automáticamente ∗ Trabajo financiado parcialmente por la EC (FED- toda la tarea; y a continuación, el usuario re- ER/FSE) y el MEC/MICINN español en el marco del visa y corrige sus resultados para que la ca- proyecto MIPRCV (CSD2007-00018) bajo el progra- ma “Consolider Ingenio 2010”, los proyectos iTrans2 lidad final sea aceptable. Este proceso es lo (TIN2009-14511) y MITTRAL (TIN2009-14633-C03- que se conoce como post-edición. Este pro- 01). ceso, aunque permite obtener resultados de calidad, resulta por lo general bastante inefi- do en que se va a llevar a cabo la interacción ciente e incómodo para el usuario, quien po- aplicación-usuario conforme se va procesando drı́a preferir prescindir de la salida de la apli- una determinada tarea. En otras palabras, a cación y procesar la tarea directamente desde medida que la aplicación va mostrando re- cero y por sı́ mismo. sultados parciales, el usuario podrá (median- Como alternativa, se propone un enfoque te acciones) proceder a su validación, correc- más pragmático, conocido como paradigma ción, etc.; y, posteriormente, la aplicación, en interactivo-predictivo (IP), en el cual tanto base a estas acciones del usuario, podrá ofre- la aplicación de PLN como el usuario cola- cer nuevos resultados alternativos. boran mutuamente para completar la tarea Las bases sobre las que se ha fundamen- de manera eficiente. De este modo, se con- tado la implementación de los prototipos son sigue combinar en un mismo sistema, la efi- las siguientes: cacia (en términos de rapidez) de las aplica- ciones de PLN tradicionales, con la precisión i- Realimentación del usuario: Las aportada por la experiencia del usuario. En acciones correctivas propuestas progresiva- este sentido, en la última década la demanda mente por el usuario con cada propuesta social e industrial de tecnologı́as interactivas de resultados, son realimentadas al sistema multimodales para el desarrollo de interfaces introduciendo restricciones de contexto que avanzadas hombre-máquina ha crecido con- ayudan a sugerir nuevas propuestas de resul- siderablemente. Especialmente, las áreas del tados más precisas. reconocimiento de formas y visión por com- putador han venido jugando un papel pre- ii- Aprendizaje adaptativo: Se ponderante en el desarrollo de este tipo de aprovechan las acciones correctivas in- tecnologı́as e interfaces. troducidas por el usuario para adaptar En este trabajo presentamos varias tec- progresivamente in situ los modelos de la nologı́as IP-PLN, implementadas en diferen- tarea, que serán utilizados por la aplicación tes prototipos completamente funcionales de para proponer mejores resultados. aplicaciones, que muestran in situ los bene- ficios de cada una de ellas. El desarrollo e iii- Multimodalidad: La multimodalidad implementación de estos prototipos se ha fo- aparece en estos sistemas de forma natural. calizado también en el paradigma de la multi- Las acciones del usuario destinadas a corregir modalidad, posibilitando que el usuario pueda los resultados que son presentados por la apli- interactuar de forma más natural y ergonómi- cación en cada momento, pueden provenir de ca con dichos prototipos. múltiples modos: desde las tradicionales pul- saciones de teclado o movimientos del ratón 2. Paradigma a sistemas de reconocimiento del habla o de Interactivo-Predictivo gestos. Multimodal En el marco del proyecto nacional 3. Demostradores “Multimodal Interaction in Pattern Recog- nition and Computer Vision” (MIPRCV En esta sección se describen algunos de Consolider-Ingenio 2010), se vienen desarro- los prototipos de aplicaciones basados en llando tecnologı́as bajo el nuevo paradigma tecnologı́as IP-PLN multimodales desarrol- IP multimodal del que hemos hablado. Todos lados en el marco del proyecto nacional los prototipos desarrollados en este proyec- MIPRCV Consolider-Ingenio 20101 .Como se to están basados en estas tecnologı́as y para observará, todos estos sistemas funcionan si- la mayorı́a de ellos (principalmente los rela- guiendo el paradigma interactivo-predictivo cionados con PLN) se ha establecido una for- multimodal, el cual introduce totalmente al ma de interacción común del usuario con los usuario como una parte más del sistema. mismos. El objetivo es poder emplear un mis- Los prototipos comparten una arquitec- mo protocolo de interacción con estos prototi- tura cliente-servidor sobre Internet (Alabau pos de aplicación, disminuyendo ası́ la carga et al., 2009). cognitiva del usuario y facilitando un rápi- do aprendizaje en la utilización del sistema. 1 Básicamente, este protocolo establece el mo- http://miprcv.iti.upv.es Figura 1: Interfaces de prototipos MM-CATTI (izquierda) and CAST (derecha). 3.1. Prototipos de Transcripción y de señal de audio, denominado “Computer Traducción Interactiva Assisted Speech Transcription” (CAST) (ver Multimodal figura 1 - centro), resulta de gran interés en diversas aplicaciones como: subtitulado de En esta sección presentamos dos prototi- programas de televisión, accesibilidad a per- pos de transcripción, completamente fun- sonas con discapacidad auditiva, búsquedas cionales, destinados a la transcripción de textuales de contenidos de audio, transcrip- imágenes de texto manuscrito (Toselli et al., ciones de programas de radio, conferencias, 2009) y señal de audio (Rodrı́guez, Casacu- sesiones judiciales, etc. berta, y Vidal, 2007) respectivamente. Tam- Para ambos prototipos, MM-CATTI y bién presentamos un prototipo destinado a CAST, de acuerdo a los resultados experi- la traducción de textos (Casacuberta et al., mentales, cuando se compara el sistema de 2009). Todos estos prototipos se han desarro- transcripción basada en el paradigma IP mul- llado e implementado siguiendo el paradigma timodal con una transcripción manual com- IP multimodal que hemos presentado previ- pleta, la reducción estimada de esfuerzo del amente. En estos prototipos, el usuario in- usuario está entre un 68 % y un 80 %. teractúa con el sistema validando segmen- tos correctos de transcripción/traducción y Por otro lado, el prototipo web para la tra- corrigiendo sus subsiguientes errores. A con- ducción interactiva (ver figura 2 - izquierda), tinuación, teniendo en cuenta estos segmen- está disponible en: http://cat.iti.upv.es/imt. tos validados y las correciones efectuadas, Según los experimentos llevados a cabo con el prototipo genera mejores sugerencias de este prototipo, el usuario reducirı́a hasta en transcripción/traducción en la siguiente in- un 30 % el esfuerzo necesario hasta alcanzar teracción. El usuario puede realizar las men- la traducción correcta si lo comparamos a cionadas validaciones y correcciones median- la utilización de un sistema totalmente au- te el teclado y ratón, o por medio de otras tomático. Las aplicaciones que puede tener modalidades de interacción más sofisticadas este prototipo son múltiples: traducción de como lápiz electrónico (escritura on-line) o manuales, traducción de textos oficiales, tra- reconocimiento del voz. ducción de páginas web, etc. El prototipo de transcripción de imágenes 3.2. Prototipo de Recuperación de texto manuscrito, denomindo “Mul- timodal Computer Assisted Transcription Interactiva de Contenidos of Text Images” (MM-CATTI) (figura 1 Multimedia - izquierda), se encuentra accesible en: En las consultas de colecciones con con- http://catti.iti.upv.es. A través del mismo, se tenidos multimedia, utilizando sistemas con- podrá experimentar con la transcripción in- vencionales de recuperación de información, teractiva multimodal de documentos de difer- se buscan aquellos contenidos que más se ase- ente naturaleza: documentos manuscritos an- mejan a la consulta realizada. Muchas ve- tiguos (Cristo Salvador del siglo XIX), texto ces la información recuperada con estos sis- manuscrito moderno (IAMDB en inglés), es- temas no cubre las expectativas del usuario; critura manuscrita realizada en formularios en parte debido a la propia falta de infor- de encuestas, etc. mación especı́fica de la consulta realizada. Por su parte, el prototipo de transcripción Sin embargo, si se utiliza el paradigma IP Figura 2: Interfaces de prototipos CAT (izquierda) and RISE (derecha). multimodal, el usuario puede proporcionar audio, traducción de textos y recuperación de una retroalimentación relevante sobre la ade- contenidos multimedia. cuación de la información recuperada. En todos los casos, se ha constatado que En http://rise.iti.upv.es puede experimen- los prototipos diseñados bajo este nuevo tarse con el prototipo web de recuperación paradigma, reducen significativemente el es- interactiva de contenidos multimedia (figu- fuerzo que el usuario debe realizar para al- ra 2 - derecha), denominado “Relevant Image canzar un resultado correcto. Search Engine” (RISE) (Cevikalp y Paredes, 2009). Este prototipo de aplicación es un bus- Bibliografı́a cador de imágenes donde, en primer lugar, el [Alabau et al.2009] Alabau, V., D. Ortiz, usuario introduce el término que desea bus- V. Romero, y J. Ocampo. 2009. A mul- car. La aplicación trabaja como un inter- timodal predictive-interactive application faz con Google Images, que es quien provee for computer assisted transcription and las imágenes a partir de los términos de la translation. En ICMI-MLMI ’09: Proceed- búsqueda que ha introducido el usuario. El ings of the 2009 international conference usuario selecciona aquellas imágenes que con- on Multimodal interfaces, páginas 227– sidera que más se ajustan a lo que desea 228, New York, NY, USA. ACM. ver y a partir de entonces, iterativamente, el sistema devolverá aquellas imágenes que [Casacuberta et al.2009] Casacuberta, F., sean más relevantes a partir de la selección J. Civera, E. Cubel, A.L. Lagarda, del usuario. A modo de ejemplo, en la figu- G. Lapalme, E. Macklovitch, y E. Vidal. ra 2 - derecha sabemos que el usuario pre- 2009. Human interaction for high quality tende encontrar imágenes de perros que lle- machine translation. Communications of van collar. Cada vez que la aplicación mues- the ACM, 52(10):135–138. tra una respuesta, el usuario solamente selec- cionará aquellas imágenes en las que aparez- [Cevikalp y Paredes2009] Cevikalp, Hakan y can perros con collar (las tres imágenes que Roberto Paredes. 2009. Semi-supervised aparecen seleccionadas en la figura). De es- distance metric learning for visual object ta forma, en pocas interacciones se con- classification. En VISSAPP (1), páginas seguirá que la aplicación solamente muestre 315–322. imágenes que cumplan los requisitos del [Rodrı́guez, Casacuberta, y Vidal2007] usuario. Rodrı́guez, L., F. Casacuberta, y E. Vidal. 2007. Computer Assisted Transcription of 4. Conclusiones Speech. En Proceedings of the 3rd Iberian En este trabajo se ha presentado el Conference on Pattern Recognition and paradigma interactivo-predictivo multimodal Image Analysis, volumen 4477 de LNCS, bajo el cual, un sistema de PLN facilita páginas 241–248, Girona (Spain), June. y colabora conjuntamente con el usuario en la producción de resultados de alta ca- [Toselli et al.2009] Toselli, Alejandro H., lidad. En este contexto, se han presenta- Verónica Romero, Moisés Pastor, y do diversos prototipos, completamente fun- Enrique Vidal. 2009. Multimodal interac- cionales, que ejemplifican áreas de aplicación tive transcription of text images. Pattern de gran interés e importancia: transcripción Recognition, 43(5):1814–1825. de imágenes de texto manuscrito y señal de