Sistemas Interativos Multimodales de Procesamiento del
                          Lenguaje Natural ∗
          Natural Language Processing Interactive Multimodal Systems
                               Elsa Cubel, Alejandro H. Toselli
                               Instituto Tecnológico de Informática
                               Universidad Politécnica de Valencia
                               Camino de Vera s/n, 46022, Valencia
                                   {ecubel, ahector}@iti.upv.es

        Resumen: En este trabajo se plantea una aproximación novedosa en la que los
        sistemas de PLN cooperan conjuntamente con el usuario en el procesamiento y con-
        secución satisfactoria de la tarea.
        Palabras clave: interacción multimodal, transcripción, traducción automática, re-
        cuperación de imágenes
        Abstract: In this work, a novel approach is introduced in which NLP systems
        cooperate together with users in the processing and satisfactory achievement of a
        given task.
        Keywords: multimodal interaction, transcription task, machine translation, image
        retrieval
    Resumen: En los últimos años ha                   recuperación de contenidos multimedia.
    tenido lugar un gran avance, tanto en
    el desarrollo de tecnologı́as multimodales
    interactivas como en el de interfaces             1.   Introducción
    avanzadas persona-máquina en el cam-
                                                          El Procesamiento del Lenguaje Natural
    po del procesamiento de lenguaje natural
                                                      (PLN) se ocupa de proveer métodos y técni-
    (PLN). Especialmente, las áreas del re-
                                                      cas que automáticamente faciliten la comu-
    conocimiento de formas y visión por com-
                                                      nicación entre personas o entre personas y
    putador vienen jugando un papel prepon-
                                                      máquinas por medio de lenguajes naturales.
    derante en el desarrollo de este tipo de
                                                      Entre las lı́neas de investigación o aplica-
    tecnologı́as e interfaces.
                                                      ciones atribuidas al PLN, podemos citar el
    Actualmente, se considera que la total au-        de la sı́ntesis del habla, reconocimiento de
    tomatización que presentan los sistemas          voz, traducción automática, reconocimiento
    tradicionales de PLN, no resulta lo más          de texto manuscrito, etc.
    conveniente cuando se requieren resulta-              Tradicionalmente, en estas lı́neas de inves-
    dos completamente libres de errores. Por          tigación, los métodos y técnicas de PLN uti-
    el contrario, en este trabajo se plantea          lizados se centraban en el desarrollo de apli-
    una aproximación novedosa en la que              caciones totalmente automatizadas. Sin em-
    los sistemas de PLN cooperan conjunta-            bargo, dado que los resultados de la mayorı́a
    mente con el usuario en el procesamiento          de las mismas distan mucho de ser perfectos,
    y consecución satisfactoria de la tarea.         una intervención humana experta (que de-
    Como ejemplos de esta aproximación               nominaremos usuario de ahora en adelante)
    novedosa, se describen algunas aplica-            era finalmente requerida para la validación de
    ciones muy usuales en PLN, como son               los mismos. En este caso, los usuarios suelen
    la transcripción de textos manuscritos y         utilizar las aplicaciones de PLN de este tipo,
    señal de audio, traducción automática y        dentro de un proceso de dos etapas: en primer
                                                      lugar, la aplicación procesa automáticamente
∗
  Trabajo financiado parcialmente por la EC (FED-     toda la tarea; y a continuación, el usuario re-
ER/FSE) y el MEC/MICINN español en el marco del      visa y corrige sus resultados para que la ca-
proyecto MIPRCV (CSD2007-00018) bajo el progra-
ma “Consolider Ingenio 2010”, los proyectos iTrans2
                                                      lidad final sea aceptable. Este proceso es lo
(TIN2009-14511) y MITTRAL (TIN2009-14633-C03-         que se conoce como post-edición. Este pro-
01).                                                  ceso, aunque permite obtener resultados de
calidad, resulta por lo general bastante inefi-      do en que se va a llevar a cabo la interacción
ciente e incómodo para el usuario, quien po-        aplicación-usuario conforme se va procesando
drı́a preferir prescindir de la salida de la apli-   una determinada tarea. En otras palabras, a
cación y procesar la tarea directamente desde       medida que la aplicación va mostrando re-
cero y por sı́ mismo.                                sultados parciales, el usuario podrá (median-
    Como alternativa, se propone un enfoque          te acciones) proceder a su validación, correc-
más pragmático, conocido como paradigma            ción, etc.; y, posteriormente, la aplicación, en
interactivo-predictivo (IP), en el cual tanto        base a estas acciones del usuario, podrá ofre-
la aplicación de PLN como el usuario cola-          cer nuevos resultados alternativos.
boran mutuamente para completar la tarea                 Las bases sobre las que se ha fundamen-
de manera eficiente. De este modo, se con-           tado la implementación de los prototipos son
sigue combinar en un mismo sistema, la efi-          las siguientes:
cacia (en términos de rapidez) de las aplica-
ciones de PLN tradicionales, con la precisión       i- Realimentación del usuario: Las
aportada por la experiencia del usuario. En          acciones correctivas propuestas progresiva-
este sentido, en la última década la demanda       mente por el usuario con cada propuesta
social e industrial de tecnologı́as interactivas     de resultados, son realimentadas al sistema
multimodales para el desarrollo de interfaces        introduciendo restricciones de contexto que
avanzadas hombre-máquina ha crecido con-            ayudan a sugerir nuevas propuestas de resul-
siderablemente. Especialmente, las áreas del        tados más precisas.
reconocimiento de formas y visión por com-
putador han venido jugando un papel pre-             ii-     Aprendizaje         adaptativo: Se
ponderante en el desarrollo de este tipo de          aprovechan las acciones correctivas in-
tecnologı́as e interfaces.                           troducidas por el usuario para adaptar
    En este trabajo presentamos varias tec-          progresivamente in situ los modelos de la
nologı́as IP-PLN, implementadas en diferen-          tarea, que serán utilizados por la aplicación
tes prototipos completamente funcionales de          para proponer mejores resultados.
aplicaciones, que muestran in situ los bene-
ficios de cada una de ellas. El desarrollo e         iii- Multimodalidad: La multimodalidad
implementación de estos prototipos se ha fo-        aparece en estos sistemas de forma natural.
calizado también en el paradigma de la multi-       Las acciones del usuario destinadas a corregir
modalidad, posibilitando que el usuario pueda        los resultados que son presentados por la apli-
interactuar de forma más natural y ergonómi-       cación en cada momento, pueden provenir de
ca con dichos prototipos.                            múltiples modos: desde las tradicionales pul-
                                                     saciones de teclado o movimientos del ratón
2.   Paradigma                                       a sistemas de reconocimiento del habla o de
     Interactivo-Predictivo                          gestos.
     Multimodal
   En el marco del proyecto nacional                 3.        Demostradores
“Multimodal Interaction in Pattern Recog-
nition and Computer Vision” (MIPRCV                     En esta sección se describen algunos de
Consolider-Ingenio 2010), se vienen desarro-         los prototipos de aplicaciones basados en
llando tecnologı́as bajo el nuevo paradigma          tecnologı́as IP-PLN multimodales desarrol-
IP multimodal del que hemos hablado. Todos           lados en el marco del proyecto nacional
los prototipos desarrollados en este proyec-         MIPRCV Consolider-Ingenio 20101 .Como se
to están basados en estas tecnologı́as y para       observará, todos estos sistemas funcionan si-
la mayorı́a de ellos (principalmente los rela-       guiendo el paradigma interactivo-predictivo
cionados con PLN) se ha establecido una for-         multimodal, el cual introduce totalmente al
ma de interacción común del usuario con los        usuario como una parte más del sistema.
mismos. El objetivo es poder emplear un mis-            Los prototipos comparten una arquitec-
mo protocolo de interacción con estos prototi-      tura cliente-servidor sobre Internet (Alabau
pos de aplicación, disminuyendo ası́ la carga       et al., 2009).
cognitiva del usuario y facilitando un rápi-
do aprendizaje en la utilización del sistema.
                                                          1
Básicamente, este protocolo establece el mo-                 http://miprcv.iti.upv.es
           Figura 1: Interfaces de prototipos MM-CATTI (izquierda) and CAST (derecha).

3.1.   Prototipos de Transcripción y              de señal de audio, denominado “Computer
       Traducción Interactiva                     Assisted Speech Transcription” (CAST) (ver
       Multimodal                                  figura 1 - centro), resulta de gran interés
                                                   en diversas aplicaciones como: subtitulado de
    En esta sección presentamos dos prototi-      programas de televisión, accesibilidad a per-
pos de transcripción, completamente fun-          sonas con discapacidad auditiva, búsquedas
cionales, destinados a la transcripción de        textuales de contenidos de audio, transcrip-
imágenes de texto manuscrito (Toselli et al.,     ciones de programas de radio, conferencias,
2009) y señal de audio (Rodrı́guez, Casacu-       sesiones judiciales, etc.
berta, y Vidal, 2007) respectivamente. Tam-
                                                      Para ambos prototipos, MM-CATTI y
bién presentamos un prototipo destinado a
                                                   CAST, de acuerdo a los resultados experi-
la traducción de textos (Casacuberta et al.,
                                                   mentales, cuando se compara el sistema de
2009). Todos estos prototipos se han desarro-
                                                   transcripción basada en el paradigma IP mul-
llado e implementado siguiendo el paradigma
                                                   timodal con una transcripción manual com-
IP multimodal que hemos presentado previ-
                                                   pleta, la reducción estimada de esfuerzo del
amente. En estos prototipos, el usuario in-
                                                   usuario está entre un 68 % y un 80 %.
teractúa con el sistema validando segmen-
tos correctos de transcripción/traducción y         Por otro lado, el prototipo web para la tra-
corrigiendo sus subsiguientes errores. A con-      ducción interactiva (ver figura 2 - izquierda),
tinuación, teniendo en cuenta estos segmen-       está disponible en: http://cat.iti.upv.es/imt.
tos validados y las correciones efectuadas,        Según los experimentos llevados a cabo con
el prototipo genera mejores sugerencias de         este prototipo, el usuario reducirı́a hasta en
transcripción/traducción en la siguiente in-     un 30 % el esfuerzo necesario hasta alcanzar
teracción. El usuario puede realizar las men-     la traducción correcta si lo comparamos a
cionadas validaciones y correcciones median-       la utilización de un sistema totalmente au-
te el teclado y ratón, o por medio de otras       tomático. Las aplicaciones que puede tener
modalidades de interacción más sofisticadas      este prototipo son múltiples: traducción de
como lápiz electrónico (escritura on-line) o     manuales, traducción de textos oficiales, tra-
reconocimiento del voz.                            ducción de páginas web, etc.
    El prototipo de transcripción de imágenes
                                                   3.2.   Prototipo de Recuperación
de texto manuscrito, denomindo “Mul-
timodal Computer Assisted Transcription
                                                          Interactiva de Contenidos
of Text Images” (MM-CATTI) (figura 1                      Multimedia
- izquierda), se encuentra accesible en:              En las consultas de colecciones con con-
http://catti.iti.upv.es. A través del mismo, se   tenidos multimedia, utilizando sistemas con-
podrá experimentar con la transcripción in-      vencionales de recuperación de información,
teractiva multimodal de documentos de difer-       se buscan aquellos contenidos que más se ase-
ente naturaleza: documentos manuscritos an-        mejan a la consulta realizada. Muchas ve-
tiguos (Cristo Salvador del siglo XIX), texto      ces la información recuperada con estos sis-
manuscrito moderno (IAMDB en inglés), es-         temas no cubre las expectativas del usuario;
critura manuscrita realizada en formularios        en parte debido a la propia falta de infor-
de encuestas, etc.                                 mación especı́fica de la consulta realizada.
    Por su parte, el prototipo de transcripción   Sin embargo, si se utiliza el paradigma IP
               Figura 2: Interfaces de prototipos CAT (izquierda) and RISE (derecha).

multimodal, el usuario puede proporcionar            audio, traducción de textos y recuperación de
una retroalimentación relevante sobre la ade-       contenidos multimedia.
cuación de la información recuperada.                 En todos los casos, se ha constatado que
   En http://rise.iti.upv.es puede experimen-        los prototipos diseñados bajo este nuevo
tarse con el prototipo web de recuperación          paradigma, reducen significativemente el es-
interactiva de contenidos multimedia (figu-          fuerzo que el usuario debe realizar para al-
ra 2 - derecha), denominado “Relevant Image          canzar un resultado correcto.
Search Engine” (RISE) (Cevikalp y Paredes,
2009). Este prototipo de aplicación es un bus-      Bibliografı́a
cador de imágenes donde, en primer lugar, el
                                                    [Alabau et al.2009] Alabau, V., D. Ortiz,
usuario introduce el término que desea bus-
                                                        V. Romero, y J. Ocampo. 2009. A mul-
car. La aplicación trabaja como un inter-
                                                        timodal predictive-interactive application
faz con Google Images, que es quien provee
                                                        for computer assisted transcription and
las imágenes a partir de los términos de la
                                                        translation. En ICMI-MLMI ’09: Proceed-
búsqueda que ha introducido el usuario. El
                                                        ings of the 2009 international conference
usuario selecciona aquellas imágenes que con-
                                                        on Multimodal interfaces, páginas 227–
sidera que más se ajustan a lo que desea
                                                        228, New York, NY, USA. ACM.
ver y a partir de entonces, iterativamente,
el sistema devolverá aquellas imágenes que        [Casacuberta et al.2009] Casacuberta,    F.,
sean más relevantes a partir de la selección          J. Civera, E. Cubel, A.L. Lagarda,
del usuario. A modo de ejemplo, en la figu-             G. Lapalme, E. Macklovitch, y E. Vidal.
ra 2 - derecha sabemos que el usuario pre-              2009. Human interaction for high quality
tende encontrar imágenes de perros que lle-            machine translation. Communications of
van collar. Cada vez que la aplicación mues-           the ACM, 52(10):135–138.
tra una respuesta, el usuario solamente selec-
cionará aquellas imágenes en las que aparez-      [Cevikalp y Paredes2009] Cevikalp, Hakan y
can perros con collar (las tres imágenes que           Roberto Paredes. 2009. Semi-supervised
aparecen seleccionadas en la figura). De es-            distance metric learning for visual object
ta forma, en pocas interacciones se con-                classification. En VISSAPP (1), páginas
seguirá que la aplicación solamente muestre           315–322.
imágenes que cumplan los requisitos del            [Rodrı́guez, Casacuberta, y Vidal2007]
usuario.                                               Rodrı́guez, L., F. Casacuberta, y E. Vidal.
                                                       2007. Computer Assisted Transcription of
4.   Conclusiones
                                                       Speech. En Proceedings of the 3rd Iberian
   En este trabajo se ha presentado el                 Conference on Pattern Recognition and
paradigma interactivo-predictivo multimodal            Image Analysis, volumen 4477 de LNCS,
bajo el cual, un sistema de PLN facilita               páginas 241–248, Girona (Spain), June.
y colabora conjuntamente con el usuario
en la producción de resultados de alta ca-         [Toselli et al.2009] Toselli, Alejandro H.,
lidad. En este contexto, se han presenta-               Verónica Romero, Moisés Pastor, y
do diversos prototipos, completamente fun-              Enrique Vidal. 2009. Multimodal interac-
cionales, que ejemplifican áreas de aplicación        tive transcription of text images. Pattern
de gran interés e importancia: transcripción          Recognition, 43(5):1814–1825.
de imágenes de texto manuscrito y señal de