<!DOCTYPE article PUBLIC "-//NLM//DTD JATS (Z39.96) Journal Archiving and Interchange DTD v1.0 20120330//EN" "JATS-archivearticle1.dtd">
<article xmlns:xlink="http://www.w3.org/1999/xlink">
  <front>
    <journal-meta />
    <article-meta>
      <title-group>
        <article-title>Sistemas Interativos Multimodales de Procesamiento del Lenguaje Natural</article-title>
      </title-group>
      <contrib-group>
        <contrib contrib-type="author">
          <string-name>Elsa Cubel</string-name>
          <xref ref-type="aff" rid="aff0">0</xref>
        </contrib>
        <contrib contrib-type="author">
          <string-name>Alejandro H. Toselli</string-name>
          <xref ref-type="aff" rid="aff0">0</xref>
        </contrib>
        <aff id="aff0">
          <label>0</label>
          <institution>Instituto Tecnologico de Informatica Universidad Politecnica de Valencia Camino de Vera</institution>
          <addr-line>s/n, 46022, Valencia</addr-line>
        </aff>
      </contrib-group>
      <pub-date>
        <year>2007</year>
      </pub-date>
      <abstract>
        <p>In this work, a novel approach is introduced in which NLP systems cooperate together with users in the processing and satisfactory achievement of a given task.</p>
      </abstract>
    </article-meta>
  </front>
  <body>
    <sec id="sec-1">
      <title>-</title>
      <p>Trabajo nanciado parcialmente por la EC
(FEDER/FSE) y el MEC/MICINN espan~ol en el marco del
proyecto MIPRCV (CSD2007-00018) bajo el
programa \Consolider Ingenio 2010", los proyectos iTrans2
(TIN2009-14511) y MITTRAL
(TIN2009-14633-C0301).</p>
      <p>recuperacion de contenidos multimedia.
1.</p>
    </sec>
    <sec id="sec-2">
      <title>Introduccion</title>
      <p>El Procesamiento del Lenguaje Natural
(PLN) se ocupa de proveer metodos y
tecnicas que automaticamente faciliten la
comunicacion entre personas o entre personas y
maquinas por medio de lenguajes naturales.
Entre las l neas de investigacion o
aplicaciones atribuidas al PLN, podemos citar el
de la s ntesis del habla, reconocimiento de
voz, traduccion automatica, reconocimiento
de texto manuscrito, etc.</p>
      <p>Tradicionalmente, en estas l neas de
investigacion, los metodos y tecnicas de PLN
utilizados se centraban en el desarrollo de
aplicaciones totalmente automatizadas. Sin
embargo, dado que los resultados de la mayor a
de las mismas distan mucho de ser perfectos,
una intervencion humana experta (que
denominaremos usuario de ahora en adelante)
era nalmente requerida para la validacion de
los mismos. En este caso, los usuarios suelen
utilizar las aplicaciones de PLN de este tipo,
dentro de un proceso de dos etapas: en primer
lugar, la aplicacion procesa automaticamente
toda la tarea; y a continuacion, el usuario
revisa y corrige sus resultados para que la
calidad nal sea aceptable. Este proceso es lo
que se conoce como post-edicion. Este
proceso, aunque permite obtener resultados de
calidad, resulta por lo general bastante ine
ciente e incomodo para el usuario, quien
podr a preferir prescindir de la salida de la
aplicacion y procesar la tarea directamente desde
cero y por s mismo.</p>
      <p>Como alternativa, se propone un enfoque
mas pragmatico, conocido como paradigma
interactivo-predictivo (IP), en el cual tanto
la aplicacion de PLN como el usuario
colaboran mutuamente para completar la tarea
de manera e ciente. De este modo, se
consigue combinar en un mismo sistema, la e
cacia (en terminos de rapidez) de las
aplicaciones de PLN tradicionales, con la precision
aportada por la experiencia del usuario. En
este sentido, en la ultima decada la demanda
social e industrial de tecnolog as interactivas
multimodales para el desarrollo de interfaces
avanzadas hombre-maquina ha crecido
considerablemente. Especialmente, las areas del
reconocimiento de formas y vision por
computador han venido jugando un papel
preponderante en el desarrollo de este tipo de
tecnolog as e interfaces.</p>
      <p>En este trabajo presentamos varias
tecnolog as IP-PLN, implementadas en
diferentes prototipos completamente funcionales de
aplicaciones, que muestran in situ los
benecios de cada una de ellas. El desarrollo e
implementacion de estos prototipos se ha
focalizado tambien en el paradigma de la
multimodalidad, posibilitando que el usuario pueda
interactuar de forma mas natural y
ergonomica con dichos prototipos.</p>
    </sec>
    <sec id="sec-3">
      <title>Paradigma</title>
    </sec>
    <sec id="sec-4">
      <title>Interactivo-Predictivo</title>
    </sec>
    <sec id="sec-5">
      <title>Multimodal</title>
      <p>En el marco del proyecto nacional
\Multimodal Interaction in Pattern
Recognition and Computer Vision" (MIPRCV
Consolider-Ingenio 2010), se vienen
desarrollando tecnolog as bajo el nuevo paradigma
IP multimodal del que hemos hablado. Todos
los prototipos desarrollados en este
proyecto estan basados en estas tecnolog as y para
la mayor a de ellos (principalmente los
relacionados con PLN) se ha establecido una
forma de interaccion comun del usuario con los
mismos. El objetivo es poder emplear un
mismo protocolo de interaccion con estos
prototipos de aplicacion, disminuyendo as la carga
cognitiva del usuario y facilitando un
rapido aprendizaje en la utilizacion del sistema.
Basicamente, este protocolo establece el
modo en que se va a llevar a cabo la interaccion
aplicacion-usuario conforme se va procesando
una determinada tarea. En otras palabras, a
medida que la aplicacion va mostrando
resultados parciales, el usuario podra
(mediante acciones) proceder a su validacion,
correccion, etc.; y, posteriormente, la aplicacion, en
base a estas acciones del usuario, podra
ofrecer nuevos resultados alternativos.</p>
      <p>Las bases sobre las que se ha
fundamentado la implementacion de los prototipos son
las siguientes:
i- Realimentacion del usuario: Las
acciones correctivas propuestas
progresivamente por el usuario con cada propuesta
de resultados, son realimentadas al sistema
introduciendo restricciones de contexto que
ayudan a sugerir nuevas propuestas de
resultados mas precisas.
ii- Aprendizaje adaptativo: Se
aprovechan las acciones correctivas
introducidas por el usuario para adaptar
progresivamente in situ los modelos de la
tarea, que seran utilizados por la aplicacion
para proponer mejores resultados.
iii- Multimodalidad: La multimodalidad
aparece en estos sistemas de forma natural.
Las acciones del usuario destinadas a corregir
los resultados que son presentados por la
aplicacion en cada momento, pueden provenir de
multiples modos: desde las tradicionales
pulsaciones de teclado o movimientos del raton
a sistemas de reconocimiento del habla o de
gestos.
3.</p>
    </sec>
    <sec id="sec-6">
      <title>Demostradores</title>
      <p>En esta seccion se describen algunos de
los prototipos de aplicaciones basados en
tecnolog as IP-PLN multimodales
desarrollados en el marco del proyecto nacional
MIPRCV Consolider-Ingenio 20101.Como se
observara, todos estos sistemas funcionan
siguiendo el paradigma interactivo-predictivo
multimodal, el cual introduce totalmente al
usuario como una parte mas del sistema.</p>
      <p>Los prototipos comparten una
arquitectura cliente-servidor sobre Internet (Alabau
et al., 2009).</p>
      <p>1http://miprcv.iti.upv.es</p>
      <p>Figura 1: Interfaces de prototipos MM-CATTI (izquierda) and CAST (derecha).
3.1.</p>
      <sec id="sec-6-1">
        <title>Prototipos de Transcripcion y Traduccion Interactiva Multimodal</title>
        <p>En esta seccion presentamos dos
prototipos de transcripcion, completamente
funcionales, destinados a la transcripcion de
imagenes de texto manuscrito (Toselli et al.,
2009) y sen~al de audio (Rodr guez,
Casacuberta, y Vidal, 2007) respectivamente.
Tambien presentamos un prototipo destinado a
la traduccion de textos (Casacuberta et al.,
2009). Todos estos prototipos se han
desarrollado e implementado siguiendo el paradigma
IP multimodal que hemos presentado
previamente. En estos prototipos, el usuario
interactua con el sistema validando
segmentos correctos de transcripcion/traduccion y
corrigiendo sus subsiguientes errores. A
continuacion, teniendo en cuenta estos
segmentos validados y las correciones efectuadas,
el prototipo genera mejores sugerencias de
transcripcion/traduccion en la siguiente
interaccion. El usuario puede realizar las
mencionadas validaciones y correcciones
mediante el teclado y raton, o por medio de otras
modalidades de interaccion mas so sticadas
como lapiz electronico (escritura on-line) o
reconocimiento del voz.</p>
        <p>El prototipo de transcripcion de imagenes
de texto manuscrito, denomindo
\Multimodal Computer Assisted Transcription
of Text Images" (MM-CATTI) ( gura 1
- izquierda), se encuentra accesible en:
http://catti.iti.upv.es. A traves del mismo, se
podra experimentar con la transcripcion
interactiva multimodal de documentos de
diferente naturaleza: documentos manuscritos
antiguos (Cristo Salvador del siglo XIX), texto
manuscrito moderno (IAMDB en ingles),
escritura manuscrita realizada en formularios
de encuestas, etc.</p>
        <p>Por su parte, el prototipo de transcripcion
de sen~al de audio, denominado \Computer
Assisted Speech Transcription" (CAST) (ver
gura 1 - centro), resulta de gran interes
en diversas aplicaciones como: subtitulado de
programas de television, accesibilidad a
personas con discapacidad auditiva, busquedas
textuales de contenidos de audio,
transcripciones de programas de radio, conferencias,
sesiones judiciales, etc.</p>
        <p>Para ambos prototipos, MM-CATTI y
CAST, de acuerdo a los resultados
experimentales, cuando se compara el sistema de
transcripcion basada en el paradigma IP
multimodal con una transcripcion manual
completa, la reduccion estimada de esfuerzo del
usuario esta entre un 68 % y un 80 %.</p>
        <p>Por otro lado, el prototipo web para la
traduccion interactiva (ver gura 2 - izquierda),
esta disponible en: http://cat.iti.upv.es/imt.
Segun los experimentos llevados a cabo con
este prototipo, el usuario reducir a hasta en
un 30 % el esfuerzo necesario hasta alcanzar
la traduccion correcta si lo comparamos a
la utilizacion de un sistema totalmente
automatico. Las aplicaciones que puede tener
este prototipo son multiples: traduccion de
manuales, traduccion de textos o ciales,
traduccion de paginas web, etc.
3.2.</p>
      </sec>
      <sec id="sec-6-2">
        <title>Prototipo de Recuperacion Interactiva de Contenidos Multimedia</title>
        <p>En las consultas de colecciones con
contenidos multimedia, utilizando sistemas
convencionales de recuperacion de informacion,
se buscan aquellos contenidos que mas se
asemejan a la consulta realizada. Muchas
veces la informacion recuperada con estos
sistemas no cubre las expectativas del usuario;
en parte debido a la propia falta de
informacion espec ca de la consulta realizada.</p>
        <p>Sin embargo, si se utiliza el paradigma IP</p>
        <p>Figura 2: Interfaces de prototipos CAT (izquierda) and RISE (derecha).
multimodal, el usuario puede proporcionar
una retroalimentacion relevante sobre la
adecuacion de la informacion recuperada.</p>
        <p>En http://rise.iti.upv.es puede
experimentarse con el prototipo web de recuperacion
interactiva de contenidos multimedia (
gura 2 - derecha), denominado \Relevant Image
Search Engine" (RISE) (Cevikalp y Paredes,
2009). Este prototipo de aplicacion es un
buscador de imagenes donde, en primer lugar, el
usuario introduce el termino que desea
buscar. La aplicacion trabaja como un
interfaz con Google Images, que es quien provee
las imagenes a partir de los terminos de la
busqueda que ha introducido el usuario. El
usuario selecciona aquellas imagenes que
considera que mas se ajustan a lo que desea
ver y a partir de entonces, iterativamente,
el sistema devolvera aquellas imagenes que
sean mas relevantes a partir de la seleccion
del usuario. A modo de ejemplo, en la
gura 2 - derecha sabemos que el usuario
pretende encontrar imagenes de perros que
llevan collar. Cada vez que la aplicacion
muestra una respuesta, el usuario solamente
seleccionara aquellas imagenes en las que
aparezcan perros con collar (las tres imagenes que
aparecen seleccionadas en la gura). De
esta forma, en pocas interacciones se
conseguira que la aplicacion solamente muestre
imagenes que cumplan los requisitos del
usuario.</p>
      </sec>
    </sec>
    <sec id="sec-7">
      <title>Conclusiones</title>
      <p>En este trabajo se ha presentado el
paradigma interactivo-predictivo multimodal
bajo el cual, un sistema de PLN facilita
y colabora conjuntamente con el usuario
en la produccion de resultados de alta
calidad. En este contexto, se han
presentado diversos prototipos, completamente
funcionales, que ejempli can areas de aplicacion
de gran interes e importancia: transcripcion
de imagenes de texto manuscrito y sen~al de
audio, traduccion de textos y recuperacion de
contenidos multimedia.</p>
      <p>En todos los casos, se ha constatado que
los prototipos disen~ados bajo este nuevo
paradigma, reducen signi cativemente el
esfuerzo que el usuario debe realizar para
alcanzar un resultado correcto.</p>
    </sec>
    <sec id="sec-8">
      <title>Bibliograf a</title>
      <p>[Alabau et al.2009] Alabau, V., D. Ortiz,
V. Romero, y J. Ocampo. 2009. A
multimodal predictive-interactive application
for computer assisted transcription and
translation. En ICMI-MLMI '09:
Proceedings of the 2009 international conference
on Multimodal interfaces, paginas 227{
228, New York, NY, USA. ACM.
[Cevikalp y Paredes2009] Cevikalp, Hakan y
Roberto Paredes. 2009. Semi-supervised
distance metric learning for visual object
classi cation. En VISSAPP (1), paginas
315{322.
[Toselli et al.2009] Toselli, Alejandro H.,
Veronica Romero, Moises Pastor, y
Enrique Vidal. 2009. Multimodal
interactive transcription of text images. Pattern
Recognition, 43(5):1814{1825.</p>
    </sec>
  </body>
  <back>
    <ref-list>
      <ref id="ref1">
        <mixed-citation>4.</mixed-citation>
      </ref>
    </ref-list>
  </back>
</article>