<!DOCTYPE article PUBLIC "-//NLM//DTD JATS (Z39.96) Journal Archiving and Interchange DTD v1.0 20120330//EN" "JATS-archivearticle1.dtd">
<article xmlns:xlink="http://www.w3.org/1999/xlink">
  <front>
    <journal-meta />
    <article-meta>
      <title-group>
        <article-title>Hacia la interacci´on en lenguaje natural</article-title>
      </title-group>
      <contrib-group>
        <contrib contrib-type="author">
          <string-name>Towards Natural Language Interaction</string-name>
          <xref ref-type="aff" rid="aff0">0</xref>
        </contrib>
        <contrib contrib-type="author">
          <string-name>Maria Fuentes y Meritxell Gonz´alez</string-name>
          <xref ref-type="aff" rid="aff0">0</xref>
        </contrib>
        <contrib contrib-type="author">
          <string-name>mfuentes</string-name>
          <xref ref-type="aff" rid="aff0">0</xref>
        </contrib>
        <aff id="aff0">
          <label>0</label>
          <institution>Universitat Polit`ecnica de Catalunya Barcelona</institution>
          ,
          <addr-line>Espan ̃a</addr-line>
        </aff>
      </contrib-group>
      <abstract>
        <p>Resumen: En ´este documento se presenta la investigaci´on que est´a siendo llevada a cabo en el Grupo de Procesamiento de Lenguaje Natural (GPLN) de la Universidad Polit´ecnica de Catalun˜a (UPC). En concreto, hemos articulado la presentacio´n de las diferentes lineas de trabajo tomando como referencia su aplicaci´on en un asistente virtual. Creemos que su uso y implantacio´n ira´ en aumento en los pr´oximos diez an˜os, de ah´ı la importancia del estado de las tecnolog´ıas del lenguaje natural y, au´n ma´s, de los nuevos retos que este tipo de aplicaciones nos plantean. Palabras clave: Lenguaje Natural, Comprensi´on, Interaccio´n Hombre-Ma´quina, Asistente Virtual</p>
      </abstract>
    </article-meta>
  </front>
  <body>
    <sec id="sec-1">
      <title>Despu´es de d´ecadas de investigaci´on, la</title>
      <p>comprensio´n del lenguaje natural sigue
siendo una de las muchas ´areas de la Inteligencia
Artificial (IA) que, siendo relativamente f´acil
para los humanos, resulta inalcanzable para
los ordenadores. Para comprender
expresiones en lenguaje natural se requiere
conocimiento de muchos tipos diferentes y
capacidad para razonar de forma eficiente. La gran
cantidad de conocimiento heterog´eneo
involucrada nos lleva a una gran cantidad de
posibles interpretaciones para cada expresio´n.
De forma ana´loga, una sola idea puede
expresarse de diversas formas.</p>
      <p>Existen diferentes alternativas para
abordar la complejidad de comprensio´n del
lenguaje natural. En algunos casos se aplican
modelos cognitivos sobre los procesos
humanos de procesamiento del lenguaje. En otros
casos se aplican aproximaciones mucho ma´s
superficiales, que atacan solamente
problemas espec´ıficos para alcanzar un objetivo
pr´actico muy concreto. En ambos casos se
trata el lenguaje de forma acotada, ya sea
porque solamente se tratan algunos tipos de
expresiones (primer caso) o bien porque se
dejan de lado los feno´menos que no est´an
directamente relacionados con el problema que
se quiere solucionar (segundo caso).</p>
      <p>Los sistemas de dia´logo
hombre–ma´quina son un punto de encuentro para estas
dos aproximaciones. Por un lado, se
requiere de un modelo que gu´ıe la gestio´n del
dia´logo, integre la informacio´n obtenida en
una base de conocimiento y haga las
inferencias y acciones requeridas para llevar a
buen t´ermino el dia´logo. Este modelo suele
estar disen˜ado e implementado por expertos
en dia´logo, basa´ndose en teor´ıas sobre el
funcionamiento del dia´logo entre humanos. Por
otro lado, el tratamiento de las expresiones
de los usuarios al interactuar con la ma´quina
suele aplicar m´etodos robustos, que buscan
identificar las piezas claves de informacio´n,
incluso de forma superficial, dejando de lado
informacio´n que no parece crucial para la
tarea. Adema´s, dado que muchas veces los
sistemas de dia´logo interaccionan oralmente con
los usuarios, se integran en esta aplicaci´on las
t´ecnicas de tratamiento del habla y
procesamiento del lenguaje natural (PLN),
tradicionalmente separadas.
1.1.</p>
      <p>Inter´es de los asistentes
virtuales</p>
    </sec>
    <sec id="sec-2">
      <title>Los asistentes virtuales son un campo de</title>
      <p>aplicaci´on privilegiado para los sistemas de
interaccio´n hombre–ma´quina, con cada vez
ma´s presencia entre las aplicaciones
habituales. Las propiedades ma´s relevantes de los
asistentes se presentan a continuacio´n.</p>
      <p>En primer lugar, resultan un campo de
pr´acticas asequible y adecuado para la
investigaci´on y el desarrollo en el ´area de la
interaccio´n hombre–ma´quina, e incluso pueden
ser u´tiles para la investigaci´on en teor´ıas de
comunicacio´n entre personas.</p>
      <p>En segundo lugar, facilitan el acceso a
sistemas complejos. El objetivo principal de
estos sistemas es ofrecer ayuda a los usuarios
mientras realizan una tarea concreta; y el
habla es la forma ma´s natural de comunicarse,
especialmente si el asistente se refuerza con
la presencia de un avatar. E´ste tipo de
sistemas suelen estar dotados de mecanismos que
adaptan la interaccio´n con el usuario a sus
caracter´ısticas particulares. De esta forma
facilitan el acceso no so´lo a usuarios expertos,
sino, ma´s importante, a usuarios noveles o
con dificultades de acceso, los cua´les han sido
histo´ricamente excluidos, contribuyendo as´ı a
reducir la brecha digital. De esta forma, los
asistentes virtuales pueden constituirse en la
interfaz natural para realizar consultas a
entidades y servicios, para acceder y personalizar
servicios web1; o en la toma de decisiones2;
para hacer reaccionar a una sala
inteligente3; para interactuar con otros dispositivos4,
como un GPS o el TDT; o para establecer
una relacio´n para obtener por ejemplo
soporte emocional5.</p>
      <p>En u´ltimo lugar, los asistentes virtuales
requieren de la mayor parte de tecnolog´ıas de
PLN existentes, ya que requieren una gran
dosis de comprensio´n del lenguaje. En
este sentido, los asistentes virtuales nos
parece una buena plataforma para diagnosticar la
viabilidad o utilidad de las t´ecnicas y
m´etodos que se desarrollan de forma ma´s teo´rica.</p>
      <p>Por estas razones, vamos a tomar los
asistentes virtuales como eje para concretar la
investigaci´on relacionada con el lenguaje
natural, segu´n la visi´on de nuestro grupo de
investigaci´on, para los pr´oximos diez an˜os.</p>
      <sec id="sec-2-1">
        <title>El grupo TALP en la UPC</title>
        <p>GPLN inicia su actividad en el
departamento de Lenguajes y Sistemas Inform´aticos
de la UPC en el an˜o 1988. Desde sus or´ıgenes,
ha sido un grupo interdisciplinario, con una
participaci´on activa y continuada de
lingu¨istas. En el an˜o 1999, el GPLN se unio´ al Grupo
de Procesado del Habla del Departamento de
1proyecto HOPS, http://www.bcn.es/hops
2proyecto TRIPS, http://trips.uic.org
3proyecto CHIL, http://chil.server.de
4proyecto TALK, http://www.talk-project.org
5proyecto COMPANION, http://www.companions-project.org
Teor´ıa de la Sen˜al y Comunicaciones (TSC)
de la UPC creando el Centro Espec´ıfico de
Investigaci´on TALP. En el 2004, en
colaboracio´n con un tercer grupo de Procesado de
V´ıdeo e Imagen del TSC, se crea en la UPC la
primera sala inteligente. E´ ste entorno
permite estudiar el habla oral en contextos ma´s o
menos naturales. Estudios recientes
demuestran que en el proceso de comprensio´n se
tiene en cuenta tanto informacio´n lingu¨´ıstica
como no lingu¨´ıstica. Esto supone integrar una
gran variedad de fuentes de conocimiento,
incluyendo conocimiento del mundo o del
contexto, conocimiento del hablante y/o el tema,
frecuencia l´exica, uso previo de una palabra o
un tema sem´anticamente relacionado,
expresiones faciales, posici´on del hablante/oyentes,
prosodia y/o tono.</p>
        <p>
          GPLN ha desarrollado una prol´ıfica
actividad en diversas ´areas de investigaci´on
dentro del PLN y la IA. En procesamiento
b´asico de la lengua (normalmente ingl´es,
castellano, catala´n y ´arabe) destacan los
campos de desambiguaci´on y anotaci´on
morfosint´actica y sem´antica
          <xref ref-type="bibr" rid="ref2">(Carreras, 2005)</xref>
          , la
desambiguaci´on sema´ntica de sentidos
          <xref ref-type="bibr" rid="ref4">(Escudero, 2006)</xref>
          y la aplicaci´on de m´etodos
estad´ısticos al procesamiento b´asico de la
lengua
          <xref ref-type="bibr" rid="ref9">(Padro´, 2008)</xref>
          , as´ı como la aplicaci´on de
t´ecnicas de aprendizaje autom´atico a todo
tipo de tareas y problemas de PLN. La
soluci´on no suele ser una aproximaci´on
estad´ıstica contraria a un enfoque lingu¨´ıstico o
viceversa. Los sistemas pueden utilizar una
aproximaci´on h´ıbrida, combinando t´ecnicas
propias de ambos enfoques.
        </p>
      </sec>
    </sec>
    <sec id="sec-3">
      <title>Tambi´en se investiga en procesamiento</title>
      <p>
        de diccionarios, corpus textuales y recursos
lingu¨´ısticos en general, con particular
atenci´on a los recursos l´exicos, y la adquisici´on
de conocimiento a partir de la comprensio´n
sem´antica
        <xref ref-type="bibr" rid="ref1">(Atserias, 2006)</xref>
        de documentos.
Con ello se quiere adquirir
        <xref ref-type="bibr" rid="ref5">(Farreras, 2005)</xref>
        ,
enlazar
        <xref ref-type="bibr" rid="ref3">(Daud´e, 2005)</xref>
        y enriquecer ontolog´ıas
y definir una anotaci´on sema´ntica del
documento. E´sta anotaci´on permitir´a
representar los documentos para ma´s tarde aplicar
razonamiento sobre ellos. Para llegar a
obtener ´esta representacio´n se requiere
investigar en entendimiento temporal, espacial,
referencias, relaciones de causalidad
(implicaci´on textual), etc. Consideramos que una
buena comprensio´n del texto es clave para
la mejora de los procesos de ana´lisis
subyacentes a la gran mayor´ıa de aplicaciones
de lenguaje natural, especialmente aquellas
que requieren una interpretaci´on precisa del
significado del texto como: traducci´on
automa´tica
        <xref ref-type="bibr" rid="ref7">(Gim´enez, 2008)</xref>
        , extracci´on de
informaci´on, respuesta a preguntas, resumen
autom´atico
        <xref ref-type="bibr" rid="ref6">(Fuentes, 2008)</xref>
        y sistemas de
dia´logo (Gonz`alez, 2010) , en las cuales el
grupo tambi´en tiene l´ıneas de investigaci´on.
      </p>
      <sec id="sec-3-1">
        <title>Aplicacio´n de las t´ecnicas de</title>
      </sec>
      <sec id="sec-3-2">
        <title>PLN en los asistentes virtuales</title>
        <p>Dado un ´ambito especifico (turismo,
compra/venta, blogs de opini´on), mediante la
aplicaci´on de t´ecnicas de miner´ıa de textos
podemos generar bases de conocimiento de
forma autom´atica. La miner´ıa de textos es
el proceso por el cua´l un sistema inform´atico
descubre nueva informacio´n a partir de
diversos recursos escritos. El ´area de la miner´ıa de
textos abarca extracci´on de informacio´n,
sistemas fundamentales de pregunta-respuesta
y clustering de documentos, entre otros.</p>
        <p>A diferencia de la miner´ıa de datos, en la
miner´ıa de textos encontramos datos no
estructurados, por lo que es necesario un
preproceso que nos ayude a identificar las
entidades y sus relaciones. Uno de los desaf´ıos
que presenta la miner´ıa de textos es que los
ejemplos no est´an clasificados ni etiquetados;
y los recursos tampoco est´an conectados con
otros tipos de conocimiento que faciliten la
interpretaci´on. Por otra parte, una de las
mayores aportaciones de las t´ecnicas de miner´ıa
de textos es la generaci´on de bases de
conocimiento estructurado a partir del cual es
posible inferir nuevo conocimiento. Estas bases de
conocimiento pueden ser accedidas mediante
interfaces de usuario ma´s o menos complejos:
sistemas de pregunta-respuesta, sistemas de
dia´logo o asistentes virtuales ma´s completos,
como los avatares.</p>
      </sec>
      <sec id="sec-3-3">
        <title>Caso pra´ctico: Turismo interactivo</title>
      </sec>
    </sec>
    <sec id="sec-4">
      <title>Consideremos el caso de dos personas,</title>
      <p>Mar´ıa y Johan, que asisten a la SEPLN, que
tiene lugar en Valencia. Mar´ıa realiza un
doctorado en diacron´ıa. Entre sus actividades
se encuentra realizar una visita al Archivo
del Reino de Valencia. Johan, por su parte,
acompan˜a a Mar´ıa, es bio´logo y quiere
aprovechar para visitar la Albufera.</p>
      <p>Para organizar una agenda a Mar´ıa se
necesita, por una parte, obtener informacio´n
sobre el programa de la SEPLN y los horarios
de las sesiones en las que Mar´ıa est´a
interesada; y por otra parte se debe obtener
informaci´on sobre el horario del Archivo. Adema´s,
para poder desplazarse desde el lugar de
celebracio´n de la SEPLN hasta el Archivo se
necesita conocimiento geogra´fico as´ı como de
transporte pu´blico, horarios y tiempo de
desplazamiento. La informacio´n se deber´ıa
adquirir a partir de todos los recursos
disponibles, mayoritariamente texto escrito y
estructurado en bases de datos y/o servicios web.
El conocimiento adquirido se estructura en
forma de relaciones entre entidades y sus
atributos. Por ejemplo, las relaciones entre
estaciones de autobu´s y lugares espec´ıficos. Para
realizar esta tarea se necesitan varias t´ecnicas
de miner´ıa de textos, desde las ma´s simples
hasta las ma´s complejas, as´ı como fuentes de
conocimiento multilingu¨e y t´ecnicas de
traduccio´n autom´atica. Es decir, debemos tener
en cuenta la interlingualidad de los recursos.
A continuacio´n, se procesan las fuentes
usando t´ecnicas de diferentes niveles de
abstracci´on. Por ejemplo reconocimiento de nombres
de entidades y expresiones temporales, o
extracci´on y seleccio´n de patrones. Finalmente
obtendremos el conocimiento sobre la tarea
en forma estructurada, lista para ser usada
por el asistente virtual.</p>
    </sec>
    <sec id="sec-5">
      <title>Cuando Mar´ıa visita el Archivo en bus</title>
      <p>ca de informacio´n sobre documentos
antiguos, el asistente accede a fuentes
documentales que pueden estar escaneadas y
transcritas autom´aticamente usando un OCR o
manualmente en el idioma original o en otro.
La mayor´ıa de originales estar´an escritos en
lat´ın, castellano o catala´n antiguo. Para
recuperar los diferentes documentos de inter´es
para Mar´ıa se necesita extraer la informacio´n
asociada a su perfil particular, teniendo en
cuenta la multilingualidad de los recursos.</p>
      <p>En el caso de Johan, el asistente le ayuda
a llegar a la Albufera y accede a diferentes
fuentes de informacio´n sobre ´este lugar:
desde una gu´ıa de ´ambito general en ingl´es y
la informacio´n disponible en las wikipedias,
hasta gu´ıas ma´s espec´ıficas, como la gu´ıa que
proporciona la oficina de turismo de
Valencia, escrita en castellano o valenciano.
Asimismo, puede acceder a reportages
espec´ıficos publicados tanto en revistas cient´ıficas del
a´rea (p.e. Nature, National Geographic)
como en videos documentales, tanto cient´ıficos
(p.e. BBC) como de divulgaci´on (p.e. Canal
9). As´ı, en este caso, la mayor parte de la
informacio´n que el asistente debe adquirir no
se encuentra solo disponible en texto escrito o
estructurado, sin´o tambi´en en prensa escrita
y otros medios audiovisuales o no
estructurados, como podcast, radio, televisio´n. Lo que
conlleva recuperaci´on, extracci´on y
comprensi´on de contenidos multilingu¨e y multimedia.</p>
      <p>Otra aplicaci´on pr´actica de los asistentes
virtuales es la bu´squeda, clasificaci´on y
selecci´on de opiniones. Esto implica abordar
distintos subproblemas, p.e. reconocimiento
y clasificaci´on de entidades nominales,
clustering (descubrir categorias y propiedades
relevantes), as´ı como la clasificaci´on de weblogs
en varios grados de subjetividad en diferentes
dimensiones, p.e. influencia y/o sentimiento.</p>
      <p>Por ejemplo, imaginemos que Johan y
Mar´ıa buscan un restaurante donde ir a
comer un arroz en Valencia. El restaurante
debe cumplir una serie de requisitos, como que
sirvan comida para vegetarianos y que se
pueda llegar con transporte pu´blico. Seria
deseable poder seguir recomendaciones de
especialistas, como por ejemplo los de la gu´ıa
gastron´omica Michelin, o tener opiniones
positivas de los usuarios en diferentes foros o blogs.</p>
      <p>Para mejorar la calidad de los resultados
el asistente necesita interactuar con el
usuario para desambiguar informacio´n,
seleccionar entre diferentes opciones o refinar una
bu´squeda. Cada interaccio´n se divide en tres
etapas: comprensio´n del usuario, control de
la interaccio´n y generaci´on de una respuesta.</p>
      <p>Comprender al usuario consiste en
analizar diferentes niveles de su intervenci´on, p.e.
ana´lisis sint´actico-sema´ntico, ana´lisis del
discurso y reconocimiento autom´atico del habla
en el caso de comunicacio´n oral.</p>
      <p>La informacio´n obtenida del usuario se
incorpora, durante la etapa de control de la
interaccio´n, al conocimiento espec´ıfico sobre la
misma. Durante esta etapa el asistente
decide si necesita obtener ma´s informacio´n por
parte del usuario, p.e. cua´l es su ubicacio´n
actual para buscar las estaciones de autobu´s
ma´s cercanas (esta informacio´n se podr´ıa
inferir autom´aticamente a partir de
geolocalizadores). Controlar la interaccio´n es un proceso
complejo que puede implicar varios turnos de
clarificaciones por parte tanto del usuario
como del sistema, hasta que ´este u´ltimo llega
a comprender el objetivo del usuario y puede
ofrecer una respuesta satisfactoria.</p>
      <p>En la etapa de generaci´on de respuesta de
cada interaccio´n el asistente establece el
contenido de la respuesta: resultados parciales en
forma de resumen de documentos
encontrados en el Archivo, informacio´n espec´ıfica
sobre alguno de los autores de los documentos,
o recomendaciones adicionales, como visitar
la Catedral de Santa Mar´ıa, donde se
encuentra enterrado Ausi`as March, uno de los
autores de los documentos obtenidos. Algunos de
los m´etodos de PLN que intervienen
durante esta etapa so´n la planificaci´on del
discurso, que da ma´s naturalidad y coherencia a
la interaccio´n y la generaci´on del lenguaje,
donde se pueden aplicar t´ecnicas de
detecci´on/selecci´on del registro. La lengua
generada puede ser distinta a la de la fuente de
donde se extrae la informacio´n requerida. Por
otro lado el asistente a parte de mostrar
informaci´on textual podr´ıa sintetizar voz o extraer
partes de documentos de video o audio.
5.</p>
      <sec id="sec-5-1">
        <title>Conclusiones</title>
        <p>E´ ste art´ıculo presenta a los asistentes
virtuales como una aplicaci´on que aborda
distintas tareas de PLN, y a la vez plantea un
nuevo horizonte de retos que afrontar en el
futuro pr´oximo, con el objetivo de conseguir
una interaccio´n natural con la tecnolog´ıa que
nos envuelve. El aumento de capacidad de los
ordenadores no es suficiente, es necesario
seguir trabajando en nuevos enfoques para
superar las deficiencias todav´ıa existentes.</p>
      </sec>
    </sec>
  </body>
  <back>
    <ref-list>
      <ref id="ref1">
        <mixed-citation>
          <string-name>
            <surname>Atserias</surname>
            ,
            <given-names>J.</given-names>
          </string-name>
          <year>2006</year>
          .
          <article-title>Towards Robustness in Natural Language Understanding</article-title>
          .
          <source>Ph.D. tesis, EHU.</source>
        </mixed-citation>
      </ref>
      <ref id="ref2">
        <mixed-citation>
          <string-name>
            <surname>Carreras</surname>
            ,
            <given-names>X.</given-names>
          </string-name>
          <year>2005</year>
          .
          <article-title>Learning and Inference in Phrase Recognition: A Filtering-Ranking Architecture Using Perceptron</article-title>
          .
          <source>Ph.D. tesis, UPC.</source>
        </mixed-citation>
      </ref>
      <ref id="ref3">
        <mixed-citation>
          <string-name>
            <surname>Daud</surname>
            ´e,
            <given-names>J.</given-names>
          </string-name>
          <year>2005</year>
          . Enlace de Jerarqu´
          <article-title>ıas Usando Etiquetado por Relajacio´n</article-title>
          .
          <source>Ph.D. tesis, UPC.</source>
        </mixed-citation>
      </ref>
      <ref id="ref4">
        <mixed-citation>
          <string-name>
            <surname>Escudero</surname>
            ,
            <given-names>G.</given-names>
          </string-name>
          <year>2006</year>
          .
          <article-title>Machine Learning Techniques for Word Sense Disambiguation</article-title>
          .
          <source>Ph.D. tesis, UPC.</source>
        </mixed-citation>
      </ref>
      <ref id="ref5">
        <mixed-citation>
          <string-name>
            <surname>Farreras</surname>
            ,
            <given-names>J.</given-names>
          </string-name>
          <year>2005</year>
          .
          <article-title>Automatic Construction of Wide-Coverage Domain-Independent LexicoConceptual Ontologies</article-title>
          .
          <source>Ph.D. tesis, UPC.</source>
        </mixed-citation>
      </ref>
      <ref id="ref6">
        <mixed-citation>
          <string-name>
            <surname>Fuentes</surname>
            ,
            <given-names>M.</given-names>
          </string-name>
          <year>2008</year>
          .
          <article-title>A Flexible Multitask Summarizer for Documents from Different Media, Domain, and</article-title>
          <string-name>
            <given-names>Language.</given-names>
            <surname>Ph</surname>
          </string-name>
          .D. tesis, UPC.
        </mixed-citation>
      </ref>
      <ref id="ref7">
        <mixed-citation>
          <article-title>Gim´enez</article-title>
          ,
          <string-name>
            <surname>J.</surname>
          </string-name>
          <year>2008</year>
          .
          <article-title>Empirical Machine Translation and its Evaluation</article-title>
          .
          <source>Ph.D. tesis, UPC.</source>
        </mixed-citation>
      </ref>
      <ref id="ref8">
        <mixed-citation>
          <string-name>
            <surname>Gonza</surname>
            `lez,
            <given-names>M.</given-names>
          </string-name>
          <year>2010</year>
          .
          <article-title>DIGUI: A flexible dialogue system for accessing web services</article-title>
          .
          <source>Ph.D. tesis.</source>
        </mixed-citation>
      </ref>
      <ref id="ref9">
        <mixed-citation>
          <string-name>
            <surname>Padro</surname>
            <given-names>´</given-names>
          </string-name>
          ,
          <source>Muntsa</source>
          .
          <year>2008</year>
          .
          <article-title>Applying Causal State Splitting Reconstruction Algorithm to Natural Language Processing Tasks</article-title>
          .
          <source>Ph.D. tesis, UPC.</source>
        </mixed-citation>
      </ref>
    </ref-list>
  </back>
</article>