Despu´es de d´ecadas de investigaci´on, la

Hacia la interacci´on en lenguaje natural

Towards Natural Language Interaction

Maria Fuentes y Meritxell Gonz´alez

mfuentes

0 0 Universitat Polit`ecnica de Catalunya Barcelona , Espan ̃a

Resumen: En ´este documento se presenta la investigaci´on que est´a siendo llevada a cabo en el Grupo de Procesamiento de Lenguaje Natural (GPLN) de la Universidad Polit´ecnica de Catalun˜a (UPC). En concreto, hemos articulado la presentacio´n de las diferentes lineas de trabajo tomando como referencia su aplicaci´on en un asistente virtual. Creemos que su uso y implantacio´n ira´ en aumento en los pr´oximos diez an˜os, de ah´ı la importancia del estado de las tecnolog´ıas del lenguaje natural y, au´n ma´s, de los nuevos retos que este tipo de aplicaciones nos plantean. Palabras clave: Lenguaje Natural, Comprensi´on, Interaccio´n Hombre-Ma´quina, Asistente Virtual

Despu´es de d´ecadas de investigaci´on, la

comprensio´n del lenguaje natural sigue siendo una de las muchas ´areas de la Inteligencia Artificial (IA) que, siendo relativamente f´acil para los humanos, resulta inalcanzable para los ordenadores. Para comprender expresiones en lenguaje natural se requiere conocimiento de muchos tipos diferentes y capacidad para razonar de forma eficiente. La gran cantidad de conocimiento heterog´eneo involucrada nos lleva a una gran cantidad de posibles interpretaciones para cada expresio´n. De forma ana´loga, una sola idea puede expresarse de diversas formas.

Existen diferentes alternativas para abordar la complejidad de comprensio´n del lenguaje natural. En algunos casos se aplican modelos cognitivos sobre los procesos humanos de procesamiento del lenguaje. En otros casos se aplican aproximaciones mucho ma´s superficiales, que atacan solamente problemas espec´ıficos para alcanzar un objetivo pr´actico muy concreto. En ambos casos se trata el lenguaje de forma acotada, ya sea porque solamente se tratan algunos tipos de expresiones (primer caso) o bien porque se dejan de lado los feno´menos que no est´an directamente relacionados con el problema que se quiere solucionar (segundo caso).

Los sistemas de dia´logo hombre–ma´quina son un punto de encuentro para estas dos aproximaciones. Por un lado, se requiere de un modelo que gu´ıe la gestio´n del dia´logo, integre la informacio´n obtenida en una base de conocimiento y haga las inferencias y acciones requeridas para llevar a buen t´ermino el dia´logo. Este modelo suele estar disen˜ado e implementado por expertos en dia´logo, basa´ndose en teor´ıas sobre el funcionamiento del dia´logo entre humanos. Por otro lado, el tratamiento de las expresiones de los usuarios al interactuar con la ma´quina suele aplicar m´etodos robustos, que buscan identificar las piezas claves de informacio´n, incluso de forma superficial, dejando de lado informacio´n que no parece crucial para la tarea. Adema´s, dado que muchas veces los sistemas de dia´logo interaccionan oralmente con los usuarios, se integran en esta aplicaci´on las t´ecnicas de tratamiento del habla y procesamiento del lenguaje natural (PLN), tradicionalmente separadas. 1.1.

Inter´es de los asistentes virtuales

Los asistentes virtuales son un campo de

aplicaci´on privilegiado para los sistemas de interaccio´n hombre–ma´quina, con cada vez ma´s presencia entre las aplicaciones habituales. Las propiedades ma´s relevantes de los asistentes se presentan a continuacio´n.

En primer lugar, resultan un campo de pr´acticas asequible y adecuado para la investigaci´on y el desarrollo en el ´area de la interaccio´n hombre–ma´quina, e incluso pueden ser u´tiles para la investigaci´on en teor´ıas de comunicacio´n entre personas.

En segundo lugar, facilitan el acceso a sistemas complejos. El objetivo principal de estos sistemas es ofrecer ayuda a los usuarios mientras realizan una tarea concreta; y el habla es la forma ma´s natural de comunicarse, especialmente si el asistente se refuerza con la presencia de un avatar. E´ste tipo de sistemas suelen estar dotados de mecanismos que adaptan la interaccio´n con el usuario a sus caracter´ısticas particulares. De esta forma facilitan el acceso no so´lo a usuarios expertos, sino, ma´s importante, a usuarios noveles o con dificultades de acceso, los cua´les han sido histo´ricamente excluidos, contribuyendo as´ı a reducir la brecha digital. De esta forma, los asistentes virtuales pueden constituirse en la interfaz natural para realizar consultas a entidades y servicios, para acceder y personalizar servicios web1; o en la toma de decisiones2; para hacer reaccionar a una sala inteligente3; para interactuar con otros dispositivos4, como un GPS o el TDT; o para establecer una relacio´n para obtener por ejemplo soporte emocional5.

En u´ltimo lugar, los asistentes virtuales requieren de la mayor parte de tecnolog´ıas de PLN existentes, ya que requieren una gran dosis de comprensio´n del lenguaje. En este sentido, los asistentes virtuales nos parece una buena plataforma para diagnosticar la viabilidad o utilidad de las t´ecnicas y m´etodos que se desarrollan de forma ma´s teo´rica.

Por estas razones, vamos a tomar los asistentes virtuales como eje para concretar la investigaci´on relacionada con el lenguaje natural, segu´n la visi´on de nuestro grupo de investigaci´on, para los pr´oximos diez an˜os.

El grupo TALP en la UPC

GPLN inicia su actividad en el departamento de Lenguajes y Sistemas Inform´aticos de la UPC en el an˜o 1988. Desde sus or´ıgenes, ha sido un grupo interdisciplinario, con una participaci´on activa y continuada de lingu¨istas. En el an˜o 1999, el GPLN se unio´ al Grupo de Procesado del Habla del Departamento de 1proyecto HOPS, http://www.bcn.es/hops 2proyecto TRIPS, http://trips.uic.org 3proyecto CHIL, http://chil.server.de 4proyecto TALK, http://www.talk-project.org 5proyecto COMPANION, http://www.companions-project.org Teor´ıa de la Sen˜al y Comunicaciones (TSC) de la UPC creando el Centro Espec´ıfico de Investigaci´on TALP. En el 2004, en colaboracio´n con un tercer grupo de Procesado de V´ıdeo e Imagen del TSC, se crea en la UPC la primera sala inteligente. E´ ste entorno permite estudiar el habla oral en contextos ma´s o menos naturales. Estudios recientes demuestran que en el proceso de comprensio´n se tiene en cuenta tanto informacio´n lingu¨´ıstica como no lingu¨´ıstica. Esto supone integrar una gran variedad de fuentes de conocimiento, incluyendo conocimiento del mundo o del contexto, conocimiento del hablante y/o el tema, frecuencia l´exica, uso previo de una palabra o un tema sem´anticamente relacionado, expresiones faciales, posici´on del hablante/oyentes, prosodia y/o tono.

GPLN ha desarrollado una prol´ıfica actividad en diversas ´areas de investigaci´on dentro del PLN y la IA. En procesamiento b´asico de la lengua (normalmente ingl´es, castellano, catala´n y ´arabe) destacan los campos de desambiguaci´on y anotaci´on morfosint´actica y sem´antica (Carreras, 2005) , la desambiguaci´on sema´ntica de sentidos (Escudero, 2006) y la aplicaci´on de m´etodos estad´ısticos al procesamiento b´asico de la lengua (Padro´, 2008) , as´ı como la aplicaci´on de t´ecnicas de aprendizaje autom´atico a todo tipo de tareas y problemas de PLN. La soluci´on no suele ser una aproximaci´on estad´ıstica contraria a un enfoque lingu¨´ıstico o viceversa. Los sistemas pueden utilizar una aproximaci´on h´ıbrida, combinando t´ecnicas propias de ambos enfoques.

Tambi´en se investiga en procesamiento

de diccionarios, corpus textuales y recursos lingu¨´ısticos en general, con particular atenci´on a los recursos l´exicos, y la adquisici´on de conocimiento a partir de la comprensio´n sem´antica (Atserias, 2006) de documentos. Con ello se quiere adquirir (Farreras, 2005) , enlazar (Daud´e, 2005) y enriquecer ontolog´ıas y definir una anotaci´on sema´ntica del documento. E´sta anotaci´on permitir´a representar los documentos para ma´s tarde aplicar razonamiento sobre ellos. Para llegar a obtener ´esta representacio´n se requiere investigar en entendimiento temporal, espacial, referencias, relaciones de causalidad (implicaci´on textual), etc. Consideramos que una buena comprensio´n del texto es clave para la mejora de los procesos de ana´lisis subyacentes a la gran mayor´ıa de aplicaciones de lenguaje natural, especialmente aquellas que requieren una interpretaci´on precisa del significado del texto como: traducci´on automa´tica (Gim´enez, 2008) , extracci´on de informaci´on, respuesta a preguntas, resumen autom´atico (Fuentes, 2008) y sistemas de dia´logo (Gonz`alez, 2010) , en las cuales el grupo tambi´en tiene l´ıneas de investigaci´on.

Aplicacio´n de las t´ecnicas de PLN en los asistentes virtuales

Dado un ´ambito especifico (turismo, compra/venta, blogs de opini´on), mediante la aplicaci´on de t´ecnicas de miner´ıa de textos podemos generar bases de conocimiento de forma autom´atica. La miner´ıa de textos es el proceso por el cua´l un sistema inform´atico descubre nueva informacio´n a partir de diversos recursos escritos. El ´area de la miner´ıa de textos abarca extracci´on de informacio´n, sistemas fundamentales de pregunta-respuesta y clustering de documentos, entre otros.

A diferencia de la miner´ıa de datos, en la miner´ıa de textos encontramos datos no estructurados, por lo que es necesario un preproceso que nos ayude a identificar las entidades y sus relaciones. Uno de los desaf´ıos que presenta la miner´ıa de textos es que los ejemplos no est´an clasificados ni etiquetados; y los recursos tampoco est´an conectados con otros tipos de conocimiento que faciliten la interpretaci´on. Por otra parte, una de las mayores aportaciones de las t´ecnicas de miner´ıa de textos es la generaci´on de bases de conocimiento estructurado a partir del cual es posible inferir nuevo conocimiento. Estas bases de conocimiento pueden ser accedidas mediante interfaces de usuario ma´s o menos complejos: sistemas de pregunta-respuesta, sistemas de dia´logo o asistentes virtuales ma´s completos, como los avatares.

Caso pra´ctico: Turismo interactivo Consideremos el caso de dos personas,

Mar´ıa y Johan, que asisten a la SEPLN, que tiene lugar en Valencia. Mar´ıa realiza un doctorado en diacron´ıa. Entre sus actividades se encuentra realizar una visita al Archivo del Reino de Valencia. Johan, por su parte, acompan˜a a Mar´ıa, es bio´logo y quiere aprovechar para visitar la Albufera.

Para organizar una agenda a Mar´ıa se necesita, por una parte, obtener informacio´n sobre el programa de la SEPLN y los horarios de las sesiones en las que Mar´ıa est´a interesada; y por otra parte se debe obtener informaci´on sobre el horario del Archivo. Adema´s, para poder desplazarse desde el lugar de celebracio´n de la SEPLN hasta el Archivo se necesita conocimiento geogra´fico as´ı como de transporte pu´blico, horarios y tiempo de desplazamiento. La informacio´n se deber´ıa adquirir a partir de todos los recursos disponibles, mayoritariamente texto escrito y estructurado en bases de datos y/o servicios web. El conocimiento adquirido se estructura en forma de relaciones entre entidades y sus atributos. Por ejemplo, las relaciones entre estaciones de autobu´s y lugares espec´ıficos. Para realizar esta tarea se necesitan varias t´ecnicas de miner´ıa de textos, desde las ma´s simples hasta las ma´s complejas, as´ı como fuentes de conocimiento multilingu¨e y t´ecnicas de traduccio´n autom´atica. Es decir, debemos tener en cuenta la interlingualidad de los recursos. A continuacio´n, se procesan las fuentes usando t´ecnicas de diferentes niveles de abstracci´on. Por ejemplo reconocimiento de nombres de entidades y expresiones temporales, o extracci´on y seleccio´n de patrones. Finalmente obtendremos el conocimiento sobre la tarea en forma estructurada, lista para ser usada por el asistente virtual.

Cuando Mar´ıa visita el Archivo en bus

ca de informacio´n sobre documentos antiguos, el asistente accede a fuentes documentales que pueden estar escaneadas y transcritas autom´aticamente usando un OCR o manualmente en el idioma original o en otro. La mayor´ıa de originales estar´an escritos en lat´ın, castellano o catala´n antiguo. Para recuperar los diferentes documentos de inter´es para Mar´ıa se necesita extraer la informacio´n asociada a su perfil particular, teniendo en cuenta la multilingualidad de los recursos.

En el caso de Johan, el asistente le ayuda a llegar a la Albufera y accede a diferentes fuentes de informacio´n sobre ´este lugar: desde una gu´ıa de ´ambito general en ingl´es y la informacio´n disponible en las wikipedias, hasta gu´ıas ma´s espec´ıficas, como la gu´ıa que proporciona la oficina de turismo de Valencia, escrita en castellano o valenciano. Asimismo, puede acceder a reportages espec´ıficos publicados tanto en revistas cient´ıficas del a´rea (p.e. Nature, National Geographic) como en videos documentales, tanto cient´ıficos (p.e. BBC) como de divulgaci´on (p.e. Canal 9). As´ı, en este caso, la mayor parte de la informacio´n que el asistente debe adquirir no se encuentra solo disponible en texto escrito o estructurado, sin´o tambi´en en prensa escrita y otros medios audiovisuales o no estructurados, como podcast, radio, televisio´n. Lo que conlleva recuperaci´on, extracci´on y comprensi´on de contenidos multilingu¨e y multimedia.

Otra aplicaci´on pr´actica de los asistentes virtuales es la bu´squeda, clasificaci´on y selecci´on de opiniones. Esto implica abordar distintos subproblemas, p.e. reconocimiento y clasificaci´on de entidades nominales, clustering (descubrir categorias y propiedades relevantes), as´ı como la clasificaci´on de weblogs en varios grados de subjetividad en diferentes dimensiones, p.e. influencia y/o sentimiento.

Por ejemplo, imaginemos que Johan y Mar´ıa buscan un restaurante donde ir a comer un arroz en Valencia. El restaurante debe cumplir una serie de requisitos, como que sirvan comida para vegetarianos y que se pueda llegar con transporte pu´blico. Seria deseable poder seguir recomendaciones de especialistas, como por ejemplo los de la gu´ıa gastron´omica Michelin, o tener opiniones positivas de los usuarios en diferentes foros o blogs.

Para mejorar la calidad de los resultados el asistente necesita interactuar con el usuario para desambiguar informacio´n, seleccionar entre diferentes opciones o refinar una bu´squeda. Cada interaccio´n se divide en tres etapas: comprensio´n del usuario, control de la interaccio´n y generaci´on de una respuesta.

Comprender al usuario consiste en analizar diferentes niveles de su intervenci´on, p.e. ana´lisis sint´actico-sema´ntico, ana´lisis del discurso y reconocimiento autom´atico del habla en el caso de comunicacio´n oral.

La informacio´n obtenida del usuario se incorpora, durante la etapa de control de la interaccio´n, al conocimiento espec´ıfico sobre la misma. Durante esta etapa el asistente decide si necesita obtener ma´s informacio´n por parte del usuario, p.e. cua´l es su ubicacio´n actual para buscar las estaciones de autobu´s ma´s cercanas (esta informacio´n se podr´ıa inferir autom´aticamente a partir de geolocalizadores). Controlar la interaccio´n es un proceso complejo que puede implicar varios turnos de clarificaciones por parte tanto del usuario como del sistema, hasta que ´este u´ltimo llega a comprender el objetivo del usuario y puede ofrecer una respuesta satisfactoria.

En la etapa de generaci´on de respuesta de cada interaccio´n el asistente establece el contenido de la respuesta: resultados parciales en forma de resumen de documentos encontrados en el Archivo, informacio´n espec´ıfica sobre alguno de los autores de los documentos, o recomendaciones adicionales, como visitar la Catedral de Santa Mar´ıa, donde se encuentra enterrado Ausi`as March, uno de los autores de los documentos obtenidos. Algunos de los m´etodos de PLN que intervienen durante esta etapa so´n la planificaci´on del discurso, que da ma´s naturalidad y coherencia a la interaccio´n y la generaci´on del lenguaje, donde se pueden aplicar t´ecnicas de detecci´on/selecci´on del registro. La lengua generada puede ser distinta a la de la fuente de donde se extrae la informacio´n requerida. Por otro lado el asistente a parte de mostrar informaci´on textual podr´ıa sintetizar voz o extraer partes de documentos de video o audio. 5.

Conclusiones

E´ ste art´ıculo presenta a los asistentes virtuales como una aplicaci´on que aborda distintas tareas de PLN, y a la vez plantea un nuevo horizonte de retos que afrontar en el futuro pr´oximo, con el objetivo de conseguir una interaccio´n natural con la tecnolog´ıa que nos envuelve. El aumento de capacidad de los ordenadores no es suficiente, es necesario seguir trabajando en nuevos enfoques para superar las deficiencias todav´ıa existentes.

Atserias , J.

2006 . Towards Robustness in Natural Language Understanding . Ph.D. tesis, EHU.

Carreras , X.

2005 . Learning and Inference in Phrase Recognition: A Filtering-Ranking Architecture Using Perceptron . Ph.D. tesis, UPC.

Daud ´e, J.

2005 . Enlace de Jerarqu´ ıas Usando Etiquetado por Relajacio´n . Ph.D. tesis, UPC.

Escudero , G.

2006 . Machine Learning Techniques for Word Sense Disambiguation . Ph.D. tesis, UPC.

Farreras , J.

2005 . Automatic Construction of Wide-Coverage Domain-Independent LexicoConceptual Ontologies . Ph.D. tesis, UPC.

Fuentes , M.

2008 . A Flexible Multitask Summarizer for Documents from Different Media, Domain, and

Language.

Ph .D. tesis, UPC.

Gim´enez , J. 2008 . Empirical Machine Translation and its Evaluation . Ph.D. tesis, UPC.

Gonza `lez, M.

2010 . DIGUI: A flexible dialogue system for accessing web services . Ph.D. tesis.

Padro

, Muntsa . 2008 . Applying Causal State Splitting Reconstruction Algorithm to Natural Language Processing Tasks . Ph.D. tesis, UPC.