Hacia la interacción en lenguaje natural Towards Natural Language Interaction Maria Fuentes y Meritxell González {mfuentes,mgonzalez}@lsi.upc.edu Centro de Investigación TALP Universitat Politècnica de Catalunya Barcelona, España Resumen: En éste documento se presenta la investigación que está siendo llevada a cabo en el Grupo de Procesamiento de Lenguaje Natural (GPLN) de la Universidad Politécnica de Cataluña (UPC). En concreto, hemos articulado la presentación de las diferentes lineas de trabajo tomando como referencia su aplicación en un asistente virtual. Creemos que su uso y implantación irá en aumento en los próximos diez años, de ahı́ la importancia del estado de las tecnologı́as del lenguaje natural y, aún más, de los nuevos retos que este tipo de aplicaciones nos plantean. Palabras clave: Lenguaje Natural, Comprensión, Interacción Hombre–Máquina, Asistente Virtual 1. Introducción dos aproximaciones. Por un lado, se requie- Después de décadas de investigación, la re de un modelo que guı́e la gestión del comprensión del lenguaje natural sigue sien- diálogo, integre la información obtenida en do una de las muchas áreas de la Inteligencia una base de conocimiento y haga las infe- Artificial (IA) que, siendo relativamente fácil rencias y acciones requeridas para llevar a para los humanos, resulta inalcanzable para buen término el diálogo. Este modelo suele los ordenadores. Para comprender expresio- estar diseñado e implementado por expertos nes en lenguaje natural se requiere conoci- en diálogo, basándose en teorı́as sobre el fun- miento de muchos tipos diferentes y capaci- cionamiento del diálogo entre humanos. Por dad para razonar de forma eficiente. La gran otro lado, el tratamiento de las expresiones cantidad de conocimiento heterogéneo invo- de los usuarios al interactuar con la máquina lucrada nos lleva a una gran cantidad de po- suele aplicar métodos robustos, que buscan sibles interpretaciones para cada expresión. identificar las piezas claves de información, De forma análoga, una sola idea puede ex- incluso de forma superficial, dejando de lado presarse de diversas formas. información que no parece crucial para la ta- rea. Además, dado que muchas veces los sis- Existen diferentes alternativas para abor- temas de diálogo interaccionan oralmente con dar la complejidad de comprensión del len- los usuarios, se integran en esta aplicación las guaje natural. En algunos casos se aplican técnicas de tratamiento del habla y procesa- modelos cognitivos sobre los procesos huma- miento del lenguaje natural (PLN), tradicio- nos de procesamiento del lenguaje. En otros nalmente separadas. casos se aplican aproximaciones mucho más superficiales, que atacan solamente proble- 1.1. Interés de los asistentes mas especı́ficos para alcanzar un objetivo práctico muy concreto. En ambos casos se virtuales trata el lenguaje de forma acotada, ya sea Los asistentes virtuales son un campo de porque solamente se tratan algunos tipos de aplicación privilegiado para los sistemas de expresiones (primer caso) o bien porque se interacción hombre–máquina, con cada vez dejan de lado los fenómenos que no están di- más presencia entre las aplicaciones habitua- rectamente relacionados con el problema que les. Las propiedades más relevantes de los se quiere solucionar (segundo caso). asistentes se presentan a continuación. Los sistemas de diálogo hombre–máqui- En primer lugar, resultan un campo de na son un punto de encuentro para estas prácticas asequible y adecuado para la inves- tigación y el desarrollo en el área de la in- Teorı́a de la Señal y Comunicaciones (TSC) teracción hombre–máquina, e incluso pueden de la UPC creando el Centro Especı́fico de ser útiles para la investigación en teorı́as de Investigación TALP. En el 2004, en colabo- comunicación entre personas. ración con un tercer grupo de Procesado de En segundo lugar, facilitan el acceso a sis- Vı́deo e Imagen del TSC, se crea en la UPC la temas complejos. El objetivo principal de es- primera sala inteligente. Éste entorno permi- tos sistemas es ofrecer ayuda a los usuarios te estudiar el habla oral en contextos más o mientras realizan una tarea concreta; y el ha- menos naturales. Estudios recientes demues- bla es la forma más natural de comunicarse, tran que en el proceso de comprensión se tie- especialmente si el asistente se refuerza con ne en cuenta tanto información lingüı́stica co- la presencia de un avatar. Éste tipo de siste- mo no lingüı́stica. Esto supone integrar una mas suelen estar dotados de mecanismos que gran variedad de fuentes de conocimiento, in- adaptan la interacción con el usuario a sus cluyendo conocimiento del mundo o del con- caracterı́sticas particulares. De esta forma fa- texto, conocimiento del hablante y/o el tema, cilitan el acceso no sólo a usuarios expertos, frecuencia léxica, uso previo de una palabra o sino, más importante, a usuarios noveles o un tema semánticamente relacionado, expre- con dificultades de acceso, los cuáles han sido siones faciales, posición del hablante/oyentes, históricamente excluidos, contribuyendo ası́ a prosodia y/o tono. reducir la brecha digital. De esta forma, los GPLN ha desarrollado una prolı́fica acti- asistentes virtuales pueden constituirse en la vidad en diversas áreas de investigación den- interfaz natural para realizar consultas a enti- tro del PLN y la IA. En procesamiento bási- dades y servicios, para acceder y personalizar co de la lengua (normalmente inglés, cas- servicios web1 ; o en la toma de decisiones2 ; tellano, catalán y árabe) destacan los cam- para hacer reaccionar a una sala inteligen- pos de desambiguación y anotación morfo- te3 ; para interactuar con otros dispositivos4 , sintáctica y semántica (Carreras, 2005), la como un GPS o el TDT; o para establecer desambiguación semántica de sentidos (Es- una relación para obtener por ejemplo sopor- cudero, 2006) y la aplicación de métodos es- te emocional5 . tadı́sticos al procesamiento básico de la len- En último lugar, los asistentes virtuales re- gua (Padró, 2008), ası́ como la aplicación de quieren de la mayor parte de tecnologı́as de técnicas de aprendizaje automático a todo ti- PLN existentes, ya que requieren una gran po de tareas y problemas de PLN. La solu- dosis de comprensión del lenguaje. En es- ción no suele ser una aproximación estadı́sti- te sentido, los asistentes virtuales nos pare- ca contraria a un enfoque lingüı́stico o vice- ce una buena plataforma para diagnosticar la versa. Los sistemas pueden utilizar una apro- viabilidad o utilidad de las técnicas y méto- ximación hı́brida, combinando técnicas pro- dos que se desarrollan de forma más teórica. pias de ambos enfoques. Por estas razones, vamos a tomar los asis- También se investiga en procesamiento tentes virtuales como eje para concretar la de diccionarios, corpus textuales y recursos investigación relacionada con el lenguaje na- lingüı́sticos en general, con particular aten- tural, según la visión de nuestro grupo de in- ción a los recursos léxicos, y la adquisición vestigación, para los próximos diez años. de conocimiento a partir de la comprensión semántica (Atserias, 2006) de documentos. 2. El grupo TALP en la UPC Con ello se quiere adquirir (Farreras, 2005), GPLN inicia su actividad en el departa- enlazar (Daudé, 2005) y enriquecer ontologı́as mento de Lenguajes y Sistemas Informáticos y definir una anotación semántica del do- de la UPC en el año 1988. Desde sus orı́genes, cumento. Ésta anotación permitirá represen- ha sido un grupo interdisciplinario, con una tar los documentos para más tarde aplicar participación activa y continuada de lingüis- razonamiento sobre ellos. Para llegar a ob- tas. En el año 1999, el GPLN se unió al Grupo tener ésta representación se requiere inves- de Procesado del Habla del Departamento de tigar en entendimiento temporal, espacial, 1 referencias, relaciones de causalidad (impli- proyecto HOPS, http://www.bcn.es/hops 2 proyecto TRIPS, http://trips.uic.org cación textual), etc. Consideramos que una 3 proyecto CHIL, http://chil.server.de buena comprensión del texto es clave para 4 proyecto TALK, http://www.talk-project.org la mejora de los procesos de análisis sub- 5 proyecto COMPANION, http://www.companions-project.org yacentes a la gran mayorı́a de aplicaciones de lenguaje natural, especialmente aquellas de las sesiones en las que Marı́a está intere- que requieren una interpretación precisa del sada; y por otra parte se debe obtener infor- significado del texto como: traducción au- mación sobre el horario del Archivo. Además, tomática (Giménez, 2008), extracción de in- para poder desplazarse desde el lugar de ce- formación, respuesta a preguntas, resumen lebración de la SEPLN hasta el Archivo se automático (Fuentes, 2008) y sistemas de necesita conocimiento geográfico ası́ como de diálogo (Gonzàlez, 2010) , en las cuales el transporte público, horarios y tiempo de des- grupo también tiene lı́neas de investigación. plazamiento. La información se deberı́a ad- quirir a partir de todos los recursos disponi- 3. Aplicación de las técnicas de bles, mayoritariamente texto escrito y estruc- PLN en los asistentes virtuales turado en bases de datos y/o servicios web. Dado un ámbito especifico (turismo, com- El conocimiento adquirido se estructura en pra/venta, blogs de opinión), mediante la forma de relaciones entre entidades y sus atri- aplicación de técnicas de minerı́a de textos butos. Por ejemplo, las relaciones entre esta- podemos generar bases de conocimiento de ciones de autobús y lugares especı́ficos. Para forma automática. La minerı́a de textos es realizar esta tarea se necesitan varias técnicas el proceso por el cuál un sistema informático de minerı́a de textos, desde las más simples descubre nueva información a partir de diver- hasta las más complejas, ası́ como fuentes de sos recursos escritos. El área de la minerı́a de conocimiento multilingüe y técnicas de tra- textos abarca extracción de información, sis- ducción automática. Es decir, debemos tener temas fundamentales de pregunta-respuesta en cuenta la interlingualidad de los recursos. y clustering de documentos, entre otros. A continuación, se procesan las fuentes usan- A diferencia de la minerı́a de datos, en la do técnicas de diferentes niveles de abstrac- minerı́a de textos encontramos datos no es- ción. Por ejemplo reconocimiento de nombres tructurados, por lo que es necesario un pre- de entidades y expresiones temporales, o ex- proceso que nos ayude a identificar las enti- tracción y selección de patrones. Finalmente dades y sus relaciones. Uno de los desafı́os obtendremos el conocimiento sobre la tarea que presenta la minerı́a de textos es que los en forma estructurada, lista para ser usada ejemplos no están clasificados ni etiquetados; por el asistente virtual. y los recursos tampoco están conectados con Cuando Marı́a visita el Archivo en bus- otros tipos de conocimiento que faciliten la ca de información sobre documentos anti- interpretación. Por otra parte, una de las ma- guos, el asistente accede a fuentes documen- yores aportaciones de las técnicas de minerı́a tales que pueden estar escaneadas y transcri- de textos es la generación de bases de conoci- tas automáticamente usando un OCR o ma- miento estructurado a partir del cual es posi- nualmente en el idioma original o en otro. ble inferir nuevo conocimiento. Estas bases de La mayorı́a de originales estarán escritos en conocimiento pueden ser accedidas mediante latı́n, castellano o catalán antiguo. Para re- interfaces de usuario más o menos complejos: cuperar los diferentes documentos de interés sistemas de pregunta-respuesta, sistemas de para Marı́a se necesita extraer la información diálogo o asistentes virtuales más completos, asociada a su perfil particular, teniendo en como los avatares. cuenta la multilingualidad de los recursos. En el caso de Johan, el asistente le ayuda 4. Caso práctico: Turismo a llegar a la Albufera y accede a diferentes interactivo fuentes de información sobre éste lugar: des- Consideremos el caso de dos personas, de una guı́a de ámbito general en inglés y Marı́a y Johan, que asisten a la SEPLN, que la información disponible en las wikipedias, tiene lugar en Valencia. Marı́a realiza un doc- hasta guı́as más especı́ficas, como la guı́a que torado en diacronı́a. Entre sus actividades proporciona la oficina de turismo de Valen- se encuentra realizar una visita al Archivo cia, escrita en castellano o valenciano. Asi- del Reino de Valencia. Johan, por su parte, mismo, puede acceder a reportages especı́fi- acompaña a Marı́a, es biólogo y quiere apro- cos publicados tanto en revistas cientı́ficas del vechar para visitar la Albufera. área (p.e. Nature, National Geographic) co- Para organizar una agenda a Marı́a se ne- mo en videos documentales, tanto cientı́ficos cesita, por una parte, obtener información so- (p.e. BBC) como de divulgación (p.e. Canal bre el programa de la SEPLN y los horarios 9). Ası́, en este caso, la mayor parte de la información que el asistente debe adquirir no tenido de la respuesta: resultados parciales en se encuentra solo disponible en texto escrito o forma de resumen de documentos encontra- estructurado, sinó también en prensa escrita dos en el Archivo, información especı́fica so- y otros medios audiovisuales o no estructura- bre alguno de los autores de los documentos, dos, como podcast, radio, televisión. Lo que o recomendaciones adicionales, como visitar conlleva recuperación, extracción y compren- la Catedral de Santa Marı́a, donde se encuen- sión de contenidos multilingüe y multimedia. tra enterrado Ausiàs March, uno de los auto- Otra aplicación práctica de los asistentes res de los documentos obtenidos. Algunos de virtuales es la búsqueda, clasificación y se- los métodos de PLN que intervienen duran- lección de opiniones. Esto implica abordar te esta etapa són la planificación del discur- distintos subproblemas, p.e. reconocimiento so, que da más naturalidad y coherencia a y clasificación de entidades nominales, clus- la interacción y la generación del lenguaje, tering (descubrir categorias y propiedades re- donde se pueden aplicar técnicas de detec- levantes), ası́ como la clasificación de weblogs ción/selección del registro. La lengua gene- en varios grados de subjetividad en diferentes rada puede ser distinta a la de la fuente de dimensiones, p.e. influencia y/o sentimiento. donde se extrae la información requerida. Por Por ejemplo, imaginemos que Johan y otro lado el asistente a parte de mostrar infor- Marı́a buscan un restaurante donde ir a co- mación textual podrı́a sintetizar voz o extraer mer un arroz en Valencia. El restaurante de- partes de documentos de video o audio. be cumplir una serie de requisitos, como que sirvan comida para vegetarianos y que se pue- 5. Conclusiones da llegar con transporte público. Seria desea- Éste artı́culo presenta a los asistentes vir- ble poder seguir recomendaciones de especia- tuales como una aplicación que aborda dis- listas, como por ejemplo los de la guı́a gas- tintas tareas de PLN, y a la vez plantea un tronómica Michelin, o tener opiniones positi- nuevo horizonte de retos que afrontar en el vas de los usuarios en diferentes foros o blogs. futuro próximo, con el objetivo de conseguir Para mejorar la calidad de los resultados una interacción natural con la tecnologı́a que el asistente necesita interactuar con el usua- nos envuelve. El aumento de capacidad de los rio para desambiguar información, seleccio- ordenadores no es suficiente, es necesario se- nar entre diferentes opciones o refinar una guir trabajando en nuevos enfoques para su- búsqueda. Cada interacción se divide en tres perar las deficiencias todavı́a existentes. etapas: comprensión del usuario, control de Bibliografı́a la interacción y generación de una respuesta. Atserias, J. 2006. Towards Robustness in Natural Comprender al usuario consiste en anali- Language Understanding. Ph.D. tesis, EHU. zar diferentes niveles de su intervención, p.e. Carreras, X. 2005. Learning and Inference in Ph- análisis sintáctico-semántico, análisis del dis- rase Recognition: A Filtering-Ranking Archi- curso y reconocimiento automático del habla tecture Using Perceptron. Ph.D. tesis, UPC. en el caso de comunicación oral. Daudé, J. 2005. Enlace de Jerarquı́as Usando La información obtenida del usuario se in- Etiquetado por Relajación. Ph.D. tesis, UPC. corpora, durante la etapa de control de la in- Escudero, G. 2006. Machine Learning Techni- teracción, al conocimiento especı́fico sobre la ques for Word Sense Disambiguation. Ph.D. misma. Durante esta etapa el asistente deci- tesis, UPC. de si necesita obtener más información por Farreras, J. 2005. Automatic Construction of parte del usuario, p.e. cuál es su ubicación Wide-Coverage Domain-Independent Lexico- actual para buscar las estaciones de autobús Conceptual Ontologies. Ph.D. tesis, UPC. más cercanas (esta información se podrı́a in- Fuentes, M. 2008. A Flexible Multitask Sum- ferir automáticamente a partir de geolocaliza- marizer for Documents from Different Media, dores). Controlar la interacción es un proceso Domain, and Language. Ph.D. tesis, UPC. complejo que puede implicar varios turnos de Giménez, J. 2008. Empirical Machine Transla- clarificaciones por parte tanto del usuario co- tion and its Evaluation. Ph.D. tesis, UPC. mo del sistema, hasta que éste último llega Gonzàlez, M. 2010. DIGUI: A flexible dialogue a comprender el objetivo del usuario y puede system for accessing web services. Ph.D. tesis. ofrecer una respuesta satisfactoria. Padró, Muntsa. 2008. Applying Causal State Splitting Reconstruction Algorithm to Natural En la etapa de generación de respuesta de Language Processing Tasks. Ph.D. tesis, UPC. cada interacción el asistente establece el con-