Babxel: Búsqueda Multilingüe Babxel: Multilingual Search Andrés Velasco Collado Universidad Europea de Madrid avc.conti@gmail.com Resumen: La Web 2.0 ha tenido un enorme éxito gracias a la posibilidad de una interacción dinámica por parte del usuario, ya no sólo a la hora de participar en elementos colaborativos, como puedan ser los foros, sino en compartir/añadir contenido a la Web. Dos ejemplos claros de este paradigma son YouTube y Flickr. El primero hospeda la mayor parte de los vídeos que podemos encontrar en Internet, y el segundo ha creado la mayor comunidad de fotógrafos existente en la red. Ambos servicios funcionan de una forma similar, el usuario es el que aporta contenidos junto a una información asociada al mismo. Al ser comunidades internacionales, la información añadida por el usuarios se realiza en diversos idiomas, por lo que la búsqueda de recursos multimedia en estos sitios es dependiente del idioma de la consulta. En este artículo, presentamos Babxel, un sistema de recuperación de información multimedia y multilingüe, nacido como proyecto de fin de carrera de Ingeniería Informática, como extensión y mejora de FlickrBabel. Babxel aprovecha la capacidad de traducción multilingüe automática para generar más resultados de búsqueda relacionado con la consulta del usuario, resultados que se obtienen de las plataformas mencionadas anteriormente. Palabras clave: Recuperación de información, multilingüe, multimedia, YouTube, Flickr, redes sociales, medios sociales, traducción… Abstract: The Web 2.0 has been successful thank to the possibility for the user to interact dynamically, not only in collaborative environments, but also in forums and adding/sharing resources to the Web. Two of the most important examples that apply for this paradigm are Flickr and YouTube. The first one host the majority of videos that are played on the Web, and the latter has built the biggest photographers community all over the Internet. Both services work in the same way, letting the user to upload resources with information attached to it, which help to explain or classify it. As they are international communities, the resources added by the users will be in different languages, so the query to search multimedia resources on these sites is dependable on the query language. The purpose of this paper is to introduce Babxel, a multilingual and multimedia information retrieval system, born due to a Computer Engineering final degree project, as an upgrade and extension of FlickrBabel. Babxel takes advantages of the automatic multilingual translation to generate more results related to the users' queries, results obtained from the platforms previously mentioned. Keywords: Information retrieval, crosslingual, multimedia, YouTube, Flickr, Social Networks, Social Media, Translation… la red. El hecho de que YouTube sea el segundo 1 Introducción buscador más utilizado por detrás de Google no hace mas que reafirmar la idea de que el usuario Los Medios Sociales son herramientas prefiere que le cuenten las cosas a leerlas. tecnológicas que permiten a los usuarios compartir información y debatir sobre ella. La El verdadero éxito de todo esto, reside en la mayoría de los Medios Sociales son posibilidad de combinar diferentes aplicaciones aplicaciones Web que gestionan información de Medios Sociales de manera que se explote al textual, como blog (Blogger, Wordpress), máximo el potencial de comunicación existente microblogging (Twitter, Pownce), wikis en la red. Un ejemplo claro es la necesidad de (Wikipedia), forums, or Social Networks buscar material multimedia en numerosas (Facebook, MySpace, LinkedIn). Existen ocasiones para explicar/apoyar información además otro tipo de aplicaciones basadas en escrita, ya sea en un blog, trabajo, o noticiario Internet para Medios Sociales que permiten a online, y como dato tenemos que el los usuarios compartir algo más que texto, visualizador de YouTube se ha embebido en como herramientas para compartir fotografías más de 10 millones de páginas Web[3]. (Flickr, Picasa), compartir videos (YouTube, Vimeo), transmisión en directo (Ustream), o De todos los servicios sociales relacionados compartir audio/música (last.fm, ccMixter, con la gestión de información multimedia, Freesound). Los Medios Sociales más recientes YouTube y Flickr son los más destacados, tanto incluyen mundos virtuales (Second Life), por su gran base de usuarios, cantidad de juegos online (World of Warcraft, WarHammer información que manejan y por la calidad de Online), compartir juegos (miniclip.com) y algunos de sus contenidos. A continuación se Medios Sociales para móviles como las redes introducen algunas de sus características sociales nómadas donde los usuarios comparten principales. su situación actual en el mundo real. Flickr es una página de almacenamiento de Los Medios Sociales han supuesto un imágenes y videos, servicios Web, y una cambio en la manera en la que la información comunidad de fotógrafos que a fecha de se genera y se consume. Al principio, la Octubre de 2009 posee 4 mil millones[1] de información era generada por una persona y fotografías aportadas por los mismos usuarios. consumida por muchas otras, pero ahora es Aparte de ser un sitio donde compartir el generada por muchas personas y consumida por contenido multimedia mencionado el mismo número o mayor, cambiando las anteriormente, suele ser utilizado por los necesidades a la hora de acceder y gestionar la Bloggers para hospedar las imágenes que luego información. Es de destacar el gran número de acompañaran a sus entradas escritas. usuarios y datos que gestionan los Medios Sociales: Facebook y MySpace gestionan entre YouTube es un sitio creado parar el 400 y 450 millones de usuarios, se estima que almacenamiento y posterior publicación de se generan al día 1 millón de publicaciones en videos vía streaming, que se ha convertido en blogs, servicios de microblogging como Twitter uno de las 5 primeras webs más visitadas en generan 3 millones de mensajes al día, Youtube Internet [2]. YouTube recibe cerca de 2 mil gestiona más de 150.000 millones de vídeos, millones de visitas al día, lo que le hace el etc.[4] número uno en contenido de video dedicado al público general. El último reporte estadístico de Los recursos multimedia son parte YouTube [3](con fecha primer trimestre del año fundamental del auge de los Medios Sociales, 2010) muestra los siguientes datos: ya que muchos de ellos se basan en dichos recursos: YouTube y Vimeo gestionan vídeos, • 24 horas de video subidos por minuto. Flickr y Picasa gestionan fotografías, etc. • 15 minutos es la media al día que pasa una Gracias a lo anteriormente comentado, el persona viendo contenido en YouTube. usuario pasa de poder comentar con texto un suceso, evento u opinión, a poder grabarlo o fotografiarlo y de esta manera ampliar el Tanto Flickr como YouTube poseen abanico de vías de comunicación existentes en API's[5][6] (Application Programming Interface) que ofrecen servicios Web a los desarrolladores de aplicaciones. Esta herramienta permite acceso a todo el contenido multimedia que se hospeda en ambas plataformas, el cual ha sido proporcionado y etiquetado por los propios usuarios, y que sin esta información añadida no sería posible clasificar o darle un significado. Resulta difícil tratar con información asociada a un recurso multimedia cuando el usuario tiene libertad absoluta en proporcionar dicha información. Esto conlleva a los siguientes problemas: Figura 1: Funcionamiento de Babxel • Diferentes tipos de texto asociado al La figura 1 muestra el funcionamiento básico contenido multimedia, por ejemplo: del sistema. El usuario introduce el texto con el etiquetas, descripción título y otros que quiere iniciar la búsqueda, el cuál campos de descripción. seguramente introducirá en su lengua materna. Actualmente el usuario puede decidir el idioma • Información asociada en diferentes de entrada, pudiendo elegir entre dos lenguajes. posibilidades, Inglés o Español (Español por defecto).El idioma de entrada tiene un • Etiquetado útil para un conjunto propósito, y es que no es lo mismo traducir pequeño de usuarios, pero que no ayuda "Can" del Español al Inglés que a la inversa. A al tratamiento de ese contenido su vez podrá modificar los idiomas que se multimedia, ni a la búsqueda general usarán para recuperar resultados, siendo por parte de la mayoría de los usuarios, Español, Portugués, Francés, Italiano e Inglés como puedan ser las etiquetas con un los idiomas configurados por defecto, y propósito específico, por ejemplo: ampliables al mismo número de idiomas que contenido etiquetado para un grupo de proporciona la API de Google Translator, personas, etiquetas que hacen siempre y cuando el usuario lo indique referencia el lugar donde fueron expresamente. tomadas las fotos de las vacaciones, etc. En cualquier momento de la configuración, el usuario puede elegir que tipo de recursos se devolverán, Fotos, Videos o Ambos(por defecto). 2 Sistema de Babxel Una vez realizado el paso previo de configuración (el cual puede saltarse y buscar Hoy en día cuando un usuario quiere buscar un con las opciones por defecto), Babxel consulta contenido lo hace en su lengua materna, ya que con Google Translator para traducir la entrada de esta manera estará seguro de que entenderá del usuario en los idiomas de salida mejor lo que encuentre. A la hora de buscar seleccionados. Con esto se genera una consulta contenido multimedia esto podría no ser cierto. extendida/preparada para recuperar los Por ejemplo, si un usuario quiere buscar una resultados, esta consulta es preparada teniendo foto de un perro, no le importará que una foto en cuenta el servicio Web que la va a recibir, en no esté etiquetada en su lengua materna, de este caso las API's de YouTube y Flickr. Los manera que con que aparezca un perro y encaje resultados obtenidos son mostrados al usuario en lo que buscaba, es suficiente. por orden de relevancia (por defecto). Esta es una de las premisas principales de Babxel, y está construido de manera que se Aprovechando el uso de las API's de Flickr requiera la mínima interacción por parte del y YouTube, se añaden opciones de búsqueda usuario. avanzadas, de manera que den más sentido a los resultados recolectados por el sistema para el usuario. Entre las que cabe destacar: la Geolocalización (aportando el lugar), y la búsqueda de imágenes bajo una determinada Tipo licencia Creative Commons. Esta última sin Término Normal Extendida duda es de las más útiles, ya que permite al Dog 7,519,160 8,124,340 usuario asegurarse de que las imágenes que está Flower 14,036,992 14,896,604 viendo no le van a causar ningún problema Car 8,924,196 10,746,171 legal por el Copyright si las usa en su blog Home 7,570,160 10,174,704 personal. Cat 6,712,319 7,382,602 Moon 2,089,278 2,814,321 Otro pilar básico de Babxel, es el sistema de Phone 2,670,410 2,926,803 "tracking" que se ha implementado para grabar Beach 14,989,497 16,897,348 el recorrido que realiza un usuario desde que Mountain 8,315,239 9,562,534 realiza la búsqueda hasta que finalmente elige T-shirt 481,472 579,191 una foto/video que encaja con sus pretensiones. Tabla 2: Experimentos en Inglés Esto nos permitirá ver qué fotos/videos ha visitado el usuario antes de elegir el contenido Uno de los resultados más llamativos, es el final, o incluso si con la primera búsqueda ya anteriormente nombrado con la palabra "perro" ha conseguido el recurso que necesitaba. El (Tabla 1), si utilizamos Babxel con el Español objetivo es obtener patrones y tendencias para como idioma de entrada y único de salida, mejorar los resultados generados por Babxel . obtenemos 302,006 resultados, mientras que si Evidentemente, para poder hacer efectiva esta utilizamos la configuración por defecto(Español funcionalidad se ha implementado un sistema de entrada y Español-Inglés-Francés-Italiano- de gestión de usuarios adaptada expresamente Portugués como idiomas de salida) obtenemos para la arquitectura de Babxel. la cifra de 8,124,340 resultados. 3 Experimentos Con los términos “perro”, “flor”, y “coche” Se han realizado los siguientes experimentos, se aprecia que la búsqueda extendida aporta consistentes en elegir 10 términos y comprobar números desorbitados con la búsqueda original. el aumento de resultados con Babxel. El Esto se debe a que los usuarios cuando tienen objetivo es comprobar que la búsqueda con que etiquetar una foto con esos términos, Babxel resulta ser independiente del idioma, ya prefieren hacerlo con los términos en Inglés. que la consulta extendida da los mismos resultados tanto como si la palabra de entrada En términos generales se puede apreciar el está en Español, como si está en Inglés. gran aumento de términos en Inglés con respecto al Español. Esto se debe a que el Tipo primero es uno de los idiomas más extendidos Término Normal Extendida en la red, y utilizado por la mayoría de la gente Perro 302,006 8,124,340 para etiquetar contenido de manera que el Flor 765,678 14,896,604 número de personas que puedan encontrarlo sea Coche 138,178 10,746,171 mayor. Casa 2,382,801 10,174,704 A raíz de los resultados queda claro que la Gato 514,067 7,382,602 utilidad de la búsqueda extendida será mucho Luna 596,920 2,814,321 mayor para una persona de habla no inglesa que Teléfono 59,846 2,926,803 para una que si lo hable, ya que el porcentaje de Playa 1,397,968 16,897,348 mejora para esta última es inferior. Montaña 1,039,988 9,562,534 Camiseta 106,369 579,191 Con el término "camiseta", la suma de la Tabla 1: Experimentos en Español búsqueda normal en Español(Tabla 1) más la búsqueda normal en Inglés(Tabla 2) supera el resultado total, esto se debe a que existe una gran cantidad de contenido etiqueta con esa palabra en Español e Inglés. 4 Conclusiones y próximos pasos [8] Julio Gonzalo, Paul Clough and Jussi Karlgren. Multilingual Image Search from a La utilización de Babxel como buscador user’s perspective. NED. multimedia ha resultado ser exitosa en números, ya que los resultado se ven incrementados de [9] Julio Gonzalo, Paul Clough and Jussi manera exponencial comparados con una Karlgren. Multilingual interactive búsqueda en la lengua materna. experiments with Flickr. UNED. Aparte de las opciones ya nombradas, [10] Adrián Popescu and Ioannis Kanellos. Babxel contiene opciones avanzadas que Multilingual and Content Based Access to permiten al usuario filtrar aún más el contenido Flickr Images. que desea encontrar. A pesar de los números que se consiguen, [11] Paul Clough, Azzah Al-Maskari, and quien decide si Babxel es útil es el usuario, por Kareem Darwish. Providing Multilingual ello es necesario conseguir una base importante Access to FLICKR for Arabic Users. de usuarios que utilicen la herramienta, y [12] Víctor Peinado, Javier Artiles, Julio obtener conclusiones a posteriori mediante un Gonzalo, Emma Barker, and Fernando análisis de los datos obtenidos por el sistema de López-Ostenero. FlickLing: a Multilingual "tracking". Search Interface for Flickr. En el presente y futuro cercano, las áreas de [13] Srinivasarao Vundavalli. Mining the mejoras de Babxel se centrarán en: Behavior of users in a Multilingual Information Access Task. • Mejorar la recuperación de resultados [14] Adrian Popescu, Gregory Grefenstette, relacionados con el elegido por el Houda Bouamor. Mining a Multilingual usuario. Geographical Gazetteer from the Web. • Uso de Ontologías para mejorar la construcción de las consultas. [15] Paul Clough, Julio Gonzalo, Jussi • Soportar más lenguajes de entrada. Karlgren, Emma Barker and Javier Artiles, • Mejorar el sistema de "tracking" en aras Victor Peinado. Large-Scale Interactive a construir un sistema de Evaluation of Multilingual Information recomendación de contenido Access Systems – the iCLEF Flickr multimedia para el usuario. Challenge 5 Bibliografía [1] http://en.wikipedia.org/wiki/Flickr [2] http://www.alexa.com/siteinfo/youtube.com [3] http://www.website- monitoring.com/blog/2010/05/17/youtube- facts-and-figures-history-statistics/ [4]http://www.socialgamingplatform.com/msm 09/ [5]http://www.flickr.com/services/api/ [6]http://code.google.com/apis/youtube/overvie w.html [7] J.C.Cortizo, A. Carrero, F.Carrero and B.Monsalve. FlickrBabel: Crosslingual Multimedia Retrieval. Wipley.