=Paper= {{Paper |id=None |storemode=property |title=Babxel: Búsqueda Multilingüe |pdfUrl=https://ceur-ws.org/Vol-697/6.pdf |volume=Vol-697 }} ==Babxel: Búsqueda Multilingüe== https://ceur-ws.org/Vol-697/6.pdf
                     Babxel: Búsqueda Multilingüe

                          Babxel: Multilingual Search
                             Andrés Velasco Collado
                           Universidad Europea de Madrid
                               avc.conti@gmail.com


Resumen: La Web 2.0 ha tenido un enorme éxito gracias a la posibilidad de una
interacción dinámica por parte del usuario, ya no sólo a la hora de participar en elementos
colaborativos, como puedan ser los foros, sino en compartir/añadir contenido a la Web.

Dos ejemplos claros de este paradigma son YouTube y Flickr. El primero hospeda la
mayor parte de los vídeos que podemos encontrar en Internet, y el segundo ha creado la
mayor comunidad de fotógrafos existente en la red. Ambos servicios funcionan de una
forma similar, el usuario es el que aporta contenidos junto a una información asociada al
mismo. Al ser comunidades internacionales, la información añadida por el usuarios se
realiza en diversos idiomas, por lo que la búsqueda de recursos multimedia en estos sitios
es dependiente del idioma de la consulta.

En este artículo, presentamos Babxel, un sistema de recuperación de información
multimedia y multilingüe, nacido como proyecto de fin de carrera de Ingeniería
Informática, como extensión y mejora de FlickrBabel. Babxel aprovecha la capacidad de
traducción multilingüe automática para generar más resultados de búsqueda relacionado
con la consulta del usuario, resultados que se obtienen de las plataformas mencionadas
anteriormente.
Palabras clave: Recuperación de información, multilingüe, multimedia, YouTube,
Flickr, redes sociales, medios sociales, traducción…

Abstract: The Web 2.0 has been successful thank to the possibility for the user to interact
dynamically, not only in collaborative environments, but also in forums and
adding/sharing resources to the Web.

Two of the most important examples that apply for this paradigm are Flickr and
YouTube. The first one host the majority of videos that are played on the Web, and the
latter has built the biggest photographers community all over the Internet. Both services
work in the same way, letting the user to upload resources with information attached to it,
which help to explain or classify it. As they are international communities, the resources
added by the users will be in different languages, so the query to search multimedia
resources on these sites is dependable on the query language.

The purpose of this paper is to introduce Babxel, a multilingual and multimedia
information retrieval system, born due to a Computer Engineering final degree project, as
an upgrade and extension of FlickrBabel. Babxel takes advantages of the automatic
multilingual translation to generate more results related to the users' queries, results
obtained from the platforms previously mentioned.
Keywords: Information retrieval, crosslingual, multimedia, YouTube, Flickr, Social
Networks, Social Media, Translation…
                                                  la red. El hecho de que YouTube sea el segundo
1   Introducción                                  buscador más utilizado por detrás de Google no
                                                  hace mas que reafirmar la idea de que el usuario
Los Medios Sociales son herramientas
                                                  prefiere que le cuenten las cosas a leerlas.
tecnológicas que permiten a los usuarios
compartir información y debatir sobre ella. La
                                                     El verdadero éxito de todo esto, reside en la
mayoría de los Medios Sociales son
                                                  posibilidad de combinar diferentes aplicaciones
aplicaciones Web que gestionan información
                                                  de Medios Sociales de manera que se explote al
textual, como blog (Blogger, Wordpress),
                                                  máximo el potencial de comunicación existente
microblogging (Twitter, Pownce), wikis
                                                  en la red. Un ejemplo claro es la necesidad de
(Wikipedia), forums, or Social Networks
                                                  buscar material multimedia en numerosas
(Facebook, MySpace, LinkedIn). Existen
                                                  ocasiones para explicar/apoyar información
además otro tipo de aplicaciones basadas en
                                                  escrita, ya sea en un blog, trabajo, o noticiario
Internet para Medios Sociales que permiten a
                                                  online, y como dato tenemos que el
los usuarios compartir algo más que texto,
                                                  visualizador de YouTube se ha embebido en
como herramientas para compartir fotografías
                                                  más de 10 millones de páginas Web[3].
(Flickr, Picasa), compartir videos (YouTube,
Vimeo), transmisión en directo (Ustream), o
                                                      De todos los servicios sociales relacionados
compartir audio/música (last.fm, ccMixter,
                                                  con la gestión de información multimedia,
Freesound). Los Medios Sociales más recientes
                                                  YouTube y Flickr son los más destacados, tanto
incluyen mundos virtuales (Second Life),
                                                  por su gran base de usuarios, cantidad de
juegos online (World of Warcraft, WarHammer
                                                  información que manejan y por la calidad de
Online), compartir juegos (miniclip.com) y        algunos de sus contenidos. A continuación se
Medios Sociales para móviles como las redes       introducen algunas de sus características
sociales nómadas donde los usuarios comparten     principales.
su situación actual en el mundo real.
                                                     Flickr es una página de almacenamiento de
   Los Medios Sociales han supuesto un            imágenes y videos, servicios Web, y una
cambio en la manera en la que la información      comunidad de fotógrafos que a fecha de
se genera y se consume. Al principio, la          Octubre de 2009 posee 4 mil millones[1] de
información era generada por una persona y        fotografías aportadas por los mismos usuarios.
consumida por muchas otras, pero ahora es         Aparte de ser un sitio donde compartir el
generada por muchas personas y consumida por      contenido        multimedia        mencionado
el mismo número o mayor, cambiando las            anteriormente, suele ser utilizado por los
necesidades a la hora de acceder y gestionar la   Bloggers para hospedar las imágenes que luego
información. Es de destacar el gran número de     acompañaran a sus entradas escritas.
usuarios y datos que gestionan los Medios
Sociales: Facebook y MySpace gestionan entre         YouTube es un sitio creado parar el
400 y 450 millones de usuarios, se estima que     almacenamiento y posterior publicación de
se generan al día 1 millón de publicaciones en    videos vía streaming, que se ha convertido en
blogs, servicios de microblogging como Twitter    uno de las 5 primeras webs más visitadas en
generan 3 millones de mensajes al día, Youtube    Internet [2]. YouTube recibe cerca de 2 mil
gestiona más de 150.000 millones de vídeos,       millones de visitas al día, lo que le hace el
etc.[4]                                           número uno en contenido de video dedicado al
                                                  público general. El último reporte estadístico de
   Los recursos multimedia son parte              YouTube [3](con fecha primer trimestre del año
fundamental del auge de los Medios Sociales,      2010) muestra los siguientes datos:
ya que muchos de ellos se basan en dichos
recursos: YouTube y Vimeo gestionan vídeos,       • 24 horas de video subidos por minuto.
Flickr y Picasa gestionan fotografías, etc.       • 15 minutos es la media al día que pasa una
Gracias a lo anteriormente comentado, el                 persona viendo contenido en YouTube.
usuario pasa de poder comentar con texto un
suceso, evento u opinión, a poder grabarlo o
fotografiarlo y de esta manera ampliar el           Tanto Flickr como YouTube poseen
abanico de vías de comunicación existentes en     API's[5][6]  (Application Programming
Interface) que ofrecen servicios Web a los
desarrolladores      de      aplicaciones. Esta
herramienta permite acceso a todo el contenido
multimedia que se hospeda en ambas
plataformas, el cual ha sido proporcionado y
etiquetado por los propios usuarios, y que sin
esta información añadida no sería posible
clasificar o darle un significado.

   Resulta difícil tratar con información
asociada a un recurso multimedia cuando el
usuario tiene libertad absoluta en proporcionar
dicha información. Esto conlleva a los
siguientes problemas:                                      Figura 1: Funcionamiento de Babxel

    •   Diferentes tipos de texto asociado al       La figura 1 muestra el funcionamiento básico
        contenido multimedia, por ejemplo:          del sistema. El usuario introduce el texto con el
        etiquetas, descripción título y otros       que quiere iniciar la búsqueda, el cuál
        campos de descripción.                      seguramente introducirá en su lengua materna.
                                                    Actualmente el usuario puede decidir el idioma
    •   Información asociada en diferentes          de entrada, pudiendo elegir entre dos
        lenguajes.                                  posibilidades, Inglés o Español (Español por
                                                    defecto).El idioma de entrada tiene un
    •   Etiquetado útil para un conjunto            propósito, y es que no es lo mismo traducir
        pequeño de usuarios, pero que no ayuda      "Can" del Español al Inglés que a la inversa. A
        al tratamiento de ese contenido             su vez podrá modificar los idiomas que se
        multimedia, ni a la búsqueda general        usarán para recuperar resultados, siendo
        por parte de la mayoría de los usuarios,    Español, Portugués, Francés, Italiano e Inglés
        como puedan ser las etiquetas con un        los idiomas configurados por defecto, y
        propósito específico, por ejemplo:          ampliables al mismo número de idiomas que
        contenido etiquetado para un grupo de       proporciona la API de Google Translator,
        personas,     etiquetas    que    hacen     siempre y cuando el usuario lo indique
        referencia el lugar donde fueron            expresamente.
        tomadas las fotos de las vacaciones, etc.      En cualquier momento de la configuración,
                                                    el usuario puede elegir que tipo de recursos se
                                                    devolverán, Fotos, Videos o Ambos(por
                                                    defecto).
2   Sistema de Babxel                                  Una vez realizado el paso previo de
                                                    configuración (el cual puede saltarse y buscar
Hoy en día cuando un usuario quiere buscar un       con las opciones por defecto), Babxel consulta
contenido lo hace en su lengua materna, ya que      con Google Translator para traducir la entrada
de esta manera estará seguro de que entenderá       del usuario en los idiomas de salida
mejor lo que encuentre. A la hora de buscar         seleccionados. Con esto se genera una consulta
contenido multimedia esto podría no ser cierto.     extendida/preparada      para   recuperar     los
Por ejemplo, si un usuario quiere buscar una        resultados, esta consulta es preparada teniendo
foto de un perro, no le importará que una foto      en cuenta el servicio Web que la va a recibir, en
no esté etiquetada en su lengua materna, de         este caso las API's de YouTube y Flickr. Los
manera que con que aparezca un perro y encaje       resultados obtenidos son mostrados al usuario
en lo que buscaba, es suficiente.                   por orden de relevancia (por defecto).
   Esta es una de las premisas principales de
Babxel, y está construido de manera que se             Aprovechando el uso de las API's de Flickr
requiera la mínima interacción por parte del        y YouTube, se añaden opciones de búsqueda
usuario.                                            avanzadas, de manera que den más sentido a los
                                                    resultados recolectados por el sistema para el
                                                    usuario. Entre las que cabe destacar: la
Geolocalización (aportando el lugar), y la
búsqueda de imágenes bajo una determinada                                   Tipo
licencia Creative Commons. Esta última sin          Término        Normal       Extendida
duda es de las más útiles, ya que permite al        Dog             7,519,160     8,124,340
usuario asegurarse de que las imágenes que está     Flower         14,036,992    14,896,604
viendo no le van a causar ningún problema           Car             8,924,196    10,746,171
legal por el Copyright si las usa en su blog        Home            7,570,160    10,174,704
personal.                                           Cat             6,712,319     7,382,602
                                                    Moon            2,089,278     2,814,321
    Otro pilar básico de Babxel, es el sistema de   Phone           2,670,410     2,926,803
"tracking" que se ha implementado para grabar       Beach          14,989,497    16,897,348
el recorrido que realiza un usuario desde que       Mountain        8,315,239     9,562,534
realiza la búsqueda hasta que finalmente elige      T-shirt           481,472       579,191
una foto/video que encaja con sus pretensiones.             Tabla 2: Experimentos en Inglés
Esto nos permitirá ver qué fotos/videos ha
visitado el usuario antes de elegir el contenido        Uno de los resultados más llamativos, es el
final, o incluso si con la primera búsqueda ya      anteriormente nombrado con la palabra "perro"
ha conseguido el recurso que necesitaba. El         (Tabla 1), si utilizamos Babxel con el Español
objetivo es obtener patrones y tendencias para      como idioma de entrada y único de salida,
mejorar los resultados generados por Babxel .       obtenemos 302,006 resultados, mientras que si
Evidentemente, para poder hacer efectiva esta       utilizamos la configuración por defecto(Español
funcionalidad se ha implementado un sistema         de entrada y Español-Inglés-Francés-Italiano-
de gestión de usuarios adaptada expresamente        Portugués como idiomas de salida) obtenemos
para la arquitectura de Babxel.                     la cifra de 8,124,340 resultados.

3   Experimentos                                       Con los términos “perro”, “flor”, y “coche”
Se han realizado los siguientes experimentos,       se aprecia que la búsqueda extendida aporta
consistentes en elegir 10 términos y comprobar      números desorbitados con la búsqueda original.
el aumento de resultados con Babxel. El             Esto se debe a que los usuarios cuando tienen
objetivo es comprobar que la búsqueda con           que etiquetar una foto con esos términos,
Babxel resulta ser independiente del idioma, ya     prefieren hacerlo con los términos en Inglés.
que la consulta extendida da los mismos
resultados tanto como si la palabra de entrada         En términos generales se puede apreciar el
está en Español, como si está en Inglés.            gran aumento de términos en Inglés con
                                                    respecto al Español. Esto se debe a que el
                       Tipo                         primero es uno de los idiomas más extendidos
Término       Normal       Extendida                en la red, y utilizado por la mayoría de la gente
Perro            302,006       8,124,340            para etiquetar contenido de manera que el
Flor             765,678      14,896,604            número de personas que puedan encontrarlo sea
Coche            138,178      10,746,171            mayor.
Casa           2,382,801      10,174,704
                                                        A raíz de los resultados queda claro que la
Gato             514,067       7,382,602
                                                    utilidad de la búsqueda extendida será mucho
Luna             596,920       2,814,321
                                                    mayor para una persona de habla no inglesa que
Teléfono          59,846       2,926,803
                                                    para una que si lo hable, ya que el porcentaje de
Playa          1,397,968      16,897,348
                                                    mejora para esta última es inferior.
Montaña        1,039,988       9,562,534
Camiseta         106,369         579,191               Con el término "camiseta", la suma de la
       Tabla 1: Experimentos en Español             búsqueda normal en Español(Tabla 1) más la
                                                    búsqueda normal en Inglés(Tabla 2) supera el
                                                    resultado total, esto se debe a que existe una
                                                    gran cantidad de contenido etiqueta con esa
                                                    palabra en Español e Inglés.
4   Conclusiones y próximos pasos                   [8] Julio Gonzalo, Paul Clough and Jussi
                                                       Karlgren. Multilingual Image Search from a
La utilización de Babxel como buscador                 user’s perspective. NED.
multimedia ha resultado ser exitosa en números,
ya que los resultado se ven incrementados de        [9] Julio Gonzalo, Paul Clough and Jussi
manera exponencial comparados con una                  Karlgren.      Multilingual    interactive
búsqueda en la lengua materna.                         experiments with Flickr. UNED.
    Aparte de las opciones ya nombradas,            [10] Adrián Popescu and Ioannis Kanellos.
Babxel contiene opciones avanzadas que                 Multilingual and Content Based Access to
permiten al usuario filtrar aún más el contenido       Flickr Images.
que desea encontrar.
    A pesar de los números que se consiguen,        [11] Paul Clough, Azzah Al-Maskari, and
quien decide si Babxel es útil es el usuario, por      Kareem Darwish. Providing Multilingual
ello es necesario conseguir una base importante        Access to FLICKR for Arabic Users.
de usuarios que utilicen la herramienta, y          [12] Víctor Peinado, Javier Artiles, Julio
obtener conclusiones a posteriori mediante un          Gonzalo, Emma Barker, and Fernando
análisis de los datos obtenidos por el sistema de      López-Ostenero. FlickLing: a Multilingual
"tracking".                                            Search Interface for Flickr.

  En el presente y futuro cercano, las áreas de     [13] Srinivasarao Vundavalli. Mining the
mejoras de Babxel se centrarán en:                     Behavior of users in a Multilingual
                                                       Information Access Task.
    •   Mejorar la recuperación de resultados       [14] Adrian Popescu, Gregory Grefenstette,
        relacionados con el elegido por el             Houda Bouamor. Mining a Multilingual
        usuario.                                       Geographical Gazetteer from the Web.
    •   Uso de Ontologías para mejorar la
        construcción de las consultas.              [15] Paul Clough, Julio Gonzalo, Jussi
    •   Soportar más lenguajes de entrada.             Karlgren, Emma Barker and Javier Artiles,
    •   Mejorar el sistema de "tracking" en aras       Victor Peinado. Large-Scale Interactive
        a construir un sistema de                      Evaluation of Multilingual Information
        recomendación de contenido                     Access Systems – the iCLEF Flickr
        multimedia para el usuario.                    Challenge

5   Bibliografía
[1] http://en.wikipedia.org/wiki/Flickr

[2] http://www.alexa.com/siteinfo/youtube.com

[3]                          http://www.website-
monitoring.com/blog/2010/05/17/youtube-
facts-and-figures-history-statistics/

[4]http://www.socialgamingplatform.com/msm
09/

[5]http://www.flickr.com/services/api/

[6]http://code.google.com/apis/youtube/overvie
w.html
[7] J.C.Cortizo, A. Carrero, F.Carrero and
   B.Monsalve. FlickrBabel: Crosslingual
   Multimedia Retrieval. Wipley.