<!DOCTYPE article PUBLIC "-//NLM//DTD JATS (Z39.96) Journal Archiving and Interchange DTD v1.0 20120330//EN" "JATS-archivearticle1.dtd">
<article xmlns:xlink="http://www.w3.org/1999/xlink">
  <front>
    <journal-meta />
    <article-meta>
      <title-group>
        <article-title>Babxel: Búsqueda Multilingüe</article-title>
      </title-group>
      <contrib-group>
        <contrib contrib-type="author">
          <string-name>Babxel: Multilingual Search</string-name>
          <xref ref-type="aff" rid="aff0">0</xref>
        </contrib>
        <aff id="aff0">
          <label>0</label>
          <institution>Andrés Velasco Collado Universidad Europea de Madrid</institution>
        </aff>
      </contrib-group>
      <abstract>
        <p>The Web 2.0 has been successful thank to the possibility for the user to interact dynamically, not only in collaborative environments, but also in forums and adding/sharing resources to the Web. Two of the most important examples that apply for this paradigm are Flickr and YouTube. The first one host the majority of videos that are played on the Web, and the latter has built the biggest photographers community all over the Internet. Both services work in the same way, letting the user to upload resources with information attached to it, which help to explain or classify it. As they are international communities, the resources added by the users will be in different languages, so the query to search multimedia resources on these sites is dependable on the query language. The purpose of this paper is to introduce Babxel, a multilingual and multimedia information retrieval system, born due to a Computer Engineering final degree project, as an upgrade and extension of FlickrBabel. Babxel takes advantages of the automatic multilingual translation to generate more results related to the users' queries, results obtained from the platforms previously mentioned.</p>
      </abstract>
    </article-meta>
  </front>
  <body>
    <sec id="sec-1">
      <title>Introducción</title>
      <p>Los Medios Sociales son herramientas
tecnológicas que permiten a los usuarios
compartir información y debatir sobre ella. La
mayoría de los Medios Sociales son
aplicaciones Web que gestionan información
textual, como blog (Blogger, Wordpress),
microblogging (Twitter, Pownce), wikis
(Wikipedia), forums, or Social Networks
(Facebook, MySpace, LinkedIn). Existen
además otro tipo de aplicaciones basadas en
Internet para Medios Sociales que permiten a
los usuarios compartir algo más que texto,
como herramientas para compartir fotografías
(Flickr, Picasa), compartir videos (YouTube,
Vimeo), transmisión en directo (Ustream), o
compartir audio/música (last.fm, ccMixter,
Freesound). Los Medios Sociales más recientes
incluyen mundos virtuales (Second Life),
juegos online (World of Warcraft, WarHammer
Online), compartir juegos (miniclip.com) y
Medios Sociales para móviles como las redes
sociales nómadas donde los usuarios comparten
su situación actual en el mundo real.</p>
      <p>Los Medios Sociales han supuesto un
cambio en la manera en la que la información
se genera y se consume. Al principio, la
información era generada por una persona y
consumida por muchas otras, pero ahora es
generada por muchas personas y consumida por
el mismo número o mayor, cambiando las
necesidades a la hora de acceder y gestionar la
información. Es de destacar el gran número de
usuarios y datos que gestionan los Medios
Sociales: Facebook y MySpace gestionan entre
400 y 450 millones de usuarios, se estima que
se generan al día 1 millón de publicaciones en
blogs, servicios de microblogging como Twitter
generan 3 millones de mensajes al día, Youtube
gestiona más de 150.000 millones de vídeos,
etc.[4]</p>
      <p>Los recursos multimedia son parte
fundamental del auge de los Medios Sociales,
ya que muchos de ellos se basan en dichos
recursos: YouTube y Vimeo gestionan vídeos,
Flickr y Picasa gestionan fotografías, etc.
Gracias a lo anteriormente comentado, el
usuario pasa de poder comentar con texto un
suceso, evento u opinión, a poder grabarlo o
fotografiarlo y de esta manera ampliar el
abanico de vías de comunicación existentes en
la red. El hecho de que YouTube sea el segundo
buscador más utilizado por detrás de Google no
hace mas que reafirmar la idea de que el usuario
prefiere que le cuenten las cosas a leerlas.</p>
      <p>
        El verdadero éxito de todo esto, reside en la
posibilidad de combinar diferentes aplicaciones
de Medios Sociales de manera que se explote al
máximo el potencial de comunicación existente
en la red. Un ejemplo claro es la necesidad de
buscar material multimedia en numerosas
ocasiones para explicar/apoyar información
escrita, ya sea en un blog, trabajo, o noticiario
online, y como dato tenemos que el
visualizador de YouTube se ha embebido en
más de 10 millones de páginas Web[
        <xref ref-type="bibr" rid="ref3">3</xref>
        ].
      </p>
      <p>De todos los servicios sociales relacionados
con la gestión de información multimedia,
YouTube y Flickr son los más destacados, tanto
por su gran base de usuarios, cantidad de
información que manejan y por la calidad de
algunos de sus contenidos. A continuación se
introducen algunas de sus características
principales.</p>
      <p>
        Flickr es una página de almacenamiento de
imágenes y videos, servicios Web, y una
comunidad de fotógrafos que a fecha de
Octubre de 2009 posee 4 mil millones[
        <xref ref-type="bibr" rid="ref1">1</xref>
        ] de
fotografías aportadas por los mismos usuarios.
Aparte de ser un sitio donde compartir el
contenido multimedia mencionado
anteriormente, suele ser utilizado por los
Bloggers para hospedar las imágenes que luego
acompañaran a sus entradas escritas.
      </p>
      <p>
        YouTube es un sitio creado parar el
almacenamiento y posterior publicación de
videos vía streaming, que se ha convertido en
uno de las 5 primeras webs más visitadas en
Internet [
        <xref ref-type="bibr" rid="ref2">2</xref>
        ]. YouTube recibe cerca de 2 mil
millones de visitas al día, lo que le hace el
número uno en contenido de video dedicado al
público general. El último reporte estadístico de
YouTube [
        <xref ref-type="bibr" rid="ref3">3</xref>
        ](con fecha primer trimestre del año
2010) muestra los siguientes datos:
• 24 horas de video subidos por minuto.
• 15 minutos es la media al día que pasa una
persona viendo contenido en YouTube.
      </p>
      <sec id="sec-1-1">
        <title>Tanto</title>
        <p>API's[5][6]</p>
      </sec>
      <sec id="sec-1-2">
        <title>Flickr como</title>
        <p>(Application</p>
      </sec>
      <sec id="sec-1-3">
        <title>YouTube poseen</title>
        <p>Programming
Interface) que ofrecen servicios Web a los
desarrolladores de aplicaciones. Esta
herramienta permite acceso a todo el contenido
multimedia que se hospeda en ambas
plataformas, el cual ha sido proporcionado y
etiquetado por los propios usuarios, y que sin
esta información añadida no sería posible
clasificar o darle un significado.</p>
        <p>Resulta difícil tratar con información
asociada a un recurso multimedia cuando el
usuario tiene libertad absoluta en proporcionar
dicha información. Esto conlleva a los
siguientes problemas:
•
•
•</p>
        <p>Diferentes tipos de texto asociado al
contenido multimedia, por ejemplo:
etiquetas, descripción título y otros
campos de descripción.</p>
        <p>Información asociada en diferentes
lenguajes.</p>
        <p>Etiquetado útil para un conjunto
pequeño de usuarios, pero que no ayuda
al tratamiento de ese contenido
multimedia, ni a la búsqueda general
por parte de la mayoría de los usuarios,
como puedan ser las etiquetas con un
propósito específico, por ejemplo:
contenido etiquetado para un grupo de
personas, etiquetas que hacen
referencia el lugar donde fueron
tomadas las fotos de las vacaciones, etc.
2</p>
      </sec>
    </sec>
    <sec id="sec-2">
      <title>Sistema de Babxel</title>
      <p>Hoy en día cuando un usuario quiere buscar un
contenido lo hace en su lengua materna, ya que
de esta manera estará seguro de que entenderá
mejor lo que encuentre. A la hora de buscar
contenido multimedia esto podría no ser cierto.
Por ejemplo, si un usuario quiere buscar una
foto de un perro, no le importará que una foto
no esté etiquetada en su lengua materna, de
manera que con que aparezca un perro y encaje
en lo que buscaba, es suficiente.</p>
      <p>Esta es una de las premisas principales de
Babxel, y está construido de manera que se
requiera la mínima interacción por parte del
usuario.</p>
      <p>Figura 1: Funcionamiento de Babxel
La figura 1 muestra el funcionamiento básico
del sistema. El usuario introduce el texto con el
que quiere iniciar la búsqueda, el cuál
seguramente introducirá en su lengua materna.
Actualmente el usuario puede decidir el idioma
de entrada, pudiendo elegir entre dos
posibilidades, Inglés o Español (Español por
defecto).El idioma de entrada tiene un
propósito, y es que no es lo mismo traducir
"Can" del Español al Inglés que a la inversa. A
su vez podrá modificar los idiomas que se
usarán para recuperar resultados, siendo
Español, Portugués, Francés, Italiano e Inglés
los idiomas configurados por defecto, y
ampliables al mismo número de idiomas que
proporciona la API de Google Translator,
siempre y cuando el usuario lo indique
expresamente.</p>
      <p>En cualquier momento de la configuración,
el usuario puede elegir que tipo de recursos se
devolverán, Fotos, Videos o Ambos(por
defecto).</p>
      <p>Una vez realizado el paso previo de
configuración (el cual puede saltarse y buscar
con las opciones por defecto), Babxel consulta
con Google Translator para traducir la entrada
del usuario en los idiomas de salida
seleccionados. Con esto se genera una consulta
extendida/preparada para recuperar los
resultados, esta consulta es preparada teniendo
en cuenta el servicio Web que la va a recibir, en
este caso las API's de YouTube y Flickr. Los
resultados obtenidos son mostrados al usuario
por orden de relevancia (por defecto).</p>
      <p>Aprovechando el uso de las API's de Flickr
y YouTube, se añaden opciones de búsqueda
avanzadas, de manera que den más sentido a los
resultados recolectados por el sistema para el
usuario. Entre las que cabe destacar: la
Geolocalización (aportando el lugar), y la
búsqueda de imágenes bajo una determinada
licencia Creative Commons. Esta última sin
duda es de las más útiles, ya que permite al
usuario asegurarse de que las imágenes que está
viendo no le van a causar ningún problema
legal por el Copyright si las usa en su blog
personal.</p>
      <p>Otro pilar básico de Babxel, es el sistema de
"tracking" que se ha implementado para grabar
el recorrido que realiza un usuario desde que
realiza la búsqueda hasta que finalmente elige
una foto/video que encaja con sus pretensiones.
Esto nos permitirá ver qué fotos/videos ha
visitado el usuario antes de elegir el contenido
final, o incluso si con la primera búsqueda ya
ha conseguido el recurso que necesitaba. El
objetivo es obtener patrones y tendencias para
mejorar los resultados generados por Babxel .
Evidentemente, para poder hacer efectiva esta
funcionalidad se ha implementado un sistema
de gestión de usuarios adaptada expresamente
para la arquitectura de Babxel.
3</p>
    </sec>
    <sec id="sec-3">
      <title>Experimentos</title>
      <p>Se han realizado los siguientes experimentos,
consistentes en elegir 10 términos y comprobar
el aumento de resultados con Babxel. El
objetivo es comprobar que la búsqueda con
Babxel resulta ser independiente del idioma, ya
que la consulta extendida da los mismos
resultados tanto como si la palabra de entrada
está en Español, como si está en Inglés.</p>
      <sec id="sec-3-1">
        <title>Tipo</title>
      </sec>
      <sec id="sec-3-2">
        <title>Término Normal Extendida</title>
        <p>Perro 302,006 8,124,340
Flor 765,678 14,896,604
Coche 138,178 10,746,171
Casa 2,382,801 10,174,704
Gato 514,067 7,382,602
Luna 596,920 2,814,321
Teléfono 59,846 2,926,803
Playa 1,397,968 16,897,348
Montaña 1,039,988 9,562,534
Camiseta 106,369 579,191
Tabla 1: Experimentos en Español</p>
      </sec>
      <sec id="sec-3-3">
        <title>Tipo</title>
      </sec>
      <sec id="sec-3-4">
        <title>Término</title>
        <p>Dog
Flower
Car
Home
Cat
Moon
Phone
Beach
Mountain
T-shirt</p>
        <p>Uno de los resultados más llamativos, es el
anteriormente nombrado con la palabra "perro"
(Tabla 1), si utilizamos Babxel con el Español
como idioma de entrada y único de salida,
obtenemos 302,006 resultados, mientras que si
utilizamos la configuración por defecto(Español
de entrada y
Español-Inglés-Francés-ItalianoPortugués como idiomas de salida) obtenemos
la cifra de 8,124,340 resultados.</p>
        <p>Con los términos “perro”, “flor”, y “coche”
se aprecia que la búsqueda extendida aporta
números desorbitados con la búsqueda original.
Esto se debe a que los usuarios cuando tienen
que etiquetar una foto con esos términos,
prefieren hacerlo con los términos en Inglés.</p>
        <p>En términos generales se puede apreciar el
gran aumento de términos en Inglés con
respecto al Español. Esto se debe a que el
primero es uno de los idiomas más extendidos
en la red, y utilizado por la mayoría de la gente
para etiquetar contenido de manera que el
número de personas que puedan encontrarlo sea
mayor.</p>
        <p>A raíz de los resultados queda claro que la
utilidad de la búsqueda extendida será mucho
mayor para una persona de habla no inglesa que
para una que si lo hable, ya que el porcentaje de
mejora para esta última es inferior.</p>
        <p>Con el término "camiseta", la suma de la
búsqueda normal en Español(Tabla 1) más la
búsqueda normal en Inglés(Tabla 2) supera el
resultado total, esto se debe a que existe una
gran cantidad de contenido etiqueta con esa
palabra en Español e Inglés.</p>
      </sec>
    </sec>
    <sec id="sec-4">
      <title>Conclusiones y próximos pasos</title>
      <p>La utilización de Babxel como buscador
multimedia ha resultado ser exitosa en números,
ya que los resultado se ven incrementados de
manera exponencial comparados con una
búsqueda en la lengua materna.</p>
      <p>Aparte de las opciones ya nombradas,
Babxel contiene opciones avanzadas que
permiten al usuario filtrar aún más el contenido
que desea encontrar.</p>
      <p>A pesar de los números que se consiguen,
quien decide si Babxel es útil es el usuario, por
ello es necesario conseguir una base importante
de usuarios que utilicen la herramienta, y
obtener conclusiones a posteriori mediante un
análisis de los datos obtenidos por el sistema de
"tracking".</p>
      <p>En el presente y futuro cercano, las áreas de
mejoras de Babxel se centrarán en:
•
•
•
•</p>
      <p>Mejorar la recuperación de resultados
relacionados con el elegido por el
usuario.</p>
      <p>Uso de Ontologías para mejorar la
construcción de las consultas.</p>
      <p>Soportar más lenguajes de entrada.</p>
      <p>Mejorar el sistema de "tracking" en aras
a construir un sistema de
recomendación de contenido
multimedia para el usuario.
5
[5]http://www.flickr.com/services/api/
[6]http://code.google.com/apis/youtube/overvie
w.html
[15] Paul Clough, Julio Gonzalo, Jussi
Karlgren, Emma Barker and Javier Artiles,
Victor Peinado. Large-Scale Interactive
Evaluation of Multilingual Information
Access Systems – the iCLEF Flickr
Challenge</p>
    </sec>
  </body>
  <back>
    <ref-list>
      <ref id="ref1">
        <mixed-citation>[1] http://en.wikipedia.org/wiki/Flickr</mixed-citation>
      </ref>
      <ref id="ref2">
        <mixed-citation>[2] http://www.alexa.com/siteinfo/youtube.com</mixed-citation>
      </ref>
      <ref id="ref3">
        <mixed-citation>
          [3] http://www.websitemonitoring.com/blog/2010/05/17/youtubefacts-and
          <string-name>
            <surname>-</surname>
          </string-name>
          figures
          <string-name>
            <surname>-</surname>
          </string-name>
          history-statistics/ [4]http://www.socialgamingplatform.com/msm 09/
        </mixed-citation>
      </ref>
      <ref id="ref4">
        <mixed-citation>
          [7]
          <string-name>
            <given-names>J.C.</given-names>
            <surname>Cortizo</surname>
          </string-name>
          ,
          <string-name>
            <given-names>A.</given-names>
            <surname>Carrero</surname>
          </string-name>
          ,
          <string-name>
            <given-names>F.</given-names>
            <surname>Carrero</surname>
          </string-name>
          and
          <string-name>
            <given-names>B.</given-names>
            <surname>Monsalve</surname>
          </string-name>
          . FlickrBabel: Crosslingual Multimedia Retrieval. Wipley.
        </mixed-citation>
      </ref>
      <ref id="ref5">
        <mixed-citation>
          [8]
          <string-name>
            <given-names>Julio</given-names>
            <surname>Gonzalo</surname>
          </string-name>
          , Paul Clough and
          <string-name>
            <given-names>Jussi</given-names>
            <surname>Karlgren</surname>
          </string-name>
          .
          <article-title>Multilingual Image Search from a user's perspective</article-title>
          . NED.
        </mixed-citation>
      </ref>
      <ref id="ref6">
        <mixed-citation>
          [9]
          <string-name>
            <given-names>Julio</given-names>
            <surname>Gonzalo</surname>
          </string-name>
          , Paul Clough and
          <string-name>
            <given-names>Jussi</given-names>
            <surname>Karlgren</surname>
          </string-name>
          .
          <article-title>Multilingual interactive experiments with Flickr</article-title>
          .
          <source>UNED.</source>
        </mixed-citation>
      </ref>
      <ref id="ref7">
        <mixed-citation>
          [10]
          <string-name>
            <given-names>Adrián</given-names>
            <surname>Popescu</surname>
          </string-name>
          and
          <string-name>
            <given-names>Ioannis</given-names>
            <surname>Kanellos</surname>
          </string-name>
          .
          <article-title>Multilingual and Content Based Access to Flickr Images</article-title>
          .
        </mixed-citation>
      </ref>
      <ref id="ref8">
        <mixed-citation>
          [11]
          <string-name>
            <given-names>Paul</given-names>
            <surname>Clough</surname>
          </string-name>
          , Azzah Al-Maskari, and
          <string-name>
            <given-names>Kareem</given-names>
            <surname>Darwish</surname>
          </string-name>
          .
          <article-title>Providing Multilingual Access to FLICKR for Arabic Users</article-title>
          .
        </mixed-citation>
      </ref>
      <ref id="ref9">
        <mixed-citation>
          [12]
          <string-name>
            <surname>Víctor</surname>
            <given-names>Peinado</given-names>
          </string-name>
          , Javier Artiles, Julio Gonzalo, Emma Barker, and
          <string-name>
            <surname>Fernando</surname>
          </string-name>
          López-Ostenero.
          <article-title>FlickLing: a Multilingual Search Interface for Flickr</article-title>
          .
        </mixed-citation>
      </ref>
      <ref id="ref10">
        <mixed-citation>
          [13]
          <string-name>
            <given-names>Srinivasarao</given-names>
            <surname>Vundavalli</surname>
          </string-name>
          .
          <article-title>Behavior of users in a Information Access Task</article-title>
          .
        </mixed-citation>
      </ref>
    </ref-list>
  </back>
</article>