el tı́tulo y tre los artı́culos en estas dos lenguas <TEXT> el contenido: se establecen mediante enlaces interlen- gua (en el menú “En otros idiomas” de <DOC> la Wikipedia en español). Establecemos <DOCNO> 22 </DOCNO> las correspondencias en los dos sentidos <TITLE> Astronomı́a galáctica

=Paper=
{{Paper
|id=None
|storemode=property
|title=Extracción automática de léxico bilingüe: experimentos en español y catalán
|pdfUrl=https://ceur-ws.org/Vol-824/paper5.pdf
|volume=Vol-824
}}
==Extracción automática de léxico bilingüe: experimentos en español y catalán==
<pdf width="1500px">https://ceur-ws.org/Vol-824/paper5.pdf</pdf>
<pre>
Proceedings of the Workshop on Iberian Cross-Language Natural Language Processing Tasks (ICL 2011)


                     Extracción automática de léxico bilingüe:
                        experimentos en español y catalán∗
                           Automatic Bilingual Lexicon Extraction:
                            Experiments in Spanish and Catalan
       Raphaël Rubino                          Iria da Cunha                        Georges Linarès

       Laboratoire Informatique d’Avignon                                     Institut Universitari de
           339, chemin des Meinajaries                                          Lingüı́stica Aplicada
        84911 Avignon Cedex 9, Francia                                            Roc Boronat 138
         raphael.rubino@univ-avignon.fr                                      08018 Barcelona, España
         georges.linares@univ-avignon.fr                                       iria.dacunha@upf.edu

       Resumen: En este artı́culo presentamos un sistema de extracción automática de
       léxico bilingüe catalán-español. Evitamos el empleo de corpus paralelos y usamos la
       información ofrecida por la Wikipedia como un corpus comparable entre el español y
       el catalán. Empleamos la similitud contextual para traducir unidades léxicas que no
       pueden traducirse por la distancia de edición. Los resultados obtenidos son positivos
       y confirman que este método podrı́a aplicarse a las lenguas ibéricas.
       Palabras clave: extracción automática, léxico bilingüe, traducción automática, es-
       pañol, catalán
       Abstract: In this paper, we propose an automatic bilingual lexicon extraction sys-
       tem for Catalan and Spanish languages. Parallel corpora are not employed and
       Wikipedia is used as Catalan-Spanish comparable corpora. A contextual similarity
       approach is used to translate lexical units that are not translated by an edition
       distance. The obtained results are positive and confirm that this method could be
       applied to Iberian languages.
       Keywords: Automatic Extraction, Bilingual Lexicon, Machine Translation, Spa-
       nish, Catalan


1.    Introduction                                            multilingües. Sin embargo, su desarrollo
    En la Penı́nsula Ibérica coexisten cinco                 y actualización es costoso y lento, ya
lenguas oficiales: español, catalán, galle-                 que normalmente supone la intervención
go, euskera y portugués. Para establecer                     humana.
vı́nculos entre estas lenguas y favorecer                         El diseño de herramientas automáticas
el multilingüismo, es necesario desarrollar                  que ayuden en la construcción de léxicos bi-
recursos para todas ellas. Además, es in-                    lingües (o multilingües) supone un reto en el
dispensable crear recursos que permitan                       ámbito del PLN. Existen trabajos que tra-
relacionarlas. Actualmente, hay una ca-                       tan este tema empleando diferentes estrate-
rencia de recursos de Procesamiento del                       gias. La mayor parte utilizan corpus para-
Lenguaje Natural (NLP) para algunas de                        lelos (Brown et al., 1990; Wu y Xia, 1994;
ellas, especialmente el gallego, el catalán y                Koehn, 2005). No obstante, la creación de es-
el euskera. Uno de los recursos necesarios                    te tipo de corpus es costosa, lo cual encare-
para interrelacionar estas lenguas y diseñar                 ce la investigación y no permite trabajar so-
herramientas de PLN (como sistemas de                         bre todas las combinaciones de lenguas. Otra
traducción automática) son los léxicos                     lı́nea de investigación se basa en la utiliza-
∗
                                                              ción de un recurso más accesible, los corpus
   Esta investigación ha sido parcialmente financiada        bilingües comparables, es decir, conjuntos de
por la Agence Nationale de la Recherche (ANR, Fran-
cia), proyecto AVISON (ANR-007-014); y los proyec-
                                                              textos no paralelos con temáticas comunes
tos RICOTERM (FFI2010-21365-C03-01) y APLE                    pero escritos en cada lengua de manera inde-
(FFI2009-12188-C05-01) en España.                            pendiente. Diversos autores han estudiado la


                                                         35
Proceedings of the Workshop on Iberian Cross-Language Natural Language Processing Tasks (ICL 2011)


posibilidad de extraer unidades léxicas a par-               lenguas español-catalán. Para ello, evitamos
tir de estos corpus, basándose en la hipóte-                el empleo de corpus paralelos y aplicamos la
sis de que una unidad léxica y su traducción                idea de la similitud contextual entre una uni-
comparten similitudes en cuanto a su contex-                  dad léxica y su traducción (Fung, 1995; Rapp,
to (Fung, 1995; Rapp, 1995). Además de cor-                  1995), empleando textos de la Wikipedia co-
pus comparables, esta aproximación emplea                    mo corpus comparable. La metodologı́a des-
un léxico bilingüe preliminar de las lenguas                crita en este trabajo está basada en el empleo
analizadas.                                                   de recursos y heurı́sticas existentes, pero apli-
    La mayorı́a de las investigaciones sobre                  cadas concretamente a la extracción de léxico
este tema se han realizado para relacionar                    bilingüe en estas dos lenguas.
el inglés con otras lenguas. Para las lenguas
ibéricas, encontramos algunos trabajos, que                  2.     Metodologı́a
utilizan principalmente métodos basados en                      La metodologı́a de nuestro trabajo inclu-
corpus paralelos: para inglés-gallego (Guino-                ye dos fases principales: Preprocesamiento y
vart y Fontenla, 2004), para portugués, es-                  creación de recursos léxicos (FASE 0) y Apli-
pañol e inglés (Caseli y Nunes, 2007), y para               cación del algoritmo (FASE 1).
inglés-gallego e inglés-portugués (Guinovart
y Simoes, 2009).
                                                              2.1.     FASE 0: Preprocesamiento y
                                                                       creación de recursos léxicos
    Como se afirma en (Gamallo Otero y Pi-
chel Campos, 2007), “desgraciadamente, no                         Ya que nuestro trabajo se basa en un cor-
hay todavı́a una gran cantidad de texto pa-                   pus comparable y un léxico bilingüe, en esta
ralelo, especialmente en lo que se refiere a                  fase se construyen estos recursos. Concreta-
lenguas minorizadas”. Por esto, trabajar con                  mente, necesitamos dos léxicos bilingües: I)
lenguas como el gallego, catalán o euskera se                un léxico con candidatos a la traducción (con
hace más complicado. En (Gamallo Otero y                     sus correspondientes traducciones) y II) un
Pichel Campos, 2007) se propone un méto-                     léxico “pivote” utilizado como elemento de
do basado en corpus comparables de la Web,                    relación entre las dos lenguas.
usando la idea de la similitud contextual. Lo                 2.1.1. Preprocesamiento del corpus
aplican al español y el gallego, y, aunque sus                         comparable
resultados no superan los obtenidos usando                        El preprocesamiento del corpus compara-
corpus paralelos, son elevados. Esto refuer-                  ble incluye:
za la idea de que la gran cantidad de datos
incluidos en la Web es una fuente de infor-                          Descarga de un fichero con todos los
mación importante y explotable para la cons-                        artı́culos de la Wikipedia (Wikipedia
trucción automática de léxicos bilingües. En                     Dump) en las dos lenguas de trabajo (es-
esta lı́nea, en (Gamallo y González, 2010) se                       pañol y catalán).
propone un método automático para cons-                            Eliminación de “páginas redirigidas” en
truir corpus comparables empleando la Wi-                            Wikipedia, es decir, artı́culos que tienen
kipedia. En (Tomás et al., 2008) se construye                       un tı́tulo pero no contienen texto en su
un corpus que incluye dos tipos de artı́clos                         interior. Por ejemplo, en la Wikipedia
de la Wikipedia (paralelos y comparables) en                         en español, la unidad “Proyección Azi-
español y catalán. En (Vivaldi y Rodrı́guez,                       mutal” está vacı́a y redirigida a “Pro-
2010) se presenta un método de extracción                          yección azimutal” (simplemente cambia
de terminologı́a bilingüe que emplea las ca-                        una “a” en mayúscula o minúscula); el
tegorı́as y estructura de la Wikipedia. La ex-                       año “4450” está redirigido al artı́culo so-
tracción de frases paralelas de la Wikipedia                        bre el “V milenio”, etc.
es también una tarea interesante que ha si-
do explorada por (Smith, Quirk, y Toutano-                           Eliminación de las stopwords en las dos
va, 2010), por ejemplo, realizando diferentes                        lenguas. La lista de stopwords en catalán
experimentos a partir de la estructura de la                         se ha obtenido del área de Ingenierı́a
Wikipedia.                                                           Lingüı́stica del Institut Universitari de
    El objetivo de este trabajo es desarrollar                       Lingüı́stica Aplicada (IULA) de la Uni-
un sistema de extracción automática de léxi-                      versitat Pompeu Fabra (UPF)1 . La lista
co bilingüe para las lenguas de la Penı́nsula                   1
                                                                   http://latel.upf.edu/morgana/altres/pub/
Ibérica. Concretamente, trabajamos el par de                 ca_stop.htm


                                                         36
Proceedings of the Workshop on Iberian Cross-Language Natural Language Processing Tasks (ICL 2011)


     de stopwords en español se ha obtenido                  ciente creación (como, por ejemplo, “mileu-
     del Laboratoire Informatique d’Avignon                   rista”)5 . Esta fase incluye dos subfases:
     (LIA-UAPV)2 .
                                                                 1. Extracción de relaciones de correspon-
     Formateo de este fichero en Trec-text3 .                       dencia entre los tı́tulos de los artı́cu-
     En el siguiente ejemplo se muestra un                          los de la Wikipedia en español y ca-
     ejemplo de este tipo de formato, en don-                       talán, para obtener una lista prelimi-
     de la etiqueta <DOCNO> indica el núme-                        nar de léxico bilingüe. Las relaciones en-
     ro de documento, <TITLE> el tı́tulo y                          tre los artı́culos en estas dos lenguas
     <TEXT> el contenido:                                           se establecen mediante enlaces interlen-
                                                                    gua (en el menú “En otros idiomas” de
 <DOC>
                                                                    la Wikipedia en español). Establecemos
  <DOCNO> 22 </DOCNO>
                                                                    las correspondencias en los dos sentidos
  <TITLE> Astronomı́a galáctica </TITLE>
                                                                    (español-catalán y catalán-español) por-
  <TEXT>
                                                                    que, en ocasiones, la estructura de la
   se denomina ’astronomı́a galáctica’ a
                                                                    Wikipedia no correlaciona de la misma
   la investigación astronómica de nuestra
                                                                    forma las entradas en los dos sentidos.
   galaxia, la vı́a láctea [...] seguros
                                                                    Por ejemplo, en la Wikipedia en catalán
   posee un agujero negro, etc.
                                                                    encontramos la entrada “Prestige”, que
  </TEXT>
                                                                    está correlacionada en la Wikipedia en
 </DOC>
                                                                    español con “Desastre del Prestige”. Sin
                                                                    embargo, la Wikipedia en español tam-
     Indexación de los artı́culos con Lemur                        bién ofrece la entrada “Prestige” (que
     Indexation Toolkit4 . Usamos esta herra-                       se refiere al mismo petrolero), que solo
     mienta para facilitar el cálculo de co-                       muestra su correspondencia al inglés y al
     ocurrencias entre la unidad léxica que se                     ruso, pero no al catalán. Vemos ası́ que
     quiere traducir y su contexto (es decir,                       la estructura de la Wikipedia en español
     las palabras del léxico II).                                  es más compleja que la de otras lenguas
                                                                    con menos entradas.
   Actualmente, la Wikipedia en español                         2. Filtrado de la lista preliminar de los dos
contiene 761.727 artı́culos y en catalán                           léxicos bilingües mediante la eliminación
341.142. Depués de este preprocesamiento,                          automática de:
nuestro corpus incluye 701.423 artı́culos en
                                                                    - Pares de unidades léxicas que no man-
español y 296.465 en catalán. Esta reducción
                                                                    tienen la misma correlación en la estruc-
se debe a la eliminación de artı́culos rediri-
                                                                    tura de la Wikipedia en los dos sentidos.
gidos. No se realizó una selección temática
                                                                    - Pares de unidades léxicas que coinciden
de los artı́culos incluidos en el corpus, sino
                                                                    en las dos lenguas. Este criterio se aplica
que se emplearon todos los temas de la Wi-
                                                                    por dos motivos. Primero, porque consi-
kipedia. Tampoco se usó la estructura de la
                                                                    deramos que no es interesante evaluar los
Wikipedia.
                                                                    pares de unidades que son idénticas. Se-
2.1.2. Recopilación del léxico I                                  gundo, porque una gran cantidad de las
   En esta fase, creamos nuestro propio léxi-                      unidades de este léxico bilingüe extraı́do
co bilingüe, que contiene los candidatos a la                      de la Wikipedia serán entidades nombra-
traducción en la lengua de partida (catalán),                     das iguales en ambas lenguas, como por
acompañados de su traducción en la lengua                         ejemplo “Harry Potter”.
de llegada (español). Construimos estos re-                        - Pares de elementos numéricos, ya que
cursos dada la carencia de léxicos bilingües                      no nos interesa traducir cifras, años, fe-
extensos y actualizados gratuitos disponibles                       chas, etc., aunque somos conscientes de
para el par de lenguas empleadas. Ası́, nues-                       que estás entidades podrı́an servir para
tro léxico podrá contener neologismos de re-                      poder paralelizar de forma eficiente fra-
                                                                    ses en corpus comparables.
   2
     http://lia.univ-avignon.fr/fileadmin/                          - Pares de elementos en que solo uno tie-
documents/Users/Intranet/chercheurs/torres/                         ne un signo de puntuación: generalmente
logiciels/fonctionnels_esp.txt
   3                                                              5
     http://trec.nist.gov                                           Para   más    información      sobre   neologı́a
   4
     http://www.lemurproject.org                              véase (Cabré y Estopà, 2009)


                                                         37
Proceedings of the Workshop on Iberian Cross-Language Natural Language Processing Tasks (ICL 2011)


     indican un error en la traducción (excep-               español-catalán existente en la colección AU-
     to el punto de la geminada del catalán).                LEX6 , que contiene vocabularios breves en
     - Pares de elementos que pueden tra-                     lı́nea de lenguas con recursos limitados, diri-
     ducirse por la distancia de edición (Le-                gida por Manuel Rodrı́guez Villegas, especia-
     venshtein, 1966). Por ejemplo, las si-                   lista compilador de diccionarios en lı́nea.
     guientes unidades léxicas del catalán (a
     la izquierda) fueron traducidas correcta-                2.2.       FASE 1: Aplicación del
     mente al español por la distancia de edi-                          algoritmo
     ción (a la derecha), ya que las similitudes                 El proceso de identificación de traduc-
     ortográficas son evidentes:                             ciones puede ser visto como un alineamien-
                                                              to palabra por palabra. Esta tarea se abor-
                                                              da normalmente mediante algoritmos basa-
  catalán                   español                         dos en corpus paralelos, como el modelo
  palau de                   palacio de                       IBM (Brown et al., 1993; González-Rubio et
   westminster                westminster                     al., 2008). Sin embargo, como nosotros ba-
  lateralitat                lateralidad                      samos nuestro proceso de extracción en cor-
  fagocitosi                 fagocitosis                      pus comparables (no paralelos), necesitamos
  provı́ncia de bilecik      provincia de bilecik             otro método. Esta es la razón por la que nos
                                                              centramos en la información contextual de la
     En cambio, las siguientes unidades del                   palabra que se quiere traducir y candidatos
     catalán no se tradujeron adecuadamen-                   a traducciones. Nuestra aproximación se ba-
     te:                                                      sa en las palabras adyacentes, asumiendo que
                                                              podemos traducir parte del contexto del vo-
             catalán          español                       cabulario. De hecho, como no se pueden tra-
            surquillo         bordillo                        ducir todas las unidades léxicas existentes al-
            floquet neu       alquino                         rededor de los candidatos en la lengua fuente
            tupaia            tucana                          y la lengua de llegada, necesitamos capturar
            eratostenià      rı́o eno                        la información más importante en las coocu-
                                                              rrencias detectadas. Usamos medidas de nor-
                                                              malización para resaltar las particularidades
Comenzamos con un léxico de 140.137 unida-                   de las coocurrencias entre una palabra (léxi-
des. Después del filtrado, antes de aplicar la               co I) y las palabras del léxico “pivote” (léxico
distancia de edición, obtenemos 57.859 uni-                  II).
dades y, después de la distancia de edición,                    En resumen, el método para identificar
8.045 unidades, con las que trabajamos final-                 traducciones basado en la información con-
mente. Este léxico final contiene las unidades               textual incluye cuatro pasos:
léxicas más difı́ciles de traducir, porque no                        cálculo de las coocurrencias entre una
pueden ser traducidas por una distancia de                             palabra (léxico I) y las palabras del léxi-
edición tradicional. Por este motivo, conside-                        co “pivote” (léxico II),
ramos que la traducción automática de estas
8.045 unidades es el principal reto. Partimos                          normalización de las coocurrencias con
de la idea de que el léxico bilingüe creado                          una medida de asociación,
en esta fase es correcto. Sin embargo, no he-                          construcción de un vector de contexto,
mos realizado una revisión manual, dada su
                                                                       comparación de los vectores de la lengua
gran extensión. Esta revisión serı́a óptima pa-
                                                                       de partida y la lengua de llegada con una
ra eliminar errores, pero intentamos evitar al
                                                                       medida de similitud.
máximo la intervención humana.
2.1.3. Recopilación del léxico II                              La Figura 1 resume el proceso general de
                                                              extracción de traducción que presentamos en
    Como ya hemos comentado, este léxico
                                                              este trabajo.
“pivote” se utiliza como elemento de rela-
                                                                 El primer paso está basado en la premisa
ción entre las dos lenguas del trabajo. Por
                                                              de que una palabra y su traducción compar-
este motivo, este léxico debe ser correcto ne-
                                                              ten similitudes contextuales en corpus com-
cesariamente, ya que gracias a él se realizan
                                                              parables. Las palabras del léxico “pivote”
las corrrespondencias entre lenguas. Por es-
                                                                  6
to, hemos decidido utilizar un léxico bilingüe                      http://aulex.org/aulex.php


                                                         38
Proceedings of the Workshop on Iberian Cross-Language Natural Language Processing Tasks (ICL 2011)


               Figura 1: Esquema general del proceso de extracción de traducciones.


(léxico II) son los elementos de relación en
ambas lenguas para modelizar el espacio con-                                               (a + 12 )(d + 12 )
textual de donde vamos a extraer las traduc-                           odds(w, s) = log                         (2)
                                                                                           (b + 12 )(c + 21 )
ciones. Las coocurrencias entre una palabra
(léxico I) y las palabras del léxico “pivote”
(léxico II) se contabilizan dentro de una ven-                                 s                       s
tana deslizante de un tamaño fijo (de 10 a 30
palabras en cada ejemplo) o dinámico (ora-                     w     a = occ( w , s )         b = occ( w , s )
ciones, párrafos, etc.).
    El segundo paso ha sido ya ampliamen-                       w     c = occ( w , s )         d = occ( w , s )
te estudiado en la literatura. Se han probado
diversas medidas de asociación, basadas en
tablas de contingencia 2*2 como la mostra-                    Cuadro 1: Tabla de contingencias entre dos
da en el Cuadro 1, y se observa que las más                  palabras
efectivas son información mutua (Church y
Hanks, 1990), log-likelihood (Dunning, 1993)                      El Cuadro 1 contiene las coocurrencias co-
y odds-ratio (Evert, 2004). En la Sección 3                  munes en una ventana de una palabra del
presentamos los resultados obtenidos con las                  léxico I (reflejada como w) y las palabras del
medidas de información mutua y odds-ratio,                   léxico “pivote” o II (reflejadas como s), pero
cuyas fórmulas ofrecemos en la Ecuación 1                   también los casos en los que w aparece sin s,
y 2, respectivamente.                                         s aparece sin w, y finalmente en los que no
                                                              aparecen juntas. Este paso de normalización
                                  a                           es particularmente útil para tratar diferen-
          mi(w, s) = log                           (1)        cias entre lenguas en corpus comparables. Por
                            (a + b)(a + c)
                                                              ejemplo, el corpus extraı́do de la Wikipedia


                                                         39
Proceedings of the Workshop on Iberian Cross-Language Natural Language Processing Tasks (ICL 2011)


                                          Unidades            en 2.2. Observamos que los mejores resulta-
                        Documentos
                                           léxicas           dos se obtienen con la utilización de la me-
      Candidatos                    -            300          dida de asociación odds-ratio y la similitud
 Léxico “pivote”                   -          1.944          de cosenos. Los resultados se presentan en el
  Wikipedia CA                296.465     1.461.325           Cuadro 3 (P = Precisión, C = Cobertura, F
   Wikipedia ES               701.423     3.931.243           = F-measure). Consideramos que es intere-
                                                              sante presentar también los resultados obte-
Cuadro 2: Recursos empleados para los expe-                   nidos con las otras medidas de asociación, co-
rimentos                                                      mo las coocurrencias y la información mutua.
                                                                 A continuación mostramos algunos ejem-
en español contiene una mayor cantidad de                    plos de traducciones correctas:
unidades léxicas, por eso el número de ocu-
rrencias de palabras es mayor que el número                         catalán            español
de ocurrencias de su traducción en una len-                         formatge blau       queso azul
gua con menos recursos (como el catalán).                           floridura           moho
    El tercer paso se refiere básicamente a la                      momificació        embalsamamiento
modelización de una palabra (léxico I) en un                       senglar calidó     jabalı́ calidón
espacio contextual. Para cada palabra (léxico                       vaga                huelga
I) en la lengua de partida y de llegada, el con-
texto se modeliza como un vector de contex-                      Y también ejemplos de traducciones inco-
to. Cada componente de este vector contiene                   rrectas:
un cálculo de coocurrencias normalizado. Los                       catalán                 español
componentes tienen que ser fijos porque que-                        creu nòrdica            idioma islandés
remos que las dimensiones sean comparables                          castellà mèxic         alfabetización
entre los vectores de la lengua de partida y                        bombeta elèctrica       cuenco
de llegada.                                                         astúries                labor
    El cuarto paso se basa en medidas de vec-                       bitxo                    salsa pescado
tores de similitud para comparar los vectores
de contexto en la lengua de partida y de llega-
                                                                  Los resultados obtenidos muestran la efi-
da. El objetivo es detectar similitudes entre
                                                              cacia en cuanto a la precisión en el rango 1 de
las asociaciones contextuales de las palabras.
                                                              la medida odds ratio combinada con la simi-
Los vectores más similares son traducciones
                                                              litud de cosenos. El aumento de la cobertu-
posibles. Estas medidas son otro parámetro
                                                              ra según el número de candidatos tenidos en
bien estudiado en la literatura, y las más po-
                                                              cuenta (un rango entre 5 y 10) implica un des-
pulares son el coseno, la distancia euclidiana
                                                              censo significativo de la precisión. El cálculo
y la métrica City Block (Morin et al., 2007).
                                                              de la precisión tiene en cuenta el número de
La fórmula de la distancia del coseno entre
                                                              unidades léxicas de la lengua de llegada con-
los vectores de la lengua de partida y de lle-
                                                              sideradas como una buena traducción. Para
gada, con la medida de asociación odds-ratio,
                                                              el rango 10, por ejemplo, una sola traducción
se detalla en la Ecuación 3 (donde V es un
                                                              es válida según la referencia (léxico I), pero
vector, s es la lengua de partida, t es la len-
                                                              el sistema ofrece 10. En este rango, la infor-
gua de llegada, y n es una unidad del léxico
                                                              mación mutua y odds ratio son equivalentes
“pivote”).
                                                              en cuanto a precisión y cobertura.
                P        s    t                                   Estos resultados son difı́cilmente compra-
      Vt          n oddsn oddsn
cosineVs = p P           p P                       (3)        bles con los de otros trabajos. Sin embargo,
            ( n oddssn )2 ( n oddstn )2                       observamos que, para el dominio periodı́stico,
                                                              los experimentos de (Rapp, 1999) muestran
3.    Experimentos y resultados                               una precisión del rango 1 del 72 % sobre 100
   Para evaluar nuestro método, hemos em-                    candidatos evaluados. El autor utiliza un cor-
pleado los recursos incluidos en el Cuadro 2.                 pus en alemán que contiene 135 millones de
Hemos extraı́do aleatoriamente 300 candida-                   palabras y un corpus en inglés que incluye 163
tos a traducir del léxico I.                                 millones. Además, el léxico “pivote” que em-
   Hemos realizado diversos experimentos                      plea en sus experimentos contiene 16.380 en-
empleando las medidas de asociación y las                    tradas, es decir, que es muy superior al léxico
medidas de similitud vectorial, presentadas                   “pivote” que nosotros empleamos en este tra-


                                                         40
Proceedings of the Workshop on Iberian Cross-Language Natural Language Processing Tasks (ICL 2011)


                                       TOP 1                          TOP 5                     TOP 10
                               P        C      F               P        C     F           P       C     F
     Coocurrencias            45,00    45,00 45,00            15,33    76,67 25,56       8,17    81,67 14,85
     Información mutua       57,67    57,67 57,67            16,60    83,00 27,67       9,07    90,67 16,48
     Odds ratio               58,00    58,00 58,00            16,47    82,33 27,44       9,07   90,67 16,48

Cuadro 3: Resultados obtenidos a tres rangos (mejores 1, 5 y 10 traducciones) por similitud de
cosenos entre los vectores de contexto

bajo. De hecho, creemos que la precisión del                  amplı́a cada dı́a con nuevas entradas. Toman-
rango 1 del 58 %, que hemos obtenido, podrı́a                  do la Wikipedia como un corpus abierto y en
mejorarse con un léxico con un mayor núme-                   constante evolución, podremos emplear este
ro de entradas. Este aspecto está relacionado                 método para aumentar el léxico de cualquier
con la cantidad de recursos disponibles para                   lengua de la Penı́nsula Ibérica de una manera
el catalán, menos dotado que otras lenguas.                   dinámica y, ası́, favorecer el multilingüismo,
La evaluación de los candidatos ubicados en                   las relaciones entre lenguas y el desarrollo de
el primer rango es el modo más apropiado de                   herramientas de PLN, como los sistemas de
observar si el léxico bilingüe extraı́do podrı́a             traducción automática. La principal ventaja
ser incluido en un sistema de traducción au-                  de la metodologı́a empleada en este trabajo
tomática. Sin embargo, es necesario mejorar                   es que es independiente de lengua. Para em-
la precisión de los resultados con el objetivo                plearla en diferentes lenguas solo se necesita
de aportar recursos robustos.                                  un corpus comparable y un léxico “pivote”
    En nuestro trabajo no abordamos la cons-                   entre las dos lenguas que se quieren tratar.
trucción de modelos estadı́sticos de traduc-                      Como trabajo futuro, nos gustarı́a aplicar
ción, sino que nos centramos en la tarea de                   el sistema sobre otros pares de lenguas. Espe-
la extracción de léxico bilingüe. Sin embargo,              cialmente, estamos interesados en el español-
existen diversos trabajos que se están reali-                 euskera, dada la gran diferencia ortográfica
zando actualmente por otros autores en rela-                   entre las unidades léxicas de estas dos len-
ción con el entrenamiento de sistemas de tra-                 guas. Además, nos gustarı́a incorporar nues-
ducción automática con datos no paralelos,                   tro sistema de extracción a un sistema de tra-
obteniendo resultados prometedores (Ravi y                     ducción automática, para:
Knight, 2011).
                                                                 1. realizar una evaluación extrı́nseca de
4.     Conclusiones y trabajo futuro                                nuestro sistema,
    En este trabajo presentamos un sistema de                    2. aumentar la cobertura de vocabulario de
extracción automática de léxico bilingüe, que                   un traductor automático.
aplicamos a un par de lenguas de la Penı́nsu-
la Ibérica: español-catalán. Para los experi-               Bibliografı́a
mentos no empleamos corpus paralelos, sino                     Brown, P.F., S.A. Della Pietra, V.J. De-
corpus comparables usando como recurso la                        lla Pietra, F. Jelinek, J.D. Lafferty, R.L.
información ofrecida por la Wikipedia, apli-                    Mercer, y P.S. Roossin. 1990. A Sta-
cando la idea de las similitudes contextuales                    tistical Approach to Machine Translation.
entre una unidad léxica y su traducción. Los                   Computational Linguistics, 16(2):79–85.
resultados obtenidos son positivos, dado que
se logró traducir correctamente más de la mi-                Brown, P.F., S.D. Pietra, V.J.D. Pietra, y
tad de los candidatos. Además, consideramos                     R.L. Mercer. 1993. The Mathematic of
que la precisión del rango 1 podrá mejorarse                   Statistical Machine Translation: Parame-
mediante un léxico “pivote” que incluya más                    ter Estimation. Computational Linguis-
unidades léxicas, lo cual planeamos hacer co-                   tics, 19(2):263–311.
mo trabajo futuro.
                                                               Cabré, M.T. y R. Estopà. 2009. Les paraules
    Creemos que este trabajo es relevante, da-                   noves criteris per detectar i mesurar els
do que proponemos un sistema que casi no                         neologismes. Eumo editorial.
requiere esfuerzo humano, es rápido y, so-
bre todo, permite la actualización constan-                   Caseli, HM y MGV Nunes. 2007. Automatic
te del léxico bilingüe, ya que la Wikipedia se                 Induction of Bilingual Lexicons for Machi-


                                                         41
Proceedings of the Workshop on Iberian Cross-Language Natural Language Processing Tasks (ICL 2011)


   ne Translation. International Journal of                   Rapp, R. 1995. Identifying Word Trans-
   Tranlation, 19:29–43.                                        lations in Non-parallel Texts. En ACL,
                                                                páginas 320–322.
Church, K.W. y P. Hanks. 1990. Word As-
  sociation Norms, Mutual Information, and                    Rapp, R. 1999. Automatic Identification
  Lexicography. Computational Linguistics,                      of Word Translations from Unrelated En-
  16(1):22–29.                                                  glish and German Corpora. En ACL,
Dunning, T. 1993. Accurate Methods for                          páginas 519–526.
  the Statistics of Surprise and Coincidence.                 Ravi, S. y K. Knight. 2011. Deciphering Fo-
  Computational Linguistics, 19(1):61–74.                       reign Language. En ACL, páginas 12–21.
Evert, S. 2004. The Statistics of Word Cooc-                  Smith, J.R., C. Quirk, y K. Toutanova. 2010.
  currences: Word Pairs and Collocations.                       Extracting parallel sentences from compa-
  Ph.D. tesis, Universität Stuttgart. 353                      rable corpora using document level align-
  páginas.                                                     ment. En NAACL/HLT, páginas 403–411.
Fung, P. 1995. Compiling Bilingual Lexi-                      Tomás, J., J. Bataller, F. Casacuberta, y
  con Entries from a Non-parallel English-                      J. Lloret. 2008. Mining wikipedia as a
  Chinese Corpus. En Workshop on Very                           parallel and comparable corpus. En Lan-
  Large Corpora, páginas 173–183.                              guage Forum.
Gamallo, P. y I. González. 2010. Wikipe-                     Vivaldi, J. y H. Rodrı́guez. 2010. Finding
  dia as a Multilingual Source of Compa-                         domain terms using wikipedia. En LREC,
  rable Corpora. En LREC Workshop on                             páginas 386–393.
  Building and Using Comparable Corpora,
  páginas 19–26.                                             Wu, D. y X. Xia. 1994. Learning an English-
                                                                Chinese lexicon from a Parallel Corpus.
Gamallo Otero, P. y J.R. Pichel Campos.                         En AMTA, páginas 206–213.
  2007. Un método de extracción de equiva-
  lentes de traducción a partir de un corpus
  comparable castellano-gallego. Lenguaje
  Natural, páginas 241–248.
González-Rubio, J., G. Sanchis-Trilles,
  A. Juan, y F. Casacuberta. 2008. A
  Novel Alignment Model Inspired on IBM
  Model 1. En EAMT, páginas 47–56.
Guinovart, X.G. y E.S. Fontenla. 2004.
  Métodos de optimización de la extracción
  de léxico bilingüe a partir de corpus para-
  lelos. Lenguaje Natural, 33:133–140.
Guinovart, X.G. y A. Simoes. 2009. Parallel
  Corpus-Based Bilingual Terminology Ex-
  traction. En International Conference on
  Terminology and Artificial Intelligence.
Koehn, P. 2005. Europarl: A Parallel Corpus
  for Statistical Machine Translation. En
  MT Summit X, páginas 79–86.
Levenshtein, V.I. 1966. Binary Codes Ca-
  pable of Correcting Deletions, Insertions,
  and Reversals. En Soviet Physics Do-
  klady, páginas 707–710.
Morin, E., B. Daille, K. Takeuchi, y K. Ka-
  geura.    2007.     Bilingual Terminology
  Mining-Using Brain, not Brawn Compa-
  rable Corpora. En ACL, páginas 664–671.


                                                         42

</pre>