=Paper= {{Paper |id=None |storemode=property |title=Extracción automática de léxico bilingüe: experimentos en español y catalán |pdfUrl=https://ceur-ws.org/Vol-824/paper5.pdf |volume=Vol-824 }} ==Extracción automática de léxico bilingüe: experimentos en español y catalán== https://ceur-ws.org/Vol-824/paper5.pdf
Proceedings of the Workshop on Iberian Cross-Language Natural Language Processing Tasks (ICL 2011)




                     Extracción automática de léxico bilingüe:
                        experimentos en español y catalán∗
                           Automatic Bilingual Lexicon Extraction:
                            Experiments in Spanish and Catalan
       Raphaël Rubino                          Iria da Cunha                        Georges Linarès

       Laboratoire Informatique d’Avignon                                     Institut Universitari de
           339, chemin des Meinajaries                                          Lingüı́stica Aplicada
        84911 Avignon Cedex 9, Francia                                            Roc Boronat 138
         raphael.rubino@univ-avignon.fr                                      08018 Barcelona, España
         georges.linares@univ-avignon.fr                                       iria.dacunha@upf.edu

       Resumen: En este artı́culo presentamos un sistema de extracción automática de
       léxico bilingüe catalán-español. Evitamos el empleo de corpus paralelos y usamos la
       información ofrecida por la Wikipedia como un corpus comparable entre el español y
       el catalán. Empleamos la similitud contextual para traducir unidades léxicas que no
       pueden traducirse por la distancia de edición. Los resultados obtenidos son positivos
       y confirman que este método podrı́a aplicarse a las lenguas ibéricas.
       Palabras clave: extracción automática, léxico bilingüe, traducción automática, es-
       pañol, catalán
       Abstract: In this paper, we propose an automatic bilingual lexicon extraction sys-
       tem for Catalan and Spanish languages. Parallel corpora are not employed and
       Wikipedia is used as Catalan-Spanish comparable corpora. A contextual similarity
       approach is used to translate lexical units that are not translated by an edition
       distance. The obtained results are positive and confirm that this method could be
       applied to Iberian languages.
       Keywords: Automatic Extraction, Bilingual Lexicon, Machine Translation, Spa-
       nish, Catalan



1.    Introduction                                            multilingües. Sin embargo, su desarrollo
    En la Penı́nsula Ibérica coexisten cinco                 y actualización es costoso y lento, ya
lenguas oficiales: español, catalán, galle-                 que normalmente supone la intervención
go, euskera y portugués. Para establecer                     humana.
vı́nculos entre estas lenguas y favorecer                         El diseño de herramientas automáticas
el multilingüismo, es necesario desarrollar                  que ayuden en la construcción de léxicos bi-
recursos para todas ellas. Además, es in-                    lingües (o multilingües) supone un reto en el
dispensable crear recursos que permitan                       ámbito del PLN. Existen trabajos que tra-
relacionarlas. Actualmente, hay una ca-                       tan este tema empleando diferentes estrate-
rencia de recursos de Procesamiento del                       gias. La mayor parte utilizan corpus para-
Lenguaje Natural (NLP) para algunas de                        lelos (Brown et al., 1990; Wu y Xia, 1994;
ellas, especialmente el gallego, el catalán y                Koehn, 2005). No obstante, la creación de es-
el euskera. Uno de los recursos necesarios                    te tipo de corpus es costosa, lo cual encare-
para interrelacionar estas lenguas y diseñar                 ce la investigación y no permite trabajar so-
herramientas de PLN (como sistemas de                         bre todas las combinaciones de lenguas. Otra
traducción automática) son los léxicos                     lı́nea de investigación se basa en la utiliza-
∗
                                                              ción de un recurso más accesible, los corpus
   Esta investigación ha sido parcialmente financiada        bilingües comparables, es decir, conjuntos de
por la Agence Nationale de la Recherche (ANR, Fran-
cia), proyecto AVISON (ANR-007-014); y los proyec-
                                                              textos no paralelos con temáticas comunes
tos RICOTERM (FFI2010-21365-C03-01) y APLE                    pero escritos en cada lengua de manera inde-
(FFI2009-12188-C05-01) en España.                            pendiente. Diversos autores han estudiado la


                                                         35
Proceedings of the Workshop on Iberian Cross-Language Natural Language Processing Tasks (ICL 2011)




posibilidad de extraer unidades léxicas a par-               lenguas español-catalán. Para ello, evitamos
tir de estos corpus, basándose en la hipóte-                el empleo de corpus paralelos y aplicamos la
sis de que una unidad léxica y su traducción                idea de la similitud contextual entre una uni-
comparten similitudes en cuanto a su contex-                  dad léxica y su traducción (Fung, 1995; Rapp,
to (Fung, 1995; Rapp, 1995). Además de cor-                  1995), empleando textos de la Wikipedia co-
pus comparables, esta aproximación emplea                    mo corpus comparable. La metodologı́a des-
un léxico bilingüe preliminar de las lenguas                crita en este trabajo está basada en el empleo
analizadas.                                                   de recursos y heurı́sticas existentes, pero apli-
    La mayorı́a de las investigaciones sobre                  cadas concretamente a la extracción de léxico
este tema se han realizado para relacionar                    bilingüe en estas dos lenguas.
el inglés con otras lenguas. Para las lenguas
ibéricas, encontramos algunos trabajos, que                  2.     Metodologı́a
utilizan principalmente métodos basados en                      La metodologı́a de nuestro trabajo inclu-
corpus paralelos: para inglés-gallego (Guino-                ye dos fases principales: Preprocesamiento y
vart y Fontenla, 2004), para portugués, es-                  creación de recursos léxicos (FASE 0) y Apli-
pañol e inglés (Caseli y Nunes, 2007), y para               cación del algoritmo (FASE 1).
inglés-gallego e inglés-portugués (Guinovart
y Simoes, 2009).
                                                              2.1.     FASE 0: Preprocesamiento y
                                                                       creación de recursos léxicos
    Como se afirma en (Gamallo Otero y Pi-
chel Campos, 2007), “desgraciadamente, no                         Ya que nuestro trabajo se basa en un cor-
hay todavı́a una gran cantidad de texto pa-                   pus comparable y un léxico bilingüe, en esta
ralelo, especialmente en lo que se refiere a                  fase se construyen estos recursos. Concreta-
lenguas minorizadas”. Por esto, trabajar con                  mente, necesitamos dos léxicos bilingües: I)
lenguas como el gallego, catalán o euskera se                un léxico con candidatos a la traducción (con
hace más complicado. En (Gamallo Otero y                     sus correspondientes traducciones) y II) un
Pichel Campos, 2007) se propone un méto-                     léxico “pivote” utilizado como elemento de
do basado en corpus comparables de la Web,                    relación entre las dos lenguas.
usando la idea de la similitud contextual. Lo                 2.1.1. Preprocesamiento del corpus
aplican al español y el gallego, y, aunque sus                         comparable
resultados no superan los obtenidos usando                        El preprocesamiento del corpus compara-
corpus paralelos, son elevados. Esto refuer-                  ble incluye:
za la idea de que la gran cantidad de datos
incluidos en la Web es una fuente de infor-                          Descarga de un fichero con todos los
mación importante y explotable para la cons-                        artı́culos de la Wikipedia (Wikipedia
trucción automática de léxicos bilingües. En                     Dump) en las dos lenguas de trabajo (es-
esta lı́nea, en (Gamallo y González, 2010) se                       pañol y catalán).
propone un método automático para cons-                            Eliminación de “páginas redirigidas” en
truir corpus comparables empleando la Wi-                            Wikipedia, es decir, artı́culos que tienen
kipedia. En (Tomás et al., 2008) se construye                       un tı́tulo pero no contienen texto en su
un corpus que incluye dos tipos de artı́clos                         interior. Por ejemplo, en la Wikipedia
de la Wikipedia (paralelos y comparables) en                         en español, la unidad “Proyección Azi-
español y catalán. En (Vivaldi y Rodrı́guez,                       mutal” está vacı́a y redirigida a “Pro-
2010) se presenta un método de extracción                          yección azimutal” (simplemente cambia
de terminologı́a bilingüe que emplea las ca-                        una “a” en mayúscula o minúscula); el
tegorı́as y estructura de la Wikipedia. La ex-                       año “4450” está redirigido al artı́culo so-
tracción de frases paralelas de la Wikipedia                        bre el “V milenio”, etc.
es también una tarea interesante que ha si-
do explorada por (Smith, Quirk, y Toutano-                           Eliminación de las stopwords en las dos
va, 2010), por ejemplo, realizando diferentes                        lenguas. La lista de stopwords en catalán
experimentos a partir de la estructura de la                         se ha obtenido del área de Ingenierı́a
Wikipedia.                                                           Lingüı́stica del Institut Universitari de
    El objetivo de este trabajo es desarrollar                       Lingüı́stica Aplicada (IULA) de la Uni-
un sistema de extracción automática de léxi-                      versitat Pompeu Fabra (UPF)1 . La lista
co bilingüe para las lenguas de la Penı́nsula                   1
                                                                   http://latel.upf.edu/morgana/altres/pub/
Ibérica. Concretamente, trabajamos el par de                 ca_stop.htm


                                                         36
Proceedings of the Workshop on Iberian Cross-Language Natural Language Processing Tasks (ICL 2011)




     de stopwords en español se ha obtenido                  ciente creación (como, por ejemplo, “mileu-
     del Laboratoire Informatique d’Avignon                   rista”)5 . Esta fase incluye dos subfases:
     (LIA-UAPV)2 .
                                                                 1. Extracción de relaciones de correspon-
     Formateo de este fichero en Trec-text3 .                       dencia entre los tı́tulos de los artı́cu-
     En el siguiente ejemplo se muestra un                          los de la Wikipedia en español y ca-
     ejemplo de este tipo de formato, en don-                       talán, para obtener una lista prelimi-
     de la etiqueta  indica el núme-                        nar de léxico bilingüe. Las relaciones en-
     ro de documento,  el tı́tulo y                          tre los artı́culos en estas dos lenguas
     <TEXT> el contenido:                                           se establecen mediante enlaces interlen-
                                                                    gua (en el menú “En otros idiomas” de
 <DOC>
                                                                    la Wikipedia en español). Establecemos
  <DOCNO> 22 </DOCNO>
                                                                    las correspondencias en los dos sentidos
  <TITLE> Astronomı́a galáctica 
                                                                    (español-catalán y catalán-español) por-
  
                                                                    que, en ocasiones, la estructura de la
   se denomina ’astronomı́a galáctica’ a
                                                                    Wikipedia no correlaciona de la misma
   la investigación astronómica de nuestra
                                                                    forma las entradas en los dos sentidos.
   galaxia, la vı́a láctea [...] seguros
                                                                    Por ejemplo, en la Wikipedia en catalán
   posee un agujero negro, etc.
                                                                    encontramos la entrada “Prestige”, que
  
                                                                    está correlacionada en la Wikipedia en
 
                                                                    español con “Desastre del Prestige”. Sin
                                                                    embargo, la Wikipedia en español tam-
     Indexación de los artı́culos con Lemur                        bién ofrece la entrada “Prestige” (que
     Indexation Toolkit4 . Usamos esta herra-                       se refiere al mismo petrolero), que solo
     mienta para facilitar el cálculo de co-                       muestra su correspondencia al inglés y al
     ocurrencias entre la unidad léxica que se                     ruso, pero no al catalán. Vemos ası́ que
     quiere traducir y su contexto (es decir,                       la estructura de la Wikipedia en español
     las palabras del léxico II).                                  es más compleja que la de otras lenguas
                                                                    con menos entradas.
   Actualmente, la Wikipedia en español                         2. Filtrado de la lista preliminar de los dos
contiene 761.727 artı́culos y en catalán                           léxicos bilingües mediante la eliminación
341.142. Depués de este preprocesamiento,                          automática de:
nuestro corpus incluye 701.423 artı́culos en
                                                                    - Pares de unidades léxicas que no man-
español y 296.465 en catalán. Esta reducción
                                                                    tienen la misma correlación en la estruc-
se debe a la eliminación de artı́culos rediri-
                                                                    tura de la Wikipedia en los dos sentidos.
gidos. No se realizó una selección temática
                                                                    - Pares de unidades léxicas que coinciden
de los artı́culos incluidos en el corpus, sino
                                                                    en las dos lenguas. Este criterio se aplica
que se emplearon todos los temas de la Wi-
                                                                    por dos motivos. Primero, porque consi-
kipedia. Tampoco se usó la estructura de la
                                                                    deramos que no es interesante evaluar los
Wikipedia.
                                                                    pares de unidades que son idénticas. Se-
2.1.2. Recopilación del léxico I                                  gundo, porque una gran cantidad de las
   En esta fase, creamos nuestro propio léxi-                      unidades de este léxico bilingüe extraı́do
co bilingüe, que contiene los candidatos a la                      de la Wikipedia serán entidades nombra-
traducción en la lengua de partida (catalán),                     das iguales en ambas lenguas, como por
acompañados de su traducción en la lengua                         ejemplo “Harry Potter”.
de llegada (español). Construimos estos re-                        - Pares de elementos numéricos, ya que
cursos dada la carencia de léxicos bilingües                      no nos interesa traducir cifras, años, fe-
extensos y actualizados gratuitos disponibles                       chas, etc., aunque somos conscientes de
para el par de lenguas empleadas. Ası́, nues-                       que estás entidades podrı́an servir para
tro léxico podrá contener neologismos de re-                      poder paralelizar de forma eficiente fra-
                                                                    ses en corpus comparables.
   2
     http://lia.univ-avignon.fr/fileadmin/                          - Pares de elementos en que solo uno tie-
documents/Users/Intranet/chercheurs/torres/                         ne un signo de puntuación: generalmente
logiciels/fonctionnels_esp.txt
   3                                                              5
     http://trec.nist.gov                                           Para   más    información      sobre   neologı́a
   4
     http://www.lemurproject.org                              véase (Cabré y Estopà, 2009)


                                                         37
Proceedings of the Workshop on Iberian Cross-Language Natural Language Processing Tasks (ICL 2011)




     indican un error en la traducción (excep-               español-catalán existente en la colección AU-
     to el punto de la geminada del catalán).                LEX6 , que contiene vocabularios breves en
     - Pares de elementos que pueden tra-                     lı́nea de lenguas con recursos limitados, diri-
     ducirse por la distancia de edición (Le-                gida por Manuel Rodrı́guez Villegas, especia-
     venshtein, 1966). Por ejemplo, las si-                   lista compilador de diccionarios en lı́nea.
     guientes unidades léxicas del catalán (a
     la izquierda) fueron traducidas correcta-                2.2.       FASE 1: Aplicación del
     mente al español por la distancia de edi-                          algoritmo
     ción (a la derecha), ya que las similitudes                 El proceso de identificación de traduc-
     ortográficas son evidentes:                             ciones puede ser visto como un alineamien-
                                                              to palabra por palabra. Esta tarea se abor-
                                                              da normalmente mediante algoritmos basa-
  catalán                   español                         dos en corpus paralelos, como el modelo
  palau de                   palacio de                       IBM (Brown et al., 1993; González-Rubio et
   westminster                westminster                     al., 2008). Sin embargo, como nosotros ba-
  lateralitat                lateralidad                      samos nuestro proceso de extracción en cor-
  fagocitosi                 fagocitosis                      pus comparables (no paralelos), necesitamos
  provı́ncia de bilecik      provincia de bilecik             otro método. Esta es la razón por la que nos
                                                              centramos en la información contextual de la
     En cambio, las siguientes unidades del                   palabra que se quiere traducir y candidatos
     catalán no se tradujeron adecuadamen-                   a traducciones. Nuestra aproximación se ba-
     te:                                                      sa en las palabras adyacentes, asumiendo que
                                                              podemos traducir parte del contexto del vo-
             catalán          español                       cabulario. De hecho, como no se pueden tra-
            surquillo         bordillo                        ducir todas las unidades léxicas existentes al-
            floquet neu       alquino                         rededor de los candidatos en la lengua fuente
            tupaia            tucana                          y la lengua de llegada, necesitamos capturar
            eratostenià      rı́o eno                        la información más importante en las coocu-
                                                              rrencias detectadas. Usamos medidas de nor-
                                                              malización para resaltar las particularidades
Comenzamos con un léxico de 140.137 unida-                   de las coocurrencias entre una palabra (léxi-
des. Después del filtrado, antes de aplicar la               co I) y las palabras del léxico “pivote” (léxico
distancia de edición, obtenemos 57.859 uni-                  II).
dades y, después de la distancia de edición,                    En resumen, el método para identificar
8.045 unidades, con las que trabajamos final-                 traducciones basado en la información con-
mente. Este léxico final contiene las unidades               textual incluye cuatro pasos:
léxicas más difı́ciles de traducir, porque no                        cálculo de las coocurrencias entre una
pueden ser traducidas por una distancia de                             palabra (léxico I) y las palabras del léxi-
edición tradicional. Por este motivo, conside-                        co “pivote” (léxico II),
ramos que la traducción automática de estas
8.045 unidades es el principal reto. Partimos                          normalización de las coocurrencias con
de la idea de que el léxico bilingüe creado                          una medida de asociación,
en esta fase es correcto. Sin embargo, no he-                          construcción de un vector de contexto,
mos realizado una revisión manual, dada su
                                                                       comparación de los vectores de la lengua
gran extensión. Esta revisión serı́a óptima pa-
                                                                       de partida y la lengua de llegada con una
ra eliminar errores, pero intentamos evitar al
                                                                       medida de similitud.
máximo la intervención humana.
2.1.3. Recopilación del léxico II                              La Figura 1 resume el proceso general de
                                                              extracción de traducción que presentamos en
    Como ya hemos comentado, este léxico
                                                              este trabajo.
“pivote” se utiliza como elemento de rela-
                                                                 El primer paso está basado en la premisa
ción entre las dos lenguas del trabajo. Por
                                                              de que una palabra y su traducción compar-
este motivo, este léxico debe ser correcto ne-
                                                              ten similitudes contextuales en corpus com-
cesariamente, ya que gracias a él se realizan
                                                              parables. Las palabras del léxico “pivote”
las corrrespondencias entre lenguas. Por es-
                                                                  6
to, hemos decidido utilizar un léxico bilingüe                      http://aulex.org/aulex.php


                                                         38
Proceedings of the Workshop on Iberian Cross-Language Natural Language Processing Tasks (ICL 2011)




               Figura 1: Esquema general del proceso de extracción de traducciones.


(léxico II) son los elementos de relación en
ambas lenguas para modelizar el espacio con-                                               (a + 12 )(d + 12 )
textual de donde vamos a extraer las traduc-                           odds(w, s) = log                         (2)
                                                                                           (b + 12 )(c + 21 )
ciones. Las coocurrencias entre una palabra
(léxico I) y las palabras del léxico “pivote”
(léxico II) se contabilizan dentro de una ven-                                 s                       s
tana deslizante de un tamaño fijo (de 10 a 30
palabras en cada ejemplo) o dinámico (ora-                     w     a = occ( w , s )         b = occ( w , s )
ciones, párrafos, etc.).
    El segundo paso ha sido ya ampliamen-                       w     c = occ( w , s )         d = occ( w , s )
te estudiado en la literatura. Se han probado
diversas medidas de asociación, basadas en
tablas de contingencia 2*2 como la mostra-                    Cuadro 1: Tabla de contingencias entre dos
da en el Cuadro 1, y se observa que las más                  palabras
efectivas son información mutua (Church y
Hanks, 1990), log-likelihood (Dunning, 1993)                      El Cuadro 1 contiene las coocurrencias co-
y odds-ratio (Evert, 2004). En la Sección 3                  munes en una ventana de una palabra del
presentamos los resultados obtenidos con las                  léxico I (reflejada como w) y las palabras del
medidas de información mutua y odds-ratio,                   léxico “pivote” o II (reflejadas como s), pero
cuyas fórmulas ofrecemos en la Ecuación 1                   también los casos en los que w aparece sin s,
y 2, respectivamente.                                         s aparece sin w, y finalmente en los que no
                                                              aparecen juntas. Este paso de normalización
                                  a                           es particularmente útil para tratar diferen-
          mi(w, s) = log                           (1)        cias entre lenguas en corpus comparables. Por
                            (a + b)(a + c)
                                                              ejemplo, el corpus extraı́do de la Wikipedia


                                                         39
Proceedings of the Workshop on Iberian Cross-Language Natural Language Processing Tasks (ICL 2011)




                                          Unidades            en 2.2. Observamos que los mejores resulta-
                        Documentos
                                           léxicas           dos se obtienen con la utilización de la me-
      Candidatos                    -            300          dida de asociación odds-ratio y la similitud
 Léxico “pivote”                   -          1.944          de cosenos. Los resultados se presentan en el
  Wikipedia CA                296.465     1.461.325           Cuadro 3 (P = Precisión, C = Cobertura, F
   Wikipedia ES               701.423     3.931.243           = F-measure). Consideramos que es intere-
                                                              sante presentar también los resultados obte-
Cuadro 2: Recursos empleados para los expe-                   nidos con las otras medidas de asociación, co-
rimentos                                                      mo las coocurrencias y la información mutua.
                                                                 A continuación mostramos algunos ejem-
en español contiene una mayor cantidad de                    plos de traducciones correctas:
unidades léxicas, por eso el número de ocu-
rrencias de palabras es mayor que el número                         catalán            español
de ocurrencias de su traducción en una len-                         formatge blau       queso azul
gua con menos recursos (como el catalán).                           floridura           moho
    El tercer paso se refiere básicamente a la                      momificació        embalsamamiento
modelización de una palabra (léxico I) en un                       senglar calidó     jabalı́ calidón
espacio contextual. Para cada palabra (léxico                       vaga                huelga
I) en la lengua de partida y de llegada, el con-
texto se modeliza como un vector de contex-                      Y también ejemplos de traducciones inco-
to. Cada componente de este vector contiene                   rrectas:
un cálculo de coocurrencias normalizado. Los                       catalán                 español
componentes tienen que ser fijos porque que-                        creu nòrdica            idioma islandés
remos que las dimensiones sean comparables                          castellà mèxic         alfabetización
entre los vectores de la lengua de partida y                        bombeta elèctrica       cuenco
de llegada.                                                         astúries                labor
    El cuarto paso se basa en medidas de vec-                       bitxo                    salsa pescado
tores de similitud para comparar los vectores
de contexto en la lengua de partida y de llega-
                                                                  Los resultados obtenidos muestran la efi-
da. El objetivo es detectar similitudes entre
                                                              cacia en cuanto a la precisión en el rango 1 de
las asociaciones contextuales de las palabras.
                                                              la medida odds ratio combinada con la simi-
Los vectores más similares son traducciones
                                                              litud de cosenos. El aumento de la cobertu-
posibles. Estas medidas son otro parámetro
                                                              ra según el número de candidatos tenidos en
bien estudiado en la literatura, y las más po-
                                                              cuenta (un rango entre 5 y 10) implica un des-
pulares son el coseno, la distancia euclidiana
                                                              censo significativo de la precisión. El cálculo
y la métrica City Block (Morin et al., 2007).
                                                              de la precisión tiene en cuenta el número de
La fórmula de la distancia del coseno entre
                                                              unidades léxicas de la lengua de llegada con-
los vectores de la lengua de partida y de lle-
                                                              sideradas como una buena traducción. Para
gada, con la medida de asociación odds-ratio,
                                                              el rango 10, por ejemplo, una sola traducción
se detalla en la Ecuación 3 (donde V es un
                                                              es válida según la referencia (léxico I), pero
vector, s es la lengua de partida, t es la len-
                                                              el sistema ofrece 10. En este rango, la infor-
gua de llegada, y n es una unidad del léxico
                                                              mación mutua y odds ratio son equivalentes
“pivote”).
                                                              en cuanto a precisión y cobertura.
                P        s    t                                   Estos resultados son difı́cilmente compra-
      Vt          n oddsn oddsn
cosineVs = p P           p P                       (3)        bles con los de otros trabajos. Sin embargo,
            ( n oddssn )2 ( n oddstn )2                       observamos que, para el dominio periodı́stico,
                                                              los experimentos de (Rapp, 1999) muestran
3.    Experimentos y resultados                               una precisión del rango 1 del 72 % sobre 100
   Para evaluar nuestro método, hemos em-                    candidatos evaluados. El autor utiliza un cor-
pleado los recursos incluidos en el Cuadro 2.                 pus en alemán que contiene 135 millones de
Hemos extraı́do aleatoriamente 300 candida-                   palabras y un corpus en inglés que incluye 163
tos a traducir del léxico I.                                 millones. Además, el léxico “pivote” que em-
   Hemos realizado diversos experimentos                      plea en sus experimentos contiene 16.380 en-
empleando las medidas de asociación y las                    tradas, es decir, que es muy superior al léxico
medidas de similitud vectorial, presentadas                   “pivote” que nosotros empleamos en este tra-


                                                         40
Proceedings of the Workshop on Iberian Cross-Language Natural Language Processing Tasks (ICL 2011)




                                       TOP 1                          TOP 5                     TOP 10
                               P        C      F               P        C     F           P       C     F
     Coocurrencias            45,00    45,00 45,00            15,33    76,67 25,56       8,17    81,67 14,85
     Información mutua       57,67    57,67 57,67            16,60    83,00 27,67       9,07    90,67 16,48
     Odds ratio               58,00    58,00 58,00            16,47    82,33 27,44       9,07   90,67 16,48

Cuadro 3: Resultados obtenidos a tres rangos (mejores 1, 5 y 10 traducciones) por similitud de
cosenos entre los vectores de contexto

bajo. De hecho, creemos que la precisión del                  amplı́a cada dı́a con nuevas entradas. Toman-
rango 1 del 58 %, que hemos obtenido, podrı́a                  do la Wikipedia como un corpus abierto y en
mejorarse con un léxico con un mayor núme-                   constante evolución, podremos emplear este
ro de entradas. Este aspecto está relacionado                 método para aumentar el léxico de cualquier
con la cantidad de recursos disponibles para                   lengua de la Penı́nsula Ibérica de una manera
el catalán, menos dotado que otras lenguas.                   dinámica y, ası́, favorecer el multilingüismo,
La evaluación de los candidatos ubicados en                   las relaciones entre lenguas y el desarrollo de
el primer rango es el modo más apropiado de                   herramientas de PLN, como los sistemas de
observar si el léxico bilingüe extraı́do podrı́a             traducción automática. La principal ventaja
ser incluido en un sistema de traducción au-                  de la metodologı́a empleada en este trabajo
tomática. Sin embargo, es necesario mejorar                   es que es independiente de lengua. Para em-
la precisión de los resultados con el objetivo                plearla en diferentes lenguas solo se necesita
de aportar recursos robustos.                                  un corpus comparable y un léxico “pivote”
    En nuestro trabajo no abordamos la cons-                   entre las dos lenguas que se quieren tratar.
trucción de modelos estadı́sticos de traduc-                      Como trabajo futuro, nos gustarı́a aplicar
ción, sino que nos centramos en la tarea de                   el sistema sobre otros pares de lenguas. Espe-
la extracción de léxico bilingüe. Sin embargo,              cialmente, estamos interesados en el español-
existen diversos trabajos que se están reali-                 euskera, dada la gran diferencia ortográfica
zando actualmente por otros autores en rela-                   entre las unidades léxicas de estas dos len-
ción con el entrenamiento de sistemas de tra-                 guas. Además, nos gustarı́a incorporar nues-
ducción automática con datos no paralelos,                   tro sistema de extracción a un sistema de tra-
obteniendo resultados prometedores (Ravi y                     ducción automática, para:
Knight, 2011).
                                                                 1. realizar una evaluación extrı́nseca de
4.     Conclusiones y trabajo futuro                                nuestro sistema,
    En este trabajo presentamos un sistema de                    2. aumentar la cobertura de vocabulario de
extracción automática de léxico bilingüe, que                   un traductor automático.
aplicamos a un par de lenguas de la Penı́nsu-
la Ibérica: español-catalán. Para los experi-               Bibliografı́a
mentos no empleamos corpus paralelos, sino                     Brown, P.F., S.A. Della Pietra, V.J. De-
corpus comparables usando como recurso la                        lla Pietra, F. Jelinek, J.D. Lafferty, R.L.
información ofrecida por la Wikipedia, apli-                    Mercer, y P.S. Roossin. 1990. A Sta-
cando la idea de las similitudes contextuales                    tistical Approach to Machine Translation.
entre una unidad léxica y su traducción. Los                   Computational Linguistics, 16(2):79–85.
resultados obtenidos son positivos, dado que
se logró traducir correctamente más de la mi-                Brown, P.F., S.D. Pietra, V.J.D. Pietra, y
tad de los candidatos. Además, consideramos                     R.L. Mercer. 1993. The Mathematic of
que la precisión del rango 1 podrá mejorarse                   Statistical Machine Translation: Parame-
mediante un léxico “pivote” que incluya más                    ter Estimation. Computational Linguis-
unidades léxicas, lo cual planeamos hacer co-                   tics, 19(2):263–311.
mo trabajo futuro.
                                                               Cabré, M.T. y R. Estopà. 2009. Les paraules
    Creemos que este trabajo es relevante, da-                   noves criteris per detectar i mesurar els
do que proponemos un sistema que casi no                         neologismes. Eumo editorial.
requiere esfuerzo humano, es rápido y, so-
bre todo, permite la actualización constan-                   Caseli, HM y MGV Nunes. 2007. Automatic
te del léxico bilingüe, ya que la Wikipedia se                 Induction of Bilingual Lexicons for Machi-


                                                         41
Proceedings of the Workshop on Iberian Cross-Language Natural Language Processing Tasks (ICL 2011)




   ne Translation. International Journal of                   Rapp, R. 1995. Identifying Word Trans-
   Tranlation, 19:29–43.                                        lations in Non-parallel Texts. En ACL,
                                                                páginas 320–322.
Church, K.W. y P. Hanks. 1990. Word As-
  sociation Norms, Mutual Information, and                    Rapp, R. 1999. Automatic Identification
  Lexicography. Computational Linguistics,                      of Word Translations from Unrelated En-
  16(1):22–29.                                                  glish and German Corpora. En ACL,
Dunning, T. 1993. Accurate Methods for                          páginas 519–526.
  the Statistics of Surprise and Coincidence.                 Ravi, S. y K. Knight. 2011. Deciphering Fo-
  Computational Linguistics, 19(1):61–74.                       reign Language. En ACL, páginas 12–21.
Evert, S. 2004. The Statistics of Word Cooc-                  Smith, J.R., C. Quirk, y K. Toutanova. 2010.
  currences: Word Pairs and Collocations.                       Extracting parallel sentences from compa-
  Ph.D. tesis, Universität Stuttgart. 353                      rable corpora using document level align-
  páginas.                                                     ment. En NAACL/HLT, páginas 403–411.
Fung, P. 1995. Compiling Bilingual Lexi-                      Tomás, J., J. Bataller, F. Casacuberta, y
  con Entries from a Non-parallel English-                      J. Lloret. 2008. Mining wikipedia as a
  Chinese Corpus. En Workshop on Very                           parallel and comparable corpus. En Lan-
  Large Corpora, páginas 173–183.                              guage Forum.
Gamallo, P. y I. González. 2010. Wikipe-                     Vivaldi, J. y H. Rodrı́guez. 2010. Finding
  dia as a Multilingual Source of Compa-                         domain terms using wikipedia. En LREC,
  rable Corpora. En LREC Workshop on                             páginas 386–393.
  Building and Using Comparable Corpora,
  páginas 19–26.                                             Wu, D. y X. Xia. 1994. Learning an English-
                                                                Chinese lexicon from a Parallel Corpus.
Gamallo Otero, P. y J.R. Pichel Campos.                         En AMTA, páginas 206–213.
  2007. Un método de extracción de equiva-
  lentes de traducción a partir de un corpus
  comparable castellano-gallego. Lenguaje
  Natural, páginas 241–248.
González-Rubio, J., G. Sanchis-Trilles,
  A. Juan, y F. Casacuberta. 2008. A
  Novel Alignment Model Inspired on IBM
  Model 1. En EAMT, páginas 47–56.
Guinovart, X.G. y E.S. Fontenla. 2004.
  Métodos de optimización de la extracción
  de léxico bilingüe a partir de corpus para-
  lelos. Lenguaje Natural, 33:133–140.
Guinovart, X.G. y A. Simoes. 2009. Parallel
  Corpus-Based Bilingual Terminology Ex-
  traction. En International Conference on
  Terminology and Artificial Intelligence.
Koehn, P. 2005. Europarl: A Parallel Corpus
  for Statistical Machine Translation. En
  MT Summit X, páginas 79–86.
Levenshtein, V.I. 1966. Binary Codes Ca-
  pable of Correcting Deletions, Insertions,
  and Reversals. En Soviet Physics Do-
  klady, páginas 707–710.
Morin, E., B. Daille, K. Takeuchi, y K. Ka-
  geura.    2007.     Bilingual Terminology
  Mining-Using Brain, not Brawn Compa-
  rable Corpora. En ACL, páginas 664–671.


                                                         42