=Paper=
{{Paper
|id=None
|storemode=property
|title=Extracción automática de léxico bilingüe: experimentos en español y catalán
|pdfUrl=https://ceur-ws.org/Vol-824/paper5.pdf
|volume=Vol-824
}}
==Extracción automática de léxico bilingüe: experimentos en español y catalán==
Proceedings of the Workshop on Iberian Cross-Language Natural Language Processing Tasks (ICL 2011)
Extracción automática de léxico bilingüe:
experimentos en español y catalán∗
Automatic Bilingual Lexicon Extraction:
Experiments in Spanish and Catalan
Raphaël Rubino Iria da Cunha Georges Linarès
Laboratoire Informatique d’Avignon Institut Universitari de
339, chemin des Meinajaries Lingüı́stica Aplicada
84911 Avignon Cedex 9, Francia Roc Boronat 138
raphael.rubino@univ-avignon.fr 08018 Barcelona, España
georges.linares@univ-avignon.fr iria.dacunha@upf.edu
Resumen: En este artı́culo presentamos un sistema de extracción automática de
léxico bilingüe catalán-español. Evitamos el empleo de corpus paralelos y usamos la
información ofrecida por la Wikipedia como un corpus comparable entre el español y
el catalán. Empleamos la similitud contextual para traducir unidades léxicas que no
pueden traducirse por la distancia de edición. Los resultados obtenidos son positivos
y confirman que este método podrı́a aplicarse a las lenguas ibéricas.
Palabras clave: extracción automática, léxico bilingüe, traducción automática, es-
pañol, catalán
Abstract: In this paper, we propose an automatic bilingual lexicon extraction sys-
tem for Catalan and Spanish languages. Parallel corpora are not employed and
Wikipedia is used as Catalan-Spanish comparable corpora. A contextual similarity
approach is used to translate lexical units that are not translated by an edition
distance. The obtained results are positive and confirm that this method could be
applied to Iberian languages.
Keywords: Automatic Extraction, Bilingual Lexicon, Machine Translation, Spa-
nish, Catalan
1. Introduction multilingües. Sin embargo, su desarrollo
En la Penı́nsula Ibérica coexisten cinco y actualización es costoso y lento, ya
lenguas oficiales: español, catalán, galle- que normalmente supone la intervención
go, euskera y portugués. Para establecer humana.
vı́nculos entre estas lenguas y favorecer El diseño de herramientas automáticas
el multilingüismo, es necesario desarrollar que ayuden en la construcción de léxicos bi-
recursos para todas ellas. Además, es in- lingües (o multilingües) supone un reto en el
dispensable crear recursos que permitan ámbito del PLN. Existen trabajos que tra-
relacionarlas. Actualmente, hay una ca- tan este tema empleando diferentes estrate-
rencia de recursos de Procesamiento del gias. La mayor parte utilizan corpus para-
Lenguaje Natural (NLP) para algunas de lelos (Brown et al., 1990; Wu y Xia, 1994;
ellas, especialmente el gallego, el catalán y Koehn, 2005). No obstante, la creación de es-
el euskera. Uno de los recursos necesarios te tipo de corpus es costosa, lo cual encare-
para interrelacionar estas lenguas y diseñar ce la investigación y no permite trabajar so-
herramientas de PLN (como sistemas de bre todas las combinaciones de lenguas. Otra
traducción automática) son los léxicos lı́nea de investigación se basa en la utiliza-
∗
ción de un recurso más accesible, los corpus
Esta investigación ha sido parcialmente financiada bilingües comparables, es decir, conjuntos de
por la Agence Nationale de la Recherche (ANR, Fran-
cia), proyecto AVISON (ANR-007-014); y los proyec-
textos no paralelos con temáticas comunes
tos RICOTERM (FFI2010-21365-C03-01) y APLE pero escritos en cada lengua de manera inde-
(FFI2009-12188-C05-01) en España. pendiente. Diversos autores han estudiado la
35
Proceedings of the Workshop on Iberian Cross-Language Natural Language Processing Tasks (ICL 2011)
posibilidad de extraer unidades léxicas a par- lenguas español-catalán. Para ello, evitamos
tir de estos corpus, basándose en la hipóte- el empleo de corpus paralelos y aplicamos la
sis de que una unidad léxica y su traducción idea de la similitud contextual entre una uni-
comparten similitudes en cuanto a su contex- dad léxica y su traducción (Fung, 1995; Rapp,
to (Fung, 1995; Rapp, 1995). Además de cor- 1995), empleando textos de la Wikipedia co-
pus comparables, esta aproximación emplea mo corpus comparable. La metodologı́a des-
un léxico bilingüe preliminar de las lenguas crita en este trabajo está basada en el empleo
analizadas. de recursos y heurı́sticas existentes, pero apli-
La mayorı́a de las investigaciones sobre cadas concretamente a la extracción de léxico
este tema se han realizado para relacionar bilingüe en estas dos lenguas.
el inglés con otras lenguas. Para las lenguas
ibéricas, encontramos algunos trabajos, que 2. Metodologı́a
utilizan principalmente métodos basados en La metodologı́a de nuestro trabajo inclu-
corpus paralelos: para inglés-gallego (Guino- ye dos fases principales: Preprocesamiento y
vart y Fontenla, 2004), para portugués, es- creación de recursos léxicos (FASE 0) y Apli-
pañol e inglés (Caseli y Nunes, 2007), y para cación del algoritmo (FASE 1).
inglés-gallego e inglés-portugués (Guinovart
y Simoes, 2009).
2.1. FASE 0: Preprocesamiento y
creación de recursos léxicos
Como se afirma en (Gamallo Otero y Pi-
chel Campos, 2007), “desgraciadamente, no Ya que nuestro trabajo se basa en un cor-
hay todavı́a una gran cantidad de texto pa- pus comparable y un léxico bilingüe, en esta
ralelo, especialmente en lo que se refiere a fase se construyen estos recursos. Concreta-
lenguas minorizadas”. Por esto, trabajar con mente, necesitamos dos léxicos bilingües: I)
lenguas como el gallego, catalán o euskera se un léxico con candidatos a la traducción (con
hace más complicado. En (Gamallo Otero y sus correspondientes traducciones) y II) un
Pichel Campos, 2007) se propone un méto- léxico “pivote” utilizado como elemento de
do basado en corpus comparables de la Web, relación entre las dos lenguas.
usando la idea de la similitud contextual. Lo 2.1.1. Preprocesamiento del corpus
aplican al español y el gallego, y, aunque sus comparable
resultados no superan los obtenidos usando El preprocesamiento del corpus compara-
corpus paralelos, son elevados. Esto refuer- ble incluye:
za la idea de que la gran cantidad de datos
incluidos en la Web es una fuente de infor- Descarga de un fichero con todos los
mación importante y explotable para la cons- artı́culos de la Wikipedia (Wikipedia
trucción automática de léxicos bilingües. En Dump) en las dos lenguas de trabajo (es-
esta lı́nea, en (Gamallo y González, 2010) se pañol y catalán).
propone un método automático para cons- Eliminación de “páginas redirigidas” en
truir corpus comparables empleando la Wi- Wikipedia, es decir, artı́culos que tienen
kipedia. En (Tomás et al., 2008) se construye un tı́tulo pero no contienen texto en su
un corpus que incluye dos tipos de artı́clos interior. Por ejemplo, en la Wikipedia
de la Wikipedia (paralelos y comparables) en en español, la unidad “Proyección Azi-
español y catalán. En (Vivaldi y Rodrı́guez, mutal” está vacı́a y redirigida a “Pro-
2010) se presenta un método de extracción yección azimutal” (simplemente cambia
de terminologı́a bilingüe que emplea las ca- una “a” en mayúscula o minúscula); el
tegorı́as y estructura de la Wikipedia. La ex- año “4450” está redirigido al artı́culo so-
tracción de frases paralelas de la Wikipedia bre el “V milenio”, etc.
es también una tarea interesante que ha si-
do explorada por (Smith, Quirk, y Toutano- Eliminación de las stopwords en las dos
va, 2010), por ejemplo, realizando diferentes lenguas. La lista de stopwords en catalán
experimentos a partir de la estructura de la se ha obtenido del área de Ingenierı́a
Wikipedia. Lingüı́stica del Institut Universitari de
El objetivo de este trabajo es desarrollar Lingüı́stica Aplicada (IULA) de la Uni-
un sistema de extracción automática de léxi- versitat Pompeu Fabra (UPF)1 . La lista
co bilingüe para las lenguas de la Penı́nsula 1
http://latel.upf.edu/morgana/altres/pub/
Ibérica. Concretamente, trabajamos el par de ca_stop.htm
36
Proceedings of the Workshop on Iberian Cross-Language Natural Language Processing Tasks (ICL 2011)
de stopwords en español se ha obtenido ciente creación (como, por ejemplo, “mileu-
del Laboratoire Informatique d’Avignon rista”)5 . Esta fase incluye dos subfases:
(LIA-UAPV)2 .
1. Extracción de relaciones de correspon-
Formateo de este fichero en Trec-text3 . dencia entre los tı́tulos de los artı́cu-
En el siguiente ejemplo se muestra un los de la Wikipedia en español y ca-
ejemplo de este tipo de formato, en don- talán, para obtener una lista prelimi-
de la etiqueta indica el núme- nar de léxico bilingüe. Las relaciones en-
ro de documento, el tı́tulo y tre los artı́culos en estas dos lenguas
el contenido: se establecen mediante enlaces interlen-
gua (en el menú “En otros idiomas” de
la Wikipedia en español). Establecemos
22
las correspondencias en los dos sentidos
Astronomı́a galáctica
(español-catalán y catalán-español) por-
que, en ocasiones, la estructura de la
se denomina ’astronomı́a galáctica’ a
Wikipedia no correlaciona de la misma
la investigación astronómica de nuestra
forma las entradas en los dos sentidos.
galaxia, la vı́a láctea [...] seguros
Por ejemplo, en la Wikipedia en catalán
posee un agujero negro, etc.
encontramos la entrada “Prestige”, que
está correlacionada en la Wikipedia en
español con “Desastre del Prestige”. Sin
embargo, la Wikipedia en español tam-
Indexación de los artı́culos con Lemur bién ofrece la entrada “Prestige” (que
Indexation Toolkit4 . Usamos esta herra- se refiere al mismo petrolero), que solo
mienta para facilitar el cálculo de co- muestra su correspondencia al inglés y al
ocurrencias entre la unidad léxica que se ruso, pero no al catalán. Vemos ası́ que
quiere traducir y su contexto (es decir, la estructura de la Wikipedia en español
las palabras del léxico II). es más compleja que la de otras lenguas
con menos entradas.
Actualmente, la Wikipedia en español 2. Filtrado de la lista preliminar de los dos
contiene 761.727 artı́culos y en catalán léxicos bilingües mediante la eliminación
341.142. Depués de este preprocesamiento, automática de:
nuestro corpus incluye 701.423 artı́culos en
- Pares de unidades léxicas que no man-
español y 296.465 en catalán. Esta reducción
tienen la misma correlación en la estruc-
se debe a la eliminación de artı́culos rediri-
tura de la Wikipedia en los dos sentidos.
gidos. No se realizó una selección temática
- Pares de unidades léxicas que coinciden
de los artı́culos incluidos en el corpus, sino
en las dos lenguas. Este criterio se aplica
que se emplearon todos los temas de la Wi-
por dos motivos. Primero, porque consi-
kipedia. Tampoco se usó la estructura de la
deramos que no es interesante evaluar los
Wikipedia.
pares de unidades que son idénticas. Se-
2.1.2. Recopilación del léxico I gundo, porque una gran cantidad de las
En esta fase, creamos nuestro propio léxi- unidades de este léxico bilingüe extraı́do
co bilingüe, que contiene los candidatos a la de la Wikipedia serán entidades nombra-
traducción en la lengua de partida (catalán), das iguales en ambas lenguas, como por
acompañados de su traducción en la lengua ejemplo “Harry Potter”.
de llegada (español). Construimos estos re- - Pares de elementos numéricos, ya que
cursos dada la carencia de léxicos bilingües no nos interesa traducir cifras, años, fe-
extensos y actualizados gratuitos disponibles chas, etc., aunque somos conscientes de
para el par de lenguas empleadas. Ası́, nues- que estás entidades podrı́an servir para
tro léxico podrá contener neologismos de re- poder paralelizar de forma eficiente fra-
ses en corpus comparables.
2
http://lia.univ-avignon.fr/fileadmin/ - Pares de elementos en que solo uno tie-
documents/Users/Intranet/chercheurs/torres/ ne un signo de puntuación: generalmente
logiciels/fonctionnels_esp.txt
3 5
http://trec.nist.gov Para más información sobre neologı́a
4
http://www.lemurproject.org véase (Cabré y Estopà, 2009)
37
Proceedings of the Workshop on Iberian Cross-Language Natural Language Processing Tasks (ICL 2011)
indican un error en la traducción (excep- español-catalán existente en la colección AU-
to el punto de la geminada del catalán). LEX6 , que contiene vocabularios breves en
- Pares de elementos que pueden tra- lı́nea de lenguas con recursos limitados, diri-
ducirse por la distancia de edición (Le- gida por Manuel Rodrı́guez Villegas, especia-
venshtein, 1966). Por ejemplo, las si- lista compilador de diccionarios en lı́nea.
guientes unidades léxicas del catalán (a
la izquierda) fueron traducidas correcta- 2.2. FASE 1: Aplicación del
mente al español por la distancia de edi- algoritmo
ción (a la derecha), ya que las similitudes El proceso de identificación de traduc-
ortográficas son evidentes: ciones puede ser visto como un alineamien-
to palabra por palabra. Esta tarea se abor-
da normalmente mediante algoritmos basa-
catalán español dos en corpus paralelos, como el modelo
palau de palacio de IBM (Brown et al., 1993; González-Rubio et
westminster westminster al., 2008). Sin embargo, como nosotros ba-
lateralitat lateralidad samos nuestro proceso de extracción en cor-
fagocitosi fagocitosis pus comparables (no paralelos), necesitamos
provı́ncia de bilecik provincia de bilecik otro método. Esta es la razón por la que nos
centramos en la información contextual de la
En cambio, las siguientes unidades del palabra que se quiere traducir y candidatos
catalán no se tradujeron adecuadamen- a traducciones. Nuestra aproximación se ba-
te: sa en las palabras adyacentes, asumiendo que
podemos traducir parte del contexto del vo-
catalán español cabulario. De hecho, como no se pueden tra-
surquillo bordillo ducir todas las unidades léxicas existentes al-
floquet neu alquino rededor de los candidatos en la lengua fuente
tupaia tucana y la lengua de llegada, necesitamos capturar
eratostenià rı́o eno la información más importante en las coocu-
rrencias detectadas. Usamos medidas de nor-
malización para resaltar las particularidades
Comenzamos con un léxico de 140.137 unida- de las coocurrencias entre una palabra (léxi-
des. Después del filtrado, antes de aplicar la co I) y las palabras del léxico “pivote” (léxico
distancia de edición, obtenemos 57.859 uni- II).
dades y, después de la distancia de edición, En resumen, el método para identificar
8.045 unidades, con las que trabajamos final- traducciones basado en la información con-
mente. Este léxico final contiene las unidades textual incluye cuatro pasos:
léxicas más difı́ciles de traducir, porque no cálculo de las coocurrencias entre una
pueden ser traducidas por una distancia de palabra (léxico I) y las palabras del léxi-
edición tradicional. Por este motivo, conside- co “pivote” (léxico II),
ramos que la traducción automática de estas
8.045 unidades es el principal reto. Partimos normalización de las coocurrencias con
de la idea de que el léxico bilingüe creado una medida de asociación,
en esta fase es correcto. Sin embargo, no he- construcción de un vector de contexto,
mos realizado una revisión manual, dada su
comparación de los vectores de la lengua
gran extensión. Esta revisión serı́a óptima pa-
de partida y la lengua de llegada con una
ra eliminar errores, pero intentamos evitar al
medida de similitud.
máximo la intervención humana.
2.1.3. Recopilación del léxico II La Figura 1 resume el proceso general de
extracción de traducción que presentamos en
Como ya hemos comentado, este léxico
este trabajo.
“pivote” se utiliza como elemento de rela-
El primer paso está basado en la premisa
ción entre las dos lenguas del trabajo. Por
de que una palabra y su traducción compar-
este motivo, este léxico debe ser correcto ne-
ten similitudes contextuales en corpus com-
cesariamente, ya que gracias a él se realizan
parables. Las palabras del léxico “pivote”
las corrrespondencias entre lenguas. Por es-
6
to, hemos decidido utilizar un léxico bilingüe http://aulex.org/aulex.php
38
Proceedings of the Workshop on Iberian Cross-Language Natural Language Processing Tasks (ICL 2011)
Figura 1: Esquema general del proceso de extracción de traducciones.
(léxico II) son los elementos de relación en
ambas lenguas para modelizar el espacio con- (a + 12 )(d + 12 )
textual de donde vamos a extraer las traduc- odds(w, s) = log (2)
(b + 12 )(c + 21 )
ciones. Las coocurrencias entre una palabra
(léxico I) y las palabras del léxico “pivote”
(léxico II) se contabilizan dentro de una ven- s s
tana deslizante de un tamaño fijo (de 10 a 30
palabras en cada ejemplo) o dinámico (ora- w a = occ( w , s ) b = occ( w , s )
ciones, párrafos, etc.).
El segundo paso ha sido ya ampliamen- w c = occ( w , s ) d = occ( w , s )
te estudiado en la literatura. Se han probado
diversas medidas de asociación, basadas en
tablas de contingencia 2*2 como la mostra- Cuadro 1: Tabla de contingencias entre dos
da en el Cuadro 1, y se observa que las más palabras
efectivas son información mutua (Church y
Hanks, 1990), log-likelihood (Dunning, 1993) El Cuadro 1 contiene las coocurrencias co-
y odds-ratio (Evert, 2004). En la Sección 3 munes en una ventana de una palabra del
presentamos los resultados obtenidos con las léxico I (reflejada como w) y las palabras del
medidas de información mutua y odds-ratio, léxico “pivote” o II (reflejadas como s), pero
cuyas fórmulas ofrecemos en la Ecuación 1 también los casos en los que w aparece sin s,
y 2, respectivamente. s aparece sin w, y finalmente en los que no
aparecen juntas. Este paso de normalización
a es particularmente útil para tratar diferen-
mi(w, s) = log (1) cias entre lenguas en corpus comparables. Por
(a + b)(a + c)
ejemplo, el corpus extraı́do de la Wikipedia
39
Proceedings of the Workshop on Iberian Cross-Language Natural Language Processing Tasks (ICL 2011)
Unidades en 2.2. Observamos que los mejores resulta-
Documentos
léxicas dos se obtienen con la utilización de la me-
Candidatos - 300 dida de asociación odds-ratio y la similitud
Léxico “pivote” - 1.944 de cosenos. Los resultados se presentan en el
Wikipedia CA 296.465 1.461.325 Cuadro 3 (P = Precisión, C = Cobertura, F
Wikipedia ES 701.423 3.931.243 = F-measure). Consideramos que es intere-
sante presentar también los resultados obte-
Cuadro 2: Recursos empleados para los expe- nidos con las otras medidas de asociación, co-
rimentos mo las coocurrencias y la información mutua.
A continuación mostramos algunos ejem-
en español contiene una mayor cantidad de plos de traducciones correctas:
unidades léxicas, por eso el número de ocu-
rrencias de palabras es mayor que el número catalán español
de ocurrencias de su traducción en una len- formatge blau queso azul
gua con menos recursos (como el catalán). floridura moho
El tercer paso se refiere básicamente a la momificació embalsamamiento
modelización de una palabra (léxico I) en un senglar calidó jabalı́ calidón
espacio contextual. Para cada palabra (léxico vaga huelga
I) en la lengua de partida y de llegada, el con-
texto se modeliza como un vector de contex- Y también ejemplos de traducciones inco-
to. Cada componente de este vector contiene rrectas:
un cálculo de coocurrencias normalizado. Los catalán español
componentes tienen que ser fijos porque que- creu nòrdica idioma islandés
remos que las dimensiones sean comparables castellà mèxic alfabetización
entre los vectores de la lengua de partida y bombeta elèctrica cuenco
de llegada. astúries labor
El cuarto paso se basa en medidas de vec- bitxo salsa pescado
tores de similitud para comparar los vectores
de contexto en la lengua de partida y de llega-
Los resultados obtenidos muestran la efi-
da. El objetivo es detectar similitudes entre
cacia en cuanto a la precisión en el rango 1 de
las asociaciones contextuales de las palabras.
la medida odds ratio combinada con la simi-
Los vectores más similares son traducciones
litud de cosenos. El aumento de la cobertu-
posibles. Estas medidas son otro parámetro
ra según el número de candidatos tenidos en
bien estudiado en la literatura, y las más po-
cuenta (un rango entre 5 y 10) implica un des-
pulares son el coseno, la distancia euclidiana
censo significativo de la precisión. El cálculo
y la métrica City Block (Morin et al., 2007).
de la precisión tiene en cuenta el número de
La fórmula de la distancia del coseno entre
unidades léxicas de la lengua de llegada con-
los vectores de la lengua de partida y de lle-
sideradas como una buena traducción. Para
gada, con la medida de asociación odds-ratio,
el rango 10, por ejemplo, una sola traducción
se detalla en la Ecuación 3 (donde V es un
es válida según la referencia (léxico I), pero
vector, s es la lengua de partida, t es la len-
el sistema ofrece 10. En este rango, la infor-
gua de llegada, y n es una unidad del léxico
mación mutua y odds ratio son equivalentes
“pivote”).
en cuanto a precisión y cobertura.
P s t Estos resultados son difı́cilmente compra-
Vt n oddsn oddsn
cosineVs = p P p P (3) bles con los de otros trabajos. Sin embargo,
( n oddssn )2 ( n oddstn )2 observamos que, para el dominio periodı́stico,
los experimentos de (Rapp, 1999) muestran
3. Experimentos y resultados una precisión del rango 1 del 72 % sobre 100
Para evaluar nuestro método, hemos em- candidatos evaluados. El autor utiliza un cor-
pleado los recursos incluidos en el Cuadro 2. pus en alemán que contiene 135 millones de
Hemos extraı́do aleatoriamente 300 candida- palabras y un corpus en inglés que incluye 163
tos a traducir del léxico I. millones. Además, el léxico “pivote” que em-
Hemos realizado diversos experimentos plea en sus experimentos contiene 16.380 en-
empleando las medidas de asociación y las tradas, es decir, que es muy superior al léxico
medidas de similitud vectorial, presentadas “pivote” que nosotros empleamos en este tra-
40
Proceedings of the Workshop on Iberian Cross-Language Natural Language Processing Tasks (ICL 2011)
TOP 1 TOP 5 TOP 10
P C F P C F P C F
Coocurrencias 45,00 45,00 45,00 15,33 76,67 25,56 8,17 81,67 14,85
Información mutua 57,67 57,67 57,67 16,60 83,00 27,67 9,07 90,67 16,48
Odds ratio 58,00 58,00 58,00 16,47 82,33 27,44 9,07 90,67 16,48
Cuadro 3: Resultados obtenidos a tres rangos (mejores 1, 5 y 10 traducciones) por similitud de
cosenos entre los vectores de contexto
bajo. De hecho, creemos que la precisión del amplı́a cada dı́a con nuevas entradas. Toman-
rango 1 del 58 %, que hemos obtenido, podrı́a do la Wikipedia como un corpus abierto y en
mejorarse con un léxico con un mayor núme- constante evolución, podremos emplear este
ro de entradas. Este aspecto está relacionado método para aumentar el léxico de cualquier
con la cantidad de recursos disponibles para lengua de la Penı́nsula Ibérica de una manera
el catalán, menos dotado que otras lenguas. dinámica y, ası́, favorecer el multilingüismo,
La evaluación de los candidatos ubicados en las relaciones entre lenguas y el desarrollo de
el primer rango es el modo más apropiado de herramientas de PLN, como los sistemas de
observar si el léxico bilingüe extraı́do podrı́a traducción automática. La principal ventaja
ser incluido en un sistema de traducción au- de la metodologı́a empleada en este trabajo
tomática. Sin embargo, es necesario mejorar es que es independiente de lengua. Para em-
la precisión de los resultados con el objetivo plearla en diferentes lenguas solo se necesita
de aportar recursos robustos. un corpus comparable y un léxico “pivote”
En nuestro trabajo no abordamos la cons- entre las dos lenguas que se quieren tratar.
trucción de modelos estadı́sticos de traduc- Como trabajo futuro, nos gustarı́a aplicar
ción, sino que nos centramos en la tarea de el sistema sobre otros pares de lenguas. Espe-
la extracción de léxico bilingüe. Sin embargo, cialmente, estamos interesados en el español-
existen diversos trabajos que se están reali- euskera, dada la gran diferencia ortográfica
zando actualmente por otros autores en rela- entre las unidades léxicas de estas dos len-
ción con el entrenamiento de sistemas de tra- guas. Además, nos gustarı́a incorporar nues-
ducción automática con datos no paralelos, tro sistema de extracción a un sistema de tra-
obteniendo resultados prometedores (Ravi y ducción automática, para:
Knight, 2011).
1. realizar una evaluación extrı́nseca de
4. Conclusiones y trabajo futuro nuestro sistema,
En este trabajo presentamos un sistema de 2. aumentar la cobertura de vocabulario de
extracción automática de léxico bilingüe, que un traductor automático.
aplicamos a un par de lenguas de la Penı́nsu-
la Ibérica: español-catalán. Para los experi- Bibliografı́a
mentos no empleamos corpus paralelos, sino Brown, P.F., S.A. Della Pietra, V.J. De-
corpus comparables usando como recurso la lla Pietra, F. Jelinek, J.D. Lafferty, R.L.
información ofrecida por la Wikipedia, apli- Mercer, y P.S. Roossin. 1990. A Sta-
cando la idea de las similitudes contextuales tistical Approach to Machine Translation.
entre una unidad léxica y su traducción. Los Computational Linguistics, 16(2):79–85.
resultados obtenidos son positivos, dado que
se logró traducir correctamente más de la mi- Brown, P.F., S.D. Pietra, V.J.D. Pietra, y
tad de los candidatos. Además, consideramos R.L. Mercer. 1993. The Mathematic of
que la precisión del rango 1 podrá mejorarse Statistical Machine Translation: Parame-
mediante un léxico “pivote” que incluya más ter Estimation. Computational Linguis-
unidades léxicas, lo cual planeamos hacer co- tics, 19(2):263–311.
mo trabajo futuro.
Cabré, M.T. y R. Estopà. 2009. Les paraules
Creemos que este trabajo es relevante, da- noves criteris per detectar i mesurar els
do que proponemos un sistema que casi no neologismes. Eumo editorial.
requiere esfuerzo humano, es rápido y, so-
bre todo, permite la actualización constan- Caseli, HM y MGV Nunes. 2007. Automatic
te del léxico bilingüe, ya que la Wikipedia se Induction of Bilingual Lexicons for Machi-
41
Proceedings of the Workshop on Iberian Cross-Language Natural Language Processing Tasks (ICL 2011)
ne Translation. International Journal of Rapp, R. 1995. Identifying Word Trans-
Tranlation, 19:29–43. lations in Non-parallel Texts. En ACL,
páginas 320–322.
Church, K.W. y P. Hanks. 1990. Word As-
sociation Norms, Mutual Information, and Rapp, R. 1999. Automatic Identification
Lexicography. Computational Linguistics, of Word Translations from Unrelated En-
16(1):22–29. glish and German Corpora. En ACL,
Dunning, T. 1993. Accurate Methods for páginas 519–526.
the Statistics of Surprise and Coincidence. Ravi, S. y K. Knight. 2011. Deciphering Fo-
Computational Linguistics, 19(1):61–74. reign Language. En ACL, páginas 12–21.
Evert, S. 2004. The Statistics of Word Cooc- Smith, J.R., C. Quirk, y K. Toutanova. 2010.
currences: Word Pairs and Collocations. Extracting parallel sentences from compa-
Ph.D. tesis, Universität Stuttgart. 353 rable corpora using document level align-
páginas. ment. En NAACL/HLT, páginas 403–411.
Fung, P. 1995. Compiling Bilingual Lexi- Tomás, J., J. Bataller, F. Casacuberta, y
con Entries from a Non-parallel English- J. Lloret. 2008. Mining wikipedia as a
Chinese Corpus. En Workshop on Very parallel and comparable corpus. En Lan-
Large Corpora, páginas 173–183. guage Forum.
Gamallo, P. y I. González. 2010. Wikipe- Vivaldi, J. y H. Rodrı́guez. 2010. Finding
dia as a Multilingual Source of Compa- domain terms using wikipedia. En LREC,
rable Corpora. En LREC Workshop on páginas 386–393.
Building and Using Comparable Corpora,
páginas 19–26. Wu, D. y X. Xia. 1994. Learning an English-
Chinese lexicon from a Parallel Corpus.
Gamallo Otero, P. y J.R. Pichel Campos. En AMTA, páginas 206–213.
2007. Un método de extracción de equiva-
lentes de traducción a partir de un corpus
comparable castellano-gallego. Lenguaje
Natural, páginas 241–248.
González-Rubio, J., G. Sanchis-Trilles,
A. Juan, y F. Casacuberta. 2008. A
Novel Alignment Model Inspired on IBM
Model 1. En EAMT, páginas 47–56.
Guinovart, X.G. y E.S. Fontenla. 2004.
Métodos de optimización de la extracción
de léxico bilingüe a partir de corpus para-
lelos. Lenguaje Natural, 33:133–140.
Guinovart, X.G. y A. Simoes. 2009. Parallel
Corpus-Based Bilingual Terminology Ex-
traction. En International Conference on
Terminology and Artificial Intelligence.
Koehn, P. 2005. Europarl: A Parallel Corpus
for Statistical Machine Translation. En
MT Summit X, páginas 79–86.
Levenshtein, V.I. 1966. Binary Codes Ca-
pable of Correcting Deletions, Insertions,
and Reversals. En Soviet Physics Do-
klady, páginas 707–710.
Morin, E., B. Daille, K. Takeuchi, y K. Ka-
geura. 2007. Bilingual Terminology
Mining-Using Brain, not Brawn Compa-
rable Corpora. En ACL, páginas 664–671.
42