-

Extracci´on de corpus paralelos de la Wikipedia basada en la obtenci´on de alineamientos bilingu¨es a nivel de frase∗

Joan Albert Silvestre-Cerd`a

Mercedes Garc´ıa-Mart´ınez

Alberto Barr´on-Ceden˜o

Jorge Civera y Paolo Rosso

jcivera@dsic.upv.es prosso@dsic.upv.es 0 0 Departament de Sistemes Inform`atics i Computacio ́ Universitat Polit`ecnica de Val`encia

2011

172 176

This paper presents a proposal for extracting parallel corpora from Wikipedia on the basis of statistical machine translation techniques. We have used word-level alignment models from IBM in order to obtain phrase-level bilingual alignments between documents pairs. We have manually annotated a set of test English-Spanish comparable documents in order to evaluate the model. The obtained results are encouraging.

fuente inmensa de documentos en mu´ltiples lenguas que tiene muchas posibilidades de explotaci´on. No obstante, encontrar frases paralelas a nivel global en la web es una tarea muy dispersa y extremadamente dif´ıcil, aunque no imposible (Uszkoreit et al., 2010) .

La Wikipedia es uno de los pocos recursos web que nos provee de forma expl´ıcita gran cantidad de textos multilingu¨es comparables, pues sus contenidos se presentan como art´ıculos en mu´ltiples idiomas que describen un mismo concepto. El objetivo es, pues, explotar los contenidos comparables de dichos documentos con la finalidad de extraer frases paralelas que puedan ser utilizadas en el entrenamiento de sistemas de traducci´on autom´atica.

En este trabajo se propone una aproximaci´on heur´ıstica a la extracci´on de corpus paralelos de la Wikipedia basada en t´ecnicas de Traducci´on Autom´atica Estad´ıstica (TAE). En la siguiente secci´on analizaremos los trabajos previos que han servido de inspiraci´on a este trabajo. Posteriormente, en la Secci´on 3 se describe ampliamente el sistema propuesto. La Secci´on 4 muestra los resultados experimentales y finalmente, una serie de conclusiones son expuestas en la Secci´on 5. 2.

Trabajos relacionados

Debido a su creciente necesidad e importancia, la extracci´on autom´atica de corpus paralelos es una tarea bastante explorada en la actualidad, aunque los primeros trabajos se realizaron hace ya m´as de dos d´ecadas (Brown, Lai, y Mercer, 1991; Gale y Church, 1991), si bien ´estos se cen˜´ıan a encontrar alineamientos entre frases en textos paralelos. Estos trabajos proponen m´etodos de alineamiento muy r´apidos pero poco precisos, pues para detectar relaciones entre frases utilizaban u´nicamente la informaci´on de longitud de las oraciones. Posteriormente, Chen propuso utilizar informaci´on l´exica mediante un sencillo modelo de traducci´on estad´ıstico basado en palabras, demostrando una mejora significativa de la calidad de los alineamientos extra´ıdos (Chen, 1993), y unos an˜os m´as tarde, Moore combin´o ambas aproximaciones (Moore, 2002). M´as recientemente, Gonz´alez propuso un modelo de alineamiento entre frases y palabras inspirado en el modelo 1 de IBM (Gonz´alez-Rubio et al., 2008).

Con el problema de alinear frases en textos paralelos bien estudiado, y ante la creciente demanda de corpus paralelos para TAE, los principales esfuerzos se centraron en la extracci´on de corpus paralelos (Eisele y Xu, 2010; Uszkoreit et al., 2010; Varga et al., 2005) , en incluso monolingu¨es (Barzilay y Elhadad, 2003; Quirk, Brockett, y Dolan, 2004), a partir de la web. En ´este ´ambito, la Wikipedia ha sido un recurso bastante explotado, present´andose una gran variedad de aproximaciones, desde m´etodos heur´ısticos (Adafre y de Rijke, 2006; Mohammadi y GhasemAghaee, 2010) hasta aproximaciones basadas en clasificaci´on estad´ıstica utilizando combinaciones lineales de caracter´ısticas (Smith, Quirk, y Toutanova, 2010; Tom´as et al., 2008) . Tambi´en se han llevado a cabo algunos trabajos en la vertiente monolingu¨e (Yasuda y Sumita, 2008) . Ahora bien, ninguno de los trabajos previos ha explorado la utilizaci´on de modelos de traducci´on estad´ısticos como sistemas de evaluaci´on de alineamientos en recursos comparables como la Wikipedia, y es precisamente este vac´ıo experimental el que se pretende cubrir en este trabajo. 3.

Descripci´on del sistema

Para la tarea de extracci´on de corpus paralelos de la Wikipedia consideraremos pares de documentos de Wikipedia X = (x1, . . . , xj, . . . , x|X|) ∈ X ∗ e Y = (y1, . . . , yi, . . . , y|Y |) ∈ Y∗ que representen un mismo concepto, siendo xj la j-´esima frase del documento X, yi la i-´esima frase del documento Y , y X e Y los vocabularios de los lenguajes en los que se encuentran los respectivos documentos. Definimos (xj , yi) como un alineamiento entre la j-´esima frase del documento X y la i-´esima frase del documento Y , y A un conjunto finito de alineamientos.

Inicialmente asumiremos que A = (X × Y ), es decir, el conjunto A contiene todo alineamiento posible entre las frases de X y de Y . La probabilidad de cada alineamiento (xj , yi) ∈ A se calcula de acuerdo con el modelo 4 de IBM (Brown y others, 1993), que es un modelo de alineamiento a nivel de palabra ampliamente utilizado en Traducci´on Autom´atica Estad´ıstica. Un alineamiento recibir´a una probabilidad alta si el grado de coocurrencia de las palabras que componen las frases es alto, pero por contra recibir´a una probabilidad baja si las palabras involucradas tienen poca o ninguna correlaci´on. Cabe decir que las puntuaciones otorgadas por los modelos de IBM provienen de una serie de productos de probabilidades, tantos como el nu´mero de palabras que conforman la frase de destino yi, por lo que dicha puntuaci´on debe ser normalizada convenientemente para que no sea dependiente de la longitud. De no ser as´ı, los alineamientos con frases destino yi de menor nu´mero de palabras tender´ıan a ser m´as probables, pudiendo darse casos de alineamientos (xj , yi) con altos valores de probabilidad con |xj| = 8 e |yi| = 1, por ejemplo.

Una vez se han evaluado todos los alineamientos del conjunto A, se obtiene el conjunto de alineamientos m´as probables B ⊆ A mediante la siguiente maximizaci´on: (xj , yi) ∈ B / pIBM (xj | yi) > pIBM (xj | yi′) (1) ∀i′ = 1 . . . |Y | ∀j = 1 . . . |X|

Es decir, para cada frase xj del documento X, conservaremos el alineamiento (xj , yi) que maximice la probabilidad del modelo 4 de IBM para toda posible frase yi. Esto implica an˜adir una restricci´on importante en el proceso de alineamiento, pero que no obstante nos permite definir un sistema base o inicial que tenemos previsto mejorar en el futuro mediante el c´alculo y la posterior combinaci´on de los alineamientos en ambas direcciones.

Por u´ltimo, se genera el conjunto final de alineamientos filtrados C ⊆ B, formado por aquellos alineamientos cuya puntuaci´on supere un cierto umbral α, es decir: (xj , yi) ∈ C / pIBM (xj | yi) > α (2)

El umbral α puede interpretarse como un par´ametro que afecta a la calidad de los alineamientos extra´ıdos, ya que cuanto mayor es el umbral, mayor es nuestra exigencia sobre el sistema, extray´endose en consecuencia un menor nu´mero de alineamientos. En la Secci´on 4 estudiaremos la influencia de este par´ametro en las prestaciones de nuestro sistema. 4.

Experimentaci´on

Con el objetivo de evaluar las prestaciones que ofrece nuestro m´etodo de extracci´on de corpus paralelos de la Wikipedia, hemos realizado un estudio experimental en el que se evalu´a la calidad de los pares de frases extra´ıdos autom´aticamente por nuestro sistema a partir de un conjunto de prueba que tuvimos que generar de forma manual, debido a la inexistencia de corpus adecuadamente etiquetados para esta tarea. La generaci´on de dicho conjunto, formado por pares de documentos de la Wikipedia en ingl´es y espan˜ol, es detallada en las Secciones 4.1 y 4.2.

El modelo 4 de IBM fue entrenado con MGIZA, un software basado en el popular GIZA++ que nos ofrece la posibilidad de evaluar un conjunto de prueba con los modelos ya entrenados, adem´as de que permite realizar un entrenamiento paralelo de los mismos. Con el fin de minimizar los problemas relacionados con las palabras fuera de vocabulario y generalizar el dominio del sistema, los modelos de IBM se entrenaron con un subconjunto de pares de frases, definido en (SanchisTrilles et al., 2010 ), de tres corpus de referencia en el ´area de la Traducci´on Autom´atica Estad´ıstica: Europarl-v5 (Koehn, 2005), Tabla 1: Estad´ısticas b´asicas del corpus empleado para el entrenamiento de los modelos IBM.

News-Commentary y United Nations (Rafalovitch y Dale, 2009). Las estad´ısticas de este subconjunto pueden ser consultadas en la Tabla 1. Cabe destacar la gran cantidad de pares de frases empleados para el entrenamiento de los modelos, as´ı como el considerable taman˜o de los vocabularios de cada una de las lenguas.

El resto de esta secci´on se estructura como sigue: la Secci´on 4.1 muestra el procedimiento de extracci´on de documentos y su preproceso. Posteriormente, las Secciones 4.2 y 4.3 presentan la metodolog´ıa de etiquetado y las m´etricas de evaluaci´on empleadas, respectivamente. Finalmente, la Secci´on 4.4 expone los resultados obtenidos al evaluar el conjunto de entrenamiento generado manualmente. 4.1.

Selecci´on de documentos y preproceso

La Wikipedia alberga miles de art´ıculos disponibles en ingl´es y espan˜ol, y abarcan un dominio extremadamente amplio. Por ese motivo, y con el objetivo de realizar una prueba optimista con el sistema, se realiz´o una selecci´on de pares de documentos cuyos dominios se asemejaran al dominio del corpus empleado en el entrenamiento del modelo de alineamiento. En concreto, se seleccionaron un total de 15 pares de documentos ingl´esespan˜ol relacionados con la econom´ıa y procesos administrativos de la Uni´on Europea. De dichos documentos se extrajo el texto plano, que posteriormente fue sometido a un preproceso consistente en la separaci´on de frases en l´ıneas (sentence-splitting), aislamiento de palabras y signos de puntuaci´on (tokenizing) y conversi´on a minu´sculas (lowercasing). Las estad´ısticas de dicho corpus despu´es de ser sometido a este preproceso se muestran en la Tabla 2. 4.2.

Metodolog´ıa de etiquetado

A continuaci´on se describe la metodolog´ıa seguida para generar el conjunto de evaluaTabla 2: Estad´ısticas b´asicas del conjunto de evaluaci´on construido de forma manual. Evaluaci´on En Es Idioma Nu´mero de documentos Nu´mero de frases Alineamientos posibles Taman˜o Vocabulario Nu´mero Total Palabras 15 661

341 22680 3,4K 2,8K 24,5K 16,2K ci´on etiquetado, partiendo de un conjunto de pares de documentos previamente preprocesados. Esta metodolog´ıa est´a inspirada en (Och y Ney, 2003), pero tomando alineamientos entre frases en lugar de alineamientos entre palabras.

Dos personas se encargaron de etiquetar manualmente y independientemente todo el conjunto de pares de documentos. Se les pidi´o que anotaran aquellos alineamientos, de entre todos los posibles para cada par de documentos, que guardaran una relaci´on de paralelismo.

Adicionalmente, los etiquetadores fueron instruidos para que asignaran cada uno de los alineamientos a uno de los siguientes dos conjuntos:

P : Conjunto de alineamientos probables. Definen alineamientos entre frases que conforman traducciones similares, aunque no exactas, en las que se expresa la misma idea sem´antica, o bien para indicar que un determinado alineamiento forma parte de una relaci´on 1-a-muchos o muchos-a-1.

S: Conjunto de alineamientos seguros, siendo S ⊆ P . Define alineamientos entre frases que son traducciones exactas o casi exactas (paralelas).

En este contexto, el etiquetador 1 genera los conjuntos S1 y P1, mientras que el etiquetador 2 genera S2 y P2. Entonces, los conjuntos S1, P1, e S2, P2 se combinan en S y P de la siguiente forma:

S = S1 ∩ S2

P = P1 ∪ P2

El conjunto P (que incluye S) representa los pares de frases que deber´ıan ser extra´ıdos por el sistema, y por tanto son tomados como referencia para la tarea. Para el caso concreto de este corpus, el conjunto S est´a formado por 10 alineamientos, mientras que el conjunto P engloba un total de 115 alineamientos. 4.3.

Medidas de Evaluaci´on

La evaluaci´on de la calidad del conjunto filtrado de alineamientos C obtenido de forma autom´atica mediante nuestro sistema se ha realizado mediante la m´etrica Sentence Alignment Error Rate, claramente inspirada en la presentada en (Och y Ney, 2003).

Dado un par de documentos X e Y , los conjuntos de alineamientos entre ambos documentos S y P etiquetados manualmente, y el conjunto filtrado de alineamientos C, se define la m´etrica Sentence Alignment Error Rate (SAER) como sigue:

SAER(S, P, C) = 1 − |C ∩|SC|| ++ ||CS|∩ P | (3)

Al igual que (Och y Ney, 2003), tambi´en hemos empleado las medidas de cobertura y precisi´on para obtener m´as informaci´on acerca de las prestaciones del sistema:

Cobertura = |C|S∩|S| , Precisi´on = |C|C∩|P | (4) 4.4.

Resultados

En la presente secci´on se presentan los resultados de las pruebas experimentales llevadas a cabo con nuestro sistema, utilizando el conjunto de evaluaci´on generado de forma manual. En la Secci´on 3 hemos resaltado la necesidad de estudiar la influencia del par´ametro α, puesto que radica directamente en la calidad de la frases extra´ıdas. Un valor alto para dicho umbral puede conllevar a que el sistema no sea capaz de extraer ningu´n alineamiento. Por contra, un valor pequen˜o de α se traducir´ıa en la extracci´on de un gran nu´mero de pares de frases, e idealmente en un aumento del nu´mero de alineamientos correctos (Verdaderos Positivos, V P ), aunque hay que tener en cuenta que el nu´mero de casos de Falsos Positivos (F P ), es decir, alineamientos que no existen en la referencia, aumenta generalmente en mayor proporci´on que los V P s. La clave est´a pues en encontrar un valor de α que garantice la obtenci´on de la mayor proporci´on posible de Verdaderos Positivos (V P R) y que minimice el ratio de Falsos Positivos (F P R). Ambas proporciones se calculan de la siguiente forma: 0.8 itsvo 0.7 iso 0.6 soP 0.5 r dea 0.4 d reV 0.3 0.2 0.1 0 0 0.01 0.02

Falsos Positivos

0.03 Figura 1: Curva ROC para constatar la relaci´on entre Verdaderos Positivos y Falsos positivos en funci´on del par´ametro α.

V P R = F P R =

V P P F P N = =

V P V P + F N

F P F P + V N (5) (6) donde P representa el nu´mero de muestras positivas, que es igual al nu´mero de casos de Verdaderos Positivos (V P ) m´as el nu´mero de casos de Falsos Negativos (F N ), mientras que N representa el nu´mero de muestras negativas, que es igual al nu´mero de casos de Falsos Positivos (F P ) m´as el nu´mero de casos de Verdaderos Negativos (V N ).

Con esta finalidad, hemos realizado una exploraci´on exhaustiva del par´ametro α, y posteriormente hemos dibujado una curva ROC, mostrada en la Figura 1, en la que se observa la relaci´on entre los Verdaderos Positivos (V P R, eje vertical) y los Falsos Positivos (F P R, eje horizontal) en funci´on del umbral α, cuyo valor es inversamente proporcional al desplazamiento de ambos ejes. Cabe decir que dicha exploraci´on deber´ıa de haberse llevado a cabo mediante un conjunto de desarrollo, pero debido a la ausencia del mismo tuvimos que emplear el conjunto de evaluaci´on. En el futuro planeamos ampliar dicho corpus para poder generar un conjunto de desarrollo.

De la Figura 1 cabe destacar varias cosas.

En primer lugar, la gr´afica tiene un aspecto degenerado debido a que la proporci´on relativa de Falsos Positivos nunca podr´a llegar a valer 1, puesto que est´a acotada superiormente por F P/(F P + V N ) teniendo en cuenta que F P ≤ |X| (como m´aximo se dar´an lugar tantos FPs como nu´mero de frases del documento de entrada) y que V N ≤ |X × Y | (el sistema puede llegar a descartar el conjunto de todos los posibles alineamientos), por lo que el valor del cociente ser´a muy pequen˜o.

En segundo lugar, podemos observar que para valores m´as altos del umbral α la relaci´on de Falsos Positivos llega a ser casi cero para un ratio del 0.3 de Verdaderos Positivos, mientras que para valores de α m´as pequen˜os podemos llegar a conseguir un 0.5 de VPR con un ratio del 0.02 de FPR. En t´erminos relativos, este segundo punto parece ser el o´ptimo, pero si tomamos en cuenta los valores absolutos, nos encontramos con diferencias del orden de centenares de FPs. Es por este motivo por el cual nos decantaremos por el primer de ellos, con α = 1,1 · 10−3.

En la Tabla 3 se muestran los valores de las m´etricas, presentadas en la Secci´on 4.3, tras la evaluaci´on del conjunto de prueba, adem´as de otras estad´ısticas de inter´es, para el valor del umbral que hemos considerado como ´optimo (α = 1,1·10−3) y para dos casos extremos, con el objetivo de apreciar m´as notoriamente la influencia de dicho par´ametro en las prestaciones del sistema. La primera fila muestra el taman˜o del conjunto de alineamientos filtrados C, mientras que las cuatro filas siguientes muestran el nu´mero de muestras clasificadas como Verdaderos Positivos (V P ), Verdaderos Negativos (V N ), Falsos Positivos (F P ) y Falsos Negativos (F N ). Por u´ltimo, se muestran los valores de las tres m´etricas empleadas para evaluar las prestaciones del sistema: cobertura, precisi´on y SAER.

En ella se puede ver como, a pesar de la simplicidad de nuestro planteamiento, se obtienen unos resultados bastante aceptables para el valor ´optimo de α, con una tasa del 0.36 de error de alineamiento, un 0.59 de grado de precisi´on, y sobretodo un 0.9 de cobertura, aunque cabe decir que esta u´ltima no es una medida fiable dado que en el corpus s´olo existen 10 alineamientos etiquetados como seguros. A continuaci´on se muestran algunos ejemplos de los pares de frases extra´ıdos por nuestro sistema: Tabla 3: Resultados del sistema para el conjunto de test generado manualmente, con α = {1 · 10−4, 1,1 · 10−3, 5 · 10−2}.

|C| V P V N F P F N Cobertura Precisi´on SAER

En: He added that the decisive factor would be the future and the size of the eurozone, especially whether Denmark, Sweden and the UK would have adopted the euro or not.

Es: An˜adi´o que el factor decisivo ser´a el futuro y el taman˜o de la zona del euro, especialmente si Dinamarca, Suecia y el

Reino Unido se unen al euro o no.

En: Montenegro officially applied to join the

EU on 15 december 2008.

Es: Oficialmente, Montenegro pidi´o el acceso

a la UE el 15 de diciembre de 2008.

Si observamos nuevamente la Tabla 3 y nos fijamos en las diferencias existentes entre el caso ´optimo y los casos extremos, se pueden extraer algunas conclusiones interesantes. Para α = 1 · 10−4 no se filtra ningu´n alineamiento, esto es, C = B, y por tanto nos damos cuenta que nuestro sistema nunca ser´a capaz de encontrar 57 alineamientos que s´ı est´an en la referencia. Para evitar esta severa limitaci´on tenemos previsto obtener los alineamientos entre frases en ambos sentidos (X a Y , e Y a X), y posteriormente aplicar un algoritmo heur´ıstico inspirado en (Och y Ney, 2003) que los combine, partiendo de la intersecci´on entre ambos alineamientos y an˜adiendo alineamientos adicionales. Esto nos llevar´a, en primer lugar, a obtener alineamientos m´as robustos, y en segundo lugar, a capturar relaciones entre frases de muchas-a1, 1-a-muchas, e incluso muchas-a-muchas. 5.

Conclusiones y Trabajo Futuro

En este trabajo hemos presentado una aproximaci´on heur´ıstica alternativa a las ya existentes para la extracci´on autom´atica de corpus paralelos a partir de los contenidos multilingu¨es comparables que ofrece la Wikipedia. La evaluaci´on experimental ha mostrado unos resultados francamente prometedores para nuestro sistema inicial. Como extensi´on de este trabajo planeamos obtener de forma heur´ıstica los alineamientos entre frases en ambas direcciones con el objetivo de mejorar la calidad del sistema, una mejora que creemos que ser´a sustancial. Otra alternativa de cara al futuro ser´ıa emplear la variante del modelo 1 de IBM presentada en (Gonz´alez-Rubio et al., 2008) en esta tarea, ya que nos permitir´ıa obtener los alineamientos bidireccionales de forma no heur´ıstica mediante un entrenamiento ExpectationMaximization (Dempster, Laird, y Rubin, 1977). Con la implementaci´on de estas mejoras, realizaremos un estudio comparativo de nuestro sistema con otros sistemas del estado del arte.

Cabe destacar, adem´as, que en este trabajo hemos adaptado una metodolog´ıa existente para la evaluaci´on de alineamientos a nivel de frase. Para ello, hemos definido una metodolog´ıa de etiquetado adecuada para generar un conjunto de evaluaci´on, as´ı como una serie de m´etricas para cuantificar las prestaciones del sistema. Como trabajo futuro pretendemos aumentar el taman˜o del corpus y el nu´mero de anotadores, con el fin de hacer m´as robusto el proceso de etiquetado manual de los alineamientos.

Bibliograf´ıa

Adafre, S. F. y M. de Rijke. 2006. Finding Similar Sentences across Multiple Languages in Wikipedia. Proceedings of the 11th Conference of the European Chapter of the Association for Computational Linguistics, p´aginas 62–69.

Barzilay, Regina y Noemie Elhadad. 2003.

Sentence Alignment for Monolingual Comparable Corpora. En Proceedings of the 2003 conference on Empirical methods in natural language processing, EMNLP ’03, p´aginas 25–32, Stroudsburg, PA, USA. Association for Computational Linguistics.

Brown, P. F. y others. 1993. The Mathematics of Statistical Machine Translation: Parameter Estimation. Computational Linguistics, 19(2):263–311.

Brown, Peter F., Jennifer C. Lai, y Robert L.

Mercer. 1991. Aligning Sentences in Parallel Corpora. En Proceedings of the 29th annual meeting on Association for Computational Linguistics, ACL ’91, p´aginas 169–176, Stroudsburg, PA, USA. Association for Computational Linguistics. Chen, Stanley F. 1993. Aligning Sentences in Bilingual Corpora Using Lexical Information. En Proceedings of the 31st annual meeting on Association for Computational Linguistics, ACL ’93, p´aginas 9– 16, Stroudsburg, PA, USA. Association for Computational Linguistics.

Dempster, A. P., N. M. Laird, y D. B. Rubin. 1977. Maximum Likelihood from Incomplete Data via the EM Algorithm. J. Roy.

Statistical Society. Series B, 39(1):1–38. Eisele, Andreas y Jia Xu. 2010. Improving Machine Translation Performance using Comparable Corpora. En Proceedings of the 3rd Workshop on Building and Using Comparable Corpora LREC 2010, p´aginas 35–41. ELRA.

Gale, William A. y Kenneth W. Church. 1991. A Program for Aligning Sentences in Bilingual Corpora. En Proceedings of the 29th annual meeting on Association for Computational Linguistics, ACL ’91, p´aginas 177–184, Stroudsburg, PA, USA. Association for Computational Linguistics.

Gonz´alez-Rubio, Jesu´s, Germ´an SanchisTrilles, Alfons Juan, y Francisco Casacuberta. 2008. A Novel Alignment Model Inspired on IBM Model 1. En Proceedings of the 12th conference of the European Association for Machine Translation, p´aginas 47–56.

Koehn, P. 2005. Europarl: A Parallel Corpus for Statistical Machine Translation. En Proc. of the MT Summit X, p´aginas 79– 86, September.

Mohammadi, M. y N. GhasemAghaee. 2010.

Building Bilingual Parallel Corpora Based on Wikipedia. En Computer Engineering and Applications (ICCEA), 2010 Second International Conference on, volumen 2, p´aginas 264 –268, march.

Moore, Robert C. 2002. Fast and Accurate Sentence Alignment of Bilingual Corpora. En Proceedings of the 5th Conference of the Association for Machine Translation in the Americas on Machine Translation: From Research to Real Users, AMTA ’02, p´aginas 135–144, London, UK, UK.

Springer-Verlag.

Och, Franz Josef y Hermann Ney. 2003. A Systematic Comparison of Various Statistical Alignment Models. Computational Linguistics, 29:19–51, March.

Quirk, Chris, Chris Brockett, y William Dolan. 2004. Monolingual Machine Translation for Paraphrase Generation. En Proceedings of the 2004 Conference on Empirical Methods in Natural Language Processing, p´aginas 142–149.

Rafalovitch, Alexandre y Robert Dale. 2009.

United Nations General Assembly Resolutions: A Six-Language Parallel Corpus. Sanchis-Trilles, Germ´an, Jesu´s Andr´esFerrer, Guillem Gasc´o, Jesu´s Gonz´alezRubio, Pascual Mart´ınez-G´omez, MarthaAlicia Rocha, Joan-Andreu S´anchez, y Francisco Casacuberta. 2010. UPVPRHLT English–Spanish System for WMT10. En Proceedings of the Joint Fifth Workshop on Statistical Machine Translation and Metrics MATR, p´aginas

En: On 20 april 2005 , the European Commission adopted the communication on Kosovo to the council “a european futuSmith , Jason

, Chris Quirk, y Kristina Toutanova . 2010 . Extracting Parallel Sentences from Comparable Corpora using Document Level Alignment. En Human Language Technologies: The 2010 Annual Conference of the North American Chapter of the Association for Computational Linguistics , HLT ' 10 , p´aginas 403- 411, Stroudsburg, PA, USA. Association for Computational Linguistics.

Tom´as, Jesu´s, Jordi Bataller , Francisco Casacuberta, y Jaime Lloret. 2008 . Mining Wikipedia as a Parallel and Comparable Corpus . LANGUAGE FORUM , 34 ( 1 ). Article presented at CICLing-2008, 9th International Conference on Intelligent Text Processing and Computational Linguistics, February 17 to 23, 2008 , Haifa, Israel.

Uszkoreit , Jakob, Jay M.

Ponte , Ashok C. Popat, y Moshe Dubiner. 2010 . Large Scale Parallel Document Mining for Machine Translation . En Proceedings of the 23rd International Conference on Computational Linguistics, COLING '10 , p´aginas 1101-1109, Stroudsburg, PA, USA. Association for Computational Linguistics.

Varga , D´aniel, L´aszl´o N´emeth, P´eter Hal´acsy, Andr´as Kornai, Viktor Tr´on, y Viktor Nagy. 2005 . Parallel Corpora for Medium Density Languages . En Proceedings of the RANLP 2005 , p´aginas 590- 596 .

Yasuda , Keiji y Eiichiro Sumita. 2008 . Method for Building Sentence-Aligned Corpus from Wikipedia . En Proceedings of the 33th AAAI workshop on Artificial Intelligence (AAAI-08).