Proceedings of the Workshop on Iberian Cross-Language Natural Language Processing Tasks (ICL 2011) Extracción de corpus paralelos de la Wikipedia basada en la obtención de alineamientos bilingües a nivel de frase∗ Extracting Parallel Corpora from Wikipedia on the basis of Phrase Level Bilingual Alignment Joan Albert Silvestre-Cerdà, Mercedes Garcı́a-Martı́nez, Alberto Barrón-Cedeño, Jorge Civera y Paolo Rosso Departament de Sistemes Informàtics i Computació Universitat Politècnica de València mgarcia@iti.upv.es,{jsilvestre,lbarron,jcivera,prosso}@dsic.upv.es Resumen: Este artı́culo presenta una nueva técnica de extracción de corpus para- lelos de la Wikipedia mediante la aplicación de técnicas de traducción automática estadı́stica. En concreto, se han utilizado los modelos de alineamiento basados en palabras de IBM para obtener alineamientos bilingües a nivel de frase entre pares de documentos. Para su evaluación se ha generado manualmente un conjunto de test formado por pares de documentos inglés-español, obteniéndose resultados promete- dores. Palabras clave: corpus comparables, extracción de oraciones paralelas, traducción automática estadı́stica Abstract: This paper presents a proposal for extracting parallel corpora from Wi- kipedia on the basis of statistical machine translation techniques. We have used word-level alignment models from IBM in order to obtain phrase-level bilingual alignments between documents pairs. We have manually annotated a set of test English-Spanish comparable documents in order to evaluate the model. The obtai- ned results are encouraging. Keywords: comparable corpora, parallel sentences extraction, statistical machine translation 1. Introducción fuente inmensa de documentos en múltiples lenguas que tiene muchas posibilidades de ex- La extracción automática de corpus pa- plotación. No obstante, encontrar frases pa- ralelos a partir de recursos textuales multi- ralelas a nivel global en la web es una tarea lingües es, hoy por hoy, una tarea de especial muy dispersa y extremadamente difı́cil, aun- interés debido al creciente auge de la traduc- que no imposible (Uszkoreit et al., 2010). ción automática estadı́stica. La web es una La Wikipedia es uno de los pocos recur- ∗ Este trabajo se ha llevado a cabo en el marco del sos web que nos provee de forma explı́cita VLC/CAMPUS Microcluster on Multimodal Interac- gran cantidad de textos multilingües compa- tion in Intelligent Systems, financiado parcialmente rables, pues sus contenidos se presentan como por parte de la EC (FEDER/FSE; WIQEI IRSES artı́culos en múltiples idiomas que describen no. 269180 / FP 7 Marie Curie People), por el MI- CINN como parte del proyecto Text-Enterprise 2.0 un mismo concepto. El objetivo es, pues, ex- (TIN2009-13391-C04-03) en el Plan I+D+i, y por plotar los contenidos comparables de dichos la beca 192021 del CONACyT. También ha recibi- documentos con la finalidad de extraer fra- do apoyo por parte del EC (FEDER/FSE) y del ses paralelas que puedan ser utilizadas en el MEC/MICINN bajo el programa MIPRCV “Conso- lider Ingenio 2010” (CSD2007-00018) y el proyecto entrenamiento de sistemas de traducción au- iTrans2 (TIN2009-14511), por el MITyC en el mar- tomática. co del proyecto erudito.com (TSI-020110-2009-439), En este trabajo se propone una aproxima- por la Generalitat Valenciana con las ayudas Pro- meteo/2009/014 y GV/2010/067, y por el “Vicerrec- ción heurı́stica a la extracción de corpus pa- torado de Investigación de la UPV” con la ayuda ralelos de la Wikipedia basada en técnicas de 20091027. Traducción Automática Estadı́stica (TAE). 14 Proceedings of the Workshop on Iberian Cross-Language Natural Language Processing Tasks (ICL 2011) En la siguiente sección analizaremos los tra- neamientos en recursos comparables como la bajos previos que han servido de inspiración a Wikipedia, y es precisamente este vacı́o ex- este trabajo. Posteriormente, en la Sección 3 perimental el que se pretende cubrir en este se describe ampliamente el sistema propues- trabajo. to. La Sección 4 muestra los resultados expe- rimentales y finalmente, una serie de conclu- 3. Descripción del sistema siones son expuestas en la Sección 5. Para la tarea de extracción de cor- pus paralelos de la Wikipedia considera- 2. Trabajos relacionados remos pares de documentos de Wikipedia Debido a su creciente necesidad e impor- X = (x1 , . . . , xj , . . . , x|X| ) ∈ X ∗ e Y = tancia, la extracción automática de corpus (y1 , . . . , yi , . . . , y|Y | ) ∈ Y ∗ que representen un paralelos es una tarea bastante explorada en mismo concepto, siendo xj la j-ésima frase la actualidad, aunque los primeros trabajos del documento X, yi la i-ésima frase del do- se realizaron hace ya más de dos décadas cumento Y , y X e Y los vocabularios de los (Brown, Lai, y Mercer, 1991; Gale y Church, lenguajes en los que se encuentran los respec- 1991), si bien éstos se ceñı́an a encontrar ali- tivos documentos. Definimos (xj , yi ) como un neamientos entre frases en textos paralelos. alineamiento entre la j-ésima frase del docu- Estos trabajos proponen métodos de alinea- mento X y la i-ésima frase del documento Y , miento muy rápidos pero poco precisos, pues y A un conjunto finito de alineamientos. para detectar relaciones entre frases utiliza- Inicialmente asumiremos que A = (X × ban únicamente la información de longitud Y ), es decir, el conjunto A contiene todo ali- de las oraciones. Posteriormente, Chen pro- neamiento posible entre las frases de X y puso utilizar información léxica mediante un de Y . La probabilidad de cada alineamien- sencillo modelo de traducción estadı́stico ba- to (xj , yi ) ∈ A se calcula de acuerdo con el sado en palabras, demostrando una mejora modelo 4 de IBM (Brown y others, 1993), significativa de la calidad de los alineamien- que es un modelo de alineamiento a nivel de tos extraı́dos (Chen, 1993), y unos años más palabra ampliamente utilizado en Traducción tarde, Moore combinó ambas aproximaciones Automática Estadı́stica. Un alineamiento re- (Moore, 2002). Más recientemente, González cibirá una probabilidad alta si el grado de co- propuso un modelo de alineamiento entre fra- ocurrencia de las palabras que componen las ses y palabras inspirado en el modelo 1 de frases es alto, pero por contra recibirá una IBM (González-Rubio et al., 2008). probabilidad baja si las palabras involucra- das tienen poca o ninguna correlación. Cabe Con el problema de alinear frases en textos decir que las puntuaciones otorgadas por los paralelos bien estudiado, y ante la crecien- modelos de IBM provienen de una serie de te demanda de corpus paralelos para TAE, productos de probabilidades, tantos como el los principales esfuerzos se centraron en la número de palabras que conforman la frase extracción de corpus paralelos (Eisele y Xu, de destino yi , por lo que dicha puntuación 2010; Uszkoreit et al., 2010; Varga et al., debe ser normalizada convenientemente para 2005), en incluso monolingües (Barzilay y que no sea dependiente de la longitud. De no Elhadad, 2003; Quirk, Brockett, y Dolan, ser ası́, los alineamientos con frases destino yi 2004), a partir de la web. En éste ámbi- de menor número de palabras tenderı́an a ser to, la Wikipedia ha sido un recurso bastante más probables, pudiendo darse casos de ali- explotado, presentándose una gran variedad neamientos (xj , yi ) con altos valores de pro- de aproximaciones, desde métodos heurı́sti- babilidad con |xj | = 8 e |yi | = 1, por ejemplo. cos (Adafre y de Rijke, 2006; Mohammadi Una vez se han evaluado todos los alinea- y GhasemAghaee, 2010) hasta aproximacio- mientos del conjunto A, se obtiene el conjun- nes basadas en clasificación estadı́stica utili- to de alineamientos más probables B ⊆ A zando combinaciones lineales de caracterı́sti- mediante la siguiente maximización: cas (Smith, Quirk, y Toutanova, 2010; Tomás et al., 2008). También se han llevado a cabo algunos trabajos en la vertiente monolingüe (xj , yi ) ∈ B / pIBM (xj | yi ) > pIBM (xj | yi′ ) (1) (Yasuda y Sumita, 2008). Ahora bien, nin- ∀i′ = 1 . . . |Y | ∀j = 1 . . . |X| guno de los trabajos previos ha explorado la utilización de modelos de traducción es- Es decir, para cada frase xj del documen- tadı́sticos como sistemas de evaluación de ali- to X, conservaremos el alineamiento (xj , yi ) 15 Proceedings of the Workshop on Iberian Cross-Language Natural Language Processing Tasks (ICL 2011) que maximice la probabilidad del modelo 4 Tabla 1: Estadı́sticas básicas del corpus em- de IBM para toda posible frase yi . Esto im- pleado para el entrenamiento de los modelos plica añadir una restricción importante en el IBM. proceso de alineamiento, pero que no obstan- Entrenamiento te nos permite definir un sistema base o ini- Idioma En Es cial que tenemos previsto mejorar en el futuro Número de frases 2.8M mediante el cálculo y la posterior combina- Tamaño Vocabulario 118K 164K ción de los alineamientos en ambas direccio- Número Total Palabras 54M 58M nes. Por último, se genera el conjunto final de alineamientos filtrados C ⊆ B, formado por aquellos alineamientos cuya puntuación su- News-Commentary y United Nations (Rafa- pere un cierto umbral α, es decir: lovitch y Dale, 2009). Las estadı́sticas de este subconjunto pueden ser consultadas en la Ta- bla 1. Cabe destacar la gran cantidad de pa- (xj , yi ) ∈ C / pIBM (xj | yi ) > α (2) res de frases empleados para el entrenamiento de los modelos, ası́ como el considerable ta- El umbral α puede interpretarse como un maño de los vocabularios de cada una de las parámetro que afecta a la calidad de los ali- lenguas. neamientos extraı́dos, ya que cuanto mayor El resto de esta sección se estructura como es el umbral, mayor es nuestra exigencia so- sigue: la Sección 4.1 muestra el procedimien- bre el sistema, extrayéndose en consecuen- to de extracción de documentos y su prepro- cia un menor número de alineamientos. En ceso. Posteriormente, las Secciones 4.2 y 4.3 la Sección 4 estudiaremos la influencia de es- presentan la metodologı́a de etiquetado y las te parámetro en las prestaciones de nuestro métricas de evaluación empleadas, respecti- sistema. vamente. Finalmente, la Sección 4.4 expone los resultados obtenidos al evaluar el conjun- 4. Experimentación to de entrenamiento generado manualmente. Con el objetivo de evaluar las prestacio- 4.1. Selección de documentos y nes que ofrece nuestro método de extracción preproceso de corpus paralelos de la Wikipedia, hemos La Wikipedia alberga miles de artı́culos realizado un estudio experimental en el que disponibles en inglés y español, y abarcan se evalúa la calidad de los pares de frases ex- un dominio extremadamente amplio. Por ese traı́dos automáticamente por nuestro sistema motivo, y con el objetivo de realizar una prue- a partir de un conjunto de prueba que tuvi- ba optimista con el sistema, se realizó una mos que generar de forma manual, debido a selección de pares de documentos cuyos do- la inexistencia de corpus adecuadamente eti- minios se asemejaran al dominio del corpus quetados para esta tarea. La generación de empleado en el entrenamiento del modelo de dicho conjunto, formado por pares de docu- alineamiento. En concreto, se seleccionaron mentos de la Wikipedia en inglés y español, un total de 15 pares de documentos inglés- es detallada en las Secciones 4.1 y 4.2. español relacionados con la economı́a y proce- El modelo 4 de IBM fue entrenado con sos administrativos de la Unión Europea. De MGIZA, un software basado en el popular dichos documentos se extrajo el texto plano, GIZA++ que nos ofrece la posibilidad de eva- que posteriormente fue sometido a un pre- luar un conjunto de prueba con los modelos proceso consistente en la separación de frases ya entrenados, además de que permite reali- en lı́neas (sentence-splitting), aislamiento de zar un entrenamiento paralelo de los mismos. palabras y signos de puntuación (tokenizing) Con el fin de minimizar los problemas relacio- y conversión a minúsculas (lowercasing). Las nados con las palabras fuera de vocabulario y estadı́sticas de dicho corpus después de ser generalizar el dominio del sistema, los mode- sometido a este preproceso se muestran en la los de IBM se entrenaron con un subconjun- Tabla 2. to de pares de frases, definido en (Sanchis- Trilles et al., 2010), de tres corpus de refe- 4.2. Metodologı́a de etiquetado rencia en el área de la Traducción Automáti- A continuación se describe la metodologı́a ca Estadı́stica: Europarl-v5 (Koehn, 2005), seguida para generar el conjunto de evalua- 16 Proceedings of the Workshop on Iberian Cross-Language Natural Language Processing Tasks (ICL 2011) por el sistema, y por tanto son tomados como Tabla 2: Estadı́sticas básicas del conjunto de referencia para la tarea. Para el caso concre- evaluación construido de forma manual. Evaluación to de este corpus, el conjunto S está formado Idioma En Es por 10 alineamientos, mientras que el conjun- Número de documentos 15 to P engloba un total de 115 alineamientos. Número de frases 661 341 4.3. Medidas de Evaluación Alineamientos posibles 22680 La evaluación de la calidad del conjun- Tamaño Vocabulario 3,4K 2,8K to filtrado de alineamientos C obtenido de Número Total Palabras 24,5K 16,2K forma automática mediante nuestro sistema se ha realizado mediante la métrica Sentence Alignment Error Rate, claramente inspirada ción etiquetado, partiendo de un conjunto en la presentada en (Och y Ney, 2003). de pares de documentos previamente prepro- Dado un par de documentos X e Y , los cesados. Esta metodologı́a está inspirada en conjuntos de alineamientos entre ambos do- (Och y Ney, 2003), pero tomando alineamien- cumentos S y P etiquetados manualmente, tos entre frases en lugar de alineamientos en- y el conjunto filtrado de alineamientos C, se tre palabras. define la métrica Sentence Alignment Error Dos personas se encargaron de etiquetar Rate (SAER) como sigue: manualmente y independientemente todo el conjunto de pares de documentos. Se les pi- SAER(S, P, C) = 1 − |C ∩ S| + |C ∩ P | (3) dió que anotaran aquellos alineamientos, de |C| + |S| entre todos los posibles para cada par de do- Al igual que (Och y Ney, 2003), también cumentos, que guardaran una relación de pa- hemos empleado las medidas de cobertura y ralelismo. precisión para obtener más información acer- Adicionalmente, los etiquetadores fueron ca de las prestaciones del sistema: instruidos para que asignaran cada uno de los alineamientos a uno de los siguientes dos |C ∩ S| |C ∩ P | Cobertura = , Precisión = (4) conjuntos: |S| |C| 4.4. Resultados P : Conjunto de alineamientos probables. Definen alineamientos entre frases que En la presente sección se presentan los re- conforman traducciones similares, aun- sultados de las pruebas experimentales lleva- que no exactas, en las que se expresa la das a cabo con nuestro sistema, utilizando misma idea semántica, o bien para in- el conjunto de evaluación generado de for- dicar que un determinado alineamiento ma manual. En la Sección 3 hemos resalta- forma parte de una relación 1-a-muchos do la necesidad de estudiar la influencia del o muchos-a-1. parámetro α, puesto que radica directamente en la calidad de la frases extraı́das. Un valor S: Conjunto de alineamientos seguros, alto para dicho umbral puede conllevar a que siendo S ⊆ P . Define alineamientos en- el sistema no sea capaz de extraer ningún ali- tre frases que son traducciones exactas o neamiento. Por contra, un valor pequeño de casi exactas (paralelas). α se traducirı́a en la extracción de un gran número de pares de frases, e idealmente en En este contexto, el etiquetador 1 genera un aumento del número de alineamientos co- los conjuntos S1 y P1 , mientras que el etique- rrectos (Verdaderos Positivos, V P ), aunque tador 2 genera S2 y P2 . Entonces, los conjun- hay que tener en cuenta que el número de tos S1 , P1 , e S2 , P2 se combinan en S y P de casos de Falsos Positivos (F P ), es decir, ali- la siguiente forma: neamientos que no existen en la referencia, aumenta generalmente en mayor proporción que los V P s. La clave está pues en encontrar S = S1 ∩ S2 un valor de α que garantice la obtención de P = P1 ∪ P2 la mayor proporción posible de Verdaderos Positivos (V P R) y que minimice el ratio de El conjunto P (que incluye S) representa Falsos Positivos (F P R). Ambas proporciones los pares de frases que deberı́an ser extraı́dos se calculan de la siguiente forma: 17 Proceedings of the Workshop on Iberian Cross-Language Natural Language Processing Tasks (ICL 2011) 1 valer 1, puesto que está acotada superiormen- 0.9 te por F P/(F P + V N ) teniendo en cuenta que F P ≤ |X| (como máximo se darán lugar 0.8 tantos FPs como número de frases del docu- Verdaderos Positivos 0.7 mento de entrada) y que V N ≤ |X × Y | (el 0.6 sistema puede llegar a descartar el conjunto 0.5 de todos los posibles alineamientos), por lo 0.4 que el valor del cociente será muy pequeño. 0.3 En segundo lugar, podemos observar que pa- 0.2 ra valores más altos del umbral α la relación de Falsos Positivos llega a ser casi cero pa- 0.1 ra un ratio del 0.3 de Verdaderos Positivos, 0 mientras que para valores de α más pequeños 0 0.01 0.02 0.03 Falsos Positivos podemos llegar a conseguir un 0.5 de VPR con un ratio del 0.02 de FPR. En términos relativos, este segundo punto parece ser el Figura 1: Curva ROC para constatar la rela- óptimo, pero si tomamos en cuenta los va- ción entre Verdaderos Positivos y Falsos po- lores absolutos, nos encontramos con diferen- sitivos en función del parámetro α. cias del orden de centenares de FPs. Es por este motivo por el cual nos decantaremos por el primer de ellos, con α = 1,1 · 10−3 . En la Tabla 3 se muestran los valores de las VP VP métricas, presentadas en la Sección 4.3, tras V PR = = (5) la evaluación del conjunto de prueba, además P V P + FN FP FP de otras estadı́sticas de interés, para el valor FPR = = (6) del umbral que hemos considerado como ópti- N FP + V N mo (α = 1,1·10−3 ) y para dos casos extremos, donde P representa el número de mues- con el objetivo de apreciar más notoriamente tras positivas, que es igual al número de casos la influencia de dicho parámetro en las pres- de Verdaderos Positivos (V P ) más el número taciones del sistema. La primera fila mues- de casos de Falsos Negativos (F N ), mientras tra el tamaño del conjunto de alineamien- que N representa el número de muestras ne- tos filtrados C, mientras que las cuatro filas gativas, que es igual al número de casos de siguientes muestran el número de muestras Falsos Positivos (F P ) más el número de ca- clasificadas como Verdaderos Positivos (V P ), sos de Verdaderos Negativos (V N ). Verdaderos Negativos (V N ), Falsos Positivos Con esta finalidad, hemos realizado una (F P ) y Falsos Negativos (F N ). Por último, exploración exhaustiva del parámetro α, y se muestran los valores de las tres métricas posteriormente hemos dibujado una curva empleadas para evaluar las prestaciones del ROC, mostrada en la Figura 1, en la que se sistema: cobertura, precisión y SAER. observa la relación entre los Verdaderos Po- En ella se puede ver como, a pesar de sitivos (V P R, eje vertical) y los Falsos Po- la simplicidad de nuestro planteamiento, se sitivos (F P R, eje horizontal) en función del obtienen unos resultados bastante aceptables umbral α, cuyo valor es inversamente propor- para el valor óptimo de α, con una tasa del cional al desplazamiento de ambos ejes. Cabe 0.36 de error de alineamiento, un 0.59 de gra- decir que dicha exploración deberı́a de ha- do de precisión, y sobretodo un 0.9 de cober- berse llevado a cabo mediante un conjunto tura, aunque cabe decir que esta última no de desarrollo, pero debido a la ausencia del es una medida fiable dado que en el corpus mismo tuvimos que emplear el conjunto de sólo existen 10 alineamientos etiquetados co- evaluación. En el futuro planeamos ampliar mo seguros. A continuación se muestran algu- dicho corpus para poder generar un conjunto nos ejemplos de los pares de frases extraı́dos de desarrollo. por nuestro sistema: De la Figura 1 cabe destacar varias cosas. En primer lugar, la gráfica tiene un aspecto En: On 20 april 2005, the European Com- degenerado debido a que la proporción rela- mission adopted the communication on tiva de Falsos Positivos nunca podrá llegar a Kosovo to the council “a european futu- 18 Proceedings of the Workshop on Iberian Cross-Language Natural Language Processing Tasks (ICL 2011) Tabla 3: Resultados del sistema para el conjunto de test generado manualmente, con α = {1 · 10−4 , 1,1 · 10−3 , 5 · 10−2 }. α = 1 · 10−4 α = 1,1 · 10−3 α = 5 · 10−2 |C| 656 59 4 VP 58 35 2 VN 21967 22541 22563 FP 598 24 2 FN 57 80 113 Cobertura 1,00 0,90 0,1 Precisión 0,09 0,59 0,50 SAER 0,90 0,36 0,79 re for Kosovo” which reinforces the com- (Och y Ney, 2003) que los combine, partiendo mission’s commitment to Kosovo. de la intersección entre ambos alineamientos y añadiendo alineamientos adicionales. Esto Es: El 20 de abril de 2005, la Comisión Euro- nos llevará, en primer lugar, a obtener alinea- pea adoptó la comunicación sobre koso- mientos más robustos, y en segundo lugar, a vo en el consejo “un futuro europeo para capturar relaciones entre frases de muchas-a- Kosovo” que refuerza el compromiso de 1, 1-a-muchas, e incluso muchas-a-muchas. la comisión con Kosovo. 5. Conclusiones y Trabajo Futuro En este trabajo hemos presentado una En: He added that the decisive factor would aproximación heurı́stica alternativa a las ya be the future and the size of the eurozo- existentes para la extracción automática de ne, especially whether Denmark, Sweden corpus paralelos a partir de los contenidos and the UK would have adopted the euro multilingües comparables que ofrece la Wi- or not. kipedia. La evaluación experimental ha mos- trado unos resultados francamente promete- Es: Añadió que el factor decisivo será el fu- dores para nuestro sistema inicial. Como ex- turo y el tamaño de la zona del euro, tensión de este trabajo planeamos obtener especialmente si Dinamarca, Suecia y el de forma heurı́stica los alineamientos entre Reino Unido se unen al euro o no. frases en ambas direcciones con el objetivo de mejorar la calidad del sistema, una me- jora que creemos que será sustancial. Otra En: Montenegro officially applied to join the alternativa de cara al futuro serı́a emplear EU on 15 december 2008. la variante del modelo 1 de IBM presentada en (González-Rubio et al., 2008) en esta ta- Es: Oficialmente, Montenegro pidió el acceso rea, ya que nos permitirı́a obtener los alinea- a la UE el 15 de diciembre de 2008. mientos bidireccionales de forma no heurı́sti- ca mediante un entrenamiento Expectation- Si observamos nuevamente la Tabla 3 y Maximization (Dempster, Laird, y Rubin, nos fijamos en las diferencias existentes en- 1977). Con la implementación de estas mejo- tre el caso óptimo y los casos extremos, se ras, realizaremos un estudio comparativo de pueden extraer algunas conclusiones intere- nuestro sistema con otros sistemas del estado santes. Para α = 1 · 10−4 no se filtra ningún del arte. alineamiento, esto es, C = B, y por tanto Cabe destacar, además, que en este traba- nos damos cuenta que nuestro sistema nun- jo hemos adaptado una metodologı́a existente ca será capaz de encontrar 57 alineamientos para la evaluación de alineamientos a nivel que sı́ están en la referencia. Para evitar es- de frase. Para ello, hemos definido una me- ta severa limitación tenemos previsto obtener todologı́a de etiquetado adecuada para gene- los alineamientos entre frases en ambos sen- rar un conjunto de evaluación, ası́ como una tidos (X a Y , e Y a X), y posteriormente serie de métricas para cuantificar las presta- aplicar un algoritmo heurı́stico inspirado en ciones del sistema. Como trabajo futuro pre- 19 Proceedings of the Workshop on Iberian Cross-Language Natural Language Processing Tasks (ICL 2011) tendemos aumentar el tamaño del corpus y of the 29th annual meeting on Associa- el número de anotadores, con el fin de hacer tion for Computational Linguistics, ACL más robusto el proceso de etiquetado manual ’91, páginas 177–184, Stroudsburg, PA, de los alineamientos. USA. Association for Computational Lin- guistics. Bibliografı́a González-Rubio, Jesús, Germán Sanchis- Adafre, S. F. y M. de Rijke. 2006. Finding Trilles, Alfons Juan, y Francisco Casacu- Similar Sentences across Multiple Langua- berta. 2008. A Novel Alignment Model ges in Wikipedia. Proceedings of the 11th Inspired on IBM Model 1. En Proceedings Conference of the European Chapter of of the 12th conference of the European As- the Association for Computational Lin- sociation for Machine Translation, pági- guistics, páginas 62–69. nas 47–56. Barzilay, Regina y Noemie Elhadad. 2003. Koehn, P. 2005. Europarl: A Parallel Corpus Sentence Alignment for Monolingual for Statistical Machine Translation. En Comparable Corpora. En Proceedings Proc. of the MT Summit X, páginas 79– of the 2003 conference on Empirical 86, September. methods in natural language processing, Mohammadi, M. y N. GhasemAghaee. 2010. EMNLP ’03, páginas 25–32, Stroudsburg, Building Bilingual Parallel Corpora Based PA, USA. Association for Computational on Wikipedia. En Computer Engineering Linguistics. and Applications (ICCEA), 2010 Second Brown, P. F. y others. 1993. The Mat- International Conference on, volumen 2, hematics of Statistical Machine Transla- páginas 264 –268, march. tion: Parameter Estimation. Computatio- Moore, Robert C. 2002. Fast and Accura- nal Linguistics, 19(2):263–311. te Sentence Alignment of Bilingual Corpo- Brown, Peter F., Jennifer C. Lai, y Robert L. ra. En Proceedings of the 5th Conference Mercer. 1991. Aligning Sentences in Pa- of the Association for Machine Transla- rallel Corpora. En Proceedings of the tion in the Americas on Machine Transla- 29th annual meeting on Association for tion: From Research to Real Users, AMTA Computational Linguistics, ACL ’91, pági- ’02, páginas 135–144, London, UK, UK. nas 169–176, Stroudsburg, PA, USA. As- Springer-Verlag. sociation for Computational Linguistics. Och, Franz Josef y Hermann Ney. 2003. A Systematic Comparison of Various Statis- Chen, Stanley F. 1993. Aligning Sentences tical Alignment Models. Computational in Bilingual Corpora Using Lexical Infor- Linguistics, 29:19–51, March. mation. En Proceedings of the 31st an- nual meeting on Association for Compu- Quirk, Chris, Chris Brockett, y William Do- tational Linguistics, ACL ’93, páginas 9– lan. 2004. Monolingual Machine Transla- 16, Stroudsburg, PA, USA. Association for tion for Paraphrase Generation. En Pro- Computational Linguistics. ceedings of the 2004 Conference on Em- pirical Methods in Natural Language Pro- Dempster, A. P., N. M. Laird, y D. B. Rubin. cessing, páginas 142–149. 1977. Maximum Likelihood from Incom- plete Data via the EM Algorithm. J. Roy. Rafalovitch, Alexandre y Robert Dale. 2009. Statistical Society. Series B, 39(1):1–38. United Nations General Assembly Resolu- tions: A Six-Language Parallel Corpus. Eisele, Andreas y Jia Xu. 2010. Improving Machine Translation Performance using Sanchis-Trilles, Germán, Jesús Andrés- Comparable Corpora. En Proceedings of Ferrer, Guillem Gascó, Jesús González- the 3rd Workshop on Building and Using Rubio, Pascual Martı́nez-Gómez, Martha- Comparable Corpora LREC 2010, páginas Alicia Rocha, Joan-Andreu Sánchez, y 35–41. ELRA. Francisco Casacuberta. 2010. UPV- PRHLT English–Spanish System for Gale, William A. y Kenneth W. Church. WMT10. En Proceedings of the Joint 1991. A Program for Aligning Senten- Fifth Workshop on Statistical Machine ces in Bilingual Corpora. En Proceedings Translation and Metrics MATR, páginas 20 Proceedings of the Workshop on Iberian Cross-Language Natural Language Processing Tasks (ICL 2011) 172–176, Uppsala, Sweden, July. Associa- tion for Computational Linguistics. Smith, Jason R., Chris Quirk, y Kristina Tou- tanova. 2010. Extracting Parallel Sen- tences from Comparable Corpora using Document Level Alignment. En Human Language Technologies: The 2010 Annual Conference of the North American Chap- ter of the Association for Computatio- nal Linguistics, HLT ’10, páginas 403– 411, Stroudsburg, PA, USA. Association for Computational Linguistics. Tomás, Jesús, Jordi Bataller, Francisco Ca- sacuberta, y Jaime Lloret. 2008. Mi- ning Wikipedia as a Parallel and Com- parable Corpus. LANGUAGE FORUM, 34(1). Article presented at CICLing-2008, 9th International Conference on Intelli- gent Text Processing and Computational Linguistics, February 17 to 23, 2008, Hai- fa, Israel. Uszkoreit, Jakob, Jay M. Ponte, Ashok C. Popat, y Moshe Dubiner. 2010. Large Scale Parallel Document Mining for Ma- chine Translation. En Proceedings of the 23rd International Conference on Compu- tational Linguistics, COLING ’10, páginas 1101–1109, Stroudsburg, PA, USA. Asso- ciation for Computational Linguistics. Varga, Dániel, László Németh, Péter Halácsy, András Kornai, Viktor Trón, y Viktor Nagy. 2005. Parallel Corpora for Medium Density Languages. En Proceedings of the RANLP 2005, páginas 590–596. Yasuda, Keiji y Eiichiro Sumita. 2008. Met- hod for Building Sentence-Aligned Corpus from Wikipedia. En Proceedings of the 33th AAAI workshop on Artificial Intelli- gence (AAAI-08). 21