<!DOCTYPE article PUBLIC "-//NLM//DTD JATS (Z39.96) Journal Archiving and Interchange DTD v1.0 20120330//EN" "JATS-archivearticle1.dtd">
<article xmlns:xlink="http://www.w3.org/1999/xlink">
  <front>
    <journal-meta />
    <article-meta>
      <title-group>
        <article-title>Extracci´on de corpus paralelos de la Wikipedia basada en la obtenci´on de alineamientos bilingu¨es a nivel de frase∗</article-title>
      </title-group>
      <contrib-group>
        <contrib contrib-type="author">
          <string-name>Joan Albert Silvestre-Cerd`a</string-name>
          <xref ref-type="aff" rid="aff0">0</xref>
        </contrib>
        <contrib contrib-type="author">
          <string-name>Mercedes Garc´ıa-Mart´ınez</string-name>
          <xref ref-type="aff" rid="aff0">0</xref>
        </contrib>
        <contrib contrib-type="author">
          <string-name>Alberto Barr´on-Ceden˜o</string-name>
          <xref ref-type="aff" rid="aff0">0</xref>
        </contrib>
        <contrib contrib-type="author">
          <string-name>Jorge Civera y Paolo Rosso</string-name>
          <email>jcivera@dsic.upv.es</email>
          <email>prosso@dsic.upv.es</email>
          <xref ref-type="aff" rid="aff0">0</xref>
        </contrib>
        <aff id="aff0">
          <label>0</label>
          <institution>Departament de Sistemes Inform`atics i Computacio ́ Universitat Polit`ecnica de Val`encia</institution>
        </aff>
      </contrib-group>
      <pub-date>
        <year>2011</year>
      </pub-date>
      <fpage>172</fpage>
      <lpage>176</lpage>
      <abstract>
        <p>This paper presents a proposal for extracting parallel corpora from Wikipedia on the basis of statistical machine translation techniques. We have used word-level alignment models from IBM in order to obtain phrase-level bilingual alignments between documents pairs. We have manually annotated a set of test English-Spanish comparable documents in order to evaluate the model. The obtained results are encouraging.</p>
      </abstract>
    </article-meta>
  </front>
  <body>
    <sec id="sec-1">
      <title>-</title>
      <p>
        fuente inmensa de documentos en mu´ltiples
lenguas que tiene muchas posibilidades de
explotaci´on. No obstante, encontrar frases
paralelas a nivel global en la web es una tarea
muy dispersa y extremadamente dif´ıcil,
aunque no imposible
        <xref ref-type="bibr" rid="ref3">(Uszkoreit et al., 2010)</xref>
        .
      </p>
      <p>La Wikipedia es uno de los pocos
recursos web que nos provee de forma expl´ıcita
gran cantidad de textos multilingu¨es
comparables, pues sus contenidos se presentan como
art´ıculos en mu´ltiples idiomas que describen
un mismo concepto. El objetivo es, pues,
explotar los contenidos comparables de dichos
documentos con la finalidad de extraer
frases paralelas que puedan ser utilizadas en el
entrenamiento de sistemas de traducci´on
autom´atica.</p>
      <p>En este trabajo se propone una
aproximaci´on heur´ıstica a la extracci´on de corpus
paralelos de la Wikipedia basada en t´ecnicas de
Traducci´on Autom´atica Estad´ıstica (TAE).
En la siguiente secci´on analizaremos los
trabajos previos que han servido de inspiraci´on a
este trabajo. Posteriormente, en la Secci´on 3
se describe ampliamente el sistema
propuesto. La Secci´on 4 muestra los resultados
experimentales y finalmente, una serie de
conclusiones son expuestas en la Secci´on 5.
2.</p>
    </sec>
    <sec id="sec-2">
      <title>Trabajos relacionados</title>
      <p>Debido a su creciente necesidad e
importancia, la extracci´on autom´atica de corpus
paralelos es una tarea bastante explorada en
la actualidad, aunque los primeros trabajos
se realizaron hace ya m´as de dos d´ecadas
(Brown, Lai, y Mercer, 1991; Gale y Church,
1991), si bien ´estos se cen˜´ıan a encontrar
alineamientos entre frases en textos paralelos.
Estos trabajos proponen m´etodos de
alineamiento muy r´apidos pero poco precisos, pues
para detectar relaciones entre frases
utilizaban u´nicamente la informaci´on de longitud
de las oraciones. Posteriormente, Chen
propuso utilizar informaci´on l´exica mediante un
sencillo modelo de traducci´on estad´ıstico
basado en palabras, demostrando una mejora
significativa de la calidad de los
alineamientos extra´ıdos (Chen, 1993), y unos an˜os m´as
tarde, Moore combin´o ambas aproximaciones
(Moore, 2002). M´as recientemente, Gonz´alez
propuso un modelo de alineamiento entre
frases y palabras inspirado en el modelo 1 de
IBM (Gonz´alez-Rubio et al., 2008).</p>
      <p>
        Con el problema de alinear frases en textos
paralelos bien estudiado, y ante la
creciente demanda de corpus paralelos para TAE,
los principales esfuerzos se centraron en la
extracci´on de corpus paralelos
        <xref ref-type="bibr" rid="ref3 ref4">(Eisele y Xu,
2010; Uszkoreit et al., 2010; Varga et al.,
2005)</xref>
        , en incluso monolingu¨es (Barzilay y
Elhadad, 2003; Quirk, Brockett, y Dolan,
2004), a partir de la web. En ´este
´ambito, la Wikipedia ha sido un recurso bastante
explotado, present´andose una gran variedad
de aproximaciones, desde m´etodos
heur´ısticos (Adafre y de Rijke, 2006; Mohammadi
y GhasemAghaee, 2010) hasta
aproximaciones basadas en clasificaci´on estad´ıstica
utilizando combinaciones lineales de
caracter´ısticas
        <xref ref-type="bibr" rid="ref2">(Smith, Quirk, y Toutanova, 2010; Tom´as
et al., 2008)</xref>
        . Tambi´en se han llevado a cabo
algunos trabajos en la vertiente monolingu¨e
        <xref ref-type="bibr" rid="ref5">(Yasuda y Sumita, 2008)</xref>
        . Ahora bien,
ninguno de los trabajos previos ha explorado
la utilizaci´on de modelos de traducci´on
estad´ısticos como sistemas de evaluaci´on de
alineamientos en recursos comparables como la
Wikipedia, y es precisamente este vac´ıo
experimental el que se pretende cubrir en este
trabajo.
3.
      </p>
    </sec>
    <sec id="sec-3">
      <title>Descripci´on del sistema</title>
      <p>Para la tarea de extracci´on de
corpus paralelos de la Wikipedia
consideraremos pares de documentos de Wikipedia
X = (x1, . . . , xj, . . . , x|X|) ∈ X ∗ e Y =
(y1, . . . , yi, . . . , y|Y |) ∈ Y∗ que representen un
mismo concepto, siendo xj la j-´esima frase
del documento X, yi la i-´esima frase del
documento Y , y X e Y los vocabularios de los
lenguajes en los que se encuentran los
respectivos documentos. Definimos (xj , yi) como un
alineamiento entre la j-´esima frase del
documento X y la i-´esima frase del documento Y ,
y A un conjunto finito de alineamientos.</p>
      <p>Inicialmente asumiremos que A = (X ×
Y ), es decir, el conjunto A contiene todo
alineamiento posible entre las frases de X y
de Y . La probabilidad de cada
alineamiento (xj , yi) ∈ A se calcula de acuerdo con el
modelo 4 de IBM (Brown y others, 1993),
que es un modelo de alineamiento a nivel de
palabra ampliamente utilizado en Traducci´on
Autom´atica Estad´ıstica. Un alineamiento
recibir´a una probabilidad alta si el grado de
coocurrencia de las palabras que componen las
frases es alto, pero por contra recibir´a una
probabilidad baja si las palabras
involucradas tienen poca o ninguna correlaci´on. Cabe
decir que las puntuaciones otorgadas por los
modelos de IBM provienen de una serie de
productos de probabilidades, tantos como el
nu´mero de palabras que conforman la frase
de destino yi, por lo que dicha puntuaci´on
debe ser normalizada convenientemente para
que no sea dependiente de la longitud. De no
ser as´ı, los alineamientos con frases destino yi
de menor nu´mero de palabras tender´ıan a ser
m´as probables, pudiendo darse casos de
alineamientos (xj , yi) con altos valores de
probabilidad con |xj| = 8 e |yi| = 1, por ejemplo.</p>
      <p>Una vez se han evaluado todos los
alineamientos del conjunto A, se obtiene el
conjunto de alineamientos m´as probables B ⊆ A
mediante la siguiente maximizaci´on:
(xj , yi) ∈ B / pIBM (xj | yi) &gt; pIBM (xj | yi′) (1)
∀i′ = 1 . . . |Y | ∀j = 1 . . . |X|</p>
      <p>Es decir, para cada frase xj del
documento X, conservaremos el alineamiento (xj , yi)
que maximice la probabilidad del modelo 4
de IBM para toda posible frase yi. Esto
implica an˜adir una restricci´on importante en el
proceso de alineamiento, pero que no
obstante nos permite definir un sistema base o
inicial que tenemos previsto mejorar en el futuro
mediante el c´alculo y la posterior
combinaci´on de los alineamientos en ambas
direcciones.</p>
      <p>Por u´ltimo, se genera el conjunto final de
alineamientos filtrados C ⊆ B, formado por
aquellos alineamientos cuya puntuaci´on
supere un cierto umbral α, es decir:
(xj , yi) ∈ C / pIBM (xj | yi) &gt; α
(2)</p>
      <p>El umbral α puede interpretarse como un
par´ametro que afecta a la calidad de los
alineamientos extra´ıdos, ya que cuanto mayor
es el umbral, mayor es nuestra exigencia
sobre el sistema, extray´endose en
consecuencia un menor nu´mero de alineamientos. En
la Secci´on 4 estudiaremos la influencia de
este par´ametro en las prestaciones de nuestro
sistema.
4.</p>
    </sec>
    <sec id="sec-4">
      <title>Experimentaci´on</title>
      <p>Con el objetivo de evaluar las
prestaciones que ofrece nuestro m´etodo de extracci´on
de corpus paralelos de la Wikipedia, hemos
realizado un estudio experimental en el que
se evalu´a la calidad de los pares de frases
extra´ıdos autom´aticamente por nuestro sistema
a partir de un conjunto de prueba que
tuvimos que generar de forma manual, debido a
la inexistencia de corpus adecuadamente
etiquetados para esta tarea. La generaci´on de
dicho conjunto, formado por pares de
documentos de la Wikipedia en ingl´es y espan˜ol,
es detallada en las Secciones 4.1 y 4.2.</p>
      <p>
        El modelo 4 de IBM fue entrenado con
MGIZA, un software basado en el popular
GIZA++ que nos ofrece la posibilidad de
evaluar un conjunto de prueba con los modelos
ya entrenados, adem´as de que permite
realizar un entrenamiento paralelo de los mismos.
Con el fin de minimizar los problemas
relacionados con las palabras fuera de vocabulario y
generalizar el dominio del sistema, los
modelos de IBM se entrenaron con un
subconjunto de pares de frases, definido
        <xref ref-type="bibr" rid="ref1">en
(SanchisTrilles et al., 2010</xref>
        ), de tres corpus de
referencia en el ´area de la Traducci´on
Autom´atica Estad´ıstica: Europarl-v5 (Koehn, 2005),
Tabla 1: Estad´ısticas b´asicas del corpus
empleado para el entrenamiento de los modelos
IBM.
      </p>
      <p>News-Commentary y United Nations
(Rafalovitch y Dale, 2009). Las estad´ısticas de este
subconjunto pueden ser consultadas en la
Tabla 1. Cabe destacar la gran cantidad de
pares de frases empleados para el entrenamiento
de los modelos, as´ı como el considerable
taman˜o de los vocabularios de cada una de las
lenguas.</p>
      <p>El resto de esta secci´on se estructura como
sigue: la Secci´on 4.1 muestra el
procedimiento de extracci´on de documentos y su
preproceso. Posteriormente, las Secciones 4.2 y 4.3
presentan la metodolog´ıa de etiquetado y las
m´etricas de evaluaci´on empleadas,
respectivamente. Finalmente, la Secci´on 4.4 expone
los resultados obtenidos al evaluar el
conjunto de entrenamiento generado manualmente.
4.1.</p>
      <sec id="sec-4-1">
        <title>Selecci´on de documentos y preproceso</title>
        <p>La Wikipedia alberga miles de art´ıculos
disponibles en ingl´es y espan˜ol, y abarcan
un dominio extremadamente amplio. Por ese
motivo, y con el objetivo de realizar una
prueba optimista con el sistema, se realiz´o una
selecci´on de pares de documentos cuyos
dominios se asemejaran al dominio del corpus
empleado en el entrenamiento del modelo de
alineamiento. En concreto, se seleccionaron
un total de 15 pares de documentos
ingl´esespan˜ol relacionados con la econom´ıa y
procesos administrativos de la Uni´on Europea. De
dichos documentos se extrajo el texto plano,
que posteriormente fue sometido a un
preproceso consistente en la separaci´on de frases
en l´ıneas (sentence-splitting), aislamiento de
palabras y signos de puntuaci´on (tokenizing)
y conversi´on a minu´sculas (lowercasing). Las
estad´ısticas de dicho corpus despu´es de ser
sometido a este preproceso se muestran en la
Tabla 2.
4.2.</p>
      </sec>
      <sec id="sec-4-2">
        <title>Metodolog´ıa de etiquetado</title>
        <p>A continuaci´on se describe la metodolog´ıa
seguida para generar el conjunto de
evaluaTabla 2: Estad´ısticas b´asicas del conjunto de
evaluaci´on construido de forma manual.
Evaluaci´on
En Es
Idioma
Nu´mero de documentos
Nu´mero de frases
Alineamientos posibles
Taman˜o Vocabulario
Nu´mero Total Palabras
15
661</p>
        <p>341
22680
3,4K 2,8K
24,5K 16,2K
ci´on etiquetado, partiendo de un conjunto
de pares de documentos previamente
preprocesados. Esta metodolog´ıa est´a inspirada en
(Och y Ney, 2003), pero tomando
alineamientos entre frases en lugar de alineamientos
entre palabras.</p>
        <p>Dos personas se encargaron de etiquetar
manualmente y independientemente todo el
conjunto de pares de documentos. Se les
pidi´o que anotaran aquellos alineamientos, de
entre todos los posibles para cada par de
documentos, que guardaran una relaci´on de
paralelismo.</p>
        <p>Adicionalmente, los etiquetadores fueron
instruidos para que asignaran cada uno de
los alineamientos a uno de los siguientes dos
conjuntos:</p>
        <p>P : Conjunto de alineamientos probables.
Definen alineamientos entre frases que
conforman traducciones similares,
aunque no exactas, en las que se expresa la
misma idea sem´antica, o bien para
indicar que un determinado alineamiento
forma parte de una relaci´on 1-a-muchos
o muchos-a-1.</p>
        <p>S: Conjunto de alineamientos seguros,
siendo S ⊆ P . Define alineamientos
entre frases que son traducciones exactas o
casi exactas (paralelas).</p>
        <p>En este contexto, el etiquetador 1 genera
los conjuntos S1 y P1, mientras que el
etiquetador 2 genera S2 y P2. Entonces, los
conjuntos S1, P1, e S2, P2 se combinan en S y P de
la siguiente forma:</p>
        <p>S = S1 ∩ S2</p>
        <p>P = P1 ∪ P2</p>
        <p>El conjunto P (que incluye S) representa
los pares de frases que deber´ıan ser extra´ıdos
por el sistema, y por tanto son tomados como
referencia para la tarea. Para el caso
concreto de este corpus, el conjunto S est´a formado
por 10 alineamientos, mientras que el
conjunto P engloba un total de 115 alineamientos.
4.3.</p>
      </sec>
      <sec id="sec-4-3">
        <title>Medidas de Evaluaci´on</title>
        <p>La evaluaci´on de la calidad del
conjunto filtrado de alineamientos C obtenido de
forma autom´atica mediante nuestro sistema
se ha realizado mediante la m´etrica Sentence
Alignment Error Rate, claramente inspirada
en la presentada en (Och y Ney, 2003).</p>
        <p>Dado un par de documentos X e Y , los
conjuntos de alineamientos entre ambos
documentos S y P etiquetados manualmente,
y el conjunto filtrado de alineamientos C, se
define la m´etrica Sentence Alignment Error
Rate (SAER) como sigue:</p>
        <p>SAER(S, P, C) = 1 − |C ∩|SC|| ++ ||CS|∩ P |
(3)</p>
        <p>Al igual que (Och y Ney, 2003), tambi´en
hemos empleado las medidas de cobertura y
precisi´on para obtener m´as informaci´on
acerca de las prestaciones del sistema:</p>
        <p>Cobertura = |C|S∩|S| , Precisi´on = |C|C∩|P |
(4)
4.4.</p>
      </sec>
      <sec id="sec-4-4">
        <title>Resultados</title>
        <p>En la presente secci´on se presentan los
resultados de las pruebas experimentales
llevadas a cabo con nuestro sistema, utilizando
el conjunto de evaluaci´on generado de
forma manual. En la Secci´on 3 hemos
resaltado la necesidad de estudiar la influencia del
par´ametro α, puesto que radica directamente
en la calidad de la frases extra´ıdas. Un valor
alto para dicho umbral puede conllevar a que
el sistema no sea capaz de extraer ningu´n
alineamiento. Por contra, un valor pequen˜o de
α se traducir´ıa en la extracci´on de un gran
nu´mero de pares de frases, e idealmente en
un aumento del nu´mero de alineamientos
correctos (Verdaderos Positivos, V P ), aunque
hay que tener en cuenta que el nu´mero de
casos de Falsos Positivos (F P ), es decir,
alineamientos que no existen en la referencia,
aumenta generalmente en mayor proporci´on
que los V P s. La clave est´a pues en encontrar
un valor de α que garantice la obtenci´on de
la mayor proporci´on posible de Verdaderos
Positivos (V P R) y que minimice el ratio de
Falsos Positivos (F P R). Ambas proporciones
se calculan de la siguiente forma:
0.8
itsvo 0.7
iso 0.6
soP 0.5
r
dea 0.4
d
reV 0.3
0.2
0.1
0
0
0.01 0.02</p>
        <p>Falsos Positivos</p>
        <p>0.03
Figura 1: Curva ROC para constatar la
relaci´on entre Verdaderos Positivos y Falsos
positivos en funci´on del par´ametro α.</p>
        <p>V P R =
F P R =</p>
        <p>V P
P
F P
N
=
=</p>
        <p>V P
V P + F N</p>
        <p>F P
F P + V N
(5)
(6)
donde P representa el nu´mero de
muestras positivas, que es igual al nu´mero de casos
de Verdaderos Positivos (V P ) m´as el nu´mero
de casos de Falsos Negativos (F N ), mientras
que N representa el nu´mero de muestras
negativas, que es igual al nu´mero de casos de
Falsos Positivos (F P ) m´as el nu´mero de
casos de Verdaderos Negativos (V N ).</p>
        <p>Con esta finalidad, hemos realizado una
exploraci´on exhaustiva del par´ametro α, y
posteriormente hemos dibujado una curva
ROC, mostrada en la Figura 1, en la que se
observa la relaci´on entre los Verdaderos
Positivos (V P R, eje vertical) y los Falsos
Positivos (F P R, eje horizontal) en funci´on del
umbral α, cuyo valor es inversamente
proporcional al desplazamiento de ambos ejes. Cabe
decir que dicha exploraci´on deber´ıa de
haberse llevado a cabo mediante un conjunto
de desarrollo, pero debido a la ausencia del
mismo tuvimos que emplear el conjunto de
evaluaci´on. En el futuro planeamos ampliar
dicho corpus para poder generar un conjunto
de desarrollo.</p>
        <p>De la Figura 1 cabe destacar varias cosas.</p>
        <p>En primer lugar, la gr´afica tiene un aspecto
degenerado debido a que la proporci´on
relativa de Falsos Positivos nunca podr´a llegar a
valer 1, puesto que est´a acotada
superiormente por F P/(F P + V N ) teniendo en cuenta
que F P ≤ |X| (como m´aximo se dar´an lugar
tantos FPs como nu´mero de frases del
documento de entrada) y que V N ≤ |X × Y | (el
sistema puede llegar a descartar el conjunto
de todos los posibles alineamientos), por lo
que el valor del cociente ser´a muy pequen˜o.</p>
        <p>En segundo lugar, podemos observar que
para valores m´as altos del umbral α la relaci´on
de Falsos Positivos llega a ser casi cero
para un ratio del 0.3 de Verdaderos Positivos,
mientras que para valores de α m´as pequen˜os
podemos llegar a conseguir un 0.5 de VPR
con un ratio del 0.02 de FPR. En t´erminos
relativos, este segundo punto parece ser el
o´ptimo, pero si tomamos en cuenta los
valores absolutos, nos encontramos con
diferencias del orden de centenares de FPs. Es por
este motivo por el cual nos decantaremos por
el primer de ellos, con α = 1,1 · 10−3.</p>
        <p>En la Tabla 3 se muestran los valores de las
m´etricas, presentadas en la Secci´on 4.3, tras
la evaluaci´on del conjunto de prueba, adem´as
de otras estad´ısticas de inter´es, para el valor
del umbral que hemos considerado como
´optimo (α = 1,1·10−3) y para dos casos extremos,
con el objetivo de apreciar m´as notoriamente
la influencia de dicho par´ametro en las
prestaciones del sistema. La primera fila
muestra el taman˜o del conjunto de
alineamientos filtrados C, mientras que las cuatro filas
siguientes muestran el nu´mero de muestras
clasificadas como Verdaderos Positivos (V P ),
Verdaderos Negativos (V N ), Falsos Positivos
(F P ) y Falsos Negativos (F N ). Por u´ltimo,
se muestran los valores de las tres m´etricas
empleadas para evaluar las prestaciones del
sistema: cobertura, precisi´on y SAER.</p>
        <p>En ella se puede ver como, a pesar de
la simplicidad de nuestro planteamiento, se
obtienen unos resultados bastante aceptables
para el valor ´optimo de α, con una tasa del
0.36 de error de alineamiento, un 0.59 de
grado de precisi´on, y sobretodo un 0.9 de
cobertura, aunque cabe decir que esta u´ltima no
es una medida fiable dado que en el corpus
s´olo existen 10 alineamientos etiquetados
como seguros. A continuaci´on se muestran
algunos ejemplos de los pares de frases extra´ıdos
por nuestro sistema:
Tabla 3: Resultados del sistema para el conjunto de test generado manualmente, con α = {1 ·
10−4, 1,1 · 10−3, 5 · 10−2}.</p>
        <p>|C|
V P
V N
F P
F N
Cobertura
Precisi´on
SAER</p>
        <p>En: He added that the decisive factor would
be the future and the size of the
eurozone, especially whether Denmark, Sweden
and the UK would have adopted the euro
or not.</p>
        <p>Es: An˜adi´o que el factor decisivo ser´a el
futuro y el taman˜o de la zona del euro,
especialmente si Dinamarca, Suecia y el</p>
        <p>Reino Unido se unen al euro o no.</p>
        <p>En: Montenegro officially applied to join the</p>
        <p>EU on 15 december 2008.</p>
        <p>Es: Oficialmente, Montenegro pidi´o el acceso</p>
        <p>a la UE el 15 de diciembre de 2008.</p>
        <p>Si observamos nuevamente la Tabla 3 y
nos fijamos en las diferencias existentes
entre el caso ´optimo y los casos extremos, se
pueden extraer algunas conclusiones
interesantes. Para α = 1 · 10−4 no se filtra ningu´n
alineamiento, esto es, C = B, y por tanto
nos damos cuenta que nuestro sistema
nunca ser´a capaz de encontrar 57 alineamientos
que s´ı est´an en la referencia. Para evitar
esta severa limitaci´on tenemos previsto obtener
los alineamientos entre frases en ambos
sentidos (X a Y , e Y a X), y posteriormente
aplicar un algoritmo heur´ıstico inspirado en
(Och y Ney, 2003) que los combine, partiendo
de la intersecci´on entre ambos alineamientos
y an˜adiendo alineamientos adicionales. Esto
nos llevar´a, en primer lugar, a obtener
alineamientos m´as robustos, y en segundo lugar, a
capturar relaciones entre frases de
muchas-a1, 1-a-muchas, e incluso muchas-a-muchas.
5.</p>
        <p>Conclusiones y Trabajo Futuro</p>
        <p>En este trabajo hemos presentado una
aproximaci´on heur´ıstica alternativa a las ya
existentes para la extracci´on autom´atica de
corpus paralelos a partir de los contenidos
multilingu¨es comparables que ofrece la
Wikipedia. La evaluaci´on experimental ha
mostrado unos resultados francamente
prometedores para nuestro sistema inicial. Como
extensi´on de este trabajo planeamos obtener
de forma heur´ıstica los alineamientos entre
frases en ambas direcciones con el objetivo
de mejorar la calidad del sistema, una
mejora que creemos que ser´a sustancial. Otra
alternativa de cara al futuro ser´ıa emplear
la variante del modelo 1 de IBM presentada
en (Gonz´alez-Rubio et al., 2008) en esta
tarea, ya que nos permitir´ıa obtener los
alineamientos bidireccionales de forma no
heur´ıstica mediante un entrenamiento
ExpectationMaximization (Dempster, Laird, y Rubin,
1977). Con la implementaci´on de estas
mejoras, realizaremos un estudio comparativo de
nuestro sistema con otros sistemas del estado
del arte.</p>
        <p>Cabe destacar, adem´as, que en este
trabajo hemos adaptado una metodolog´ıa existente
para la evaluaci´on de alineamientos a nivel
de frase. Para ello, hemos definido una
metodolog´ıa de etiquetado adecuada para
generar un conjunto de evaluaci´on, as´ı como una
serie de m´etricas para cuantificar las
prestaciones del sistema. Como trabajo futuro
pretendemos aumentar el taman˜o del corpus y
el nu´mero de anotadores, con el fin de hacer
m´as robusto el proceso de etiquetado manual
de los alineamientos.</p>
      </sec>
    </sec>
    <sec id="sec-5">
      <title>Bibliograf´ıa</title>
      <p>Adafre, S. F. y M. de Rijke. 2006. Finding
Similar Sentences across Multiple
Languages in Wikipedia. Proceedings of the 11th
Conference of the European Chapter of
the Association for Computational
Linguistics, p´aginas 62–69.</p>
      <p>Barzilay, Regina y Noemie Elhadad. 2003.</p>
      <p>Sentence Alignment for Monolingual
Comparable Corpora. En Proceedings
of the 2003 conference on Empirical
methods in natural language processing,
EMNLP ’03, p´aginas 25–32, Stroudsburg,
PA, USA. Association for Computational
Linguistics.</p>
      <p>Brown, P. F. y others. 1993. The
Mathematics of Statistical Machine
Translation: Parameter Estimation.
Computational Linguistics, 19(2):263–311.</p>
      <p>Brown, Peter F., Jennifer C. Lai, y Robert L.</p>
      <p>Mercer. 1991. Aligning Sentences in
Parallel Corpora. En Proceedings of the
29th annual meeting on Association for
Computational Linguistics, ACL ’91,
p´aginas 169–176, Stroudsburg, PA, USA.
Association for Computational Linguistics.
Chen, Stanley F. 1993. Aligning Sentences
in Bilingual Corpora Using Lexical
Information. En Proceedings of the 31st
annual meeting on Association for
Computational Linguistics, ACL ’93, p´aginas 9–
16, Stroudsburg, PA, USA. Association for
Computational Linguistics.</p>
      <p>Dempster, A. P., N. M. Laird, y D. B. Rubin.
1977. Maximum Likelihood from
Incomplete Data via the EM Algorithm. J. Roy.</p>
      <p>Statistical Society. Series B, 39(1):1–38.
Eisele, Andreas y Jia Xu. 2010. Improving
Machine Translation Performance using
Comparable Corpora. En Proceedings of
the 3rd Workshop on Building and Using
Comparable Corpora LREC 2010, p´aginas
35–41. ELRA.</p>
      <p>Gale, William A. y Kenneth W. Church.
1991. A Program for Aligning
Sentences in Bilingual Corpora. En Proceedings
of the 29th annual meeting on
Association for Computational Linguistics, ACL
’91, p´aginas 177–184, Stroudsburg, PA,
USA. Association for Computational
Linguistics.</p>
      <p>Gonz´alez-Rubio, Jesu´s, Germ´an
SanchisTrilles, Alfons Juan, y Francisco
Casacuberta. 2008. A Novel Alignment Model
Inspired on IBM Model 1. En Proceedings
of the 12th conference of the European
Association for Machine Translation,
p´aginas 47–56.</p>
      <p>Koehn, P. 2005. Europarl: A Parallel Corpus
for Statistical Machine Translation. En
Proc. of the MT Summit X, p´aginas 79–
86, September.</p>
      <p>Mohammadi, M. y N. GhasemAghaee. 2010.</p>
      <p>Building Bilingual Parallel Corpora Based
on Wikipedia. En Computer Engineering
and Applications (ICCEA), 2010 Second
International Conference on, volumen 2,
p´aginas 264 –268, march.</p>
      <p>Moore, Robert C. 2002. Fast and
Accurate Sentence Alignment of Bilingual
Corpora. En Proceedings of the 5th Conference
of the Association for Machine
Translation in the Americas on Machine
Translation: From Research to Real Users, AMTA
’02, p´aginas 135–144, London, UK, UK.</p>
      <p>Springer-Verlag.</p>
      <p>Och, Franz Josef y Hermann Ney. 2003. A
Systematic Comparison of Various
Statistical Alignment Models. Computational
Linguistics, 29:19–51, March.</p>
      <p>Quirk, Chris, Chris Brockett, y William
Dolan. 2004. Monolingual Machine
Translation for Paraphrase Generation. En
Proceedings of the 2004 Conference on
Empirical Methods in Natural Language
Processing, p´aginas 142–149.</p>
      <p>Rafalovitch, Alexandre y Robert Dale. 2009.</p>
      <p>United Nations General Assembly
Resolutions: A Six-Language Parallel Corpus.
Sanchis-Trilles, Germ´an, Jesu´s
Andr´esFerrer, Guillem Gasc´o, Jesu´s
Gonz´alezRubio, Pascual Mart´ınez-G´omez,
MarthaAlicia Rocha, Joan-Andreu S´anchez, y
Francisco Casacuberta. 2010.
UPVPRHLT English–Spanish System for
WMT10. En Proceedings of the Joint
Fifth Workshop on Statistical Machine
Translation and Metrics MATR, p´aginas</p>
    </sec>
  </body>
  <back>
    <ref-list>
      <ref id="ref1">
        <mixed-citation>
          <source>En: On 20 april</source>
          <year>2005</year>
          ,
          <article-title>the European Commission adopted the communication on Kosovo to the council “a european futuSmith</article-title>
          ,
          <string-name>
            <surname>Jason</surname>
            <given-names>R.</given-names>
          </string-name>
          ,
          <source>Chris Quirk, y Kristina Toutanova</source>
          .
          <year>2010</year>
          .
          <article-title>Extracting Parallel Sentences from Comparable Corpora using Document Level Alignment. En Human Language Technologies: The 2010 Annual Conference of the North American Chapter of the Association for Computational Linguistics</article-title>
          , HLT '
          <volume>10</volume>
          , p´aginas 403- 411, Stroudsburg, PA, USA. Association for Computational Linguistics.
        </mixed-citation>
      </ref>
      <ref id="ref2">
        <mixed-citation>
          <article-title>Tom´as, Jesu´s, Jordi Bataller</article-title>
          , Francisco Casacuberta, y Jaime Lloret.
          <year>2008</year>
          .
          <article-title>Mining Wikipedia as a Parallel and Comparable Corpus</article-title>
          .
          <source>LANGUAGE FORUM</source>
          ,
          <volume>34</volume>
          (
          <issue>1</issue>
          ).
          <source>Article presented at CICLing-2008, 9th International Conference on Intelligent Text Processing and Computational Linguistics, February</source>
          <volume>17</volume>
          to 23,
          <year>2008</year>
          , Haifa, Israel.
        </mixed-citation>
      </ref>
      <ref id="ref3">
        <mixed-citation>
          <string-name>
            <surname>Uszkoreit</surname>
            , Jakob,
            <given-names>Jay M.</given-names>
          </string-name>
          <string-name>
            <surname>Ponte</surname>
          </string-name>
          , Ashok C. Popat, y Moshe Dubiner.
          <year>2010</year>
          .
          <article-title>Large Scale Parallel Document Mining for Machine Translation</article-title>
          .
          <source>En Proceedings of the 23rd International Conference on Computational Linguistics, COLING '10</source>
          , p´aginas 1101-1109, Stroudsburg, PA, USA. Association for Computational Linguistics.
        </mixed-citation>
      </ref>
      <ref id="ref4">
        <mixed-citation>
          <string-name>
            <surname>Varga</surname>
          </string-name>
          , D´aniel, L´aszl´o N´emeth, P´eter Hal´acsy, Andr´as Kornai, Viktor Tr´on, y Viktor Nagy.
          <year>2005</year>
          .
          <article-title>Parallel Corpora for Medium Density Languages</article-title>
          .
          <source>En Proceedings of the RANLP</source>
          <year>2005</year>
          , p´aginas 590-
          <fpage>596</fpage>
          .
        </mixed-citation>
      </ref>
      <ref id="ref5">
        <mixed-citation>
          <string-name>
            <surname>Yasuda</surname>
          </string-name>
          , Keiji y Eiichiro Sumita.
          <year>2008</year>
          .
          <article-title>Method for Building Sentence-Aligned Corpus from Wikipedia</article-title>
          .
          <source>En Proceedings of the 33th AAAI workshop on Artificial Intelligence (AAAI-08).</source>
        </mixed-citation>
      </ref>
    </ref-list>
  </back>
</article>