=Paper=
{{Paper
|id=None
|storemode=property
|title=Recursos y métodos de sustitución léxica en las variantes dialectales en euskera 
|pdfUrl=https://ceur-ws.org/Vol-824/paper10.pdf
|volume=Vol-824
}}
==Recursos y métodos de sustitución léxica en las variantes dialectales en euskera ==
<pdf width="1500px">https://ceur-ws.org/Vol-824/paper10.pdf</pdf>
<pre>
Proceedings of the Workshop on Iberian Cross-Language Natural Language Processing Tasks (ICL 2011)


      Recursos y métodos de sustitución léxica en las variantes
                       dialectales en euskera
     Resources and methods for lexical substitution between Basque dialects

 Larraitz Uria                 Mans Hulden          Izaskun Etxeberria                         Iñaki Alegria
IKER (UMR5478)               University of Helsinki      IXA taldea                              IXA taldea
 IKERBASQUE                  Language Technology         UPV-EHU                                  UPV-EHU
 larraitz.uria@ehu.es         mans.hulden@helsinki.fi       izaskun.etxeberria@ehu.es            i.alegria@ehu.es

       Resumen: La coexistencia de cinco idiomas oficiales en la Penı́nsula Ibérica (eus-
       kera, catalán, gallego, portugués y español) nos lleva a buscar la colaboración para
       compartir los recursos desarrollados en los diferentes idiomas de la región. Sin em-
       bargo, dentro de un mismo idioma se puede dar la coexistencia de más de un dialecto
       y ası́ ocurre con el euskera. Las herramientas desarrolladas para este idioma se han
       centrado básicamente en el euskera unificado o estándar, de modo que no funcionan
       correctamente con los dialectos, que son numerosos. Este trabajo se enmarca dentro
       de la idea de buscar la forma de establecer semiautomáticamente una relación entre
       el euskera estándar y sus variantes dialectales. Esto permitirı́a aplicar las herra-
       mientas automáticas disponibles a los textos anteriores a la unificación del idioma,
       pudiendo explotar de forma automática la gran riqueza lingüı́stica que aportan.
       Palabras clave: Morfologı́a computacional, reglas fonológicas, programación lógica
       inductiva, dialectos.
       Abstract: The coexistence of five languages with official status in the Iberian Penin-
       sula (Basque, Catalan, Galician, Portuguese, and Spanish), has prompted collabo-
       rative efforts to share and cross-develop resources and materials for these languages
       of the region. However, it is not the case that comprehension boundaries only exist
       between each of these five languages; dialectal variation is also present, and in the
       case of Basque, for example, many written resources are only available in dialectal
       (or pre-standardization) form. At the same time, all the computational tools deve-
       loped for Basque are based on the standard language (“Batua”), and will not work
       correctly with other dialects, of which there are many. In this work we attempt to
       semiautomatically deduce relationships between the standard Basque and dialectal
       variants. Such an effort provides an opportunity to apply existing tools to texts is-
       sued before a unified standard Basque was developed, and so take advantage of a
       rich source of linguistic information.
       Keywords: Computational morphology, phonological rules, inductive logic pro-
       gramming, dialects.


1.     Introducción                                          en el idioma a tratar. Pero si se quiere un
   En el área de la morfologı́a computacio-                  analizador que compagine cobertura y preci-
nal existe una lı́nea de investigación abier-                sión, la mejor opción es una descripción basa-
ta en relación a la forma de combinar las                    da en un léxico y un conjunto de paradigmas
aproximaciones lingüı́sticas y las basadas en                y reglas fonológicas especificados por exper-
aprendizaje automático. Los métodos basa-                   tos. Las descripciones basadas en tecnologı́as
dos en aprendizaje automático (Goldsmith,                    de estados finitos son las más populares para
2001) pueden ser interesantes cuando se re-                   este fin (Beesley y Karttunen, 2002).
quiere un desarrollo rápido y se cuenta con                      El desarrollo de las bibliotecas digitales
pocos recursos o no se dispone de expertos                    y de la lingüı́stica basada en corpus impli-


                                                         70
Proceedings of the Workshop on Iberian Cross-Language Natural Language Processing Tasks (ICL 2011)


ca a menudo el tratamiento de las variantes                   de reglas fonológicas de dos niveles pero sin
dialectales y/o diacrónicas del idioma, pero                 llegar a automatizarlo.
no resulta viable tener que realizar una nue-                     En un trabajo anterior, (Johnson, 1984)
va especificación por cada variante a tratar.                presenta un “procedimiento de inferencia”
Ası́ pues, el objetivo de nuestras investiga-                 para el aprendizaje de reglas fonológicas a
ciones es inferir la morfologı́a de las varian-               partir de datos, lo que puede ser considerado
tes, o la equivalencia entre variantes y formas               un trabajo precursor del algoritmo ILP (In-
estándar del euskera a partir de un pequeño                 ductive Logic Programming) que proponemos
corpus paralelo variante/estándar, un corpus                 entre nuestros métodos.
de la variante y un analizador o reconocedor
del estándar.                                                3.       Recursos lingüı́sticos
    En el trabajo que presentamos tratamos                        Para el aprendizaje o inferencia y para
de inferir métodos de sustitución léxica en-               la evaluación se necesitan recursos que de-
tre variantes y formas estándar del euskera                  ben ser almacenados, testeados y, en su caso,
basándonos en la morfologı́a. Concretamen-                   etiquetados. La idea de este trabajo es usar
te, nuestros primeros experimentos se centran                 métodos no supervisados o con un mı́nimo de
en el dialecto labortano y el objetivo es la                  supervisión, ya que ése es el escenario realista
sustitución léxica de las formas propias del                para generar aplicaciones en el área.
dialecto por las correspondientes del euske-                      De momento vamos a probar distintas
ra estándar. La tarea clave, en una primera                  técnicas en el contexto de las variaciones dia-
fase al menos, es la inferencia de las reglas fo-             lectales en euskera, pero intentando que los
nológicas a partir de pares variante-estándar.              métodos sean, en la medida de lo posible, in-
En este artı́culo describimos los recursos bási-             dependientes del idioma.
cos con los que contamos en nuestra inves-                        Para llevar a cabo nuestros experimentos
tigación, ası́ como los métodos que estamos                 en esta investigación, contamos con tres cor-
experimentando para inferir las reglas.                       pus de origen y caracterı́sticas diferentes:
    Aunque los resultados obtenidos en los
primeros experimentos son alentadores, to-                             Corpus de transcripciones en labortano
davı́a deben ser ampliados y mejorados antes
                                                                       Corpus de la Biblia en euskera estándar
de poder integrarlos en herramientas compu-
                                                                       y labortano
tacionales efectivas.
    Las técnicas que describimos son, en su                           Corpus de transcripciones en diversos
mayor parte, independientes del idioma y                               dialectos
además, es de suponer que con cierta adap-
tación pueden ser aplicadas a otras variantes                3.1.       Corpus de transcripciones en
o registros del idioma (por ejemplo, idioma                              labortano
más informal: email, SMS. . . ).                                Por una parte, contamos con un corpus
                                                              paralelo construido en el centro de investi-
2.    Trabajos relacionados                                   gación IKER (UMR5478) de Bayona (Fran-
    El problema general de aprendizaje super-                 cia) dentro del proyecto TSABL1 . El objetivo
visado de las variantes dialectales ha sido dis-              de este proyecto es el estudio de la variación
cutido en la literatura en varias áreas: fono-               sintáctica de los dialectos del Paı́s Vasco al
logı́a computacional, morfologı́a, aprendizaje                norte de los Pirineos (Iparralde). Para ello,
automático. . .                                              se ha creado la aplicación BASYQUE2 , en la
    Por ejemplo, (Kestemont, Daelemans, y                     que se recogen datos y ejemplos de variantes
Pauw, 2010) presentan un sistema indepen-                     dialectales que provienen de tres fuentes de
diente del idioma que puede “aprender” va-                    información: cuestionarios especı́ficos, vı́deos
riaciones intra-lema. El sistema se utiliza pa-               de testimonios grabados en otros proyectos y
ra producir una lematización coherente de                    textos literarios.
textos en holandés antiguo sobre un corpus de                   Una de las principales razones que nos
literatura medieval (Corpus-Gysseling), que                   ha llevado a utilizar los datos recogidos en
contiene manuscritos de fecha anterior al año                     1
                                                                   Towards a Syntactic Atlas of the Basque
1300.                                                         Language: http://www.iker.cnrs.fr/-tsabl-towards-a-
    (Koskenniemi, 1991), por su parte, ofrece                 syntactic-atlas-of-.html?lang=fr
                                                                 2
un esbozo de un procedimiento de inferencia                        http://ixa2.si.ehu.es/atlas2/index.php?lang=eu


                                                         71
Proceedings of the Workshop on Iberian Cross-Language Natural Language Processing Tasks (ICL 2011)


BASYQUE es la posibilidad que nos ofrece                      hemos obtenido los resultados que presenta-
de crear corpus paralelos. Los cuestionarios                  mos en el apartado 5.
y testimonios grabados se transcriben y jun-
to a cada ejemplo o frase dialectal también
se especifica la forma estándar que le corres-                  Dialecto labortano vs Euskera estándar
ponde. En el caso de los textos literarios es-                                Leihoa estea erreusitu du.
critos en dialecto, también se indica la forma                               Leihoa ixtea erreusitu du.
estándar que corresponde a cada frase. Estos
corpus paralelos labortano-estándar son los                                 Eni galdegin daut 100 euro.
que vamos a utilizar en los experimentos de                                   Eni galdegin dit 100 euro.
sustitución léxica.                                            Ez gero uste izan nexkatxa guziek tu egiten dautatela.
    La aplicación BASYQUE pretende abar-                        Ez gero uste izan neskatxa guztiek tu egiten didatela.
car todos los dialectos y subdialectos de Ipa-
rralde y para ello la recopilación de los datos              Tabla 2: Varios ejemplos de frases en el cor-
se extiende a todo el territorio. Para los expe-              pus paralelo labortano-estándar.
rimentos, en cambio, en esta primera fase nos
centramos en el dialecto labortano, por lo que
hemos empleado los ejemplos y los textos que                  3.2.     Corpus de la Biblia
provienen de las zonas donde se habla dicho                       Otra fuente de información básica para
dialecto. Y de momento hemos utilizado los                    nuestro trabajo es la Biblia, que está pu-
ejemplos recogidos mediante los cuestionarios                 blicada en euskera estándar y también en
y los textos literarios, ya que las grabaciones               dialecto labortano, lo que nos proporcio-
de video no están transcritas todavı́a. Cabe                 na un corpus paralelo bastante mayor que
reseñar que dichos corpus están siendo actua-               el anterior. La versión de la Biblia en
lizados y ampliados dentro del mencionado                     euskera estándar ha sido editada dos ve-
proyecto, de modo que los datos presentados                   ces, en 1994 y en 2004 respectivamente,
en la Tabla 1 corresponden al corpus de trans-                y existe una versión electrónica en la web
cripciones labortano-estándar disponible en                  (http://www.biblija.net). En cuanto a la ver-
el momento de realizar los experimentos.                      sión en dialecto labortano, se trata de una
                                                              adaptación de la versión estándar realizada
                                                              por Marcel Etcehandy y publicada en 2007,
                       Corpus        80 %      20 %
                                                              y dispone también de una versión electróni-
  No frases               2.117      1.694        423         ca (http://amarauna.org/biblia/). Debido a
  No palabras            12.150      9.734      2.417         problemas de formato, de momento sólo he-
  Palabras dif.           3.874      3.327      1.243         mos alineado 9 libros (elegidos al azar) con
                                                              las caracterı́sticas que se reflejan en la Tabla
  Pares filtrados          3.610     3.108      1.172
                                                              3.
  Pares idénticos         2.532     2.200        871
  Pares diferentes         1.078       908        301
                                                                 No de libros total                               76
Tabla 1: Datos correspondientes al corpus                        No de libros disponible                          66
labortano-estándar utilizado en los experi-                     Palabras totales en euskera estándar       545.700
mentos realizados hasta el momento. La pri-                      Palabras diferentes                          38.069
mera columna corresponde al corpus comple-
to. El 80 % ha sido utilizado en la fase de                      Libros alineados                                  9
aprendizaje y el 20 % restante en la fase de                     Palabras totales en libros alineados        104.967
test.                                                            Palabras diferentes en libros alineados      15.007

                                                              Tabla 3: Datos correspondientes al corpus de
   En la Tabla 2 se presentan varios ejemplos
                                                              la Biblia y a los libros alineados hasta la fe-
de frases con el fin de que se vea el tipo de
                                                              cha.
diferencias que se pueden encontrar entre el
dialecto y el estándar, ası́ como la correspon-
dencia palabra a palabra con que se cuenta                       Este corpus, al ser de mayor tamaño, nos
en dicho corpus.                                              va a permitir realizar experimentos con dis-
   Éste es el corpus en el que hemos centrado                tintos tamaños de corpus paralelo, y ası́ con-
nuestros primeros experimentos y con el que                   seguir estimar correlaciones entre tamaños de


                                                         72
Proceedings of the Workshop on Iberian Cross-Language Natural Language Processing Tasks (ICL 2011)


corpus paralelo y calidad de la inferencia, pe-                  técnicas que estamos desarrollando y que des-
ro todavı́a no tenemos resultados que mostrar                    cribimos posteriormente.
sobre este aspecto ya que estamos en la fase                         Las caracterı́sticas de este corpus son en
de preparación y obtención de información                     parte equiparables a las del primer corpus
de este corpus. Por otro lado, a diferencia del                  descrito, pero con dos diferencias reseñables:
corpus descrito en 3.1, en el corpus de la Bi-
blia no hay transcripción palabra a palabra                            recoge gran variedad de dialectos, ya
tal y como se puede observar en el pequeño                             que ciertas formas van cambiando casi
ejemplo3 que se presenta a continuación, por                           de pueblo a pueblo (véase el mapa en
lo que la obtención del diccionario de pala-                           http://ahotsak.com/herriak/mapa/)
bras equivalentes se prevé más complicada.                            de momento sólo disponemos de la trans-
                                                                        cripción de las formas dialectales y que-
       Dialecto labortano:
                                                                        remos obtener de forma (semi)automáti-
           “Errana dauzut: ukan in-                                     ca las correspondientes formas estándar.
           dar eta kuraia. Ez ikara, ez                                 Una parte de la investigación que ha-
           izi, ni, Jauna, zure Jainkoa,                                cemos es determinar el mı́nimo de tra-
           zurekin izanen bainaiz joanen                                bajo manual (para relacionar las formas
           ziren toki guzietan”.                                        estándar con las dialectales) necesario
                                                                        para obtener unos buenos resultados des-
       Euskera estándar:                                               pués en la posterior sustitución léxica.
             “Kementsu eta adoretsu                              4.     Métodos
           izateko esan dizut. Ez ika-
           ratu, ez kikildu, ni, Jauna,                              Nuestra primera aproximación se va a
           zure Jainkoa, zurekin izango                          basar en obtener pares de palabras varian-
           bainaiz zure ibilera guztie-                          te/estándar a partir de un corpus paralelo
           tan”.                                                 (que quisiéramos minimizar). Para ello re-
                                                                 utilizamos lo que hemos llamado métodos
3.3.     Corpus de transcripciones en                            básicos. Posteriormente inferiremos reglas fo-
         diversos dialectos                                      nológicas mediantes dos métodos.
   Existen varios proyectos en el Paı́s Vasco                    4.1.     Métodos básicos
(Ahotsak.com4 o EKE.org5 , por ejemplo) que                          De cara a obtener pares de palabras equi-
tienen como objetivo recoger el habla tradi-                     valentes a partir de corpus paralelos vamos a
cional de cada zona, es decir, recopilar y di-                   utilizar dos programas: lexdiff y Giza++.
fundir testimonios orales de vasco-parlantes.                        El primero, lexdiff, ha sido diseñado y uti-
En ambos proyectos se graban y se recogen                        lizado para la migración automática de tex-
conversaciones y/o testimonios de personas                       tos entre diferentes ortografı́as del portugués
que se expresan en su propio dialecto.                           (Almeida, Santos, y Simoes, 2010), debido
   Nosotros hemos creado una red de cola-                        al cambio de norma que se produjo en ese
boración con Ahotsak.com para poder reco-                       idioma. Este programa trata de identificar la
pilar y ayudar a transcribir corpus paralelos                    equivalencia de palabras a partir de frases pa-
de variantes dialectales relacionadas con la                     ralelas. Funciona muy bien cuando los textos
forma estándar, ya que el objetivo de Ahot-                     son equivalentes palabra por palabra, y es por
sak.com es ir transcribiendo gran parte de los                   ello que lo hemos utilizado en los experimen-
testimonios grabados. Hasta ahora, cuentan                       tos realizados hasta ahora con el corpus de
con 5.204 pasajes (1.462.555 palabras) trans-                    transcripciones labortano-estándar.
critos en las formas dialectales. Sin embar-                         Adicionalmente, lexdiff también calcula
go, para facilitar la búsqueda se quiere re-                    los cambios de ngramas y sus frecuencias,
lacionar cada forma dialectal con su corres-                     obteniendo resultados de este tipo: 76 ait
pondiente estándar, y para hacerlo de forma                     ->at; 39 dautz ->diz; lo que indica que el
(semi)automática nos queremos valer de las                      ngrama ait ha cambiado a at 76 veces en el
   3                                                             corpus y que dautz ha cambiado 39 veces a
     El ejemplo corresponde al versı́culo 9 del capı́tulo
1 del libro de Josué.                                           diz.
   4
     http://www.ahotsak.com/                                         Estos resultados pueden expresar cambios
   5
     http://www.eke.org/                                         (morfo)fonológicos regulares entre los textos,


                                                            73
Proceedings of the Workshop on Iberian Cross-Language Natural Language Processing Tasks (ICL 2011)


y han sido explotados en el primero de los                          Por ejemplo, la correspondencia ager-
métodos de inferencia que presentamos a con-                       kuntza/agerpena puede expresarse me-
tinuación.                                                         diante dos reglas: rkun ->rpen y ntza
   Giza++6 es una conocida herramienta pa-                          ->na, pero permitir varios cambios pue-
ra inferir diccionarios, con probabilidades de                      de producir ruido innecesario y bajar la
traducción, a partir de corpus paralelos. Lo                       precisión.
queremos comparar con lexdiff dado que el
                                                                    La forma de aplicar las reglas: secuen-
corpus de la Biblia con el que contamos es
                                                                    cialmente o paralelamente.
un corpus paralelo divergente y de mayor ta-
maño, pero todavı́a no podemos presentar re-                       Hacer que los cambios sean de longitud
sultados sobre dicha comparación.                                  mı́nima y condicionados por el contexto.
4.2.       Métodos de inferencia                             4.2.2.   Inferencia usando
   Estamos experimentando con dos métodos                             programación lógica inductiva.
de inferencia:                                                   El segundo método consiste en los siguien-
                                                              tes pasos:
  1. Inferencia de reglas fonológicas basada
     en substrings                                               1. Alinear los pares de palabras letra por
                                                                    letra usando la mı́nima distancia de edi-
  2. Inferencia usando programación lógica
                                                                    ción.
     inductiva sobre pares de palabras equi-
     valentes                                                    2. Extraer un conjunto de reglas fonológi-
                                                                    cas.
   El método baseline consiste en aprender
las equivalencias de pares diferentes en el cor-                 3. Por cada regla, buscar contraejemplos.
pus de aprendizaje (corpus paralelo) y susti-                    4. Buscar la restricción de contexto mı́nima
tuirlas en el de test, suponiendo que si no                         que resuelva los contraejemplos.
se ha aprendido la forma estándar correspon-
diente a la variante es la propia variante. Este                 Por ejemplo, si tenemos los pares emai-
método tiene como resultado buena precisión                 ten/ematen e igorri/igorri, en el primer paso
y baja cobertura. Los dos métodos que propo-                 se detecta el cambio i/0, que en el paso dos se
nemos parten de una lista de equivalencia de                  convierte en la regla i ->0. Pero ese cambio
palabras o de substrings obtenida por las he-                 no se puede aplicar con igorri, por lo que la
rramientas básicas y tratan de inferir reglas                regla se transforma para evitar que sea apli-
fonológicas de reemplazamiento que puedan                    cada. Este método tiene la ventaja de explo-
ser compiladas por xfst de Xerox (Beesley                     tar las formas que son idénticas en el dialecto
y Karttunen, 2002) o foma (software libre,                    y en el estándar.
(Hulden, 2009)).
4.2.1.   Inferencia de reglas fonológicas                    5.     Resultados y trabajos futuros
         basada en substrings.                                    Hemos centrado los experimentos en el
   En principio se basa en los cambios de                     corpus descrito en el apartado 3.1 con el fin
ngramas que obtiene lexdiff. Hay varias for-                  de testear y evaluar los métodos descritos en
mas de transformar esa salida de lexdiff en                   el apartado 4. Los primeros resultados nos
reglas de reemplazamiento que se compilan                     muestran una mejora respecto al método ba-
a transductores finitos. Estamos teniendo en                  seline, pero todavı́a deben ser mejorados para
cuenta los siguientes factores:                               utilizarlos en herramientas computacionales
                                                              efectivas.
        Limitar los cambios a tener en cuen-                      La Tabla 4 muestra los resultados obteni-
        ta a aquellos que tienen un mı́nimo de                dos. Dichos resultados corresponden tanto al
        frecuencia (por ejemplo, dos o tres). Si              método baseline, como a los mejores resulta-
        aumentamos el mı́nimo mejoraremos la                  dos obtenidos con cada una de las propuestas
        precisión, pero perderemos cobertura.                de inferencia de reglas descritas y se expresan
        Limitar el número de reglas que pue-                 en términos de precisión (precision), cobertu-
        den ser aplicadas a la misma palabra.                 ra (recall ) y la medida-F (F-score), que es la
                                                              combinación de ambas. En los tres casos, el
   6
       http://code.google.com/p/giza-pp/                      proceso de aprendizaje se ha llevado a cabo


                                                         74
Proceedings of the Workshop on Iberian Cross-Language Natural Language Processing Tasks (ICL 2011)


con el 80 % del corpus, y el test, cuyos resul-                                Precision       Recall   F-score
tados son los que see muestran en la Tabla 4,
se ha realizado sobre el 20 % restante.                         Baseline          95,62         43,52    59,82
   Aunque no se presentan más que los mejo-                    Método 1         75,10         60,13    66,79
res resultados obtenidos con cada método, el                   Método 2         85,02         58,47    69,29
número de experimentos realizados con am-
bos métodos ha sido numeroso, sobre todo
con el método de inferencia de reglas basada                 Tabla 4: Mejores resultados (en términos
en substrings, debido a los diferentes factores               de F-score) obtenidos con ambos métodos
que se pueden tener en cuenta para inferir las                de inferencia en los experimentos realizados
reglas fonológicas. Dichos experimentos nos                  con el corpus de transcripciones labortano-
muestran que:                                                 estándar.

       Disminuir la mı́nima frecuencia exigida                    Con respecto al segundo método de infe-
       a un cambio para obtener una regla fo-                 rencia, basado en programación lógica induc-
       nológica a partir de él, aumenta notable-            tiva, los resultados obtenidos han sido mejo-
       mente la cobertura, pero también hace                 res, y además, con este método no es necesa-
       que disminuya la precisión, con lo que el             ria la aplicación del filtro posterior. El motivo
       resultado en términos de F-score apenas               fundamental es que este método no sólo utili-
       mejora.                                                za la información de los pares diferentes, sino
       La aplicación de más de una regla en una             también la de los pares iguales en el dialecto
       palabra no parece aportar incrementos                  y en el estándar.
       importantes en la mejora de los resulta-                   Se puede consultar información más deta-
       dos.                                                   llada tanto de los métodos propuestos como
                                                              de la evaluación realizada en (Hulden et al.,
       El modo de aplicación, secuencial o para-             2011).
       lelo, de las reglas (cuando se aplica más                 Todavı́a nos queda mucho trabajo por rea-
       de una regla en la misma palabra) pre-                 lizar en el campo de esta investigación. La
       senta resultados muy similares, aunque                 aplicacion de los métodos descritos al corpus
       algo mejores si la aplicación es paralela.            de la Biblia nos va a permitir precisar hasta
                                                              qué punto es determinante que la transcrip-
       Por último, minimizar la longitud de los              ción entre dialecto y estándar sea palabra a
       cambios y hacer que sean condicionados                 palabra, y qué tamaño de corpus es necesario
       por el contexto, obtiene claramente me-                para obtener resultados que indiquen que es
       jores resultados.                                      posible conseguir herramientas automáticas
                                                              de sustitución léxica.
En los primeros experimentos con este méto-                      Además, creemos que los métodos utiliza-
do de inferencia, ya pudimos comprobar que                    dos deben ser combinados con otros que in-
la aplicación exclusivamente de las reglas                   fieran relaciones entre lemas y morfemas (va-
fonológicas no mejoraba los resultados del                   riantes y formas estándar), variantes de para-
método baseline, debido a que la precisión era              digmas y que contrasten esas inferencias con
excesivamente baja (para cada término a sus-                 corpus de variantes (sin que sean corpus pa-
tituir, el número de candidatos era a menu-                  ralelos) más amplios.
do elevado). Ello nos llevó a aplicar un post-
filtro al proceso, basado en la frecuencia de                 Bibliografı́a
los candidatos en euskera estándar7 . El filtro
aplicado es muy simple: si hay más de un can-                Almeida, J. J, A. Santos, y A. Simoes. 2010.
didato se elige el más frecuente, pero a pesar                 Bigorna–a toolkit for orthography migra-
de su simplicidad se mejoran los resultados y                   tion challenges. En Seventh International
se consigue superar el baseline tal y como se                   Conference on Language Resources and
puede ver en los resultados presentados en la                   Evaluation (LREC2010), Valletta, Malta.
Tabla 4.                                                      Beesley, K. R y L. Karttunen. 2002. Finite-
   7
    La frecuencia de cada término la hemos obteni-
                                                                state morphology: Xerox tools and tech-
do de un corpus de un diario de noticias editado en             niques. Studies in Natural Language Pro-
euskera.                                                        cessing. Cambridge University Press.


                                                         75
Proceedings of the Workshop on Iberian Cross-Language Natural Language Processing Tasks (ICL 2011)


Goldsmith, J. 2001. Unsupervised learning
  of the morphology of a natural language.
  Computational linguistics, 27(2):153–198.
Hulden, M., I. Alegria, I. Etxeberria, y
  M. Maritxalar. 2011. An unsupervi-
  sed method for learning morphology of
  variants from the standard morphology
  and a little parallel corpus. En (EMNLP
  workshop) Dialects-2011 — First Works-
  hop on Algorithms and Resources for Mo-
  delling of Dialects and Language Varie-
  ties.
Hulden, Mans. 2009. Foma: a finite-state
  compiler and library. En Proceedings
  of the 12th Conference of the European
  Chapter of the Association for Compu-
  tational Linguistics: Demonstrations Ses-
  sion, páginas 29–32, Athens, Greece. As-
  sociation for Computational Linguistics.
Johnson, Mark. 1984. A discovery procedu-
   re for certain phonological rules. En Pro-
   ceedings of the 10th international confe-
   rence on Computational linguistics, CO-
   LING ’84, páginas 344–347. Association
   for Computational Linguistics.
Kestemont, M., W. Daelemans, y G. De
  Pauw.      2010.   Weigh your words—
  memory-based lemmatization for Middle
  Dutch. Literary and Linguistic Compu-
  ting, 25(3):287–301.
Koskenniemi, K. 1991. A discovery procedu-
  re for two-level phonology. Computational
  Lexicology and Lexicography: A Special Is-
  sue Dedicated to Bernard Quemada, pági-
  nas 451–446.


                                                         76

</pre>