=Paper= {{Paper |id=None |storemode=property |title=Recursos y métodos de sustitución léxica en las variantes dialectales en euskera |pdfUrl=https://ceur-ws.org/Vol-824/paper10.pdf |volume=Vol-824 }} ==Recursos y métodos de sustitución léxica en las variantes dialectales en euskera == https://ceur-ws.org/Vol-824/paper10.pdf
Proceedings of the Workshop on Iberian Cross-Language Natural Language Processing Tasks (ICL 2011)




      Recursos y métodos de sustitución léxica en las variantes
                       dialectales en euskera
     Resources and methods for lexical substitution between Basque dialects

 Larraitz Uria                 Mans Hulden          Izaskun Etxeberria                         Iñaki Alegria
IKER (UMR5478)               University of Helsinki      IXA taldea                              IXA taldea
 IKERBASQUE                  Language Technology         UPV-EHU                                  UPV-EHU
 larraitz.uria@ehu.es         mans.hulden@helsinki.fi       izaskun.etxeberria@ehu.es            i.alegria@ehu.es

       Resumen: La coexistencia de cinco idiomas oficiales en la Penı́nsula Ibérica (eus-
       kera, catalán, gallego, portugués y español) nos lleva a buscar la colaboración para
       compartir los recursos desarrollados en los diferentes idiomas de la región. Sin em-
       bargo, dentro de un mismo idioma se puede dar la coexistencia de más de un dialecto
       y ası́ ocurre con el euskera. Las herramientas desarrolladas para este idioma se han
       centrado básicamente en el euskera unificado o estándar, de modo que no funcionan
       correctamente con los dialectos, que son numerosos. Este trabajo se enmarca dentro
       de la idea de buscar la forma de establecer semiautomáticamente una relación entre
       el euskera estándar y sus variantes dialectales. Esto permitirı́a aplicar las herra-
       mientas automáticas disponibles a los textos anteriores a la unificación del idioma,
       pudiendo explotar de forma automática la gran riqueza lingüı́stica que aportan.
       Palabras clave: Morfologı́a computacional, reglas fonológicas, programación lógica
       inductiva, dialectos.
       Abstract: The coexistence of five languages with official status in the Iberian Penin-
       sula (Basque, Catalan, Galician, Portuguese, and Spanish), has prompted collabo-
       rative efforts to share and cross-develop resources and materials for these languages
       of the region. However, it is not the case that comprehension boundaries only exist
       between each of these five languages; dialectal variation is also present, and in the
       case of Basque, for example, many written resources are only available in dialectal
       (or pre-standardization) form. At the same time, all the computational tools deve-
       loped for Basque are based on the standard language (“Batua”), and will not work
       correctly with other dialects, of which there are many. In this work we attempt to
       semiautomatically deduce relationships between the standard Basque and dialectal
       variants. Such an effort provides an opportunity to apply existing tools to texts is-
       sued before a unified standard Basque was developed, and so take advantage of a
       rich source of linguistic information.
       Keywords: Computational morphology, phonological rules, inductive logic pro-
       gramming, dialects.




1.     Introducción                                          en el idioma a tratar. Pero si se quiere un
   En el área de la morfologı́a computacio-                  analizador que compagine cobertura y preci-
nal existe una lı́nea de investigación abier-                sión, la mejor opción es una descripción basa-
ta en relación a la forma de combinar las                    da en un léxico y un conjunto de paradigmas
aproximaciones lingüı́sticas y las basadas en                y reglas fonológicas especificados por exper-
aprendizaje automático. Los métodos basa-                   tos. Las descripciones basadas en tecnologı́as
dos en aprendizaje automático (Goldsmith,                    de estados finitos son las más populares para
2001) pueden ser interesantes cuando se re-                   este fin (Beesley y Karttunen, 2002).
quiere un desarrollo rápido y se cuenta con                      El desarrollo de las bibliotecas digitales
pocos recursos o no se dispone de expertos                    y de la lingüı́stica basada en corpus impli-


                                                         70
Proceedings of the Workshop on Iberian Cross-Language Natural Language Processing Tasks (ICL 2011)




ca a menudo el tratamiento de las variantes                   de reglas fonológicas de dos niveles pero sin
dialectales y/o diacrónicas del idioma, pero                 llegar a automatizarlo.
no resulta viable tener que realizar una nue-                     En un trabajo anterior, (Johnson, 1984)
va especificación por cada variante a tratar.                presenta un “procedimiento de inferencia”
Ası́ pues, el objetivo de nuestras investiga-                 para el aprendizaje de reglas fonológicas a
ciones es inferir la morfologı́a de las varian-               partir de datos, lo que puede ser considerado
tes, o la equivalencia entre variantes y formas               un trabajo precursor del algoritmo ILP (In-
estándar del euskera a partir de un pequeño                 ductive Logic Programming) que proponemos
corpus paralelo variante/estándar, un corpus                 entre nuestros métodos.
de la variante y un analizador o reconocedor
del estándar.                                                3.       Recursos lingüı́sticos
    En el trabajo que presentamos tratamos                        Para el aprendizaje o inferencia y para
de inferir métodos de sustitución léxica en-               la evaluación se necesitan recursos que de-
tre variantes y formas estándar del euskera                  ben ser almacenados, testeados y, en su caso,
basándonos en la morfologı́a. Concretamen-                   etiquetados. La idea de este trabajo es usar
te, nuestros primeros experimentos se centran                 métodos no supervisados o con un mı́nimo de
en el dialecto labortano y el objetivo es la                  supervisión, ya que ése es el escenario realista
sustitución léxica de las formas propias del                para generar aplicaciones en el área.
dialecto por las correspondientes del euske-                      De momento vamos a probar distintas
ra estándar. La tarea clave, en una primera                  técnicas en el contexto de las variaciones dia-
fase al menos, es la inferencia de las reglas fo-             lectales en euskera, pero intentando que los
nológicas a partir de pares variante-estándar.              métodos sean, en la medida de lo posible, in-
En este artı́culo describimos los recursos bási-             dependientes del idioma.
cos con los que contamos en nuestra inves-                        Para llevar a cabo nuestros experimentos
tigación, ası́ como los métodos que estamos                 en esta investigación, contamos con tres cor-
experimentando para inferir las reglas.                       pus de origen y caracterı́sticas diferentes:
    Aunque los resultados obtenidos en los
primeros experimentos son alentadores, to-                             Corpus de transcripciones en labortano
davı́a deben ser ampliados y mejorados antes
                                                                       Corpus de la Biblia en euskera estándar
de poder integrarlos en herramientas compu-
                                                                       y labortano
tacionales efectivas.
    Las técnicas que describimos son, en su                           Corpus de transcripciones en diversos
mayor parte, independientes del idioma y                               dialectos
además, es de suponer que con cierta adap-
tación pueden ser aplicadas a otras variantes                3.1.       Corpus de transcripciones en
o registros del idioma (por ejemplo, idioma                              labortano
más informal: email, SMS. . . ).                                Por una parte, contamos con un corpus
                                                              paralelo construido en el centro de investi-
2.    Trabajos relacionados                                   gación IKER (UMR5478) de Bayona (Fran-
    El problema general de aprendizaje super-                 cia) dentro del proyecto TSABL1 . El objetivo
visado de las variantes dialectales ha sido dis-              de este proyecto es el estudio de la variación
cutido en la literatura en varias áreas: fono-               sintáctica de los dialectos del Paı́s Vasco al
logı́a computacional, morfologı́a, aprendizaje                norte de los Pirineos (Iparralde). Para ello,
automático. . .                                              se ha creado la aplicación BASYQUE2 , en la
    Por ejemplo, (Kestemont, Daelemans, y                     que se recogen datos y ejemplos de variantes
Pauw, 2010) presentan un sistema indepen-                     dialectales que provienen de tres fuentes de
diente del idioma que puede “aprender” va-                    información: cuestionarios especı́ficos, vı́deos
riaciones intra-lema. El sistema se utiliza pa-               de testimonios grabados en otros proyectos y
ra producir una lematización coherente de                    textos literarios.
textos en holandés antiguo sobre un corpus de                   Una de las principales razones que nos
literatura medieval (Corpus-Gysseling), que                   ha llevado a utilizar los datos recogidos en
contiene manuscritos de fecha anterior al año                     1
                                                                   Towards a Syntactic Atlas of the Basque
1300.                                                         Language: http://www.iker.cnrs.fr/-tsabl-towards-a-
    (Koskenniemi, 1991), por su parte, ofrece                 syntactic-atlas-of-.html?lang=fr
                                                                 2
un esbozo de un procedimiento de inferencia                        http://ixa2.si.ehu.es/atlas2/index.php?lang=eu


                                                         71
Proceedings of the Workshop on Iberian Cross-Language Natural Language Processing Tasks (ICL 2011)




BASYQUE es la posibilidad que nos ofrece                      hemos obtenido los resultados que presenta-
de crear corpus paralelos. Los cuestionarios                  mos en el apartado 5.
y testimonios grabados se transcriben y jun-
to a cada ejemplo o frase dialectal también
se especifica la forma estándar que le corres-                  Dialecto labortano vs Euskera estándar
ponde. En el caso de los textos literarios es-                                Leihoa estea erreusitu du.
critos en dialecto, también se indica la forma                               Leihoa ixtea erreusitu du.
estándar que corresponde a cada frase. Estos
corpus paralelos labortano-estándar son los                                 Eni galdegin daut 100 euro.
que vamos a utilizar en los experimentos de                                   Eni galdegin dit 100 euro.
sustitución léxica.                                            Ez gero uste izan nexkatxa guziek tu egiten dautatela.
    La aplicación BASYQUE pretende abar-                        Ez gero uste izan neskatxa guztiek tu egiten didatela.
car todos los dialectos y subdialectos de Ipa-
rralde y para ello la recopilación de los datos              Tabla 2: Varios ejemplos de frases en el cor-
se extiende a todo el territorio. Para los expe-              pus paralelo labortano-estándar.
rimentos, en cambio, en esta primera fase nos
centramos en el dialecto labortano, por lo que
hemos empleado los ejemplos y los textos que                  3.2.     Corpus de la Biblia
provienen de las zonas donde se habla dicho                       Otra fuente de información básica para
dialecto. Y de momento hemos utilizado los                    nuestro trabajo es la Biblia, que está pu-
ejemplos recogidos mediante los cuestionarios                 blicada en euskera estándar y también en
y los textos literarios, ya que las grabaciones               dialecto labortano, lo que nos proporcio-
de video no están transcritas todavı́a. Cabe                 na un corpus paralelo bastante mayor que
reseñar que dichos corpus están siendo actua-               el anterior. La versión de la Biblia en
lizados y ampliados dentro del mencionado                     euskera estándar ha sido editada dos ve-
proyecto, de modo que los datos presentados                   ces, en 1994 y en 2004 respectivamente,
en la Tabla 1 corresponden al corpus de trans-                y existe una versión electrónica en la web
cripciones labortano-estándar disponible en                  (http://www.biblija.net). En cuanto a la ver-
el momento de realizar los experimentos.                      sión en dialecto labortano, se trata de una
                                                              adaptación de la versión estándar realizada
                                                              por Marcel Etcehandy y publicada en 2007,
                       Corpus        80 %      20 %
                                                              y dispone también de una versión electróni-
  No frases               2.117      1.694        423         ca (http://amarauna.org/biblia/). Debido a
  No palabras            12.150      9.734      2.417         problemas de formato, de momento sólo he-
  Palabras dif.           3.874      3.327      1.243         mos alineado 9 libros (elegidos al azar) con
                                                              las caracterı́sticas que se reflejan en la Tabla
  Pares filtrados          3.610     3.108      1.172
                                                              3.
  Pares idénticos         2.532     2.200        871
  Pares diferentes         1.078       908        301
                                                                 No de libros total                               76
Tabla 1: Datos correspondientes al corpus                        No de libros disponible                          66
labortano-estándar utilizado en los experi-                     Palabras totales en euskera estándar       545.700
mentos realizados hasta el momento. La pri-                      Palabras diferentes                          38.069
mera columna corresponde al corpus comple-
to. El 80 % ha sido utilizado en la fase de                      Libros alineados                                  9
aprendizaje y el 20 % restante en la fase de                     Palabras totales en libros alineados        104.967
test.                                                            Palabras diferentes en libros alineados      15.007

                                                              Tabla 3: Datos correspondientes al corpus de
   En la Tabla 2 se presentan varios ejemplos
                                                              la Biblia y a los libros alineados hasta la fe-
de frases con el fin de que se vea el tipo de
                                                              cha.
diferencias que se pueden encontrar entre el
dialecto y el estándar, ası́ como la correspon-
dencia palabra a palabra con que se cuenta                       Este corpus, al ser de mayor tamaño, nos
en dicho corpus.                                              va a permitir realizar experimentos con dis-
   Éste es el corpus en el que hemos centrado                tintos tamaños de corpus paralelo, y ası́ con-
nuestros primeros experimentos y con el que                   seguir estimar correlaciones entre tamaños de


                                                         72
Proceedings of the Workshop on Iberian Cross-Language Natural Language Processing Tasks (ICL 2011)




corpus paralelo y calidad de la inferencia, pe-                  técnicas que estamos desarrollando y que des-
ro todavı́a no tenemos resultados que mostrar                    cribimos posteriormente.
sobre este aspecto ya que estamos en la fase                         Las caracterı́sticas de este corpus son en
de preparación y obtención de información                     parte equiparables a las del primer corpus
de este corpus. Por otro lado, a diferencia del                  descrito, pero con dos diferencias reseñables:
corpus descrito en 3.1, en el corpus de la Bi-
blia no hay transcripción palabra a palabra                            recoge gran variedad de dialectos, ya
tal y como se puede observar en el pequeño                             que ciertas formas van cambiando casi
ejemplo3 que se presenta a continuación, por                           de pueblo a pueblo (véase el mapa en
lo que la obtención del diccionario de pala-                           http://ahotsak.com/herriak/mapa/)
bras equivalentes se prevé más complicada.                            de momento sólo disponemos de la trans-
                                                                        cripción de las formas dialectales y que-
       Dialecto labortano:
                                                                        remos obtener de forma (semi)automáti-
           “Errana dauzut: ukan in-                                     ca las correspondientes formas estándar.
           dar eta kuraia. Ez ikara, ez                                 Una parte de la investigación que ha-
           izi, ni, Jauna, zure Jainkoa,                                cemos es determinar el mı́nimo de tra-
           zurekin izanen bainaiz joanen                                bajo manual (para relacionar las formas
           ziren toki guzietan”.                                        estándar con las dialectales) necesario
                                                                        para obtener unos buenos resultados des-
       Euskera estándar:                                               pués en la posterior sustitución léxica.
             “Kementsu eta adoretsu                              4.     Métodos
           izateko esan dizut. Ez ika-
           ratu, ez kikildu, ni, Jauna,                              Nuestra primera aproximación se va a
           zure Jainkoa, zurekin izango                          basar en obtener pares de palabras varian-
           bainaiz zure ibilera guztie-                          te/estándar a partir de un corpus paralelo
           tan”.                                                 (que quisiéramos minimizar). Para ello re-
                                                                 utilizamos lo que hemos llamado métodos
3.3.     Corpus de transcripciones en                            básicos. Posteriormente inferiremos reglas fo-
         diversos dialectos                                      nológicas mediantes dos métodos.
   Existen varios proyectos en el Paı́s Vasco                    4.1.     Métodos básicos
(Ahotsak.com4 o EKE.org5 , por ejemplo) que                          De cara a obtener pares de palabras equi-
tienen como objetivo recoger el habla tradi-                     valentes a partir de corpus paralelos vamos a
cional de cada zona, es decir, recopilar y di-                   utilizar dos programas: lexdiff y Giza++.
fundir testimonios orales de vasco-parlantes.                        El primero, lexdiff, ha sido diseñado y uti-
En ambos proyectos se graban y se recogen                        lizado para la migración automática de tex-
conversaciones y/o testimonios de personas                       tos entre diferentes ortografı́as del portugués
que se expresan en su propio dialecto.                           (Almeida, Santos, y Simoes, 2010), debido
   Nosotros hemos creado una red de cola-                        al cambio de norma que se produjo en ese
boración con Ahotsak.com para poder reco-                       idioma. Este programa trata de identificar la
pilar y ayudar a transcribir corpus paralelos                    equivalencia de palabras a partir de frases pa-
de variantes dialectales relacionadas con la                     ralelas. Funciona muy bien cuando los textos
forma estándar, ya que el objetivo de Ahot-                     son equivalentes palabra por palabra, y es por
sak.com es ir transcribiendo gran parte de los                   ello que lo hemos utilizado en los experimen-
testimonios grabados. Hasta ahora, cuentan                       tos realizados hasta ahora con el corpus de
con 5.204 pasajes (1.462.555 palabras) trans-                    transcripciones labortano-estándar.
critos en las formas dialectales. Sin embar-                         Adicionalmente, lexdiff también calcula
go, para facilitar la búsqueda se quiere re-                    los cambios de ngramas y sus frecuencias,
lacionar cada forma dialectal con su corres-                     obteniendo resultados de este tipo: 76 ait
pondiente estándar, y para hacerlo de forma                     ->at; 39 dautz ->diz; lo que indica que el
(semi)automática nos queremos valer de las                      ngrama ait ha cambiado a at 76 veces en el
   3                                                             corpus y que dautz ha cambiado 39 veces a
     El ejemplo corresponde al versı́culo 9 del capı́tulo
1 del libro de Josué.                                           diz.
   4
     http://www.ahotsak.com/                                         Estos resultados pueden expresar cambios
   5
     http://www.eke.org/                                         (morfo)fonológicos regulares entre los textos,


                                                            73
Proceedings of the Workshop on Iberian Cross-Language Natural Language Processing Tasks (ICL 2011)




y han sido explotados en el primero de los                          Por ejemplo, la correspondencia ager-
métodos de inferencia que presentamos a con-                       kuntza/agerpena puede expresarse me-
tinuación.                                                         diante dos reglas: rkun ->rpen y ntza
   Giza++6 es una conocida herramienta pa-                          ->na, pero permitir varios cambios pue-
ra inferir diccionarios, con probabilidades de                      de producir ruido innecesario y bajar la
traducción, a partir de corpus paralelos. Lo                       precisión.
queremos comparar con lexdiff dado que el
                                                                    La forma de aplicar las reglas: secuen-
corpus de la Biblia con el que contamos es
                                                                    cialmente o paralelamente.
un corpus paralelo divergente y de mayor ta-
maño, pero todavı́a no podemos presentar re-                       Hacer que los cambios sean de longitud
sultados sobre dicha comparación.                                  mı́nima y condicionados por el contexto.
4.2.       Métodos de inferencia                             4.2.2.   Inferencia usando
   Estamos experimentando con dos métodos                             programación lógica inductiva.
de inferencia:                                                   El segundo método consiste en los siguien-
                                                              tes pasos:
  1. Inferencia de reglas fonológicas basada
     en substrings                                               1. Alinear los pares de palabras letra por
                                                                    letra usando la mı́nima distancia de edi-
  2. Inferencia usando programación lógica
                                                                    ción.
     inductiva sobre pares de palabras equi-
     valentes                                                    2. Extraer un conjunto de reglas fonológi-
                                                                    cas.
   El método baseline consiste en aprender
las equivalencias de pares diferentes en el cor-                 3. Por cada regla, buscar contraejemplos.
pus de aprendizaje (corpus paralelo) y susti-                    4. Buscar la restricción de contexto mı́nima
tuirlas en el de test, suponiendo que si no                         que resuelva los contraejemplos.
se ha aprendido la forma estándar correspon-
diente a la variante es la propia variante. Este                 Por ejemplo, si tenemos los pares emai-
método tiene como resultado buena precisión                 ten/ematen e igorri/igorri, en el primer paso
y baja cobertura. Los dos métodos que propo-                 se detecta el cambio i/0, que en el paso dos se
nemos parten de una lista de equivalencia de                  convierte en la regla i ->0. Pero ese cambio
palabras o de substrings obtenida por las he-                 no se puede aplicar con igorri, por lo que la
rramientas básicas y tratan de inferir reglas                regla se transforma para evitar que sea apli-
fonológicas de reemplazamiento que puedan                    cada. Este método tiene la ventaja de explo-
ser compiladas por xfst de Xerox (Beesley                     tar las formas que son idénticas en el dialecto
y Karttunen, 2002) o foma (software libre,                    y en el estándar.
(Hulden, 2009)).
4.2.1.   Inferencia de reglas fonológicas                    5.     Resultados y trabajos futuros
         basada en substrings.                                    Hemos centrado los experimentos en el
   En principio se basa en los cambios de                     corpus descrito en el apartado 3.1 con el fin
ngramas que obtiene lexdiff. Hay varias for-                  de testear y evaluar los métodos descritos en
mas de transformar esa salida de lexdiff en                   el apartado 4. Los primeros resultados nos
reglas de reemplazamiento que se compilan                     muestran una mejora respecto al método ba-
a transductores finitos. Estamos teniendo en                  seline, pero todavı́a deben ser mejorados para
cuenta los siguientes factores:                               utilizarlos en herramientas computacionales
                                                              efectivas.
        Limitar los cambios a tener en cuen-                      La Tabla 4 muestra los resultados obteni-
        ta a aquellos que tienen un mı́nimo de                dos. Dichos resultados corresponden tanto al
        frecuencia (por ejemplo, dos o tres). Si              método baseline, como a los mejores resulta-
        aumentamos el mı́nimo mejoraremos la                  dos obtenidos con cada una de las propuestas
        precisión, pero perderemos cobertura.                de inferencia de reglas descritas y se expresan
        Limitar el número de reglas que pue-                 en términos de precisión (precision), cobertu-
        den ser aplicadas a la misma palabra.                 ra (recall ) y la medida-F (F-score), que es la
                                                              combinación de ambas. En los tres casos, el
   6
       http://code.google.com/p/giza-pp/                      proceso de aprendizaje se ha llevado a cabo


                                                         74
Proceedings of the Workshop on Iberian Cross-Language Natural Language Processing Tasks (ICL 2011)




con el 80 % del corpus, y el test, cuyos resul-                                Precision       Recall   F-score
tados son los que see muestran en la Tabla 4,
se ha realizado sobre el 20 % restante.                         Baseline          95,62         43,52    59,82
   Aunque no se presentan más que los mejo-                    Método 1         75,10         60,13    66,79
res resultados obtenidos con cada método, el                   Método 2         85,02         58,47    69,29
número de experimentos realizados con am-
bos métodos ha sido numeroso, sobre todo
con el método de inferencia de reglas basada                 Tabla 4: Mejores resultados (en términos
en substrings, debido a los diferentes factores               de F-score) obtenidos con ambos métodos
que se pueden tener en cuenta para inferir las                de inferencia en los experimentos realizados
reglas fonológicas. Dichos experimentos nos                  con el corpus de transcripciones labortano-
muestran que:                                                 estándar.

       Disminuir la mı́nima frecuencia exigida                    Con respecto al segundo método de infe-
       a un cambio para obtener una regla fo-                 rencia, basado en programación lógica induc-
       nológica a partir de él, aumenta notable-            tiva, los resultados obtenidos han sido mejo-
       mente la cobertura, pero también hace                 res, y además, con este método no es necesa-
       que disminuya la precisión, con lo que el             ria la aplicación del filtro posterior. El motivo
       resultado en términos de F-score apenas               fundamental es que este método no sólo utili-
       mejora.                                                za la información de los pares diferentes, sino
       La aplicación de más de una regla en una             también la de los pares iguales en el dialecto
       palabra no parece aportar incrementos                  y en el estándar.
       importantes en la mejora de los resulta-                   Se puede consultar información más deta-
       dos.                                                   llada tanto de los métodos propuestos como
                                                              de la evaluación realizada en (Hulden et al.,
       El modo de aplicación, secuencial o para-             2011).
       lelo, de las reglas (cuando se aplica más                 Todavı́a nos queda mucho trabajo por rea-
       de una regla en la misma palabra) pre-                 lizar en el campo de esta investigación. La
       senta resultados muy similares, aunque                 aplicacion de los métodos descritos al corpus
       algo mejores si la aplicación es paralela.            de la Biblia nos va a permitir precisar hasta
                                                              qué punto es determinante que la transcrip-
       Por último, minimizar la longitud de los              ción entre dialecto y estándar sea palabra a
       cambios y hacer que sean condicionados                 palabra, y qué tamaño de corpus es necesario
       por el contexto, obtiene claramente me-                para obtener resultados que indiquen que es
       jores resultados.                                      posible conseguir herramientas automáticas
                                                              de sustitución léxica.
En los primeros experimentos con este méto-                      Además, creemos que los métodos utiliza-
do de inferencia, ya pudimos comprobar que                    dos deben ser combinados con otros que in-
la aplicación exclusivamente de las reglas                   fieran relaciones entre lemas y morfemas (va-
fonológicas no mejoraba los resultados del                   riantes y formas estándar), variantes de para-
método baseline, debido a que la precisión era              digmas y que contrasten esas inferencias con
excesivamente baja (para cada término a sus-                 corpus de variantes (sin que sean corpus pa-
tituir, el número de candidatos era a menu-                  ralelos) más amplios.
do elevado). Ello nos llevó a aplicar un post-
filtro al proceso, basado en la frecuencia de                 Bibliografı́a
los candidatos en euskera estándar7 . El filtro
aplicado es muy simple: si hay más de un can-                Almeida, J. J, A. Santos, y A. Simoes. 2010.
didato se elige el más frecuente, pero a pesar                 Bigorna–a toolkit for orthography migra-
de su simplicidad se mejoran los resultados y                   tion challenges. En Seventh International
se consigue superar el baseline tal y como se                   Conference on Language Resources and
puede ver en los resultados presentados en la                   Evaluation (LREC2010), Valletta, Malta.
Tabla 4.                                                      Beesley, K. R y L. Karttunen. 2002. Finite-
   7
    La frecuencia de cada término la hemos obteni-
                                                                state morphology: Xerox tools and tech-
do de un corpus de un diario de noticias editado en             niques. Studies in Natural Language Pro-
euskera.                                                        cessing. Cambridge University Press.


                                                         75
Proceedings of the Workshop on Iberian Cross-Language Natural Language Processing Tasks (ICL 2011)




Goldsmith, J. 2001. Unsupervised learning
  of the morphology of a natural language.
  Computational linguistics, 27(2):153–198.
Hulden, M., I. Alegria, I. Etxeberria, y
  M. Maritxalar. 2011. An unsupervi-
  sed method for learning morphology of
  variants from the standard morphology
  and a little parallel corpus. En (EMNLP
  workshop) Dialects-2011 — First Works-
  hop on Algorithms and Resources for Mo-
  delling of Dialects and Language Varie-
  ties.
Hulden, Mans. 2009. Foma: a finite-state
  compiler and library. En Proceedings
  of the 12th Conference of the European
  Chapter of the Association for Compu-
  tational Linguistics: Demonstrations Ses-
  sion, páginas 29–32, Athens, Greece. As-
  sociation for Computational Linguistics.
Johnson, Mark. 1984. A discovery procedu-
   re for certain phonological rules. En Pro-
   ceedings of the 10th international confe-
   rence on Computational linguistics, CO-
   LING ’84, páginas 344–347. Association
   for Computational Linguistics.
Kestemont, M., W. Daelemans, y G. De
  Pauw.      2010.   Weigh your words—
  memory-based lemmatization for Middle
  Dutch. Literary and Linguistic Compu-
  ting, 25(3):287–301.
Koskenniemi, K. 1991. A discovery procedu-
  re for two-level phonology. Computational
  Lexicology and Lexicography: A Special Is-
  sue Dedicated to Bernard Quemada, pági-
  nas 451–446.




                                                         76