=Paper=
{{Paper
|id=None
|storemode=property
|title=Recursos y métodos de sustitución léxica en las variantes dialectales en euskera
|pdfUrl=https://ceur-ws.org/Vol-824/paper10.pdf
|volume=Vol-824
}}
==Recursos y métodos de sustitución léxica en las variantes dialectales en euskera ==
Proceedings of the Workshop on Iberian Cross-Language Natural Language Processing Tasks (ICL 2011)
Recursos y métodos de sustitución léxica en las variantes
dialectales en euskera
Resources and methods for lexical substitution between Basque dialects
Larraitz Uria Mans Hulden Izaskun Etxeberria Iñaki Alegria
IKER (UMR5478) University of Helsinki IXA taldea IXA taldea
IKERBASQUE Language Technology UPV-EHU UPV-EHU
larraitz.uria@ehu.es mans.hulden@helsinki.fi izaskun.etxeberria@ehu.es i.alegria@ehu.es
Resumen: La coexistencia de cinco idiomas oficiales en la Penı́nsula Ibérica (eus-
kera, catalán, gallego, portugués y español) nos lleva a buscar la colaboración para
compartir los recursos desarrollados en los diferentes idiomas de la región. Sin em-
bargo, dentro de un mismo idioma se puede dar la coexistencia de más de un dialecto
y ası́ ocurre con el euskera. Las herramientas desarrolladas para este idioma se han
centrado básicamente en el euskera unificado o estándar, de modo que no funcionan
correctamente con los dialectos, que son numerosos. Este trabajo se enmarca dentro
de la idea de buscar la forma de establecer semiautomáticamente una relación entre
el euskera estándar y sus variantes dialectales. Esto permitirı́a aplicar las herra-
mientas automáticas disponibles a los textos anteriores a la unificación del idioma,
pudiendo explotar de forma automática la gran riqueza lingüı́stica que aportan.
Palabras clave: Morfologı́a computacional, reglas fonológicas, programación lógica
inductiva, dialectos.
Abstract: The coexistence of five languages with official status in the Iberian Penin-
sula (Basque, Catalan, Galician, Portuguese, and Spanish), has prompted collabo-
rative efforts to share and cross-develop resources and materials for these languages
of the region. However, it is not the case that comprehension boundaries only exist
between each of these five languages; dialectal variation is also present, and in the
case of Basque, for example, many written resources are only available in dialectal
(or pre-standardization) form. At the same time, all the computational tools deve-
loped for Basque are based on the standard language (“Batua”), and will not work
correctly with other dialects, of which there are many. In this work we attempt to
semiautomatically deduce relationships between the standard Basque and dialectal
variants. Such an effort provides an opportunity to apply existing tools to texts is-
sued before a unified standard Basque was developed, and so take advantage of a
rich source of linguistic information.
Keywords: Computational morphology, phonological rules, inductive logic pro-
gramming, dialects.
1. Introducción en el idioma a tratar. Pero si se quiere un
En el área de la morfologı́a computacio- analizador que compagine cobertura y preci-
nal existe una lı́nea de investigación abier- sión, la mejor opción es una descripción basa-
ta en relación a la forma de combinar las da en un léxico y un conjunto de paradigmas
aproximaciones lingüı́sticas y las basadas en y reglas fonológicas especificados por exper-
aprendizaje automático. Los métodos basa- tos. Las descripciones basadas en tecnologı́as
dos en aprendizaje automático (Goldsmith, de estados finitos son las más populares para
2001) pueden ser interesantes cuando se re- este fin (Beesley y Karttunen, 2002).
quiere un desarrollo rápido y se cuenta con El desarrollo de las bibliotecas digitales
pocos recursos o no se dispone de expertos y de la lingüı́stica basada en corpus impli-
70
Proceedings of the Workshop on Iberian Cross-Language Natural Language Processing Tasks (ICL 2011)
ca a menudo el tratamiento de las variantes de reglas fonológicas de dos niveles pero sin
dialectales y/o diacrónicas del idioma, pero llegar a automatizarlo.
no resulta viable tener que realizar una nue- En un trabajo anterior, (Johnson, 1984)
va especificación por cada variante a tratar. presenta un “procedimiento de inferencia”
Ası́ pues, el objetivo de nuestras investiga- para el aprendizaje de reglas fonológicas a
ciones es inferir la morfologı́a de las varian- partir de datos, lo que puede ser considerado
tes, o la equivalencia entre variantes y formas un trabajo precursor del algoritmo ILP (In-
estándar del euskera a partir de un pequeño ductive Logic Programming) que proponemos
corpus paralelo variante/estándar, un corpus entre nuestros métodos.
de la variante y un analizador o reconocedor
del estándar. 3. Recursos lingüı́sticos
En el trabajo que presentamos tratamos Para el aprendizaje o inferencia y para
de inferir métodos de sustitución léxica en- la evaluación se necesitan recursos que de-
tre variantes y formas estándar del euskera ben ser almacenados, testeados y, en su caso,
basándonos en la morfologı́a. Concretamen- etiquetados. La idea de este trabajo es usar
te, nuestros primeros experimentos se centran métodos no supervisados o con un mı́nimo de
en el dialecto labortano y el objetivo es la supervisión, ya que ése es el escenario realista
sustitución léxica de las formas propias del para generar aplicaciones en el área.
dialecto por las correspondientes del euske- De momento vamos a probar distintas
ra estándar. La tarea clave, en una primera técnicas en el contexto de las variaciones dia-
fase al menos, es la inferencia de las reglas fo- lectales en euskera, pero intentando que los
nológicas a partir de pares variante-estándar. métodos sean, en la medida de lo posible, in-
En este artı́culo describimos los recursos bási- dependientes del idioma.
cos con los que contamos en nuestra inves- Para llevar a cabo nuestros experimentos
tigación, ası́ como los métodos que estamos en esta investigación, contamos con tres cor-
experimentando para inferir las reglas. pus de origen y caracterı́sticas diferentes:
Aunque los resultados obtenidos en los
primeros experimentos son alentadores, to- Corpus de transcripciones en labortano
davı́a deben ser ampliados y mejorados antes
Corpus de la Biblia en euskera estándar
de poder integrarlos en herramientas compu-
y labortano
tacionales efectivas.
Las técnicas que describimos son, en su Corpus de transcripciones en diversos
mayor parte, independientes del idioma y dialectos
además, es de suponer que con cierta adap-
tación pueden ser aplicadas a otras variantes 3.1. Corpus de transcripciones en
o registros del idioma (por ejemplo, idioma labortano
más informal: email, SMS. . . ). Por una parte, contamos con un corpus
paralelo construido en el centro de investi-
2. Trabajos relacionados gación IKER (UMR5478) de Bayona (Fran-
El problema general de aprendizaje super- cia) dentro del proyecto TSABL1 . El objetivo
visado de las variantes dialectales ha sido dis- de este proyecto es el estudio de la variación
cutido en la literatura en varias áreas: fono- sintáctica de los dialectos del Paı́s Vasco al
logı́a computacional, morfologı́a, aprendizaje norte de los Pirineos (Iparralde). Para ello,
automático. . . se ha creado la aplicación BASYQUE2 , en la
Por ejemplo, (Kestemont, Daelemans, y que se recogen datos y ejemplos de variantes
Pauw, 2010) presentan un sistema indepen- dialectales que provienen de tres fuentes de
diente del idioma que puede “aprender” va- información: cuestionarios especı́ficos, vı́deos
riaciones intra-lema. El sistema se utiliza pa- de testimonios grabados en otros proyectos y
ra producir una lematización coherente de textos literarios.
textos en holandés antiguo sobre un corpus de Una de las principales razones que nos
literatura medieval (Corpus-Gysseling), que ha llevado a utilizar los datos recogidos en
contiene manuscritos de fecha anterior al año 1
Towards a Syntactic Atlas of the Basque
1300. Language: http://www.iker.cnrs.fr/-tsabl-towards-a-
(Koskenniemi, 1991), por su parte, ofrece syntactic-atlas-of-.html?lang=fr
2
un esbozo de un procedimiento de inferencia http://ixa2.si.ehu.es/atlas2/index.php?lang=eu
71
Proceedings of the Workshop on Iberian Cross-Language Natural Language Processing Tasks (ICL 2011)
BASYQUE es la posibilidad que nos ofrece hemos obtenido los resultados que presenta-
de crear corpus paralelos. Los cuestionarios mos en el apartado 5.
y testimonios grabados se transcriben y jun-
to a cada ejemplo o frase dialectal también
se especifica la forma estándar que le corres- Dialecto labortano vs Euskera estándar
ponde. En el caso de los textos literarios es- Leihoa estea erreusitu du.
critos en dialecto, también se indica la forma Leihoa ixtea erreusitu du.
estándar que corresponde a cada frase. Estos
corpus paralelos labortano-estándar son los Eni galdegin daut 100 euro.
que vamos a utilizar en los experimentos de Eni galdegin dit 100 euro.
sustitución léxica. Ez gero uste izan nexkatxa guziek tu egiten dautatela.
La aplicación BASYQUE pretende abar- Ez gero uste izan neskatxa guztiek tu egiten didatela.
car todos los dialectos y subdialectos de Ipa-
rralde y para ello la recopilación de los datos Tabla 2: Varios ejemplos de frases en el cor-
se extiende a todo el territorio. Para los expe- pus paralelo labortano-estándar.
rimentos, en cambio, en esta primera fase nos
centramos en el dialecto labortano, por lo que
hemos empleado los ejemplos y los textos que 3.2. Corpus de la Biblia
provienen de las zonas donde se habla dicho Otra fuente de información básica para
dialecto. Y de momento hemos utilizado los nuestro trabajo es la Biblia, que está pu-
ejemplos recogidos mediante los cuestionarios blicada en euskera estándar y también en
y los textos literarios, ya que las grabaciones dialecto labortano, lo que nos proporcio-
de video no están transcritas todavı́a. Cabe na un corpus paralelo bastante mayor que
reseñar que dichos corpus están siendo actua- el anterior. La versión de la Biblia en
lizados y ampliados dentro del mencionado euskera estándar ha sido editada dos ve-
proyecto, de modo que los datos presentados ces, en 1994 y en 2004 respectivamente,
en la Tabla 1 corresponden al corpus de trans- y existe una versión electrónica en la web
cripciones labortano-estándar disponible en (http://www.biblija.net). En cuanto a la ver-
el momento de realizar los experimentos. sión en dialecto labortano, se trata de una
adaptación de la versión estándar realizada
por Marcel Etcehandy y publicada en 2007,
Corpus 80 % 20 %
y dispone también de una versión electróni-
No frases 2.117 1.694 423 ca (http://amarauna.org/biblia/). Debido a
No palabras 12.150 9.734 2.417 problemas de formato, de momento sólo he-
Palabras dif. 3.874 3.327 1.243 mos alineado 9 libros (elegidos al azar) con
las caracterı́sticas que se reflejan en la Tabla
Pares filtrados 3.610 3.108 1.172
3.
Pares idénticos 2.532 2.200 871
Pares diferentes 1.078 908 301
No de libros total 76
Tabla 1: Datos correspondientes al corpus No de libros disponible 66
labortano-estándar utilizado en los experi- Palabras totales en euskera estándar 545.700
mentos realizados hasta el momento. La pri- Palabras diferentes 38.069
mera columna corresponde al corpus comple-
to. El 80 % ha sido utilizado en la fase de Libros alineados 9
aprendizaje y el 20 % restante en la fase de Palabras totales en libros alineados 104.967
test. Palabras diferentes en libros alineados 15.007
Tabla 3: Datos correspondientes al corpus de
En la Tabla 2 se presentan varios ejemplos
la Biblia y a los libros alineados hasta la fe-
de frases con el fin de que se vea el tipo de
cha.
diferencias que se pueden encontrar entre el
dialecto y el estándar, ası́ como la correspon-
dencia palabra a palabra con que se cuenta Este corpus, al ser de mayor tamaño, nos
en dicho corpus. va a permitir realizar experimentos con dis-
Éste es el corpus en el que hemos centrado tintos tamaños de corpus paralelo, y ası́ con-
nuestros primeros experimentos y con el que seguir estimar correlaciones entre tamaños de
72
Proceedings of the Workshop on Iberian Cross-Language Natural Language Processing Tasks (ICL 2011)
corpus paralelo y calidad de la inferencia, pe- técnicas que estamos desarrollando y que des-
ro todavı́a no tenemos resultados que mostrar cribimos posteriormente.
sobre este aspecto ya que estamos en la fase Las caracterı́sticas de este corpus son en
de preparación y obtención de información parte equiparables a las del primer corpus
de este corpus. Por otro lado, a diferencia del descrito, pero con dos diferencias reseñables:
corpus descrito en 3.1, en el corpus de la Bi-
blia no hay transcripción palabra a palabra recoge gran variedad de dialectos, ya
tal y como se puede observar en el pequeño que ciertas formas van cambiando casi
ejemplo3 que se presenta a continuación, por de pueblo a pueblo (véase el mapa en
lo que la obtención del diccionario de pala- http://ahotsak.com/herriak/mapa/)
bras equivalentes se prevé más complicada. de momento sólo disponemos de la trans-
cripción de las formas dialectales y que-
Dialecto labortano:
remos obtener de forma (semi)automáti-
“Errana dauzut: ukan in- ca las correspondientes formas estándar.
dar eta kuraia. Ez ikara, ez Una parte de la investigación que ha-
izi, ni, Jauna, zure Jainkoa, cemos es determinar el mı́nimo de tra-
zurekin izanen bainaiz joanen bajo manual (para relacionar las formas
ziren toki guzietan”. estándar con las dialectales) necesario
para obtener unos buenos resultados des-
Euskera estándar: pués en la posterior sustitución léxica.
“Kementsu eta adoretsu 4. Métodos
izateko esan dizut. Ez ika-
ratu, ez kikildu, ni, Jauna, Nuestra primera aproximación se va a
zure Jainkoa, zurekin izango basar en obtener pares de palabras varian-
bainaiz zure ibilera guztie- te/estándar a partir de un corpus paralelo
tan”. (que quisiéramos minimizar). Para ello re-
utilizamos lo que hemos llamado métodos
3.3. Corpus de transcripciones en básicos. Posteriormente inferiremos reglas fo-
diversos dialectos nológicas mediantes dos métodos.
Existen varios proyectos en el Paı́s Vasco 4.1. Métodos básicos
(Ahotsak.com4 o EKE.org5 , por ejemplo) que De cara a obtener pares de palabras equi-
tienen como objetivo recoger el habla tradi- valentes a partir de corpus paralelos vamos a
cional de cada zona, es decir, recopilar y di- utilizar dos programas: lexdiff y Giza++.
fundir testimonios orales de vasco-parlantes. El primero, lexdiff, ha sido diseñado y uti-
En ambos proyectos se graban y se recogen lizado para la migración automática de tex-
conversaciones y/o testimonios de personas tos entre diferentes ortografı́as del portugués
que se expresan en su propio dialecto. (Almeida, Santos, y Simoes, 2010), debido
Nosotros hemos creado una red de cola- al cambio de norma que se produjo en ese
boración con Ahotsak.com para poder reco- idioma. Este programa trata de identificar la
pilar y ayudar a transcribir corpus paralelos equivalencia de palabras a partir de frases pa-
de variantes dialectales relacionadas con la ralelas. Funciona muy bien cuando los textos
forma estándar, ya que el objetivo de Ahot- son equivalentes palabra por palabra, y es por
sak.com es ir transcribiendo gran parte de los ello que lo hemos utilizado en los experimen-
testimonios grabados. Hasta ahora, cuentan tos realizados hasta ahora con el corpus de
con 5.204 pasajes (1.462.555 palabras) trans- transcripciones labortano-estándar.
critos en las formas dialectales. Sin embar- Adicionalmente, lexdiff también calcula
go, para facilitar la búsqueda se quiere re- los cambios de ngramas y sus frecuencias,
lacionar cada forma dialectal con su corres- obteniendo resultados de este tipo: 76 ait
pondiente estándar, y para hacerlo de forma ->at; 39 dautz ->diz; lo que indica que el
(semi)automática nos queremos valer de las ngrama ait ha cambiado a at 76 veces en el
3 corpus y que dautz ha cambiado 39 veces a
El ejemplo corresponde al versı́culo 9 del capı́tulo
1 del libro de Josué. diz.
4
http://www.ahotsak.com/ Estos resultados pueden expresar cambios
5
http://www.eke.org/ (morfo)fonológicos regulares entre los textos,
73
Proceedings of the Workshop on Iberian Cross-Language Natural Language Processing Tasks (ICL 2011)
y han sido explotados en el primero de los Por ejemplo, la correspondencia ager-
métodos de inferencia que presentamos a con- kuntza/agerpena puede expresarse me-
tinuación. diante dos reglas: rkun ->rpen y ntza
Giza++6 es una conocida herramienta pa- ->na, pero permitir varios cambios pue-
ra inferir diccionarios, con probabilidades de de producir ruido innecesario y bajar la
traducción, a partir de corpus paralelos. Lo precisión.
queremos comparar con lexdiff dado que el
La forma de aplicar las reglas: secuen-
corpus de la Biblia con el que contamos es
cialmente o paralelamente.
un corpus paralelo divergente y de mayor ta-
maño, pero todavı́a no podemos presentar re- Hacer que los cambios sean de longitud
sultados sobre dicha comparación. mı́nima y condicionados por el contexto.
4.2. Métodos de inferencia 4.2.2. Inferencia usando
Estamos experimentando con dos métodos programación lógica inductiva.
de inferencia: El segundo método consiste en los siguien-
tes pasos:
1. Inferencia de reglas fonológicas basada
en substrings 1. Alinear los pares de palabras letra por
letra usando la mı́nima distancia de edi-
2. Inferencia usando programación lógica
ción.
inductiva sobre pares de palabras equi-
valentes 2. Extraer un conjunto de reglas fonológi-
cas.
El método baseline consiste en aprender
las equivalencias de pares diferentes en el cor- 3. Por cada regla, buscar contraejemplos.
pus de aprendizaje (corpus paralelo) y susti- 4. Buscar la restricción de contexto mı́nima
tuirlas en el de test, suponiendo que si no que resuelva los contraejemplos.
se ha aprendido la forma estándar correspon-
diente a la variante es la propia variante. Este Por ejemplo, si tenemos los pares emai-
método tiene como resultado buena precisión ten/ematen e igorri/igorri, en el primer paso
y baja cobertura. Los dos métodos que propo- se detecta el cambio i/0, que en el paso dos se
nemos parten de una lista de equivalencia de convierte en la regla i ->0. Pero ese cambio
palabras o de substrings obtenida por las he- no se puede aplicar con igorri, por lo que la
rramientas básicas y tratan de inferir reglas regla se transforma para evitar que sea apli-
fonológicas de reemplazamiento que puedan cada. Este método tiene la ventaja de explo-
ser compiladas por xfst de Xerox (Beesley tar las formas que son idénticas en el dialecto
y Karttunen, 2002) o foma (software libre, y en el estándar.
(Hulden, 2009)).
4.2.1. Inferencia de reglas fonológicas 5. Resultados y trabajos futuros
basada en substrings. Hemos centrado los experimentos en el
En principio se basa en los cambios de corpus descrito en el apartado 3.1 con el fin
ngramas que obtiene lexdiff. Hay varias for- de testear y evaluar los métodos descritos en
mas de transformar esa salida de lexdiff en el apartado 4. Los primeros resultados nos
reglas de reemplazamiento que se compilan muestran una mejora respecto al método ba-
a transductores finitos. Estamos teniendo en seline, pero todavı́a deben ser mejorados para
cuenta los siguientes factores: utilizarlos en herramientas computacionales
efectivas.
Limitar los cambios a tener en cuen- La Tabla 4 muestra los resultados obteni-
ta a aquellos que tienen un mı́nimo de dos. Dichos resultados corresponden tanto al
frecuencia (por ejemplo, dos o tres). Si método baseline, como a los mejores resulta-
aumentamos el mı́nimo mejoraremos la dos obtenidos con cada una de las propuestas
precisión, pero perderemos cobertura. de inferencia de reglas descritas y se expresan
Limitar el número de reglas que pue- en términos de precisión (precision), cobertu-
den ser aplicadas a la misma palabra. ra (recall ) y la medida-F (F-score), que es la
combinación de ambas. En los tres casos, el
6
http://code.google.com/p/giza-pp/ proceso de aprendizaje se ha llevado a cabo
74
Proceedings of the Workshop on Iberian Cross-Language Natural Language Processing Tasks (ICL 2011)
con el 80 % del corpus, y el test, cuyos resul- Precision Recall F-score
tados son los que see muestran en la Tabla 4,
se ha realizado sobre el 20 % restante. Baseline 95,62 43,52 59,82
Aunque no se presentan más que los mejo- Método 1 75,10 60,13 66,79
res resultados obtenidos con cada método, el Método 2 85,02 58,47 69,29
número de experimentos realizados con am-
bos métodos ha sido numeroso, sobre todo
con el método de inferencia de reglas basada Tabla 4: Mejores resultados (en términos
en substrings, debido a los diferentes factores de F-score) obtenidos con ambos métodos
que se pueden tener en cuenta para inferir las de inferencia en los experimentos realizados
reglas fonológicas. Dichos experimentos nos con el corpus de transcripciones labortano-
muestran que: estándar.
Disminuir la mı́nima frecuencia exigida Con respecto al segundo método de infe-
a un cambio para obtener una regla fo- rencia, basado en programación lógica induc-
nológica a partir de él, aumenta notable- tiva, los resultados obtenidos han sido mejo-
mente la cobertura, pero también hace res, y además, con este método no es necesa-
que disminuya la precisión, con lo que el ria la aplicación del filtro posterior. El motivo
resultado en términos de F-score apenas fundamental es que este método no sólo utili-
mejora. za la información de los pares diferentes, sino
La aplicación de más de una regla en una también la de los pares iguales en el dialecto
palabra no parece aportar incrementos y en el estándar.
importantes en la mejora de los resulta- Se puede consultar información más deta-
dos. llada tanto de los métodos propuestos como
de la evaluación realizada en (Hulden et al.,
El modo de aplicación, secuencial o para- 2011).
lelo, de las reglas (cuando se aplica más Todavı́a nos queda mucho trabajo por rea-
de una regla en la misma palabra) pre- lizar en el campo de esta investigación. La
senta resultados muy similares, aunque aplicacion de los métodos descritos al corpus
algo mejores si la aplicación es paralela. de la Biblia nos va a permitir precisar hasta
qué punto es determinante que la transcrip-
Por último, minimizar la longitud de los ción entre dialecto y estándar sea palabra a
cambios y hacer que sean condicionados palabra, y qué tamaño de corpus es necesario
por el contexto, obtiene claramente me- para obtener resultados que indiquen que es
jores resultados. posible conseguir herramientas automáticas
de sustitución léxica.
En los primeros experimentos con este méto- Además, creemos que los métodos utiliza-
do de inferencia, ya pudimos comprobar que dos deben ser combinados con otros que in-
la aplicación exclusivamente de las reglas fieran relaciones entre lemas y morfemas (va-
fonológicas no mejoraba los resultados del riantes y formas estándar), variantes de para-
método baseline, debido a que la precisión era digmas y que contrasten esas inferencias con
excesivamente baja (para cada término a sus- corpus de variantes (sin que sean corpus pa-
tituir, el número de candidatos era a menu- ralelos) más amplios.
do elevado). Ello nos llevó a aplicar un post-
filtro al proceso, basado en la frecuencia de Bibliografı́a
los candidatos en euskera estándar7 . El filtro
aplicado es muy simple: si hay más de un can- Almeida, J. J, A. Santos, y A. Simoes. 2010.
didato se elige el más frecuente, pero a pesar Bigorna–a toolkit for orthography migra-
de su simplicidad se mejoran los resultados y tion challenges. En Seventh International
se consigue superar el baseline tal y como se Conference on Language Resources and
puede ver en los resultados presentados en la Evaluation (LREC2010), Valletta, Malta.
Tabla 4. Beesley, K. R y L. Karttunen. 2002. Finite-
7
La frecuencia de cada término la hemos obteni-
state morphology: Xerox tools and tech-
do de un corpus de un diario de noticias editado en niques. Studies in Natural Language Pro-
euskera. cessing. Cambridge University Press.
75
Proceedings of the Workshop on Iberian Cross-Language Natural Language Processing Tasks (ICL 2011)
Goldsmith, J. 2001. Unsupervised learning
of the morphology of a natural language.
Computational linguistics, 27(2):153–198.
Hulden, M., I. Alegria, I. Etxeberria, y
M. Maritxalar. 2011. An unsupervi-
sed method for learning morphology of
variants from the standard morphology
and a little parallel corpus. En (EMNLP
workshop) Dialects-2011 — First Works-
hop on Algorithms and Resources for Mo-
delling of Dialects and Language Varie-
ties.
Hulden, Mans. 2009. Foma: a finite-state
compiler and library. En Proceedings
of the 12th Conference of the European
Chapter of the Association for Compu-
tational Linguistics: Demonstrations Ses-
sion, páginas 29–32, Athens, Greece. As-
sociation for Computational Linguistics.
Johnson, Mark. 1984. A discovery procedu-
re for certain phonological rules. En Pro-
ceedings of the 10th international confe-
rence on Computational linguistics, CO-
LING ’84, páginas 344–347. Association
for Computational Linguistics.
Kestemont, M., W. Daelemans, y G. De
Pauw. 2010. Weigh your words—
memory-based lemmatization for Middle
Dutch. Literary and Linguistic Compu-
ting, 25(3):287–301.
Koskenniemi, K. 1991. A discovery procedu-
re for two-level phonology. Computational
Lexicology and Lexicography: A Special Is-
sue Dedicated to Bernard Quemada, pági-
nas 451–446.
76