-

Una cascada de transductores simples para normalizar tweets

In~aki Alegria

Izaskun Etxeberria

Gorka Labaka IXA Taldea

UPV/EHU

Postakutxa

Donostia i.alegria@ehu.es

izaskun.etxeberria@ehu.es

gorka.labaka@ehu.es

A system where several transducer or FST are combined in cascade is presented. Each transducer manages a simple step: learned examples, named-entities, basic misspellings, collapsed words, onomatopoeia words, more complex changes, lowercase/uppercase letters.

El sistema que desde el grupo IXA de la UPV-EHU presentamos para la resolucion de la tarea de normalizacion de tweets se basa fundamentalmente en la concatenacion de varios transductores o FSTs. Cada uno de los transductores se encarga de completar un hito mas o menos simple y la solucion nal llega de la suma de todos esos hitos. Las caracter sticas de la tarea y los datos utilizados, as como el estado del arte, no se detallan por falta de espacio pero pueden ser consultados en el sitio web del workshop1.

La tarea de normalizacion de los tweets tiene cierta similitud con otras tareas en las que nuestro grupo de investigacion viene trabajando (Alegria, Etxeberria, y Leturia, 2010) , especialmente con la de normalizacion de variantes diacronicas o dialectales en euskera (Hulden et al., 2011) .

Metodos y arquitectura

Tal y como se ha comentado en el apartado anterior, el sistema que se propone consiste en la concatenacion de diversos transductores simples, cada uno con una funcion muy

Este trabajo ha sido parcialmente nanciado por el Ministerio de Econom a y Competitividad; proyecto Tacardi (TIN2012-38523-C02-011). Gracias a Josef Novak por su ayuda en el uso de Phonetisaurus, y a Mans Hulden por su ayuda con foma.

1http://komunitatea.elhuyar.org/tweet-norm/ concreta. La arquitectura del sistema consta as de una serie de etapas secuenciales, cada una de las cuales da respuesta a nuevos casos. Las etapas en las que se divide el sistema son las siguientes: (1) Aprendizaje de los ejemplos disponibles en el corpus de desarrollo; (2) Reconocimiento de entidades; (3) Tratamiento de cambios ortogra cos basicos; (4) Tratamiento de palabras adyacentes unidas; (5) Tratamiento de onomatopeyas; (6) Resolucion de casos mas complejos.

Como veremos, en la ultima etapa se proponen soluciones alternativas que posteriormente se intentan combinar: distancia de edicion, cambios morfofonologicos mas complejos y modelo noisy-channel.

En varios de los transductores que describiremos hemos utilizado la herramienta foma (Hulden, 2009) . Se trata de una version libre equivalente a las herramientas de Xerox (Beesley y Karttunen, 2002) que permite describir y generar transductores.

Si tras la concatenacion de todas las respuestas, nalmente hay palabras nonormalizadas para las que no se tiene propuesta alguna, el sistema dara como respuesta la propia palabra de entrada.

El tema de las mayusculas y su variacion tambien se ha demostrado importante. Debido a esa variacion y al pequen~o taman~o del corpus de desarrollo se decidio que, salvo en las dos primeras etapas, las palabras a normalizar se transforman a minusculas y que al nal del proceso se hace un tratamiento especial de la mayuscula que se describe en la seccion 4.3. 2.1.

Ejemplos aprendidos

El primer transductor ha aprendido las parejas de palabras (pal. no-normalizada, pal. normalizada) anotadas a mano y proporcionadas en el corpus de desarrollo, de modo que si se le pregunta por alguna de ellas, devuelve la respuesta anotada.

Si una misma palabra no-normalizada aparece mas de una vez en el corpus se optara por la anotacion mas frecuente. 2.2.

Reconocimiento de entidades nombradas

Hay un conjunto importante de entidades nombradas que por su novedad o por otras razones Freeling (Carreras et al., 2004) no etiqueta y deben permanecer sin propuesta de normalizacion. Se decidio construir un reconocedor de estas entidades basado en la coleccion no anotada de tweets propuesta por la organizacion (ver seccion 3). 2.3.

Cambios ortogra cos basicos

Basandonos en el conocimiento del idioma y en los ejemplos del corpus de desarrollo hemos obtenido una gramatica de cambios basicos mediante la herramienta libre foma, que nos permite compilar las reglas en un transductor.

Las reglas incluidas en esta gramatica tratan los cambios relativos a tildes, repeticion de vocales al nal de la palabra (enfasis), perdida de la letra \d" en participios y cambios fonologicos/ortogra cos frecuentes (qu!q, qu!k, h!0, b!v, ll!y...). Estas reglas se componen con un lexico obtenido procesando mediante Freeling la ya mencionada coleccion de tweets ademas de la lista propia de Freeling.

Como la mayor a de los transductores siguientes, este transductor tiene una caracter stica resen~able: en caso de obtener mas de una respuesta se escoge la mas frecuente (modelo de lenguaje de unigramas). 2.4.

Palabras adyacentes unidas

En el corpus de desarrollo aparecen varios ejemplos de palabras adyacentes que aparecen unidas y que deben ser normalizadas. Por ejemplo Alomejor o lasombradelolivo. El tratamiento de este tipo de palabras se ha llevado a cabo concatenando el lexico y an~adiendo ciertas restricciones para evitar sobregeneracion extrema; principalmente, limitando la aparicion de palabras cortas en la combinacion.

A falta de un corpus mas extenso para este tipo de variantes, la gramatica parece reconocer bastante bien estos casos, pero tiende a corregir como multipalabra palabras que son otro tipo de variantes. Para limitar este problema se ha realizado un ajuste basado en frecuencias (ver seccion 3). 2.5.

Onomatopeyas

Tambien se deben normalizar las onomatopeyas que aparecen frecuentemente en los tweets. Por ejemplo jajajaja o uhuhuh. Para ello se ha generado un pequen~o lexico de s labas habituales en las onomatopeyas y una gramatica simple que permite la repeticion de las mismas. Esta gramatica se basa en la solucion al conocido fenomeno morfologico de reduplicacion (Beesley y Karttunen, 2000) . Finalmente ha habido que an~adir mayor exibilidad ya que a menudo las repeticiones no son perfectas. Por ejemplo jajajajaa. 2.6.

WFST: Modelo de canal

ruidoso (noisy-channel )

Para obtener un transductor siguiendo este modelo habitual en reconocimiento de voz se ha utilizado la herramienta Phonetisaurus2. Esta herramienta open source desarrollada por J. Novak permite crear de manera sencilla sistemas de conversion grafema/fonema (G2P) o fonema/grafema (P2G) basandose en automatas de estados nitos con pesos o WFSTs (Novak, Minematsu, y Hirose, 2012) . En la tarea de normalizacion de tweets, sin embargo, se ha utilizado para construir un sistema de conversion grafema/grafema, siguiendo los pasos que la herramienta exige.

Aunque no hay espacio para describir en detalle la herramienta, merece la pena comentar la simplicidad de su uso, que consta basicamente de dos pasos: (1) alinear las palabras para crear un diccionario de entrenamiento; (2) entrenar un modelo en base a pares de palabras ya conocidas que posteriormente permitira dar respuesta a nuevas palabras.

Las respuestas del sistema pueden ser palabras no normalizadas que deben ser elimi2http://code.google.com/p/phonetisaurus/ nadas. Para esto se usa el lexico descrito en la seccion 3 y que se utiliza en varios de los transductores.

En cualquier caso la primera palabra normalizada propuesta por G2G puede no ser la palabra mas frecuente y ser a interesante combinar la probabilidad de transiciones calculada por G2G con la frecuencia. Esto queda como tarea pendiente. 2.7.

Distancia de edicion y cambios complejos

Una primera aproximacion que puede verse como un baseline es obtener las palabras que estan a la m nima distancia de edicion y elegir la mas frecuente. Esto se realiza facilmente usando la opcion med de la citada herramienta foma.

Otra opcion que hemos explorado es enriquecer y exibilizar la gramatica de cambios basicos 2.3 an~adiendo fenomenos morfofonologicos mas complejos (p. ej. la perdida de caracteres, principalmente vocales) y exibilizando la aplicacion de las reglas para permitir varios cambios en la misma palabra. Compilando estas reglas y componiendolas con el lexico como se hace en la gramatica referenciada en 2.3, se obtiene un transductor de mayor taman~o capaz de corregir variantes mas alejadas de la forma normalizada. 3.

Recursos externos

Para la realizacion de nuestro sistema se han utilizado varios recursos externos basados en un amplio corpus de tweets y en un buscador. 3.1.

Corpus de tweets

Se han recuperado los mas de 200.000 tweets identi cados por la organizacion y se han procesado mediante Freeling. Las palabras reconocidas son almacenadas consiguiendo as un diccionario de frecuencias en el dominio. Para solucionar la falta de cobertura de palabras poco frecuentes, son an~adidas con frecuencia 1 las entradas del diccionario de Freeling. Con estos datos se genera el lexico, con sus frecuencias, que es utilizado en varias de las etapas descritas en la seccion 2.

Las palabras no reconocidas se pueden considerar como variantes habituales en el dominio. Fueron examinadas y se llego a la conclusion de que la mayor a eran entidades. Tras un repaso y seleccion de las que ten an una frecuencia mayor que 10 se construyo el diccionario de entidades nombradas que se usa en la segunda etapa del sistema (ver apartado 2.2). 3.2.

Buscador Bing

A la hora de determinar la posibilidad de proponer varias palabras adyacentes como forma de normalizar un caso (seccion 2.4), es importante evitar falsos positivos. Aunque se dispone de la probabilidad de cada palabra se decidio que era necesario conocer la frecuencia de la colocacion, para lo que se ha utilizado la API del buscador Bing 3. Se debe tener en cuenta que la probabilidad de los terminos multipalabra es baja y muchas veces es cero en el corpus de tweets utilizado, por lo que tras una evaluacion cualitativa se decidio basar la decison en el numero de apariciones en un buscador. 4.

Ajustes y pruebas

Las gramaticas se fueron ajustando en base a los ejemplos del corpus de desarrollo, pero siempre tendiendo a generalizar las reglas en base a morfofonolog a. Tambien se ajustaron los umbrales de frecuencia para el modulo de palabras adyacentes unidas mencionado en 2.4.

Por otro lado, debido a que el modulo de ejemplos aprendidos (2.1) y el modulo WFST (2.6) se basan en aprendizaje, y que el corpus de desarrollo de los 500 tweets no es muy grande (se cuenta con un total de 775 pares de palabras anotadas), para testear y ajustar el sistema en desarrollo se ha utilizado crossvalidation, dividiendo los datos en 5 carpetas.

El principal objetivo perseguido en las pruebas realizadas ha sido dar con la combinacion idonea de las respuestas obtenidas en cascada tratando de conseguir la union de todas las respuestas correctas. Las pruebas realizadas y los resultados obtenidos se describen a continuacion. 4.1.

Comparacion de los 3 subsistemas

La primera evaluacion midio los resultados de unir las respuestas de las 5 primeras etapas con cada una de las respuestas obtenidas por los tres transductores que resuelven casos mas complejos y que se han descrito en 2.6 y 2.7. Los resultados se re ejan en la tabla 1. Tal y como puede observarse el mejor resultado lo obtiene la concatenacion con el 3http://www.bing.com/developers/s/APIBasics.html transductor PHON (descrito en 2.6), seguido muy de cerca por el transductor foma mas complejo (RULES) y quedando en ultimo lugar, como preve amos, el transductor MED (los dos ultimos se describen en 2.7).

Transductor

PHON RULES MED Cuadro 1: Precision obtenida con cada transductor de casos mas complejos. 4.2.

Combinacion de las respuestas

Combinar las respuestas puede mejorar los resultados ya que hay diferencias entre ellas. Pero no es evidente como hacer la combinacion. Primero probamos a combinar los 3 transductores mediante un sistema de votacion simple en el que se establece una prioridad entre los transductores para los casos de empate. Se han hecho dos pruebas variando la prioridad entre ellos y los resultados obtenidos son los que re eja la tabla 2. Tal y como puede apreciarse, la votacion obtiene peores resultados que antes, excepto en el caso del transductor MED.

Se han vuelto a analizar las diferencias de los resultados de los transductores PHON y RULES y al ver que cada uno resuelve casos que el otro no, se ha tratado de a nar mas la combinacion de respuestas de los mismos. As , se ha hecho que el transductor PHON no proporcione una unica respuesta sino tres posibles (elegidas segun diferencias entre probabilides y teniendo en cuenta ademas la frecuencia de cada una) y despues se ha intentado combinar esas respuestas con las de los otros dos transductores mediante un sistema de votacion algo mas complejo. Los resultados, sin embargo, no han mejorado. Esta combinacion queda como trabajo futuro.

Votacion

PHON-RULES-MED RULES-PHON-MED

Precision

63,48 63,74 Cuadro 2: Precision obtenida estableciendo un sistema de votacion simple entre los 3 transductores de casos mas complejos.

A la vista de los resultados, y dado que las diferencias entre los dos primeros casos de la tabla 1 son muy pequen~os, se han enviado dos resultados del test para ser evaluados: uno obtenido utilizando en la etapa nal el transductor PHON y el otro utilizando el transductor RULES. 4.3.

Mayusculas

Otro aspecto que se ha tratado de ajustar en el proceso de pruebas ha sido el tratamiento de las letras mayusculas y minusculas, puesto que acertar en ese aspecto puede mejorar los resultados notablemente. Excepto los transductores de las dos primeras etapas, el resto trabajan siempre en minusculas. Para decidir nalmente si una palabra debe comenzar con mayuscula o no se han probado dos estrategias sencillas: (1) la respuesta se proporciona en mayuscula si la entrada comienza con mayuscula; (2) comienzan por mayuscula aquellas respuestas que corresponden a una palabra no-normalizada que es comienzo de un tweet. Las pruebas realizadas con el corpus de desarrollo son algo mejores para la segunda opcion, que nalmente se ha seguido al realizar el test. 5.

Resultados de test y mejoras posibles

Los resultados obtenidos sobre el test se re ejan en la tabla 3, logrando el quinto lugar entre los 13 sistemas presentados.

Sistema

PHON RULES

Precision

61,9 60,9 Cuadro 3: Precision sobre el corpus de test.

Teniendo en cuenta que es un sistema formado por componentes muy simples, creemos que es un resultado satisfactorio.

En relacion con las mejoras posibles, lo cierto es que a pesar de las pruebas realizadas no se ha conseguido acertar con la combinacion nal idonea que aune las respuestas correctas de los transductores nales creados para la resolucion de los casos mas complejos. Esta es la proxima tarea que debemos afrontar.

Adicionalmente deber amos a nar mas en decidir cuando no se debe modi car la palabra. En el art culo de referencia para el ingles (Han y Baldwin, 2011) esto se resuelve mediante un clasi cador.

Bibliograf a

Alegria , In~aki, Izaskun Etxeberria, y Igor Leturia. 2010 . Errores ortogra cos y de competencia en textos de la web en euskera . Procesamiento del lenguaje natural , 45 : 137 { 144 .

Beesley , K. R y L. Karttunen . 2002 . Finitestate morphology: Xerox tools and techniques . Studies in Natural Language Processing . Cambridge University Press.

Beesley , Kenneth R y Lauri Karttunen. 2000 . Finite-state non-concatenative morphotactics . En Proceedings of the 38th Annual Meeting on Association for Computational Linguistics , paginas 191 { 198 . Association for Computational Linguistics .

Carreras , Xavier, Isaac Chao, Lluis Padro, y Muntsa Padro. 2004 . Freeling: An opensource suite of language analyzers . En LREC.

Han , Bo y Timothy Baldwin. 2011 . Lexical normalisation of short text messages: Makn sens a# twitter . En ACL , paginas 368 { 378 .

Hulden , Mans. 2009 . Foma: a nite-state compiler and library . En Proceedings of the 12th Conference of the European Chapter of the Association for Computational Linguistics: Demonstrations Session, paginas 29 { 32 , Athens, Greece. Association for Computational Linguistics.

Hulden , Mans, In~aki Alegria, Izaskun Etxeberria, y Montse Maritxalar. 2011 . Learning word-level dialectal variation as phonological replacement rules using a limited parallel corpus . En Proceedings of the First Workshop on Algorithms and Resources for Modelling of Dialects and Language Varieties , DIALECTS ' 11 , paginas 39 { 48 , Stroudsburg , PA, USA. Association for Computational Linguistics.

Novak , Josef R., Nobuaki Minematsu, y Keikichi Hirose . 2012 . WFST-based grapheme-to-phoneme conversion: Open source tools for alignment, model-building and decoding . En Proceedings of the 10th International Workshop on Finite State Methods and Natural Language Processing , paginas 45 { 49 , Donostia {San Sebastian, July. Association for Computational Linguistics.