-

DLSI en Tweet-norm 2013: Normalizacion de Tweets en Espan~ol

Alejandro Mosquera

amosquera@dlsi.ua.es 0 1 0 DLSI-Universidad de Alicante Alicante 1 Paloma Moreda DLSI-Universidad de Alicante Alicante

2009

The lexical richness and its ease of access to large volumes of information converts the Web 2.0 into an important resource for Natural Language Processing. Nevertheless, the frequent presence of non-normative linguistic phenomena that can make any automatic processing challenging. In this paper is described the participation in the Text Normalisation Workshop at the SEPLN conference (Tweet-norm 2013). The Workshop includes one unique task focused on the normalisation of Spanish tweets. For this task we have used TENOR, a multilingual lexical normalisation tool for Web 2.0 texts.

Desde la aparicion de los primeros medios de comunicacion sociales, las aplicaciones de la Web 2.0 han ganado popularidad en Internet. Enciclopedias colaborativas como Wikipedia, sitios de micro-blogging como Twitter o redes sociales como Facebook se encuentran entre los primeros puestos por numero de visitas de la Red1.

Estas aplicaciones han transformado el ujo de la informacion que se comparte en Internet. Este cambio de paradigma se centra en los usuarios, quienes generan y consumen dicha informacion. La naturaleza informal de dicho intercambio y la diversidad geogra ca y social de los usuarios se re eja en su lenguaje escrito, siendo frecuente la aparicion de fenomenos lingu sticos no normativos tales como emoticonos, supresion de grafemas y sustituciones lexicas entre otros.

Por ejemplo, en el caso particular de Twitter2, el numero maximo de caracteres por mensaje esta limitado a 140, por lo que es comun encontrar abreviaciones y contracciones no-estandar. As , igual que en los mensajes SMS, algunas palabras o s labas pueden ser representadas por letras o numeros que tienen la misma pronunciacion pero cuyo taman~o es menor. Por ejemplo, cansados tiene una pronunciacion equivalente a cansa2. De la misma forma, la s laba o conjuncion que puede ser sustituida por k o q. Otra forma de acortar palabras es omitir ciertas letras, normalmente vocales. Por ejemplo, la palabra trabajo puede ser acortada como trbj. Por otra parte, la expresion de emociones o estados de animo suele hacerse mediante emoticonos, empleandose para ello acentos, comas y otros s mbolos de puntuacion, pudiendo es2http://www.twitter.com tos ser omitidos deliberadamente en el resto del texto.

La gran variedad lexica unida al gran volumen de textos disponible en la Web 2.0 la convierten en un recurso importante para el procesamiento del lenguaje natural (PLN). Sin embargo, sus caracter sticas informales complican el procesado de este tipo de textos de forma automatica. Entre los estudios que abordan este problema destacan los que hacen uso de tecnicas de normalizacion. Entendiendo el concepto de normalizacion como un proceso que permite ((limpiar)) una palabra o texto transformando las variantes lexicas noestandar del lenguaje en sus formas canonicas. Sin embargo, la gran mayor a de los trabajos realizados en esta l nea han sido para el idioma ingles. Por esta razon, Tweet-norm propone la normalizacion lexica de Tweets en espan~ol. Con el objetivo de abordar esta tarea se ha hecho uso de la herramienta de normalizacion multilingue TENOR (Mosquera y Moreda, 2012) y a continuacion expondremos la metodolog a empleada y los resultados obtenidos..

El art culo se organiza de la siguiente forma: en la seccion 2 se describe el estado de la cuestion. En la seccion 3 explicamos nuestra metodolog a. Los resultados obtenidos en el taller son evaluados en la seccion 4. Finalmente en la seccion 5 se comentan las conclusiones y trabajo futuro. 2.

Estado de la Cuestion

Se pueden distinguir tres tendencias principales a la hora de normalizar este tipo de textos. La primera emplea tecnicas de traduccion automatica, la segunda se basa en correccion ortogra ca y la tercera usa tecnicas de reconocimiento del habla.

La aplicacion de tecnicas de traduccion automatica se ha demostrado util para normalizar textos SMS (Aw et al., 2006) tomando como idioma origen los textos nonormativos y como idioma destino su equivalencia normalizada. Este sistema tambien se ha usado para traducir textos en lenguaje SMS al espan~ol (Lopez et al., 2010) , siendo la unica que hemos encontrado para este idioma, y empleando el motor de traduccion estad stica MOSES (Hoang et al., 2007) . Sin embargo, estas propuestas de traduccion necesitan corpus relativamente grandes previamente normalizados y alineados para obtener buenos resultados (Kaufmann, 2010) .

El uso del modelo de Shannon para canales con ruido (Shannon, 1948) se suele emplear en los sistemas de correccion automatica para realizar una correccion ortogra ca a nivel de palabra (Choudhury et al., 2007) . Dichos errores ortogra cos pueden ser intencionales para darle enfasis y sentimiento a una palabra (goooooooooool!!) o contracciones no-estandar homofonas para ahorrar espacio (knsado). Tanto este caso como con textos de escasa longitud se di culta considerablemente la tarea de normalizacion empleando este modelo, ya que el contexto no juega un papel tan relevante.

Por ultimo, las tecnicas de reconocimiento automatico del habla (RAH) se basan en la hipotesis de que la mayor a de las variantes lexicas no-estandar tienen una equivalencia homofona estandar (ksa - casa). Empleando algoritmos foneticos para codi car la pronunciacion de la palabra a normalizar se genera una lista de candidatos homofonos de la cual se extrae la palabra normalizada mediante modelos del lenguaje (Gouws et al., 2011) . Los sistemas de normalizacion no-supervisada basados en esta tecnica han obtenido los mejores resultados (Han y Baldwin, 2011) . 3.

Normalizacion de Tweets con TENOR

Hemos participado en Tweet-norm empleando la herramienta de normalizacion multilingue TENOR, siguiendo una estrategia similar a la usada satisfactoriamente en textos de la Web 2.0 y SMS en ingles empleando tecnicas de RAH pero adaptada a las singularidades del idioma espan~ol. Dado que TENOR esta orientado principalmente a la sustitucion de variantes lexicas se ha adaptado su funcionamiento acorde a los objetivos del taller de normalizacion.

En primer lugar de niremos el ambito de la tarea propuesta en el apartado 3.1. En el apartado 3.2 explicaremos la metodolog a empleada. 3.1.

Ambito de la tarea

El objetivo del taller consiste en estandarizar una cantidad determinada de tweets con serios problemas de normalizacion. El sistema propuesto debe ser capaz de etiquetar las palabras dentro de tres grupos dependiendo si se tratan de variantes lexicas, palabras correctas o si pertenecen a otro idioma y obtener su version canonica. En el caso de las palabras pertenecientes a otro idioma si existiesen errores ortogra cos tambien se debe proporcionar la version correcta. 3.2.

Metodolog a

TENOR sigue un proceso de normalizacion compuesto de dos pasos: En primer lugar se emplea un metodo de clasi cacion con el n de detectar variantes lexicas no-estandar o fuera del vocabulario; En segundo lugar, se sustituyen las palabras seleccionadas en el paso anterior por su forma original normalizada. 3.2.1. Deteccion de palabras fuera del vocabulario

En este estudio nos referimos a las palabras fuera del vocabulario como aquellas que no forman parte del vocabulario espan~ol estandar y requieren ser normalizadas. Sin embargo, la deteccion de este tipo de palabras no es una tarea trivial: La presencia de palabras en otros idiomas, neologismos o siglas, as como la riqueza lingu stica del espan~ol di culta la tarea de conocer si una palabra pertenece al idioma o por el contrario es una variante lexica no-normativa. Ya que se ha usado como sistema de referencia durante el proceso de anotado de los textos del taller3, se ha hecho uso de Freeling(Atserias et al., 2006) para dicha tarea. 3.2.2. Sustitucion de variantes lexicas

En este apartado hablaremos de los diferentes pasos que se llevan a cabo para reemplazar las palabras clasi cadas como fuera del vocabulario en la seccion anterior por su forma normalizada. En primer lugar, se introduciran diversas tecnicas de ltrado empleadas para ((limpiar)) los textos. En el siguiente paso, se detalla el proceso de sustitucion de abreviaturas y transliteraciones. A continuacion, se comentara el algoritmo de indexado fonetico implementado en TENOR con el objetivo de obtener listas de palabras con pronunciaciones equivalentes. Posteriormente, este metodo se aplicara con el objetivo de identi car posibles candidatas para reemplazar las palabras no-normativas. Finalmente, se explica como el uso de algoritmos de similitud y modelos del lenguaje puede ayudar a seleccionar la forma canonica mas apropiada 3http://komunitatea.elhuyar.org/tweetnorm/ les/2013/05/Manual para participantes Tweet-norm.pdf para cada sustitucion a partir de la lista de palabras candidatas.

Filtrado: En primer lugar, se han eliminado todos los caracteres no imprimibles y s mbolos de puntuacion no estandar excepto los emoticonos.

Abreviaturas y Transliteraciones: El segundo paso del analisis es comprobar que la palabra no perteneciente al vocabulario sea una abreviatura, la cual se sustituye por su equivalencia normalizada. En caso contrario, mediante reglas heur sticas se reducen las repeticiones de vocales o consonantes dentro de la palabra (nooo!, gooooolll). Posteriormente se analiza la presencia de numeros cuya pronunciacion es frecuentemente utilizada para acortar la longitud del mensaje (separa2, ning1) o combinacion alfanumerica (c4s4), sustituyendose por su transliteracion mas apropiada mediante una tabla de equivalencias.

De forma adicional, se ha compilado manualmente una tabla de equivalencias con 146 de las abreviaturas mas comunes (qtal, xfa) que necesitan un tratamiento especial al ser expresiones compuestas o variantes que guardan muy poca o ninguna similitud lexica con su equivalencia normalizada.

Indexado Fonetico: Se ha empleado el diccionario expandido de GNU Aspell4 aumentado con nombres de pa ses, ciudades, siglas y nombres propios mas comunes. El lexico resultante de 931.435 palabras incluye conjugaciones en diferentes tiempos verbales y entidades nombradas. Posteriormente, se ha construido un ndice fonetico con las palabras de dicho lexico agrupandolas en base a su pronunciacion. Esto se ha realizado de forma no-supervisada empleando el algoritmo del metafono (Philips, 2000) adaptado al espan~ol. Este sistema permite representar la pronunciacion de una palabra empleando un conjunto de reglas. Por ejemplo, el metafono caracterizado por (JNTS) permite indexar las siguientes palabras gentes, gent os, jinetas, jinetes, juanetes, juntas y juntos entre otras.

En la siguiente parte del proceso se obtiene el metafono de la palabra resultante y se comprueba su presencia en el ndice fonetico para obtener una lista de posibles palabras candidatas en caso de encontrar una coincidencia.

4http://aspell.net Similitud Lexica: El algoritmo Gestalt (Ratcli y Metzener, 1988) que esta basado en el principio de la maxima sub-secuencia comun, permite obtener un ndice de similitud entre dos cadenas con valores entre 0 y 100, donde 100 es maxima similitud y 0 es ausencia de similitud. Se ha calculado la similitud de la palabra a normalizar con cada una de las candidatas foneticas obtenidas en el paso anterior. Posteriormente, las candidatas con un ndice de similitud menor de 60 han sido descartadas ya que por debajo de este umbral no se han observado resultados ables.

Modelos del Lenguaje: Finalmente, cuando hay mas de una palabra candidata con la misma similitud lexica se ha utilizado un modelo de lenguaje basado en trigramas y entrenado sobre el corpus CESS-ESP (Mart y Taule, 2007) . 4. 4.1.

Evaluacion Corpus utilizado:

Se ha hecho uso del corpus de test5 proporcionado por la organizacion para evaluar los resultados. Dicho corpus consta de 564 tweets correspondiente a los d as 1 y 2 de abril de 2013 localizados en el area geogra ca de la pen nsula iberica, eliminando aquellas regiones que tienen lenguas coo ciales. Este corpus contiene textos mayoritariamente en espan~ol. 4.2.

Resultados

Se han enviado 2 ejecuciones, la primera (DLSI-Alicante-1) empleando Freeling para extraer las palabras fuera del vocabulario y la segunda (DLSI-Alicante-2) haciendo uso de las palabras fuera del vocabulario existentes en el corpus de test. Los resultados obtenidos en la tarea solamente se han evaluado en base a la precision y se describen en el Cuadro 1.

Corpus

Dev100 Dev500 Test Test

Ejecucion

DLSI-Alicante-1 DLSI-Alicante-1 DLSI-Alicante-1 DLSI-Alicante-2

5http://komunitatea.elhuyar.org/tweetnorm/ les/2013/07/tweets-test-reference.txt Los resultados son competitivos, teniendo en cuenta la di cultad de la tarea, pero no directamente comparables a los obtenidos en trabajos anteriores (Mosquera y Moreda, 2012) , (Mosquera, Lloret, y Moreda, 2012) ya que si bien los objetivos generales del taller se podr an englobar dentro de la normalizacion de variantes lexicas hay ciertos aspectos tales como la restauracion de mayusculas/minusculas, distincion de palabras en espan~ol de otros idiomas o la correccion de nombres propios que se podr an solapar con otras tareas como la correccion automatica. As mismo, se han tenido en cuenta no solo variantes lexicas del espan~ol sino tambien palabras en otros idiomas pertenecientes a nombres propios o marcas (Ej. redbull por Red Bull).

Por otra parte, evaluando unicamente la precision se puede bene ciar a los sistemas mas conservadores que hayan detectado un numero bajo de palabras fuera del vocabulario pero cuya normalizacion haya sido mayormente correcta. Una evaluacion basada en precision y cobertura permitir a realizar una evaluacion global de los sistema propuestos en ambos niveles: deteccion y normalizacion de las palabras fuera del vocabulario. 5.

Conclusiones y Trabajo Futuro

Este art culo presenta la contribucion del grupo DLSI a la tarea de normalizacion de tweets del taller Tweet-norm. La herramienta de normalizacion TENOR ha obtenido resultados aceptables teniendo en cuenta el ambito mas amplio de la tarea que va mas alla de la correccion de variantes lexicas informales. As mismo, se ha tenido que integrar Freeling dentro del proceso de deteccion de palabras fuera del vocabulario, cuyo diccionario es de menor taman~o que el ndice fonetico empleado por TENOR, lo cual ha podido afectar a los resultados. Por otra parte, los problemas abordados en el taller son de gran relevancia a la hora de procesar textos de la Web 2.0 y serviran de referencia para mejorar el rendimiento del sistema propuesto en un trabajo futuro.

Bibliograf a

Atserias, Jordi, Bernardino Casas, Elisabet Comelles, Meritxell Gonzalez, Lluis Padro, y Muntsa Padro. 2006. FreeLing 1.3: Syntactic and semantic services in an open-source NLP library. En Proceedings of the 5th International Conference on Language Resources and Evaluation (LREC'06), paginas 48{55.

Aw, Aiti, Min Zhang, Juan Xiao, y Jian Su. 2006. A phrase-based statistical model for sms text normalization. Proceedings of the COLING/ACL, paginas 33{40.

Choudhury , Monojit, Rahul Saraf, Vijit Jain, Sudeshna Sarkar, y Anupam Basu. 2007 . Investigation and modeling of the structure of texting language . En Proceedings of the IJCAI-Workshop on Analytics for Noisy Unstructured Text Data, paginas 63 { 70 .

Gouws , Stephan, Donald Metzler, Congxing Cai, y Eduard Hovy. 2011 . Contextual Bearing on Linguistic Variation in Social Media . ACL Workshop on Language in Social Media (LSM).

Han , Bo y Timothy Baldwin. 2011 . Lexical normalisation of short text messages: Makn sens a #twitter. En Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies , paginas 368 { 378 , Portland , Oregon, USA, June. Association for Computational Linguistics.

Hoang , Hieu, Alexandra Birch, Chris Callison-burch, Richard Zens, Rwth Aachen, Alexandra Constantin, Marcello Federico, Nicola Bertoldi, Chris Dyer, Brooke Cowan, Wade Shen, Christine Moran, y Ondrej Bojar. 2007 . Moses: Open source toolkit for statistical machine translation . paginas 177 { 180 .

Kaufmann , Joseph. 2010 . Syntactic Normalization of Twitter Messages . REU Site for Arti cial Intelligence Natural Language Processing and Information Retrieval Research Project , 2 .

Lopez , Veronica, Ruben San-Segundo, Roberto Mart n , Julian David Echeverry, y Syaheera Lut . 2010 . Sistema de traduccion de lenguaje SMS a castellano. En XX Jornadas Telecom I+D, Valladolid , Spain, Septiembre.

Mart , Maria Antonia y Mariona Taule. 2007 . Cess-ece: corpus anotados del espan~ol y catalan . Arena Romanistica. A new Nordic journal of Romance studies, 1.

Mosquera , Alejandro, Elena Lloret, y Paloma Moreda. 2012 . Towards facilitating the accessibility of web 2.0 texts through text normalisation . En Proceedings of the LREC workshop: Natural Language Processing for Improving Textual Accessibility (NLP4ITA) ; Istanbul, Turkey., paginas 9 { 14 .

Mosquera , Alejandro y Paloma Moreda. 2012 . Tenor: A lexical normalisation tool for spanish web 2.0 texts . En Text, Speech and Dialogue - 15th International Conference (TSD 2012 ). Springer.

Philips , Lawrence. 2000 . The double metaphone search algorithm . C/C++ Users Journal , 18 : 38 { 43 , June.

Ratcli , John W. y David E.

Metzener . 1988 . Pattern matching: The gestalt approach . Dr. Dobb's Journal , 13 ( 7 ): 46 { 72 , Julio .

Shannon , Claude. E.

1948 . A mathematical theory of communication . The Bell Systems Technical Journal , 27 : 379 { 423 .