DLSI en Tweet-norm 2013: Normalización de Tweets en Español∗ DLSI at Tweet-norm 2013: Normalisation of Spanish Tweets Alejandro Mosquera Paloma Moreda DLSI-Universidad de Alicante DLSI-Universidad de Alicante Alicante Alicante amosquera@dlsi.ua.es moreda@dlsi.ua.es Resumen: La gran variedad léxica y su facilidad de acceso a un gran volumen de información convierten a la Web 2.0 en un recurso importante para el Procesamiento del Lenguaje Natural. Sin embargo, la frecuente aparición de fenómenos lingüı́sticos no normativos pueden dificultar el procesado automático de estos textos. En este trabajo se describe la participación en el taller sobre Normalización de Tweets en el congreso de la SEPLN (Tweet-norm 2013). El taller propone una única tarea con el objetivo de estandarizar textos no normativos en español extraı́dos de Twitter. Para dicha tarea, se ha hecho uso de TENOR, una herramienta de normalización multilingüe para textos de la Web 2.0. Palabras clave: Normalización, Tweets Abstract: The lexical richness and its ease of access to large volumes of information converts the Web 2.0 into an important resource for Natural Language Processing. Nevertheless, the frequent presence of non-normative linguistic phenomena that can make any automatic processing challenging. In this paper is described the partici- pation in the Text Normalisation Workshop at the SEPLN conference (Tweet-norm 2013). The Workshop includes one unique task focused on the normalisation of Spa- nish tweets. For this task we have used TENOR, a multilingual lexical normalisation tool for Web 2.0 texts. Keywords: Normalisation, Tweets 1. Introducción de fenómenos lingüı́sticos no normativos ta- les como emoticonos, supresión de grafemas Desde la aparición de los primeros medios y sustituciones léxicas entre otros. de comunicación sociales, las aplicaciones de Por ejemplo, en el caso particular de Twit- la Web 2.0 han ganado popularidad en Inter- ter2 , el número máximo de caracteres por net. Enciclopedias colaborativas como Wiki- mensaje está limitado a 140, por lo que es pedia, sitios de micro-blogging como Twitter común encontrar abreviaciones y contraccio- o redes sociales como Facebook se encuentran nes no-estándar. Ası́, igual que en los mensa- entre los primeros puestos por número de vi- jes SMS, algunas palabras o sı́labas pueden sitas de la Red1 . ser representadas por letras o números que Estas aplicaciones han transformado el tienen la misma pronunciación pero cuyo ta- flujo de la información que se comparte en maño es menor. Por ejemplo, cansados tiene Internet. Este cambio de paradigma se centra una pronunciación equivalente a cansa2. De en los usuarios, quienes generan y consumen la misma forma, la sı́laba o conjunción que dicha información. La naturaleza informal de puede ser sustituida por k o q. Otra forma dicho intercambio y la diversidad geográfica de acortar palabras es omitir ciertas letras, y social de los usuarios se refleja en su len- normalmente vocales. Por ejemplo, la pala- guaje escrito, siendo frecuente la aparición bra trabajo puede ser acortada como trbj. Por ∗ otra parte, la expresión de emociones o esta- Este artı́culo ha sido cofinanciado por el Ministe- dos de ánimo suele hacerse mediante emoti- rio de Ciencia e Innovación (proyecto TIN2009-13391- C04-01), y la Conselleria d’Educación de la Genera- conos, empleándose para ello acentos, comas litat Valenciana (proyectos PROMETEO/2009/119, y otros sı́mbolos de puntuación, pudiendo es- ACOMP/2010/286 y ACOMP/2011/001) 1 2 http://www.alexa.com/topsites http://www.twitter.com tos ser omitidos deliberadamente en el resto El uso del modelo de Shannon para cana- del texto. les con ruido (Shannon, 1948) se suele em- La gran variedad léxica unida al gran vo- plear en los sistemas de corrección automáti- lumen de textos disponible en la Web 2.0 la ca para realizar una corrección ortográfica a convierten en un recurso importante para el nivel de palabra (Choudhury et al., 2007). procesamiento del lenguaje natural (PLN). Dichos errores ortográficos pueden ser inten- Sin embargo, sus caracterı́sticas informales cionales para darle énfasis y sentimiento a complican el procesado de este tipo de textos una palabra (goooooooooool!!) o contracciones de forma automática. Entre los estudios que no-estándar homófonas para ahorrar espacio abordan este problema destacan los que ha- (knsado). Tanto este caso como con textos de cen uso de técnicas de normalización. Enten- escasa longitud se dificulta considerablemen- diendo el concepto de normalización como un te la tarea de normalización empleando este proceso que permite ((limpiar)) una palabra o modelo, ya que el contexto no juega un papel texto transformando las variantes léxicas no- tan relevante. estándar del lenguaje en sus formas canóni- Por último, las técnicas de reconocimien- cas. Sin embargo, la gran mayorı́a de los tra- to automático del habla (RAH) se basan en bajos realizados en esta lı́nea han sido para la hipótesis de que la mayorı́a de las varian- el idioma inglés. Por esta razón, Tweet-norm tes léxicas no-estándar tienen una equiva- propone la normalización léxica de Tweets en lencia homófona estándar (ksa - casa). Em- español. Con el objetivo de abordar esta ta- pleando algoritmos fonéticos para codificar rea se ha hecho uso de la herramienta de nor- la pronunciación de la palabra a normalizar malización multilingüe TENOR(Mosquera y se genera una lista de candidatos homófo- Moreda, 2012) y a continuación expondremos nos de la cual se extrae la palabra normali- la metodologı́a empleada y los resultados ob- zada mediante modelos del lenguaje (Gouws tenidos.. et al., 2011). Los sistemas de normalización El artı́culo se organiza de la siguiente for- no-supervisada basados en esta técnica han ma: en la sección 2 se describe el estado de obtenido los mejores resultados (Han y Bald- la cuestión. En la sección 3 explicamos nues- win, 2011). tra metodologı́a. Los resultados obtenidos en el taller son evaluados en la sección 4. Final- 3. Normalización de Tweets con mente en la sección 5 se comentan las conclu- TENOR siones y trabajo futuro. Hemos participado en Tweet-norm em- pleando la herramienta de normalización 2. Estado de la Cuestión multilingüe TENOR, siguiendo una estrate- Se pueden distinguir tres tendencias prin- gia similar a la usada satisfactoriamente en cipales a la hora de normalizar este tipo de textos de la Web 2.0 y SMS en inglés em- textos. La primera emplea técnicas de tra- pleando técnicas de RAH pero adaptada a ducción automática, la segunda se basa en las singularidades del idioma español. Dado corrección ortográfica y la tercera usa técni- que TENOR está orientado principalmente a cas de reconocimiento del habla. la sustitución de variantes léxicas se ha adap- La aplicación de técnicas de traducción tado su funcionamiento acorde a los objetivos automática se ha demostrado útil para nor- del taller de normalización. malizar textos SMS (Aw et al., 2006) to- En primer lugar definiremos el ámbito de mando como idioma origen los textos no- la tarea propuesta en el apartado 3.1. En normativos y como idioma destino su equi- el apartado 3.2 explicaremos la metodologı́a valencia normalizada. Este sistema también empleada. se ha usado para traducir textos en lengua- je SMS al español (López et al., 2010), sien- 3.1. Ámbito de la tarea do la única que hemos encontrado para este El objetivo del taller consiste en estandari- idioma, y empleando el motor de traducción zar una cantidad determinada de tweets con estadı́stica MOSES (Hoang et al., 2007). Sin serios problemas de normalización. El siste- embargo, estas propuestas de traducción ne- ma propuesto debe ser capaz de etiquetar las cesitan corpus relativamente grandes previa- palabras dentro de tres grupos dependiendo mente normalizados y alineados para obtener si se tratan de variantes léxicas, palabras co- buenos resultados (Kaufmann, 2010). rrectas o si pertenecen a otro idioma y ob- tener su versión canónica. En el caso de las para cada sustitución a partir de la lista de palabras pertenecientes a otro idioma si exis- palabras candidatas. tiesen errores ortográficos también se debe Filtrado: En primer lugar, se han elimi- proporcionar la versión correcta. nado todos los caracteres no imprimibles y 3.2. Metodologı́a sı́mbolos de puntuación no estándar excepto los emoticonos. TENOR sigue un proceso de normaliza- ción compuesto de dos pasos: En primer lugar Abreviaturas y Transliteraciones: El se emplea un método de clasificación con el segundo paso del análisis es comprobar que fin de detectar variantes léxicas no-estándar la palabra no perteneciente al vocabulario o fuera del vocabulario; En segundo lugar, sea una abreviatura, la cual se sustituye por se sustituyen las palabras seleccionadas en el su equivalencia normalizada. En caso contra- paso anterior por su forma original normali- rio, mediante reglas heurı́sticas se reducen las zada. repeticiones de vocales o consonantes den- tro de la palabra (nooo!, gooooolll). Poste- 3.2.1. Detección de palabras fuera riormente se analiza la presencia de núme- del vocabulario ros cuya pronunciación es frecuentemente uti- En este estudio nos referimos a las pa- lizada para acortar la longitud del mensaje labras fuera del vocabulario como aquellas (separa2, ning1) o combinación alfanumérica que no forman parte del vocabulario español (c4s4), sustituyéndose por su transliteración estándar y requieren ser normalizadas. Sin más apropiada mediante una tabla de equi- embargo, la detección de este tipo de pala- valencias. bras no es una tarea trivial: La presencia de De forma adicional, se ha compilado ma- palabras en otros idiomas, neologismos o si- nualmente una tabla de equivalencias con 146 glas, ası́ como la riqueza lingüı́stica del es- de las abreviaturas más comunes (qtal, xfa) pañol dificulta la tarea de conocer si una pa- que necesitan un tratamiento especial al ser labra pertenece al idioma o por el contrario expresiones compuestas o variantes que guar- es una variante léxica no-normativa. Ya que dan muy poca o ninguna similitud léxica con se ha usado como sistema de referencia du- su equivalencia normalizada. rante el proceso de anotado de los textos del Indexado Fonético: Se ha empleado el taller3 , se ha hecho uso de Freeling(Atserias diccionario expandido de GNU Aspell4 au- et al., 2006) para dicha tarea. mentado con nombres de paı́ses, ciudades, si- 3.2.2. Sustitución de variantes léxicas glas y nombres propios más comunes. El léxi- En este apartado hablaremos de los dife- co resultante de 931.435 palabras incluye con- rentes pasos que se llevan a cabo para reem- jugaciones en diferentes tiempos verbales y plazar las palabras clasificadas como fuera del entidades nombradas. Posteriormente, se ha vocabulario en la sección anterior por su for- construido un ı́ndice fonético con las pala- ma normalizada. En primer lugar, se intro- bras de dicho léxico agrupándolas en base ducirán diversas técnicas de filtrado emplea- a su pronunciación. Esto se ha realizado de das para ((limpiar)) los textos. En el siguien- forma no-supervisada empleando el algorit- te paso, se detalla el proceso de sustitución mo del metáfono (Philips, 2000) adaptado al de abreviaturas y transliteraciones. A conti- español. Este sistema permite representar la nuación, se comentará el algoritmo de inde- pronunciación de una palabra empleando un xado fonético implementado en TENOR con conjunto de reglas. Por ejemplo, el metáfono el objetivo de obtener listas de palabras con caracterizado por (JNTS) permite indexar pronunciaciones equivalentes. Posteriormen- las siguientes palabras gentes, gentı́os, jine- te, este método se aplicará con el objetivo de tas, jinetes, juanetes, juntas y juntos entre identificar posibles candidatas para reempla- otras. zar las palabras no-normativas. Finalmente, En la siguiente parte del proceso se obtie- se explica como el uso de algoritmos de simi- ne el metáfono de la palabra resultante y se litud y modelos del lenguaje puede ayudar a comprueba su presencia en el ı́ndice fonético seleccionar la forma canónica más apropiada para obtener una lista de posibles palabras candidatas en caso de encontrar una coinci- 3 http://komunitatea.elhuyar.org/tweet- dencia. norm/files/2013/05/Manual para participantes - 4 Tweet-norm.pdf http://aspell.net Similitud Léxica: El algoritmo Gestalt Los resultados son competitivos, tenien- (Ratcliff y Metzener, 1988) que está basado do en cuenta la dificultad de la tarea, pero en el principio de la máxima sub-secuencia no directamente comparables a los obtenidos común, permite obtener un ı́ndice de simili- en trabajos anteriores(Mosquera y Moreda, tud entre dos cadenas con valores entre 0 y 2012),(Mosquera, Lloret, y Moreda, 2012) ya 100, donde 100 es máxima similitud y 0 es que si bien los objetivos generales del taller ausencia de similitud. Se ha calculado la si- se podrı́an englobar dentro de la normaliza- militud de la palabra a normalizar con cada ción de variantes léxicas hay ciertos aspec- una de las candidatas fonéticas obtenidas en tos tales como la restauración de mayúscu- el paso anterior. Posteriormente, las candi- las/minúsculas, distinción de palabras en es- datas con un ı́ndice de similitud menor de 60 pañol de otros idiomas o la corrección de han sido descartadas ya que por debajo de nombres propios que se podrı́an solapar con este umbral no se han observado resultados otras tareas como la corrección automática. fiables. Ası́ mismo, se han tenido en cuenta no sólo Modelos del Lenguaje: Finalmente, variantes léxicas del español sino también pa- cuando hay más de una palabra candidata labras en otros idiomas pertenecientes a nom- con la misma similitud léxica se ha utilizado bres propios o marcas (Ej. redbull por Red un modelo de lenguaje basado en trigramas Bull). y entrenado sobre el corpus CESS-ESP Por otra parte, evaluando únicamente la (Martı́ y Taulé, 2007). precisión se puede beneficiar a los sistemas más conservadores que hayan detectado un número bajo de palabras fuera del vocabu- 4. Evaluación lario pero cuya normalización haya sido ma- 4.1. Corpus utilizado: yormente correcta. Una evaluación basada en Se ha hecho uso del corpus de test5 pro- precisión y cobertura permitirı́a realizar una porcionado por la organización para evaluar evaluación global de los sistema propuestos los resultados. Dicho corpus consta de 564 en ambos niveles: detección y normalización tweets correspondiente a los dı́as 1 y 2 de de las palabras fuera del vocabulario. abril de 2013 localizados en el área geográfica de la penı́nsula ibérica, eliminando aquellas 5. Conclusiones y Trabajo Futuro regiones que tienen lenguas cooficiales. Este Este artı́culo presenta la contribución del corpus contiene textos mayoritariamente en grupo DLSI a la tarea de normalización de español. tweets del taller Tweet-norm. La herramienta de normalización TENOR ha obtenido resul- 4.2. Resultados tados aceptables teniendo en cuenta el ámbi- Se han enviado 2 ejecuciones, la primera to más amplio de la tarea que va más allá de (DLSI-Alicante-1) empleando Freeling para la corrección de variantes léxicas informales. extraer las palabras fuera del vocabulario y la Ası́ mismo, se ha tenido que integrar Freeling segunda (DLSI-Alicante-2) haciendo uso de dentro del proceso de detección de palabras las palabras fuera del vocabulario existentes fuera del vocabulario, cuyo diccionario es de en el corpus de test. Los resultados obtenidos menor tamaño que el ı́ndice fonético emplea- en la tarea solamente se han evaluado en base do por TENOR, lo cual ha podido afectar a a la precisión y se describen en el Cuadro 1. los resultados. Por otra parte, los problemas abordados en el taller son de gran relevancia Corpus Ejecución Precisión a la hora de procesar textos de la Web 2.0 y Dev100 DLSI-Alicante-1 68.03 servirán de referencia para mejorar el rendi- Dev500 DLSI-Alicante-1 57.27 miento del sistema propuesto en un trabajo Test DLSI-Alicante-1 54.53 futuro. Test DLSI-Alicante-2 52.11 Bibliografı́a Atserias, Jordi, Bernardino Casas, Elisa- Cuadro 1: Resultados obtenidos en la tarea bet Comelles, Meritxell González, Lluis de normalización. Padró, y Muntsa Padró. 2006. Free- 5 http://komunitatea.elhuyar.org/tweet- Ling 1.3: Syntactic and semantic services norm/files/2013/07/tweets-test-reference.txt in an open-source NLP library. En Procee- dings of the 5th International Conferen- Mosquera, Alejandro, Elena Lloret, y Palo- ce on Language Resources and Evaluation ma Moreda. 2012. Towards facilitating (LREC’06), páginas 48–55. the accessibility of web 2.0 texts through text normalisation. En Proceedings of the Aw, Aiti, Min Zhang, Juan Xiao, y Jian Su. LREC workshop: Natural Language Pro- 2006. A phrase-based statistical model for cessing for Improving Textual Accessibility sms text normalization. Proceedings of the (NLP4ITA) ; Istanbul, Turkey., páginas COLING/ACL, páginas 33–40. 9–14. Choudhury, Monojit, Rahul Saraf, Vijit Jain, Mosquera, Alejandro y Paloma Moreda. Sudeshna Sarkar, y Anupam Basu. 2007. 2012. Tenor: A lexical normalisation tool Investigation and modeling of the struc- for spanish web 2.0 texts. En Text, Speech ture of texting language. En Proceedings and Dialogue - 15th International Confe- of the IJCAI-Workshop on Analytics for rence (TSD 2012). Springer. Noisy Unstructured Text Data, páginas 63–70. Philips, Lawrence. 2000. The double me- taphone search algorithm. C/C++ Users Gouws, Stephan, Donald Metzler, Congxing Journal, 18:38–43, June. Cai, y Eduard Hovy. 2011. Contextual Bearing on Linguistic Variation in Social Ratcliff, John W. y David E. Metzener. 1988. Media. ACL Workshop on Language in Pattern matching: The gestalt approach. Social Media (LSM). Dr. Dobb’s Journal, 13(7):46–72, Julio. Han, Bo y Timothy Baldwin. 2011. Lexi- Shannon, Claude. E. 1948. A mathematical cal normalisation of short text messages: theory of communication. The Bell Sys- Makn sens a #twitter. En Proceedings of tems Technical Journal, 27:379–423. the 49th Annual Meeting of the Associa- tion for Computational Linguistics: Hu- man Language Technologies, páginas 368– 378, Portland, Oregon, USA, June. Asso- ciation for Computational Linguistics. Hoang, Hieu, Alexandra Birch, Chris Callison-burch, Richard Zens, Rwth Aachen, Alexandra Constantin, Marcello Federico, Nicola Bertoldi, Chris Dyer, Brooke Cowan, Wade Shen, Christine Moran, y Ondrej Bojar. 2007. Mo- ses: Open source toolkit for statistical machine translation. páginas 177–180. Kaufmann, Joseph. 2010. Syntactic Norma- lization of Twitter Messages. REU Site for Artificial Intelligence Natural Langua- ge Processing and Information Retrieval Research Project, 2. López, Veronica, Rubén San-Segundo, Ro- berto Martı́n, Julian David Echeverry, y Syaheera Lutfi. 2010. Sistema de traduc- ción de lenguaje SMS a castellano. En XX Jornadas Telecom I+D, Valladolid, Spain, Septiembre. Martı́, Maria Antonia y Mariona Taulé. 2007. Cess-ece: corpus anotados del es- pañol y catalán. Arena Romanistica. A new Nordic journal of Romance studies, 1.