-

Prototipado R´apido de un Sistema de Normalizaci´on de Tuits: Una Aproximaci´on L´exica∗

Jesu´s Vilares y Miguel A. Alonso y David Vilares

david.vilares@udc.es jesus.vilares@udc.es miguel.alonso@udc.es 0 0 Departamento de Computaci ́on, Universidade da Corun ̃a Campus de Elvin ̃

a s/n, 15071 - A Corun ̃a

2012

This work describes the system for the normalization of tweets in Spanish designed by the Language in the Information Society (LYS) Group of the University of A Corun˜a for Tweet-Norm 2013. It is a conceptually simple and flexible system, which uses few resources and that faces the problem from a lexical point of view.

El uso del lenguaje en microtextos como los de Twitter y los SMS, denominado texting, se aleja mucho del esta´ndar (Lo´pez Ru´a, 2007; Oliva et al., 2013) : empleo de ciertas convenciones en la comunicacio´n (p.ej. usar emoticonos para mostrar emociones), ignorar la ortograf´ıa (p.ej. falta de tildes, intercambio de consonantes homo´fonas como b/v o c/q/k, etc.), ajustar el mensaje a la longitud ma´xima permitida (p.ej. 140 letras en un tuit) mediante acortamientos, contracciones, transformaciones, etc. Hablaremos entonces de variantes l´exicas para referirnos a los t´erminos resultantes (Han, Cook, y Baldwin, 2013) , siendo tales fen´omenos, mayormente de base fon´etica, espec´ıficos del idioma. Trabajos como los de Thurlow (2003) para el ingl´es y Lo´pez Ru´a (2007) para el espan˜ol describen su fenomenolog´ıa particular.

Asimismo, aplicar t´ecnicas de Procesamiento del Lenguaje Natural a los millones de tuits generados a diario ser´ıa de gran inter´es para la inteligencia empresarial, pero las alteraciones del lenguaje antes descritas lo dificultan. Una solucio´n es transformar dicho texto a lenguaje esta´ndar, es decir, normalizarlo. Si bien existen precedentes para otros idiomas (predominando el ingl´es) (Xue, Yin, y Davison, 2011; Costa-Jussa` y Banchs, 2013; Beaufort, 2011; Han, Cook, y Baldwin, 2013; Liu, Weng, y Jiang, 2012) , apenas existen trabajos para el espan˜ol (Oliva et al., 2013) . Se trata, adema´s, de propuestas complejas, fruto de un largo desarrollo. En contraste, para nuestra participaci´on en Tweet-Norm hemos optado por una propuesta sencilla aunque flexible, que emplease pocos recursos. Nuestro objetivo no ha sido tanto buscar un alto rendimiento como mostrar hasta do´nde es posible avanzar empleando t´ecnicas sencillas.

La estructura del art´ıculo es como sigue. La Seccio´n 2 aborda la arquitectura del sistema, su funcionamiento y los recursos empleados. La Seccio´n 3 detalla los resultados obtenidos. Finalmente, la Seccio´n 4 presenta nuestras conclusiones y trabajo futuro. 2.

Arquitectura y recursos

Buscando simplicidad y flexibilidad, optamos por una arquitectura en pipeline que nos permit´ıa integrar, eliminar e intercambiar mo´dulos de forma sencilla. Dichos mo´dulos se comunican empleando un formato de representaci´on intermedia codificado como texto y de naturaleza estructurada y jerarquizada. En este esquema un tuit esta´ formado por t´erminos y para cada t´ermino existe una serie de candidatos para su normalizaci´on.

Dado que la tarea de normalizacio´n consiste en etiquetar una palabra fuera-devocabulario (OOV, out-of-vocabulary word ) como correcta o bien proponer su forma correcta, dicha tarea puede verse como un proceso en dos fases. Primero, identificar las palabras dentro-del-vocabulario (IV, invocabulary word ) del tuit, y as´ı saber cua´les son las OOVs. Segundo, proponer la forma correcta de las OOVs detectadas, lo que a su vez implica: (a) identificar si se trata de una palabra correcta pero desconocida (que denominaremos OOVs propias) o bien de una variante l´exica; (b) en este u´ltimo caso, obtener su forma esta´ndar normalizada.

Esto nos llev´o a plantear la arquitectura general del sistema en tres etapas: (1) los tuits se tokenizan y preprocesan; (2) identificamos las IVs en base al vocabulario del sistema, obteniendo el conjunto inicial de OOVs; (3) clasificamos las OOVs en propias y variantes l´exicas, y proponemos para ´estas su forma esta´ndar normalizada, aplicando para ello una serie de procesos de normalizaci´on sobre el conjunto inicial de OOVs, obteniendo as´ı sus normalizaciones candidatas para luego elegir la ma´s adecuada.

Sobre esa arquitectura general se plantearon dos versiones del sistema (v´ease Figura 1), las cuales describimos a continuacio´n. 2.1.

Planteamiento inicial

En un principio el sistema se concibio´ en torno a dos herramientas: el preprocesador multilingu¨e Twokenize (Owoputi et al., 2013) , disen˜ado para tokenizar tuits as´ı como identificar ciertas entidades de inter´es tales como cifras, emoticonos, URLs, etc.; y la herramienta de correccio´n ortogra´fica GNU Aspell1 (rel. 0.60) junto con su diccionario. Debemos sen˜alar que si bien el mecanismo de bu´squeda de correcciones de Aspell combina una bu´squeda por distancia de edicio´n con una bu´squeda fon´etica basada en el algoritmo del meta´fono (Philips, 1990) , en el caso del espan˜ol ´esta u´ltima no esta´ disponible. Como muestra la parte izquierda de la Figura 1, ambas herramientas nos permitir´ıan abordar de forma sencilla las fases de preprocesamiento e identificacio´n de OOVs.

1http://aspell.net (a) tuits Twokenize [ARK Tools] BÚSQUEDA EN DICCIONARIOS (Aspell & ad-hoc) RECONOCIMIENTO

DE ENTIDADES (diccionarios ad-hoc) no implementada IDENTIFICACIÓN DE VARIANTES LÉXICAS Y NORMALIZACIÓN no implementada

tuits normalizados (b) tuits analyze [Freeling] Diccionario SMS PROCESA. RISAS GENERACIÓN DE CANDIDATOS REPETICIONES

DIACRÍTICOS ERRS. ORTOGRÁFICOS SELEC. CANDIDATOS

tuits normalizados

Figura 1: Arquitectura del sistema: (a) planteada inicialmente; (b) implementada

Otras opciones barajadas fueron el tokenizador gen´erico del corpus Europarl (Koehn, 2005) , as´ı como otros diccionarios del espan˜ol a los que ten´ıamos acceso: el del AnCora (Taul´e, Mart´ı, y Recasens, 2008) , el del proyecto ERIAL (Barcala et al., 2002) y el MULTEXT (V´eronis, 1999). Sin embargo elegimos aqu´ellos por su libre disponibilidad, lo que facilita la replicabilidad de los experimentos, as´ı como por sus buenas prestaciones. Asimismo, tras detectar ciertas carencias del diccionario de Aspell para ciertos tipos de palabras frecuentes en este tipo de textos (jerga del dominio, interjecciones, onomatopeyas, etc.), nos preparamos para ampliar el vocabulario del sistema empleando una serie de diccionarios y gazetteers ad-hoc creados a partir de diversas fuentes web libremente disponibles y de nuestra propia experiencia. Tambi´en se hab´ıa previsto realizar un proceso de reconocimiento de entidades en base a los gazetteers antes referidos.

Finalmente, en la tercera fase del proceso clasificar´ıamos y normalizar´ıamos las OOVs.

Sistema final

Sin embargo, tal arquitectura no fue la que finalmente se implement´o, siendo ´esta la que se muestra en la parte derecha de la Figura 1. La razo´n fue que, por un error de interpretaci´on, cre´ımos que no se permit´ıa emplear el mismo tipo de preprocesamiento llevado a cabo por la organizacio´n para la creacio´n del corpus de entrenamiento y que empleaba la herramienta analyze de Freeling (Padro´ y Stanilovsky, 2012) .2 Fue despu´es, con el sistema ya en un estado avanzado de implementaci´on, cuando nos percatamos del error. Decidimos entonces cambiar a analyze para una mejor comparabilidad de nuestros resultados con los del resto de participantes, que supusimos emplear´ıan mayormente Freeling. Esto supuso un nuevo retraso que, dado lo ajustado de los plazos, hizo que entre otras cosas no pudi´eramos integrar el reconocedor de entidades previsto. Por contra, la fase de identificacio´n de OOVs se simplific´o bastante respecto a la planteada inicialmente, de tal forma que el u´nico diccionario empleado, aparte del de Freeling, fue uno de jerga SMS.3

Llegados a este punto, con el conjunto inicial de OOVs identificado, se pasa a la fase de normalizaci´on. Primero se detectan y normalizan las onomatopeyas de risas (p.ej. jajaa) usando patrones. Seguidamente se generan, de forma acumulativa, posibles normalizaciones para las OOVs remanentes en base a los mecanismos de variacio´n considerados, que describimos en la Seccio´n 2.3. Dicho proceso es iterativo y se recoge en el Algoritmo 1.

Usar una cola de prioridad (Qgen) como estructura de almacenamiento nos permite primar los candidatos segu´n sean o no IVs, lo complejo de su generacio´n, y lo frecuente y factible del mecanismo de variacio´n. Es ma´s f´acil, por ejemplo, que una OOV sea una variante por repetici´on de vocales que lo sea por repetici´on de vocales, eliminacio´n de diacr´ıticos y errores ortogra´ficos todo a la vez. De este modo el supuesto mejor candidato sera´ siempre el primero.

Finalmente, una vez generados las posibles normalizaciones de cada OOV, ´estas son normalizadas al primero, y mejor, de sus candi2Ficheros de configuraci´on en http://devel.cpl. upc.edu/freeling/svn/trunk/src/main/twitter/.

3Descubrimos despu´es que, por algu´n error, el volcado del diccionario conten´ıa u´nicamente entradas hasta la K, mientras que su web (http://www. diccionariosms.com) parece haber sido ya cerrada. datos. Aunque no lo parezca, impl´ıcitamente se esta´ realizando la mencionada clasificacio´n de las OOVs en OOVs propias, aqu´ellas normalizadas a ellas mismas por no tener candidatos mejores, y en variantes l´exicas, aqu´ellas que cuentan con otros candidatos mejores y que son normalizadas a dichos t´erminos. 2.3.

Mecanismos de variaci´on

Actualmente consideramos u´nicamente tres posibles fuentes de variacio´n, que son abordadas desde una perspectiva l´exica para as´ı limitar la complejidad del sistema.

En primer lugar, la repeticio´n de caracteres. Si una OOV contiene dos o ma´s letras iguales seguidas podr´ıa ser una variante de este tipo (p.ej. besooos vs. besos). Las normalizaciones consideradas sera´n, por orden: la palabra sin repeticiones, con repeticiones de ma´ximo longitud dos, y las palabras resultantes de eliminar todas sus repeticiones excepto una, reducida a longitud dos.4

A continuacio´n, los errores en los diacr´ıticos. Cualquier OOV con vocales podr´ıa ser una variante de este tipo (p.ej. camion vs. camio´n). Se eliminan sus diacr´ıticos (de tenerlos) y se comprueba si el t´ermino resultante es una IV. Si lo es, se toma como u´nico candidato. En los otros casos se generan con Aspell sus correcciones candidatas,5 qued´andonos so´lo con aqu´ellas que difieren u´nicamente en los diacr´ıticos.

Finalmente, otros errores ortogra´ficos.

Cualquier OOV podr´ıa ser una forma mal escrita de otra palabra (p.ej. palabar vs. palabra). Los candidatos sera´n las correcciones devueltas por Aspell.

Asimismo se intent´o incorporar, sin ´exito, un cuarto mecanismo de normalizaci´on basado en bu´squeda fon´etica empleando el algoritmo del meta´fono (Philips, 1990) , el cual, como se indicaba en la Seccio´n 2.1, no esta´ disponible para el espan˜ol en Aspell. Para ello creamos un ´ındice invertido del vocabulario en base a sus transcripciones fon´eticas usando una adaptacio´n al espan˜ol del algoritmo (Mosquera, 2011) . A la hora de la bu´squeda dicha transcripci´on se combinaba con un algoritmo de correspondencia voc´alica pues las vocales eran obviadas por el algoritmo.

4Asimismo, se priorizan las repeticiones de ciertas letras en base a su naturaleza y frecuencia en el diccionario. Por orden: e, o, r, l, c y n.

5Se emplean siempre simult´aneamente los suggestion modes ultra y normal de Aspell.

Algoritmo 1 Generaci´on de normalizaciones candidatas.

Entrada:

toov: t´ermino OOV a normalizar. gi(): funci´on generadora de normalizaciones candidatas para el fen´omeno vi, donde V = (v1, . . . , vN ) son los fen´omenos de variaci´on abordados, ordenados por precedencia y frecuencia.

apli(): funci´on booleana que detecta si un t´ermino podr´ıa ser una variante l´exica de tipo vi.

Salida:

Qgen: lista de candidatos para la normalizaci´on. Actu´a a modo de cola de prioridad donde los candidatos han sido almacenados por orden de inserci´on priorizando aqu´ellos que son IVs sobre los OOVs. De este modo los candidatos IVs se situar´an en la parte anterior de la cola y los OOVs en la posterior, y a su vez, dentro de cada clase, los candidatos estar´an por orden de creaci´on, habiendo sido generados de forma acumulativa aplicando los diferentes mecanismos de normalizaci´on asociados a V. En resumen: primero, los candidatos IVs generados a partir de toov empleando g1; luego los generados empleando g2; los generados aplicando, secuencialmente, g1 y g2; los generados con g1 y g3; con g2 y g3; con g1, g2 y g3; etc.; y a continuaci´on lo mismo para los candidatos OOVs, con el propio toov en primer lugar. (*. . . sino, encolamos el nuevo candidato. *)

Evaluacio´n

Por limitaciones de tiempo so´lo tenemos dos tipos de runs: (a) un baseline sin normalizar que toma directamente la salida de analyze (base ); y (b) el resultado del proceso de normalizacio´n descrito anteriormente (norm). Los resultados obtenidos se muestran en el Cuadro 1, indicando: el nu´mero de errores de alineamiento (err ), el nu´mero de OOVs normalizadas de forma correcta (pos) e incorrecta (neg ), y el accuracy, tanto el calculado mediante el script Python inicial (accupy) como con el script PHP final (accuphp).

Su rendimiento, del 33-34 %, nos situ´a a la cola de los participantes, si bien muy cerca de otros, por lo que dada la simplicidad de nuestra aproximaci´on y los pocos fen´omenos de variacio´n tratados, no es un mal resultado. 4.

Conclusiones y trabajo futuro

E´sta ha sido nuestra primera incursi´on formal en la normalizaci´on de tuits en espan˜ol. Se trata de un sistema sencillo, que opera a nivel l´exico usando pocos recursos, y que tiene una arquitectura en pipeline que lo hace muy flexible. Su rendimiento ha sido satisfactorio a pesar de su simplicidad.

En el futuro, adema´s de abordar el resto de fuentes de variacio´n ma´s comunes, pretendemos incluir diversas mejoras: un formato de representaci´on intermedia entre mo´dulos en XML; integrar un detector del idioma y un reconocedor de entidades; emplear puntuaciones; y usar informacio´n contextual para mejorar el filtrado de candidatos.

V´eronis, J. 1999. MULTEXT-corpora. An annotated corpus for five European languages. CD-ROM. Distribido por ELRA/ELDA.

Barcala , F. M. ,

E. M.

Dom ´ınguez, M. A . Alonso , D.

Cabrero , J. Gran˜a, J. Vilares, M.

Vilares , G. Rojo, M. P.

Santalla , y S.

Sotelo . 2002 . Una aplicacio´n de RI basada en PLN: el proyecto ERIAL . En Actas de las I Jornadas de Tratamiento y Recuperacio´n de Informacio´ n (JOTRI 2002 ), pa´gs. 165 - 172 .

Beaufort , R.

2011 . From SMS gathering to SMS normalization: finite-state algorithms . TCTS Lab's seminars , University of Mons. Disponible en http://cental. fltr.ucl.ac.be/team/beaufort/file/ TCTS2011_beaufort.pdf.

Costa-Jussa` , M. R. y R. E.

Banchs . 2013 . Automatic normalization of short texts by combining statistical and rule-based techniques . Language Resources and Evaluation , 47 ( 1 ): 179 - 193 .

Han , B. , P. Cook, y

Baldwin . 2013 . Lexical normalization for social media text . ACM Transactions on Intelligent Systems and Technology (TIST) , 4 ( 1 ).

Koehn , P.

2005 . Europarl: A Parallel Corpus for Statistical Machine Translation . En Proc. of the 10th Machine Translation Summit (MT Summit X) , pa´gs. 79 - 86 . Corpus disponible en http://www. statmt.org/europarl/.

Liu , F. ,

Weng , y

Jiang . 2012 . A broad-coverage normalization system for social media language . En Proc . of the 50th Annual Meeting of the Association for Computational Linguistics (ACL'12): Long Papers - Vol. 1 , pa´gs. 1035 - 1044 . ACL.

Lo´pez Ru´a , P. 2007 . Teaching L2 vocabulary through SMS language: Some didactic guidelines . Estudios de lingu¨´ ıstica inglesa aplicada , 7 : 165 - 188 .

Mosquera , A.

2011 . The Spanish metaphone algorithm (Algoritmo del meta´fono para el espan˜ol) . Co´digo disponible en https:// github.com/amsqr/Spanish-Metaphone.

Oliva , J. , J. I. Serrano, M. D. del Castillo , y

Iglesias . 2013 . A SMS normalization system integrating multiple grammatical resources . Natural Language Engineering , 19 ( 1 ): 121 - 141 .

Owoputi , O. , B. O'Connor , C.

Dyer , K.

Gimpel , N. Schneider, y N. A.

Smith . 2013 . Improved part-of-speech tagging for online conversational text with word clusters . En Proc. of the 2013

Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (NAACLHLT

2013 ), pa´gs. 380 - 390 . ACL. Toolkit disponible en http://www.ark.cs.cmu. edu/TweetNLP/.

Padro´ , L. y E.

Stanilovsky . 2012 . Freeling 3.0: Towards wider multilinguality . En Proc. of the 8th Int. Conference on Language Resources and Evaluation (LREC'12) . ELRA. Toolkit disponible en http://nlp.lsi.upc.edu/freeling/.

Philips , L.

1990 . Hanging on the metaphone . Computer Language , 7 ( 12 ): 39 - 43 .

Taul ´e, M. , M.

A . Mart´ı, y M. Recasens . 2008 . AnCora: Multilevel annotated corpora for Catalan and Spanish . En Proc. of the 6th Int. Conference on Language Resources and Evaluation (LREC'08) . ELRA.

Thurlow , C.

2003 . Generation Txt? the sociolinguistics of young people's textmessaging . Discourse Analysis Online , 1 ( 1 ).

Xue , Z. , D. Yin, y

B. D.

Davison . 2011 . Normalizing microtext . En Analyzing Microtext, Papers from the 2011 AAAI Workshop , vol. WS- 11 -05 de AAAI Workshops . AAAI.