Introducción a la tarea compartida Tweet-Norm 2013: Normalización léxica de tuits en español∗ Tweet Normalization Workshop at SEPLN 2013: An overview Iñaki Alegria1 , Nora Aranberri1 , Vı́ctor Fresno2 , Pablo Gamallo3 Lluis Padró4 , Iñaki San Vicente5 , Jordi Turmo4 , Arkaitz Zubiaga6 (1) IXA. UPV/EHU (2) UNED (3) USC (4) UPC (5) Elhuyar (6) City University of New York tweet-norm@elhuyar.com Resumen: En este artı́culo se presenta una introducción a la tarea Tweet-Norm 2013 : descripción, corpora, anotación, preproceso, sistemas presentados y resultados obtenidos. Palabras clave: Normalización léxica, Twitter Abstract: An overview of the shared task is presented: description, corpora, anno- tation, preprocess, participant systems and results. Keywords: Tweet-normalization 1. Introducción un marco ideal para proporcionar un banco En la actualidad, la normalización de pruebas de referencia, con el que se ha lingüı́stica de tuits (Han y Baldwin, 2011) impulsado la aplicación de técnicas y algorit- supone una tarea de gran interés en diversos mos propuestos recientemente, y estudiar su campos como, por ejemplo, la traducción mejora o adaptación. Ası́, los grupos partici- automática y el análisis de sentimiento, den- pantes han podido evaluar y comparar méto- tro del procesamiento del lenguaje natural. dos, algoritmos y recursos lingüı́sticos de los La normalización de SMS y tuits en inglés que disponen. En este artı́culo vamos a hacer ha generado gran interés recientemente; sin un repaso de las caracterı́sticas de la tarea, embargo, la normalización de este tipo de los corpus usados, el etiquetado del mismo textos en español se ha estudiado poco. y la forma de evaluación, ası́ como un resu- Partiendo de esta carencia como base, va- men de los sistemas que se han presentado a rios grupos de investigación participantes en la evaluación. Detalles adicionales pueden ser diversos proyectos hemos visto la necesidad consultados en la web oficial2 y en el resto de de fomentar la investigación en este área, con artı́culos del workshop. el fin de facilitar y mejorar los resultados ob- 2. Trabajos relacionados tenidos con tareas subsiguientes. Ası́, organi- zamos un taller para llevar a cabo una tarea Una buena introducción al tema de nor- compartida de Normalización léxica de tuits malización de tuits es el artı́culo (Eisenstein, en español, el cual es parte del programa de 2013), donde se revisa el estado del arte en la conferencia SEPLN 2013 en Madrid. A su NLP sobre variantes SMS y tuit, y cómo la vez, este taller puede ser visto como comple- comunidad cientifica ha respondido por dos mento del Taller de Análisis de Sentimientos caminos: normalización y adaptación de he- en la SEPLN (TASS)1 organizado en 2012 y rramientas. 2013. Como se ha dicho, el artı́culo (Han y Bald- Esta tarea ha conllevado un reto cientı́fi- win, 2011) es una referencia importante en co importante, y creemos que la competición el campo de la normalización. Para el inglés entre los grupos de investigación ha creado ellos estudian un corpus de 449 tuits en el que identifican 254 tokens a ser normaliza- ∗ Gracias a todos los miembros del Comité de Or- dos. Para detectar las palabras fuera de dic- ganización y a los proyectos Tacardi, Xlike, Celtic, cionario (OOV) usan GNU aspell y, como TextMESS2 y Skater por su colaboración. 1 2 http://www.daedalus.es/TASS2013/about.php http://komunitatea.elhuyar.org/tweet-norm/ en nuestro caso, las identificaciones de tuits 3.1. Colección de documentos (@usuarios), los hashtags o etiquetas (#eti- Entre las múltiples opciones que ofrece queta) y los URLs son excluidos. Estudian la API de Twitter3 , se optó por descargar la distribución de las formas a normalizar y tuits geolocalizados, los cuales vienen mar- proponen un sistema basado en 3 pasos: (1) cados con las coordenadas desde donde cada generación del conjunto de confusión, donde tuit ha sido enviado. La API de Twitter, a para una palabra OOV generan los posibles su vez, permite descargar tuits para la zo- candidatos; (2) identificación de las palabras na geográfica especificada. Aprovechando es- a normalizar usando un clasificador, distin- ta caracterı́stica, optamos por una zona am- guiéndolas de las que deben permanecer inal- plia dentro de la penı́nsula ibérica, evitan- teradas; (3) selección de candidatos. Evalúan do incluir zonas con lenguas cooficiales, para los resultados comparándolos con los modelos ası́ aumentar la posibilidad de que un gran noisy-channel y SMT obteniendo una preci- número de los tuits estuvieran escritos en es- sión de alrededor del 75 %. pañol. Ası́, el área escogida abarca, aproxi- Sobre adaptación de herramientas es in- madamente, el rectángulo comprendido en- teresante el trabajo (Liu et al., 2011) que re- tre Guadalajara como extremo al noreste, y plantea el tema de reconocimiento de enti- Cádiz como extremo al sudoeste. Tras alma- dades nombradas en corpus de tuits. Para el cenar los tuits geolocalizados enviados des- español se ha prestado atención al análisis de de esa zona durante los dı́as 1 y 2 de abril sentimiento (Villena Román et al., 2013) en de 2013, obtuvimos una colección de un total el marco del citado taller TASS pero apenas de 227.855 tuits. A partir de esta gran colec- se ha publicado nada sobre normalización. ción, generamos dos subconjuntos aleatorios Existen otros trabajos relacionados con nor- de 600 tuits, los cuales fueron distribuidos a malización (Gomez-Hidalgo, Caurcel-Dı́az, y los participantes, el primero como conjunto del Rio, 2013) (Mosquera, Lloret, y Moreda, de entrenamiento, y el segundo como conjun- 2012) (Oliva et al., 2011) principalmente so- to de test para la evaluación final. Los tuits bre mensajes SMS, pero que no abordan la restantes fueron distribuidos a los participan- normalización de tuits en su conjunto. tes, sin anotaciones manuales, por si conside- raban conveniente hacer uso de él. 3. Descripción y caracterı́sticas de la tarea 3.2. Preproceso Hemos elegido el término normalización Se decidió distinguir dentro de los tuits las léxica porque la tarea se centra en norma- palabras fuera del diccionario (OOV) usando lizar palabras detectadas como no conocidas el analizador morfológico de la librerı́a Free- (abreviaturas, formas no normalizadas, pala- Ling (Padró y Stanilovsky, 2012). Se analizan bras con letras repetidas...); intentando, en los tweets con los módulos básicos (dicciona- la medida de lo posible, aislar este problema rio, sufijos, detector de números, fechas, etc.) de otros fenómenos como variantes sintácti- y si la palabra no es reconocida por ninguno cas, de estilo etc. Por lo tanto, y en la misma de ellos, se considera OOV. lı́nea que (Han y Baldwin, 2011), sólo serán Para ello, se usó una version adaptada del tratadas las palabras que en el preproceso se tokenizador, de forma que mantuviera como consideran OOV. Además, estas palabras se un solo token las palabras del tipo @usuario evaluarán individualmente. Los sistemas de- y #etiqueta, ası́ como las direcciones de e- ben decidir si proponen normalizarlas o man- mail, URLs, y los smileys más frecuentes. tenerlas como están, ya que pueden ser pala- Igualmente, se activó una instancia del módu- bras que no se deben normalizar por ser pa- lo usermap, que aplica una baterı́a de expre- labras correctas (nuevas entidades nombra- siones regulares a cada token, y asigna un das, por ejemplo), escritas en otro idioma, análisis a los que cumplen alguna de ellas. De etc. Desde la organización del taller se deci- este modo, se descartan como OOVs dichos dió anotar un conjunto de 600 tuits para dis- patrones, ya que obtienen un análisis. tribuirlo anotado entre los participantes (pa- A continuación, se aplicó un analizador ra la adaptación y ajuste de sus sistemas), y morfológico básico, con los módulos por de- otros 600, que se han mantenido en secreto, fecto, excepto el reconocedor de multipala- para la evaluación de los sistemas (ver sección 3 5). https://dev.twitter.com/docs/api bras (para evitar aglutinación de varias pala- puntos anteriores, se anotará como varian- bras en un solo token), el reconocedor de enti- te y se especificará su forma correcta, según dades con nombre (dado que queremos man- se define con dichas reglas. (p.e., sanchez → tenerlas como OOV), y el módulo de proba- Sánchez, tamagochi → Tamagotchi, abc → bilidades léxicas (dado que aplica un guesser ABC, a.B.c. → A.B.C., CONL → CONLL) que asignarı́a al menos una etiqueta a todas Palabra no incluida en el diccionario las palabras). RAE sin ser nombre propio Al final de este preproceso, las palabras Si es un neologismo o extranjerismo com- que no han recibido ningún análisis de ningún puesto correctamente según reglas de bue- módulo del morfológico se consideran OOVs. na formación se etiquetará como correcta sin ninguna modificación. (p.e., mouriñistas, re- 4. Proceso de anotación tuitear, retweetear ) Durante la fase de anotación, se procedió a Si es un diminutivo o superlativo compues- la anotación manual de las palabras identifi- to correctamente según reglas de buena for- cadas por FreeLing como palabras OOV. Ca- mación se etiquetará como correcta sin nin- da OOV podı́a ser etiquetada como correcta, guna modificación. (p.e., supergrande) variante o NoES (otro idioma) y en el segun- Si se expresa con alguna falta ortográfi- do caso habı́a que asignarle su forma normali- ca o alteración (repetición, eliminación, per- zada. En el corpus de desarrollo tres expertos mutación de letras, etc), se etiquetará como etiquetaron independientemente cada OOV y variante y se especificará su forma correcta. posteriormente se consensuaron las anotacio- (p.e., horrooorr → horror, hacia → hacı́a) nes definitivas. Durante este proceso se fue Si es una abreviatura o un acortamiento completando un manual. El corpus de test se etiquetará como variante, especificando su fue etiquetado independientemente por dos forma correcta. (p.e., admin → administra- expertos que consensuaros posteriormente la ción, sr → señor ) anotación final. Si es una onomatopeya con alguna altera- Los criterios de anotación por los cuales ción (normalmente repetición de letras), de se rigió el grupo de anotadores se recogieron una o varias formas existente según la RAE, en el Manual de anotación y se resumen de entonces se etiquetará como variante de to- la siguiente manera: das esas formas. Si no existe en el diccio- nario RAE se anotará como correcta. (p.e., Palabra incluida en diccionario RAE aaaahhh → ah, jajajajas → ja) En todo caso se anotará como correcta sin Si es una concatenación de palabras, en- modificación alguna, aunque por su contexto tonces se etiquetará como variante y se espe- se dedujera que dicha palabra no es la ade- cificará la secuencia correcta de palabras. cuada. Si es una palabra (o cadena de palabras) Palabra con categorı́a de nombre de otro idioma o un emoticón se etique- propio no incluida en diccionario RAE tará como NoEs. El manual describe las lı́neas generales de Si es un acrónimo originalmente compues- casos. Sin embargo, la casuı́stica encontrada to, todo con mayúscula o con alguna le- fue amplia e hicieron falta varias puestas en tra en minúscula, tanto la forma origina- común para detallar las reglas y mantener la ria como su forma totalmente en mayúsculas continuidad y rigurosidad de la anotación. El serán etiquetadas como correctas sin ninguna lı́mite no siempre claro entre palabras extran- modificación (p.e., CoNLL, CONLL, IBM e jeras y préstamos ya aceptados en la lengua I.B.M.). española, tı́tulos de pelı́culas y series, y erro- Si no es un acrónimo, está formado por res ortográficos intencionados fueron, entre las letras requeridas y su inicial está en otros, motivo de discrepancia antes de uni- mayúsculas e incorpora los acentos requeri- ficar anotaciones. dos, será etiquetada como correcta, ya sea Por ejemplo: un nombre propio en diminutivo, un apodo u otra forma alternativa de la entidad (p.e., El hashtag #7a~nosSLQH ocupó el sábado 30, Tony, Anita, Yoyas) la 3a posición en el Top10 de los Trending Topics de Málaga Si se expresa con alguna falta de ortografı́a o con alguna alteración no aceptada en los que estafa de tablet Me dispongo a ver Game of Thrones. Una vez finalizado el plazo de participa- Habril luisma con h... ción, comprobamos que los tuits que seguı́an públicamente disponibles en ese momento pa- Una dificultad adicional de la anotación, ra generar el corpus de evaluación era menor la cual añadió cierto grado de subjetividad a al conjunto original. Ası́ el corpus de evalua- la tarea, radicó en la necesidad de interpretar ción que finalmente ha sido considerado cons- los acortamientos y/o abreviaturas utilizados ta de 562 tuits, un número que varı́a ligera- por los usuarios. Cuando el contexto no era mente con respecto al volumen inicial de 600 suficiente para descifrar la intención del usua- tuits. rio, algo nada sorprendente dada la limitación La distribución de las tres categorı́as (0- de caracteres impuesta en los tuits, los ano- variante, 1-correcta y 2-NoES) en los corpus tadores se vieron en la tesitura de interpretar de desarrollo y de evaluación se muestran en dicha intención y ofrecer la corrección acorde la tabla 1. Como se puede comprobar, la dis- a ésta. Como podemos ver en este ejemplo tribución de las tres categorı́as sobre el to- tal de palabras OOV no varı́a significativa- cariiii k no te seguia en twitter!!!mu mente en los dos corpus, lo que ha permiti- fuerte!!!..yasoy tu fan....muak....se te exa do a los participantes desarrollar sus sistemas d menos en el bk....sobreto en los cierres jajajajas comprobando su eficacia sobre un conjunto de datos comparable al que se ha ofrecido la OOV bk es de libre interpretación, ya posteriormente para evaluar la tarea. que podrı́a tratarse del acortamiento de cual- quier lugar de ocio. En este caso se optó por Corpus #OOV 0 1 2 Burger King, considerada la opción más ge- Desarrollo 653 497 93 63 neral y reusable. En ciertos casos se optó por Test 662 531 98 33 incluir más de una posible corrección. La co- rrección de onomatopeyas, cuya intención no siempre es clara, también ha sido discutida: Tabla 1: Datos de los corpus. Se reducen los 724 OOVs de test anotados a 662 debido al me da igual JUUUM!! problema de disponibilidad de los tuits. 5. Corpus anotados y medidas de evaluación 5.2. Medidas de evaluación La tarea consistió únicamente en la correc- 5.1. Corpus de desarrollo y test ción de errores, y no en la clasificación de las A partir del corpus inicial descrito en la distintas categorı́as de palabras OOV (0, 1 y sección 3.1 se han generado dos subconjuntos: 2). De esta manera se pretende evaluar ex- uno compuesto por 500 tuits que constituye clusivamente la capacidad de corrección de el corpus de desarrollo y otro compuesto por los sistemas participantes, ya que una fase de 600 tuits que constituye el corpus de evalua- clasificación previa introducirı́a un factor de ción. En el corpus de desarrollo fueron anota- acumulación de errores, haciendo más difı́cil das manualmente 653 palabras OOV, mien- evaluar el rendimiento de los sistemas. Por tras que en el de evaluación se anotaron 724. tanto, la evaluación sólo tiene en cuenta si Cabe mencionar que, debido a las restriccio- la forma propuesta es correcta, en base a los nes de uso del API de Twitter4 , está prohibi- siguientes criterios: do redistribuir corpus que contiene informa- Correcta: si la forma original era correcta ción sobre usuarios. Por esta razón, ambos (categorı́a 1) o NoES (categorı́a 2) y no se corpus fueron distribuidos a los participantes ha realizado ninguna normalización, o si la utilizando únicamente los identificadores de forma original era una variante (categorı́a 0) tuits. Cada participante podı́a bajar el con- y la normalización propuesta es correcta. tenido de dichos identificadores a través de Errónea: En cualquier otro caso. búsquedas a la API de Twitter mediante el Como medida de evaluación para calcular script Twitid 5 . los resultados oficiales se ha utilizado la pre- 4 https://dev.twitter.com/terms/api-terms cisión sobre el total de palabras OOV en el 5 http://komunitatea.elhuyar.org/tweet- corpus de evaluación. La fórmula de la pre- norm/iles/2013/06/download tweets.py cisión mide el número de decisiones realiza- das correctamente sobre el total de palabras Rank Sistema Prec1 Prec2 OOV a tratar en el corpus de evaluación. - Upperline 0,927 - 6. Resultados y resumen de los 1 RAE 0,781 - 2 Citius-Imaxin 0,663 0,662 sistemas 3 UPC 0,653 - Sobre 20 grupos inscritos inicialmente 13 4 Elhuyar 0,636 0,634 participaron finalmente con sus respectivos 5 IXA-EHU 0,619 0,609 sistemas; y sólo seis de ellos hicieron uso de 6 Vicomtech 0,606 - la posibilidad de evaluar dos sistemas. 7 UniArizona 0,604 - 6.1. Resultados 8 UPF-Havas 0,548 0,491 9 DLSIAlicante 0,545 0,521 La tabla 2 muestra los resultados de 10 UniMelbourne 0,539 0,517 precisión de los trece grupos participantes. 11 UniSevilla 0,396 - Además de estos resultados se muestran otros 12 UJaen-Sinai 0,376 - dos resultados a tener en cuenta como refe- 13 UniCoruña 0,335 - rencia de la tarea. Por un lado se ha calculado - Baseline 0,198 - cuál serı́a el rendimiento mı́nimo de un siste- ma (baseline), dando como correctas todas las palabras OOV. Este sistema obtendrı́a Tabla 2: Precisión obtenida por los sistemas una precisión por debajo del 20 %. Por otro presentados. lado se ofrece el rendimiento máximo (upper- line) al que se podrı́a aspirar con los siste- Omisiones de letras (principalmente vo- mas presentados. El upper-line incluye todas cales y letras finales, especialmente en aquellas palabras OOV que han sido correc- participios). P.e. encantao → encantado. tamente corregidas por al menos uno de los sistemas participantes. Uso de abreviaturas o reducción de las El anexo 1 muestra la lista de las palabras palabras a los primeros caracteres. P.e. OOV (7,25 %, 39) que ningún sistema ha co- exam → examen. rregido. La lista incluye una casuı́stica muy Énfasis repitiendo letras (Felicidadeeees amplia: por ejemplo, filosofia/Filosofı́a, que → Felicidades). requiere corrección ortográfica y mayúsculas; yaa/allá, que está muy lejos de su forma co- Restauración de mayúscula (felicidades rrecta en cuanto a similitud de cadena, y ya → Felicidades). es a priori un candidato mucho más probable Unión de palabras contiguas (yuxtaposi- para esa forma. ción de palabras). P. e. esque → es que. 6.2. Resumen de las técnicas y Logogramas y pictogramas. (x → por 2 recursos utilizados → dos). Destacan las buenas prestaciones del sis- Onomatopeyas (ahahahah → ah). tema de la RAE, que supera claramente al resto de los sistemas y supera el 78 % de pre- Respecto a los léxicos utilizados se usan cisión. La mayorı́a de los sistemas, sin embar- principalmente diferentes diccionarios de es- go, están en un intervalo entre el 54 % y el pañol (o correctores ortográficos o el propio 67 %. Se podrı́a explicar la diferencia del me- Freeling6 usado en el preproceso) para bus- jor sistema por el tratamiento meticuloso de car propuestas normalizadas. Algunos siste- cada uno de los fenómenos posibles, la com- mas utilizan diccionarios de inglés para detec- binación estadı́stica de los componentes y la tar OOVs que no deben modificarse, Wikipe- calidad y cobertura de los recursos utilizados. dia 7 para añadir o detectar entidades nom- Los fenómenos a los que varios sistemas bradas, pequeños diccionarios de variantes y hacen frente explı́citamente son los siguien- slang (en inglés existen más extensos) o listas tes: de frecuencias a partir de corpus para detec- tar y normalizar cambios habituales propios Errores ortográficos habituales (h → 0). de Internet/Twitter. Cambios fonológicos habituales (k → c). 6 http://nlp.lsi.upc.edu/freeling/ Omisión de tildes (á → a). 7 es.wikipedia.org También diversos corpus de español son corpus de desarrollo), el DRAE y un diccio- usados para construir modelos de lenguaje. nario de nombres propios obtenido de la Wi- Son usados tantos corpus de propósito gene- kipedia. También utilizan un LM basado en ral como corpus de tuits. También un sistema un corpus de RSS periodı́sticos. ha utilizado la API de un buscador para fil- UPC (Ageno et al., 2013): Usan una trar términos multipalabra. baterı́a de módulos (divididos en tres gru- Respecto a herramientas podemos desta- pos; palabras sueltas, términos multipalabra car los ya nombrados correctores ortográfi- y expresiones regulares) para generar diferen- cos (aspell8 , hunspell9 , Jazzy10 ), que se usan tes propuestas de corrección para cada pa- también para obtener propuestas de nor- labra desconocida. Usan foma para realizar malización. Junto a ellos varios sistemas búsquedas aproximadas de términos simples usan foma 11 para escribir, compilar en trans- o multipalabra similares. La corrección defi- ductores. y aplicar reglas de transforma- nitiva se elige por votación ponderada según ción de grafemas/fonemas. En algún caso se la precisión de cada módulo. Los recursos han aprendido reglas de transformación ba- mencionados son: lista de acrónimos, lista de sadas en modelos de lenguaje (compuestos emoticones multicaracter y lista de onomato- grafemas/fonemas) (p.e. usando Phonetisau- peyas, diccionarios de español (con variantes) rus12 ). Para seleccionar entre las propuestas y de inglés y listas de nombres propios. (además de frecuencias basadas en corpus) Elhuyar (Saralegi y San-Vicente, 2013): varios sistemas usan modelos de lenguaje de Usan una estrategia compuesta por dos pa- bigramas o trigramas de palabras (usando p. sos: generación de posibles candidatos de co- ej. OpenGrm13 o SRILM14 ) rrección y selección del candidato utilizando un modelo de lenguaje. Para la generación de 6.3. Breve descripción de los candidatos además de la habitual distancia sistemas de edición tratan abreviaturas comunes, co- RAE (Porta y Sancho, 2013): Se basa loquialismos, caracteres repetidos e interjec- en transductores de estados finitos con pesos ciones. También restauración de mayúsculas que son combinados estadı́sticamente usan- y nombres propios. Usan SRILM para el LM do la composición en tres pasos (variantes, de bigramas de palabras, entrenándolo con la posibles variantes, modelo de lenguaje) . A Wikipedia (también para la lista de nombres partir de reglas generan transductores para propios) y un corpus de EFE. prácticamente todos los fenómenos comenta- IXA-EHU (Alegria, Etxeberria, y Laba- dos además de un modelo de lenguaje (LM) ka, 2013): Usa también foma para reglas que basado en trigramas de palabras. Los recur- se aplican incrementalmente, para la mayorı́a sos léxicos más reseñables son el diccionario de los fenómenos nombrados, pero a diferen- DRAE, las 100.000 palabras inglesas más fre- cia del sistema RAE no usa pesos, salvo pa- cuentes del BNC, y un corpus de páginas web ra los cambios ortográficos que aprende au- (Wacky). tomáticamente del corpus de desarrollo. Pa- Citius-Imaxin (Gamallo, Garcia, y Pi- ra este aprendizaje usa un modelo de lengua- chel, 2013): A partir de diversos recursos léxi- je basado en grafemas aprendido del corpus cos, generan dos tipos de candidatos, pri- de desarrollo (utilizando Phonetisaurus). El marios y secundarios; los cuales son orde- LM de palabras es de unigramas (frecuencia nados de diferentes maneras en el proceso de las palabras) basado en corpus de tuits de selección del mejor candidato. Escriben base vueltos a recuperar y filtrados con Free- reglas para tres tipos de errores: mayúscu- ling (también se usa para obtener los nombres la/minuscula, caracteres repetidos y errores propios más frecuentes). Un buscador de In- ortográficos comunes. Utilizan una lista de ternet es usado para filtrar los términos mul- normalización (principalmente obtenida del tipalabra propuestos. Vicomtech (Ruiz, Cuadros, y Etchegoy- 8 http://aspell.net/ hen, 2013): Usan reglas de preproceso, un mo- 9 http://hunspell.sourceforge.net/ delo de distancias de edición adecuado al do- 10 http://jazzy.sourceforge.net/ 11 https://code.google.com/p/foma/ minio y tres LM de 5-gramas de palabras, 12 http://code.google.com/p/phonetisaurus/ usando KenLM, para seleccionar candidatos 13 http://www.opengrm.org/ de corrección según el contexto. Además de 14 http://www.speech.sri.com/projects/srilm/ la distancia de edición adaptada con pesos usan aspell y hunspell como diccionario, lis- de error/variación usan reglas de transforma- tas de nombres propios (JRC Names y SA- ción (implementación propia) y distancia de VAS), un corpus de tuits recolectado por ellos edición para proponer normalización y detec- y un corpus extraı́do de Europarl. Hacen un ción de palabras en otros idiomas (basado en interesante estudio de los casos de variantes. trigramas de caracteres). Usan el diccionario UniArizona (Hulden y Francom, 2013): de español Libreoffice y dos pequeños diccio- Estudian dos sistemas alternativos de reglas narios de emoticones y variantes en tuits (ge- escritas por un experto o inducción de las nerados por ellos). mismas. Los resultados son algo mejores pa- UJaen-Sinai (Montejo-Ráez et al., ra el primer sistema. Para el primer método 2013): Para proponer formas normalizadas escriben reglas para ser compiladas en trans- hacen una serie de conversiones a partir de ductores sin pesos usando foma. Las reglas lexicones de reemplazamiento (abreviaturas afrontan varios de los fenómenos menciona- y onomatopeyas) y un corrector ortográfico dos (restauración de tildes, repeticiones de (aspell enriquecido con nombres de ciudades, caracteres, errores ortográficos habituales y interjecciones, neologismos de Internet y abreviaturas). Para el segundo método indu- otras entidades nombradas). cen pesos para los cambios. Las propuestas UniCoruña (Vilares, Alonso, y Vilares, se ordenan usando un LM de unigramas (fre- 2013): Es un sistema conceptualmente senci- cuencia de palabras). Para manipulación de llo y flexible que emplea pocos recursos (dic- pesos en los transductores usan Kleen. cionario SMS, tratamiento de onomatopeyas, UPF-Havas (Muñoz-Garcı́a, Suárez, y repeticiones, diacrı́ticos y errores ortográfi- Bel, 2013): Hacen uso de datos abiertos ex- cos) y que aborda el problema desde un punto traı́dos de recursos publicados en la Web de vista léxico. desarrollados de manera colectiva, entre los que se encuentran la Wikipedia y un diccio- 7. Conclusiones nario de SMS. No afronta especı́ficamente la El taller Tweet-Norm-2013 ha sido un pri- mayorı́a de los problemas enumerados, salvo mer paso académico conjunto para estudiar las tildes y las mayúsculas. Realiza búsque- y mejorar el problema de normalización de das en el diccionario de SMS y si no tiene tuits en español. La participación de 13 sis- éxito usa la primera propuesta del corrector temas demuestra el interés en el tema. Es de Jazzy. resaltar la diversidad de procedencia de los DLSIAlicante (Mosquera-López y More- participantes y la variedad de recursos utili- da, 2013): empleando la herramienta de nor- zados. malizacion multilingüe TENOR, siguiendo A la espera de un análisis todavia más de- una estrategia similar a la usada en SMS en tallado de los resultados creemos que los cor- inglés empleando técnicas de reconocimiento pus desarrollados y las publicaciones realiza- del habla, pero adaptada al español. Usan as- das ayudarán a la mejora de los resultados en pell ampliado con nombre de paı́ses como dic- el futuro. cionario, y representan el léxico fonéticamen- Desde los participantes se han recibido te usando el algoritmo del metáfono adapta- propuestas de mejora sobre ciertos aspectos do al español. Para distancia entre palabras del preproceso que pueden ser mejorados (en- usan el algoritmo Gestalt y para ordenar las tidades comunes que se han marcado como propuests un LM (basado en el corpus CESS- OOV) y algunos casos de anotación que pue- ESP). den ser discutibles. UniMelbourne (Han, Cook, y Baldwin, Los corpus anotados se pondrán en bre- 2013): Basándose en su experiencia para el ve plazo a libre disposición de toda la co- inglés, construyen un léxico de normaliza- munidad cientı́fica (consultar el sitio oficial: cion a partir de un corpus (compuesto de komunitatea.elhuyar.org/tweet-norm/). millones de tuits en español) utilizando si- Creemos que en el futuro una tarea simi- militud distribucional basada en distancia de lar puede ser planteada, aunque creemos ne- edición/fonológica, y este léxico se combina cesario algún tipo de evaluación combinada con un diccionario slang de jerga de Internet con otras tareas (traducción, análisis de sen- en español (obtenido de dos sitios web). timiento...). Además serı́a interesante dar un UniSevilla (Cotelo-Moya, Cruz, y Tro- paso más allá de la normalización léxica, y yano, 2013): Aparte de caracterizar la fuente afrontar también la normalización sintáctica. Bibliografı́a Montejo-Ráez, Arturo, Manuel Dı́az-Galiano, Ageno, Alicia, Pere R. Comas, Lluı́s Padró, Eugenio Martı́nez-Cámara, Teresa y Jordi Turmo. 2013. The talp-upc ap- Martı́n-Valdivia, Miguel A. Garcı́a- proach to tweet-norm 2013. En Proc. of Cumbreras, y Alfonso Ureña-López. the Tweet Normalization Workshop at SE- 2013. Sinai at twitter-normalization 2013. PLN 2013. IV Congreso Español de In- En Proc. of the Tweet Normalization formática. Workshop at SEPLN 2013.IV Congreso Español de Informática. Alegria, Iñaki, Izaskun Etxeberria, y Gorka Labaka. 2013. Una cascada de transduc- Mosquera, Alejandro, Elena Lloret, y Palo- tores simples para normalizar tweets. En ma Moreda. 2012. Towards facilitating Proc. of the Tweet Normalization Works- the accessibility of web 2.0 texts through hop at SEPLN 2013. IV Congreso Español text normalisation. En Proceedings of the de Informática. LREC Workshop: Natural Language Pro- cessing for Improving Textual Accessibility Cotelo-Moya, Juan M., Fermı́n L. Cruz, y Jo- (NLP4ITA), Istanbul, Turkey, páginas 9– se A. Troyano. 2013. Resource-based lexi- 14. cal approach to tweet-norm task. En Proc. of the Tweet Normalization Workshop at Mosquera-López, Alejandro y Paloma More- SEPLN 2013. IV Congreso Español de In- da. 2013. Dlsi en tweet-norm 2013: Nor- formática. malización de tweets en español. En Proc. Eisenstein, Jacob. 2013. What to do about of the Tweet Normalization Workshop at bad language on the internet. En Procee- SEPLN 2013. IV Congreso Español de In- dings of NAACL-HLT, páginas 359–369. formática. Gamallo, Pablo, Marcos Garcia, y José Ra- Muñoz-Garcı́a, Oscar, Silvia Vázquez Suárez, mom Pichel. 2013. A method to lexi- y Nuria Bel. 2013. Exploiting web-based cal normalisation of tweets. En Proc. of collective knowledge for micropost norma- the Tweet Normalization Workshop at SE- lisation. En Proc. of the Tweet Normaliza- PLN 2013. IV Congreso Español de In- tion Workshop at SEPLN 2013. IV Con- formática. greso Español de Informática. Gomez-Hidalgo, Jose M., Andrés A. Caurcel- Oliva, Jesús, José I. Serrano, Marı́a D. Dı́az, y Yovan Iñiguez del Rio. 2013. Un Del Castillo, y Ángel Iglesias. 2011. método de análisis de lenguaje tipo sms Sms normalization: combining phonetics, para el castellano. Linguamática, 5(1):31– morphology and semantics. En Advances 39. in Artificial Intelligence. Springer, páginas 273–282. Han, Bo y Timothy Baldwin. 2011. Lexi- cal normalisation of short text messages: Padró, Lluı́s y Evgeny Stanilovsky. 2012. Makn sens a# twitter. En ACL, páginas Freeling 3.0: Towards wider multilingua- 368–378. lity. En Proceedings of the Langua- Han, Bo, Paul Cook, y Timothy Baldwin. ge Resources and Evaluation Conference 2013. unimelb: Spanish text normalisa- (LREC 2012). Istanbul. tion. En Proc. of the Tweet Normalization Porta, Jordi y José Luis Sancho. 2013. Word Workshop at SEPLN 2013. IV Congreso normalization in twitter using finite-state Español de Informática. transducers. En Proc. of the Tweet Nor- Hulden, Mans y Jerid Francom. 2013. malization Workshop at SEPLN 2013. IV Weighted and unweighted transducers for Congreso Español de Informática. tweet normalization. En Proc. of the Ruiz, Pablo, Montse Cuadros, y Thierry Et- Tweet Normalization Workshop at SE- chegoyhen. 2013. Lexical normalization PLN 2013.IV Congreso Español de In- of spanish tweets with preprocessing rules, formática. domain-specific edit distances, and lan- Liu, Xiaohua, Shaodian Zhang, Furu Wei, y guage models. En Proc. of the Tweet Nor- Ming Zhou. 2011. Recognizing named en- malization Workshop at SEPLN 2013. IV tities in tweets. En ACL, páginas 359–367. Congreso Español de Informática. Saralegi, Xabier y Iñaki San-Vicente. 2013. JIIIIIIIIOLE Olé Elhuyar at tweet-norm 2013. En Proc. Fotazo fotaza of the Tweet Normalization Workshop at gor gorda|gordo SEPLN 2013.IV Congreso Español de In- coner con el formática. shh sı́|sé primera+ primera más Vilares, Jesus, Miguel A. Alonso, y David Vi- salobreja Salobreja lares. 2013. Prototipado rápido de un sis- tema de normalización de tuits: Una apro- ximación léxica. En Proc. of the Tweet Normalization Workshop at SEPLN 2013. IV. Congreso Español de Informática. Villena Román, Julio, Sara Lana Serrano, Eugenio Martı́nez Cámara, y José Carlos González Cristóbal. 2013. Tass-workshop on sentiment analysis at sepln. Anexo I: Listado de palabras no corregidas A continuación se detallan las variantes del corpus de test que ningún sistema ha pro- puesto corregido correctamente, junto la nor- malización anotada. FYQ Fı́sica y quı́mica sisiii sı́ sı́ yaa allá picolos picoletos nainonainonahh nainonainoná gordys gorditas JUUUM hum Tuitutil TuitÚtil crst Cristo mencantaba me encantaba diitaas diı́tas soo eso queeee qué Teinfiniteamo Te amo infinitamente aber a ver Hum Humedad L. l. Muchomuchacho Mucho Muchacho Hojo Jo jonaticas jonáticas gafis gafitas her hermano|hermana MIAMOR mi amor guapii guapita WAPAHHH guapa EAEA ea ea Acho Macho tirantitas tirantitos HMYV MHYV filosofia Filosofı́a nah nada FAV favorito