Introducción a la tarea compartida Tweet-Norm 2013:
              Normalización léxica de tuits en español∗
         Tweet Normalization Workshop at SEPLN 2013: An overview

        Iñaki Alegria1 , Nora Aranberri1 , Vı́ctor Fresno2 , Pablo Gamallo3
        Lluis Padró4 , Iñaki San Vicente5 , Jordi Turmo4 , Arkaitz Zubiaga6

            (1) IXA. UPV/EHU (2) UNED (3) USC (4) UPC (5) Elhuyar (6) City University of New York
                                        tweet-norm@elhuyar.com


       Resumen: En este artı́culo se presenta una introducción a la tarea Tweet-Norm
       2013 : descripción, corpora, anotación, preproceso, sistemas presentados y resultados
       obtenidos.
       Palabras clave: Normalización léxica, Twitter
       Abstract: An overview of the shared task is presented: description, corpora, anno-
       tation, preprocess, participant systems and results.
       Keywords: Tweet-normalization


1.    Introducción                                      un marco ideal para proporcionar un banco
    En la actualidad, la normalización                  de pruebas de referencia, con el que se ha
lingüı́stica de tuits (Han y Baldwin, 2011)             impulsado la aplicación de técnicas y algorit-
supone una tarea de gran interés en diversos            mos propuestos recientemente, y estudiar su
campos como, por ejemplo, la traducción                 mejora o adaptación. Ası́, los grupos partici-
automática y el análisis de sentimiento, den-          pantes han podido evaluar y comparar méto-
tro del procesamiento del lenguaje natural.              dos, algoritmos y recursos lingüı́sticos de los
La normalización de SMS y tuits en inglés              que disponen. En este artı́culo vamos a hacer
ha generado gran interés recientemente; sin             un repaso de las caracterı́sticas de la tarea,
embargo, la normalización de este tipo de               los corpus usados, el etiquetado del mismo
textos en español se ha estudiado poco.                 y la forma de evaluación, ası́ como un resu-
    Partiendo de esta carencia como base, va-            men de los sistemas que se han presentado a
rios grupos de investigación participantes en           la evaluación. Detalles adicionales pueden ser
diversos proyectos hemos visto la necesidad              consultados en la web oficial2 y en el resto de
de fomentar la investigación en este área, con         artı́culos del workshop.
el fin de facilitar y mejorar los resultados ob-         2.         Trabajos relacionados
tenidos con tareas subsiguientes. Ası́, organi-
zamos un taller para llevar a cabo una tarea                 Una buena introducción al tema de nor-
compartida de Normalización léxica de tuits            malización de tuits es el artı́culo (Eisenstein,
en español, el cual es parte del programa de            2013), donde se revisa el estado del arte en
la conferencia SEPLN 2013 en Madrid. A su                NLP sobre variantes SMS y tuit, y cómo la
vez, este taller puede ser visto como comple-            comunidad cientifica ha respondido por dos
mento del Taller de Análisis de Sentimientos            caminos: normalización y adaptación de he-
en la SEPLN (TASS)1 organizado en 2012 y                 rramientas.
2013.                                                        Como se ha dicho, el artı́culo (Han y Bald-
    Esta tarea ha conllevado un reto cientı́fi-          win, 2011) es una referencia importante en
co importante, y creemos que la competición             el campo de la normalización. Para el inglés
entre los grupos de investigación ha creado             ellos estudian un corpus de 449 tuits en el
                                                         que identifican 254 tokens a ser normaliza-
∗
  Gracias a todos los miembros del Comité de Or-        dos. Para detectar las palabras fuera de dic-
ganización y a los proyectos Tacardi, Xlike, Celtic,    cionario (OOV) usan GNU aspell y, como
TextMESS2 y Skater por su colaboración.
   1                                                          2
     http://www.daedalus.es/TASS2013/about.php                    http://komunitatea.elhuyar.org/tweet-norm/
en nuestro caso, las identificaciones de tuits      3.1.      Colección de documentos
(@usuarios), los hashtags o etiquetas (#eti-            Entre las múltiples opciones que ofrece
queta) y los URLs son excluidos. Estudian           la API de Twitter3 , se optó por descargar
la distribución de las formas a normalizar y       tuits geolocalizados, los cuales vienen mar-
proponen un sistema basado en 3 pasos: (1)          cados con las coordenadas desde donde cada
generación del conjunto de confusión, donde       tuit ha sido enviado. La API de Twitter, a
para una palabra OOV generan los posibles           su vez, permite descargar tuits para la zo-
candidatos; (2) identificación de las palabras     na geográfica especificada. Aprovechando es-
a normalizar usando un clasificador, distin-        ta caracterı́stica, optamos por una zona am-
guiéndolas de las que deben permanecer inal-       plia dentro de la penı́nsula ibérica, evitan-
teradas; (3) selección de candidatos. Evalúan     do incluir zonas con lenguas cooficiales, para
los resultados comparándolos con los modelos       ası́ aumentar la posibilidad de que un gran
noisy-channel y SMT obteniendo una preci-           número de los tuits estuvieran escritos en es-
sión de alrededor del 75 %.                        pañol. Ası́, el área escogida abarca, aproxi-
    Sobre adaptación de herramientas es in-        madamente, el rectángulo comprendido en-
teresante el trabajo (Liu et al., 2011) que re-     tre Guadalajara como extremo al noreste, y
plantea el tema de reconocimiento de enti-          Cádiz como extremo al sudoeste. Tras alma-
dades nombradas en corpus de tuits. Para el         cenar los tuits geolocalizados enviados des-
español se ha prestado atención al análisis de   de esa zona durante los dı́as 1 y 2 de abril
sentimiento (Villena Román et al., 2013) en        de 2013, obtuvimos una colección de un total
el marco del citado taller TASS pero apenas         de 227.855 tuits. A partir de esta gran colec-
se ha publicado nada sobre normalización.          ción, generamos dos subconjuntos aleatorios
Existen otros trabajos relacionados con nor-        de 600 tuits, los cuales fueron distribuidos a
malización (Gomez-Hidalgo, Caurcel-Dı́az, y        los participantes, el primero como conjunto
del Rio, 2013) (Mosquera, Lloret, y Moreda,         de entrenamiento, y el segundo como conjun-
2012) (Oliva et al., 2011) principalmente so-       to de test para la evaluación final. Los tuits
bre mensajes SMS, pero que no abordan la            restantes fueron distribuidos a los participan-
normalización de tuits en su conjunto.             tes, sin anotaciones manuales, por si conside-
                                                    raban conveniente hacer uso de él.
3.   Descripción y caracterı́sticas
     de la tarea                                    3.2.      Preproceso
    Hemos elegido el término normalización           Se decidió distinguir dentro de los tuits las
léxica porque la tarea se centra en norma-         palabras fuera del diccionario (OOV) usando
lizar palabras detectadas como no conocidas         el analizador morfológico de la librerı́a Free-
(abreviaturas, formas no normalizadas, pala-        Ling (Padró y Stanilovsky, 2012). Se analizan
bras con letras repetidas...); intentando, en       los tweets con los módulos básicos (dicciona-
la medida de lo posible, aislar este problema       rio, sufijos, detector de números, fechas, etc.)
de otros fenómenos como variantes sintácti-       y si la palabra no es reconocida por ninguno
cas, de estilo etc. Por lo tanto, y en la misma     de ellos, se considera OOV.
lı́nea que (Han y Baldwin, 2011), sólo serán         Para ello, se usó una version adaptada del
tratadas las palabras que en el preproceso se       tokenizador, de forma que mantuviera como
consideran OOV. Además, estas palabras se          un solo token las palabras del tipo @usuario
evaluarán individualmente. Los sistemas de-        y #etiqueta, ası́ como las direcciones de e-
ben decidir si proponen normalizarlas o man-        mail, URLs, y los smileys más frecuentes.
tenerlas como están, ya que pueden ser pala-       Igualmente, se activó una instancia del módu-
bras que no se deben normalizar por ser pa-         lo usermap, que aplica una baterı́a de expre-
labras correctas (nuevas entidades nombra-          siones regulares a cada token, y asigna un
das, por ejemplo), escritas en otro idioma,         análisis a los que cumplen alguna de ellas. De
etc. Desde la organización del taller se deci-     este modo, se descartan como OOVs dichos
dió anotar un conjunto de 600 tuits para dis-      patrones, ya que obtienen un análisis.
tribuirlo anotado entre los participantes (pa-         A continuación, se aplicó un analizador
ra la adaptación y ajuste de sus sistemas), y      morfológico básico, con los módulos por de-
otros 600, que se han mantenido en secreto,         fecto, excepto el reconocedor de multipala-
para la evaluación de los sistemas (ver sección
                                                      3
5).                                                       https://dev.twitter.com/docs/api
bras (para evitar aglutinación de varias pala-    puntos anteriores, se anotará como varian-
bras en un solo token), el reconocedor de enti-    te y se especificará su forma correcta, según
dades con nombre (dado que queremos man-           se define con dichas reglas. (p.e., sanchez →
tenerlas como OOV), y el módulo de proba-         Sánchez, tamagochi → Tamagotchi, abc →
bilidades léxicas (dado que aplica un guesser     ABC, a.B.c. → A.B.C., CONL → CONLL)
que asignarı́a al menos una etiqueta a todas       Palabra no incluida en el diccionario
las palabras).                                     RAE sin ser nombre propio
    Al final de este preproceso, las palabras
                                                       Si es un neologismo o extranjerismo com-
que no han recibido ningún análisis de ningún
                                                   puesto correctamente según reglas de bue-
módulo del morfológico se consideran OOVs.
                                                   na formación se etiquetará como correcta sin
                                                   ninguna modificación. (p.e., mouriñistas, re-
4.   Proceso de anotación                         tuitear, retweetear )
   Durante la fase de anotación, se procedió a       Si es un diminutivo o superlativo compues-
la anotación manual de las palabras identifi-     to correctamente según reglas de buena for-
cadas por FreeLing como palabras OOV. Ca-          mación se etiquetará como correcta sin nin-
da OOV podı́a ser etiquetada como correcta,        guna modificación. (p.e., supergrande)
variante o NoES (otro idioma) y en el segun-           Si se expresa con alguna falta ortográfi-
do caso habı́a que asignarle su forma normali-     ca o alteración (repetición, eliminación, per-
zada. En el corpus de desarrollo tres expertos     mutación de letras, etc), se etiquetará como
etiquetaron independientemente cada OOV y          variante y se especificará su forma correcta.
posteriormente se consensuaron las anotacio-       (p.e., horrooorr → horror, hacia → hacı́a)
nes definitivas. Durante este proceso se fue           Si es una abreviatura o un acortamiento
completando un manual. El corpus de test           se etiquetará como variante, especificando su
fue etiquetado independientemente por dos          forma correcta. (p.e., admin → administra-
expertos que consensuaros posteriormente la        ción, sr → señor )
anotación final.                                      Si es una onomatopeya con alguna altera-
   Los criterios de anotación por los cuales      ción (normalmente repetición de letras), de
se rigió el grupo de anotadores se recogieron     una o varias formas existente según la RAE,
en el Manual de anotación y se resumen de         entonces se etiquetará como variante de to-
la siguiente manera:                               das esas formas. Si no existe en el diccio-
                                                   nario RAE se anotará como correcta. (p.e.,
Palabra incluida en diccionario RAE
                                                   aaaahhh → ah, jajajajas → ja)
   En todo caso se anotará como correcta sin          Si es una concatenación de palabras, en-
modificación alguna, aunque por su contexto       tonces se etiquetará como variante y se espe-
se dedujera que dicha palabra no es la ade-        cificará la secuencia correcta de palabras.
cuada.                                                 Si es una palabra (o cadena de palabras)
Palabra con categorı́a de nombre                   de otro idioma o un emoticón se etique-
propio no incluida en diccionario RAE              tará como NoEs.
                                                       El manual describe las lı́neas generales de
   Si es un acrónimo originalmente compues-
                                                   casos. Sin embargo, la casuı́stica encontrada
to, todo con mayúscula o con alguna le-
                                                   fue amplia e hicieron falta varias puestas en
tra en minúscula, tanto la forma origina-
                                                   común para detallar las reglas y mantener la
ria como su forma totalmente en mayúsculas
                                                   continuidad y rigurosidad de la anotación. El
serán etiquetadas como correctas sin ninguna
                                                   lı́mite no siempre claro entre palabras extran-
modificación (p.e., CoNLL, CONLL, IBM e
                                                   jeras y préstamos ya aceptados en la lengua
I.B.M.).
                                                   española, tı́tulos de pelı́culas y series, y erro-
   Si no es un acrónimo, está formado por
                                                   res ortográficos intencionados fueron, entre
las letras requeridas y su inicial está en
                                                   otros, motivo de discrepancia antes de uni-
mayúsculas e incorpora los acentos requeri-
                                                   ficar anotaciones.
dos, será etiquetada como correcta, ya sea
                                                       Por ejemplo:
un nombre propio en diminutivo, un apodo
u otra forma alternativa de la entidad (p.e.,           El hashtag #7a~nosSLQH ocupó el sábado 30,
Tony, Anita, Yoyas)                                     la 3a posición en el Top10 de los Trending
                                                        Topics de Málaga
   Si se expresa con alguna falta de ortografı́a
o con alguna alteración no aceptada en los             que estafa de tablet
         Me dispongo a ver Game of Thrones.                 Una vez finalizado el plazo de participa-
         Habril luisma con h...
                                                        ción, comprobamos que los tuits que seguı́an
                                                        públicamente disponibles en ese momento pa-
    Una dificultad adicional de la anotación,          ra generar el corpus de evaluación era menor
la cual añadió cierto grado de subjetividad a         al conjunto original. Ası́ el corpus de evalua-
la tarea, radicó en la necesidad de interpretar        ción que finalmente ha sido considerado cons-
los acortamientos y/o abreviaturas utilizados           ta de 562 tuits, un número que varı́a ligera-
por los usuarios. Cuando el contexto no era             mente con respecto al volumen inicial de 600
suficiente para descifrar la intención del usua-       tuits.
rio, algo nada sorprendente dada la limitación             La distribución de las tres categorı́as (0-
de caracteres impuesta en los tuits, los ano-           variante, 1-correcta y 2-NoES) en los corpus
tadores se vieron en la tesitura de interpretar         de desarrollo y de evaluación se muestran en
dicha intención y ofrecer la corrección acorde        la tabla 1. Como se puede comprobar, la dis-
a ésta. Como podemos ver en este ejemplo               tribución de las tres categorı́as sobre el to-
                                                        tal de palabras OOV no varı́a significativa-
         cariiii k no te seguia en twitter!!!mu         mente en los dos corpus, lo que ha permiti-
         fuerte!!!..yasoy tu fan....muak....se te exa   do a los participantes desarrollar sus sistemas
         d menos en el bk....sobreto en los cierres
         jajajajas                                      comprobando su eficacia sobre un conjunto
                                                        de datos comparable al que se ha ofrecido
   la OOV bk es de libre interpretación, ya            posteriormente para evaluar la tarea.
que podrı́a tratarse del acortamiento de cual-
quier lugar de ocio. En este caso se optó por              Corpus        #OOV         0     1    2
Burger King, considerada la opción más ge-                Desarrollo     653        497    93   63
neral y reusable. En ciertos casos se optó por             Test           662        531    98   33
incluir más de una posible corrección. La co-
rrección de onomatopeyas, cuya intención no
siempre es clara, también ha sido discutida:           Tabla 1: Datos de los corpus. Se reducen los
                                                        724 OOVs de test anotados a 662 debido al
         me da igual JUUUM!!                            problema de disponibilidad de los tuits.

5.       Corpus anotados y medidas de
         evaluación                                    5.2.    Medidas de evaluación
                                                            La tarea consistió únicamente en la correc-
5.1.       Corpus de desarrollo y test                  ción de errores, y no en la clasificación de las
    A partir del corpus inicial descrito en la          distintas categorı́as de palabras OOV (0, 1 y
sección 3.1 se han generado dos subconjuntos:          2). De esta manera se pretende evaluar ex-
uno compuesto por 500 tuits que constituye              clusivamente la capacidad de corrección de
el corpus de desarrollo y otro compuesto por            los sistemas participantes, ya que una fase de
600 tuits que constituye el corpus de evalua-           clasificación previa introducirı́a un factor de
ción. En el corpus de desarrollo fueron anota-         acumulación de errores, haciendo más difı́cil
das manualmente 653 palabras OOV, mien-                 evaluar el rendimiento de los sistemas. Por
tras que en el de evaluación se anotaron 724.          tanto, la evaluación sólo tiene en cuenta si
Cabe mencionar que, debido a las restriccio-            la forma propuesta es correcta, en base a los
nes de uso del API de Twitter4 , está prohibi-         siguientes criterios:
do redistribuir corpus que contiene informa-                Correcta: si la forma original era correcta
ción sobre usuarios. Por esta razón, ambos            (categorı́a 1) o NoES (categorı́a 2) y no se
corpus fueron distribuidos a los participantes          ha realizado ninguna normalización, o si la
utilizando únicamente los identificadores de           forma original era una variante (categorı́a 0)
tuits. Cada participante podı́a bajar el con-           y la normalización propuesta es correcta.
tenido de dichos identificadores a través de               Errónea: En cualquier otro caso.
búsquedas a la API de Twitter mediante el                  Como medida de evaluación para calcular
script Twitid 5 .                                       los resultados oficiales se ha utilizado la pre-
     4
   https://dev.twitter.com/terms/api-terms              cisión sobre el total de palabras OOV en el
     5
   http://komunitatea.elhuyar.org/tweet-                corpus de evaluación. La fórmula de la pre-
norm/iles/2013/06/download tweets.py                    cisión mide el número de decisiones realiza-
das correctamente sobre el total de palabras         Rank        Sistema             Prec1   Prec2
OOV a tratar en el corpus de evaluación.
                                                    -            Upperline           0,927     -
6.     Resultados y resumen de los                  1            RAE                 0,781     -
                                                    2            Citius-Imaxin       0,663   0,662
       sistemas
                                                    3            UPC                 0,653     -
    Sobre 20 grupos inscritos inicialmente 13       4            Elhuyar             0,636   0,634
participaron finalmente con sus respectivos         5            IXA-EHU             0,619   0,609
sistemas; y sólo seis de ellos hicieron uso de     6            Vicomtech           0,606     -
la posibilidad de evaluar dos sistemas.             7            UniArizona          0,604     -
6.1.     Resultados                                 8            UPF-Havas           0,548   0,491
                                                    9            DLSIAlicante        0,545   0,521
    La tabla 2 muestra los resultados de
                                                    10           UniMelbourne        0,539   0,517
precisión de los trece grupos participantes.
                                                    11           UniSevilla          0,396     -
Además de estos resultados se muestran otros
                                                    12           UJaen-Sinai         0,376     -
dos resultados a tener en cuenta como refe-
                                                    13           UniCoruña          0,335     -
rencia de la tarea. Por un lado se ha calculado
                                                    -            Baseline            0,198     -
cuál serı́a el rendimiento mı́nimo de un siste-
ma (baseline), dando como correctas todas
las palabras OOV. Este sistema obtendrı́a          Tabla 2: Precisión obtenida por los sistemas
una precisión por debajo del 20 %. Por otro       presentados.
lado se ofrece el rendimiento máximo (upper-
line) al que se podrı́a aspirar con los siste-
                                                          Omisiones de letras (principalmente vo-
mas presentados. El upper-line incluye todas
                                                          cales y letras finales, especialmente en
aquellas palabras OOV que han sido correc-
                                                          participios). P.e. encantao → encantado.
tamente corregidas por al menos uno de los
sistemas participantes.                                   Uso de abreviaturas o reducción de las
    El anexo 1 muestra la lista de las palabras           palabras a los primeros caracteres. P.e.
OOV (7,25 %, 39) que ningún sistema ha co-               exam → examen.
rregido. La lista incluye una casuı́stica muy             Énfasis repitiendo letras (Felicidadeeees
amplia: por ejemplo, filosofia/Filosofı́a, que            → Felicidades).
requiere corrección ortográfica y mayúsculas;
yaa/allá, que está muy lejos de su forma co-            Restauración de mayúscula (felicidades
rrecta en cuanto a similitud de cadena, y ya              → Felicidades).
es a priori un candidato mucho más probable              Unión de palabras contiguas (yuxtaposi-
para esa forma.                                           ción de palabras). P. e. esque → es que.
6.2.     Resumen de las técnicas y                       Logogramas y pictogramas. (x → por 2
         recursos utilizados                              → dos).
    Destacan las buenas prestaciones del sis-             Onomatopeyas (ahahahah → ah).
tema de la RAE, que supera claramente al
resto de los sistemas y supera el 78 % de pre-        Respecto a los léxicos utilizados se usan
cisión. La mayorı́a de los sistemas, sin embar-   principalmente diferentes diccionarios de es-
go, están en un intervalo entre el 54 % y el      pañol (o correctores ortográficos o el propio
67 %. Se podrı́a explicar la diferencia del me-    Freeling6 usado en el preproceso) para bus-
jor sistema por el tratamiento meticuloso de       car propuestas normalizadas. Algunos siste-
cada uno de los fenómenos posibles, la com-       mas utilizan diccionarios de inglés para detec-
binación estadı́stica de los componentes y la     tar OOVs que no deben modificarse, Wikipe-
calidad y cobertura de los recursos utilizados.    dia 7 para añadir o detectar entidades nom-
    Los fenómenos a los que varios sistemas       bradas, pequeños diccionarios de variantes y
hacen frente explı́citamente son los siguien-      slang (en inglés existen más extensos) o listas
tes:                                               de frecuencias a partir de corpus para detec-
                                                   tar y normalizar cambios habituales propios
       Errores ortográficos habituales (h → 0).   de Internet/Twitter.
       Cambios fonológicos habituales (k → c).      6
                                                         http://nlp.lsi.upc.edu/freeling/
       Omisión de tildes (á → a).                  7
                                                         es.wikipedia.org
    También diversos corpus de español son        corpus de desarrollo), el DRAE y un diccio-
usados para construir modelos de lenguaje.          nario de nombres propios obtenido de la Wi-
Son usados tantos corpus de propósito gene-        kipedia. También utilizan un LM basado en
ral como corpus de tuits. También un sistema       un corpus de RSS periodı́sticos.
ha utilizado la API de un buscador para fil-           UPC (Ageno et al., 2013): Usan una
trar términos multipalabra.                        baterı́a de módulos (divididos en tres gru-
    Respecto a herramientas podemos desta-          pos; palabras sueltas, términos multipalabra
car los ya nombrados correctores ortográfi-        y expresiones regulares) para generar diferen-
cos (aspell8 , hunspell9 , Jazzy10 ), que se usan   tes propuestas de corrección para cada pa-
también para obtener propuestas de nor-            labra desconocida. Usan foma para realizar
malización. Junto a ellos varios sistemas          búsquedas aproximadas de términos simples
usan foma 11 para escribir, compilar en trans-      o multipalabra similares. La corrección defi-
ductores. y aplicar reglas de transforma-           nitiva se elige por votación ponderada según
ción de grafemas/fonemas. En algún caso se        la precisión de cada módulo. Los recursos
han aprendido reglas de transformación ba-         mencionados son: lista de acrónimos, lista de
sadas en modelos de lenguaje (compuestos            emoticones multicaracter y lista de onomato-
grafemas/fonemas) (p.e. usando Phonetisau-          peyas, diccionarios de español (con variantes)
rus12 ). Para seleccionar entre las propuestas      y de inglés y listas de nombres propios.
(además de frecuencias basadas en corpus)             Elhuyar (Saralegi y San-Vicente, 2013):
varios sistemas usan modelos de lenguaje de         Usan una estrategia compuesta por dos pa-
bigramas o trigramas de palabras (usando p.         sos: generación de posibles candidatos de co-
ej. OpenGrm13 o SRILM14 )                           rrección y selección del candidato utilizando
                                                    un modelo de lenguaje. Para la generación de
6.3.    Breve descripción de los                   candidatos además de la habitual distancia
        sistemas                                    de edición tratan abreviaturas comunes, co-
   RAE (Porta y Sancho, 2013): Se basa              loquialismos, caracteres repetidos e interjec-
en transductores de estados finitos con pesos       ciones. También restauración de mayúsculas
que son combinados estadı́sticamente usan-          y nombres propios. Usan SRILM para el LM
do la composición en tres pasos (variantes,        de bigramas de palabras, entrenándolo con la
posibles variantes, modelo de lenguaje) . A         Wikipedia (también para la lista de nombres
partir de reglas generan transductores para         propios) y un corpus de EFE.
prácticamente todos los fenómenos comenta-           IXA-EHU (Alegria, Etxeberria, y Laba-
dos además de un modelo de lenguaje (LM)           ka, 2013): Usa también foma para reglas que
basado en trigramas de palabras. Los recur-         se aplican incrementalmente, para la mayorı́a
sos léxicos más reseñables son el diccionario    de los fenómenos nombrados, pero a diferen-
DRAE, las 100.000 palabras inglesas más fre-       cia del sistema RAE no usa pesos, salvo pa-
cuentes del BNC, y un corpus de páginas web        ra los cambios ortográficos que aprende au-
(Wacky).                                            tomáticamente del corpus de desarrollo. Pa-
   Citius-Imaxin (Gamallo, Garcia, y Pi-            ra este aprendizaje usa un modelo de lengua-
chel, 2013): A partir de diversos recursos léxi-   je basado en grafemas aprendido del corpus
cos, generan dos tipos de candidatos, pri-          de desarrollo (utilizando Phonetisaurus). El
marios y secundarios; los cuales son orde-          LM de palabras es de unigramas (frecuencia
nados de diferentes maneras en el proceso           de las palabras) basado en corpus de tuits
de selección del mejor candidato. Escriben         base vueltos a recuperar y filtrados con Free-
reglas para tres tipos de errores: mayúscu-        ling (también se usa para obtener los nombres
la/minuscula, caracteres repetidos y errores        propios más frecuentes). Un buscador de In-
ortográficos comunes. Utilizan una lista de        ternet es usado para filtrar los términos mul-
normalización (principalmente obtenida del         tipalabra propuestos.
                                                       Vicomtech (Ruiz, Cuadros, y Etchegoy-
  8
     http://aspell.net/                             hen, 2013): Usan reglas de preproceso, un mo-
  9
     http://hunspell.sourceforge.net/               delo de distancias de edición adecuado al do-
  10
     http://jazzy.sourceforge.net/
  11
     https://code.google.com/p/foma/
                                                    minio y tres LM de 5-gramas de palabras,
  12
     http://code.google.com/p/phonetisaurus/        usando KenLM, para seleccionar candidatos
  13
     http://www.opengrm.org/                        de corrección según el contexto. Además de
  14
     http://www.speech.sri.com/projects/srilm/      la distancia de edición adaptada con pesos
usan aspell y hunspell como diccionario, lis-      de error/variación usan reglas de transforma-
tas de nombres propios (JRC Names y SA-            ción (implementación propia) y distancia de
VAS), un corpus de tuits recolectado por ellos     edición para proponer normalización y detec-
y un corpus extraı́do de Europarl. Hacen un        ción de palabras en otros idiomas (basado en
interesante estudio de los casos de variantes.     trigramas de caracteres). Usan el diccionario
    UniArizona (Hulden y Francom, 2013):           de español Libreoffice y dos pequeños diccio-
Estudian dos sistemas alternativos de reglas       narios de emoticones y variantes en tuits (ge-
escritas por un experto o inducción de las        nerados por ellos).
mismas. Los resultados son algo mejores pa-            UJaen-Sinai (Montejo-Ráez et al.,
ra el primer sistema. Para el primer método       2013): Para proponer formas normalizadas
escriben reglas para ser compiladas en trans-      hacen una serie de conversiones a partir de
ductores sin pesos usando foma. Las reglas         lexicones de reemplazamiento (abreviaturas
afrontan varios de los fenómenos menciona-        y onomatopeyas) y un corrector ortográfico
dos (restauración de tildes, repeticiones de      (aspell enriquecido con nombres de ciudades,
caracteres, errores ortográficos habituales y     interjecciones, neologismos de Internet y
abreviaturas). Para el segundo método indu-       otras entidades nombradas).
cen pesos para los cambios. Las propuestas             UniCoruña (Vilares, Alonso, y Vilares,
se ordenan usando un LM de unigramas (fre-         2013): Es un sistema conceptualmente senci-
cuencia de palabras). Para manipulación de        llo y flexible que emplea pocos recursos (dic-
pesos en los transductores usan Kleen.             cionario SMS, tratamiento de onomatopeyas,
    UPF-Havas (Muñoz-Garcı́a, Suárez, y          repeticiones, diacrı́ticos y errores ortográfi-
Bel, 2013): Hacen uso de datos abiertos ex-        cos) y que aborda el problema desde un punto
traı́dos de recursos publicados en la Web          de vista léxico.
desarrollados de manera colectiva, entre los
que se encuentran la Wikipedia y un diccio-        7.   Conclusiones
nario de SMS. No afronta especı́ficamente la           El taller Tweet-Norm-2013 ha sido un pri-
mayorı́a de los problemas enumerados, salvo        mer paso académico conjunto para estudiar
las tildes y las mayúsculas. Realiza búsque-     y mejorar el problema de normalización de
das en el diccionario de SMS y si no tiene         tuits en español. La participación de 13 sis-
éxito usa la primera propuesta del corrector      temas demuestra el interés en el tema. Es de
Jazzy.                                             resaltar la diversidad de procedencia de los
    DLSIAlicante (Mosquera-López y More-          participantes y la variedad de recursos utili-
da, 2013): empleando la herramienta de nor-        zados.
malizacion multilingüe TENOR, siguiendo               A la espera de un análisis todavia más de-
una estrategia similar a la usada en SMS en        tallado de los resultados creemos que los cor-
inglés empleando técnicas de reconocimiento      pus desarrollados y las publicaciones realiza-
del habla, pero adaptada al español. Usan as-     das ayudarán a la mejora de los resultados en
pell ampliado con nombre de paı́ses como dic-      el futuro.
cionario, y representan el léxico fonéticamen-       Desde los participantes se han recibido
te usando el algoritmo del metáfono adapta-       propuestas de mejora sobre ciertos aspectos
do al español. Para distancia entre palabras      del preproceso que pueden ser mejorados (en-
usan el algoritmo Gestalt y para ordenar las       tidades comunes que se han marcado como
propuests un LM (basado en el corpus CESS-         OOV) y algunos casos de anotación que pue-
ESP).                                              den ser discutibles.
    UniMelbourne (Han, Cook, y Baldwin,                Los corpus anotados se pondrán en bre-
2013): Basándose en su experiencia para el        ve plazo a libre disposición de toda la co-
inglés, construyen un léxico de normaliza-       munidad cientı́fica (consultar el sitio oficial:
cion a partir de un corpus (compuesto de           komunitatea.elhuyar.org/tweet-norm/).
millones de tuits en español) utilizando si-          Creemos que en el futuro una tarea simi-
militud distribucional basada en distancia de      lar puede ser planteada, aunque creemos ne-
edición/fonológica, y este léxico se combina    cesario algún tipo de evaluación combinada
con un diccionario slang de jerga de Internet      con otras tareas (traducción, análisis de sen-
en español (obtenido de dos sitios web).          timiento...). Además serı́a interesante dar un
    UniSevilla (Cotelo-Moya, Cruz, y Tro-          paso más allá de la normalización léxica, y
yano, 2013): Aparte de caracterizar la fuente      afrontar también la normalización sintáctica.
Bibliografı́a                                    Montejo-Ráez, Arturo, Manuel Dı́az-Galiano,
Ageno, Alicia, Pere R. Comas, Lluı́s Padró,       Eugenio      Martı́nez-Cámara,     Teresa
  y Jordi Turmo. 2013. The talp-upc ap-            Martı́n-Valdivia, Miguel A. Garcı́a-
  proach to tweet-norm 2013. En Proc. of           Cumbreras, y Alfonso Ureña-López.
  the Tweet Normalization Workshop at SE-          2013. Sinai at twitter-normalization 2013.
  PLN 2013. IV Congreso Español de In-            En Proc. of the Tweet Normalization
  formática.                                      Workshop at SEPLN 2013.IV Congreso
                                                   Español de Informática.
Alegria, Iñaki, Izaskun Etxeberria, y Gorka
   Labaka. 2013. Una cascada de transduc-        Mosquera, Alejandro, Elena Lloret, y Palo-
   tores simples para normalizar tweets. En        ma Moreda. 2012. Towards facilitating
   Proc. of the Tweet Normalization Works-         the accessibility of web 2.0 texts through
   hop at SEPLN 2013. IV Congreso Español         text normalisation. En Proceedings of the
   de Informática.                                LREC Workshop: Natural Language Pro-
                                                   cessing for Improving Textual Accessibility
Cotelo-Moya, Juan M., Fermı́n L. Cruz, y Jo-       (NLP4ITA), Istanbul, Turkey, páginas 9–
  se A. Troyano. 2013. Resource-based lexi-        14.
  cal approach to tweet-norm task. En Proc.
  of the Tweet Normalization Workshop at         Mosquera-López, Alejandro y Paloma More-
  SEPLN 2013. IV Congreso Español de In-          da. 2013. Dlsi en tweet-norm 2013: Nor-
  formática.                                      malización de tweets en español. En Proc.
Eisenstein, Jacob. 2013. What to do about          of the Tweet Normalization Workshop at
   bad language on the internet. En Procee-        SEPLN 2013. IV Congreso Español de In-
   dings of NAACL-HLT, páginas 359–369.           formática.

Gamallo, Pablo, Marcos Garcia, y José Ra-       Muñoz-Garcı́a, Oscar, Silvia Vázquez Suárez,
  mom Pichel. 2013. A method to lexi-              y Nuria Bel. 2013. Exploiting web-based
  cal normalisation of tweets. En Proc. of         collective knowledge for micropost norma-
  the Tweet Normalization Workshop at SE-          lisation. En Proc. of the Tweet Normaliza-
  PLN 2013. IV Congreso Español de In-            tion Workshop at SEPLN 2013. IV Con-
  formática.                                      greso Español de Informática.
Gomez-Hidalgo, Jose M., Andrés A. Caurcel-      Oliva, Jesús, José I. Serrano, Marı́a D.
  Dı́az, y Yovan Iñiguez del Rio. 2013. Un         Del Castillo, y Ángel Iglesias.         2011.
  método de análisis de lenguaje tipo sms         Sms normalization: combining phonetics,
  para el castellano. Linguamática, 5(1):31–       morphology and semantics. En Advances
  39.                                               in Artificial Intelligence. Springer, páginas
                                                    273–282.
Han, Bo y Timothy Baldwin. 2011. Lexi-
  cal normalisation of short text messages:      Padró, Lluı́s y Evgeny Stanilovsky. 2012.
  Makn sens a# twitter. En ACL, páginas           Freeling 3.0: Towards wider multilingua-
  368–378.                                         lity.    En Proceedings of the Langua-
Han, Bo, Paul Cook, y Timothy Baldwin.             ge Resources and Evaluation Conference
  2013. unimelb: Spanish text normalisa-           (LREC 2012). Istanbul.
  tion. En Proc. of the Tweet Normalization      Porta, Jordi y José Luis Sancho. 2013. Word
  Workshop at SEPLN 2013. IV Congreso              normalization in twitter using finite-state
  Español de Informática.                        transducers. En Proc. of the Tweet Nor-
Hulden, Mans y Jerid Francom.      2013.           malization Workshop at SEPLN 2013. IV
  Weighted and unweighted transducers for          Congreso Español de Informática.
  tweet normalization. En Proc. of the
                                                 Ruiz, Pablo, Montse Cuadros, y Thierry Et-
  Tweet Normalization Workshop at SE-
                                                   chegoyhen. 2013. Lexical normalization
  PLN 2013.IV Congreso Español de In-
                                                   of spanish tweets with preprocessing rules,
  formática.
                                                   domain-specific edit distances, and lan-
Liu, Xiaohua, Shaodian Zhang, Furu Wei, y          guage models. En Proc. of the Tweet Nor-
   Ming Zhou. 2011. Recognizing named en-          malization Workshop at SEPLN 2013. IV
   tities in tweets. En ACL, páginas 359–367.     Congreso Español de Informática.
Saralegi, Xabier y Iñaki San-Vicente. 2013.     JIIIIIIIIOLE Olé
   Elhuyar at tweet-norm 2013. En Proc.          Fotazo fotaza
   of the Tweet Normalization Workshop at        gor gorda|gordo
   SEPLN 2013.IV Congreso Español de In-        coner con el
   formática.                                   shh sı́|sé
                                                 primera+ primera más
Vilares, Jesus, Miguel A. Alonso, y David Vi-
                                                 salobreja Salobreja
   lares. 2013. Prototipado rápido de un sis-
   tema de normalización de tuits: Una apro-
   ximación léxica. En Proc. of the Tweet
   Normalization Workshop at SEPLN 2013.
   IV. Congreso Español de Informática.
Villena Román, Julio, Sara Lana Serrano,
   Eugenio Martı́nez Cámara, y José Carlos
   González Cristóbal. 2013. Tass-workshop
   on sentiment analysis at sepln.

Anexo I: Listado de palabras no
corregidas
   A continuación se detallan las variantes
del corpus de test que ningún sistema ha pro-
puesto corregido correctamente, junto la nor-
malización anotada.
     FYQ Fı́sica y quı́mica
     sisiii sı́ sı́
     yaa allá
     picolos picoletos
     nainonainonahh nainonainoná
     gordys gorditas
     JUUUM hum
     Tuitutil TuitÚtil
     crst Cristo
     mencantaba me encantaba
     diitaas diı́tas
     soo eso
     queeee qué
     Teinfiniteamo Te amo infinitamente
     aber a ver
     Hum Humedad
     L. l.
     Muchomuchacho Mucho Muchacho
     Hojo Jo
     jonaticas jonáticas
     gafis gafitas
     her hermano|hermana
     MIAMOR mi amor
     guapii guapita
     WAPAHHH guapa
     EAEA ea ea
     Acho Macho
     tirantitas tirantitos
     HMYV MHYV
     filosofia Filosofı́a
     nah nada
     FAV favorito