<!DOCTYPE article PUBLIC "-//NLM//DTD JATS (Z39.96) Journal Archiving and Interchange DTD v1.0 20120330//EN" "JATS-archivearticle1.dtd">
<article xmlns:xlink="http://www.w3.org/1999/xlink">
  <front>
    <journal-meta />
    <article-meta>
      <title-group>
        <article-title>Prototipado R´apido de un Sistema de Normalizaci´on de Tuits: Una Aproximaci´on L´exica∗</article-title>
      </title-group>
      <contrib-group>
        <contrib contrib-type="author">
          <string-name>Jesu´s Vilares y Miguel A. Alonso y David Vilares</string-name>
          <email>david.vilares@udc.es</email>
          <email>jesus.vilares@udc.es</email>
          <email>miguel.alonso@udc.es</email>
          <xref ref-type="aff" rid="aff0">0</xref>
        </contrib>
        <aff id="aff0">
          <label>0</label>
          <institution>Departamento de Computaci ́on, Universidade da Corun ̃a Campus de Elvin ̃</institution>
          <addr-line>a s/n, 15071 - A Corun ̃a</addr-line>
        </aff>
      </contrib-group>
      <pub-date>
        <year>2012</year>
      </pub-date>
      <abstract>
        <p>This work describes the system for the normalization of tweets in Spanish designed by the Language in the Information Society (LYS) Group of the University of A Corun˜a for Tweet-Norm 2013. It is a conceptually simple and flexible system, which uses few resources and that faces the problem from a lexical point of view.</p>
      </abstract>
    </article-meta>
  </front>
  <body>
    <sec id="sec-1">
      <title>-</title>
      <p>
        El uso del lenguaje en microtextos como los
de Twitter y los SMS, denominado texting, se
aleja mucho del esta´ndar
        <xref ref-type="bibr" rid="ref7 ref9">(Lo´pez Ru´a, 2007;
Oliva et al., 2013)</xref>
        : empleo de ciertas
convenciones en la comunicacio´n (p.ej. usar
emoticonos para mostrar emociones), ignorar la
ortograf´ıa (p.ej. falta de tildes, intercambio de
consonantes homo´fonas como b/v o c/q/k,
etc.), ajustar el mensaje a la longitud
ma´xima permitida (p.ej. 140 letras en un tuit)
mediante acortamientos, contracciones,
transformaciones, etc. Hablaremos entonces de
variantes l´exicas para referirnos a los t´erminos
resultantes
        <xref ref-type="bibr" rid="ref3 ref4">(Han, Cook, y Baldwin, 2013)</xref>
        ,
siendo tales fen´omenos, mayormente de
base fon´etica, espec´ıficos del idioma. Trabajos
como los de
        <xref ref-type="bibr" rid="ref14">Thurlow (2003)</xref>
        para el ingl´es y
Lo´pez Ru´a (2007) para el espan˜ol describen
su fenomenolog´ıa particular.
      </p>
      <p>
        Asimismo, aplicar t´ecnicas de
Procesamiento del Lenguaje Natural a los millones
de tuits generados a diario ser´ıa de gran
inter´es para la inteligencia empresarial, pero las
alteraciones del lenguaje antes descritas lo
dificultan. Una solucio´n es transformar dicho
texto a lenguaje esta´ndar, es decir,
normalizarlo. Si bien existen precedentes para otros
idiomas (predominando el ingl´es)
        <xref ref-type="bibr" rid="ref11 ref15 ref2 ref3 ref3 ref4 ref4 ref6">(Xue, Yin,
y Davison, 2011; Costa-Jussa` y Banchs, 2013;
Beaufort, 2011; Han, Cook, y Baldwin, 2013;
Liu, Weng, y Jiang, 2012)</xref>
        , apenas existen
trabajos para el espan˜ol
        <xref ref-type="bibr" rid="ref9">(Oliva et al., 2013)</xref>
        . Se
trata, adema´s, de propuestas complejas,
fruto de un largo desarrollo. En contraste, para
nuestra participaci´on en Tweet-Norm hemos
optado por una propuesta sencilla aunque
flexible, que emplease pocos recursos. Nuestro
objetivo no ha sido tanto buscar un alto
rendimiento como mostrar hasta do´nde es
posible avanzar empleando t´ecnicas sencillas.
      </p>
      <p>La estructura del art´ıculo es como sigue.
La Seccio´n 2 aborda la arquitectura del
sistema, su funcionamiento y los recursos
empleados. La Seccio´n 3 detalla los resultados
obtenidos. Finalmente, la Seccio´n 4 presenta
nuestras conclusiones y trabajo futuro.
2.</p>
    </sec>
    <sec id="sec-2">
      <title>Arquitectura y recursos</title>
      <p>Buscando simplicidad y flexibilidad, optamos
por una arquitectura en pipeline que nos
permit´ıa integrar, eliminar e intercambiar
mo´dulos de forma sencilla. Dichos mo´dulos se
comunican empleando un formato de
representaci´on intermedia codificado como texto y de
naturaleza estructurada y jerarquizada. En
este esquema un tuit esta´ formado por
t´erminos y para cada t´ermino existe una serie de
candidatos para su normalizaci´on.</p>
      <p>Dado que la tarea de normalizacio´n
consiste en etiquetar una palabra
fuera-devocabulario (OOV, out-of-vocabulary word )
como correcta o bien proponer su forma
correcta, dicha tarea puede verse como un
proceso en dos fases. Primero, identificar
las palabras dentro-del-vocabulario (IV,
invocabulary word ) del tuit, y as´ı saber cua´les
son las OOVs. Segundo, proponer la forma
correcta de las OOVs detectadas, lo que a su
vez implica: (a) identificar si se trata de una
palabra correcta pero desconocida (que
denominaremos OOVs propias) o bien de una
variante l´exica; (b) en este u´ltimo caso,
obtener su forma esta´ndar normalizada.</p>
      <p>Esto nos llev´o a plantear la arquitectura
general del sistema en tres etapas: (1) los
tuits se tokenizan y preprocesan; (2)
identificamos las IVs en base al vocabulario del
sistema, obteniendo el conjunto inicial de OOVs;
(3) clasificamos las OOVs en propias y
variantes l´exicas, y proponemos para ´estas su
forma esta´ndar normalizada, aplicando para
ello una serie de procesos de normalizaci´on
sobre el conjunto inicial de OOVs,
obteniendo as´ı sus normalizaciones candidatas para
luego elegir la ma´s adecuada.</p>
      <p>Sobre esa arquitectura general se
plantearon dos versiones del sistema (v´ease
Figura 1), las cuales describimos a continuacio´n.
2.1.</p>
      <sec id="sec-2-1">
        <title>Planteamiento inicial</title>
        <p>
          En un principio el sistema se concibio´ en
torno a dos herramientas: el
preprocesador multilingu¨e Twokenize
          <xref ref-type="bibr" rid="ref10">(Owoputi et al.,
2013)</xref>
          , disen˜ado para tokenizar tuits as´ı
como identificar ciertas entidades de inter´es
tales como cifras, emoticonos, URLs, etc.; y la
herramienta de correccio´n ortogra´fica GNU
Aspell1 (rel. 0.60) junto con su diccionario.
Debemos sen˜alar que si bien el mecanismo de
bu´squeda de correcciones de Aspell
combina una bu´squeda por distancia de edicio´n con
una bu´squeda fon´etica basada en el algoritmo
del meta´fono
          <xref ref-type="bibr" rid="ref12">(Philips, 1990)</xref>
          , en el caso del
espan˜ol ´esta u´ltima no esta´ disponible. Como
muestra la parte izquierda de la Figura 1,
ambas herramientas nos permitir´ıan abordar de
forma sencilla las fases de preprocesamiento
e identificacio´n de OOVs.
        </p>
        <p>1http://aspell.net
(a)
tuits
Twokenize [ARK Tools]
BÚSQUEDA EN
DICCIONARIOS
(Aspell &amp; ad-hoc)
RECONOCIMIENTO</p>
        <p>DE ENTIDADES
(diccionarios ad-hoc)
no implementada
IDENTIFICACIÓN DE
VARIANTES LÉXICAS
Y NORMALIZACIÓN
no implementada</p>
        <p>tuits
normalizados
(b)
tuits
analyze [Freeling]
Diccionario SMS
PROCESA. RISAS
GENERACIÓN
DE CANDIDATOS
REPETICIONES</p>
        <p>DIACRÍTICOS
ERRS. ORTOGRÁFICOS
SELEC. CANDIDATOS</p>
        <p>tuits
normalizados</p>
        <p>Figura 1: Arquitectura del sistema: (a)
planteada inicialmente; (b) implementada</p>
        <p>
          Otras opciones barajadas fueron el
tokenizador gen´erico del corpus
Europarl
          <xref ref-type="bibr" rid="ref5">(Koehn, 2005)</xref>
          , as´ı como otros
diccionarios del espan˜ol a los que ten´ıamos acceso:
el del AnCora
          <xref ref-type="bibr" rid="ref13">(Taul´e, Mart´ı, y Recasens,
2008)</xref>
          , el del proyecto ERIAL
          <xref ref-type="bibr" rid="ref1">(Barcala et
al., 2002)</xref>
          y el MULTEXT (V´eronis, 1999).
Sin embargo elegimos aqu´ellos por su libre
disponibilidad, lo que facilita la
replicabilidad de los experimentos, as´ı como por sus
buenas prestaciones. Asimismo, tras detectar
ciertas carencias del diccionario de Aspell
para ciertos tipos de palabras frecuentes
en este tipo de textos (jerga del dominio,
interjecciones, onomatopeyas, etc.), nos
preparamos para ampliar el vocabulario del
sistema empleando una serie de diccionarios
y gazetteers ad-hoc creados a partir de
diversas fuentes web libremente disponibles
y de nuestra propia experiencia. Tambi´en
se hab´ıa previsto realizar un proceso de
reconocimiento de entidades en base a los
gazetteers antes referidos.
        </p>
        <p>Finalmente, en la tercera fase del proceso
clasificar´ıamos y normalizar´ıamos las OOVs.</p>
      </sec>
      <sec id="sec-2-2">
        <title>Sistema final</title>
        <p>
          Sin embargo, tal arquitectura no fue la que
finalmente se implement´o, siendo ´esta la que se
muestra en la parte derecha de la Figura 1.
La razo´n fue que, por un error de
interpretaci´on, cre´ımos que no se permit´ıa emplear
el mismo tipo de preprocesamiento llevado a
cabo por la organizacio´n para la creacio´n del
corpus de entrenamiento y que empleaba la
herramienta analyze de Freeling
          <xref ref-type="bibr" rid="ref11 ref6">(Padro´ y
Stanilovsky, 2012)</xref>
          .2 Fue despu´es, con el
sistema ya en un estado avanzado de
implementaci´on, cuando nos percatamos del error.
Decidimos entonces cambiar a analyze para una
mejor comparabilidad de nuestros resultados
con los del resto de participantes, que
supusimos emplear´ıan mayormente Freeling. Esto
supuso un nuevo retraso que, dado lo
ajustado de los plazos, hizo que entre otras cosas
no pudi´eramos integrar el reconocedor de
entidades previsto. Por contra, la fase de
identificacio´n de OOVs se simplific´o bastante
respecto a la planteada inicialmente, de tal
forma que el u´nico diccionario empleado, aparte
del de Freeling, fue uno de jerga SMS.3
        </p>
        <p>Llegados a este punto, con el conjunto
inicial de OOVs identificado, se pasa a la fase de
normalizaci´on. Primero se detectan y
normalizan las onomatopeyas de risas (p.ej. jajaa)
usando patrones. Seguidamente se generan,
de forma acumulativa, posibles
normalizaciones para las OOVs remanentes en base a los
mecanismos de variacio´n considerados, que
describimos en la Seccio´n 2.3. Dicho
proceso es iterativo y se recoge en el Algoritmo 1.</p>
        <p>Usar una cola de prioridad (Qgen) como
estructura de almacenamiento nos permite
primar los candidatos segu´n sean o no IVs,
lo complejo de su generacio´n, y lo
frecuente y factible del mecanismo de variacio´n. Es
ma´s f´acil, por ejemplo, que una OOV sea
una variante por repetici´on de vocales que
lo sea por repetici´on de vocales, eliminacio´n
de diacr´ıticos y errores ortogra´ficos todo a la
vez. De este modo el supuesto mejor
candidato sera´ siempre el primero.</p>
        <p>Finalmente, una vez generados las posibles
normalizaciones de cada OOV, ´estas son
normalizadas al primero, y mejor, de sus
candi2Ficheros de configuraci´on en http://devel.cpl.
upc.edu/freeling/svn/trunk/src/main/twitter/.</p>
        <p>3Descubrimos despu´es que, por algu´n error, el
volcado del diccionario conten´ıa u´nicamente
entradas hasta la K, mientras que su web (http://www.
diccionariosms.com) parece haber sido ya cerrada.
datos. Aunque no lo parezca, impl´ıcitamente
se esta´ realizando la mencionada clasificacio´n
de las OOVs en OOVs propias, aqu´ellas
normalizadas a ellas mismas por no tener
candidatos mejores, y en variantes l´exicas, aqu´ellas
que cuentan con otros candidatos mejores y
que son normalizadas a dichos t´erminos.
2.3.</p>
      </sec>
      <sec id="sec-2-3">
        <title>Mecanismos de variaci´on</title>
        <p>Actualmente consideramos u´nicamente tres
posibles fuentes de variacio´n, que son
abordadas desde una perspectiva l´exica para as´ı
limitar la complejidad del sistema.</p>
        <p>En primer lugar, la repeticio´n de
caracteres. Si una OOV contiene dos o ma´s letras
iguales seguidas podr´ıa ser una variante de
este tipo (p.ej. besooos vs. besos). Las
normalizaciones consideradas sera´n, por orden:
la palabra sin repeticiones, con repeticiones
de ma´ximo longitud dos, y las palabras
resultantes de eliminar todas sus repeticiones
excepto una, reducida a longitud dos.4</p>
        <p>A continuacio´n, los errores en los
diacr´ıticos. Cualquier OOV con vocales podr´ıa ser
una variante de este tipo (p.ej. camion vs.
camio´n). Se eliminan sus diacr´ıticos (de
tenerlos) y se comprueba si el t´ermino
resultante es una IV. Si lo es, se toma como
u´nico candidato. En los otros casos se
generan con Aspell sus correcciones candidatas,5
qued´andonos so´lo con aqu´ellas que difieren
u´nicamente en los diacr´ıticos.</p>
        <p>Finalmente, otros errores ortogra´ficos.</p>
        <p>Cualquier OOV podr´ıa ser una forma mal
escrita de otra palabra (p.ej. palabar vs.
palabra). Los candidatos sera´n las
correcciones devueltas por Aspell.</p>
        <p>
          Asimismo se intent´o incorporar, sin ´exito,
un cuarto mecanismo de normalizaci´on
basado en bu´squeda fon´etica empleando el
algoritmo del meta´fono
          <xref ref-type="bibr" rid="ref12">(Philips, 1990)</xref>
          , el cual,
como se indicaba en la Seccio´n 2.1, no esta´
disponible para el espan˜ol en Aspell. Para ello
creamos un ´ındice invertido del vocabulario
en base a sus transcripciones fon´eticas
usando una adaptacio´n al espan˜ol del
algoritmo
          <xref ref-type="bibr" rid="ref8">(Mosquera, 2011)</xref>
          . A la hora de la
bu´squeda dicha transcripci´on se combinaba con un
algoritmo de correspondencia voc´alica pues
las vocales eran obviadas por el algoritmo.
        </p>
        <p>4Asimismo, se priorizan las repeticiones de
ciertas letras en base a su naturaleza y frecuencia en el
diccionario. Por orden: e, o, r, l, c y n.</p>
        <p>5Se emplean siempre simult´aneamente los
suggestion modes ultra y normal de Aspell.</p>
        <p>Algoritmo 1 Generaci´on de normalizaciones candidatas.</p>
        <sec id="sec-2-3-1">
          <title>Entrada:</title>
          <p>toov: t´ermino OOV a normalizar.
gi(): funci´on generadora de normalizaciones candidatas para el fen´omeno vi, donde V = (v1, . . . , vN ) son los
fen´omenos de variaci´on abordados, ordenados por precedencia y frecuencia.</p>
          <p>apli(): funci´on booleana que detecta si un t´ermino podr´ıa ser una variante l´exica de tipo vi.</p>
        </sec>
        <sec id="sec-2-3-2">
          <title>Salida:</title>
          <p>Qgen: lista de candidatos para la normalizaci´on. Actu´a a modo de cola de prioridad donde los candidatos han
sido almacenados por orden de inserci´on priorizando aqu´ellos que son IVs sobre los OOVs. De este
modo los candidatos IVs se situar´an en la parte anterior de la cola y los OOVs en la posterior, y a su
vez, dentro de cada clase, los candidatos estar´an por orden de creaci´on, habiendo sido generados de
forma acumulativa aplicando los diferentes mecanismos de normalizaci´on asociados a V. En resumen:
primero, los candidatos IVs generados a partir de toov empleando g1; luego los generados empleando
g2; los generados aplicando, secuencialmente, g1 y g2; los generados con g1 y g3; con g2 y g3; con g1, g2
y g3; etc.; y a continuaci´on lo mismo para los candidatos OOVs, con el propio toov en primer lugar.
(*. . . sino, encolamos el nuevo candidato. *)</p>
        </sec>
      </sec>
    </sec>
    <sec id="sec-3">
      <title>Evaluacio´n</title>
      <p>Por limitaciones de tiempo so´lo tenemos dos
tipos de runs: (a) un baseline sin normalizar
que toma directamente la salida de analyze
(base ); y (b) el resultado del proceso de
normalizacio´n descrito anteriormente (norm).
Los resultados obtenidos se muestran en el
Cuadro 1, indicando: el nu´mero de errores
de alineamiento (err ), el nu´mero de OOVs
normalizadas de forma correcta (pos) e
incorrecta (neg ), y el accuracy, tanto el calculado
mediante el script Python inicial (accupy)
como con el script PHP final (accuphp).</p>
      <p>Su rendimiento, del 33-34 %, nos situ´a a
la cola de los participantes, si bien muy cerca
de otros, por lo que dada la simplicidad de
nuestra aproximaci´on y los pocos fen´omenos
de variacio´n tratados, no es un mal resultado.
4.</p>
    </sec>
    <sec id="sec-4">
      <title>Conclusiones y trabajo futuro</title>
      <p>E´sta ha sido nuestra primera incursi´on
formal en la normalizaci´on de tuits en espan˜ol.
Se trata de un sistema sencillo, que opera a
nivel l´exico usando pocos recursos, y que
tiene una arquitectura en pipeline que lo hace
muy flexible. Su rendimiento ha sido
satisfactorio a pesar de su simplicidad.</p>
      <p>En el futuro, adema´s de abordar el resto
de fuentes de variacio´n ma´s comunes,
pretendemos incluir diversas mejoras: un formato
de representaci´on intermedia entre mo´dulos
en XML; integrar un detector del idioma y
un reconocedor de entidades; emplear
puntuaciones; y usar informacio´n contextual
para mejorar el filtrado de candidatos.</p>
      <p>V´eronis, J. 1999. MULTEXT-corpora. An
annotated corpus for five European
languages. CD-ROM. Distribido por
ELRA/ELDA.</p>
    </sec>
  </body>
  <back>
    <ref-list>
      <ref id="ref1">
        <mixed-citation>
          <string-name>
            <surname>Barcala</surname>
            ,
            <given-names>F. M.</given-names>
          </string-name>
          ,
          <string-name>
            <given-names>E. M.</given-names>
            <surname>Dom</surname>
          </string-name>
          <article-title>´ınguez, M. A</article-title>
          .
          <string-name>
            <surname>Alonso</surname>
            ,
            <given-names>D.</given-names>
          </string-name>
          <string-name>
            <surname>Cabrero</surname>
            , J. Gran˜a, J. Vilares,
            <given-names>M.</given-names>
          </string-name>
          <string-name>
            <surname>Vilares</surname>
            , G. Rojo,
            <given-names>M. P.</given-names>
          </string-name>
          <string-name>
            <surname>Santalla</surname>
            , y
            <given-names>S.</given-names>
          </string-name>
          <string-name>
            <surname>Sotelo</surname>
          </string-name>
          .
          <year>2002</year>
          .
          <article-title>Una aplicacio´n de RI basada en PLN: el proyecto ERIAL</article-title>
          . En Actas de las I Jornadas de Tratamiento y Recuperacio´n de Informacio´
          <source>n (JOTRI</source>
          <year>2002</year>
          ), pa´gs.
          <fpage>165</fpage>
          -
          <lpage>172</lpage>
          .
        </mixed-citation>
      </ref>
      <ref id="ref2">
        <mixed-citation>
          <string-name>
            <surname>Beaufort</surname>
            ,
            <given-names>R.</given-names>
          </string-name>
          <year>2011</year>
          .
          <article-title>From SMS gathering to SMS normalization: finite-state algorithms</article-title>
          .
          <source>TCTS Lab's seminars</source>
          , University of Mons. Disponible en http://cental. fltr.ucl.ac.be/team/beaufort/file/ TCTS2011_beaufort.pdf.
        </mixed-citation>
      </ref>
      <ref id="ref3">
        <mixed-citation>
          <string-name>
            <surname>Costa-Jussa`</surname>
            ,
            <given-names>M. R. y R. E.</given-names>
          </string-name>
          <string-name>
            <surname>Banchs</surname>
          </string-name>
          .
          <year>2013</year>
          .
          <article-title>Automatic normalization of short texts by combining statistical and rule-based techniques</article-title>
          .
          <source>Language Resources and Evaluation</source>
          ,
          <volume>47</volume>
          (
          <issue>1</issue>
          ):
          <fpage>179</fpage>
          -
          <lpage>193</lpage>
          .
        </mixed-citation>
      </ref>
      <ref id="ref4">
        <mixed-citation>
          <string-name>
            <surname>Han</surname>
            ,
            <given-names>B.</given-names>
          </string-name>
          , P. Cook, y
          <string-name>
            <given-names>T.</given-names>
            <surname>Baldwin</surname>
          </string-name>
          .
          <year>2013</year>
          .
          <article-title>Lexical normalization for social media text</article-title>
          .
          <source>ACM Transactions on Intelligent Systems and Technology (TIST)</source>
          ,
          <volume>4</volume>
          (
          <issue>1</issue>
          ).
        </mixed-citation>
      </ref>
      <ref id="ref5">
        <mixed-citation>
          <string-name>
            <surname>Koehn</surname>
            ,
            <given-names>P.</given-names>
          </string-name>
          <year>2005</year>
          .
          <article-title>Europarl: A Parallel Corpus for Statistical Machine Translation</article-title>
          .
          <source>En Proc. of the 10th Machine Translation Summit (MT Summit X)</source>
          , pa´gs.
          <fpage>79</fpage>
          -
          <lpage>86</lpage>
          . Corpus disponible en http://www. statmt.org/europarl/.
        </mixed-citation>
      </ref>
      <ref id="ref6">
        <mixed-citation>
          <string-name>
            <surname>Liu</surname>
            ,
            <given-names>F.</given-names>
          </string-name>
          ,
          <string-name>
            <given-names>F.</given-names>
            <surname>Weng</surname>
          </string-name>
          , y
          <string-name>
            <given-names>X.</given-names>
            <surname>Jiang</surname>
          </string-name>
          .
          <year>2012</year>
          .
          <article-title>A broad-coverage normalization system for social media language</article-title>
          .
          <source>En Proc</source>
          .
          <article-title>of the 50th Annual Meeting of the Association for Computational Linguistics (ACL'12): Long Papers</article-title>
          - Vol.
          <volume>1</volume>
          , pa´gs.
          <fpage>1035</fpage>
          -
          <lpage>1044</lpage>
          . ACL.
        </mixed-citation>
      </ref>
      <ref id="ref7">
        <mixed-citation>
          <article-title>Lo´pez Ru´a</article-title>
          , P.
          <year>2007</year>
          .
          <article-title>Teaching L2 vocabulary through SMS language: Some didactic guidelines</article-title>
          . Estudios de lingu¨´
          <source>ıstica inglesa aplicada</source>
          ,
          <volume>7</volume>
          :
          <fpage>165</fpage>
          -
          <lpage>188</lpage>
          .
        </mixed-citation>
      </ref>
      <ref id="ref8">
        <mixed-citation>
          <string-name>
            <surname>Mosquera</surname>
            ,
            <given-names>A.</given-names>
          </string-name>
          <year>2011</year>
          .
          <article-title>The Spanish metaphone algorithm (Algoritmo del meta´fono para el espan˜ol)</article-title>
          . Co´digo disponible en https:// github.com/amsqr/Spanish-Metaphone.
        </mixed-citation>
      </ref>
      <ref id="ref9">
        <mixed-citation>
          <string-name>
            <surname>Oliva</surname>
            ,
            <given-names>J.</given-names>
          </string-name>
          ,
          <source>J. I. Serrano, M. D. del Castillo</source>
          , y
          <string-name>
            <given-names>A.</given-names>
            <surname>Iglesias</surname>
          </string-name>
          .
          <year>2013</year>
          .
          <article-title>A SMS normalization system integrating multiple grammatical resources</article-title>
          .
          <source>Natural Language Engineering</source>
          ,
          <volume>19</volume>
          (
          <issue>1</issue>
          ):
          <fpage>121</fpage>
          -
          <lpage>141</lpage>
          .
        </mixed-citation>
      </ref>
      <ref id="ref10">
        <mixed-citation>
          <string-name>
            <surname>Owoputi</surname>
            ,
            <given-names>O.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>B. O'Connor</surname>
            ,
            <given-names>C.</given-names>
          </string-name>
          <string-name>
            <surname>Dyer</surname>
            ,
            <given-names>K.</given-names>
          </string-name>
          <string-name>
            <surname>Gimpel</surname>
            , N. Schneider,
            <given-names>y N. A.</given-names>
          </string-name>
          <string-name>
            <surname>Smith</surname>
          </string-name>
          .
          <year>2013</year>
          .
          <article-title>Improved part-of-speech tagging for online conversational text with word clusters</article-title>
          .
          <source>En Proc. of the</source>
          <year>2013</year>
          <article-title>Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (NAACLHLT</article-title>
          <year>2013</year>
          ), pa´gs.
          <fpage>380</fpage>
          -
          <lpage>390</lpage>
          . ACL. Toolkit disponible en http://www.ark.cs.cmu. edu/TweetNLP/.
        </mixed-citation>
      </ref>
      <ref id="ref11">
        <mixed-citation>
          <string-name>
            <surname>Padro´</surname>
            , L. y
            <given-names>E.</given-names>
          </string-name>
          <string-name>
            <surname>Stanilovsky</surname>
          </string-name>
          .
          <year>2012</year>
          .
          <article-title>Freeling 3.0: Towards wider multilinguality</article-title>
          .
          <source>En Proc. of the 8th Int. Conference on Language Resources and Evaluation (LREC'12)</source>
          . ELRA. Toolkit disponible en http://nlp.lsi.upc.edu/freeling/.
        </mixed-citation>
      </ref>
      <ref id="ref12">
        <mixed-citation>
          <string-name>
            <surname>Philips</surname>
            ,
            <given-names>L.</given-names>
          </string-name>
          <year>1990</year>
          .
          <article-title>Hanging on the metaphone</article-title>
          .
          <source>Computer Language</source>
          ,
          <volume>7</volume>
          (
          <issue>12</issue>
          ):
          <fpage>39</fpage>
          -
          <lpage>43</lpage>
          .
        </mixed-citation>
      </ref>
      <ref id="ref13">
        <mixed-citation>
          <string-name>
            <surname>Taul</surname>
            ´e,
            <given-names>M.</given-names>
            , M.
          </string-name>
          <article-title>A</article-title>
          . Mart´ı, y M.
          <year>Recasens</year>
          .
          <year>2008</year>
          .
          <article-title>AnCora: Multilevel annotated corpora for Catalan and Spanish</article-title>
          .
          <source>En Proc. of the 6th Int. Conference on Language Resources and Evaluation (LREC'08)</source>
          . ELRA.
        </mixed-citation>
      </ref>
      <ref id="ref14">
        <mixed-citation>
          <string-name>
            <surname>Thurlow</surname>
            ,
            <given-names>C.</given-names>
          </string-name>
          <year>2003</year>
          .
          <article-title>Generation Txt? the sociolinguistics of young people's textmessaging</article-title>
          .
          <source>Discourse Analysis Online</source>
          ,
          <volume>1</volume>
          (
          <issue>1</issue>
          ).
        </mixed-citation>
      </ref>
      <ref id="ref15">
        <mixed-citation>
          <string-name>
            <surname>Xue</surname>
            ,
            <given-names>Z.</given-names>
          </string-name>
          , D. Yin, y
          <string-name>
            <given-names>B. D.</given-names>
            <surname>Davison</surname>
          </string-name>
          .
          <year>2011</year>
          .
          <article-title>Normalizing microtext</article-title>
          .
          <source>En Analyzing Microtext, Papers from the 2011 AAAI Workshop</source>
          , vol. WS-
          <volume>11</volume>
          -05
          <string-name>
            <surname>de AAAI</surname>
          </string-name>
          <article-title>Workshops</article-title>
          . AAAI.
        </mixed-citation>
      </ref>
    </ref-list>
  </back>
</article>