<!DOCTYPE article PUBLIC "-//NLM//DTD JATS (Z39.96) Journal Archiving and Interchange DTD v1.0 20120330//EN" "JATS-archivearticle1.dtd">
<article xmlns:xlink="http://www.w3.org/1999/xlink">
  <front>
    <journal-meta />
    <article-meta>
      <title-group>
        <article-title>DLSI en Tweet-norm 2013: Normalizacion de Tweets en Espan~ol</article-title>
      </title-group>
      <contrib-group>
        <contrib contrib-type="author">
          <string-name>Alejandro Mosquera</string-name>
          <email>amosquera@dlsi.ua.es</email>
          <xref ref-type="aff" rid="aff0">0</xref>
          <xref ref-type="aff" rid="aff1">1</xref>
        </contrib>
        <aff id="aff0">
          <label>0</label>
          <institution>DLSI-Universidad de Alicante Alicante</institution>
        </aff>
        <aff id="aff1">
          <label>1</label>
          <institution>Paloma Moreda DLSI-Universidad de Alicante Alicante</institution>
        </aff>
      </contrib-group>
      <pub-date>
        <year>2009</year>
      </pub-date>
      <abstract>
        <p>The lexical richness and its ease of access to large volumes of information converts the Web 2.0 into an important resource for Natural Language Processing. Nevertheless, the frequent presence of non-normative linguistic phenomena that can make any automatic processing challenging. In this paper is described the participation in the Text Normalisation Workshop at the SEPLN conference (Tweet-norm 2013). The Workshop includes one unique task focused on the normalisation of Spanish tweets. For this task we have used TENOR, a multilingual lexical normalisation tool for Web 2.0 texts.</p>
      </abstract>
    </article-meta>
  </front>
  <body>
    <sec id="sec-1">
      <title>-</title>
      <p>Desde la aparicion de los primeros medios
de comunicacion sociales, las aplicaciones de
la Web 2.0 han ganado popularidad en
Internet. Enciclopedias colaborativas como
Wikipedia, sitios de micro-blogging como Twitter
o redes sociales como Facebook se encuentran
entre los primeros puestos por numero de
visitas de la Red1.</p>
      <p>Estas aplicaciones han transformado el
ujo de la informacion que se comparte en
Internet. Este cambio de paradigma se centra
en los usuarios, quienes generan y consumen
dicha informacion. La naturaleza informal de
dicho intercambio y la diversidad geogra ca
y social de los usuarios se re eja en su
lenguaje escrito, siendo frecuente la aparicion
de fenomenos lingu sticos no normativos
tales como emoticonos, supresion de grafemas
y sustituciones lexicas entre otros.</p>
      <p>Por ejemplo, en el caso particular de
Twitter2, el numero maximo de caracteres por
mensaje esta limitado a 140, por lo que es
comun encontrar abreviaciones y
contracciones no-estandar. As , igual que en los
mensajes SMS, algunas palabras o s labas pueden
ser representadas por letras o numeros que
tienen la misma pronunciacion pero cuyo
taman~o es menor. Por ejemplo, cansados tiene
una pronunciacion equivalente a cansa2. De
la misma forma, la s laba o conjuncion que
puede ser sustituida por k o q. Otra forma
de acortar palabras es omitir ciertas letras,
normalmente vocales. Por ejemplo, la
palabra trabajo puede ser acortada como trbj. Por
otra parte, la expresion de emociones o
estados de animo suele hacerse mediante
emoticonos, empleandose para ello acentos, comas
y otros s mbolos de puntuacion, pudiendo
es2http://www.twitter.com
tos ser omitidos deliberadamente en el resto
del texto.</p>
      <p>
        La gran variedad lexica unida al gran
volumen de textos disponible en la Web 2.0 la
convierten en un recurso importante para el
procesamiento del lenguaje natural (PLN).
Sin embargo, sus caracter sticas informales
complican el procesado de este tipo de textos
de forma automatica. Entre los estudios que
abordan este problema destacan los que
hacen uso de tecnicas de normalizacion.
Entendiendo el concepto de normalizacion como un
proceso que permite ((limpiar)) una palabra o
texto transformando las variantes lexicas
noestandar del lenguaje en sus formas
canonicas. Sin embargo, la gran mayor a de los
trabajos realizados en esta l nea han sido para
el idioma ingles. Por esta razon, Tweet-norm
propone la normalizacion lexica de Tweets en
espan~ol. Con el objetivo de abordar esta
tarea se ha hecho uso de la herramienta de
normalizacion multilingue TENOR
        <xref ref-type="bibr" rid="ref8 ref9">(Mosquera y
Moreda, 2012)</xref>
        y a continuacion expondremos
la metodolog a empleada y los resultados
obtenidos..
      </p>
      <p>El art culo se organiza de la siguiente
forma: en la seccion 2 se describe el estado de
la cuestion. En la seccion 3 explicamos
nuestra metodolog a. Los resultados obtenidos en
el taller son evaluados en la seccion 4.
Finalmente en la seccion 5 se comentan las
conclusiones y trabajo futuro.
2.</p>
    </sec>
    <sec id="sec-2">
      <title>Estado de la Cuestion</title>
      <p>Se pueden distinguir tres tendencias
principales a la hora de normalizar este tipo de
textos. La primera emplea tecnicas de
traduccion automatica, la segunda se basa en
correccion ortogra ca y la tercera usa
tecnicas de reconocimiento del habla.</p>
      <p>
        La aplicacion de tecnicas de traduccion
automatica se ha demostrado util para
normalizar textos SMS (Aw et al., 2006)
tomando como idioma origen los textos
nonormativos y como idioma destino su
equivalencia normalizada. Este sistema tambien
se ha usado para traducir textos en
lenguaje SMS al espan~ol
        <xref ref-type="bibr" rid="ref6">(Lopez et al., 2010)</xref>
        ,
siendo la unica que hemos encontrado para este
idioma, y empleando el motor de traduccion
estad stica MOSES
        <xref ref-type="bibr" rid="ref4">(Hoang et al., 2007)</xref>
        . Sin
embargo, estas propuestas de traduccion
necesitan corpus relativamente grandes
previamente normalizados y alineados para obtener
buenos resultados
        <xref ref-type="bibr" rid="ref5">(Kaufmann, 2010)</xref>
        .
      </p>
      <p>
        El uso del modelo de Shannon para
canales con ruido
        <xref ref-type="bibr" rid="ref12">(Shannon, 1948)</xref>
        se suele
emplear en los sistemas de correccion
automatica para realizar una correccion ortogra ca a
nivel de palabra
        <xref ref-type="bibr" rid="ref1">(Choudhury et al., 2007)</xref>
        .
Dichos errores ortogra cos pueden ser
intencionales para darle enfasis y sentimiento a
una palabra (goooooooooool!!) o contracciones
no-estandar homofonas para ahorrar espacio
(knsado). Tanto este caso como con textos de
escasa longitud se di culta
considerablemente la tarea de normalizacion empleando este
modelo, ya que el contexto no juega un papel
tan relevante.
      </p>
      <p>
        Por ultimo, las tecnicas de
reconocimiento automatico del habla (RAH) se basan en
la hipotesis de que la mayor a de las
variantes lexicas no-estandar tienen una
equivalencia homofona estandar (ksa - casa).
Empleando algoritmos foneticos para codi car
la pronunciacion de la palabra a normalizar
se genera una lista de candidatos
homofonos de la cual se extrae la palabra
normalizada mediante modelos del lenguaje
        <xref ref-type="bibr" rid="ref2">(Gouws
et al., 2011)</xref>
        . Los sistemas de normalizacion
no-supervisada basados en esta tecnica han
obtenido los mejores resultados
        <xref ref-type="bibr" rid="ref3">(Han y
Baldwin, 2011)</xref>
        .
3.
      </p>
    </sec>
    <sec id="sec-3">
      <title>Normalizacion de Tweets con</title>
    </sec>
    <sec id="sec-4">
      <title>TENOR</title>
      <p>Hemos participado en Tweet-norm
empleando la herramienta de normalizacion
multilingue TENOR, siguiendo una
estrategia similar a la usada satisfactoriamente en
textos de la Web 2.0 y SMS en ingles
empleando tecnicas de RAH pero adaptada a
las singularidades del idioma espan~ol. Dado
que TENOR esta orientado principalmente a
la sustitucion de variantes lexicas se ha
adaptado su funcionamiento acorde a los objetivos
del taller de normalizacion.</p>
      <p>En primer lugar de niremos el ambito de
la tarea propuesta en el apartado 3.1. En
el apartado 3.2 explicaremos la metodolog a
empleada.
3.1.</p>
      <sec id="sec-4-1">
        <title>Ambito de la tarea</title>
        <p>El objetivo del taller consiste en
estandarizar una cantidad determinada de tweets con
serios problemas de normalizacion. El
sistema propuesto debe ser capaz de etiquetar las
palabras dentro de tres grupos dependiendo
si se tratan de variantes lexicas, palabras
correctas o si pertenecen a otro idioma y
obtener su version canonica. En el caso de las
palabras pertenecientes a otro idioma si
existiesen errores ortogra cos tambien se debe
proporcionar la version correcta.
3.2.</p>
      </sec>
      <sec id="sec-4-2">
        <title>Metodolog a</title>
        <p>TENOR sigue un proceso de
normalizacion compuesto de dos pasos: En primer lugar
se emplea un metodo de clasi cacion con el
n de detectar variantes lexicas no-estandar
o fuera del vocabulario; En segundo lugar,
se sustituyen las palabras seleccionadas en el
paso anterior por su forma original
normalizada.
3.2.1. Deteccion de palabras fuera
del vocabulario</p>
        <p>En este estudio nos referimos a las
palabras fuera del vocabulario como aquellas
que no forman parte del vocabulario espan~ol
estandar y requieren ser normalizadas. Sin
embargo, la deteccion de este tipo de
palabras no es una tarea trivial: La presencia de
palabras en otros idiomas, neologismos o
siglas, as como la riqueza lingu stica del
espan~ol di culta la tarea de conocer si una
palabra pertenece al idioma o por el contrario
es una variante lexica no-normativa. Ya que
se ha usado como sistema de referencia
durante el proceso de anotado de los textos del
taller3, se ha hecho uso de Freeling(Atserias
et al., 2006) para dicha tarea.
3.2.2. Sustitucion de variantes lexicas</p>
        <p>En este apartado hablaremos de los
diferentes pasos que se llevan a cabo para
reemplazar las palabras clasi cadas como fuera del
vocabulario en la seccion anterior por su
forma normalizada. En primer lugar, se
introduciran diversas tecnicas de ltrado
empleadas para ((limpiar)) los textos. En el
siguiente paso, se detalla el proceso de sustitucion
de abreviaturas y transliteraciones. A
continuacion, se comentara el algoritmo de
indexado fonetico implementado en TENOR con
el objetivo de obtener listas de palabras con
pronunciaciones equivalentes.
Posteriormente, este metodo se aplicara con el objetivo de
identi car posibles candidatas para
reemplazar las palabras no-normativas. Finalmente,
se explica como el uso de algoritmos de
similitud y modelos del lenguaje puede ayudar a
seleccionar la forma canonica mas apropiada
3http://komunitatea.elhuyar.org/tweetnorm/ les/2013/05/Manual para participantes
Tweet-norm.pdf
para cada sustitucion a partir de la lista de
palabras candidatas.</p>
        <p>Filtrado: En primer lugar, se han
eliminado todos los caracteres no imprimibles y
s mbolos de puntuacion no estandar excepto
los emoticonos.</p>
        <p>Abreviaturas y Transliteraciones: El
segundo paso del analisis es comprobar que
la palabra no perteneciente al vocabulario
sea una abreviatura, la cual se sustituye por
su equivalencia normalizada. En caso
contrario, mediante reglas heur sticas se reducen las
repeticiones de vocales o consonantes
dentro de la palabra (nooo!, gooooolll).
Posteriormente se analiza la presencia de
numeros cuya pronunciacion es frecuentemente
utilizada para acortar la longitud del mensaje
(separa2, ning1) o combinacion alfanumerica
(c4s4), sustituyendose por su transliteracion
mas apropiada mediante una tabla de
equivalencias.</p>
        <p>De forma adicional, se ha compilado
manualmente una tabla de equivalencias con 146
de las abreviaturas mas comunes (qtal, xfa)
que necesitan un tratamiento especial al ser
expresiones compuestas o variantes que
guardan muy poca o ninguna similitud lexica con
su equivalencia normalizada.</p>
        <p>
          Indexado Fonetico: Se ha empleado el
diccionario expandido de GNU Aspell4
aumentado con nombres de pa ses, ciudades,
siglas y nombres propios mas comunes. El
lexico resultante de 931.435 palabras incluye
conjugaciones en diferentes tiempos verbales y
entidades nombradas. Posteriormente, se ha
construido un ndice fonetico con las
palabras de dicho lexico agrupandolas en base
a su pronunciacion. Esto se ha realizado de
forma no-supervisada empleando el
algoritmo del metafono
          <xref ref-type="bibr" rid="ref10">(Philips, 2000)</xref>
          adaptado al
espan~ol. Este sistema permite representar la
pronunciacion de una palabra empleando un
conjunto de reglas. Por ejemplo, el metafono
caracterizado por (JNTS) permite indexar
las siguientes palabras gentes, gent os,
jinetas, jinetes, juanetes, juntas y juntos entre
otras.
        </p>
        <p>En la siguiente parte del proceso se
obtiene el metafono de la palabra resultante y se
comprueba su presencia en el ndice fonetico
para obtener una lista de posibles palabras
candidatas en caso de encontrar una
coincidencia.</p>
        <p>
          4http://aspell.net
Similitud Lexica: El algoritmo Gestalt
          <xref ref-type="bibr" rid="ref11">(Ratcli y Metzener, 1988)</xref>
          que esta basado
en el principio de la maxima sub-secuencia
comun, permite obtener un ndice de
similitud entre dos cadenas con valores entre 0 y
100, donde 100 es maxima similitud y 0 es
ausencia de similitud. Se ha calculado la
similitud de la palabra a normalizar con cada
una de las candidatas foneticas obtenidas en
el paso anterior. Posteriormente, las
candidatas con un ndice de similitud menor de 60
han sido descartadas ya que por debajo de
este umbral no se han observado resultados
ables.
        </p>
        <p>
          Modelos del Lenguaje: Finalmente,
cuando hay mas de una palabra candidata
con la misma similitud lexica se ha utilizado
un modelo de lenguaje basado en trigramas
y entrenado sobre el corpus CESS-ESP
          <xref ref-type="bibr" rid="ref7">(Mart y Taule, 2007)</xref>
          .
4.
4.1.
        </p>
      </sec>
    </sec>
    <sec id="sec-5">
      <title>Evaluacion</title>
      <sec id="sec-5-1">
        <title>Corpus utilizado:</title>
        <p>Se ha hecho uso del corpus de test5
proporcionado por la organizacion para evaluar
los resultados. Dicho corpus consta de 564
tweets correspondiente a los d as 1 y 2 de
abril de 2013 localizados en el area geogra ca
de la pen nsula iberica, eliminando aquellas
regiones que tienen lenguas coo ciales. Este
corpus contiene textos mayoritariamente en
espan~ol.
4.2.</p>
      </sec>
      <sec id="sec-5-2">
        <title>Resultados</title>
        <p>Se han enviado 2 ejecuciones, la primera
(DLSI-Alicante-1) empleando Freeling para
extraer las palabras fuera del vocabulario y la
segunda (DLSI-Alicante-2) haciendo uso de
las palabras fuera del vocabulario existentes
en el corpus de test. Los resultados obtenidos
en la tarea solamente se han evaluado en base
a la precision y se describen en el Cuadro 1.</p>
        <sec id="sec-5-2-1">
          <title>Corpus</title>
          <p>Dev100
Dev500
Test
Test</p>
        </sec>
        <sec id="sec-5-2-2">
          <title>Ejecucion</title>
          <p>DLSI-Alicante-1
DLSI-Alicante-1
DLSI-Alicante-1
DLSI-Alicante-2</p>
          <p>
            5http://komunitatea.elhuyar.org/tweetnorm/ les/2013/07/tweets-test-reference.txt
Los resultados son competitivos,
teniendo en cuenta la di cultad de la tarea, pero
no directamente comparables a los obtenidos
en trabajos anteriores
            <xref ref-type="bibr" rid="ref8 ref9">(Mosquera y Moreda,
2012)</xref>
            ,
            <xref ref-type="bibr" rid="ref8 ref9">(Mosquera, Lloret, y Moreda, 2012)</xref>
            ya
que si bien los objetivos generales del taller
se podr an englobar dentro de la
normalizacion de variantes lexicas hay ciertos
aspectos tales como la restauracion de
mayusculas/minusculas, distincion de palabras en
espan~ol de otros idiomas o la correccion de
nombres propios que se podr an solapar con
otras tareas como la correccion automatica.
As mismo, se han tenido en cuenta no solo
variantes lexicas del espan~ol sino tambien
palabras en otros idiomas pertenecientes a
nombres propios o marcas (Ej. redbull por Red
Bull).
          </p>
          <p>Por otra parte, evaluando unicamente la
precision se puede bene ciar a los sistemas
mas conservadores que hayan detectado un
numero bajo de palabras fuera del
vocabulario pero cuya normalizacion haya sido
mayormente correcta. Una evaluacion basada en
precision y cobertura permitir a realizar una
evaluacion global de los sistema propuestos
en ambos niveles: deteccion y normalizacion
de las palabras fuera del vocabulario.
5.</p>
        </sec>
      </sec>
    </sec>
    <sec id="sec-6">
      <title>Conclusiones y Trabajo Futuro</title>
      <p>Este art culo presenta la contribucion del
grupo DLSI a la tarea de normalizacion de
tweets del taller Tweet-norm. La herramienta
de normalizacion TENOR ha obtenido
resultados aceptables teniendo en cuenta el
ambito mas amplio de la tarea que va mas alla de
la correccion de variantes lexicas informales.
As mismo, se ha tenido que integrar Freeling
dentro del proceso de deteccion de palabras
fuera del vocabulario, cuyo diccionario es de
menor taman~o que el ndice fonetico
empleado por TENOR, lo cual ha podido afectar a
los resultados. Por otra parte, los problemas
abordados en el taller son de gran relevancia
a la hora de procesar textos de la Web 2.0 y
serviran de referencia para mejorar el
rendimiento del sistema propuesto en un trabajo
futuro.</p>
    </sec>
    <sec id="sec-7">
      <title>Bibliograf a</title>
      <p>Atserias, Jordi, Bernardino Casas,
Elisabet Comelles, Meritxell Gonzalez, Lluis
Padro, y Muntsa Padro. 2006.
FreeLing 1.3: Syntactic and semantic services
in an open-source NLP library. En
Proceedings of the 5th International
Conference on Language Resources and Evaluation
(LREC'06), paginas 48{55.</p>
      <p>Aw, Aiti, Min Zhang, Juan Xiao, y Jian Su.
2006. A phrase-based statistical model for
sms text normalization. Proceedings of the
COLING/ACL, paginas 33{40.</p>
    </sec>
  </body>
  <back>
    <ref-list>
      <ref id="ref1">
        <mixed-citation>
          <string-name>
            <surname>Choudhury</surname>
          </string-name>
          , Monojit, Rahul Saraf, Vijit Jain, Sudeshna Sarkar, y Anupam Basu.
          <year>2007</year>
          .
          <article-title>Investigation and modeling of the structure of texting language</article-title>
          .
          <source>En Proceedings of the IJCAI-Workshop on Analytics for Noisy Unstructured Text Data, paginas</source>
          <volume>63</volume>
          {
          <fpage>70</fpage>
          .
        </mixed-citation>
      </ref>
      <ref id="ref2">
        <mixed-citation>
          <string-name>
            <surname>Gouws</surname>
          </string-name>
          , Stephan, Donald Metzler, Congxing Cai, y Eduard Hovy.
          <year>2011</year>
          .
          <article-title>Contextual Bearing on Linguistic Variation in Social Media</article-title>
          .
          <source>ACL Workshop on Language in Social Media (LSM).</source>
        </mixed-citation>
      </ref>
      <ref id="ref3">
        <mixed-citation>
          <string-name>
            <surname>Han</surname>
          </string-name>
          , Bo y Timothy Baldwin.
          <year>2011</year>
          .
          <article-title>Lexical normalisation of short text messages: Makn sens a #twitter. En Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies</article-title>
          , paginas
          <volume>368</volume>
          {
          <fpage>378</fpage>
          ,
          <string-name>
            <surname>Portland</surname>
          </string-name>
          , Oregon, USA, June. Association for Computational Linguistics.
        </mixed-citation>
      </ref>
      <ref id="ref4">
        <mixed-citation>
          <string-name>
            <surname>Hoang</surname>
          </string-name>
          , Hieu, Alexandra Birch, Chris Callison-burch, Richard Zens, Rwth Aachen, Alexandra Constantin, Marcello Federico, Nicola Bertoldi, Chris Dyer, Brooke Cowan, Wade Shen, Christine Moran, y Ondrej Bojar.
          <year>2007</year>
          .
          <article-title>Moses: Open source toolkit for statistical machine translation</article-title>
          .
          <source>paginas</source>
          <volume>177</volume>
          {
          <fpage>180</fpage>
          .
        </mixed-citation>
      </ref>
      <ref id="ref5">
        <mixed-citation>
          <string-name>
            <surname>Kaufmann</surname>
          </string-name>
          , Joseph.
          <year>2010</year>
          .
          <article-title>Syntactic Normalization of Twitter Messages</article-title>
          .
          <source>REU Site for Arti cial Intelligence Natural Language Processing and Information Retrieval Research Project</source>
          ,
          <volume>2</volume>
          .
        </mixed-citation>
      </ref>
      <ref id="ref6">
        <mixed-citation>
          <string-name>
            <surname>Lopez</surname>
          </string-name>
          , Veronica, Ruben San-Segundo,
          <article-title>Roberto Mart n</article-title>
          , Julian David Echeverry, y Syaheera Lut .
          <year>2010</year>
          .
          <article-title>Sistema de traduccion de lenguaje SMS a castellano. En XX Jornadas Telecom I+D, Valladolid</article-title>
          , Spain, Septiembre.
        </mixed-citation>
      </ref>
      <ref id="ref7">
        <mixed-citation>
          <string-name>
            <surname>Mart</surname>
          </string-name>
          , Maria Antonia y Mariona Taule.
          <year>2007</year>
          .
          <article-title>Cess-ece: corpus anotados del espan~ol y catalan</article-title>
          .
          <source>Arena Romanistica. A new Nordic journal of Romance studies, 1.</source>
        </mixed-citation>
      </ref>
      <ref id="ref8">
        <mixed-citation>
          <string-name>
            <surname>Mosquera</surname>
          </string-name>
          , Alejandro, Elena Lloret, y Paloma Moreda.
          <year>2012</year>
          .
          <article-title>Towards facilitating the accessibility of web 2.0 texts through text normalisation</article-title>
          .
          <source>En Proceedings of the LREC workshop: Natural Language Processing for Improving Textual Accessibility (NLP4ITA)</source>
          ; Istanbul, Turkey., paginas
          <volume>9</volume>
          {
          <fpage>14</fpage>
          .
        </mixed-citation>
      </ref>
      <ref id="ref9">
        <mixed-citation>
          <string-name>
            <surname>Mosquera</surname>
          </string-name>
          , Alejandro y Paloma Moreda.
          <year>2012</year>
          .
          <article-title>Tenor: A lexical normalisation tool for spanish web 2.0 texts</article-title>
          . En Text, Speech and Dialogue - 15th
          <source>International Conference (TSD</source>
          <year>2012</year>
          ). Springer.
        </mixed-citation>
      </ref>
      <ref id="ref10">
        <mixed-citation>
          <string-name>
            <surname>Philips</surname>
          </string-name>
          , Lawrence.
          <year>2000</year>
          .
          <article-title>The double metaphone search algorithm</article-title>
          . C/C++
          <source>Users Journal</source>
          ,
          <volume>18</volume>
          :
          <fpage>38</fpage>
          {
          <fpage>43</fpage>
          , June.
        </mixed-citation>
      </ref>
      <ref id="ref11">
        <mixed-citation>
          <string-name>
            <surname>Ratcli</surname>
            , John W. y
            <given-names>David E.</given-names>
          </string-name>
          <string-name>
            <surname>Metzener</surname>
          </string-name>
          .
          <year>1988</year>
          .
          <article-title>Pattern matching: The gestalt approach</article-title>
          .
          <source>Dr. Dobb's Journal</source>
          ,
          <volume>13</volume>
          (
          <issue>7</issue>
          ):
          <volume>46</volume>
          {
          <fpage>72</fpage>
          ,
          <string-name>
            <surname>Julio</surname>
          </string-name>
          .
        </mixed-citation>
      </ref>
      <ref id="ref12">
        <mixed-citation>
          <string-name>
            <surname>Shannon</surname>
            ,
            <given-names>Claude. E.</given-names>
          </string-name>
          <year>1948</year>
          .
          <article-title>A mathematical theory of communication</article-title>
          .
          <source>The Bell Systems Technical Journal</source>
          ,
          <volume>27</volume>
          :
          <fpage>379</fpage>
          {
          <fpage>423</fpage>
          .
        </mixed-citation>
      </ref>
    </ref-list>
  </back>
</article>