TASS 2018: Workshop on Semantic Analysis at SEPLN, septiembre 2018, págs. 51-56


   Aplicación de un modelo hı́brido de aprendizaje
 profundo para el Análisis de Sentimiento en Twitter
    Application of a hybrid deep learning model for Sentiment
                       Analysis in Twitter
                    Rosa Montañés, Rocı́o Aznar, Rafael del Hoyo
                        Grupo de Big Data y Sistemas Cognitivos
                      ITAINNOVA (Instituto Tecnológico de Aragón)
                         C/ Marı́a de Luna, no 7. 50018 Zaragoza
                        {rmontanes,raznar,rdelhoyo}@itainnova.es

       Resumen: En este artı́culo se describe la participación de ITAINNOVA en la tarea
       de análisis de sentimiento a nivel de Tweet dentro del taller TASS 2018. Este trabajo
       pretende explorar modelos presentes en el estado del arte actual del aprendizaje
       profundo aplicado al modelado y clasificación de texto. Se ha analizado el uso de
       modelos de redes convolucionales (CNN), Long short Term Memory (LSTM), LSTM
       bidireccionales (BI-LSTM) y una aproximación hı́brida entre CNN y LSTM para su
       uso en el análisis de sentimiento en Twitter. Se ha optado por la combinación CNN-
       LSTM ya que integra los beneficios de ambos modelos. Finalmente se presentan los
       resultados obtenidos y se plantea una posible lı́nea de trabajo futura que combine el
       uso de esta arquitectura con el algoritmo de representación de texto que presentamos
       en la anterior edición del TASS.
       Palabras clave: Análisis de sentimiento, Twitter, Aprendizaje profundo
       Abstract: This paper describes the participation of ITAINNOVA at sentiment
       analysis at Tweet level task within TASS 2018 workshop. This work explores current
       state of the art models used in deep learning for modelling and classification tasks
       over text. It analyzes convolutional neural models (CNN), Long short Term Memory
       (LSTM), Bidirectional LSTM (BI-LSTM) and an hybrid approach of CNN-LSTM,
       for its use in sentiment analysis on Twitter data. CNN-LSTM combination has been
       chosen as it integrates the benefits provided from both models. Finally, obtained re-
       sults are presented and a possible future work line which combines this architecture
       with the algorithm presented in the previous TASS edition.
       Keywords: Sentiment analysis, Twitter, Deep learning


1    Introducción                                              tivos de ITAINNOVA ha participado en la
                                                                tarea 1: “Análisis de sentimiento a nivel de
El taller de Análisis de Sentimiento celebrado                 Tweet”, cuyo objetivo principal es la clasifi-
en el marco del congreso internacional de la                    cación de la opinión expresada en estos textos
sociedad española para el procesamiento del                    cortos en español. La novedad principal de
lenguaje natural (SEPLN), es un importante                      esta edición viene dada por la expansión del
punto de encuentro para profesionales e in-                     corpus de tweets utilizado en ediciones pre-
vestigadores en el que compartir y discutir                     vias, el corpus InterTASS. Este año se han
nuevos avances en el campo del PLN en ge-                       incorporado publicaciones escritas por usua-
neral y del análisis de sentimiento en particu-                rios de Perú y Costa Rica, variaciones del es-
lar (Martı́nez-Cámara et al., 2018). En esta                   pañol que presentan ciertas diferencias léxi-
edición se proponen cuatro tareas distintas,                   cas y gramaticales que han de ser considera-
dando un salto cualitativo hacia el análisis                   das en el desarrollo de sistemas de procesado
semántico, en busca de modelos de compren-                     de lenguaje natural. Nuestro grupo se ha en-
sión de lenguaje más completos y realistas.                   focado en el desarrollo de un sistema de clasi-
    El grupo de Big Data y Sistemas Cogni-
ISSN 1613-0073                     Copyright © 2018 by the paper's authors. Copying permitted for private and academic purposes.
                                  Rosa Montañés, Rocío Aznar y Rafael del Hoyo


ficación multiclase basado exclusivamente en               ejemplo, las redes convolucionales (CNNs)
la variedad de español hablado en España,                 han demostrado su excepcional capacidad de
utilizando para ello el dataset InterTASS ES                aprendizaje en el área de visión por compu-
junto con un subconjunto del corpus gene-                   tador, donde es necesario extraer correlacio-
ral utilizado desde las primeras ediciones, que             nes locales en estructuras espacio-temporales
permitirá predecir la polaridad de los tweets              para el reconocimiento y clasificación de ob-
en base a cuatro niveles: P (Positiva), N (Ne-              jetos (Galteri et al., 2017). Del mismo mo-
gativa), NEU (Neutra), NONE (sin opinión).                 do, este tipo de redes, aplicadas al área de
Finalmente los resultados obtenidos nos per-                PLN, son capaces de extraer automática-
mitirán comprobar la capacidad de genera-                  mente los vectores de caracterı́sticas sobre
lización del modelo a las otras variantes de               n-gramas mediante filtrado convolucional y
español.                                                   pooling consiguiendo aprender relaciones de
    Nuestro grupo cuenta con experiencia de                 más alto nivel entre los componentes del tex-
participación en ediciones anteriores de ta-               to, tal como demuestra en sus experimentos
lleres de análisis de opinión (Montañés Salas           Kim (2014). Existen otro tipo de arquitec-
et al., 2017)(del Hoyo Alonso et al., 2015).                turas más enfocadas al modelado de series
En ellas verificamos y desarrollamos recursos               temporales, éstas son las conocidas LSTM
para el procesado del texto previo a su clasifi-            (Long Short-term Memory RNN), que incor-
cación, tales como la generación de un diccio-            poran un novedoso mecanismo de memoria
nario afectivo, y experimentamos con el algo-               para el modelado de dependencias a largo
ritmo FastText, capaz de aprender eficiente-                plazo lo que resuelve algunos de los proble-
mente representaciones de palabras partiendo                mas derivados del cálculo del gradiente en
de corpus de tamaño reducido. En el taller                 redes recurrentes más simples, convirtiéndose
de 2017 (Dı́az-Galiano et al., 2018) se pre-                en una de las mejores opciones para el desa-
sentaron una amplia variedad de soluciones                  rrollo de modelos de minerı́a de opinión (Liu,
basadas en redes neuronales profundas (deep                 Joty, y Meng, 2015). Como ampliación a es-
learning) demostrando el gran potencial de                  te tipo de redes, Zhou et al. (2016) introdu-
las mismas en tareas de análisis de lenguaje.              jo las LSTM bidireccionales (BiLSTM), que
Las conclusiones extraı́das en dicha edición               añaden la capacidad de preservar informa-
han motivado que en nuestra participación                  ción pasada y también futura. Estos mode-
en el taller de 2018 hayamos centrado nues-                 los basan su funcionamiento en el uso de los
tro desarrollo en el estudio e implementación              populares Word Embeddings (Mikolov et al.,
de un algoritmo basado en una combinación                  2013), siendo uno de los métodos de represen-
de este tipo de redes neuronales. Los resul-                tación de la información textual en vectores
tados obtenidos nos permiten comprobar la                   n-dimensionales más eficiente y ampliamente
capacidad de aprendizaje de este tipo de al-                utilizado en la actualidad.
goritmos en esta tarea de procesamiento del                     Adicionalmente, en el campo del procesa-
lenguaje natural.                                           do de texto, la necesidad de realizar un co-
    Este artı́culo se organiza como sigue. En la            rrecto tratamiento de este tipo de datos para
sección 2 se presenta el conjunto de trabajos              su posterior uso en algoritmos de Inteligen-
relacionados que han inspirado la aproxima-                 cia Artificial, ha sido estudiada extensamen-
ción propuesta. En la sección 3 se describe la            te, desde el punto de vista del análisis de sen-
implementación realizada y en la sección 4 se             timiento en general (Haddi, Liu, y Shi, 2013)
presentan los resultados experimentales obte-               como en el caso concreto de análisis de senti-
nidos. Finalmente, en la sección 5 se recogen              mientos sobre textos cortos informales como
las conclusiones de nuestro estudio práctico y             son los tweets (Sing y Kumari, 2016). En am-
se presentan posibles lı́neas de trabajo futuro             bos artı́culos se ofrecen conclusiones que de-
a abordar.                                                  muestran la importancia y el papel que juega
                                                            el preprocesamiento de textos en tareas como
2   Trabajos relacionados                                   el análisis de sentimientos, con el objetivo de
La investigación actual en el área de deep                eliminar ruido y reducir la dimensionalidad
learning ha dado lugar al desarrollo de diver-              del problema para mejorar la clasificación.
sos tipos de redes neuronales que presentan                     La solución propuesta en el taller de 2017
unas caracterı́sticas óptimas para el apren-               (Montañés Salas et al., 2017) tenı́a su funda-
dizaje de ciertos tipos de información. Por                mento en dos de las anteriores aproximacio-
                                                      52
              Aplicación de un Modelo Híbrido de Aprendizaje Profundo para el Análisis de Sentimiento en Twitter


nes, por un lado la aplicación de un algorit-                     en la tabla 1 ponen de manifiesto que la so-
mo basado en el uso de representaciones de                         lución hı́brida (CLSTM) es la mejor opción.
palabras (word embeddings enriquecidos con                            La implementación del sistema se ha lle-
información de n-gramas) y por otro lado la                       vado a cabo en Python, haciendo uso de la
aplicación de una fase previa de procesado de                     librerı́a Tensorflow con soporte para GPU.
texto que mejoró ligeramente los resultados
obtenidos, por lo que, siguiendo un plantea-                       3.1      Modelo C-LSTM
miento similar, se ha decidido continuar tra-                      A la vista de los resultados expuestos, el sis-
bajando con dichas aproximaciones e ir un                          tema elegido para la participación en el taller
paso más lejos con el uso de arquitecturas de                     de este año es una implementación del mode-
deep learning.                                                     lo C-LSTM descrito por Zhou et al. (2015).
                                                                   Éste se compone principalmente de 2 redes
3   Solución propuesta                                            neuronales: una red neuronal convolucional
Previamente a la elección del algoritmo fi-                       (CNN) y una red neuronal recurrente de me-
nal utilizado, se han realizado varias prue-                       moria a corto y largo plazo (LSTM). En la
bas de concepto con la intención de verificar                     Figura 1 se muestra un diagrama de la arqui-
la benevolencia de la hibridación de técnicas                    tectura CLSTM.
convolucionales y recurrentes en el procesado
de lenguaje natural. Para ello, por un lado,
se han estudiado varios algoritmos convolu-
cionales y recurrentes, en particular, una red
neural convolucional (CNN), una red neuro-
nal recurrente LSTM y una red recurrente
LSTM bidireccional (BILSTM) y, por otro la-
do, el algoritmo hı́brido que combina la red
convolucional con la red recurrente LSTM.
Los conjuntos de entrenamiento y desarrollo
usados son los utilizado en la tarea (Inter-
TASS ES). Las métricas de accuracy se mues-
tran en la tabla 1.                                                         Figura 1: Arquitectura CLSTM.

    Red        Training         Development                           Como paso previo al entrenamiento del
    CNN        0.695114           0.463303                         modelo de análisis de sentimiento, el siste-
    LSTM       0.654723           0.441964                         ma calcula de forma no supervisada la repre-
    CLSTM      0.715961           0.471964                         sentación vectorial del vocabulario presente
    BLSTM      0.682736           0.426339                         en el corpus, creando un conjunto de word
                                                                   embeddings con los que se generará la re-
                                                                   presentación matricial de las sentencias que
           Tabla 1: Pruebas previas                                alimentan el sistema. La red convolucional
                                                                   que recibe dicho input, aplica un filtrado con-
    Como se ha adelantado en la sección ante-                     volucional según los tamaños de filtros defi-
rior, las redes neuronales CNN y LSTM son                          nidos, generándose varios mapas de features
algoritmos que ofrecen resultados satisfacto-                      que son reorganizados secuencialmente obte-
rios en el estado del arte actual del análisis de                 niendo una representación del texto a un ni-
opinión. La solución propuesta permite com-                      vel conceptual más alto que los embeddings.
binar estos dos algoritmos, beneficiándose de                     La red LSTM, compuesta por un conjunto
las ventajas de ambos: la extracción de térmi-                   de celdas que se definirá en la configuración,
nos relevantes y correlaciones a nivel local de                    recibe estas features como entrada, y se en-
las redes convolucionales junto con la capaci-                     carga determinar qué información almacena
dad de aprendizaje sobre secuencias de datos                       en la memoria de cada celda o descarta en
temporales y la estabilidad de las LSTMs. El                       cada paso temporal de la secuencia, captu-
algoritmo propuesto se basa en la publicación                     rando de este modo dependencias a corto y
(Zhou et al., 2015) y se explica con más de-                      largo plazo en las sentencias. La salida del
talle en la siguiente sección.                                    modelo viene dada por la última capa oculta
    Los resultados obtenidos que se muestran                       de la red LSTM.
                                                             53
                                   Rosa Montañés, Rocío Aznar y Rafael del Hoyo


3.2    Preprocesado de texto                                 de referencia para la clasificación de polari-
Adicionalmente, y del mismo modo que en                      dad en 5 niveles. Tras analizar los resulta-
la edición TASS 2017, se ha realizado un pre-               dos de la evaluación observamos que el mo-
procesado de los textos, aplicando las siguien-              delo presenta ciertas deficiencias en la clasi-
tes técnicas:                                               ficación de publicaciones como NEU y NO-
                                                             NE, clases semánticamente y conceptualmen-
      Eliminación de patrones como URLs,                    te muy próximas y por tanto difı́ciles de cla-
      emails, menciones, etc., tı́picos en publi-            sificar. Aunque pensamos que su diferencia-
      caciones de redes sociales.                            ción podrı́a ser factible usando un modelo de
                                                             representación de palabras que disponga de
      Conversión a minúsculas.                             un vocabulario más extenso modelizando de
      Lematización en español.                             forma más precisa el lenguaje español.
                                                                 Asimismo, el experimento monoligüe rea-
      Eliminación de stopwords.                             lizado, nos indica que en este caso, el prepro-
                                                             cesado de los textos no mejora la predicción
      Sinónimos basados en diccionarios emo-
                                                             del sentimiento. Idea que ya apuntaba Zhou
      cionales.
                                                             et al. (2015) en su publicación mencionando
    Las etapas de lematización, eliminación de             la independencia del modelo de conocimiento
stopwords y aplicación de sinónimos basados                del lenguaje a través de recursos externos ni
en diccionarios emocionales, utilizan recursos               necesidad de un complejo procesado que re-
propios desarrollados para el español hablado               duzca excesivamente la dimensionalidad del
en España, por lo que se ha llevado a cabo                  sistema.
esta fase en el experimento monolingüe con                      En cuanto a los experimentos entre varian-
el objetivo de comprobar su efectividad en el                tes del español, aplicando el modelo de Es-
contexto de las redes neuronales profundas.                  paña a los textos de Perú (PE) y Costa Rica
                                                             (CR), se observa que el sistema es bastante
4     Resultados experimentales                              robusto a las diferencias léxicas y gramatica-
                                                             les que se pueden presentar en estos textos
En la Tabla 2 se muestran los resultados obte-               cortos.
nidos en las subtareas evaluadas por ITAIN-
NOVA.                                                        5     Conclusiones y trabajo futuro
   Los dos modelos (cl-base y cl-proc) se han
entrenado con el mismo conjunto de hiper-                    En este artı́culo se ha presentado la apro-
parámetros, elegidos a partir de las recomen-               ximación llevada a cabo por el equipo de
daciones expuestas en (Zhou et al., 2015) y                  ITAINNOVA en el TASS 2018. Dicha aproxi-
realizando una búsqueda empı́rica con pe-                   mación tenı́a como objetivo principal la apli-
queñas variaciones en los valores:                          cación de técnicas basadas en redes neurona-
                                                             les profundas para la clasificación de la pola-
      Tamaño del embedding: 256                             ridad en tweets. Los resultados obtenidos de
                                                             la aplicación de algoritmos de CNN y LSTM
      Mı́nima frecuencia de palabra: 0                       y un algoritmo hı́brido combina ambos algo-
      Número de filtros (CNN): 128                          ritmos mostraron obtener una mayor métri-
                                                             ca de accuracy en el algoritmo hı́brido, razón
      Tamaño de los filtros (CNN): 2,3,4                    por la que dicho algoritmo fue el elegido como
                                                             solución propuesta a la tarea.
      Número de capas: 2 (1 CNN + 1 LSTM)
                                                                 El conjunto de entrenamiento sobre el que
      Learning rate: 0.001                                   se ha trabajado es el INTERTASS ES unifi-
                                                             cado con un subconjunto de las publicaciones
      Tamaño del batch: 32                                  del corpus general. Los resultados obtenidos
      Número de épocas: 100                                en la tarea ’Monolingual ES’ muestran que el
                                                             preprocesado de textos considerado no me-
   Si bien nuestro sistema no ha quedado                     jora la predicción del sentimiento. Por otro
dentro del ranking de los 10 mejores respec-                 lado, se observa que el algoritmo entrenado
to al resto de sistemas presentados en esta                  solamente con el conjunto de datos en español
edición, los resultados obtenidos se aproxi-                de España produce resultados similares en el
man a lo resultados publicados en el paper                   conjunto de test de textos de Perú y Costa Ri-
                                                       54
              Aplicación de un Modelo Híbrido de Aprendizaje Profundo para el Análisis de Sentimiento en Twitter


                                                     Algoritmo         Macro-F1            Accuracy
                                                     cl-base            0.383                0.433
                    Monolingual ES
                                                     cl-proc            0.320                0.395
                    Cross-lingual PE                 cl-base            0.367                0.382
                    Cross-lingual CR                 cl-base            0.409                0.440


                                      Tabla 2: Resultados experimentales

ca. No obstante, la solución propuesta no ha                          nas 53–58, Alicante, Spain, September.
conseguido quedarse en el ranking de las 10                            CEUR-WS.
propuestas con mejores valores en las métri-
                                                                   Dı́az-Galiano, M. C., E. Martı́nez-Cáma-
cas, obteniendo incluso métricas inferiores a
                                                                       ra, M. Á. G. Cumbreras, M. G. Vega,
las obtenidas en la solución que propusimos
                                                                       y J. Villena-Román. 2018. The de-
en la tarea de 2017 (Montañés Salas et al.,
                                                                       mocratization of deep learning in tass
2017).
                                                                       2017. Procesamiento del Lenguaje Natu-
    En base a los resultados obtenidos en di-                          ral, 60(0):37–44.
cha tarea y en la tarea de 2017 en la que
participamos, vemos la necesidad de aumen-                         Galteri, L., L. Seidenari, M. Bertini, y
tar el corpus en este tipo de redes o la uti-                        A. Del Bimbo. 2017. Spatio-temporal
lización de modelos de word embedding más                          closed-loop object detection.     IEEE
extensos para introducir más información al                        Transactions on Image Processing, PP:1–
sistema. Consideramos explorar una posible                           1, 01.
lı́nea de trabajo futuro que podrı́a conducir
                                                                   Haddi, E., X. Liu, y Y. Shi. 2013. The role of
a la participación en esta tarea de análisis de
                                                                     text pre-processing in sentiment analysis.
sentimiento de próximas ediciones con un al-
                                                                     Procedia Computer Science, 17:26 – 32.
goritmo que integre las aspectos más valiosos
                                                                     First International Conference on Infor-
de las aproximaciones consideradas. En con-
                                                                     mation Technology and Quantitative Ma-
creto, se aplicarı́a el algoritmo de FastText
                                                                     nagement.
utilizado en la tarea de 2017 para la repre-
sentación vectorial de los tweets que además                     Kim, Y. 2014. Convolutional neural net-
ofrece una eficiencia computacional bastante                         works for sentence classification. En Pro-
elevada. Posteriormente se aplicarı́a el algo-                       ceedings of the 2014 Conference on Empi-
ritmo hı́brido de CNN y LSTM para la clasi-                          rical Methods in Natural Language Proces-
ficación, redes neuronales profundas con gran                       sing, EMNLP 2014, October 25-29, 2014,
potencial en tareas de procesamiento de len-                         Doha, Qatar, A meeting of SIGDAT, a
guaje natural y que, como se ha demostra-                            Special Interest Group of the ACL, pági-
do en nuestros resultados y en (Zhou et al.,                         nas 1746–1751, September.
2015) mejora a los algoritmos simples (no-
                                                                   Liu, P., S. R. Joty, y H. M. Meng. 2015.
hı́bridos) de redes CNN y LSTM. Se piensa
                                                                      Fine-grained opinion mining with recu-
que los resultados obtenidos en esta nueva
                                                                      rrent neural networks and word embed-
lı́nea podrı́an mejorar considerablemente los
                                                                      dings. En EMNLP, páginas 1433–1443.
conseguidos hasta ahora.
                                                                      The Association for Computational Lin-
                                                                      guistics.
Bibliografı́a
                                                                   Martı́nez-Cámara, E., Y. Almeida Cruz,
del Hoyo Alonso, R., V. Rodrigálvarez Cha-                          M. C. Dı́az-Galiano, S. Estévez Velar-
   marro, J. Vea-Murguı́a Merck, y R. M.                             de, M. A. Garcı́a-Cumbreras, M. Garcı́a-
   Montañés Salas. 2015. Ensemble algo-                            Vega, Y. Gutiérrez Vázquez, A. Monte-
   rithm with syntactical tree features to im-                       jo Ráez, A. Montoyo Guijarro, R. Muñoz
   prove the opinion analysis. En Procee-                            Guillena, A. Piad Morffis, y J. Villena-
   dings of TASS 2015: Workshop on Senti-                            Román.      2018.   Overview of TASS
   ment Analysis at SEPLN, volumen 1397                              2018: Opinions, health and emotions. En
   de CEUR Workshop Proceedings, pági-                              E. Martı́nez-Cámara Y. Almeida Cruz
                                                             55
                                Rosa Montañés, Rocío Aznar y Rafael del Hoyo


   M. C. Dı́az-Galiano S. Estévez Velar-
   de M. A. Garcı́a-Cumbreras M. Garcı́a-
   Vega Y. Gutiérrez Vázquez A. Monte-
   jo Ráez A. Montoyo Guijarro R. Muñoz
   Guillena A. Piad Morffis, y J. Villena-
   Román, editores, Proceedings of TASS
   2018: Workshop on Semantic Analysis
   at SEPLN (TASS 2018), volumen 2172
   de CEUR Workshop Proceedings, Sevilla,
   Spain, September. CEUR-WS.
Mikolov, T., K. Chen, G. Corrado, y J. Dean.
  2013. Efficient estimation of word re-
  presentations in vector space. CoRR,
  abs/1301.3781.
Montañés Salas, R. M., R. del Hoyo Alonso,
  J. Vea-Murguı́a Merck, R. Aznar Gimeno,
  y F. J. Lacueva-Pérez. 2017. Fasttext
  como alternativa a la utilización de deep
  learning en corpus pequeños. En Pro-
  ceedings of TASS 2017: Workshop on Se-
  mantic Analysis at SEPLN, volumen 1896
  de CEUR Workshop Proceedings, páginas
  65–69, Murcia, Spain, September. CEUR-
  WS.
Sing, T. y M. Kumari. 2016. Role of text pre-
   processing in twitter sentiment analysis.
   Procedia Computer Science, 89:549–554.
   Twelfth International Multi-Conference
   on Information Processing (IMCIP-2016).
Zhou, C., C. Sun, Z. Liu, y F. Lau. 2015. A c-
  lstm neural network for text classification.
  CoRR, abs/1511.08630.
Zhou, P., W. Shi, J. Tian, Z. Qi, B. Li,
  H. Hao, y B. Xu. 2016. Attention-based
  bidirectional long short-term memory net-
  works for relation classification. En Pro-
  ceedings of the 54th Annual Meeting of the
  Association for Computational Linguistics
  (Volume 2: Short Papers), páginas 207–
  212. Association for Computational Lin-
  guistics.


                                                    56