TASS 2018: Workshop on Semantic Analysis at SEPLN, septiembre 2018, págs. 51-56 Aplicación de un modelo hı́brido de aprendizaje profundo para el Análisis de Sentimiento en Twitter Application of a hybrid deep learning model for Sentiment Analysis in Twitter Rosa Montañés, Rocı́o Aznar, Rafael del Hoyo Grupo de Big Data y Sistemas Cognitivos ITAINNOVA (Instituto Tecnológico de Aragón) C/ Marı́a de Luna, no 7. 50018 Zaragoza {rmontanes,raznar,rdelhoyo}@itainnova.es Resumen: En este artı́culo se describe la participación de ITAINNOVA en la tarea de análisis de sentimiento a nivel de Tweet dentro del taller TASS 2018. Este trabajo pretende explorar modelos presentes en el estado del arte actual del aprendizaje profundo aplicado al modelado y clasificación de texto. Se ha analizado el uso de modelos de redes convolucionales (CNN), Long short Term Memory (LSTM), LSTM bidireccionales (BI-LSTM) y una aproximación hı́brida entre CNN y LSTM para su uso en el análisis de sentimiento en Twitter. Se ha optado por la combinación CNN- LSTM ya que integra los beneficios de ambos modelos. Finalmente se presentan los resultados obtenidos y se plantea una posible lı́nea de trabajo futura que combine el uso de esta arquitectura con el algoritmo de representación de texto que presentamos en la anterior edición del TASS. Palabras clave: Análisis de sentimiento, Twitter, Aprendizaje profundo Abstract: This paper describes the participation of ITAINNOVA at sentiment analysis at Tweet level task within TASS 2018 workshop. This work explores current state of the art models used in deep learning for modelling and classification tasks over text. It analyzes convolutional neural models (CNN), Long short Term Memory (LSTM), Bidirectional LSTM (BI-LSTM) and an hybrid approach of CNN-LSTM, for its use in sentiment analysis on Twitter data. CNN-LSTM combination has been chosen as it integrates the benefits provided from both models. Finally, obtained re- sults are presented and a possible future work line which combines this architecture with the algorithm presented in the previous TASS edition. Keywords: Sentiment analysis, Twitter, Deep learning 1 Introducción tivos de ITAINNOVA ha participado en la tarea 1: “Análisis de sentimiento a nivel de El taller de Análisis de Sentimiento celebrado Tweet”, cuyo objetivo principal es la clasifi- en el marco del congreso internacional de la cación de la opinión expresada en estos textos sociedad española para el procesamiento del cortos en español. La novedad principal de lenguaje natural (SEPLN), es un importante esta edición viene dada por la expansión del punto de encuentro para profesionales e in- corpus de tweets utilizado en ediciones pre- vestigadores en el que compartir y discutir vias, el corpus InterTASS. Este año se han nuevos avances en el campo del PLN en ge- incorporado publicaciones escritas por usua- neral y del análisis de sentimiento en particu- rios de Perú y Costa Rica, variaciones del es- lar (Martı́nez-Cámara et al., 2018). En esta pañol que presentan ciertas diferencias léxi- edición se proponen cuatro tareas distintas, cas y gramaticales que han de ser considera- dando un salto cualitativo hacia el análisis das en el desarrollo de sistemas de procesado semántico, en busca de modelos de compren- de lenguaje natural. Nuestro grupo se ha en- sión de lenguaje más completos y realistas. focado en el desarrollo de un sistema de clasi- El grupo de Big Data y Sistemas Cogni- ISSN 1613-0073 Copyright © 2018 by the paper's authors. Copying permitted for private and academic purposes. Rosa Montañés, Rocío Aznar y Rafael del Hoyo ficación multiclase basado exclusivamente en ejemplo, las redes convolucionales (CNNs) la variedad de español hablado en España, han demostrado su excepcional capacidad de utilizando para ello el dataset InterTASS ES aprendizaje en el área de visión por compu- junto con un subconjunto del corpus gene- tador, donde es necesario extraer correlacio- ral utilizado desde las primeras ediciones, que nes locales en estructuras espacio-temporales permitirá predecir la polaridad de los tweets para el reconocimiento y clasificación de ob- en base a cuatro niveles: P (Positiva), N (Ne- jetos (Galteri et al., 2017). Del mismo mo- gativa), NEU (Neutra), NONE (sin opinión). do, este tipo de redes, aplicadas al área de Finalmente los resultados obtenidos nos per- PLN, son capaces de extraer automática- mitirán comprobar la capacidad de genera- mente los vectores de caracterı́sticas sobre lización del modelo a las otras variantes de n-gramas mediante filtrado convolucional y español. pooling consiguiendo aprender relaciones de Nuestro grupo cuenta con experiencia de más alto nivel entre los componentes del tex- participación en ediciones anteriores de ta- to, tal como demuestra en sus experimentos lleres de análisis de opinión (Montañés Salas Kim (2014). Existen otro tipo de arquitec- et al., 2017)(del Hoyo Alonso et al., 2015). turas más enfocadas al modelado de series En ellas verificamos y desarrollamos recursos temporales, éstas son las conocidas LSTM para el procesado del texto previo a su clasifi- (Long Short-term Memory RNN), que incor- cación, tales como la generación de un diccio- poran un novedoso mecanismo de memoria nario afectivo, y experimentamos con el algo- para el modelado de dependencias a largo ritmo FastText, capaz de aprender eficiente- plazo lo que resuelve algunos de los proble- mente representaciones de palabras partiendo mas derivados del cálculo del gradiente en de corpus de tamaño reducido. En el taller redes recurrentes más simples, convirtiéndose de 2017 (Dı́az-Galiano et al., 2018) se pre- en una de las mejores opciones para el desa- sentaron una amplia variedad de soluciones rrollo de modelos de minerı́a de opinión (Liu, basadas en redes neuronales profundas (deep Joty, y Meng, 2015). Como ampliación a es- learning) demostrando el gran potencial de te tipo de redes, Zhou et al. (2016) introdu- las mismas en tareas de análisis de lenguaje. jo las LSTM bidireccionales (BiLSTM), que Las conclusiones extraı́das en dicha edición añaden la capacidad de preservar informa- han motivado que en nuestra participación ción pasada y también futura. Estos mode- en el taller de 2018 hayamos centrado nues- los basan su funcionamiento en el uso de los tro desarrollo en el estudio e implementación populares Word Embeddings (Mikolov et al., de un algoritmo basado en una combinación 2013), siendo uno de los métodos de represen- de este tipo de redes neuronales. Los resul- tación de la información textual en vectores tados obtenidos nos permiten comprobar la n-dimensionales más eficiente y ampliamente capacidad de aprendizaje de este tipo de al- utilizado en la actualidad. goritmos en esta tarea de procesamiento del Adicionalmente, en el campo del procesa- lenguaje natural. do de texto, la necesidad de realizar un co- Este artı́culo se organiza como sigue. En la rrecto tratamiento de este tipo de datos para sección 2 se presenta el conjunto de trabajos su posterior uso en algoritmos de Inteligen- relacionados que han inspirado la aproxima- cia Artificial, ha sido estudiada extensamen- ción propuesta. En la sección 3 se describe la te, desde el punto de vista del análisis de sen- implementación realizada y en la sección 4 se timiento en general (Haddi, Liu, y Shi, 2013) presentan los resultados experimentales obte- como en el caso concreto de análisis de senti- nidos. Finalmente, en la sección 5 se recogen mientos sobre textos cortos informales como las conclusiones de nuestro estudio práctico y son los tweets (Sing y Kumari, 2016). En am- se presentan posibles lı́neas de trabajo futuro bos artı́culos se ofrecen conclusiones que de- a abordar. muestran la importancia y el papel que juega el preprocesamiento de textos en tareas como 2 Trabajos relacionados el análisis de sentimientos, con el objetivo de La investigación actual en el área de deep eliminar ruido y reducir la dimensionalidad learning ha dado lugar al desarrollo de diver- del problema para mejorar la clasificación. sos tipos de redes neuronales que presentan La solución propuesta en el taller de 2017 unas caracterı́sticas óptimas para el apren- (Montañés Salas et al., 2017) tenı́a su funda- dizaje de ciertos tipos de información. Por mento en dos de las anteriores aproximacio- 52 Aplicación de un Modelo Híbrido de Aprendizaje Profundo para el Análisis de Sentimiento en Twitter nes, por un lado la aplicación de un algorit- en la tabla 1 ponen de manifiesto que la so- mo basado en el uso de representaciones de lución hı́brida (CLSTM) es la mejor opción. palabras (word embeddings enriquecidos con La implementación del sistema se ha lle- información de n-gramas) y por otro lado la vado a cabo en Python, haciendo uso de la aplicación de una fase previa de procesado de librerı́a Tensorflow con soporte para GPU. texto que mejoró ligeramente los resultados obtenidos, por lo que, siguiendo un plantea- 3.1 Modelo C-LSTM miento similar, se ha decidido continuar tra- A la vista de los resultados expuestos, el sis- bajando con dichas aproximaciones e ir un tema elegido para la participación en el taller paso más lejos con el uso de arquitecturas de de este año es una implementación del mode- deep learning. lo C-LSTM descrito por Zhou et al. (2015). Éste se compone principalmente de 2 redes 3 Solución propuesta neuronales: una red neuronal convolucional Previamente a la elección del algoritmo fi- (CNN) y una red neuronal recurrente de me- nal utilizado, se han realizado varias prue- moria a corto y largo plazo (LSTM). En la bas de concepto con la intención de verificar Figura 1 se muestra un diagrama de la arqui- la benevolencia de la hibridación de técnicas tectura CLSTM. convolucionales y recurrentes en el procesado de lenguaje natural. Para ello, por un lado, se han estudiado varios algoritmos convolu- cionales y recurrentes, en particular, una red neural convolucional (CNN), una red neuro- nal recurrente LSTM y una red recurrente LSTM bidireccional (BILSTM) y, por otro la- do, el algoritmo hı́brido que combina la red convolucional con la red recurrente LSTM. Los conjuntos de entrenamiento y desarrollo usados son los utilizado en la tarea (Inter- TASS ES). Las métricas de accuracy se mues- tran en la tabla 1. Figura 1: Arquitectura CLSTM. Red Training Development Como paso previo al entrenamiento del CNN 0.695114 0.463303 modelo de análisis de sentimiento, el siste- LSTM 0.654723 0.441964 ma calcula de forma no supervisada la repre- CLSTM 0.715961 0.471964 sentación vectorial del vocabulario presente BLSTM 0.682736 0.426339 en el corpus, creando un conjunto de word embeddings con los que se generará la re- presentación matricial de las sentencias que Tabla 1: Pruebas previas alimentan el sistema. La red convolucional que recibe dicho input, aplica un filtrado con- Como se ha adelantado en la sección ante- volucional según los tamaños de filtros defi- rior, las redes neuronales CNN y LSTM son nidos, generándose varios mapas de features algoritmos que ofrecen resultados satisfacto- que son reorganizados secuencialmente obte- rios en el estado del arte actual del análisis de niendo una representación del texto a un ni- opinión. La solución propuesta permite com- vel conceptual más alto que los embeddings. binar estos dos algoritmos, beneficiándose de La red LSTM, compuesta por un conjunto las ventajas de ambos: la extracción de térmi- de celdas que se definirá en la configuración, nos relevantes y correlaciones a nivel local de recibe estas features como entrada, y se en- las redes convolucionales junto con la capaci- carga determinar qué información almacena dad de aprendizaje sobre secuencias de datos en la memoria de cada celda o descarta en temporales y la estabilidad de las LSTMs. El cada paso temporal de la secuencia, captu- algoritmo propuesto se basa en la publicación rando de este modo dependencias a corto y (Zhou et al., 2015) y se explica con más de- largo plazo en las sentencias. La salida del talle en la siguiente sección. modelo viene dada por la última capa oculta Los resultados obtenidos que se muestran de la red LSTM. 53 Rosa Montañés, Rocío Aznar y Rafael del Hoyo 3.2 Preprocesado de texto de referencia para la clasificación de polari- Adicionalmente, y del mismo modo que en dad en 5 niveles. Tras analizar los resulta- la edición TASS 2017, se ha realizado un pre- dos de la evaluación observamos que el mo- procesado de los textos, aplicando las siguien- delo presenta ciertas deficiencias en la clasi- tes técnicas: ficación de publicaciones como NEU y NO- NE, clases semánticamente y conceptualmen- Eliminación de patrones como URLs, te muy próximas y por tanto difı́ciles de cla- emails, menciones, etc., tı́picos en publi- sificar. Aunque pensamos que su diferencia- caciones de redes sociales. ción podrı́a ser factible usando un modelo de representación de palabras que disponga de Conversión a minúsculas. un vocabulario más extenso modelizando de Lematización en español. forma más precisa el lenguaje español. Asimismo, el experimento monoligüe rea- Eliminación de stopwords. lizado, nos indica que en este caso, el prepro- cesado de los textos no mejora la predicción Sinónimos basados en diccionarios emo- del sentimiento. Idea que ya apuntaba Zhou cionales. et al. (2015) en su publicación mencionando Las etapas de lematización, eliminación de la independencia del modelo de conocimiento stopwords y aplicación de sinónimos basados del lenguaje a través de recursos externos ni en diccionarios emocionales, utilizan recursos necesidad de un complejo procesado que re- propios desarrollados para el español hablado duzca excesivamente la dimensionalidad del en España, por lo que se ha llevado a cabo sistema. esta fase en el experimento monolingüe con En cuanto a los experimentos entre varian- el objetivo de comprobar su efectividad en el tes del español, aplicando el modelo de Es- contexto de las redes neuronales profundas. paña a los textos de Perú (PE) y Costa Rica (CR), se observa que el sistema es bastante 4 Resultados experimentales robusto a las diferencias léxicas y gramatica- les que se pueden presentar en estos textos En la Tabla 2 se muestran los resultados obte- cortos. nidos en las subtareas evaluadas por ITAIN- NOVA. 5 Conclusiones y trabajo futuro Los dos modelos (cl-base y cl-proc) se han entrenado con el mismo conjunto de hiper- En este artı́culo se ha presentado la apro- parámetros, elegidos a partir de las recomen- ximación llevada a cabo por el equipo de daciones expuestas en (Zhou et al., 2015) y ITAINNOVA en el TASS 2018. Dicha aproxi- realizando una búsqueda empı́rica con pe- mación tenı́a como objetivo principal la apli- queñas variaciones en los valores: cación de técnicas basadas en redes neurona- les profundas para la clasificación de la pola- Tamaño del embedding: 256 ridad en tweets. Los resultados obtenidos de la aplicación de algoritmos de CNN y LSTM Mı́nima frecuencia de palabra: 0 y un algoritmo hı́brido combina ambos algo- Número de filtros (CNN): 128 ritmos mostraron obtener una mayor métri- ca de accuracy en el algoritmo hı́brido, razón Tamaño de los filtros (CNN): 2,3,4 por la que dicho algoritmo fue el elegido como solución propuesta a la tarea. Número de capas: 2 (1 CNN + 1 LSTM) El conjunto de entrenamiento sobre el que Learning rate: 0.001 se ha trabajado es el INTERTASS ES unifi- cado con un subconjunto de las publicaciones Tamaño del batch: 32 del corpus general. Los resultados obtenidos Número de épocas: 100 en la tarea ’Monolingual ES’ muestran que el preprocesado de textos considerado no me- Si bien nuestro sistema no ha quedado jora la predicción del sentimiento. Por otro dentro del ranking de los 10 mejores respec- lado, se observa que el algoritmo entrenado to al resto de sistemas presentados en esta solamente con el conjunto de datos en español edición, los resultados obtenidos se aproxi- de España produce resultados similares en el man a lo resultados publicados en el paper conjunto de test de textos de Perú y Costa Ri- 54 Aplicación de un Modelo Híbrido de Aprendizaje Profundo para el Análisis de Sentimiento en Twitter Algoritmo Macro-F1 Accuracy cl-base 0.383 0.433 Monolingual ES cl-proc 0.320 0.395 Cross-lingual PE cl-base 0.367 0.382 Cross-lingual CR cl-base 0.409 0.440 Tabla 2: Resultados experimentales ca. No obstante, la solución propuesta no ha nas 53–58, Alicante, Spain, September. conseguido quedarse en el ranking de las 10 CEUR-WS. propuestas con mejores valores en las métri- Dı́az-Galiano, M. C., E. Martı́nez-Cáma- cas, obteniendo incluso métricas inferiores a ra, M. Á. G. Cumbreras, M. G. Vega, las obtenidas en la solución que propusimos y J. Villena-Román. 2018. The de- en la tarea de 2017 (Montañés Salas et al., mocratization of deep learning in tass 2017). 2017. Procesamiento del Lenguaje Natu- En base a los resultados obtenidos en di- ral, 60(0):37–44. cha tarea y en la tarea de 2017 en la que participamos, vemos la necesidad de aumen- Galteri, L., L. Seidenari, M. Bertini, y tar el corpus en este tipo de redes o la uti- A. Del Bimbo. 2017. Spatio-temporal lización de modelos de word embedding más closed-loop object detection. IEEE extensos para introducir más información al Transactions on Image Processing, PP:1– sistema. Consideramos explorar una posible 1, 01. lı́nea de trabajo futuro que podrı́a conducir Haddi, E., X. Liu, y Y. Shi. 2013. The role of a la participación en esta tarea de análisis de text pre-processing in sentiment analysis. sentimiento de próximas ediciones con un al- Procedia Computer Science, 17:26 – 32. goritmo que integre las aspectos más valiosos First International Conference on Infor- de las aproximaciones consideradas. En con- mation Technology and Quantitative Ma- creto, se aplicarı́a el algoritmo de FastText nagement. utilizado en la tarea de 2017 para la repre- sentación vectorial de los tweets que además Kim, Y. 2014. Convolutional neural net- ofrece una eficiencia computacional bastante works for sentence classification. En Pro- elevada. Posteriormente se aplicarı́a el algo- ceedings of the 2014 Conference on Empi- ritmo hı́brido de CNN y LSTM para la clasi- rical Methods in Natural Language Proces- ficación, redes neuronales profundas con gran sing, EMNLP 2014, October 25-29, 2014, potencial en tareas de procesamiento de len- Doha, Qatar, A meeting of SIGDAT, a guaje natural y que, como se ha demostra- Special Interest Group of the ACL, pági- do en nuestros resultados y en (Zhou et al., nas 1746–1751, September. 2015) mejora a los algoritmos simples (no- Liu, P., S. R. Joty, y H. M. Meng. 2015. hı́bridos) de redes CNN y LSTM. Se piensa Fine-grained opinion mining with recu- que los resultados obtenidos en esta nueva rrent neural networks and word embed- lı́nea podrı́an mejorar considerablemente los dings. En EMNLP, páginas 1433–1443. conseguidos hasta ahora. The Association for Computational Lin- guistics. Bibliografı́a Martı́nez-Cámara, E., Y. Almeida Cruz, del Hoyo Alonso, R., V. Rodrigálvarez Cha- M. C. Dı́az-Galiano, S. Estévez Velar- marro, J. Vea-Murguı́a Merck, y R. M. de, M. A. Garcı́a-Cumbreras, M. Garcı́a- Montañés Salas. 2015. Ensemble algo- Vega, Y. Gutiérrez Vázquez, A. Monte- rithm with syntactical tree features to im- jo Ráez, A. Montoyo Guijarro, R. Muñoz prove the opinion analysis. En Procee- Guillena, A. Piad Morffis, y J. Villena- dings of TASS 2015: Workshop on Senti- Román. 2018. Overview of TASS ment Analysis at SEPLN, volumen 1397 2018: Opinions, health and emotions. En de CEUR Workshop Proceedings, pági- E. Martı́nez-Cámara Y. Almeida Cruz 55 Rosa Montañés, Rocío Aznar y Rafael del Hoyo M. C. Dı́az-Galiano S. Estévez Velar- de M. A. Garcı́a-Cumbreras M. Garcı́a- Vega Y. Gutiérrez Vázquez A. Monte- jo Ráez A. Montoyo Guijarro R. Muñoz Guillena A. Piad Morffis, y J. Villena- Román, editores, Proceedings of TASS 2018: Workshop on Semantic Analysis at SEPLN (TASS 2018), volumen 2172 de CEUR Workshop Proceedings, Sevilla, Spain, September. CEUR-WS. Mikolov, T., K. Chen, G. Corrado, y J. Dean. 2013. Efficient estimation of word re- presentations in vector space. CoRR, abs/1301.3781. Montañés Salas, R. M., R. del Hoyo Alonso, J. Vea-Murguı́a Merck, R. Aznar Gimeno, y F. J. Lacueva-Pérez. 2017. Fasttext como alternativa a la utilización de deep learning en corpus pequeños. En Pro- ceedings of TASS 2017: Workshop on Se- mantic Analysis at SEPLN, volumen 1896 de CEUR Workshop Proceedings, páginas 65–69, Murcia, Spain, September. CEUR- WS. Sing, T. y M. Kumari. 2016. Role of text pre- processing in twitter sentiment analysis. Procedia Computer Science, 89:549–554. Twelfth International Multi-Conference on Information Processing (IMCIP-2016). Zhou, C., C. Sun, Z. Liu, y F. Lau. 2015. A c- lstm neural network for text classification. CoRR, abs/1511.08630. Zhou, P., W. Shi, J. Tian, Z. Qi, B. Li, H. Hao, y B. Xu. 2016. Attention-based bidirectional long short-term memory net- works for relation classification. En Pro- ceedings of the 54th Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers), páginas 207– 212. Association for Computational Lin- guistics. 56