TASS 2018: Workshop on Semantic Analysis at SEPLN, septiembre 2018, págs. 37-44 ELiRF-UPV en TASS 2018: Análisis de Sentimientos en Twitter basado en Aprendizaje Profundo ELiRF-UPV at TASS 2018: Sentiment Analysis in Twitter based on Deep Learning José-Ángel González, Lluı́s-F. Hurtado, Ferran Pla Universitat Politècnica de València Camı́ de Vera s/n 46022 València {jogonba2, lhurtado, fpla}@dsic.upv.es Resumen: En este trabajo se describe la participación del grupo de investigación ELiRF de la Universitat Politècnica de València en el Taller TASS2018, enmarcado dentro de la XXXIV edición del Congreso Internacional de la Sociedad Española para el Procesamiento del Lenguaje Natural. Presentamos las aproximaciones utilizadas para las tareas “Sentiment Analysis at Tweet level” y “Aspect-based Sentiment Analysis” del taller, los resultados obtenidos y una discusión de los mismos. Nuestra participación se ha centrado principalmente en explorar diferentes aproximaciones basadas en Deep Learning, consiguiendo resultados competitivos en las tareas abor- dadas. Palabras clave: Twitter, Análisis de Sentimientos, Deep Learning. Abstract: This paper describes the participation of the ELiRF research group of the Universitat Politècnica de València at TASS2018 Workshop which is a satellite event of the XXXIV edition of the International Conference of the Spanish Society for Natural Language Processing. We describe the approaches used for “Sentiment Analysis at Tweet level” and “Aspect-based Sentiment Analysis” tasks, the results obtained and a discussion of these results. Our participation has focused primarily on exploring different approaches of Deep Learning and we have achieved competitive results in the addressed tasks. Keywords: Twitter, Sentiment Analysis, Deep Learning. 1 Introducción Determinación de la polaridad de los tweets El Taller de Análisis de Sentimientos (TASS) a nivel global y 2) Determinación de la pola- ha venido planteando una serie de tareas re- ridad a nivel de aspecto. Ası́, para la prime- lacionadas con el análisis de sentimientos en ra tarea, a diferencia de la edición anterior Twitter con el fin de comparar y evaluar las (Martı́nez-Cámara et al., 2017), se ha pro- diferentes aproximaciones presentadas por los puesto como nuevo reto la multilingualidad participantes. Además, desarrolla recursos de por lo que se proporciona a los participan- libre acceso, básicamente, corpora anotados tes tres corpus diferentes de tweets escritos con polaridad, temática, tendencia polı́tica, en variedades del español (España, Costa Ri- aspectos, que son de gran utilidad para la ca y Perú). Para la segunda tarea se utili- comparación de diferentes aproximaciones a zaron los corpus Social TV, compuesto por las tareas propuestas. tweets publicados durante la final de la Copa En esta séptima edición del TASS del Rey 2014 y STOMPOL, que consta de un (Martı́nez-Cámara et al., 2018) se proponen conjunto de tweets sobre diferentes aspectos diversas tareas en el contexto del análisis de pertenecientes al dominio de la polı́tica. sentimiento (subtareas 1 y 2), el descubri- El presente artı́culo resume la participa- miento de conocimiento en documentos médi- ción del equipo ELiRF-UPV de la Universi- cos (subtarea 3) y la categorización emocio- tat Politècnica de València en ambas tareas, nal de noticias (subtarea 4). Respecto a las que tratan el análisis de sentimientos tanto a tareas de análisis de sentimiento, los orga- nivel global como de aspectos. nizadores proponen dos tareas diferentes: 1) El resto del artı́culo se estructura como ISSN 1613-0073 Copyright © 2018 by the paper's authors. Copying permitted for private and academic purposes. José-Ángel González, Lluís-F. Hurtado y Ferran Pla sigue: para cada tarea, primero se describen las aproximaciones y recursos utilizados en la ES CR PE GE tarea. A continuación, se presenta la evalua- N 418 311 242 2600 ción experimental realizada y los resultados NEU 133 94 166 803 obtenidos. Finalmente se muestran las con- NONE 139 165 361 1621 clusiones y posibles trabajos futuros. P 318 230 231 3202 Σ 1008 800 1000 8226 2 Análisis de sentimientos a nivel de tweet Esta tarea consiste en asignar una polaridad global a tweets en una escala de cuatro niveles Tabla 1: Distribución de tweets en los conjun- de intensidad (N, NEU, NONE y P). tos de entrenamiento de InterTASS y General Ası́, las principales dificultades radican en Corpus según su polaridad. aspectos relacionados con el dominio de la tarea. Por un lado, la falta de contexto debi- NEU siempre es la menos poblada aunque do a la limitada longitud de los tweets. Por en InterTASS-ES tiene un número de mues- otro lado, el lenguaje informal es una carac- tras similar a NONE. terı́stica común a muchas redes sociales como Twitter, lo que lleva a errores de ortografı́a y 2.2 Descripción de los sistemas a la utilización de términos especiales como Los sistemas que estudiamos en TASS 2018 emoticonos. Además, en esta edición, la or- continúan con el enfoque utilizado por nues- ganización ha propuesto como nuevo reto la tro equipo en la pasada edición (Hurtado, multilingualidad por lo que es necesario con- Pla, y González., 2017). Para la presente edi- seguir que los sistemas sean capaces de gene- ción, hemos definido dos baselines basados en ralizar entre diversas variedades del español. Support Vector Machines (Cortes y Vapnik, 1995) que emplean representaciones bag-of- 2.1 Corpora words (BOW) de los tweets, tanto a nivel de La organización ha definido tres subtareas palabra como de caracteres (BOC). Toman- considerando tres corpus diferentes con varie- do como referencia los resultados obtenidos dades del español. En primer lugar, el corpus por dichos baselines, se han explorado diver- InterTASS-ES (España) compuesto por una sas arquitecturas Deep Learning. partición de entrenamiento de 1008 muestras, La tokenización de los tweets consiste en la una de validación de 506 muestras y otra de adaptación para el castellano del tokenizador test formada por 1920 muestras. En segundo de tweets Tweetmotif (O’Connor, Krieger, y lugar, InterTASS-CR (Costa Rica) compues- Ahn, 2010). El preproceso ha consistido en to por 800 muestras de entrenamiento, 300 sustituir todos los números, direcciones web, para validación y 1233 para test. Por últi- hashtags y menciones de usuario por un to- mo, InterTASS-PE (Perú), formado por 1000 ken común por clase, por ejemplo #1octL6 muestras de entrenamiento, 500 de validación → #hashtag. Además, se han eliminado los y 1428 de test. Además, es posible emplear la acentos y convertido a minúsculas. partición de entrenamiento del General Cor- En este trabajo se han explorado diferen- pus (GE), compuesta por 8226 muestras, pa- tes arquitecturas de redes neuronales ası́ co- ra entrenar los sistemas. mo diferentes tipos de representaciones de La distribución de tweets según su polari- los tweets. Entre estas arquitecturas, estu- dad en el conjunto de entrenamiento del cor- diamos el comportamiento de Convolutio- pus InterTASS se muestra en la Tabla 1. nal Neural Network (CNN) (Kim, 2014), At- La distribución de tweets según su pola- tention Bidirectional Long Short Term Me- ridad en los conjuntos de entrenamiento de mory (Att-BLSTM) (Zhou et al., 2016) y los corpus de InterTASS y General Corpus Deep Averaging Networks (DAN) (Iyyer et se muestra en la Tabla 1. al., 2015). Con respecto a las representacio- Como se puede observar en la Tabla 1, nes, en función de cada modelo, se han em- los corpus están desbalanceados predominan- pleado diversos tipos como bag-of-words, bag- do generalmente las clases N y P, excepto of-chars, word embeddings (WE) (Hurtado, en el corpus InterTASS-PE, donde la clase Pla, y González., 2017) y lexicones de pola- más representada es NONE. Ası́, la clase ridad y emociones (LE) (Mohammad y Tur- 38 ELiRF-UPV en TASS 2018: Análisis de Sentimientos en Twitter basado en Aprendizaje Profundo ney, 2013), (Urizar y Roncal, 2013), (L. Cruz orden de las palabras (DAN frente a CNN et al., 2014), (Molina-González et al., 2013). y Att-BLSTM). También es necesario desta- Para llevar a cabo la experimentación con car que la incorporación de información ex- diversos sistemas y representaciones, hemos traı́da de lexicones no aporta mejoras al sis- utilizado las librerı́as Keras (Chollet, 2015), tema DAN. Scikit-Learn (Buitinck et al., 2013) y Gensim Ası́, de entre todos los sistemas estudia- (Řehůřek y Sojka, 2010). dos para InterTASS-ES, escogemos aquellos Además, para el entrenamiento de las ar- que maximizan Acc y macro-F1 de forma in- quitecturas Deep Learning, se ha empleado dependiente, estos son DAN con WE entre- una aproximación continua y derivable a la nados con InterTASS-ES y con InterTASS- métrica de evaluación (macro-F1 ) como fun- ES+GE respectivamente. Una vez se ha es- ción de loss. Empleamos esta estrategia con el cogido DAN con WE como mejor sistema en objetivo de evitar el impacto del desbalanceo InterTASS-ES para Acc (es-run1) y macro- entre clases durante el entrenamiento. Esto F1 (es-run2), se utiliza en InterTASS-CR e nos permite obtener modelos más robustos InterTASS-PE entrenando con el conjunto de evaluados con macro-F1 . entrenamiento de cada tarea y la combina- Por último, con respecto al criterio de elec- ción de este con el General Corpus. ción del mejor modelo, escogemos la arquitec- La Figura 1 muestra el sistema propues- tura Deep Learning y la representación que to en este trabajo, donde xi representa el mejor se comporta en validación sobre el cor- embedding de la palabra i, N representa el pus InterTASS-ES. Una vez determinada la uso de Batch Normalization (Ioffe y Szegedy, representación y la arquitectura junto con sus 2015), F la no linealidad, en este caso ReLU, hiperparámetros, este mismo sistema se em- D se refiere al uso de Dropout (Srivastava et plea en las demás subtareas, i.e. no se ha ajus- al., 2014) con p = 0,3 y W1 ∈ R512∗de son los tado ni estudiado modelos sobre InterTASS- pesos de la única capa oculta y de la dimen- CR e InterTASS-PE. sionalidad de los embeddings. Como algorit- mo de optimización se ha empleado Adagrad 2.3 Fase de ajuste (Duchi, Hazan, y Singer, 2011). Para estudiar el comportamiento de los di- softmax ferentes modelos, se realizó un proceso de ajuste. De esta manera, evaluamos diversos ℎ1 = 𝐷(𝐹 𝑁 𝑊1 ⋅ 𝜙 + 𝑏1 ) modelos Deep Learning junto con los baseli- nes sobre InterTASS-ES para escoger el me- 𝜙 = σ𝑛𝑖=1 𝑥𝑖 jor y emplearlo también en InterTASS-CR e InterTASS-PE. En la Tabla 2 se muestran los resultados obtenidos por cada sistema en los conjuntos de validación de cada subtarea. En 𝑥1 𝑥2 𝑥𝑛 dicha tabla, S hace referencia al sistema, R a la representación y C al conjunto de entrena- miento utilizado. Figura 1: Deep Averaging Network que mejor Respecto a la subtarea evaluada con el se comporta en la partición de validación de corpus InterTASS-ES, cuando se utiliza co- InterTASS-ES. mo medida de evaluación la Accuracy (Acc), la mayorı́a de sistemas basados en Deep Lear- ning mejoran los baselines propuestos. Con 2.4 Resultados experimentales respecto a la macro-F1 , observamos una di- En la Tabla 3 se muestran los resultados ob- ferencia de 7 puntos entre los baselines SVM tenidos por nuestros sistemas en cada una de con BOW (1-2gramas) y BOC (1-9gramas), las subtareas utilizando los conjuntos de test. a su vez, todos los sistemas basados en Deep Se han elegido los dos sistemas que han obte- Learning obtienen valores más altos que am- nido mejores resultados en la fase de ajuste. bos baselines. Entre los modelos de aprendi- En el test de InterTASS-ES nuestro siste- zaje profundo observamos que se comportan ma es-run1 obtiene los mejores resultados mejor, tanto a nivel de Acc como de macro- de la competición tanto a nivel de macro- F1 , aquellos con menor complejidad y que F1 como de Acc (incluyendo la edición pa- capturan caracterı́sticas independientes del sada sobre el mismo corpus). Sin embargo, 39 José-Ángel González, Lluís-F. Hurtado y Ferran Pla S R C Macro-P Macro-R Macro-F1 Acc SVM BOW ES 42.69 40.20 40.34 53.16 SVM BOC ES 51.09 46.89 47.48 59.88 Att-BLSTM WE ES 51.96 49.67 49.81 58.10 CNN WE ES 52.97 49.09 49.12 60.16 ES DAN (es-run1) WE ES 51.54 49.49 49.99 61.07 DAN WE+LE ES 48.20 47.02 47.52 58.30 DAN (es-run2) WE ES+GE 52.97 51.46 52.01 60.67 DAN (cr-run1) WE CR 54.98 52.28 52.71 58.67 CR DAN (cr-run2) WE CR+GE 49.10 48.67 48.73 56.00 DAN (pe-run1) WE PE 45.62 47.91 45.79 49.60 PE DAN (pe-run2) WE PE+GE 46.49 50.77 44.53 44.80 Tabla 2: Resultados de los diversos sistemas sobre los conjuntos de validación. Macro-P Macro-R Macro-F1 Acc run1 51.50 49.10 50.30 61.20 ES run2 49.20 48.60 48.90 59.30 run1 47.60 45.10 46.30 54.40 CR run2 47.80 48.60 48.20 56.10 run1 43.40 43.50 43.50 44.40 PE run2 43.80 43.80 43.80 46.10 Tabla 3: Resultados oficiales del equipo ELiRF-UPV en las tres subtareas de la Tarea 1 (los resultados de los demás participantes se muestran en (Martı́nez-Cámara et al., 2018)). los mismos sistemas para InterTASS-CR e únicamente con el corpus de entrenamiento InterTASS-PE no se comportan igual de bien de esta edición (cr-run1 y pe-run1). en comparación a los sistemas de otros parti- En las Tablas 4, 5 y 6 se muestra la eva- cipantes. luación por clase de los mejores sistemas pa- En el caso de InterTASS-CR, nuestro me- ra las tres subtareas. En ellas se puede ob- jor sistema cr-run2 se encuentra 2.2 puntos servar como, en todos los casos, las clases de macro-F1 por debajo del sistema LSTM que mejor clasifican nuestros sistemas son P de RETUYT y 2.1 puntos de Acc por debajo y N. Además, los resultados obtenidos con del sistema CR-LR de Atalaya (la diferen- las clases NEU y NONE son siempre in- cia de Acc no es significativa). Por otro la- feriores por un amplio margen en compara- do, en InterTASS-PE, nuestro mejor sistema ción a P y N, lo que muestra la dificultad de pe-run2 se encuentra 3.4 puntos de macro- clasificar correctamente dichas clases. Tam- F1 por debajo del sistema CNN de RETUYT bién, es necesario destacar que, mientras en y 5.9 puntos de Acc por debajo del sistema InterTASS-ES e InterTASS-CR nuestros sis- MLP de Atalaya. En este caso, la diferencia temas se comportan mejor con la clase NO- a nivel de Acc sı́ es significativa. NE que con la clase NEU, en InterTASS-PE Cabe destacar que el sistema con mejor ocurre lo contrario y se equilibran los resul- comportamiento en el test de InterTASS-CR tados de ambas clases. e InterTASS-PE, a diferencia de lo observado Por otro lado, para estudiar el grado de en la fase de ajuste, ha sido el basado en Deep confusión entre clases de nuestros mejores sis- Averaging Networks (DAN) con Embeddings temas para las tres subtareas, en las Tablas (WE) entrenado utilizando el corpus de cada 7, 8 y 9 se muestra la matriz de confusión subtarea en combinación con el General Cor- para cada uno de ellos. pus. Por tanto, sobre el conjunto de test, la En InterTASS-ES, las mayores confusio- inclusión de datos de ediciones pasadas nos nes se dan entre las clases N-P, P-N, ha permitido mejorar al sistema entrenado NONE-N y NONE-P. En InterTASS-CR, 40 ELiRF-UPV en TASS 2018: Análisis de Sentimientos en Twitter basado en Aprendizaje Profundo P R F1 P R F1 N 63.30 76.50 71.00 N 62.60 47.20 53.90 NEU 21.30 15.70 18.10 NEU 31.00 28.60 29.70 NONE 51.60 34.30 41.20 NONE 19.20 35.20 24.80 P 66.80 69.80 68.20 P 62.40 64.00 63.10 Tabla 4: Resultados de Precisión, Recall y Tabla 6: Resultados de Precisión, Recall y F1 por clase para el sistema es-run1 en F1 por clase para el sistema pe-run2 en InterTASS-ES InterTASS-PE P R F1 N NEU NONE P N 65.10 67.20 66.10 N 587 55 34 91 NEU 22.80 11.00 14.80 NEU 107 34 18 57 NONE 42.30 51.80 46.60 NONE 75 30 94 75 P 61.10 64.40 62.70 P 117 41 36 448 Tabla 5: Resultados de Precisión, Recall y Tabla 7: Matriz de confusión del sistema es- F1 por clase para el sistema cr-run2 en run1 en InterTASS-ES InterTASS-CR Social TV y la segunda el corpus STOMPOL. el sistema tiende a confundirse con ma- yor frecuencia en los casos NEU-N, NEU- 3.1 Corpus Social TV P, NONE-N y NONE-P. Por último, en El corpus Social TV fue proporcionado por InterTASS-PE, el mejor sistema predice con la organización y se compone de un conjunto mucha frecuencia la clase NEU lo que lleva a de tweets recolectados durante la final de la una gran confusión en los casos N-NEU y P- Copa del Rey de fútbol de 2014. Está dividi- NEU, además, pasa algo similar con las pre- do en 1773 tweets de entrenamiento y 1000 dicciones NONE, destacando la confusión en tweets de test. El conjunto de entrenamiento los casos N-NONE y NEU-NONE. está anotado con los aspectos y su correspon- diente polaridad, utilizando en este caso sólo 3 Análisis de sentimientos a tres valores: P, N y NEU. El conjunto de test nivel de aspecto está anotado con los aspectos y se debe de- Esta tarea consiste en asignar la polaridad terminar la polaridad de éstos. a los aspectos que aparecen marcados en el corpus. Una de las dificultades de la tarea 3.2 Corpus STOMPOL consiste en definir qué contexto se le asigna a El corpus STOMPOL se compone de un con- cada aspecto para poder establecer su polari- junto de tweets relacionados con una serie de dad. Para un problema similar, detección de aspectos polı́ticos, como economı́a, sanidad, la polaridad a nivel de entidad, en la edición etc. que están enmarcados en la campaña del TASS 2013, propusimos una segmenta- polı́tica de las elecciones andaluzas de 2015. ción de los tweets basada en un conjunto de Cada aspecto se relaciona con una o varias heurı́sticas (Pla y Hurtado, 2013). Esta apro- entidades que se corresponden con uno de los ximación también se utilizó para la tarea de principales partidos polı́ticos en España (PP, detección de la tendencia polı́tica de los usua- PSOE, IU, UPyD, Cs y Podemos). El corpus rios de Twitter (Pla y Hurtado, 2014) y para consta de 1.284 tweets, y ha sido dividido en este caso proporcionó buenos resultados. En un conjunto de entrenamiento (784 tweets) y este trabajo se emplea la aproximación utili- un conjunto de evaluación (500 tweets). zada en la edición del TASS 2017, que consis- te en determinar el contexto de cada aspecto 3.3 Aproximación y resultados a través de una ventana fija definida a la iz- Los sistemas utilizados son iguales a los em- quierda y derecha de la instancia del aspecto. pleados con los corpora InterTASS de la pri- La longitud de la ventana óptima se ha deter- mera tarea. Se han utilizado modelos basados minado experimentalmente sobre el conjunto en Deep Averaging Networks y Embeddings, de entrenamiento mediante holdout. tanto para Social TV como para STOMPOL. La organización del TASS ha planteado Además, no hemos realizado ningún ajuste dos subtareas. La primera utiliza el corpus en los hiperparámetros ni en la arquitectura, 41 José-Ángel González, Lluís-F. Hurtado y Ferran Pla N NEU NONE P Acc Macro-F1 N 330 38 69 54 run-1 62.70 48.50 NEU 65 18 36 45 Social TV run-2 62.50 47.60 NONE 56 6 116 46 run-3 62.80 48.30 P 56 17 53 228 run-1 63.30 52.60 STOMPOL run-2 61.30 49.00 Tabla 8: Matriz de confusión del sistema cr- run-3 57.60 44.70 run2 en InterTASS-CR N NEU NONE P Tabla 10: Resultados oficiales del equipo N 223 126 82 41 ELiRF-UPV en las dos subtareas de la tarea NEU 64 105 117 81 2. NONE 32 27 56 44 P 37 81 37 275 Por último, los resultados obtenidos de Accuracy y macro-F1 con los distintos siste- Tabla 9: Matriz de confusión del sistema pe- mas para cada subtarea se muestran en la run2 en InterTASS-PE Tabla 10. Como se puede observar en la Tabla 10, en únicamente se ha realizado una fase de ajus- ambos casos mejoramos nuestros resultados te para determinar la longitud óptima de la de la edición anterior, haciendo uso del sis- ventana para cada aspecto. tema DAN con WE. Es interesante ver cómo Con respecto a dicha longitud, en el corpus transfer learning nos permite mejorar el sis- Social TV, observamos que cuanto menor es tema en Social TV a nivel de Acc, sin em- el tamaño de contexto, mejor se comportan bargo, en el caso de STOMPOL, el sistema los sistemas. Ası́, la mejor longitud para este inicializado con transfer learning se compor- caso consiste en un único token a izquierda ta peor que el resto tanto a nivel de Acc como y derecha del aspecto. En STOMPOL, por de macro-F1 . el contrario, cuanto mayor es el tamaño de contexto, mejores resultados obtienen los sis- 4 Conclusiones y trabajos futuros temas. En este caso, el mejor contexto está formado por 10 tokens a izquierda y derecha En este trabajo se ha presentado la participa- del aspecto, lo que equivale a considerar todo ción del equipo ELiRF-UPV en las tareas 1 el tweet para cada aspecto. y 2 planteadas en TASS2018. Nuestro equipo En lo referente a los sistemas, los enviados ha utilizado modelos Deep Learning, consi- para la tarea Social TV son los siguientes: guiendo los mejores resultados en InterTASS- ES. Sin embargo, la variabilidad lingüı́stica run1: La primera alternativa es el run1 afecta a la elección de la arquitectura y sus de la Tarea 1, DAN con WE entrenado hiperparámetros, por lo que la aplicación del con el conjunto de entrenamiento de So- mismo sistema a las tareas InterTASS-CR e cial TV. InterTASS-PE sin realizar ningún ajuste no nos ha permitido obtener resultados igual de run2: La segunda alternativa es el run1 competitivos que en InterTASS-ES. que el grupo envió a la edición pasada Como trabajo futuro, nuestro grupo está de Social TV. También se trata de DAN interesado en seguir trabajando en la minerı́a con WE pero con hiperparámetros y ta- de textos en redes sociales y especialmente maño de contexto diferentes. en la detección de stance, afecto y emocio- run3: Para el último sistema utilizamos nes, ası́ como en la incorporación de recursos transfer learning desde el es-run1 de la lingüı́sticos a sistemas de Deep Learning. Tarea 1, cambiando la última capa del modelo y reentrenándolo con el corpus Agradecimientos Social TV. Este trabajo ha sido parcialmente subven- Por otro lado, para la tarea con STOM- cionado por MINECO y fondos FEDER ba- POL, los sistemas considerados son idénticos jo los proyectos ASLP-MULAN (TIN2014- a la anterior tarea, pero con un tamaño de 54288-C4-3-R) y AMIC (TIN2017-85854-C4- contexto diferente y entrenados con el corpus 2-R). El trabajo de José-Ángel González es STOMPOL. también financiado por la Universidad Po- 42 ELiRF-UPV en TASS 2018: Análisis de Sentimientos en Twitter basado en Aprendizaje Profundo litécnica de Valencia bajo la beca PAID-01- Kim, Y. 2014. Convolutional neural net- 17. works for sentence classification. En Pro- ceedings of the 2014 Conference on Empi- Bibliografı́a rical Methods in Natural Language Proces- Buitinck, L., G. Louppe, M. Blondel, F. Pe- sing (EMNLP), páginas 1746–1751. Asso- dregosa, A. Mueller, O. Grisel, V. Nicu- ciation for Computational Linguistics. lae, P. Prettenhofer, A. Gramfort, J. Gro- L. Cruz, F., J. A. Troyano, B. Pontes, y F. J. bler, R. Layton, J. VanderPlas, A. Joly, Ortega. 2014. Building layered, multilin- B. Holt, y G. Varoquaux. 2013. API de- gual sentiment lexicons at synset and lem- sign for machine learning software: expe- ma levels. 41:5984–5994, 10. riences from the scikit-learn project. En ECML PKDD Workshop: Languages for Martı́nez-Cámara, E., Y. Almeida Cruz, Data Mining and Machine Learning, pági- M. C. Dı́az-Galiano, S. Estévez Velar- nas 108–122. de, M. A. Garcı́a-Cumbreras, M. Garcı́a- Vega, Y. Gutiérrez Vázquez, A. Monte- Chollet, F. 2015. Keras. https://github. jo Ráez, A. Montoyo Guijarro, R. Muñoz com/fchollet/keras. Guillena, A. Piad Morffis, y J. Villena- Cortes, C. y V. Vapnik. 1995. Support- Román. 2018. Overview of TASS vector networks. Mach. Learn., 2018: Opinions, health and emotions. En 20(3):273–297, Septiembre. E. Martı́nez-Cámara Y. Almeida Cruz M. C. Dı́az-Galiano S. Estévez Velar- Duchi, J., E. Hazan, y Y. Singer. 2011. de M. A. Garcı́a-Cumbreras M. Garcı́a- Adaptive subgradient methods for online Vega Y. Gutiérrez Vázquez A. Monte- learning and stochastic optimization. J. jo Ráez A. Montoyo Guijarro R. Muñoz Mach. Learn. Res., 12:2121–2159, Julio. Guillena A. Piad Morffis, y J. Villena- Hurtado, L.-F., F. Pla, y J.-A. González. Román, editores, Proceedings of TASS 2017. Elirf-upv en tass 2017: Análisis de 2018: Workshop on Semantic Analysis sentimientos en twitter basado en aprendi- at SEPLN (TASS 2018), volumen 2172 zaje profundo. En J. Villena Román M. A. de CEUR Workshop Proceedings, Sevilla, Garcı́a Cumbreras E. Martı́nez-Cámara Spain, September. CEUR-WS. M. C. Dı́az Galiano, y M. Garcı́a Ve- Martı́nez-Cámara, E., M. C. Dı́az-Galiano, ga, editores, In Proceedings of TASS M. A. Garcı́a-Cumbreras, M. Garcı́a- 2017: Workshop on Sentiment Analysis Vega, y J. Villena-Román. 2017. Over- at SEPLN co-located with 33nd SEPLN view of TASS 2017. En J. Ville- Conference (SEPLN 2017), volumen 1896 na Román M. A. Garcı́a Cumbreras de CEUR Workshop Proceedings, Murcia, E. Martı́nez-Cámara M. C. Dı́az Galiano, Spain, September. CEUR-WS. y M. Garcı́a Vega, editores, Proceedings Ioffe, S. y C. Szegedy. 2015. Batch norma- of TASS 2017: Workshop on Semantic lization: Accelerating deep network trai- Analysis at SEPLN (TASS 2017), volu- ning by reducing internal covariate shift. men 1896 de CEUR Workshop Procee- En Proceedings of the 32Nd Internatio- dings, Murcia, Spain, September. CEUR- nal Conference on International Confe- WS. rence on Machine Learning - Volume 37, Mohammad, S. M. y P. D. Turney. 2013. ICML’15, páginas 448–456. JMLR.org. Crowdsourcing a Word-Emotion Associa- Iyyer, M., V. Manjunatha, J. Boyd-Graber, tion Lexicon. Computational Intelligence, y H. Daumé III. 2015. Deep unordered 29(3):436–465. composition rivals syntactic methods for Molina-González, M. D., E. Martı́nez-Cáma- text classification. En Proceedings of the ra, M.-T. Martı́n-Valdivia, y J. M. Perea- 53rd Annual Meeting of the Association Ortega. 2013. Semantic orientation for Computational Linguistics and the 7th for polarity classification in spanish re- International Joint Conference on Natural views. Expert Systems with Applications, Language Processing (Volume 1: Long Pa- 40(18):7250 – 7257. pers), páginas 1681–1691. Association for Computational Linguistics. O’Connor, B., M. Krieger, y D. Ahn. 2010. 43 José-Ángel González, Lluís-F. Hurtado y Ferran Pla Tweetmotif: Exploratory search and topic summarization for twitter. Pla, F. y L.-F. Hurtado. 2013. Elirf-upv en tass-2013: Análisis de sentimientos en twitter. En XXIX Congreso de la Socie- dad Espanola para el Procesamiento del Lenguaje Natural (SEPLN 2013). TASS, páginas 220–227. Pla, F. y L.-F. Hurtado. 2014. Political ten- dency identification in twitter using senti- ment analysis techniques. En Proceedings of COLING 2014, the 25th International Conference on Computational Linguistics: Technical Papers, páginas 183–192, Du- blin, Ireland, August. Dublin City Uni- versity and Association for Computational Linguistics. Řehůřek, R. y P. Sojka. 2010. Softwa- re Framework for Topic Modelling with Large Corpora. En Proceedings of the LREC 2010 Workshop on New Challen- ges for NLP Frameworks, páginas 45–50, Valletta, Malta, Mayo. ELRA. http:// is.muni.cz/publication/884893/en. Srivastava, N., G. Hinton, A. Krizhevsky, I. Sutskever, y R. Salakhutdinov. 2014. Dropout: A simple way to prevent neu- ral networks from overfitting. J. Mach. Learn. Res., 15(1):1929–1958, Enero. Urizar, X. S. y I. S. V. Roncal. 2013. Elhuyar at tass 2013. TASS. Zhou, P., W. Shi, J. Tian, Z. Qi, B. Li, H. Hao, y B. Xu. 2016. Attention-based bidirectional long short-term memory net- works for relation classification. En Pro- ceedings of the 54th Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers), páginas 207– 212. Association for Computational Lin- guistics. 44