TASS 2018: Workshop on Semantic Analysis at SEPLN, septiembre 2018, págs. 37-44


ELiRF-UPV en TASS 2018: Análisis de Sentimientos
    en Twitter basado en Aprendizaje Profundo
    ELiRF-UPV at TASS 2018: Sentiment Analysis in Twitter
                  based on Deep Learning
                 José-Ángel González, Lluı́s-F. Hurtado, Ferran Pla
                            Universitat Politècnica de València
                                    Camı́ de Vera s/n
                                      46022 València
                          {jogonba2, lhurtado, fpla}@dsic.upv.es

       Resumen: En este trabajo se describe la participación del grupo de investigación
       ELiRF de la Universitat Politècnica de València en el Taller TASS2018, enmarcado
       dentro de la XXXIV edición del Congreso Internacional de la Sociedad Española para
       el Procesamiento del Lenguaje Natural. Presentamos las aproximaciones utilizadas
       para las tareas “Sentiment Analysis at Tweet level” y “Aspect-based Sentiment
       Analysis” del taller, los resultados obtenidos y una discusión de los mismos. Nuestra
       participación se ha centrado principalmente en explorar diferentes aproximaciones
       basadas en Deep Learning, consiguiendo resultados competitivos en las tareas abor-
       dadas.
       Palabras clave: Twitter, Análisis de Sentimientos, Deep Learning.
       Abstract: This paper describes the participation of the ELiRF research group of
       the Universitat Politècnica de València at TASS2018 Workshop which is a satellite
       event of the XXXIV edition of the International Conference of the Spanish Society
       for Natural Language Processing. We describe the approaches used for “Sentiment
       Analysis at Tweet level” and “Aspect-based Sentiment Analysis” tasks, the results
       obtained and a discussion of these results. Our participation has focused primarily on
       exploring different approaches of Deep Learning and we have achieved competitive
       results in the addressed tasks.
       Keywords: Twitter, Sentiment Analysis, Deep Learning.
1    Introducción                                              Determinación de la polaridad de los tweets
El Taller de Análisis de Sentimientos (TASS)                   a nivel global y 2) Determinación de la pola-
ha venido planteando una serie de tareas re-                    ridad a nivel de aspecto. Ası́, para la prime-
lacionadas con el análisis de sentimientos en                  ra tarea, a diferencia de la edición anterior
Twitter con el fin de comparar y evaluar las                    (Martı́nez-Cámara et al., 2017), se ha pro-
diferentes aproximaciones presentadas por los                   puesto como nuevo reto la multilingualidad
participantes. Además, desarrolla recursos de                  por lo que se proporciona a los participan-
libre acceso, básicamente, corpora anotados                    tes tres corpus diferentes de tweets escritos
con polaridad, temática, tendencia polı́tica,                  en variedades del español (España, Costa Ri-
aspectos, que son de gran utilidad para la                      ca y Perú). Para la segunda tarea se utili-
comparación de diferentes aproximaciones a                     zaron los corpus Social TV, compuesto por
las tareas propuestas.                                          tweets publicados durante la final de la Copa
   En esta séptima edición del TASS                           del Rey 2014 y STOMPOL, que consta de un
(Martı́nez-Cámara et al., 2018) se proponen                    conjunto de tweets sobre diferentes aspectos
diversas tareas en el contexto del análisis de                 pertenecientes al dominio de la polı́tica.
sentimiento (subtareas 1 y 2), el descubri-                         El presente artı́culo resume la participa-
miento de conocimiento en documentos médi-                     ción del equipo ELiRF-UPV de la Universi-
cos (subtarea 3) y la categorización emocio-                   tat Politècnica de València en ambas tareas,
nal de noticias (subtarea 4). Respecto a las                    que tratan el análisis de sentimientos tanto a
tareas de análisis de sentimiento, los orga-                   nivel global como de aspectos.
nizadores proponen dos tareas diferentes: 1)                        El resto del artı́culo se estructura como
ISSN 1613-0073                     Copyright © 2018 by the paper's authors. Copying permitted for private and academic purposes.
                                José-Ángel González, Lluís-F. Hurtado y Ferran Pla


sigue: para cada tarea, primero se describen
las aproximaciones y recursos utilizados en la                                  ES    CR      PE        GE
tarea. A continuación, se presenta la evalua-                 N                418   311     242      2600
ción experimental realizada y los resultados                  NEU              133   94      166       803
obtenidos. Finalmente se muestran las con-                     NONE             139   165     361      1621
clusiones y posibles trabajos futuros.                         P                318   230     231      3202
                                                               Σ               1008   800    1000      8226
2     Análisis de sentimientos a
      nivel de tweet
Esta tarea consiste en asignar una polaridad
global a tweets en una escala de cuatro niveles              Tabla 1: Distribución de tweets en los conjun-
de intensidad (N, NEU, NONE y P).                            tos de entrenamiento de InterTASS y General
    Ası́, las principales dificultades radican en            Corpus según su polaridad.
aspectos relacionados con el dominio de la
tarea. Por un lado, la falta de contexto debi-               NEU siempre es la menos poblada aunque
do a la limitada longitud de los tweets. Por                 en InterTASS-ES tiene un número de mues-
otro lado, el lenguaje informal es una carac-                tras similar a NONE.
terı́stica común a muchas redes sociales como
Twitter, lo que lleva a errores de ortografı́a y             2.2      Descripción de los sistemas
a la utilización de términos especiales como               Los sistemas que estudiamos en TASS 2018
emoticonos. Además, en esta edición, la or-                continúan con el enfoque utilizado por nues-
ganización ha propuesto como nuevo reto la                  tro equipo en la pasada edición (Hurtado,
multilingualidad por lo que es necesario con-                Pla, y González., 2017). Para la presente edi-
seguir que los sistemas sean capaces de gene-                ción, hemos definido dos baselines basados en
ralizar entre diversas variedades del español.              Support Vector Machines (Cortes y Vapnik,
                                                             1995) que emplean representaciones bag-of-
2.1    Corpora                                               words (BOW) de los tweets, tanto a nivel de
La organización ha definido tres subtareas                  palabra como de caracteres (BOC). Toman-
considerando tres corpus diferentes con varie-               do como referencia los resultados obtenidos
dades del español. En primer lugar, el corpus               por dichos baselines, se han explorado diver-
InterTASS-ES (España) compuesto por una                     sas arquitecturas Deep Learning.
partición de entrenamiento de 1008 muestras,                    La tokenización de los tweets consiste en la
una de validación de 506 muestras y otra de                 adaptación para el castellano del tokenizador
test formada por 1920 muestras. En segundo                   de tweets Tweetmotif (O’Connor, Krieger, y
lugar, InterTASS-CR (Costa Rica) compues-                    Ahn, 2010). El preproceso ha consistido en
to por 800 muestras de entrenamiento, 300                    sustituir todos los números, direcciones web,
para validación y 1233 para test. Por últi-                hashtags y menciones de usuario por un to-
mo, InterTASS-PE (Perú), formado por 1000                   ken común por clase, por ejemplo #1octL6
muestras de entrenamiento, 500 de validación                → #hashtag. Además, se han eliminado los
y 1428 de test. Además, es posible emplear la               acentos y convertido a minúsculas.
partición de entrenamiento del General Cor-                     En este trabajo se han explorado diferen-
pus (GE), compuesta por 8226 muestras, pa-                   tes arquitecturas de redes neuronales ası́ co-
ra entrenar los sistemas.                                    mo diferentes tipos de representaciones de
   La distribución de tweets según su polari-              los tweets. Entre estas arquitecturas, estu-
dad en el conjunto de entrenamiento del cor-                 diamos el comportamiento de Convolutio-
pus InterTASS se muestra en la Tabla 1.                      nal Neural Network (CNN) (Kim, 2014), At-
   La distribución de tweets según su pola-                tention Bidirectional Long Short Term Me-
ridad en los conjuntos de entrenamiento de                   mory (Att-BLSTM) (Zhou et al., 2016) y
los corpus de InterTASS y General Corpus                     Deep Averaging Networks (DAN) (Iyyer et
se muestra en la Tabla 1.                                    al., 2015). Con respecto a las representacio-
   Como se puede observar en la Tabla 1,                     nes, en función de cada modelo, se han em-
los corpus están desbalanceados predominan-                 pleado diversos tipos como bag-of-words, bag-
do generalmente las clases N y P, excepto                    of-chars, word embeddings (WE) (Hurtado,
en el corpus InterTASS-PE, donde la clase                    Pla, y González., 2017) y lexicones de pola-
más representada es NONE. Ası́, la clase                    ridad y emociones (LE) (Mohammad y Tur-
                                                       38
                ELiRF-UPV en TASS 2018: Análisis de Sentimientos en Twitter basado en Aprendizaje Profundo


ney, 2013), (Urizar y Roncal, 2013), (L. Cruz                    orden de las palabras (DAN frente a CNN
et al., 2014), (Molina-González et al., 2013).                  y Att-BLSTM). También es necesario desta-
Para llevar a cabo la experimentación con                       car que la incorporación de información ex-
diversos sistemas y representaciones, hemos                      traı́da de lexicones no aporta mejoras al sis-
utilizado las librerı́as Keras (Chollet, 2015),                  tema DAN.
Scikit-Learn (Buitinck et al., 2013) y Gensim                        Ası́, de entre todos los sistemas estudia-
(Řehůřek y Sojka, 2010).                                      dos para InterTASS-ES, escogemos aquellos
    Además, para el entrenamiento de las ar-                    que maximizan Acc y macro-F1 de forma in-
quitecturas Deep Learning, se ha empleado                        dependiente, estos son DAN con WE entre-
una aproximación continua y derivable a la                      nados con InterTASS-ES y con InterTASS-
métrica de evaluación (macro-F1 ) como fun-                    ES+GE respectivamente. Una vez se ha es-
ción de loss. Empleamos esta estrategia con el                  cogido DAN con WE como mejor sistema en
objetivo de evitar el impacto del desbalanceo                    InterTASS-ES para Acc (es-run1) y macro-
entre clases durante el entrenamiento. Esto                      F1 (es-run2), se utiliza en InterTASS-CR e
nos permite obtener modelos más robustos                        InterTASS-PE entrenando con el conjunto de
evaluados con macro-F1 .                                         entrenamiento de cada tarea y la combina-
    Por último, con respecto al criterio de elec-               ción de este con el General Corpus.
ción del mejor modelo, escogemos la arquitec-                       La Figura 1 muestra el sistema propues-
tura Deep Learning y la representación que                      to en este trabajo, donde xi representa el
mejor se comporta en validación sobre el cor-                   embedding de la palabra i, N representa el
pus InterTASS-ES. Una vez determinada la                         uso de Batch Normalization (Ioffe y Szegedy,
representación y la arquitectura junto con sus                  2015), F la no linealidad, en este caso ReLU,
hiperparámetros, este mismo sistema se em-                      D se refiere al uso de Dropout (Srivastava et
plea en las demás subtareas, i.e. no se ha ajus-                al., 2014) con p = 0,3 y W1 ∈ R512∗de son los
tado ni estudiado modelos sobre InterTASS-                       pesos de la única capa oculta y de la dimen-
CR e InterTASS-PE.                                               sionalidad de los embeddings. Como algorit-
                                                                 mo de optimización se ha empleado Adagrad
2.3    Fase de ajuste                                            (Duchi, Hazan, y Singer, 2011).
Para estudiar el comportamiento de los di-                                                   softmax
ferentes modelos, se realizó un proceso de
ajuste. De esta manera, evaluamos diversos                                                               ℎ1 = 𝐷(𝐹 𝑁 𝑊1 ⋅ 𝜙 + 𝑏1 )
modelos Deep Learning junto con los baseli-
nes sobre InterTASS-ES para escoger el me-
                                                                                                         𝜙 = σ𝑛𝑖=1 𝑥𝑖
jor y emplearlo también en InterTASS-CR e
InterTASS-PE. En la Tabla 2 se muestran los
resultados obtenidos por cada sistema en los
conjuntos de validación de cada subtarea. En                                  𝑥1               𝑥2                 𝑥𝑛
dicha tabla, S hace referencia al sistema, R a
la representación y C al conjunto de entrena-
miento utilizado.
                                                                 Figura 1: Deep Averaging Network que mejor
    Respecto a la subtarea evaluada con el
                                                                 se comporta en la partición de validación de
corpus InterTASS-ES, cuando se utiliza co-
                                                                 InterTASS-ES.
mo medida de evaluación la Accuracy (Acc),
la mayorı́a de sistemas basados en Deep Lear-
ning mejoran los baselines propuestos. Con                       2.4      Resultados experimentales
respecto a la macro-F1 , observamos una di-                      En la Tabla 3 se muestran los resultados ob-
ferencia de 7 puntos entre los baselines SVM                     tenidos por nuestros sistemas en cada una de
con BOW (1-2gramas) y BOC (1-9gramas),                           las subtareas utilizando los conjuntos de test.
a su vez, todos los sistemas basados en Deep                     Se han elegido los dos sistemas que han obte-
Learning obtienen valores más altos que am-                     nido mejores resultados en la fase de ajuste.
bos baselines. Entre los modelos de aprendi-                        En el test de InterTASS-ES nuestro siste-
zaje profundo observamos que se comportan                        ma es-run1 obtiene los mejores resultados
mejor, tanto a nivel de Acc como de macro-                       de la competición tanto a nivel de macro-
F1 , aquellos con menor complejidad y que                        F1 como de Acc (incluyendo la edición pa-
capturan caracterı́sticas independientes del                     sada sobre el mismo corpus). Sin embargo,
                                                           39
                               José-Ángel González, Lluís-F. Hurtado y Ferran Pla


               S             R               C          Macro-P         Macro-R      Macro-F1    Acc
       SVM                 BOW          ES               42.69           40.20        40.34     53.16
       SVM                 BOC          ES               51.09           46.89        47.48     59.88
       Att-BLSTM           WE           ES               51.96           49.67        49.81     58.10
       CNN                 WE           ES               52.97           49.09        49.12     60.16
 ES
       DAN (es-run1)       WE           ES               51.54           49.49        49.99     61.07
       DAN                 WE+LE        ES               48.20           47.02        47.52     58.30
       DAN (es-run2)       WE           ES+GE            52.97           51.46        52.01     60.67
       DAN (cr-run1)       WE           CR               54.98           52.28        52.71     58.67
 CR
       DAN (cr-run2)       WE           CR+GE            49.10           48.67        48.73     56.00
       DAN (pe-run1)       WE           PE               45.62           47.91        45.79     49.60
 PE
       DAN (pe-run2)       WE           PE+GE            46.49           50.77        44.53     44.80


        Tabla 2: Resultados de los diversos sistemas sobre los conjuntos de validación.
                                     Macro-P         Macro-R         Macro-F1        Acc
                            run1      51.50           49.10           50.30         61.20
                      ES
                            run2      49.20           48.60           48.90         59.30
                            run1      47.60           45.10           46.30         54.40
                      CR
                            run2      47.80           48.60           48.20         56.10
                            run1      43.40           43.50           43.50         44.40
                      PE
                            run2      43.80           43.80           43.80         46.10

Tabla 3: Resultados oficiales del equipo ELiRF-UPV en las tres subtareas de la Tarea 1 (los
resultados de los demás participantes se muestran en (Martı́nez-Cámara et al., 2018)).

los mismos sistemas para InterTASS-CR e                     únicamente con el corpus de entrenamiento
InterTASS-PE no se comportan igual de bien                  de esta edición (cr-run1 y pe-run1).
en comparación a los sistemas de otros parti-                  En las Tablas 4, 5 y 6 se muestra la eva-
cipantes.                                                   luación por clase de los mejores sistemas pa-
   En el caso de InterTASS-CR, nuestro me-                  ra las tres subtareas. En ellas se puede ob-
jor sistema cr-run2 se encuentra 2.2 puntos                 servar como, en todos los casos, las clases
de macro-F1 por debajo del sistema LSTM                     que mejor clasifican nuestros sistemas son P
de RETUYT y 2.1 puntos de Acc por debajo                    y N. Además, los resultados obtenidos con
del sistema CR-LR de Atalaya (la diferen-                   las clases NEU y NONE son siempre in-
cia de Acc no es significativa). Por otro la-               feriores por un amplio margen en compara-
do, en InterTASS-PE, nuestro mejor sistema                  ción a P y N, lo que muestra la dificultad de
pe-run2 se encuentra 3.4 puntos de macro-                   clasificar correctamente dichas clases. Tam-
F1 por debajo del sistema CNN de RETUYT                     bién, es necesario destacar que, mientras en
y 5.9 puntos de Acc por debajo del sistema                  InterTASS-ES e InterTASS-CR nuestros sis-
MLP de Atalaya. En este caso, la diferencia                 temas se comportan mejor con la clase NO-
a nivel de Acc sı́ es significativa.                        NE que con la clase NEU, en InterTASS-PE
   Cabe destacar que el sistema con mejor                   ocurre lo contrario y se equilibran los resul-
comportamiento en el test de InterTASS-CR                   tados de ambas clases.
e InterTASS-PE, a diferencia de lo observado                    Por otro lado, para estudiar el grado de
en la fase de ajuste, ha sido el basado en Deep             confusión entre clases de nuestros mejores sis-
Averaging Networks (DAN) con Embeddings                     temas para las tres subtareas, en las Tablas
(WE) entrenado utilizando el corpus de cada                 7, 8 y 9 se muestra la matriz de confusión
subtarea en combinación con el General Cor-                para cada uno de ellos.
pus. Por tanto, sobre el conjunto de test, la                   En InterTASS-ES, las mayores confusio-
inclusión de datos de ediciones pasadas nos                nes se dan entre las clases N-P, P-N,
ha permitido mejorar al sistema entrenado                   NONE-N y NONE-P. En InterTASS-CR,
                                                      40
               ELiRF-UPV en TASS 2018: Análisis de Sentimientos en Twitter basado en Aprendizaje Profundo


                    P           R        F1                                              P          R        F1
      N            63.30      76.50     71.00                            N              62.60     47.20     53.90
      NEU          21.30      15.70     18.10                            NEU            31.00     28.60     29.70
      NONE         51.60      34.30     41.20                            NONE           19.20     35.20     24.80
      P            66.80      69.80     68.20                            P              62.40     64.00     63.10

Tabla 4: Resultados de Precisión, Recall y                     Tabla 6: Resultados de Precisión, Recall y
F1 por clase para el sistema es-run1 en                         F1 por clase para el sistema pe-run2 en
InterTASS-ES                                                    InterTASS-PE
                   P           R         F1                                        N      NEU         NONE           P
       N          65.10      67.20      66.10                       N             587      55          34           91
       NEU        22.80      11.00      14.80                       NEU           107      34          18           57
       NONE       42.30      51.80      46.60                       NONE          75       30          94           75
       P          61.10      64.40      62.70                       P             117      41          36           448
Tabla 5: Resultados de Precisión, Recall y                     Tabla 7: Matriz de confusión del sistema es-
F1 por clase para el sistema cr-run2 en                         run1 en InterTASS-ES
InterTASS-CR
                                                                Social TV y la segunda el corpus STOMPOL.
el sistema tiende a confundirse con ma-
yor frecuencia en los casos NEU-N, NEU-                         3.1      Corpus Social TV
P, NONE-N y NONE-P. Por último, en                             El corpus Social TV fue proporcionado por
InterTASS-PE, el mejor sistema predice con                      la organización y se compone de un conjunto
mucha frecuencia la clase NEU lo que lleva a                    de tweets recolectados durante la final de la
una gran confusión en los casos N-NEU y P-                     Copa del Rey de fútbol de 2014. Está dividi-
NEU, además, pasa algo similar con las pre-                    do en 1773 tweets de entrenamiento y 1000
dicciones NONE, destacando la confusión en                     tweets de test. El conjunto de entrenamiento
los casos N-NONE y NEU-NONE.                                    está anotado con los aspectos y su correspon-
                                                                diente polaridad, utilizando en este caso sólo
3   Análisis de sentimientos a                                 tres valores: P, N y NEU. El conjunto de test
    nivel de aspecto                                            está anotado con los aspectos y se debe de-
Esta tarea consiste en asignar la polaridad                     terminar la polaridad de éstos.
a los aspectos que aparecen marcados en el
corpus. Una de las dificultades de la tarea                     3.2      Corpus STOMPOL
consiste en definir qué contexto se le asigna a                El corpus STOMPOL se compone de un con-
cada aspecto para poder establecer su polari-                   junto de tweets relacionados con una serie de
dad. Para un problema similar, detección de                    aspectos polı́ticos, como economı́a, sanidad,
la polaridad a nivel de entidad, en la edición                 etc. que están enmarcados en la campaña
del TASS 2013, propusimos una segmenta-                         polı́tica de las elecciones andaluzas de 2015.
ción de los tweets basada en un conjunto de                    Cada aspecto se relaciona con una o varias
heurı́sticas (Pla y Hurtado, 2013). Esta apro-                  entidades que se corresponden con uno de los
ximación también se utilizó para la tarea de                 principales partidos polı́ticos en España (PP,
detección de la tendencia polı́tica de los usua-               PSOE, IU, UPyD, Cs y Podemos). El corpus
rios de Twitter (Pla y Hurtado, 2014) y para                    consta de 1.284 tweets, y ha sido dividido en
este caso proporcionó buenos resultados. En                    un conjunto de entrenamiento (784 tweets) y
este trabajo se emplea la aproximación utili-                  un conjunto de evaluación (500 tweets).
zada en la edición del TASS 2017, que consis-
te en determinar el contexto de cada aspecto                    3.3      Aproximación y resultados
a través de una ventana fija definida a la iz-                 Los sistemas utilizados son iguales a los em-
quierda y derecha de la instancia del aspecto.                  pleados con los corpora InterTASS de la pri-
La longitud de la ventana óptima se ha deter-                  mera tarea. Se han utilizado modelos basados
minado experimentalmente sobre el conjunto                      en Deep Averaging Networks y Embeddings,
de entrenamiento mediante holdout.                              tanto para Social TV como para STOMPOL.
    La organización del TASS ha planteado                      Además, no hemos realizado ningún ajuste
dos subtareas. La primera utiliza el corpus                     en los hiperparámetros ni en la arquitectura,
                                                          41
                                José-Ángel González, Lluís-F. Hurtado y Ferran Pla


               N    NEU      NONE           P                                                 Acc    Macro-F1
   N          330    38        69           54                                       run-1   62.70    48.50
   NEU        65     18        36           45                   Social TV           run-2   62.50    47.60
   NONE       56     6        116           46                                       run-3   62.80    48.30
   P          56     17        53          228                                       run-1   63.30    52.60
                                                                 STOMPOL             run-2   61.30    49.00
Tabla 8: Matriz de confusión del sistema cr-                                        run-3   57.60    44.70
run2 en InterTASS-CR
               N    NEU      NONE           P                Tabla 10: Resultados oficiales del equipo
   N          223    126       82           41               ELiRF-UPV en las dos subtareas de la tarea
   NEU        64     105      117           81               2.
   NONE       32      27       56           44
   P          37      81       37          275                  Por último, los resultados obtenidos de
                                                             Accuracy y macro-F1 con los distintos siste-
Tabla 9: Matriz de confusión del sistema pe-                mas para cada subtarea se muestran en la
run2 en InterTASS-PE                                         Tabla 10.
                                                                Como se puede observar en la Tabla 10, en
únicamente se ha realizado una fase de ajus-                ambos casos mejoramos nuestros resultados
te para determinar la longitud óptima de la                 de la edición anterior, haciendo uso del sis-
ventana para cada aspecto.                                   tema DAN con WE. Es interesante ver cómo
    Con respecto a dicha longitud, en el corpus              transfer learning nos permite mejorar el sis-
Social TV, observamos que cuanto menor es                    tema en Social TV a nivel de Acc, sin em-
el tamaño de contexto, mejor se comportan                   bargo, en el caso de STOMPOL, el sistema
los sistemas. Ası́, la mejor longitud para este              inicializado con transfer learning se compor-
caso consiste en un único token a izquierda                 ta peor que el resto tanto a nivel de Acc como
y derecha del aspecto. En STOMPOL, por                       de macro-F1 .
el contrario, cuanto mayor es el tamaño de
contexto, mejores resultados obtienen los sis-               4     Conclusiones y trabajos futuros
temas. En este caso, el mejor contexto está
formado por 10 tokens a izquierda y derecha                  En este trabajo se ha presentado la participa-
del aspecto, lo que equivale a considerar todo               ción del equipo ELiRF-UPV en las tareas 1
el tweet para cada aspecto.                                  y 2 planteadas en TASS2018. Nuestro equipo
    En lo referente a los sistemas, los enviados             ha utilizado modelos Deep Learning, consi-
para la tarea Social TV son los siguientes:                  guiendo los mejores resultados en InterTASS-
                                                             ES. Sin embargo, la variabilidad lingüı́stica
    run1: La primera alternativa es el run1                  afecta a la elección de la arquitectura y sus
    de la Tarea 1, DAN con WE entrenado                      hiperparámetros, por lo que la aplicación del
    con el conjunto de entrenamiento de So-                  mismo sistema a las tareas InterTASS-CR e
    cial TV.                                                 InterTASS-PE sin realizar ningún ajuste no
                                                             nos ha permitido obtener resultados igual de
    run2: La segunda alternativa es el run1
                                                             competitivos que en InterTASS-ES.
    que el grupo envió a la edición pasada
                                                                 Como trabajo futuro, nuestro grupo está
    de Social TV. También se trata de DAN
                                                             interesado en seguir trabajando en la minerı́a
    con WE pero con hiperparámetros y ta-
                                                             de textos en redes sociales y especialmente
    maño de contexto diferentes.
                                                             en la detección de stance, afecto y emocio-
    run3: Para el último sistema utilizamos                 nes, ası́ como en la incorporación de recursos
    transfer learning desde el es-run1 de la                 lingüı́sticos a sistemas de Deep Learning.
    Tarea 1, cambiando la última capa del
    modelo y reentrenándolo con el corpus                   Agradecimientos
    Social TV.
                                                             Este trabajo ha sido parcialmente subven-
   Por otro lado, para la tarea con STOM-                    cionado por MINECO y fondos FEDER ba-
POL, los sistemas considerados son idénticos                jo los proyectos ASLP-MULAN (TIN2014-
a la anterior tarea, pero con un tamaño de                  54288-C4-3-R) y AMIC (TIN2017-85854-C4-
contexto diferente y entrenados con el corpus                2-R). El trabajo de José-Ángel González es
STOMPOL.                                                     también financiado por la Universidad Po-
                                                       42
              ELiRF-UPV en TASS 2018: Análisis de Sentimientos en Twitter basado en Aprendizaje Profundo


litécnica de Valencia bajo la beca PAID-01-                   Kim, Y. 2014. Convolutional neural net-
17.                                                              works for sentence classification. En Pro-
                                                                 ceedings of the 2014 Conference on Empi-
Bibliografı́a                                                    rical Methods in Natural Language Proces-
Buitinck, L., G. Louppe, M. Blondel, F. Pe-                      sing (EMNLP), páginas 1746–1751. Asso-
  dregosa, A. Mueller, O. Grisel, V. Nicu-                       ciation for Computational Linguistics.
  lae, P. Prettenhofer, A. Gramfort, J. Gro-                   L. Cruz, F., J. A. Troyano, B. Pontes, y F. J.
  bler, R. Layton, J. VanderPlas, A. Joly,                        Ortega. 2014. Building layered, multilin-
  B. Holt, y G. Varoquaux. 2013. API de-                          gual sentiment lexicons at synset and lem-
  sign for machine learning software: expe-                       ma levels. 41:5984–5994, 10.
  riences from the scikit-learn project. En
  ECML PKDD Workshop: Languages for                            Martı́nez-Cámara, E., Y. Almeida Cruz,
  Data Mining and Machine Learning, pági-                       M. C. Dı́az-Galiano, S. Estévez Velar-
  nas 108–122.                                                   de, M. A. Garcı́a-Cumbreras, M. Garcı́a-
                                                                 Vega, Y. Gutiérrez Vázquez, A. Monte-
Chollet, F. 2015. Keras. https://github.                         jo Ráez, A. Montoyo Guijarro, R. Muñoz
  com/fchollet/keras.                                            Guillena, A. Piad Morffis, y J. Villena-
Cortes, C. y V. Vapnik. 1995. Support-                           Román.      2018.   Overview of TASS
  vector networks.        Mach. Learn.,                          2018: Opinions, health and emotions. En
  20(3):273–297, Septiembre.                                     E. Martı́nez-Cámara Y. Almeida Cruz
                                                                 M. C. Dı́az-Galiano S. Estévez Velar-
Duchi, J., E. Hazan, y Y. Singer. 2011.                          de M. A. Garcı́a-Cumbreras M. Garcı́a-
  Adaptive subgradient methods for online                        Vega Y. Gutiérrez Vázquez A. Monte-
  learning and stochastic optimization. J.                       jo Ráez A. Montoyo Guijarro R. Muñoz
  Mach. Learn. Res., 12:2121–2159, Julio.                        Guillena A. Piad Morffis, y J. Villena-
Hurtado, L.-F., F. Pla, y J.-A. González.                       Román, editores, Proceedings of TASS
  2017. Elirf-upv en tass 2017: Análisis de                     2018: Workshop on Semantic Analysis
  sentimientos en twitter basado en aprendi-                     at SEPLN (TASS 2018), volumen 2172
  zaje profundo. En J. Villena Román M. A.                      de CEUR Workshop Proceedings, Sevilla,
  Garcı́a Cumbreras E. Martı́nez-Cámara                         Spain, September. CEUR-WS.
  M. C. Dı́az Galiano, y M. Garcı́a Ve-                        Martı́nez-Cámara, E., M. C. Dı́az-Galiano,
  ga, editores, In Proceedings of TASS                           M. A. Garcı́a-Cumbreras, M. Garcı́a-
  2017: Workshop on Sentiment Analysis                           Vega, y J. Villena-Román. 2017. Over-
  at SEPLN co-located with 33nd SEPLN                            view of TASS 2017.         En J. Ville-
  Conference (SEPLN 2017), volumen 1896                          na Román M. A. Garcı́a Cumbreras
  de CEUR Workshop Proceedings, Murcia,                          E. Martı́nez-Cámara M. C. Dı́az Galiano,
  Spain, September. CEUR-WS.                                     y M. Garcı́a Vega, editores, Proceedings
Ioffe, S. y C. Szegedy. 2015. Batch norma-                       of TASS 2017: Workshop on Semantic
    lization: Accelerating deep network trai-                    Analysis at SEPLN (TASS 2017), volu-
    ning by reducing internal covariate shift.                   men 1896 de CEUR Workshop Procee-
    En Proceedings of the 32Nd Internatio-                       dings, Murcia, Spain, September. CEUR-
    nal Conference on International Confe-                       WS.
    rence on Machine Learning - Volume 37,                     Mohammad, S. M. y P. D. Turney. 2013.
    ICML’15, páginas 448–456. JMLR.org.                         Crowdsourcing a Word-Emotion Associa-
Iyyer, M., V. Manjunatha, J. Boyd-Graber,                        tion Lexicon. Computational Intelligence,
   y H. Daumé III. 2015. Deep unordered                         29(3):436–465.
   composition rivals syntactic methods for                    Molina-González, M. D., E. Martı́nez-Cáma-
   text classification. En Proceedings of the                    ra, M.-T. Martı́n-Valdivia, y J. M. Perea-
   53rd Annual Meeting of the Association                        Ortega.    2013.     Semantic orientation
   for Computational Linguistics and the 7th                     for polarity classification in spanish re-
   International Joint Conference on Natural                     views. Expert Systems with Applications,
   Language Processing (Volume 1: Long Pa-                       40(18):7250 – 7257.
   pers), páginas 1681–1691. Association for
   Computational Linguistics.                                  O’Connor, B., M. Krieger, y D. Ahn. 2010.
                                                         43
                               José-Ángel González, Lluís-F. Hurtado y Ferran Pla


   Tweetmotif: Exploratory search and topic
   summarization for twitter.
Pla, F. y L.-F. Hurtado. 2013. Elirf-upv
   en tass-2013: Análisis de sentimientos en
   twitter. En XXIX Congreso de la Socie-
   dad Espanola para el Procesamiento del
   Lenguaje Natural (SEPLN 2013). TASS,
   páginas 220–227.
Pla, F. y L.-F. Hurtado. 2014. Political ten-
   dency identification in twitter using senti-
   ment analysis techniques. En Proceedings
   of COLING 2014, the 25th International
   Conference on Computational Linguistics:
   Technical Papers, páginas 183–192, Du-
   blin, Ireland, August. Dublin City Uni-
   versity and Association for Computational
   Linguistics.
Řehůřek, R. y P. Sojka. 2010. Softwa-
   re Framework for Topic Modelling with
   Large Corpora. En Proceedings of the
   LREC 2010 Workshop on New Challen-
   ges for NLP Frameworks, páginas 45–50,
   Valletta, Malta, Mayo. ELRA. http://
   is.muni.cz/publication/884893/en.
Srivastava, N., G. Hinton, A. Krizhevsky,
   I. Sutskever, y R. Salakhutdinov. 2014.
   Dropout: A simple way to prevent neu-
   ral networks from overfitting. J. Mach.
   Learn. Res., 15(1):1929–1958, Enero.
Urizar, X. S. y I. S. V. Roncal. 2013. Elhuyar
   at tass 2013. TASS.
Zhou, P., W. Shi, J. Tian, Z. Qi, B. Li,
  H. Hao, y B. Xu. 2016. Attention-based
  bidirectional long short-term memory net-
  works for relation classification. En Pro-
  ceedings of the 54th Annual Meeting of the
  Association for Computational Linguistics
  (Volume 2: Short Papers), páginas 207–
  212. Association for Computational Lin-
  guistics.


                                                      44