=Paper=
{{Paper
|id=Vol-1702/complete-proceedings
|storemode=property
|title=None
|pdfUrl=https://ceur-ws.org/Vol-1702/tass2016_proceedings.pdf
|volume=Vol-1702
}}
==None==
TASS 2016
CEUR Workshop Proceedings
ISSN: 1613-0073
Artículos
Overview of TASS 2016
Miguel Ángel García Cumbreras, Julio Villena Román, Eugenio Martínez Cámara, M. Carlos Díaz
Galiano, M. Teresa Martín Valdivia, L. Alfonso Ureña López ...................................................................13
Evaluación de Modelos de Representación del Texto con Vectores de Dimensión Reducida para Análisis
de Sentimiento
Edgar Casasola Murillo ..............................................................................................................................23
LABDA at the 2016 TASS challenge task: using word embeddings for the sentiment analysis task
Antonio Quirós, Isabel Segura-Bedmar, Paloma Martínez .........................................................................29
JACERONG at TASS 2016: An Ensemble Classifier for Sentiment Tweets at Global Level
Jhon Adrán Cerón-Guzmán .........................................................................................................................35
Participación de SINAI en TASS 2016
A. Montejo-Ráez, M. C. Díaz-Galiano .........................................................................................................41
ELiRF-UPV en TASS 2016: Análisis de Sentimientos en Twitter
Lluís-F. Hurtado, Ferran Pla ......................................................................................................................47
GTI at TASS 2016: Supervised Approach for Aspect Based Sentiment Analysis in Twitter
Tamara Álvarez-López, Milagros Fernández-Gavilanes, Silvia García-Méndez, Jonathan Juncal-
Martínez, Francisco Javier González-Castaño ...........................................................................................53
Publicado en http://ceur-ws.org/. CEUR-WS.org es una publicación en serie con ISSN reconocido ISSN 1613-0073
TASS 2016
CEUR Workshop Proceedings
ISSN: 1613-0073
Organización
Comité organizador
Julio Villena-Román Sngular julio.villena@sngular.team
Miguel Á. García Cumbreras Universidad de Jaén magc@ujaen.es
Eugenio Martínez Cámara TU Darmstadt camara@ukp.informatik.tu-darmstadt.de
Manuel C. Díaz Galiano Universidad de Jaén mcdiaz@ujaen.es
M. Teresa Martín Valdivia Universidad de Jaén maite@ujaen.es
L. Alfonso Ureña López Universidad de Jaén laurena@ujaen.es
ISSN: 1613-0073
Editado en: Universidad de Jaén
Año: 2016
Editores: Julio Villena-Román Sngular julio.villena@sngular.team
Miguel Á. García Cumbreras Universidad de Jaén magc@ujaen.es
Eugenio Martínez Cámara TU Darmstadt camara@ukp.informatik.tu-darmstadt.de
Manuel C. Díaz Galiano Universidad de Jaén mcdiaz@ujaen.es
M. Teresa Martín Valdivia Universidad de Jaén maite@ujaen.es
L. Alfonso Ureña López Universidad de Jaén laurena@ujaen.es
Publicado por: CEUR Workshop Proceedings
Comité de programa
Alexandra Balahur EC-Joint Research Centre (Italia)
José Carlos Cortizo Universidad Europea de Madrid (España)
Jose María Gómez Hidalgo Optenet (España)
José Carlos González-Cristobal Universidad Politécnica de Madrid (España)
Lluís F. Hurtado Universidad de Valencia (España)
Carlos A. Iglesias Fernández Universidad Politécnica de Madrid (España)
Zornitsa Kozareva Information Sciences Institute (EE.UU.)
Sara Lana Serrano Universidad Politécnica de Madrid (España)
Ruslan Mitkov University of Wolverhampton (Reino Unido)
Andrés Montoyo Universidad de Alicante (España)
Rafael Muñoz Universidad de Alicante (España)
Constantine Orasan University of Wolverhampton (Reino Unido)
Jose Manuel Perea Ortega Universidad de Extremadura (España)
Ferran Pla Santamaría Universidad de Valencia (España)
María Teresa Taboada Gómez Simon Fraser University (Canadá)
Mike Thelwall University of Wolverhampton (Reino Unido)
José Antonio Troyano Jiménez Universidad de Sevilla (España)
Publicado en http://ceur-ws.org/. CEUR-WS.org es una publicación en serie con ISSN reconocido ISSN 1613-0073
TASS 2016
Agradecimientos
La organización de TASS ha contado con la colaboración de investigadores que participan en
los siguiente proyectos de investigación:
• REDES (TIN2015-65136-C2-1-R)
Publicado en http://ceur-ws.org/. CEUR-WS.org es una publicación en serie con ISSN reconocido ISSN 1613-0073
TASS 2016
CEUR Workshop Proceedings
ISSN: 1613-0073
Preámbulo
Actualmente el español es la segunda lengua materna del mundo por número de hablantes tras el
chino mandarín, y la segunda lengua mundial en cómputo global de hablantes. Esa segunda
posición se traduce en un 6,7% de población mundial que se puede considerar hispanohablante.
La presencia del español en el mundo no tiene una correspondencia directa con el nivel de
investigación en el ámbito del Procesamiento del Lenguaje Natural, y más concretamente en la
tarea que nos atañe, el Análisis de Opiniones. Por consiguiente, el Taller de Análisis de
Sentimientos en la SEPLN (TASS) tiene como objetivo la promoción de la investigación del
tratamiento del español en sistemas de Análisis de Opiniones, mediante la evaluación
competitiva de sistemas de procesamiento de opiniones.
En la edición de 2016 han participado 7 equipos, de los que 6 han enviado un artículo
describiendo el sistema que han presentado, habiendo sido aceptados los 6 artículos tras ser
revisados por el comité organizador. La revisión se llevó a cabo con la intención de publicar
sólo aquellos que tuvieran un mínimo de calidad científica.
La edición de 2016 tendrá lugar en el seno del XXXII Congreso Internacional de la Sociedad
Española para el Procesamiento del Lenguaje Natural, que se celebrará el próximo mes de
septiembre en Salamanca (España) dentro del V Congreso Español de Informática (CEDI 2016).
Septiembre de 2016
Los editores
Publicado en http://ceur-ws.org/. CEUR-WS.org es una publicación en serie con ISSN reconocido ISSN 1613-0073
TASS 2016
CEUR Workshop Proceedings
ISSN: 1613-0073
Preamble
Currently Spanish is the second native language in the world by number of speakers after the
Mandarin Chinese. This second position means that the 6.7% of the world population is
Spanish-speaking. The presence of the Spanish language in the world has not a direct
correspondence with the number of research works related to the treatment of Spanish language
in the context of Natural Language Processing, and specially in the field of Sentiment Analysis.
Therefore, the Workshop on Sentiment Analysis at SEPLN (TASS) aims to promote the
research of the treatment of texts written in Spanish in Sentiment Analysis systems by means of
the competitive assessment of opinion processing systems.
Seven teams have participated in the 2016 edition of the workshop. Six of the seven teams have
submitted a description paper of their systems. After a review process, the organizing committee
has accepted the 6 papers, because all of them reached an acceptable scientific quality level.
The 2016 edition will be held at the 32nd International Conference of the Spanish Society for
Natural Language Processing (SEPLN 2016), which will take place at Salamanca in September
framed by the 5th Spanish Conference of Computer Science (CEDI 2016).
September 2016
The editors
Publicado en http://ceur-ws.org/. CEUR-WS.org es una publicación en serie con ISSN reconocido ISSN 1613-0073
TASS 2016
CEUR Workshop Proceedings
ISSN: 1613-0073
Artículos
Overview of TASS 2016
Miguel Ángel García Cumbreras, Julio Villena Román, Eugenio Martínez Cámara, M. Carlos Díaz
Galiano, M. Teresa Martín Valdivia, L. Alfonso Ureña López ...................................................................13
Evaluación de Modelos de Representación del Texto con Vectores de Dimensión Reducida para Análisis
de Sentimiento
Edgar Casasola Murillo ..............................................................................................................................23
LABDA at the 2016 TASS challenge task: using word embeddings for the sentiment analysis task
Antonio Quirós, Isabel Segura-Bedmar, Paloma Martínez .........................................................................29
JACERONG at TASS 2016: An Ensemble Classifier for Sentiment Tweets at Global Level
Jhon Adrán Cerón-Guzmán .........................................................................................................................35
Participación de SINAI en TASS 2016
A. Montejo-Ráez, M. C. Díaz-Galiano .........................................................................................................41
ELiRF-UPV en TASS 2016: Análisis de Sentimientos en Twitter
Lluís-F. Hurtado, Ferran Pla ......................................................................................................................47
GTI at TASS 2016: Supervised Approach for Aspect Based Sentiment Analysis in Twitter
Tamara Álvarez-López, Milagros Fernández-Gavilanes, Silvia García-Méndez, Jonathan Juncal-
Martínez, Francisco Javier González-Castaño ...........................................................................................53
Publicado en http://ceur-ws.org/. CEUR-WS.org es una publicación en serie con ISSN reconocido ISSN 1613-0073
Artículos
TASS 2016: Workshop on Sentiment Analysis at SEPLN, septiembre 2016, pág. 13-21
Overview of TASS 2016
Resumen de TASS 2016
Miguel Ángel García Cumbreras1, Julio Villena Román2, Eugenio Martínez Cámara1,
Manuel Carlos Díaz Galiano1, M. Teresa Martín Valdivia1, L. Alfonso Ureña López1
1
Universidad de Jaén
23071 Jaén, Spain
2
Sngular
28034 Madrid, Spain
1
{magc, emcamara, mcdiaz, laurena, maite}@ujaen.es 2{julio.villena}@sngular.team
Resumen: Este artículo describe la quinta edición del taller de evaluación experimental TASS
2016, enmarcada dentro del Congreso Internacional SEPLN 2016. El principal objetivo de
TASS es promover la investigación y el desarrollo de nuevos algoritmos, recursos y técnicas
para el análisis de sentimientos en medios sociales (concretamente en Twitter), aplicado al
idioma español. Este artículo describe las tareas propuestas en TASS 2016, así como el
contenido de los corpus utilizados, los participantes en las distintas tareas, los resultados
generales obtenidos y el análisis de estos resultados.
Palabras clave: TASS 2016, análisis de opiniones, medios sociales
Abstract: This paper describes TASS 2016, the fifth edition of the Workshop on Sentiment
Analysis at SEPLN. The main aim is the promotion of the research and the development of new
algorithms, resources and techniques on the field of sentiment analysis in social media
(specifically Twitter) focused on the Spanish language. This paper presents the TASS 2016
proposed tasks, the description of the corpora used, the participant groups, the results and
analysis of them.
Keywords: TASS 2016, sentiment analysis, social media.
Although SA is not a new task, it is still
1 Introduction challenging, because the state of the art has not
yet resolved some problems related to
TASS is an experimental evaluation workshop,
multilingualism, domain adaptation, text genre
a satellite event of the annual SEPLN
adaptation and polarity classification at fine
Conference, with the aim to promote the
grained level. Polarity classification has usually
research on Sentiment Analysis in social media
been tackled following two main approaches.
focused on the Spanish language. The fifth
The first one applies machine learning
edition will be held on September 13th, 2016 at
algorithms in order to train a polarity classifier
the University of Salamanca, Spain.
using a labelled corpus (Pang et al. 2002). This
Sentiment Analysis (SA) is traditionally
approach is also known as the supervised
defined as the computational treatment of
approach. The second one is known as semantic
opinion, sentiment and subjectivity in texts
orientation, or the unsupervised approach, and
(Pang & Lee, 2008). However, Cambria and
it integrates linguistic resources in a model in
Hussain (2012) offer a more updated definition:
order to identify the valence of the opinions
Computational techniques for the extraction,
(Turney 2002).
classification, understanding and evaluation of
The aim of TASS is to provide a competitive
opinions and comments published on the
forum where the newest research works in the
Internet and other kind of user generated
field of SA in social media, specifically focused
contents. It is a hard task because even humans
on Spanish tweets, are described and discussed
often disagree on the polarity of a given text.
by scientific and business communities.
And it is a harder task when the text has only
The rest of the paper is organized as follows.
140 characters (Twitter messages or tweets).
Section 2 describes the different corpus
ISSN 1613-0073
M. Á. García Cumbreras, J. Villena Román, E. Martínez Cámara, M. C. Díaz Galiano, M. T. Martín Valdivia, L. A. Ureña López
provided to participants. Section 3 shows the Obviously, it was not allowed to use the test
different tasks of TASS 2016. Section 4 data from previous years to train the systems.
describes the participants and the overall results Each tweet was tagged with its global
are presented in Section 5. Finally, the last polarity (positive, negative or neutral
section shows some conclusions and future sentiment) or no sentiment at all. A set of 6
directions. labels has been defined: strong positive (P+),
positive (P), neutral (NEU), negative (N),
2 Corpus strong negative (N+) and one additional no
sentiment tag (NONE).
TASS 2016 experiments are based on two
In addition, there is also an indication of the
corpora, specifically built for the different
level of agreement or disagreement of the
editions of the workshop.
expressed sentiment within the content, with
The two corpora will be made freely
two possible values: AGREEMENT and
available to the community after the workshop.
DISAGREEMENT. This is especially useful to
Please send an email to
make out whether a neutral sentiment comes
tass@sngularmeaning.team filling in the TASS
from neutral keywords or else the text contains
Corpus License agreement with your email,
positive and negative sentiments at the same
affiliation (institution, company or any kind of
time.
organization) and a brief description of your
Moreover, the polarity values related to the
research objectives, and you will be given a
entities that are mentioned in the text are also
password to download the files in the password
included for those cases when applicable. These
protected area. The only requirement is to
values are similarly tagged with 6 possible
include a citation to a relevant paper and/or the
values and include the level of agreement as
TASS website.
related to each entity.
2.1 General corpus This corpus is based on a selection of a set
of topics. Thematic areas such as “política”
The General Corpus contains over 68.000
(“politics”), “fútbol” (“soccer”), “literatura”
tweets, written in Spanish, about 150 well-
(“literature”) or “entretenimiento”
known personalities and celebrities of the world
(“entertainment”). Each tweet in the training
of politics, economy, communication, mass
and test set has been assigned to one or several
media and culture, between November 2011
of these topics (most messages are associated to
and March 2012. Although the context of
just one topic, due to the short length of the
extraction has a Spanish-focused bias, the
text).
diverse nationality of the authors, including
The annotation has been semi-automatically
people from Spain, Mexico, Colombia, Puerto
done: a baseline machine learning model is first
Rico, USA and many other countries, makes the
run and then all tags are checked by human
corpus reach a global coverage in the Spanish-
experts. In the case of the polarity at entity
speaking world.
level, due to the high volume of data to check,
Each tweet includes its ID (tweetid), the
the human annotation has only been done for
creation date (date) and the user ID (user). Due
the training set.
to restrictions in the Twitter API Terms of
Table 1 shows a summary of the training
Service (https://dev.twitter.com/terms/api-
and test corpora provided to participants.
terms), it is forbidden to redistribute a corpus
that includes text contents or information about Attribute Value
users. However, it is valid if those fields are Tweets 68.017
removed and instead IDs (including Tweet IDs Tweets (test) 60.798 (89%)
and user IDs) are provided. The actual message Tweets (test) 7.219 (11%)
content can be easily obtained by making Topics 10
queries to the Twitter API using the tweetid. Users 154
The general corpus has been divided into Date start (train) 2011-12-02
training set (about 10%) and test set (90%). The Date end (train) 2012-04-10
training set was released, so the participants Date start (test) 2011-12-02
could train and validate their models. The test Date end (test) 2012-04-10
corpus was provided without any tagging and
has been used to evaluate the results. Table 1: Corpus statistics
14
Overview of TASS 2016
Users were journalists (periodistas), gathered from 23rd to 24th of April 2015, and
politicians (políticos) or celebrities (famosos). are related to one of the following political
The only language involved was Spanish (es). aspects that appear in political campaigns:
The list of topics that have been selected is • Economics (Economía): taxes,
the following: infrastructure, markets, labour policy...
• Politics (política) • Health System (Sanidad): hospitals,
• Entertainment (entretenimiento) public/private health system, drugs,
• Economy (economía) doctors...
• Music (música) • Education (Educación): state school, private
• Soccer (fútbol) school, scholarships...
• Films (películas) • Political party (Propio_partido): anything
• Technology (tecnología) good (speeches, electoral programme...) or
• Sports (deportes) bad (corruption, criticism) related to the
• Literature (literatura) entity
• Other (otros) • Other aspects (Otros_aspectos): electoral
The corpus is encoded in XML. Figure 1 system, environmental policy...
shows the information of two tweets. The first Each aspect is related to one or several
tweet is only annotated with the polarity at entities that correspond to one of the main
tweet level because there is not any entity in the political parties in Spain, which are:
text. However, the second one is annotated with • Partido_Popular (PP)
the global polarity of the message and the • Partido_Socialista_Obrero_Español
polarity associated to each of the entities that (PSOE)
appear in the text (UPyD and Foro Asturias). • Izquierda_Unida (IU)
• Podemos
• Ciudadanos (C’s)
• Unión_Progreso_y_Democracia (UPyD)
Each tweet in the corpus has been manually
annotated by two annotators, and a third one in
case of disagreement, with the sentiment
polarity at aspect level. Sentiment polarity has
been tagged from the point of view of the
person who writes the tweet, using 3 levels: P,
NEU and N. Again, no difference is made
between no sentiment and a neutral sentiment
(neither positive nor negative). Each political
aspect is linked to its correspondent political
party and its polarity.
Figure 2 shows the information of two
sample tweets.
Figure 1: Sample tweets (General corpus)
Figure 2: Sample tweets (STOMPOL corpus)
2.2 STOMPOL corpus
STOMPOL (corpus of Spanish Tweets for The number of tweets per each entity are
Opinion Mining at aspect level about POLitics) shown in Table 2.
is a corpus of Spanish tweets prepared for the
research on the challenging task of opinion
mining at aspect level. The tweets were
15
M. Á. García Cumbreras, J. Villena Román, E. Martínez Cámara, M. C. Díaz Galiano, M. T. Martín Valdivia, L. A. Ureña López
Entity Train Test N, N+, NONE) and another based on just 4 labels
PP 205 125 (P, N, NEU, NONE).
PSOE 136 70 Participants are expected to submit (up to 3)
C’s 119 87 experiments for the 6-labels evaluation, and
Podemos 98 80 they are also allowed to submit (up to 3)
IU 111 43
specific experiments for the 4-labels scenario.
UPyD 97 124
Results must be submitted in a plain text file
Total 766 529
with the following format:
Table 2: Number of tweets per entity and per tweetid \t polarity
corpus subset
where polarity can be:
• P+, P, NEU, N, N+ and NONE for the 6-labels
3 Description of tasks case
Since the first edition of TASS, a new task and • P, NEU, N and NONE for the 4-labels case.
a new corpus have been published. However,
one of the aims of TASS is the evaluation of the The same test corpus of previous years was
progress of the research on SA. Thus, the used for the evaluation in order to develop a
edition of 2016 was focused on the analysis and comparison among the systems. The accuracy is
the comparison of the systems with the one of the measures used to evaluate the
submissions of previous editions. systems, however due to the fact that the
The edition of 2016 was focused on two training corpus is not totally balanced the
tasks: polarity classification at tweet level and systems were also assessed by the macro-
polarity classification at entity level. The averaged precision, macro-averaged recall and
polarity classification task has been proposed macro-averaged F1-measure.
with the same corpus since the first edition of 3.2 Task 2: Aspect-based sentiment
TASS, but the polarity classification at aspect analysis
level has been proposed with a different corpus A corpus with the entities and the aspect
each edition. In the edition of 2016 the identified was provided to the participants, so
classification at aspect level uses the the goal of the systems is the inference of the
STOMPOL corpus, which was published the polarity at the aspect-level. As in 2015,
first time in the edition of 2015. STOMPOL corpus was the corpus used in this
Participants are expected to submit up to 3 task. STOMPOL was divided in training and
results of different experiments for one or both test set, the first one for the development and
of these tasks, in the appropriate format validation of the systems, and the second for
described below. evaluation.
Along with the submission of experiments, Participants are expected to submit up to 3
participants have been invited to submit a paper experiments for each corpus, each in a plain
to the workshop in order to describe their text file with the following format:
experiments and discussing the results with the
audience in a regular workshop session. tweetid \t aspect-entity \t polarity
The two proposed tasks are described next.
Allowed polarity values are: P, N and NEU.
3.1 Task 1: Sentiment Analysis at For the evaluation, a single label combining
Global Level “aspect-polarity” has been considered. As in the
first task, accuracy, macro-averaged precision,
This task consists on performing an automatic
macro-averaged recall and macro-averaged F1-
polarity classification to determine the global
measure have been calculated for the global
polarity of each message in the test set of the
result.
General Corpus. The training set of the corpus
was provided to the participants with the aim
they could train and validate their models with
4 Participants and Results
it. There were two different evaluations: one This year 7 (7 last year) groups submitted their
based on 6 different polarity labels (P+, P, NEU, systems The list of active participant groups is
16
Overview of TASS 2016
shown in Table 3, including the tasks in which measure have been used to evaluate each
they have participated. individual label and ranking the systems.
Six of the seven participant groups sent a
report describing their experiments and results Run Id M-F1
achieved. Papers were reviewed and included in ELiRF-UPV_1 0.518
the workshop proceedings. References are listed jacerong_2 0.504
in Table 4.
jacerong_3 0.503
jacerong_1 0.499
Group 1 2 ELiRF-UPV_2 0.496
jacerong X INGEOTEC 0.464
ELiRF-UPV X X
LABDA_1 0.429
LABDA X
LABDA_2 0.429
INGEOTEC X
GASUCR X LABDA_3 0.418
GTI X GASURC_3 0.254
SINAI_w2v X GASURC_1 0.232
Total 6 1
GASURC_2 0.227
Table 3: Participant groups
Table 5: Results for Task 1, 5 levels
Group Report
ELiRF-UPV en TASS 2016: In order to perform a more in-depth
ELiRF Análisis de Sentimientos en evaluation, results are calculated considering
Twitter the classification only in 3 levels (POS, NEU,
GTI at TASS 2016:
NEG) and no sentiment (NONE) merging P and P+
Supervised Approach for
GTI in only one category, as well as N and N+ in
Aspect Based Sentiment
Analysis in Twitter another one. The results reached by the
JACERONG at TASS 2016: submitted systems are shown in Table 6.
An Ensemble Classifier for
jacerong Sentiment Analysis of Spanish Run Id M-F1
Tweets at Global Level jacerong_3 0.568
LABDA at the 2016 TASS jacerong_2 0.567
challenge task: using word
LABDA embedding for the sentiment jacerong_1 0.564
analysis task ELiRF-UPV_1 0.549
Participación de SINAI en ELiRF-UPV_2 0.548
SINAI
TASS 2016
INGEOTEC 0.524
LABDA_3 0.511
Table 4: Participant reports
LABDA_2 0.508
5 Results LABDA_1 0.508
This section will be focused on the SINAI_w2v_1 0.504
description and the analysis of the results and SINAI_w2v_3 0.486
the systems submitted by the participants. SINAI_w2v_4 0.469
SINAI_w2v_2 0.440
5.1 Task 1: Sentiment Analysis at GASURC_1 0.250
Global Level
GASURC_2 0.152
Submitted runs and results for Task 1,
evaluation based on 5 polarity levels with the
whole General test Corpus are shown in Table Table 6: Results for Task 1, 3 levels
5. Accuracy, macro-averaged precision, macro-
averaged recall and macro-averaged F1-
17
M. Á. García Cumbreras, J. Villena Román, E. Martínez Cámara, M. C. Díaz Galiano, M. T. Martín Valdivia, L. A. Ureña López
5.2 Task 2: Aspect-based Sentiment method based on lexical markers. The polarity
Analysis classification system is a SVM classifier that
uses different type of features in order to
Submitted runs and results for Task 2, with the represent the contexts of the entities and the
STOMPOL corpus, are shown in Table 7. aspects.
Accuracy, macro-averaged precision, macro- Montejo-Ráez and Díaz-Galiano (2016)
averaged recall and macro-averaged F1- introduce a system based on a supervised
measure have been used to evaluate each learning algorithm over vectors resulting from a
individual label and ranking the systems. weighted vector. This vector is computed using
a Word2Vec algorithm. This method, which is
Run Id M-F1
inspired from neural-network language
ELiRF-UPV_1 0.526 modelling, was executed with a collection of
GTI 0.463 tweets written in Spanish and the Spanish
Wikipedia in order to generate a set of word
Table 7: Results for Task 2 embeddings for the representation of the words
of the General Corpus of TASS as dense
vectors. The creation of the collection of tweets
5.3 Description of the systems written in Spanish followed a distant
The systems submitted in the edition of 2016 supervision approach by means the assumption
represent the next step of the ones submitted in that tweets with happy and sad emoticons
the previous edition. The systems may be express emotions or opinions. Their
cluster in two groups, those ones that rely on experiments show massive data from Twitter
the classification power of the ensemble of can lead to a slight improvement in
several base classifiers, and those systems that classification accuracy.
change the use traditional Bag-of-Words model The system presented by the team LABDA
for the use of vectors of word embeddings in (Quirós, Segura-Bedmar and Paloma Martínez,
order to represent the meaning of each word. In 2016) is similar to the one submitted by SINAI
the subsequent paragraphs the main features of (Montejo-Ráez and Díaz-Galiano, 2016)
the systems submitted are going to be depicted. because it also used word embeddings as
Hurtado and Pla (2016) describe the schema of representation of the meaning of the
participation of the team ELiRF-UPV in the words of the tweets. Quirós, Segura-Bedmar
two tasks of TASS 2016. The only difference and Paloma Martínez (2016) assessed the
between the systems submitted for the two tasks performance of the SVM and Logistic
is the fact that the one focused on the second Regression as classifiers.
task has a module for the identification of the Casasola Murillo and Marín Reventós
context of each of the entities and aspects (2016) submitted an unsupervised system based
annotated on the tweets. The polarity on the system described in Turney (2002), but
classification system relies on the ensemble of with a specific adaptation to the classification
192 configurations of a SVM classifiers. For of tweets written in Spanish.
the combination of the set of classifiers they
evaluate the performance of an approach based 5.4 Analysis
on voting and other on stacking. In Table 5 and Table 6 are shown the results of
The system depicted in (Cerón-Guzmán, each system and they are ranked by the F1-
2016) is also based on an approach of ensemble score reached, so it is not hard to know what is
classifiers. In this case the base classifiers used the best system in the edition of 2016.
a classifier based on logistic regression and they On the other hand, how many tweets were
are combined by voting. rightly classified by the submitted systems? Is
Alvarez et al. (2016) exposed the there a set of tweets that were not rightly
participation of the team GTI on the task 2. The classified by any system? What are the most
system is similar to the system of the team difficult tweets to classify? These questions are
ELiRF-UPV in the sense that it is composed by going to be answered in the following
two layers: context identification and polarity paragraphs?
classification. Regarding the identification of Table 8 shows the rate of tweets that are
the context, the authors design a heuristic rightly classified by a number of systems. There
18
Overview of TASS 2016
are about a 6% of tweets whose polarity is not Id: 177439342497767424
inferred by any of the submitted systems. In
other words, the submitted systems in the hahahahahaha “@Absolutexe: ¿Le
edition of 2016 are able to classify about the han cambiado ya el nombre a la
94% of the test set. So, what is the main Junta de Andalucía por la Banda de
features of that 6% of tweets that any system Andalucía o aún no?”
inferred their polarity?
hahahahahaha “@Absolutexe: Has the
Number of systems Rate of tweets Junta de Andalucía renamed Gang of
0 0.056% Andalucía or not yet?”
1 0.065%
2 0.063% Polarity: N+
3 0.067%
4 0.059%
5 0.061% Figure 4: Tweet not rightly classified by any
6 0.074% system
7 0.078%
8 0.081%
9 0.112% Id: 177439342497767424
10 0.122%
11 0.082% Rubalcaba pide a Rajoy que
12 0.062%
presente ya los Presupuestos y dice
13 0.011%
que no lo hace porque espera a las
elecciones andaluzas
Table 8: Rate of tweets rightly classified (6
classes) by a number of systems Rubalcaba requires Rajoy to submit the
Budget and says that he didn’t because
he is waiting the results of the elections
Id: 171304000392663040 in Andalucia
Sacarle 17 puntos en la final de Polarity: NONE
Copa al Barça CB en el Palau
Sant Jordi es una pasada.
Figure 5: Tweet not rightly classified by any
Beating Barça by 17 points in the system
Copa is amazing
Polarity: P+ All the systems submitted are based on
linear classifiers that do not take into account
the context of each word, which means a big
Figure 3: Tweet not rightly classified by any drawback for the understanding the meaning of
system a span of text.
The tweets of the Figures 3, 4 and 5 show
that opinions and emotions are not only
Figures Figure 3,Figure 4Figure 5 are three expressed by lexical markers, so the future
examples of tweets that were not rightly participants should take into account the
classified by any system. The common feature challenging task of implicit opinion analysis,
of the three tweets is that they do not have any irony and sarcasm detection. These new
lexical marker that express emotion or opinion. problems may be framed on the semantic level
Moreover, the tweet of the Figure 4 is sarcastic, of Natural Language Processing and should be
which means an additional challenging for SA tackled by the research community in order to
because requires a deep understanding of the go a step further in the understanding of the
language. subjective information, which is continuously
published on the Internet.
19
M. Á. García Cumbreras, J. Villena Román, E. Martínez Cámara, M. C. Díaz Galiano, M. T. Martín Valdivia, L. A. Ureña López
6 Conclusions and Future Work Cerón-Guzmán, J. A. 2016. JACERONG at
TASS 2016: An Ensemble Classifier for
TASS was the first workshop about SA focused
Sentiment Analysis of Spanish Tweets at
on the processing of texts written in Spanish. In
Global Level. In Proceedings of TASS 2016:
the three first editions of TASS, the research
Workshop on Sentiment Analysis at SEPLN
community were mainly formed by Spanish
co-located with the 32nd SEPLN
researchers, however since the last edition, the
Conference (SEPLN 2016), Salamanca,
researchers that come from South America is
September
making bigger, so it is an evidence that the
research community of Sentiment Analysis in Casasola Murillo, E. and Gabriela M. R. 2016.
Spanish is not only located in Spain and is Evaluación de Modelos de Representación
formed by the Spanish speaking countries. del Texto con Vectores de Dimensión
Anyway, the developed corpus and gold Reducida para Análisis de Sentimiento. In
standards, and the reports from participants will Proceedings of TASS 2016: Workshop on
for sure be helpful for knowing the state of the Sentiment Analysis at SEPLN co-located
art in SA in Spanish. with the 32nd SEPLN Conference (SEPLN
The future work will be mainly focused on 2016), Salamanca, September
the definition of a new General Corpus because Hurtado, Ll. and Ferran P. 2016. ELiRF-UPV
of the following reasons: en TASS 2016: Análisis de Sentimientos en
1. The language used on Twitter changes Twitter. In Proceedings of TASS 2016:
faster than the language used in traditional Workshop on Sentiment Analysis at SEPLN
genres of texts, so the update of the corpus co-located with the 32nd SEPLN
is required in order to cover a real used of Conference (SEPLN 2016), Salamanca,
the language on Twitter. September
2. After several editions of the workshop, we
realize that the quality of the annotation is Montejo-Ráez, A. and Díaz-Galiano, M. C.
not extremely good, so it is required to 2016. Participación de SINAI en TASS
define a new corpus with a high quality 2016. In Proceedings of TASS 2016:
annotation in order to provide a real gold Workshop on Sentiment Analysis at SEPLN
standard for Spanish SA on Twitter. co-located with the 32nd SEPLN
3. The research community deeply know the Conference (SEPLN 2016), Salamanca,
General Corpus of TASS and it wants a September
new challenge. Pang, B., Lillian Lee and Shivakumar
A significant amount of new tasks is Vaithyanathan. 2002. Thumbs up?:
currently being defined in Natural Language Sentiment classification using machine
Processing, so some of them, such as stance learning techniques. In Proceedings of the
classification, will be studied to be proposal for ACL-02 Conference on Empirical Methods
the next edition of TASS. in Natural Language Processing - Volume
10, EMNLP ’02, páginas 79–86. Association
for Computational Linguistics, Stroudsburg,
Acknowledgements PA, USA. doi:10.3115/1118693.1118704.
This work has been partially supported by a Pang, B. and Lillian Lee (2008). Opinion
grant from the Fondo Europeo of Desarrollo mining and sentiment analysis. Foundations
Regional (FEDER) and REDES project and Trends in Information Retrieval, 2(1-
(TIN2015-65136-C2-1-R) from the Spanish 2):1–135. ISSN 1554-0669.
Government. doi:10.1561/1500000011.
Quirós, A., Isabel S. B. and Paloma M. 2016.
References LABDA at the 2016 TASS challenge task:
Cambria, E. and Amir Hussain, A. 2012. Sentic using word embeddings for the sentiment
Computing. Techniques, Tools and analysis task. In Proceedings of TASS 2016:
Applications. Springer Briefs in Cognitive Workshop on Sentiment Analysis at SEPLN
Computation, volume 2. Springer co-located with the 32nd SEPLN
Netherlands. ISBN 978-94-007-5069-2. Conference (SEPLN 2016), Salamanca,
doi:10.1007/978-94-007-5070-8. September
20
Overview of TASS 2016
Turney, P. D. 2002. Thumbs up or thumbs
down?: Semantic orientation applied to
unsupervised classification of reviews. In
Proceedings of the 40th Annual Meeting on
Association for Computational Linguistics,
ACL ’02, pp: 417–424. Association for
Computational Linguistics, Stroudsburg,
PA, USA. doi:10.3115/1073083.1073153.
Villena-Román, J., Sara, L. S., Eugenio M. C.,
and José Carlos G. C. 2013. TASS -
Workshop on Sentiment Analysis at SEPLN.
Revista de Procesamiento del Lenguaje
Natural, 50, pp 37-44.
Villena-Román, J., Janine G. M., Sara L. S. and
José Carlos G. C. 2014. TASS 2013 - A
Second Step in Reputation Analysis in
Spanish. Revista de Procesamiento del
Lenguaje Natural, 52, pp 37-44.
21
TASS 2016: Workshop on Sentiment Analysis at SEPLN, septiembre 2016, pág. 23-28
Evaluación de Modelos de Representación del Texto con
Vectores de Dimensión Reducida para Análisis de Sentimiento∗
Evaluation of Reduced Dimension Vector Text Representation Models for
Sentiment Analysis
Edgar Casasola Murillo Gabriela Marı́n Raventós
Universidad de Costa Rica Universidad de Costa Rica
San José, Costa Rica San José, Costa Rica
edgar.casasola@ucr.ac.cr gabriela.marin@ucr.ac.cr
Resumen: Se describe el sistema para análisis de sentimiento desarrollado por el
Grupo de Análisis de Sentimiento GAS-UCR de la Universidad de Costa Rica para
la tarea 1 del workshop TASS 2016. El sistema propuesto está basado en el uso
de vectores de caracterı́sticas de baja dimensión para representación del texto. Se
propone un modelo simple fundamentado en la normalización de texto con identi-
ficación de marcadores de énfasis, el uso de modelos de lenguaje para representar
las caracterı́sticas locales y globales del texto, y caracterı́sticas como emoticones y
partı́culas de negación. Los primeros experimentos muestran las mejoras que se ob-
tienen en la precisión al identificar la polaridad de textos completos conforme se van
incorporando las caracterı́sticas aquı́ mencionadas.
Palabras clave: análisis de sentimiento, clasificación de textos por polaridad, textos
cortos
Abstract: The Sentiment Analisys System developed by GAS-UCR team of the
University of Costa Rica for task 1 of TASS 2016 workshop is presented. Prelimi-
nar evaluation results of the proposed Sentiment Analysis System are presented.
The system is based on low dimension feature vectors for text representation. The
proposed model is based on text normalization with emphasis mark identification,
the use of local and global language models, and other features like emoticons an
negation terms. Initial experimentation shows that the introduction of the selected
features have a positive impact on precision at the polarity classification task.
Keywords: sentiment analysis, polarity based text clasification, short texts.
1 Introducción ciales marcadores de énfasis presentes en el
Este trabajo tiene como propósito describir mismo, la creación de vectores de caracterı́sti-
el sistema utilizado por el grupo de investi- cas de dimensión reducida para disminuir el
gación en análisis de sentimiento de la Uni- efecto de la dispersión de los datos, y la ex-
versidad de Costa Rica en su participación ploración del impacto del uso de diccionarios
en el taller TASS2016 (Garcı́a-Cumbreras et de polaridad que se generan mediante la uti-
al., 2016). El enfoque del trabajo del grupo lización de diferentes modelos de representa-
ha sido el estudio de los factores que van inci- ción del lenguaje asociados tanto al contexto
diendo en las mejoras en la precisión obtenida local como global de los datos. Para esto es-
al llevar a cabo la clasificación de la polaridad tamos utilizando una adaptación propia del
de tweets en idioma español. Nuestro sistema algoritmo de Turney (Turney, 2002)sobre un
se fundamenta en tres elementos básicos que corpus de 5 millones de tweets en español.
son: la normalización del texto en la etapa Estos modelos se almacenan en forma de dic-
de preprocesamiento identificando los poten- cionarios con polaridad para su posterior re-
utilización. Nos interesa particularmente la
∗
Este trabajo se ha llevado a cabo gracias al apo- investigación en este campo dado que si bien
yo económico de la Universidad de Costa Rica y el desde el año 2013 se identificó una brecha im-
Gobierno de la República de Costa Rica a través del portante entre la cantidad de investigación y
MICITT. Se agradece a los asistentes del grupo de
investigación GAS-UCR por su trabajo tecnologı́a del lenguaje desarrollada para el
ISSN 1613-0073
E. Casasola Murillo, G. Marín Raventós
idioma inglés y el español (Cambria et al., buscan la representación vectorial de las pala-
2013) (Melero et al., 2012), de la misma for- bras en el espacio continuo como es el caso del
ma debemos tener presente que no necesaria- uso de Word2Vect (Dı́az-Galiano y Montejo-
mente las soluciones para español peninsular Ráez, 2015).
van a tener los mismos resultados al aplicarse
a variantes de español americano, por lo que 3 Descripción del sistema
los recursos y métodos que utilizamos tienen Nuestro sistema se fundamenta en cuatro
la intensión de aportar a la investigación en elementos que consideramos importantes de
español y colaborar para su posterior aplica- mencionar. Primero nos referiremos a la for-
ción en otros contextos de habla hispana. ma en que construimos nuestro diccionario
con la polaridad de los términos y las razones
2 Antecedentes para haber construido uno propio. Posterior-
Entre los resultados obtenidos con sistemas mente nos referimos a nuestro proceso de pre-
con enfoques basados en aprendizaje máqui- procesamiento e identificación de potenciales
na, el uso de máquina de soporte vecto- marcadores de énfasis durante esta etapa ini-
rial (MSV) ha ofrecido buenos resultados cial. En la siguiente subsección explicamos la
tanto en inglés (Kiritchenko, Zhu, y Moham- forma en que construimos vectores de baja di-
mad, 2014) y (Batista y Ribeiro, 2013) como mensión con información y hacemos uso del
en español donde 9 de los 14 sistemas para el diccionario. Finalmente se menciona la forma
español presentados en TASS2015 (Villena- en que se pretende capturar en los vectores de
Román et al., 2015) hacı́an uso de este ti- caracterı́sticas aspectos locales con respecto a
po de clasificador. Sin embargo, la dependen- los datos de entrenamiento, y globales, a par-
cia del lenguaje hace que estos clasificadores tir de modelos de representación del lenguaje
dependan de los vectores de caracterı́sticas general.
con los que son representados los comenta-
rios de texto. Esta extracción de caracterı́sti- 3.1 Creación del diccionario
cas ha sido el foco de atención de múltiples polarizado
trabajos como (Cabanlit y Junshean Espino- Decidimos desarrollar diccionarios de polari-
sa, 2014) , (Feldman, 2013), (Guo y Wan, dad propios, en lugar de utilizar los existen-
2012), (Sharma y Dey, 2012) y (Wang et al., tes, ya que consideramos que desde el punto
2011). En trabajos recientes de análisis de de vista del procesamiento de lenguaje natu-
sentimiento en español tales como el trabajo ral tradicional (Indurkhya y Damerau, 2010)
de (Martı́nez-Cámara et al., 2015) se utilizan estos diccionarios con polaridad pueden ser
varios diccionarios de polaridad y se represen- vistos cada uno, como un modelo de lenguaje
tan utilizando un modelo de espacio vectorial particular. Por este motivo tratamos de desa-
MEV. El diccionario en sı́ se convierte en un rrollar y evaluar una adaptación del tradi-
modelo de lenguaje que sirve como recurso cional método de generación de estos recur-
para lograr representaciones eficientes de los sos lingüı́sticos de (Turney, 2002). La deci-
vectores utilizados para la clasificación. sión anterior no se debió a la no existencia
En los últimos años la representación vec- de diccionarios polarizados ya que claramen-
torial basada en modelos de lenguaje como te en trabajos como (Martı́nez-Cámara et al.,
unigramas y bigramas se movió hacia repre- 2015) se hace uso de varios de ellos, sino con
sentaciones de caracterı́sticas ya que la canti- el fin de incorporar la etapa de creación de
dad de términos introduce un problema aso- diccionario dentro de la metodologı́a de tra-
ciado a su alta dispersión en el vector (Cam- bajo para que posteriores investigaciones en
bria et al., 2013). Si los vectores contienen otros paı́ses de habla hispana puedan replicar
un alto número de atributos diferentes, uno el trabajo y disminuir la barrera inicial aso-
por término, los conjuntos de datos para en- ciada a la falta de recursos lingüı́sticos pro-
trenamiento deben contener una mayor can- pios y el efecto del uso del diccionario pola-
tidad de textos anotados que atributos para rizado sobre la calidad de los resultados de
un buen entrenamiento de los clasificadores. clasificación.
Es por esto que los modelos de representación El diccionario de polaridad creado utiliza
del lenguaje basados en unigramas, bigramas un corpus recolectado durante el año 2013,
o bien skipgramas requiren de una represen- con 5 millones de tweets en español. La va-
tación vectorial eficiente. Trabajos recientes riante con respecto al algoritmo propuesto
24
Evaluación de Modelos de Representación del Texto con Vectores de Dimensión Reducida para Análisis de Sentimiento
por Turney (Turney, 2002) es la siguiente.
Para el cálculo de la orientación semánti-
ca de un término, tal y como lo define
Turney en su artı́culo original, se utilizaron
grupos de palabras semilla en lugar de un
solo término, y en lugar de utilizar consul-
tas a motores de búsqueda para obtener la
cantidad de textos donde aparecen las pala-
bras analizadas cerca de las palabras positi-
vas o negativas se utilizó el motor de búsque-
da implementado con el software libre Solr
http://lucene.apache.org/solr/. Con el
motor se indexaron los 5 millones de tweets
por lo que las consultas se ejecutaron en for-
ma local. Este método cuenta con la ventaja
de que se puede calcular entonces la orien-
tación semántica de un término directamen-
te o bien almacenarlo en un diccionario. En
nuestro caso precalculamos la polaridad y la
almacenamos en forma de diccionario. Por el
momento solo se han llevado a cabo los cálcu-
los para términos individuales. Figura 1: Proceso de normalizacion del texto
3.2 Normalizador de texto con ca también fue incorporada. La presencia de
marcadores de énfasis marcadores de énfasis tales como repetición
Luego de un proceso de análisis de las ca- de caracteres, de sı́labas, o mayúsculas so-
racterı́sticas presentes en el texto desarrolla- bre términos que aparecen como negativos en
mos un sistema para normalización del texto. algún contexto son registrados como una ca-
Para este preprocesamiento se segmentan los racterı́stica importante en el vector.
términos potenciales, signos de puntuación y Los vectores generados utilizan la polari-
emoticones. Se lleva a cabo un marcado y dad de los términos para determinar la po-
conversión de los términos. El proceso que se- sición en el vector de caracterı́sticas creado.
guimos hace una eliminación de los términos Cabe dejar claro que dependiendo del modelo
que son identificados en el diccionario. Este de datos los términos pueden ser unigramas,
proceso se muestra en la figura 1. bigramas o skipgramas. En el caso de los uni-
Las repeticiones de letras, repeticiones de gramas, por ejemplo, si se construye un vec-
sı́labas y mayúsculas son identificadas y eli- tor con la frecuencia de los términos según
minadas pero estos términos se marcan como su polaridad con valores de polaridad desde
potenciales identificadores de énfasis. Ejem- -1.0 hasta 1.0, el vector que se obtiene serı́a
plos son: EXCELENTE, graciassss, bue- como el que se muestra en la figura 2. En este
nisı́simo. En esta fase se identifican los vector por ejemplo se muestran dos términos
tweets que contienen palabras positivas con con polaridad, según diccionario, entre el -0.8
énfasis para su posterior uso. y -0.9, un término con polaridad entre 0.1 y
0.2, y otro con polaridad mayor a 0.9. En es-
3.3 Representación vectorial de te caso, en nuestro diccionario, la polaridad
baja dimensión se representa con valores distribuidos desde
Dos caracterı́sticas representadas en los vec- lo más negativo hasta lo positivo con valores
tores tienen que ver con la presencia y po- entre -1.0 y 0 para los negativos y 0 a 1.0 para
laridad de los emoticones y con la presen- los positivos.
cia de partı́culas de negación. Además, al Para el taller TASS2016 quisimos evaluar
desarrollar esta investigación se pudo obser- inicialmente el uso de vectores con la menor
var que los términos positivos con marcado- dimensión posible, ası́ que en lugar de vecto-
res de énfasis son un potencial identificador res de 20 celdas utilizamos solo vectores de 5
de la polaridad positiva de los textos que celdas para cada grupo de caracterı́sticas, en
los contienen, por lo tanto esta caracterı́sti- lugar de saltos de 0.1 el rango utilizado es de
25
E. Casasola Murillo, G. Marín Raventós
Figura 2: Vector de caracterı́sticas
0.5. skip-gramas previos. Por el momento es-
tas variantes no fueron enviadas como expe-
3.4 Modelos locales y globales de rimentos a TASS2016 sino solo las versiones
representación del lenguaje iniciales.
Nuestra propuesta pretende representar en
los vectores de caracterı́sticas información
propia obtenida durante el proceso de entre- 4 Metodologı́a
namiento, al igual que datos que represen-
ten información obtenida de modelos de len- Utilizando el diccionario, el normalizador y
guaje del español en general. En nuestro caso el modelo de representación vectorial se pro-
se utilizó inicialmente el diccionario genera- cedió a crear vectores de respresentación con
do a partir del corpus recolectado como insu- diferentes configuraciones. Primeramente se
mo para obtener de él la información general construyó una versión con vectores de di-
del español. En el momento de entrenamien- mensión 20 distribuyendo la polaridad de los
to, la polaridad de los términos en cada tweet términos según la polaridad almacenada pa-
son conocidos para ese conjunto de datos. ra unigramas en el diccionario local. En este
La información global es la que se ha calcu- caso se pretende evaluar solamente el uso del
lado previamente y se encuentra almacena- diccionario y los marcadores de énfasis como
da en forma de diccionarios. En nuestra pro- repeticiones y mayúsculas. Este primer expe-
puesta lo que queremos hacer es representar rimento es el denominado GASUCR-01. El
en el vector las frecuencias de los términos segundo experimento consistió en evaluar un
de cada tweet distribuidos según su polari- modelo un poco más robusto a nivel local con
dad pero utilizar diferentes modelos de re- bigramas y la polaridad para el unigrama en
presentación de lenguaje para llevar a cabo el diccionario, si el bigrama no está presen-
este cálculo. El diccionario utilizado en es- te durante el proceso de evaluación. En este
tos experimentos fue nuestra versión con uni- caso se crearon vectores de menor dimensión
gramas. Se pretende utilizar representaciones para los datos locales, con solo cinco campos.
con bigramas y una versión de skipgramas Esta ejecución se idendificó como experimen-
que incluye solo los términos anteriores a la to GASUCR-01-noEMO-noPartNeg. Esta es
palabra que se desea representar. Durante el la implementación base para luego evaluar el
entrenamiento, la polaridad obtenida en for- uso de bigramas tomados del contexto glo-
ma local es almacenada al igual que las fre- bal. Esta versión base también fue enviada
cuencias tomadas de diccionarios de polari- a la tarea de 4 categorı́as. En este caso, lo
dad global. Por lo tanto, los vectores cuen- que se hizo fue unir las categorı́as +P y P en
tan con entradas para las distribuciones de una sola, y la categorı́a +N con la N. El ter-
polaridad local y las distribuciones de polari- cer experimento agregaba al anterior el uso
dad global. Aquı́ es donde incorporamos los de los emoticones, aparición de términos po-
diferentes modelos de lenguaje. Inicialmente sitivos con énfasis y las partı́culas negativas.
trabajamos con unigramas para obtener re- En los resultados esta versión se identificó co-
sultados base para posteriores experimentos. mo GASUCR-04 En esta versión de TASS no
Posteriormente, se genera un diccionario para nos dió tiempo de ejecutar las versiones con
bigramas y otro para lo que definimos como bigramas globales, ni skipgramas.
26
Evaluación de Modelos de Representación del Texto con Vectores de Dimensión Reducida para Análisis de Sentimiento
5 Resultados de baja dimensión, y modelos de represen-
Los resultados oficiales obtenidos para las eje- tación del texto con caracterı́sticas locales y
cuciones antes mencionadas son los que se globales. El trabajo además hace uso de ca-
muestran en las Tablas 1 y 2. En estas figu- racterı́sticas comunes con otros como los son
ras la columna Ac. muestra la exactitud, P el uso de emoticones y partı́culas negativas.
se refiere a la Macro Precisión, R al Ma- Como trabajo futuro tenemos pendiente la
cro Exhaustividad y F1 al Macro F1. En evaluación usando 3 categorı́as de los datos
los resultados generales de TASS los resul- que hacen uso de contexto local con bigra-
tados del grupo aparecen con el id indica- mas y caracterı́sticas adicionales como uso
do bajo el nombre del grupo GASUCR. En de emoticones, palabras positivas con énfasis,
nuestro caso con el experimento 01 obtene- y partı́culas de negación. Esperamos que los
mos los casos base para el uso de unigramas mejores resultados sean obtenidos al incorpo-
globales con vectores de dimensión 20 y los rar los nuevos modelos de lenguaje que esta-
bigramas locales con dimensión 5. Es impor- mos calculando para bigramas y skipgramas
tante observar que los bigramas locales con previos al unirlo con nuestro método de re-
dimensión 5 y las caracterı́sticas de énfasis presentación en vectores de baja dimensión.
positivo, partı́culas de negación y emoticones Se desea estudiar el efecto de la reducción
producen un leve incremento pasando de 0.32 del tamaño del vector al igual que técnicas
a 0.41. Otro aspecto que rescatamos es el au- de extrapolación de la polaridad en los mo-
mento de la exactitud al pasar a la tarea de delos para los términos que no aparecen en
3 categorı́as. los datos de entrenamiento.
Bibliografı́a
Tabla 1: Resultados Tarea 1 con 5 levels y Batista, F. y R. Ribeiro. 2013. Sentiment
corpus completo) analysis and topic classification based on
id Ac. P R F1 binary maximum entropy classifiers. Pro-
01 0.342 0.217 0.237 0.227 cesamiento de Lenguaje Natural, 50:77–
01-noEmNeg 0.326 0.334 0.258 0.291 84.
04 0.410 0.268 0.242 0.254
Cabanlit, M. A. y K. Junshean Espinosa.
2014. Optimizing n-gram based text fea-
ture selection in sentiment analysis for
Tabla 2: Resultados Tarea 1 con 3 niveles y commercial products in twitter through
corpus completo polarity lexicons. En Information, Inte-
id Ac. P R F1
lligence, Systems and Applications, IISA
01-noEmNeg 0.373 0.212 0.303 0.250 2014, The 5th International Conference
on, páginas 94–97. IEEE.
Estos casos se fueron seleccionando para ir
evaluando en forma incremental cada uno de Cambria, E., B. Schuller, Y. Xia, y C. Hava-
los aspectos relacionados a nuestra propues- si. 2013. New avenues in opinion mining
ta. Con cada caracterı́stica nueva se trata de and sentiment analysis. Intelligent Sys-
determinar su impacto sobre los valores de tems, IEEE, PP(99):1–1.
exactitud, precisión y exhaustividad. Dı́az-Galiano, M. y A. Montejo-Ráez. 2015.
Participación de sinai dw2vec en tass
6 Conclusiones y trabajo futuro 2015. En Proceedings del Taller TASS
El marco de evaluación de TASS es provecho- 2015 en Análisis de Sentimiento de la XX-
so para los grupos que inician la investigación XI Conferencia SEPLN 2015, páginas 59–
en análisis de sentimiento en español con el 64.
fin de extenderla a otras latitudes. En nues-
Feldman, R. 2013. Techniques and appli-
tro caso pudimos evaluar y comparar la ca-
cations for sentiment analysis. Commun.
lidad de los resultados de los primeros casos
ACM, 56(4):82–89, Abril.
base de nuestro trabajo. Observamos los pri-
meros resultados con un sistema que utiliza Garcı́a-Cumbreras, M., J. Villena-Román,
un método de normalización con identifica- E. Martı́nez Cámara, M. C. Dı́az-
ción de potenciales marcadores de énfasis, un Galiano, M. T. Martı́n Valdivia, y L. A.
modelo de representación basado en vectores Ureña López. 2016. Overview of
27
E. Casasola Murillo, G. Marín Raventós
tass 2016. En Proceedings of TASS sis in twitter: a graph-based hashtag sen-
2016: Workshop on Sentiment Analysis at timent classification approach. En Pro-
SEPLN co-located with the 32nd SEPLN ceedings of the 20th ACM international
Conference (SEPLN 2016), Salamanca, conference on Information and knowledge
Spain, September. management, páginas 1031–1040. ACM.
Guo, L. y X. Wan. 2012. Exploiting syntactic
and semantic relationships between terms
for opinion retrieval. Journal of the ame-
rican society for information science and
technology, 63(11):2269–2282, Noviembre.
Indurkhya, N. y F. J. Damerau. 2010. Hand-
book of natural language processing, volu-
men 2. CRC Press.
Kiritchenko, S., X. Zhu, y S. M. Mohammad.
2014. Sentiment analysis of short infor-
mal texts. Journal of Artificial Intelligen-
ce Research, páginas 723–762.
Martı́nez-Cámara, E., M. Á. Garcı́a-
Cumbreras, M. T. Martı́n-Valdivia, y
L. A. Ureña-L’opez. 2015. Sinai-emma:
Vectores de palabras para el análisis de
opiniones en twitter. En Proceedings
del Taller TASS 2015 en Análisis de
Sentimiento de la XXXI Conferencia
SEPLN 2015, páginas 41–46.
Melero, M., A.-B. Cardús, A. Moreno,
G. Rehm, K. de Smedt, y H. Uszkoreit.
2012. The Spanish language in the digital
age. Springer.
Sharma, A. y S. Dey. 2012. A comparati-
ve study of feature selection and machine
learning techniques for sentiment analysis.
En Proceedings of the 2012 ACM Research
in Applied Computation Symposium, pági-
nas 1–7. ACM.
Turney, P. D. 2002. Thumbs up or thumbs
down?: semantic orientation applied to
unsupervised classification of reviews. En
Proceedings of the 40th annual meeting on
association for computational linguistics,
páginas 417–424. Association for Compu-
tational Linguistics.
Villena-Román, J., J. Garcı́a Morera,
M. Á. Garcı́a-Cumbreras, E. M. Cámara,
M. T. M. Valdivia, y L. A. U. López.
2015. Overview of tass 2015. En Procee-
dings del Taller TASS 2015 en Análisis
de Sentimiento de la XXXI Conferencia
SEPLN 2015, páginas 13–21.
Wang, X., F. Wei, X. Liu, M. Zhou, y
M. Zhang. 2011. Topic sentiment analy-
28
TASS 2016: Workshop on Sentiment Analysis at SEPLN, septiembre 2016, pág. 29-33
LABDA at the 2016 TASS challenge task: using word
embeddings for the sentiment analysis task∗
LABDA en la competición TASS 2016: utilizando vectores de palabras para
la tarea de análisis de sentimiento
Antonio Quirós1,2 , Isabel Segura-Bedmar1 , and Paloma Martı́nez1
1
Departamento de Informática, Universidad Calos III de Madrid
Avd. de la Universidad, 30, 28911, Leganés, Madrid, España
100342879@alumnos.uc3m.es, isegura,pmf@inf.uc3m.es
2
Sngular Data&Analytics
Av. LLano Castellano 13, Planta 5, 28034 Madrid, España
antonio.quiros@sngular.team
Resumen: Este artı́culo describe la participación del grupo LABDA en la tarea
1 (Sentiment Analysis at global level) de la competición TASS 2016. En nuestro
enfoque, los tweets son representados por medio de vectores de palabras y son cla-
sificados utilizando algoritmos como SVM y regresión logı́stica.
Palabras clave: Análisis de Sentimiento, Vectores de palabras
Abstract: This paper describes the participation of the LABDA group at the Task
1 (Sentiment Analysis at global level). Our approach exploits word embedding re-
presentations for tweets and machine learning algorithms such as SVM and logistics
regression.
Keywords: Sentiment Analysis, Word embeddings
1 Introduction resources for sentiment analysis of tweets in
Knowing the opinion of customers or users Spanish. This paper describes the participa-
has become a priority for companies and or- tion of the LABDA group at the Task 1 (Sen-
ganizations in order to improve the quality of timent Analysis at global level). In this task,
their services and products. With the ongoing the participating systems have to determine
explosion of social media, it affords a signifi- the global polarity of each tweet in the test
cant opportunity to poll the opinion of many dataset. There are two different evaluations:
Internet users by processing their comments. one based on 6 different polarity labels (P+,
However, it should be noted that sentiment P, NEU, N, N+, NONE) and another based
analysis, which can be defined as the auto- on just 4 labels (P, N, NEU, NONE). A de-
matic analysis of opinion in texts (Pang and tailed description of the task can be found
Lee, 2008), is a challenging task because it is in the overview paper of TASS 2016 (Garcı́a-
not strange that different people assign dif- Cumbreras et al., 2016). Our approach ex-
ferent polarities to a given text. On Twitter, ploits word embedding representations for
the task is even more difficult, because the tweets and machine learning algorithms such
texts are small (only 140 characters) and are as SVM and logistics regression. The word
charectized by their informal style language, embedding model can yield significant dimen-
many grammatical errors and spelling mista- sionality reduction compared to the classical
kes, slang and vulgar vocabulary and abbre- Bag-Of-Word (BoW) model. The dimensio-
viations. nality redution can have several positive ef-
fects on our algorithms such as faster trai-
Since their introduction in 2013, the TASS
ning, avoiding overfitting and better perfor-
shared task editions have had as main goal
mance.
to promote the development of methods and
The paper is organized as follows. Section
∗
This work was supported by eGovernAbility-Access 2 describes our approach. The experimental
project (TIN2014-52665-C2-2-R). results are presented and discussed in Section
ISSN 1613-0073
A. Quirós, I. Segura-Bedmar, P. Martínez
3. We conclude in Section 4 with a summary vert the tweets to lowercase and replace miss-
of our findings and some directions for future pelled accented letters with the correct one
work. (for instance “à” with “á”). We also treat
elongations (that is, the repetition of a cha-
2 System racter) by removing the repetition of a cha-
In this paper, we study the use of word em- racter after its second occurrence (for exam-
beddings (also known as word vectors) in or- ple, “hoooolaaaa” would be translated to
der to represent tweets and then examine se- “hola”). We then decided to take into account
veral machine learning algorithms to classify laughs (for instance “jajaja”) which turned
them. Word embeddings have shown promi- out to be challenging because of the diverse
sing results in NLP tasks, such as named ways they are expressed (i.e. expressions li-
entity recognition (Segura-Bedmar, Suárez- ke “jajajaja” or “jejeje” and even misspelled
Paniagua, and Martınez, 2015), relation ex- ones like “jajjajaaj”) We addressed this using
traction (Alam et al., 2016), sentiment analy- regular expressions to standardize the diffe-
sis (Socher et al., 2013b) or parsing (Socher rent forms (i.e. “jajjjaaj” to “jajaja”) and
et al., 2013a). A word embedding is a fun- then replace them with the word “risas”. Fi-
ction to map words to low dimensional vec- nally we remove all non-letters characters and
tors, which are learned from a large collection all stopwords present in tweets1 .
of texts. At present, Neural Network is one of Orientation Emoticons
the most used learning techniques for gene- Positive :-), :), :D, :o), :], D:3,
rating word embeddings (Mikolov and Dean, :c), :>, =], 8), =),
2013). The essential assumption of this mo- :}, :ˆ), :-D, 8-D, 8D,
del is that semantically close words will have x-D, xD, X-D, XD,
similar vectors (in terms of cosine similarity). =-D, =D, =-3, =3,
Word embeddings can help to capture seman- BˆD, :’), :’), :*, :-*,
tic and syntactic relationships of the corres- :ˆ*, ;-), ;), *-), *), ;-
ponding words. ], ;], ;D, ;ˆ), >:P, :-P,
While the well-known Bag-of-Words :P, X-P, x-p, xp, XP,
(BoW) model involves a very large number :-p, :p, =p, :-b, :b
of features (as many as the number of non-
stopwords words with at least a minimum Negative >:[, :-(, :(, :-c, :-<,
number of occurrences in the training data), :<, :-[, :[, :{, ;(, :-
the word embedding representation allows ||, >:(, :’-(, :’(, D:<,
a significant reduction in the feature set D=, v.v
size (in our case, from million to just 300).
The dimensionality reduction is a desirable
goal, because it helps in avoiding overfitting
and leads to a reduction of the training and Table 1: List of positive and negative emoti-
classification times, without any performance cons
loss.
As a preprocessing step, tweets must be Once the tweets are preprocessed, they are
cleaned. First, we remove all links and urls. tokenized using the NLKT toolkit (a Pyt-
We then remove usernames which can be ea- hon package for NLP); we also performed
sily recognized because their first character is experimentation by lemmatizing each tweet
the symbol @. We then transform the hash- using MeaningCloud2 Text Analytic software
tags to words by removing its first charac- to compare both approaches. Then, for each
ter (that is, the symbol #). Taking advanta- token, we search its vector in the word em-
ge of regular expressions, the emoticons are bedding model. We use a pretrained model
detected and classified in order to count the (Cardellino, 2016), which was generated by
number of positive and negative emoticons in using the word2vec algorithm (Mikolov and
each tweet and then we remove them from the Dean, 2013) from a collection of Spanish texts
text. Table 1 shows the list of positive and with approximately 1.5 billion words. The di-
negative emoticons, which were taken from mension of the word embedding is 300. It
the wikipedia page https://en.wikipedia. 1
http://snowball.tartarus.org/algorithms/spanish/stop.txt
2
org/wiki/List\_of\_emoticons. We con- https://www.meaningcloud.com/
30
LABDA at the 2016 TASS challenge task: using word embeddings for the sentiment analysis task
should be noted that these texts were ta- negEmo: number of negative emoticons
ken from different resources such as Spanish present in the tweet.
Wikipedia, WikiSource and Wikibooks, but
none of them contains tweets. Therefore, it For the posWords and negWords features
is possible that the main characteristics of we used the iSOL lexicon(Molina-González et
the social media texts (such as informal style al., 2013), a list composed by 2,509 positive
language, noisy, plenty of grammatical errors words and 5,626 negative words. As descri-
and spelling mistakes, slang and vulgar voca- bed before, for the emoticons we used the lis-
bulary, abbreviations, etc) are not correctly ted in Table 1, but also added to the positive
represented in this model. One of the main ones the number of laughs detected; and also,
problems is that there is a significant number we included the number of recommendations
of words (almost a 13 % of the vocabulary, re- present in the form of a “Follow Friday” hash-
presenting the 6 % of words occurrences) that tag (#FF), due to its ease of detection and
are not found in the model. We perform a re- its positive bias.
view of a small sample of these words, sho- Classification is performed using scikit-
wing that most of them were mainly hash- learn, a Python module for machine learning.
tags. This package provides many algorithms such
In our approach, a tweet of n tokens (T = as Random Forest, Support Vector Machine
w1 , w2 , ..., wn ) is represented as the centroid (SVM) and so on. One of its main advantages
of the word vectors w ~i of its tokens, as shown is that it is supported by extensive documen-
in the following equation: tation. Moreover, it is robust, fast and easy
to use.
n PN As stated before, we have two main trai-
1 j=1 w
~j .T F (wj , t)
T~ =
X
w
~i = PN (1) ning models: Averaged centroids and the ave-
n i=1 j=1 T F (wj , t) raged centroids including the inverted docu-
ment frequency, for both the lemmatized and
where N is the vocabulary size, that is,
not-lemmatized texts. We performed experi-
the total number of distinct words, while
ments using three different classifiers: Ran-
T F (wj , t) refers to the number of occurren-
dom Forests, Support Vector Machines and
ces of the j-th vocabulary word in the tweet
Logistic Regression because these classifiers
T.
often achieved the best results for text clas-
We also explore the effect of including the
sification and sentiment analysis.
inverse document frequencies IDF to repre-
Also we evaluated the impact of applying
sent tweets (see Equation 2). This helps to
a set of emoticon’s rules as a pre-classification
increase the weight of words that occur of-
stage, similar to (Chikersal et al., 2015), in
ten, but only in a few documents, while it re-
which we determine a first stage polarity for
duces the relevance of words that occur very
each tweet as follows:
frequently in a larger number of texts.
If posEmo is greater than zero and negE-
n PN mo is equal to zero, the tweet is marked
1 j=1 w
~j .T F (wj , t).IDF (wj )
T~ =
X
w
~i = PN as “P”.
n i=1 j=1 T F (wj , t).IDF (wj )
(2) If negEmo is greater than zero and posE-
log|D|
having IDF (wj ) = |tw∈D:w where |D| mo is equal to zero, the tweet is marked
j ∈tw|
as “N”.
refers to the number of tweets.
In addition to using the centroid, we assess If both posEmo and negEmo are grea-
the impact of complementing the tweet model ter than zero, the tweet is marked as
with the following additional features: “NEU”.
posWords: number of positive words pre- If both posEmo and negEmo are equal to
sent in the tweet. zero, the tweet is marked as “NONE”.
negWords: number of negative words Then, after the classification takes place
present in the tweet. we made three tests: i) Applying no rule,
posEmo: number of positive emoticons ii) honoring the polarity defined by the rule,
present in the tweet. which means, we keep the predefined polarity
31
A. Quirós, I. Segura-Bedmar, P. Martínez
if the tweet was marked as “P” or “N”, ot- Run P R F1 Acc
herwise we take the value estimated by the RUN-1 0.411 0.449 0.429 0.527
classifier, and iii) a mixed approach where RUN-2 0.412 0.448 0.429 0.527
we give each polarity a value (N+: -2; N: -1; RUN-3 0.402 0.436 0.418 0.549
NEU,NONE: 0; P: 1; P+: 2) and performed
an arithmetic sum of both the predefined and
estimated polarity if and only if they are not Table 2: Results for Sentiment Analysis at
equal; with that for instance, if the classifier global level (5 levels, Full test corpus)
marked a tweet as “N” and the rules mar-
ked it as “P” the tweet will be classified as Run P R F1 Acc
“NEU”. RUN-1 0.506 0.510 0.508 0.652
RUN-2 0.508 0.508 0.508 0.652
3 Results RUN-3 0.512 0.511 0.511 0.653
In order to choose the best-performing clas-
sifiers, we use 10-fold cross-validation becau- Table 3: Results for Sentiment Analysis at
se there is no development dataset and this global level (3 levels, Full test corpus)
strategy has become the standard method
in practical terms. Our experiments showed
that, although the results were similar3 , the With the settings mentioned above, the
best settings for the 5-levels task are: obtained results are extremely similar, but we
can state that, in terms of Accuracy, Logis-
RUN-1: Support Vector Machine, over tic Regression report the best results; and,
the averaged centroids without applying even it’s not measured in this work, is worth
any rules for pre-defining polarities. mentioning that Logistic Regression’s perfor-
RUN-2: Support Vector Machine, over mance was observably faster.
the averaged centroids and applying the
mixed rules approach. 4 Conclusions and future work
RUN-3: Logistic Regression, over the This paper explores the use of word embed-
centroids with inverted document fre- dings for the task of sentiment analysis. Ins-
quency and applying the mixed rules ap- tead of using, the bag-of-words model to re-
proach. present tweets, these are represented as word
vectors taken from a pre-trained model of
and for the 3-levels task are: word embeddings. An important advantage
of word embedding model compared to the
RUN-1: Support Vector Machine, over
technique of bag-of-words representation is
the averaged centroids and applying the
that it achieves a significant dimensional re-
mixed rules approach.
duction of the feature set needed to represent
RUN-2: Logistic Regression, over the tweets and leads, therefore, to a reduction of
centroids with inverted document fre- training and testing time of the algorithms.
quency and applying the mixed rules ap- In order to use word embedding models
proach. properly, a preprocessing stage had to be
RUN-3: Logistic Regression, over the completed before training a classifier. Due to
averaged centroids and applying the mi- the unstructured nature of the tweets, this
xed rules approach. preprocessing proved to be a very important
step in order to standardize at some degree
Tables 2 and 3 show the results for the- the input data. The experimentation showed
se settings provided by the TASS submission that the three tested classifiers obtained very
system. For each run, accuracy is provided as similar results, with Random Forest having
well as the macro-averaged precision, recall slight worse performance and Logistic Re-
and F1-measure. As expected, the results for gression being slightly better and much more
3 levels are higher than for 5 levels because faster.
the training dataset is larger. One of the main drawback of our approach
3
Experiments showed that not-lemmatized text
is that many words do not have a word vector
performed better in all settings, hence the best set- in the word embedding model used for our
tings reported here is using not-lematized model experiments. An analysis showed that many
32
LABDA at the 2016 TASS challenge task: using word embeddings for the sentiment analysis task
of these words come from hashtags, which are Pang, B. and L. Lee. 2008. Opinion mining
usually short phrases. Therefore, we should and sentiment analysis. Foundations and
apply a more sophisticated method in order trends in information retrieval, 2(1-2):1–
to extract the words forming hashtag. 135.
As future work, we also plan to use a word
Segura-Bedmar, I., V. Suárez-Paniagua, and
embedding model trained on a collection of
P. Martınez. 2015. Exploring word
text from Spanish social media. We think
embedding for drug name recognition.
that this will have a positive effect of the per-
In SIXTH INTERNATIONAL WORKS-
formance of our system to identify the pola-
HOP ON HEALTH TEXT MINING AND
rity of tweets because this model will be ge-
INFORMATION ANALYSIS (LOUHI),
nerated from documents characterized by the
page 64.
main features that describe social media texts
(for example, informal style language, plenty Socher, R., J. Bauer, C. D. Manning, and
of grammatical errors and spelling mistakes, A. Y. Ng. 2013a. Parsing with composi-
slang and vulgar vocabulary). tional vector grammars. In ACL (1), pa-
ges 455–465.
Acknowledgments
Socher, R., A. Perelygin, J. Y. Wu,
This work was supported by eGovernAbility- J. Chuang, C. D. Manning, A. Y. Ng, and
Access project (TIN2014-52665-C2-2-R). C. Potts. 2013b. Recursive deep models
for semantic compositionality over a sen-
References timent treebank. In Proceedings of the
Alam, F., A. Corazza, A. Lavelli, and R. Za- conference on empirical methods in natu-
noli. 2016. A knowledge-poor approach to ral language processing (EMNLP), volume
chemical-disease relation extraction. Da- 1631, page 1642. Citeseer.
tabase, 2016:baw071.
Cardellino, C. 2016. Spanish Billion Words
Corpus and Embeddings, March.
Chikersal, P., S. Poria, E. Cambria, A. Gel-
bukh, and C. E. Siong. 2015. Modelling
public sentiment in twitter: using linguis-
tic patterns to enhance supervised lear-
ning. In International Conference on Inte-
lligent Text Processing and Computational
Linguistics, pages 49–65. Springer.
Garcı́a-Cumbreras, M. A., J. Villena-Román,
E. Martı́nez-Cámara, M. C. Dı́az-Galiano,
M. T. Martı́n-Valdivia, and L. A. U.
na López. 2016. Overview of tass 2016.
In Proceedings of TASS 2016: Works-
hop on Sentiment Analysis at SEPLN co-
located with the 32nd SEPLN Conferen-
ce (SEPLN 2016), Salamanca, Spain, Sep-
tember.
Mikolov, T. and J. Dean. 2013. Distributed
representations of words and phrases and
their compositionality. Advances in neural
information processing systems.
Molina-González, M. D., E. Martı́nez-Cáma-
ra, M.-T. Martı́n-Valdivia, and J. M.
Perea-Ortega. 2013. Semantic orientation
for polarity classification in spanish re-
views. Expert Systems with Applications,
40(18):7250–7257.
33
TASS 2016: Workshop on Sentiment Analysis at SEPLN, septiembre 2016, pág. 35-39
JACERONG at TASS 2016: An Ensemble Classifier for
Sentiment Analysis of Spanish Tweets at Global Level
JACERONG en TASS 2016: Combinación de clasificadores para el
análisis de sentimientos de tuits en español a nivel global
Jhon Adrián Cerón-Guzmán
Santiago de Cali, Valle del Cauca, Colombia
jadrian.ceron@gmail.com
Resumen: Este artı́culo describe un enfoque basado en conjuntos de clasificadores
que se ha desarrollado para participar en la Tarea 1 del taller TASS sobre análisis de
sentimientos de tuits en español a nivel global. Los conjuntos se construyen sobre
la combinación de sistemas con la correlación absoluta más baja entre sı́. Estos
sistemas son capaces de tratar con formas léxicas no estándar en los tweets, con el fin
de mejorar la calidad del análisis de lenguaje natural. Para realizar la clasificación
de polaridad, el enfoque utiliza caracterı́sticas básicas que han probado su poder
discriminativo, ası́ como caracterı́sticas de n-gramas de palabras y caracteres. Luego,
las salidas de clasificadores de Regresión logı́stica, que pueden ser etiquetas de clase o
probabilidades para cada clase, se utilizan para construir conjuntos de clasificadores.
Los resultados experimentales muestran que la combinación menos correlacionada
de 25 sistemas, la cual elige la clase con la probabilidad promedio no poderada más
alta, es la configuración que mejor se adapta a la tarea, alcanzando una precisión
global de 62.0% en la evaluación de seis etiquetas, y de 70.5% en la evaluación de
cuatro etiquetas.
Palabras clave: Análisis de sentimientos, clasificación de polaridad, combinación
de clasificadores, normalización léxica, tuis en español, Twitter
Abstract: This paper describes an ensemble-based approach developed to partic-
ipate in TASS-2016 Task 1 on sentiment analysis of Spanish tweets at global level.
Ensembles are built on the combination of systems with the lowest absolute correla-
tion with each other. The systems are able to deal with non-standard lexical forms
in tweets, in order to improve the quality of natural language analysis. To support
the polarity classification, the approach uses basic features that have proved their
discriminative power, as well as word and character n-gram features. Then, outputs
from Logistic Regression classifiers, which may be either class labels or probabilities
for each class, are used to build ensembles. Experimental results show that the
less-correlated combination of 25 systems, which chooses the class with the highest
unweighted average probability, is the setting that best suits to the task, achieving
an overall accuracy of 62.0% in the six-labels evaluation, and of 70.5% in the four-
labels evaluation.
Keywords: Ensemble classifier, lexical normalization, polarity classification, senti-
ment analysis, Spanish tweets, Twitter
1 Introduction tional methods. Around election time, sen-
What people say on social media about is- timent analysis of political tweets has been
sues of their everyday life, the society, and widely used to capture trends in public opin-
the world in general, has turned into a rich ion regarding important issues such as vot-
source of information to understand social ing intention (Gayo-Avello, 2013). However,
behavior. Twitter content, in particular, analyzing this content also presents several
has caught the attention of researchers who challenges, including the development of text
have investigated its potential for conducting analysis approaches based on Natural Lan-
studies on the human subjectivity at large guage Processing techniques, which properly
scale, which was not feasible using tradi- adapt to the informal genre and the free writ-
ISSN 1613-0073
J. A. Cerón-Guzmán
ing style of Twitter (Han and Baldwin, 2011; 2.1 Preprocessing
Cerón-Guzmán and León-Guzmán, 2016). The process of text cleaning and normaliza-
TASS is a workshop aimed at fostering re- tion is performed in two phases: basic pre-
search on sentiment analysis of Spanish Twit- processing and advanced preprocessing.
ter data, which provides a benchmark evalu-
2.1.1 Basic Preprocessing
ation to compare the latest advances in the
field (Garcı́a-Cumbreras et al., 2016). One of The following simple rules are implemented
the proposed tasks is to determine the opin- as regular expressions:
ion orientation expressed in tweets at global
level. Task 1 consists on assigning one of • Removing URLs and emails.
six labels (P+, P, NEU, N, N+, NONE) to • HTML entities are mapped to textual
a tweet in the six-labels evaluation; or one representations (e.g., “<” → “<”).
of four labels (P, NEU, N, NONE) in the
four-labels evaluation. Here, P, N, and NEU, • Specific Twitter terms such as mentions
stand for positive, negative, and neutral, re- (@user) and hashtags (#topic) are re-
spectively; NONE, instead, means no senti- placed by placeholders.
ment. The “+” symbol is used as intensifier. • Unknown characters are mapped to their
This paper presents an ensemble-based closest ASCII variant, using the Python
approach to polarity classification of Span- Unidecode module for the mapping.
ish tweets, developed to participate in Task 1
proposed by the organizing committee of the • Consecutive repetitions of a same char-
TASS workshop. The ensemble members are acter are reduced to one occurrence.
(relatively) highly correct classifiers with the • Emoticons are recognized and then clas-
lowest absolute correlation with each other. sified into positive and negative, ac-
The output from each classifier, which may cording to the sentiment they convey
be either a class label or probabilities for each (e.g., “:)” → “EMO POS”, “:(” →
class, is used to assign the polarity to a tweet “EMO NEG”).
based on a majority rule or on the highest un-
weighted average probability. Moreover, clas- • Unification of punctuation marks (Vi-
sifiers are adapted to deal with non-standard lares, Alonso, and Gómez-Rodrıguez,
lexical forms in tweets, in order to improve 2014).
the quality of natural language analysis.
The remainder of this paper is organized 2.1.2 Advanced Preprocessing
as follows. Section 2 describes the com- Once the set of simple rules has been applied,
mon architecture of the ensemble members the tweet text is tokenized and morpho-
(i.e., classifiers). Next, the submitted exper- logically analyzed by FreeLing (Padró and
iments, as well as the obtained results, are Stanilovsky, 2012). In this way, for each re-
discussed in Section 3. Finally, Section 4 con- sulting token, its lemma and Part-of-Speech
cludes the paper. (POS) tag are assigned. Taking these data
as input, the following advanced preprocess-
2 The System Architecture ing is applied:
The tweet text is passed through the pipeline • Lexical normalization. Each token is
of each system in order to assign it a class la- passed through a set of basic modules
bel or a probability to be of a certain class. of FreeLing (e.g., dictionary lookup, suf-
The pipeline, which goes from text prepro- fixes check, detection of numbers and
cessing to machine learning classification, is dates, and named entity recognition)
described below. Note that the system term for identifying standard word forms and
is preferred over the classifier term, because a other valid constructions. If a token
machine learning classifier receives a feature is not recognized by any of the mod-
vector and produces a class label or probabil- ules, it is marked as out-of-vocabulary
ities for each class; instead, the system term (OOV) word. Then, a confusion set
enables to conceive the whole process, from is formed by normalization candidates
preprocessing to machine learning classifica- which are identical or similar to the
tion. graphemes or phonemes that make the
36
JACERONG at TASS 2016: An Ensemble Classifier for Sentiment Analysis of Spanish Tweets at Global Level
OOV word. These candidates are el- • The number of positive and negative
ements of the union of a dictionary words, relative to the ElhPolar lexicon
of Spanish standard word forms and a (Saralegi and Vicente, 2013), the AFINN
gazetteer of proper nouns. The best nor- lexicon (Nielsen, 2011), or an union of
malization candidate for the OOV word both lexicons. In a negated context, the
is which best fits a statistical language label of a polarity word is inverted (i.e.,
model. The language model was esti- positive words become negative words,
mated from the Spanish Wikipedia cor- and vice versa). Additionally, a third
pus. Lastly, the selected candidate is feature labels the tweet with the class
capitalized according to the capitaliza- whose number of polarity words in the
tion rules of the Spanish language. Ex- text is the highest.
tensive research on lexical normalization • The number of negated contexts.
of Spanish tweets can be read in (Cerón-
Guzmán and León-Guzmán, 2016). • The number of occurrences of each Part-
of-Speech tag.
• Negation handling. Inspired by the
approach proposed by Pang et al. (Pang, 2.2.2 N-gram Features
Lee, and Vaithyanathan, 2002), this re- The fixed-length set of basic features is al-
search defined a negated context as a ways extracted from tweets. However, the
segment of the tweet that starts with a tweet text varies from another in terms of
(Spanish) negation word and ends with length, number of tokens, and vocabulary
a punctuation mark (i.e., “!”, “,”, “:”, used. For that reason, a process that trans-
“?”, “.”, “;”), but only the first n [0, 3] forms textual data into numerical feature vec-
or all tokens labeled with any or a spe- tors of fixed length is required. This process,
cific POS tag (i.e., verb, adjective, ad- known as vectorization, is performed by ap-
verb, and common noun) are affected by plying the tf-idf weighting scheme (Manning,
adding it the “ NEG” suffix. Note that Raghavan, and Schütze, 2008). Thus, each
when n = 0, no token is affected. document (i.e., a tweet text) is represented
as a vector d = {t1 , . . . , tn } RV , where V
2.2 Feature Extraction is the size of the vocabulary that was built
In this stage, the normalized tweet text is by considering word n-grams with n [1, 4],
transformed into a feature vector that feeds or character n-grams with n [3, 5] in the
the machine learning classifier. The features collection (i.e., the training set). The vector
are grouped into basic features and n-gram is, hence, formed by word n-grams, charac-
features. ter n-grams, or a concatenation of word and
character n-grams.
2.2.1 Basic Features
Some of these features are computed before 2.3 Machine Learning
the process of text cleaning and normaliza- Classification
tion is performed. At the last stage, the sentiment analysis sys-
tem classifies a given tweet as either P+, P,
• The number of words completely in up- NEU, N, N+, or NONE, or assigns probabil-
percase. ities for each class. After receiving as input
• The number of words with more than the feature vector, a L2-regularized Logistic
two consecutive repetitions of a same Regression classifier assigns a class label to
character. the tweet or a probability to be of a certain
class. The classifier was trained on the train-
• The number of consecutive repetitions of
ing set, using the Scikit-learn (Pedregosa et
exclamation marks, question marks, and
al., 2011) implementation of the Logistic Re-
both punctuation marks (e.g., “!!”, “??”,
gression algorithm.
“?!”) and whether the text ends with an
exclamation or question mark. 3 Experiments
• The number of occurrences of each class 1,720 different sentiment analysis systems
of emoticons (i.e., positive and negative) were trained on the training set via 5-fold
and whether the last token of the tweet cross validation, in order to find the best pa-
is an emoticon. rameter settings, namely: negation handling,
37
J. A. Cerón-Guzmán
polarity lexicon, order of word and charac- Macro- Macro- Macro-
Experiment Accuracy
Precision Recall F1
ter n-grams, and others parameters related
run-1 0.614 0.471 0.531 0.499
to the vectorization process (e.g., lowercas-
run-2 0.619 0.476 0.535 0.504
ing, frequency thresholds, etc.). The systems
run-3 0.620 0.477 0.532 0.503
were sorted by their mean cross-validation
score, and thus the top 50 ranked were fil- Table 1: Performance on the test set in the
tered to build the ensemble. The training six-labels evaluation
set is a collection of 7,219 tweets, each of
Macro- Macro- Macro-
which is tagged with one of six labels (i.e., Experiment Accuracy
Precision Recall F1
P+, P, NEU, N, N+, and NONE). Note that
run-1 0.702 0.564 0.565 0.564
the systems were trained for the six-labels run-2 0.704 0.567 0.568 0.567
evaluation, and therefore the P+ and P la- run-3 0.705 0.568 0.567 0.568
bels were merged into P, as well as the N+
and N labels were merged into N, to produce Table 2: Performance on the test set in the
an output in accordance with the four-labels four-labels evaluation
evaluation. Further description of the pro-
vided corpus, as well as of the training and Class Precision Recall F1-score
test sets, can be read in (Garcı́a-Cumbreras P 0.755 0.786 0.770
et al., 2016).
NEU 0.128 0.093 0.107
Next, the top 50 systems assigned a class
label to each tweet in a collection of 1,000, N 0.631 0.812 0.710
which was drawn from the untagged test set NONE 0.758 0.578 0.656
with a similar class distribution to the train-
ing set. In this stage, the objective was Table 3: Discriminative power for each class
to find the systems with the lowest abso- in the four-labels evaluation
lute correlation with each other; therefore,
the performance was not evaluated. Then, evaluation, and of 0.2% in the four-labels
the less-correlated combinations of 5, 10, and evaluation; instead, a negligible gain occurs
25 systems, were used to build the ensem- among the “run-2” and“ run-3” experiments,
bles, whose outputs correspond to the sub- taking additionally into account the compu-
mitted experiments. These experiments are tational cost of running the latter.
described below: As a final point, Table 3 shows how the
overall performance is affected by the low dis-
• run-1: the less-correlated combination
criminative power of the ensembles (in this
of 5 systems, which chooses the class la-
case, the one that correspond to “run-3”) for
bel that represents the majority in the
the NEU class. With this in mind, it is pro-
predictions made by the ensemble mem-
posed as future work to deal with the low
bers.
representativeness of the NEU class in the
• run-2: the less-correlated combination training data (i.e., 9.28% of tweets), in order
of 10 systems, which chooses the class to properly characterize this kind of tweets.
with the highest unweighted average
probability. 4 Conclusion
• run-3: the less-correlated combination This paper has described an ensemble-based
of 25 systems, which chooses the class approach for sentiment analysis of Spanish
with the highest unweighted average Twitter data at global level, developed in
probability. order to participate in Task 1 proposed by
the organization of TASS workshop. Three
Tables 1 and 2 show the performance eval- ensembles were built on the combination of
uation on the test set (i.e., a collection of sentiment analysis systems with the lowest
60,798 tweets) for six and four labels, respec- absolute correlation with each other. The
tively. Accuracy has been defined as the offi- systems were adapted to the informal genre
cial metric for ranking the systems. In sum- and the free writing style that characterize
mary, the main gain occurs among the “run- Twitter, in order to improve the quality of
1” and “run-2” experiments, with an incre- natural language analysis. In this way, the
ment of 0.5% in accuracy in the six-labels predicted class label for a particular tweet
38
JACERONG at TASS 2016: An Ensemble Classifier for Sentiment Analysis of Spanish Tweets at Global Level
was based on a majority rule or on the high- Padró, L. and E. Stanilovsky. 2012. Freel-
est average probability. Experimental results ing 3.0: Towards wider multilinguality.
showed that the less-correlated combination In Proceedings of the Language Resources
of 25 systems, which chose the class with the and Evaluation Conference (LREC 2012),
highest unweighted average probability, was Istanbul, Turkey, May. ELRA.
the setting that best suited to the task. How-
Pang, B., L. Lee, and S. Vaithyanathan.
ever, there is a great room for improvement
2002. Thumbs up?: Sentiment classifi-
in the learning of a proper characterization
cation using machine learning techniques.
of neutral tweets.
In Proceedings of the ACL-02 Conference
on Empirical Methods in Natural Lan-
References guage Processing - Volume 10, EMNLP
Cerón-Guzmán, J. A. and E. León-Guzmán. ’02, pages 79–86. Association for Compu-
2016. Lexical normalization of Spanish tational Linguistics.
tweets. In Proceedings of the 25th Inter-
Pedregosa, F., G. Varoquaux, A. Gram-
national Conference Companion on World
fort, V. Michel, B. Thirion, O. Grisel,
Wide Web, WWW’16 Companion, pages
M. Blondel, P. Prettenhofer, R. Weiss,
605–610. International World Wide Web
V. Dubourg, J. Vanderplas, A. Passos,
Conferences Steering Committee.
D. Cournapeau, M. Brucher, M. Perrot,
Garcı́a-Cumbreras, M. A., J. Villena-Román, and E. Duchesnay. 2011. Scikit-learn:
E. Martı́nez-Cámara, M. C. Dı́az-Galiano, Machine learning in Python. Journal
M. T. Martı́n-Valdivia, and L. A. Urena- of Machine Learning Research, 12:2825–
López. 2016. Overview of tass 2016. In 2830.
Proceedings of TASS 2016: Workshop on Saralegi, X. and I. S. Vicente. 2013. Elhu-
Sentiment Analysis at SEPLN co-located yar at tass 2013. In Proceedings of the
with the 32nd SEPLN Conference (SE- Sentiment Analysis Workshop at SEPLN
PLN 2016), Salamanca, Spain, Septem- (TASS2013), September.
ber.
Vilares, D., M. A. Alonso, and C. Gómez-
Gayo-Avello, D. 2013. A meta-analysis of Rodrıguez. 2014. On the usefulness of
state-of-the-art electoral prediction from lexical and syntactic processing in polarity
Twitter data. Soc. Sci. Comput. Rev., classification of twitter messages. Journal
31(6):649–679. of the Association for Information Science
Han, B. and T. Baldwin. 2011. Lexi- and Technology.
cal normalisation of short text messages:
Makn sens a #Twitter. In Proceedings of
the 49th Annual Meeting of the Associa-
tion for Computational Linguistics: Hu-
man Language Technologies - Volume 1,
HLT’11, pages 368–378, Stroudsburg, PA,
USA. Association for Computational Lin-
guistics.
Manning, C. D., P. Raghavan, and
H. Schütze. 2008. Scoring, term
weighting and the vector space model. In
An Introduction to Information Retrieval.
Cambridge University Press, New York,
NY, USA.
Nielsen, F. Å. 2011. A new anew: evalu-
ation of a word list for sentiment analy-
sis in microblogs. In Proceedings of the
ESWC2011 Workshop on ‘Making Sense
of Microposts’: Big things come in small
packages, pages 93–98.
39
TASS 2016: Workshop on Sentiment Analysis at SEPLN, septiembre 2016, pág. 41-45
Participación de SINAI en TASS 2016∗
SINAI participation in TASS 2016
A. Montejo-Ráez M.C. Dı́az-Galiano
University of Jaén University of Jaén
23071 Jaén (Spain) 23071 Jaén (Spain)
amontejo@ujaen.es mcdiaz@ujaen.es
Resumen: Este artı́culo describe el sistema de clasificación de la polaridad utilizado
por el equipo SINAI en la tarea 1 del taller TASS 2016. Como en participaciones
anteriores, nuestro sistema se basa en un método supervisado con SVM a partir
de vectores de palabras. Dichos vectores se calculan utilizando la técnicas de deep-
learning Word2Vec, usando modelos generados a partir de una colección de tweets
expresamente generada para esta tarea y el volcado de la Wikipedia en español. Nues-
tros experimentos muestran que el uso de colecciones de datos masivos de Twitter
pueden ayudar a mejorar sensiblemente el rendimiento del clasificador.
Palabras clave: Análisis de sentimientos, clasificación de la polaridad, deep-
learning, Word2Vec
Abstract: This paper introduces the polarity classification system used by the SI-
NAI team for the task 1 at the TASS 2016 workshop. Our approach is based on a
supervised learning algorithm over vectors resulting from a weighted vector. This
vector is computed using a deep-learning algorithm called Word2Vec. The algorithm
is applied so as to generate a word vector from a deep neural net trained over a spe-
cific tweets collection and the Spanish Wikipedia. Our experiments show massive
data from Twitter can lead to a slight improvement in classificaciones accuracy.
Keywords: Sentiment analysis, polarity classification, deep learning, Word2Vec,
Doc2Vec
1 Introducción de dichos vectores para obtener una única
representación vectorial. Nuestros resultados
En este trabajo describimos las aportacio-
demuestran que el rendimiento del sistema de
nes realizadas para participar en la ta-
clasificación puede verse sensiblemente mejo-
rea 1 del taller TASS (Sentiment Analy-
rado gracias a la introducción de estos datos
sis at global level), en su edición de 2016
en la generación del modelo de palabras, no
(Garcı́a-Cumbreras et al., 2016). Nuestra so-
ası́ en el entrenamiento del clasificador de po-
lución continúa con las técnicas aplicadas
laridad final.
en el TASS 2014 (Montejo-Ráez, Garcı́a-
Cumbreras, y Dı́az-Galiano, 2014) y 2015 La tarea del TASS en 2016 denominada
(Dı́az-Galiano y Montejo-Ráez, 2015), utili- Sentiment Analysis at global level consiste en
zando aprendizaje profundo para represen- el desarrollo y evaluación de sistemas que de-
tar el texto y una colección de entrenamiento terminan la polaridad global de cada tweet
creada con tweets que contienen emoticonos del corpus general. Los sistemas presentados
que expresan emociones de felicidad o triste- deben predecir la polaridad de cada tweet uti-
za. Para ello utilizamos el método Word2Vec, lizando 6 o 4 etiquetas de clase (granularidad
ya que ha obtenido los mejores resultados en fina y gruesa respectivamente).
años anteriores. Por lo tanto, generamos un El resto del artı́culo está organizado de la
vector de pesos para cada palabra del tweet siguiente forma. El apartado 2 describe el es-
utilizando Word2Vec, y realizamos la media tado del arte de los sistemas de clasificación
∗
de polaridad en español. A continuación, se
Este estudio está parcialmente financiado por el
proyecto TIN2015-65136-C2-1-R otorgado por el Mi-
describe la colección de tweets con emotico-
nisterio de Economı́a y Competitividad del Gobierno nos utilizada para entrenar el clasificador. En
de España. el apartado 4 se describe el sistema desarro-
ISSN 1613-0073
A. Montejo-Ráez, M. C. Díaz-Galiano
llado y en el apartado 5 los experimentos rea- tado y Pla, 2014). Abordaron la tarea co-
lizados, los resultados obtenidos y el análisis mo un problema de clasificación, utilizando
de los mismos. Finalmente, en el último apar- SVM. Utilizaron una estrategia uno-contra-
tado exponemos las conclusiones y el trabajo todos donde entrenan un sistema binario pa-
futuro. ra cada polaridad. Los tweets fueron tokeni-
nizados para utilizar las palabras o los lemas
2 Clasificación de la polaridad en como caracterı́sticas y el valor de cada carac-
español terı́stica era su coeficiente tf-idf. Posterior-
La mayor parte de los sistemas de clasifica- mente realizaron una validación cruzada para
ción de polaridad están centrados en textos determinar el mejor conjunto de caracterı́sti-
en inglés, y para textos en español el sistema cas y parámetros a utilizar.
más completo, en cuanto a técnicas lingüı́sti- El equipo ELiRF-UPV (Hurtado, Pla, y
cas aplicadas, posiblemente sea The Spanish Buscaldi, 2015) volvió a obtener los mejores
SO Calculator (Brooke, Tofiloski, y Taboada, resultados en la edición de TASS 2015 con
2009), que además de resolver la polaridad de una técnica muy similar a la edición anterior
los componentes clásicos (adjetivos, sustanti- (SVM, tokenización, clasificadores binarios y
vos, verbos y adverbios) trabaja con modifi- coeficientes tf-idf). En este caso utilizaron un
cadores como la detección de negación o los sistema de votación simple entre un mayor
intensificadores. número de clasificadores con parámetros dis-
Los algoritmos de aprendizaje profundo tintos. Los mejores resultados los obtuvieron
(deep-learning en inglés) están dando buenos con un sistema que combinaba 192 sistemas
resultados en tareas donde el estado del ar- SVM con configuraciones diferentes, utilizan-
te parecı́a haberse estancado (Bengio, 2009). do un nuevo sistema SVM para realizar dicha
Estas técnicas también son de aplicación en combinación.
el procesamiento del lenguaje natural (Collo-
bert y Weston, 2008), e incluso ya existen sis-
3 Colección de tweets con
temas orientados al análisis de sentimientos, emoticonos
como el de Socher et al. (Socher et al., 2011). Los algoritmos de deep-learning necesitan
Los algoritmos de aprendizaje automático no grandes volúmenes de datos para su entre-
son nuevos, pero sı́ están resurgiendo gracias namiento. Por ese motivo se ha creado una
a una mejora de las técnicas y la disposición colección de tweets especı́fica para la detec-
de grandes volúmenes de datos necesarios pa- ción de polaridad. Para crear dicha colección
ra su entrenamiento efectivo. se han recuperado tweets con las siguientes
En la edición de TASS en 2012 el equipo caracterı́sticas:
que obtuvo mejores resultados (Saralegi Uri-
zar y San Vicente Roncal, 2012) presentaron Que contengan emoticonos que expresen
un sistema completo de pre-procesamiento de la polaridad del tweet. En este caso se
los tweets y aplicaron un lexicón derivado del han utilizado los siguientes emoticonos:
inglés para polarizar los tweets. Sus resulta-
• Positivos: :) :-) :D :-D
dos eran robustos en granularidad fina (65 %
de accuracy) y gruesa (71 % de accuracy). • Negativos: :( :-(
En la edición de TASS en 2013 el mejor
Que los tweets no contengan URLs, para
equipo (Fernández et al., 2013) tuvo todos
evitar tweets cuyo contenido principal se
sus experimentos en el top 10 de los resul-
encuentra en el enlace.
tados, y la combinación de ellos alcanzó la
primera posición. Presentaron un sistema con Que no sean retweets, para reducir el
dos variantes: una versión modificada del al- número de tweets repetidos.
goritmo de ranking (RA-SR) utilizando bi-
gramas, y una nueva propuesta basada en La captura de dichos tweets se realizó
skipgrams. Con estas dos variantes crearon durante 22 dı́as, del 18/07/2016 hasta el
lexicones sobre sentimientos, y los utilizaron 9/08/2016, recuperando unos 100.000 tweets
junto con aprendizaje automático (SVM) pa- diarios aproximadamente. Tal y como se ve
ra detectar la polaridad de los tweets. en la Figura 1 la recuperación fue muy ho-
En 2014 el equipo con mejores resultados mogénea y se obtuvieron más de 2.000.000
en TASS se denominaba ELiRF-UPV (Hur- de tweets.
42
Participación de SINAI en TASS 2016
anterior, pero en la que se intenta predecir
los términos acompañantes a partir de un
término dado. Con estas topologı́as, si dis-
ponemos de un volumen de textos suficiente,
esta representación puede llegar a capturar
Figura 1: Número de tweets recuperados cada la semántica de cada palabra. El número de
12 horas dimensiones (longitud de los vectores de ca-
da palabra) puede elegirse libremente. Para
Posteriormente, se realizó un filtrado de el cálculo del modelo Word2Vec hemos re-
dichos tweets eliminando aquellos que con- currido al software indicado, creado por los
tubieran menos de 5 palabras, teniendo propios autores del método.
en cuenta que consideramos palabra todo Tal y como se ha indicado, para obtener
término que sólo contenga letras (sin núme- los vectores Word2Vec representativos para
ros, ni caracteres especiales). cada palabra tenemos que generar un modelo
Al final quedaron 1.777.279 clasificados a partir de un volumen de texto grande. Para
según el emoticono que contienen de la si- ello hemos utilizado los parámetros que me-
guiente manera: jores resultados obtuvieron en nuestra par-
ticipación del 2014 (Montejo-Ráez, Garcı́a-
Positivos: 869.339 tweets
Cumbreras, y Dı́az-Galiano, 2014). Por lo
Negativos: 907.940 tweets tanto, a partir de un volcado de Wikipedia2
en Español de los artı́culos en XML, hemos
Por último, se realiza la siguiente limpieza
extraı́do el texto de los mismos. Obtenemos
de tweets:
ası́ unos 2,2 GB de texto plano que alimen-
Convertir el texto a minúsculas. ta al programa word2vec con los parámetros
siguientes: una ventana de 5 términos, el mo-
Eliminar menciones (nombres de usuario
delo skip-gram y un número de dimensiones
que empiezan el caracter @).
esperado de 300, logrando un modelo con más
Sustituir letras acentuadas por sus ver- de 1,2 millones de palabras en su vocabulario.
siones sin acentuar. Como puede verse en la Figura 2, nuestro
Quitar las palabras vacı́as de contenido sistema realiza la clasificación de los tweets
(stopwords). utilizando dos fases de aprendizaje, una en
la que entrenamos el modelo Word2Vec ha-
Normalizar las palabras para que no con- ciendo uso de un volcado de la enciclopedia
tengan letras repetidas, sustituyendo las on-line Wikipedia, en su versión en español,
repeticiones de letras contiguas para de- como hemos indicado anteriormente. De esta
jar sólo 3 repeticiones. forma representamos cada tweet con el vector
resultado de calcular la media de los vectores
4 Descripción del sistema Word2Vec de cada palabra en el tweet y su
Word2Vec1 es una implementación de la ar- desviación tı́pica (por lo que cada vector de
quitectura de representación de las palabras palabras por modelo es de 600 dimensiones).
mediante vectores en el espacio continuo, ba- Se lleva a cabo una simple normalización pre-
sada en bolsas de palabras o n-gramas con- via sobre el tweet, eliminando repetición de
cebida por Tomas Mikolov et al. (Mikolov letras y poniendo todo a minúsculas. La se-
et al., 2013). Su capacidad para capturar la gunda fase de entrenamiento utiliza el algo-
semántica de las palabras queda comproba- ritmo SVM y se entrena con la colección de
da en su aplicabilidad a problemas como la tweets con emoticonos explicada en el aparta-
analogı́a entre términos o el agrupamiento de do 3. La implementación de SVM utilizada es
palabras. El método consiste en proyectar las la basada en kernel lineal con entrenamiento
palabras a un espacio n-dimensional, cuyos SGD (Stochastic Gradient Descent) propor-
pesos se determinan a partir de una estruc- cionada por la biblioteca Sci-kit Learn3 (Pe-
tura de red neuronal mediante un algoritmo dregosa et al., 2011).
recurrente. El modelo se puede configurar pa- Esta solución es la utilizada en las dos va-
ra que utilice una topologı́a de bolsa de pa- riantes de la tarea 1 del TASS con predicción
labras (CBOW) o skip-gram, muy similar al 2
http://dumps.wikimedia.org/eswiki
1 3
https://code.google.com/p/word2vec/ http://scikit-learn.org/
43
A. Montejo-Ráez, M. C. Díaz-Galiano
de 4 clases: la que utiliza el corpus de tweets
Tabla 1: Resultados obtenidos sobre el con-
completo (full test corpus) y el que utiliza el
junto full
corpus balanceado (1k test corpus).
w2v SVM Accuracy Macro-F1
W TASS 61,31 % 48,55 %
W+T TASS 62,39 % 50,44 %
W TASS+T 49,28 % 40,20 %
W+T TASS+T 53,72 % 44,10 %
nerado solamente con Wikipedia, pasando de
61,31 % de ajuste a un 62,39 %. En cambio,
utilizar los tweets capturados para la fase
de entrenamiento supervisado no lleva sino
a una caı́da del rendimiento del sistema.
Figura 2: Flujo de datos del sistema completo Esto nos lleva a plantearnos la pregunta
de qué ocurrirı́a si utilizáramos sólo los tweets
recopilados para generar un modelo de vecto-
5 Resultados obtenidos res de palabras. Los resultados que se obtie-
Hemos experimentado con el efecto que tie- nen son un 59,05 % de ajuste y un 44,43 % de
nen en el rendimiento del sistema el uso de F1. No cabe duda de que conviene explorar el
una colección de datos generada a partir de uso de modelos de generación de caracterı́sti-
la captura de tweets y que han sido etique- cas a partir de vectores de palabras.
tados según los emoticonos que contienen en Estos resultados mejoran nuestros datos
la forma comentada anteriormente. La colec- del año pasado, en los que obtuvimos un ajus-
ción de más de 1,7 millones de tweets ha sido te del 61,19 % combinando vectores de pala-
utilizada al completo para generar un mode- bras (Word2Vec) y vectores de documentos
lo de vectores de palabras, cuya combinación (Doc2Vec).
con el de Wikipedia se ha analizado. También
hemos comprobado cómo el uso de dicha co- 6 Conclusiones y trabajo futuro
lección de tweets afecta cuando se usa para A partir de los resultados obtenidos, encon-
el entrenamiento del modelo de clasificación tramos que resulta interesante la incorpora-
de la polaridad. Para ello se han selecciona- ción de texto no formal (tweets) para la ge-
do 500,000 tweets aleatoriamente de esta co- neración de los modelos de palabras, lo cual
lección, con sus correspondientes etiquetas P tiene su sentido en una tarea de clasifica-
(positivo) o N (negativo) y se han combiando ción que, precisamente, trabaja sobre textos
con la colecciónd de entrenamiento de TASS. no formales que tienen la misma red social
Los resultados según las medidaas de Ac- como fuente. En cambio, el considerar que
curacy y Macro F1 obtenidas se muestran los emoticonos en un tweet pueden ayudar a
en la tabla 1. La primera columna nos in- un clasificador como SVM a mejorar en la
dica a partir de cuáles datos se han genera- determinación de la polaridad ha resultado
do los modelos de vectores de palabras, bien una hipótesis fallida. Esto puede entenderse
sólo con Wikipedia (W) o como combinación echando un vistazo a algunos de los tweets
de ésta con los tweets del corpus construido capturados por el sistema, donde se eviden-
(W+T). La segunda columna indica cómo se cia la dificultad, incluso para una persona,
ha entrenado el clasificador de polaridad a de poner en contexto el sentido del tweet y
partir de los textos etiquetados vectorizados su consideración como positivo o negativo si
con los modelos generados en el paso previo, no disponemos de un emoticono asociado.
bien sólo usando los datos de entrenamiento Como trabajo futuro nos proponemos di-
proporcionados por la organizacion (TASS) o señar una red neuronal profunda más elabo-
incorporando los etiquetados a partir de emo- rada, pero que parta también de textos de
ticonos (TASS+T). entrenamiento tanto formales como no for-
Como podemos observar, el uso de una co- males, si bien teniendo en cuanta información
lección de tweets para ampliar la capacidad lingüı́stica más avanzada como la sintáctica,
de representar un modelo basado en vecto- en lugar de trabajar con simples bolsas de
res de palabras mejora sensiblemente al ge- palabras. También queremos explorar el uso
44
Participación de SINAI en TASS 2016
de redes de este tipo en el proceso de clasfi- Hurtado, Lluı́s F y Ferran Pla. 2014. Elirf-
cación en sı́, y no sólo en la generación de ca- upv en tass 2014: Análisis de sentimien-
racterı́sticas. Una posibilidad es utilizar una tos, detección de tópicos y análisis de sen-
red de tipo DBN (Deep Belief Network) (Hin- timientos de aspectos en twitter. En In
ton y Salakhutdinov, 2006) en la que se añade Proc. of the TASS workshop at SEPLN
una última fase donde se realiza el etiquetado 2014.
de los ejemplos.
Hurtado, Lluı́s-F, Ferran Pla, y Davide Bus-
caldi. 2015. Elirf-upv en tass 2015: Análi-
Bibliografı́a
sis de sentimientos en twitter. En In Proc.
Bengio, Yoshua. 2009. Learning deep archi- of TASS 2015: Workshop on Sentiment
tectures for ai. Foundations and trends in Analysis at SEPLN. CEUR-WS.org, volu-
Machine Learning, 2(1):1–127. men 1397, páginas 35–40.
Brooke, Julian, Milan Tofiloski, y Maite Ta- Mikolov, Tomas, Kai Chen, Greg Corrado, y
boada. 2009. Cross-linguistic sentiment Jeffrey Dean. 2013. Efficient estimation
analysis: From english to spanish. En of word representations in vector space.
Galia Angelova Kalina Bontcheva Ruslan CoRR, abs/1301.3781.
Mitkov Nicolas Nicolov, y Nikolai Nikolov,
editores, RANLP, páginas 50–54. RANLP Montejo-Ráez, A., M.A. Garcı́a-Cumbreras,
2009 Organising Committee / ACL. y M.C. Dı́az-Galiano. 2014. Participación
de SINAI Word2Vec en TASS 2014. En
Collobert, Ronan y Jason Weston. 2008. In Proc. of the TASS workshop at SEPLN
A unified architecture for natural langua- 2014.
ge processing: Deep neural networks with
multitask learning. En Proceedings of the Pedregosa, Fabian, Gaël Varoquaux, Alexan-
25th International Conference on Machi- dre Gramfort, Vincent Michel, Bertrand
ne Learning, ICML ’08, páginas 160–167, Thirion, Olivier Grisel, Mathieu Blondel,
New York, NY, USA. ACM. Peter Prettenhofer, Ron Weiss, Vincent
Dubourg, y others. 2011. Scikit-learn:
Dı́az-Galiano, M.C. y A. Montejo-Ráez. Machine learning in python. The Journal
2015. Participación de SINAI DW2Vec of Machine Learning Research, 12:2825–
en TASS 2015. En In Proc. of TASS 2830.
2015: Workshop on Sentiment Analysis at
Saralegi Urizar, Xabier y Iñaki San Vicen-
SEPLN. CEUR-WS.org, volumen 1397.
te Roncal. 2012. Tass: Detecting senti-
Fernández, Javi, Yoan Gutiérrez, José M. ments in spanish tweets. En TASS 2012
Gómez, Patricio Martı́nez-Barco, Andrés Working Notes.
Montoyo, y Rafael Muñoz. 2013. Sen-
Socher, Richard, Jeffrey Pennington, Eric H.
timent analysis of spanish tweets using a
Huang, Andrew Y. Ng, y Christopher D.
ranking algorithm and skipgrams. En In
Manning. 2011. Semi-supervised recursi-
Proc. of the TASS workshop at SEPLN
ve autoencoders for predicting sentiment
2013.
distributions. En Proceedings of the Con-
Garcı́a-Cumbreras, Miguel Ángel, Julio ference on Empirical Methods in Natural
Villena-Román, Eugenio Martı́nez- Language Processing, EMNLP ’11, pági-
Cámara, Manuel Carlos Dı́az-Galiano, nas 151–161, Stroudsburg, PA, USA. As-
Ma . Teresa Martı́n-Valdivia, y L. Alfonso sociation for Computational Linguistics.
Ureña-López. 2016. Overview of tass
2016. En Proceedings of TASS 2016:
Workshop on Sentiment Analysis at
SEPLN co-located with the 32nd SEPLN
Conference (SEPLN 2016), Salamanca,
Spain, September.
Hinton, Geoffrey E y Ruslan R Salakhutdi-
nov. 2006. Reducing the dimensionality
of data with neural networks. Science,
313(5786):504–507.
45
TASS 2016: Workshop on Sentiment Analysis at SEPLN, septiembre 2016, pág. 47-51
ELiRF-UPV en TASS 2016: Análisis de Sentimientos en Twitter
ELiRF-UPV at TASS 2016: Sentiment Analysis in Twitter
Lluı́s-F. Hurtado y Ferran Pla
Universitat Politècnica de València
Camı́ de Vera s/n
46022 València
{lhurtado, fpla}@dsic.upv.es
Resumen: En este trabajo se describe la participación del equipo del grupo de
investigación ELiRF de la Universitat Politècnica de València en el Taller TASS2016.
Este taller es un evento enmarcado dentro de la XXXII edición del Congreso Anual
de la Sociedad Española para el Procesamiento del Lenguaje Natural. Este trabajo
presenta las aproximaciones utilizadas para las dos tareas planteadas en el taller,
los resultados obtenidos y una discusión de los mismos. Nuestra participación se
ha centrado principalmente en explorar diferentes aproximaciones para combinar un
conjunto de sistemas con lo que se ha obtenido los mejores resultados en ambas
tareas.
Palabras clave: Twitter, Análisis de Sentimientos.
Abstract: This paper describes the participation of the ELiRF research group of
the Universitat Politècnica de València at TASS2016 Workshop. This workshop is a
satellite event of the XXXII edition of the Annual Conference of the Spanish Society
for Natural Language Processing. This work describes the approaches used for the
two tasks of the workshop, the results obtained and a discussion of these results. Our
participation has focused primarily on exploring different approaches for combining
a set of systems. Using these approaches we have achieved the best results in both
tasks.
Keywords: Twitter, Sentiment Analysis.
1. Introducción junto de tweets sobre diferentes aspectos per-
tenecientes al dominio de la polı́tica.
El Taller de Análisis de Sentimientos El presente artı́culo resume la participa-
(TASS) en sus cinco ediciones ha venido plan- ción del equipo ELiRF-UPV de la Universi-
teando tareas relacionadas con el análisis de tat Politècnica de València en todas las tareas
sentimientos en Twitter. El objetivo principal planteadas en este taller. Primero se descri-
es el de comparar y evaluar diferentes aproxi- ben las aproximaciones y recursos utilizados
maciones a estas tareas. Además, desarrolla en cada tarea. A continuación se presenta la
recursos de libre acceso, básicamente, corpora evaluación experimental realizada y los resul-
anotados con polaridad, temática, tendencia tados obtenidos. Finalmente se muestran las
polı́tica, aspectos, que son de gran utilidad conclusiones y posibles trabajos futuros.
para la comparación de diferentes aproxima-
ciones a las tareas propuestas. 2. Descripción de los sistemas
En esta quinta edición del TASS se pro- Los sistemas presentados en el TASS 2016
ponen dos tareas de ediciones anteriores se basan en el sistema desarrollado en la edi-
(Garcı́a-Cumbreras et al., 2016): 1) Determi- cion anterior del TASS 2015 (Hurtado, Pla,
nación de la polaridad en tweets, con dife- y Buscaldi, 2015). Muchas de las caracterı́sti-
rentes grados de intensidad en la polaridad: cas y recursos de este sistema fueron uti-
6 etiquetas y 4 etiquetas y 2) Determinación lizados en las ediciones en las que nuestro
de la polaridad de los aspectos en el corpus equipo ha participado (Pla y Hurtado, 2013)
STOMPOL. Este corpus consta de un con- (Hurtado y Pla, 2014) . El preproceso de los
ISSN 1613-0073
Ll.-F. Hurtado, F. Pla
tweets utiliza la estrategia descrita en el tra- 3. Tarea 1: Análisis de
bajo del TASS 2013 (Pla y Hurtado, 2013). sentimientos en tweets
Esta consiste básicamente en la adaptación
Esta tarea consiste en determinar la pola-
para el castellano del tokenizador de tweets
ridad de los tweets y la organización ha defi-
Tweetmotif (Connor, Krieger, y Ahn, 2010).
nido dos subtareas. La primera distingue seis
También se ha usado Freeling (Padró y Sta-
etiquetas de polaridad: N y N+ que expresan
nilovsky, 2012)1 como lematizador, detector
polaridad negativa con diferente intensidad,
de entidades nombradas y etiquetador mor-
P y P+ para la polaridad positiva con dife-
fosintáctico, con las correspondientes modifi-
rente intensidad, NEU para la polaridad neu-
caciones para el dominio de Twitter. Usando
tra y NONE para expresar ausencia de pola-
esta aproximación, la tokenización ha consis-
ridad. La segunda sólo distinguen 4 etiquetas
tido en agrupar todas las fechas, los signos
de polaridad: N, P, NEU y NONE.
de puntuación, los números y las direcciones
web. Se han conservado los hashtags y las El corpus proporcionado por la organiza-
menciones de usuario. Se ha considerado y ción del TASS consta de un conjunto de en-
evaluado el uso de palabras y lemas como to- trenamiento, compuesto por 7219 tweets eti-
kens ası́ como la detección de entidades nom- quetados con la polaridad usando seis etique-
bradas. tas, y un conjunto de test, de 60798 tweets,
al cual se le debe asignar la polaridad. La dis-
Todas las tareas se han abordado como tribución de tweets según su polaridad en el
un problema de clasificación. Se han utiliza- conjunto de entrenamiento se muestra en la
do Máquinas de Soporte Vectorial (SVM) por Tabla 1.
su capacidad para manejar con éxito gran-
des cantidades de caracterı́sticas. En concreto Polaridad # tweets %
usamos dos librerı́as (LibSVM2 y LibLinear3 ) N 1335 18.49
que han demostrado ser eficientes implemen- N+ 847 11.73
taciones de SVM que igualan el estado del NEU 670 9.28
arte. El software está desarrollado en Python NONE 1483 20.54
y para acceder a las librerı́as de SVM se ha P 1232 17.07
utilizado el toolkit scikit-learn4 . (Pedregosa P+ 1652 22.88
et al., 2011). TOTAL 7219 100
En este trabajo se ha explotado la técni-
ca de combinación de diferentes configuracio-
nes de clasificadores para aprovechar su com- Tabla 1: Distribución de tweets en el conjunto
plementariedad. Se ha utilizado la técnica de de entrenamiento según su polaridad.
votación simple utilizada en trabajos ante-
riores (Pla y Hurtado, 2013) (Pla y Hurtado, A partir de la tokenización propuesta se
2014b) pero en este caso extendiéndola a un realizó un proceso de validación cruzada (10-
número mayor de clasificadores, con diferen- fold cross validation) para determinar el me-
tes parámetros y caracterı́sticas (palabras, le- jor conjunto de caracterı́sticas y los paráme-
mas, n-gramas de palabras y lemas) ası́ como tros del modelo. Como caracterı́sticas se pro-
estrategias de combinación alternativas. baron diferentes tamaños de n-gramas de pa-
labras y de lemas. También se exploró la com-
Cada tweet se ha representado como un
binación de los modelos mediante diferentes
vector que contiene los coeficientes tf-idf de
técnicas de votación para aprovechar su com-
las caracterı́sticas consideradas. En toda la
plementariedad y mejorar las prestaciones fi-
experimentación realizada, las caracterı́sticas
nales. Algunas de éstas técnicas proporcio-
y los parámetros de los clasificadores se han
naron mejoras significativas sobre el mismo
elegido mediante una validación cruzada de
conjunto de datos, como se muestra en (Pla
10 iteraciones (10-fold cross-validation) sobre
y Hurtado, 2014b). En todos los casos se han
el conjunto de entrenamiento.
utilizado diccionarios de polaridad, tanto de
lemas (Saralegi y San Vicente, 2013), como
1
http://nlp.lsi.upc.edu/freeling/
de palabras (Martı́nez-Cámara et al., 2013)
2
http://www.csie.ntu.edu.tw/˜cjlin/libsvm/ y el diccionario Afinn (Hansen et al., 2011)
3
http://www.csie.ntu.edu.tw/˜cjlin/liblinear/ traducido automáticamente del inglés al cas-
4
http://scikit-learn.org/stable/ tellano.
48
ELiRF-UPV en TASS 2016: Análisis de Sentimientos en Twitter
Se han considerado dos alternativas para Los sistemas presentados han obtenido las
abordar la tarea: dos primeras posiciones en las dos subtareas
consideradas.
run1 La primera alternativa combina
mediante un sistema de votación ponde- Run Accuracy
rada la salida de 192 clasificadores ba- run1 0.662
sados en el uso de SVM. La diferencia 6-ETIQUETAS run2 0.673
entre los clasificadores radica en el pre- run1 0.707
procesado y la tokenización utilizada, las 4-ETIQUETAS run2 0.721
caracterı́sticas seleccionadas y los valo-
res de los parámetros del propio modelo
SVM. Tabla 2: Resultados oficiales del equipo
En concreto se realizaron todas las com- ELiRF-UPV en la Tarea 1 de la competición
binaciones posibles entre 8 tokenizacio- TASS-2016 sobre el conjunto de test para 6
nes (lemas o palabras, detectar NE o no, y 4 etiquetas.
detectar menciones a usuarios y hash-
tags, ...); 4 conjuntos distinto de ca-
racterı́sticas (palabras o bigramas con y 4. Tarea 2: Análisis de Polaridad
sin diccionarios de polaridad) y 6 valo- de Aspectos en Twitter
res distintos del parámetro c del modelo Esta tarea consiste en asignar la polari-
SVM con kernel lineal. dad a los aspectos que aparecen marcados en
La clase asignada a cada tweet t viene el corpus. Una de las dificultades de la tarea
determinada por la siguiente fórmula. consiste en definir qué contexto se le asigna a
cada aspecto para poder establecer su polari-
ĉ = argmax(Nt (c) · P (c)) (1) dad. Para un problema similar, detección de
c∈C
la polaridad a nivel de entidad, en la edición
del TASS 2013, propusimos una segmenta-
Donde C es el conjunto de todas las cla- ción de los tweets basada en un conjunto de
ses, Nt (c) es el número de clasificadores heurı́sticas (Pla y Hurtado, 2013). Esta apro-
que asignan la clase c al tweet t, y P (c) ximación también se utilizó para la tarea de
es la probabilidad a priori de la clase c detección de la tendencia polı́tica de los usua-
calculada utilizando el corpus de entre- rios de Twitter (Pla y Hurtado, 2014a) y pa-
namiento. ra este caso proporcionó buenos resultados.
run2 La segunda alternativa explora En este trabajo se propone una aproximación
la combinación de modelos mediante el más simple que consiste en determinar el con-
aprendizaje de un metaclasificador. Uti- texto de cada aspecto a través de una venta-
lizando las salidas de los mismos 192 cla- na fija definida a la izquierda y derecha de la
sificadores que en el run anterior, se ha instancia del aspecto. Esta aproximación es
aprendido un segundo modelo SVM que la que se utilizó en nuestro sistema del TASS
sirve para proporcionar la nueva salida 2015 la cual utiliza ventanas de diferente lon-
combinada. Se ha destinado una parte gitud. La longitud de la ventana óptima se
del corpus de entrenamiento para ajus- ha determinado experimentalmente sobre el
tar los parámetros del metamodelo. Esta conjunto de entrenamiento mediante una va-
aproximación es la misma que la utiliza- lidación cruzada. Para entrenar nuestro sis-
da en la edición del TASS 2015. tema, se ha considerado el conjunto de entre-
namiento únicamente, se han determinado los
Para la subtarea de 4 etiquetas el run1 se segmentos para cada aspecto y se ha seguido
ha aprendido utilizando el corpus de apren- una aproximación similar a la Tarea 1.
dizaje con 4 etiquetas mientras que el run2, El corpus de la tarea, corpus STOMPOL,
dada la complejidad del ajuste de parámetros se compone de un conjunto de tweets relacio-
del metamodelo se ha optado por adaptar el nados con una serie de aspectos polı́ticos (co-
resultado de la subtarea de 6 etiquetas unien- mo economı́a, sanidad, etc.) enmarcados en
do P y P+ como P y N y N+ como N. la campaña polı́tica de las elecciones andalu-
En la Tabla 2 se muestran los valores de zas de 2015. Cada aspecto se relaciona con
Accuracy obtenidos para las dos subtareas. una o varias entidades que se corresponden
49
Ll.-F. Hurtado, F. Pla
con uno de los principales partidos polı́ticos dos últimas ediciones del TASS, creemos que
en España (PP, PSOE, IU, UPyD, Cs y Pode- se está cerca de alcanzar los mejores resulta-
mos). El corpus consta de 1.284 tweets, y ha dos posibles en la tarea de Análisis de senti-
sido dividido en un conjunto de entrenamien- mientos tal y como se ha venido planteando
to (784 tweets) y un conjunto de evaluación hasta el momento.
(500 tweets). A la vista de los buenos resultados que se
han obtenido mediante la combinación de sis-
4.1. Aproximación y resultados temas, como trabajo futuro nos planteamos
A continuación presentamos una pequeña desarrollar nuevos métodos de combinación
descripción de las caracterı́sticas de nuestro de sistemas más sofisticados ası́ como la in-
sistema ası́ como el proceso seguido en la fase clusión de otros paradigmas de clasificación
de entrenamiento. El sistema utiliza un cla- más hetereogéneos (distintos de los SVM) pa-
sificador basado en SVM. Para aprender los ra aumentar la complementariedad de los sis-
modelos sólo se utiliza el conjunto de entre- temas combinados.
namiento proporcionado para la tarea y los Además, se pretende extender el sistema
diccionarios de polaridad previamente descri- para otros idiomas. El sistema descrito ya
tos. Antes de abordar el entrenamiento se de- ha sido utilizado, con ligeras modificaciones,
terminan los segmentos de tweet que cons- en tareas de análisis de sentimientos para el
tituyen el contexto de cada una de los as- Inglés en la competición Semeval (Martı́nez,
pectos presentes. Se ha tenido en cuenta tres Pla, y Hurtado, 2016) aunque con resultados
tamaños de ventana de longitudes 5, 7 y 10 no tan satisfactorios como en las tareas del
palabras a la izquierda y derecha del aspec- TASS.
to. Cada uno de los segmentos se tokeniza y
se utiliza Freeling para determinar sus lemas Agradecimientos
y ciertas entidades. A continuación se apren- Este trabajo ha sido parcialmente subven-
den diferentes modelos combinando tamaños cionado por el MINECO mediante el proyec-
de ventana, parámetros del modelo y diferen- to ASLP-MULAN: Audio, Speech and Lan-
tes caracterı́sticas (palabras, lemas, NE, etc). guage Processing for Multimedia Analytics
Mediante validación cruzada se elige el mejor (TIN2014-54288-C4-3-R).
modelo. Para esta tarea sólo hemos presenta-
do un modelo. Bibliografı́a
Run Accuracy Connor, Brendan O, Michel Krieger, y Da-
STOMPOL run1 0.633 vid Ahn. 2010. Tweetmotif: Exploratory
search and topic summarization for twit-
ter. En William W. Cohen y Samuel Gos-
Tabla 3: Resultados oficiales del equipo ling, editores, Proceedings of the Fourth
ELiRF-UPV en la Tarea 2 de la competición International Conference on Weblogs and
TASS-2016 para el corpus STOMPOL. Social Media, ICWSM 2010, Washington,
DC, USA, May 23-26, 2010. The AAAI
En la Tabla 3 se presentan los resultados Press.
obtenidos para la Tarea 2 con lo que nuestra
aproximación ha obtenido la primera posición Garcı́a-Cumbreras, Miguel Ángel, Julio
en dicha tarea. Villena-Román, Eugenio Martı́nez-
Cámara, Manuel Carlos Dı́az-Galiano,
5. Conclusiones y trabajos Ma . Teresa Martı́n-Valdivia, y L. Alfonso
futuros Ureña-López. 2016. Overview of tass
2016. En Proceedings of TASS 2016:
En este trabajo se ha presentado la parti-
Workshop on Sentiment Analysis at
cipación del grupo ELiRF-UPV en las 2 ta-
SEPLN co-located with the 32nd SEPLN
reas planteadas en TASS 2016. Nuestro equi-
Conference (SEPLN 2016), Salamanca,
po ha utilizado aproximaciones basadas en
Spain, September.
máquinas de soporte vectorial y se ha cen-
trado principalmente en combinar diferentes Hansen, Lars Kai, Adam Arvidsson,
sistemas. Finn Årup Nielsen, Elanor Colleoni,
Haciendo un análisis del número de parti- y Michael Etter. 2011. Good friends, bad
cipantes y de los resultados obtenidos en las news-affect and virality in twitter. En
50
ELiRF-UPV en TASS 2016: Análisis de Sentimientos en Twitter
Future information technology. Springer, Pla, Ferran y Lluı́s-F. Hurtado. 2014b. Sen-
páginas 34–43. timent analysis in twitter for spanish. En
Elisabeth Métais Mathieu Roche, y Ma-
Hurtado, Lluı́s F., Ferran Pla, y Davide Bus-
guelonne Teisseire, editores, Natural Lan-
caldi. 2015. Elirf-upv en tass 2015: Análi-
guage Processing and Information Sys-
sis de sentimientos en twitter. En SEPLN.
tems, volumen 8455 de Lecture Notes in
Hurtado, LLuı́s F y Ferran Pla. 2014. Elirf- Computer Science. Springer International
upv en tass 2014: Análisis de sentimien- Publishing, páginas 208–213.
tos, detección de tópicos y análisis de Saralegi, Xabier y Iñaki San Vicente. 2013.
sentimientos de aspectos en twitter. En Elhuyar at tass 2013. En Proceedings of
TASS2014. the TASS workshop at SEPLN 2013. IV
Martı́nez, Vı́ctor, Ferran Pla, y Lluı́s-F Hur- Congreso Español de Informática.
tado. 2016. Dsic-elirf at semeval-2016
task 4: Message polarity classification in
twitter using a support vector machine ap-
proach.
Martı́nez-Cámara, E., M. T. Martı́n-
Valdivia, M. D. Molina-gonzález, y
L. A. Ureña-lópez. 2013. Bilingual
Experiments on an Opinion Comparable
Corpus. En Proceedings of the 4th Works-
hop on Computational Approaches to
Subjectivity, Sentiment and Social Media
Analysis, página 87–93.
Padró, Lluı́s y Evgeny Stanilovsky. 2012.
Freeling 3.0: Towards wider multilingua-
lity. En Proceedings of the Langua-
ge Resources and Evaluation Conference
(LREC 2012), Istanbul, Turkey, May. EL-
RA.
Pedregosa, F., G. Varoquaux, A. Gramfort,
V. Michel, B. Thirion, O. Grisel, M. Blon-
del, P. Prettenhofer, R. Weiss, V. Du-
bourg, J. Vanderplas, A. Passos, D. Cour-
napeau, M. Brucher, M. Perrot, y E. Du-
chesnay. 2011. Scikit-learn: Machine lear-
ning in Python. Journal of Machine Lear-
ning Research, 12:2825–2830.
Pla, Ferran y Lluı́s-F Hurtado. 2013. Tass-
2013: Análisis de sentimientos en twitter.
En Proceedings of the TASS workshop at
SEPLN 2013. IV Congreso Español de In-
formática.
Pla, Ferran y Lluı́s-F. Hurtado. 2014a. Po-
litical tendency identification in twitter
using sentiment analysis techniques. En
Proceedings of COLING 2014, the 25th
International Conference on Computatio-
nal Linguistics: Technical Papers, pági-
nas 183–192, Dublin, Ireland, August. Du-
blin City University and Association for
Computational Linguistics.
51
TASS 2016: Workshop on Sentiment Analysis at SEPLN, septiembre 2016, pág. 53-57
GTI at TASS 2016: Supervised Approach for Aspect Based
Sentiment Analysis in Twitter∗
GTI en TASS 2016: Una aproximación supervisada para el análisis de
sentimiento basado en aspectos en Twitter
Tamara Álvarez-López, Milagros Fernández-Gavilanes, Silvia Garcı́a-Méndez,
Jonathan Juncal-Martı́nez, Francisco Javier González-Castaño
GTI Research Group, AtlantTIC
University of Vigo, 36310 Vigo, Spain
{talvarez,mfgavilanes,sgarcia,jonijm}@gti.uvigo.es, javier@det.uvigo.es
Resumen: Este artı́culo describe la participación del grupo de investigación GTI,
del centro AtlantTIC, perteneciente a la Universidad de Vigo, en el tass 2016. Este
taller es un evento enmarcado dentro de la XXXII edición del Congreso Anual de
la Sociedad Española para el Procesamiento del Lenguaje Natural. En este trabajo
se propone una aproximación supervisada, basada en clasificadores, para la tarea de
análisis de sentimiento basado en aspectos. Mediante esta técnica hemos conseguido
mejorar las prestaciones de ediciones anteriores, obteniendo una solución acorde con
el estado del arte actual.
Palabras clave: Análisis de sentimiento, aspectos, SVM, aprendizaje automático,
Twitter
Abstract: This paper describes the participation of the GTI research group of
AtlantTIC, University of Vigo, in tass 2016. This workshop is framed within the
XXXII edition of the Annual Congress of the Spanish Society for Natural Language
Processing event. In this work we propose a supervised approach based on classifiers,
for the aspect based sentiment analysis task. Using this technique we managed to
improve the performance of previous years, obtaining a solution reflecting the actual
state-of-the-art.
Keywords: Sentiment analysis, aspects, SVM, machine learning, Twitter
1 Introduction mum length of the post. However, tweets
have other elements we have to consider,
The social media activity is being profused
like hashtags, mentions and retweets. More
in the recent years, users post opinions and
concretely, aspect-based sentiment analysis
comments in Twitter and in other social plat-
(absa) consists of extracting opinions, i.e.
forms. Due to this, there is a huge amount
determining the sentiment polarity, from spe-
of information available that could be use-
cific entities in the text (Liu, 2012). There-
ful for business, in order to design marketing
fore, this task becomes a challenge on the
campaigns or to apply any kind of business
field of nlp.
analysis.
As a consequence, the research on text The tass Workshop (Garcı́a-Cumbreras
mining and also on the field of Sentiment et al., 2016) and the sepln conference of-
Analysis (sa) has grown considerably these fer an opportunity for participants to know
days. sa is the part of Natural Language Pro- about the latest advances on the field of nlp
cessing (nlp) responsible for determining the for Spanish language.
polarity of a text or a whole sentence. The Many approaches applied to sa can be
sa applied to Twitter has to be conducted found in the literature, where it is possi-
in a restricted scenario due to the maxi- ble to distinguish between knowledge based
∗
approaches (Brooke, Tofiloski, and Taboada,
This work was partially supported by the Minis-
terio de Economı́a y Competitividad under project
2009; Fernández-Gavilanes et al., 2016), us-
COINS (TEC2013-47016-C2-1-R) and by Xunta de ing grammars and thesaurus and others
Galicia (GRC2014/046). based on machine learning approaches (Mo-
ISSN 1613-0073
T. Álvarez-López, M. Fernández-Gavilanes, S. García-Méndez, J. Juncal-Martínez, F. J. González-Castaño
hammad, Kiritchenko, and Zhu, 2013). In plying sa to Twitter has been fully ad-
the last years we can also find deep learning dressed (Pak and Paroubek, 2010; Han and
approaches (Bengio, 2009), applied to this Baldwin, 2011). Within the chosen solu-
task. tions, we highlight the text normalization
We present our supervised machine learn- approach (Fabo, Cuadros, and Etchegoyhen,
ing (ml) system which consists of a Support 2013) and the use of key elements in classifi-
Vector Machine (svm) classifier. Our objec- cation approach (Wang et al., 2011). Others
tive is to conduct the sa process at an aspect hold the advantages of using deep learning
level, task 2, determining the polarity of a techniques in this task (dos Santos and Gatti,
specific given part of a sentence. 2014).
The article is structured as follows. Sec- According to the purpose of the developed
tion 2 is a review of the research involving sa systems, it is possible to find applications
in the Twitter domain. Then, the Section 3 like classification of product reviews and po-
describes the applied approach and the im- litical sentiment and election results pre-
plemented system. In Section 4, we show the diction (Bermingham and Smeaton, 2011),
experimental results of our system. Finally, among others.
in Section 5 we present the conclusions and
future works. 3 System Overview
In this section we make a brief description
2 Related work of the system submitted for Task 2: Aspect-
A large amount of literature related to Opin- based sentiment analysis. We developed a
ion Mining (om) and sa can be found (Pang supervised system, based on a svm classifier
and Lee, 2008; Martı́nez-Cámara et al., using different features. In the next subsec-
2016). Most of the systems are applied to tions we explain the different steps required.
Twitter. However others are applied to social
media platforms within the micro-blog con- 3.1 Preprocessing
text. Due to this, the approaches are varied Before applying any supervised approach to
technically and in connection with the pur- our corpus, some preprocessing is needed.
pose. First of all, we have to normalize the text,
Two main approaches exist in sa: super- since in Twitter language we can find abbre-
vised and unsupervised learning ones. Super- viations, mentions, hashtags, URLs or mis-
vised systems implement classification meth- spellings. In order to do that, we replace the
ods like svm, Logistic Regression (lr), Con- URLs with the “URL” tag and we replace the
ditional Random Fields (crf), K-Nearest abbreviations or misspellings with the correct
Neighbors (knn), etc. Cui, Mittal, and Datar entire word. For mentions and hashtags, we
(2006) affirmed that svm are more appro- keep them unchanged but deleting the “@”
priate for sentiment classification than gen- or “#” symbols. Moreover, when a hashtag
erative models, due to their capability for is composed of several words, we split and
working with ambiguity, that is, dealing with treat them as different tokens.
mixed feelings. Supervised algorithms are After this, a lexical analysis is carried out.
used when the number of classes, as well as It consists of lemmatization and POS tag-
the representative members of each class, are ging, which are performed by means of Freel-
known. ing tool (Atserias et al., 2006).
Unsupervised systems are based on lin- Once we have analysed lexically the texts,
guistic knowledge like lexicons, and syntactic we decided to separate the sentences by the
features in order to infer the polarity (Pal- different aspects. For doing that, the scope
toglou and Thelwall, 2012). These last tech- of each aspect is determined, applying the
niques represent a more effective approach in following rules, which are adapted from our
the cross-domain context and for multilingual English aspect based sentiment anaylisis sys-
applications. The unsupervised classification tem (Alvarez-López et al., 2016)
algorithms do not work with a training set,
in contrast, some of them use clustering algo- • If there is only one aspect in the sen-
rithms in order to distinguish groups (Li and tence, we keep the sentence unchanged,
Liu, 2010). and introduce it entirely as input for the
As noted earlier, the special case of ap- next step.
54
GTI en TASS 2016: Una aproximación supervisada para el análisis de sentimiento basado en aspectos en Twitter
• If there are multiple aspects, we separate a number of political issues, such as health
the sentences by punctuation marks, or economy, among others. These issues are
conjunctions or other aspects found. framed in the political campaign of Andalu-
sian elections in 2015, where each aspect re-
• If there are several aspects with no words
lates to one or several entities that corre-
between them, we consider that they be-
spond to one of the main political parties
long to the same context, and assign the
in Spain (PP, PSOE, IU, UPyD, Cs and
same polarity to all of them.
Podemos). The corpus is composed by 1,284
tweets, and has been divided into a training
3.2 SVM classifier set (784 tweets) and a set of evaluation (500
In this section we describe the strategy fol- tweets).
lowed to determine the sentiment (positive, In order to evaluate the performance of
negative or neutral) for each aspect prede- the various features for polarity classification
fined in corpus. at an aspect-based level, we perform a se-
We develop a svm classifier, using the lib- ries of ablation experiments as shown in Ta-
svm library (Chang and Lin, 2011). The in- ble 1. We start with the word token base-
puts for the svm will be the sentences sep- line classifier, and then add all four sets of
arated by contexts, as explained in the pre- features that help to increase performance as
vious subsection. The features extracted are measured by accuracy. As we might expect,
the following: including the aspect feature has the most
marked effect on the performance of polarity
• Word tokens of nouns, adjectives and classification, although all the features con-
verbs in the sentence. tributed to improving overall performance on
• Lemmas of verbs, nouns and adjectives stompol corpus.
that appear in each sentence.
Type Accuracy Improvement
• POS tags of nouns, adjectives and verbs.
Word token 56.12
• N-grams of different length, grouping the +Lemmas 57.64 +1.52%
words in each sentence. +pos tags 58.26 +0.62%
• Aspects appearing in the sentence. We +Aspects 59.94 +1.68%
join “aspect”-“entity”, defined in each +Negations 60.60 +0.66%
target as a feature.
• Negations. We create a negation dic- Table 1: Results for polarity feature ablation
tionary, which contains several parti- experiments on stompol corpus
cles indicating negation, such as “no”,
“nunca”, etc. Due to the low participation of research
teams in task 2 this year, we decided to com-
The previous features are all binary ones, pare our proposal to the systems presented
assigning the value 1 if the current feature is this year and also to that ones of last year,
present in the tweet and the value 0, if not. because of the use of the same dataset.
For this reason, Table 2 compares results
4 Experimental Results for our approach with different official ones
The Task 2: Sentiment Analysis at the as- submitted in 2015 and 2016 tass editions.
pect level consists of assigning a polarity label In this way, we compared our results for a
to each aspect, which were initially marked ml approach based on well-known squared-
in the stompol corpus (Martı́nez-Cámara et regularised logistic regression with a snippet
al., 2016) raised by the tass organization. In of length 4 (Lys-2) described in Vilares et
this way, this corpus provides both polarity al. (2015), a clustering method focused on
labels and the identification of the aspects grouping authors with similar sociolinguis-
that appear in each tweet. The aim is to be tic insights (TID-spark) described in Park
able to correctly assign to each aspect a pos- (2015), a recurrent neural network composed
itive, negative or neutral polarity. of a single long short term memory and a
In this regard, the stompol corpus con- logistic function (Lys-1) described in Vilares
sists of a set of Spanish tweets related to et al. (2015), a ml approach based on a
55
T. Álvarez-López, M. Fernández-Gavilanes, S. García-Méndez, J. Juncal-Martínez, F. J. González-Castaño
svm with a snipped of length 5,7 and 10 In Proceedings of LREC, volume 6, pages
(ELiRF) described in Hurtado, Plà, and Bus- 48–55.
caldi (2015), and the best performing run of
Bengio, Y. 2009. Learning deep architec-
the actual task 2 tass edition (ELiRF-UPV).
tures for AI. Found. Trends Mach. Learn.,
2(1):1–127, January.
Experiment Task edition Accuracy
Bermingham, A. and A. F. Smeaton. 2011.
ELiRF-UPV 2016 63.3
On using Twitter to monitor political sen-
ELiRF 2015 63.3
timent and predict election results.
GTI 2016 60.6
LyS-1 2015 59.9 Brooke, J., M. Tofiloski, and M. Taboada.
TID-spark 2015 55.7 2009. Cross-linguistic sentiment analysis:
Lys-2 2015 54.0 From english to spanish. In G. Angelova,
K. Bontcheva, R. Mitkov, N. Nicolov, and
N. Nikolov, editors, RANLP, pages 50–
Table 2: Results of different approaches in 54. RANLP 2009 Organising Committee
2015/2016 tass editions on stompol corpus / ACL.
Comparing the results, the performance of Chang, C.-C. and C.-J. Lin. 2011. Libsvm: a
our current model is close from the top rank- library for support vector machines. ACM
ing systems of this and last year. Transactions on Intelligent Systems and
Technology (TIST), 2(3):27.
5 Conclusions and future works
Cui, H., V. Mittal, and M. Datar. 2006.
This paper describes the participation of the
Comparative experiments on sentiment
GTI group in the tass 2016, Task 2: Aspect-
classification for online product reviews.
Based Sentiment Analysis. We developed a
In Proceedings of the 21st National Con-
supervised system based on a svm classifier
ference on Artificial Intelligence - Vol-
for the aspect-based sentiment analysis. The
ume 2, AAAI’06, pages 1265–1270. AAAI
performance of our approach has been com-
Press.
pared to that ones submitted this year but
also to that ones submitted last year. Exper- dos Santos, C. N. and M. Gatti. 2014. Deep
imental results suggest that we need to in- convolutional neural networks for senti-
clude explore new features, such as word em- ment analysis of short texts. In COLING,
bedding representations or paraphrase (Zhao pages 69–78.
and Lan, 2015), in order to improve the per-
Fabo, P. R., M. Cuadros, and T. Etchegoy-
formance.
hen. 2013. Lexical normalization of
As future work we plan to include new fea-
spanish tweets with preprocessing rules,
tures explained before and to develop a new
domain-specific edit distances, and lan-
system which combines different ml classifi-
guage models. In Proceedings of the Tweet
cation methods. We are also interested in
Normalization Workshop co-located with
considering different paradigms of heteroge-
29th Conference of the Spanish Society
neous classification, such as deep learning to
for Natural Language Processing (SEPLN
increase the performance.
2013), Madrid, Spain, September 20th,
References 2013., pages 59–63.
Alvarez-López, T., J. Juncal-Martınez, Fernández-Gavilanes, M., T. Álvarez-López,
M. Fernández-Gavilanes, E. Costa- J. Juncal-Martı́nez, E. Costa-Montenegro,
Montenegro, and F. J. González-Castano. and F. J. González-Castaño. 2016. Unsu-
2016. Gti at semeval-2016 task 5: Svm pervised method for sentiment analysis in
and crf for aspect detection and unsu- online texts. Expert Systems with Appli-
pervised aspect-based sentiment analysis. cations, 58:57–75.
Proceedings of SemEval, pages 306–311. Garcı́a-Cumbreras, M. A., J. Villena-Román,
Atserias, J., B. Casas, E. Comelles, E. Martı́nez-Cámara, M. C. Dı́az-Galiano,
M. González, L. Padró, and M. Padró. M. T. Martı́n-Valdivia, and L. A. Ureña-
2006. Freeling 1.3: Syntactic and seman- López. 2016. Overview of tass 2016. In
tic services in an open-source NLP library. Proceedings of TASS 2016: Workshop on
56
GTI en TASS 2016: Una aproximación supervisada para el análisis de sentimiento basado en aspectos en Twitter
Sentiment Analysis at SEPLN co-located (LREC’10), Valletta, Malta, may. Eu-
with the 32nd SEPLN Conference (SE- ropean Language Resources Association
PLN 2016), Salamanca, Spain, Septem- (ELRA).
ber.
Paltoglou, G. and M. Thelwall. 2012. Twit-
Han, B. and T. Baldwin. 2011. Lexi- ter, myspace, digg: Unsupervised sen-
cal normalisation of short text messages: timent analysis in social media. ACM
Makn sens a #twitter. In Proceedings of Transactions on Intelligent Systems and
the 49th Annual Meeting of the Associa- Technology (TIST), 3(4):66.
tion for Computational Linguistics: Hu- Pang, B. and L. Lee. 2008. Opinion min-
man Language Technologies - Volume 1, ing and sentiment analysis. Found. Trends
HLT ’11, pages 368–378, Stroudsburg, PA, Inf. Retr., 2(1-2):1–135, January.
USA. Association for Computational Lin-
guistics. Park, S. 2015. Sentiment classification us-
ing sociolinguistic clusters. In Proceedings
Hurtado, L. F., F. Plà, and D. Bus- of TASS 2015: Workshop on Sentiment
caldi. 2015. ELiRF-UPV en TASS Analysis at SEPLN co-located with 31st
2015: Análisis de sentimientos en Twit- SEPLN Conference (SEPLN 2015), Ali-
ter. In Proceedings of TASS 2015: Work- cante, Spain, September 15, 2015., pages
shop on Sentiment Analysis at SEPLN co- 99–104.
located with 31st SEPLN Conference (SE-
PLN 2015), Alicante, Spain, September Vilares, D., Y. Doval, M. A. Alonso, and
15, 2015., pages 75–79. C. Gómez-Rodrı́guez. 2015. Lys at
TASS 2015: Deep learning experiments
Li, G. and F. Liu. 2010. A clustering-based for sentiment analysis on spanish tweets.
approach on sentiment analysis. In Intel- In Proceedings of TASS 2015: Work-
ligent Systems and Knowledge Engineer- shop on Sentiment Analysis at SEPLN co-
ing (ISKE), 2010 International Confer- located with 31st SEPLN Conference (SE-
ence on, pages 331–337. IEEE. PLN 2015), Alicante, Spain, September
15, 2015., pages 47–52.
Liu, B. 2012. Sentiment Analysis and Opin-
ion Mining. Synthesis Lectures on Human Wang, X., F. Wei, X. Liu, M. Zhou, and
Language Technologies. Morgan & Clay- M. Zhang. 2011. Topic sentiment anal-
pool Publishers. ysis in Twitter: A graph-based hashtag
sentiment classification approach. In Pro-
Martı́nez-Cámara, E., M. A. Garcı́a- ceedings of the 20th ACM International
Cumbreras, J. Villena-Román, and Conference on Information and Knowl-
J. Garcı́a-Morera. 2016. Tass 2015 - the edge Management, CIKM ’11, pages 1031–
evolution of the spanish opinion mining 1040, New York, NY, USA. ACM.
systems. Procesamiento del Lenguaje
Natural, 56:33–40. Zhao, J. and M. Lan. 2015. Ecnu: Lever-
aging word embeddings to boost perfor-
Mohammad, S. M., S. Kiritchenko, and mance for paraphrase in Twitter. In Pro-
X. Zhu. 2013. Nrc-canada: Building the ceedings of the 9th International Work-
state-of-the-art in sentiment analysis of shop on Semantic Evaluation (SemEval
tweets. In Proceedings of the seventh in- 2015), pages 34–39, Denver, Colorado,
ternational workshop on Semantic Evalu- June. Association for Computational Lin-
ation Exercises (SemEval-2013), Atlanta, guistics.
Georgia, USA, June.
Pak, A. and P. Paroubek. 2010. Twit-
ter as a corpus for sentiment analy-
sis and opinion mining. In N. C. C.
Chair), K. Choukri, B. Maegaard, J. Mar-
iani, J. Odijk, S. Piperidis, M. Ros-
ner, and D. Tapias, editors, Proceedings
of the Seventh International Conference
on Language Resources and Evaluation
57