=Paper=
{{Paper
|id=Vol-2172/p15_sinai_tass2018
|storemode=property
|title=SINAI en TASS 2018: Inserción de Conocimiento Emocional Externo a un Clasificador Lineal de Emociones
(SINAI at TASS 2018: Lineal Classification System with Emotional External Knowledge)
|pdfUrl=https://ceur-ws.org/Vol-2172/p15_sinai_tass2018.pdf
|volume=Vol-2172
|authors=Flor Miriam-Plaza-del-Arco,Eugenio Martínez-Cámara,M. Teresa Martín-Valdivia,L. Alfonso Ureña-López
|dblpUrl=https://dblp.org/rec/conf/sepln/ArcoMVU18
}}
==SINAI en TASS 2018: Inserción de Conocimiento Emocional Externo a un Clasificador Lineal de Emociones
(SINAI at TASS 2018: Lineal Classification System with Emotional External Knowledge)==
TASS 2018: Workshop on Semantic Analysis at SEPLN, septiembre 2018, págs. 125-130
SINAI en TASS 2018: Inserción de Conocimiento
Emocional Externo a un Clasificador Lineal de
Emociones
SINAI at TASS 2018: Lineal Classification System with
Emotional External Knowledge
Flor Miriam-Plaza-del-Arco1 , Eugenio Martı́nez Cámara2 ,
M. Teresa Martı́n Valdivia1 , L. Alfonso Ureña-López1
1
Departamento de Informática,
Centro de Estudios Avanzados en Tecnologı́as de la Información y de la Comunicación
Universidad de Jaén, Campus Las Lagunillas, 23071, Jaén, Spain
2
Instituto Andaluz de Investigación en Ciencia de Datos e Inteligencia Computacional (DaSCI)
Universidad de Granada
{fmplaza, maite, laurena}@ujaen.es, emcamara@decsai.ugr.es
Resumen: Este artı́culo describe el sistema de clasificación de emociones desarrolla-
do por el equipo SINAI en la Tarea 4 de la competición TASS 2018. Nuestro sistema
se basa en un método supervisado con SVM utilizando caracterı́sticas emocionales.
Para ello, hacemos uso de distintos lexicones emocionales y realizamos la adaptación
de las distintas emociones a la polaridad de las mismas. Los resultados obtenidos
nos animan a seguir trabajando en este tipo de tareas.
Palabras clave: Análisis de Sentimientos, minerı́a de emociones, lexicones emocio-
nales, SVM
Abstract: In this paper, we present the emotion classification system developed by
the SINAI team for the Task 4 at TASS 2018 workshop. Our approach is based on a
supervised learning algorithm, SVM, using emotional features, which are grounded
in several emotional lexicons. The obtained results encourage us to continue working
on this line.
Keywords: Sentiment Analysis, emotion mining, emotional lexicons, SVM
1 Introducción de noticias, blogs o microblogs en los que los
En este trabajo se describen las aportacio- usuarios publican abiertamente. Si nos cen-
nes realizadas a la Tarea 4 del taller TASS tramos en el dominio de las noticias, encon-
(Good Or Bad News? Emotional categoriza- tramos diversos periódicos digitales como El
tion of news articles) (Martı́nez-Cámara et Paı́s, El Mundo o ABC que poseen artı́culos
al., 2018). La tarea propone el desarrollo de de este tipo. En ellos, los usuarios pueden co-
sistemas que identifiquen si una noticia es se- mentar de forma anónima o pública, dando
gura o adecuada para un anunciante en fun- su opinión acerca de una determinada noti-
ción de la emoción que suscite el titular de cia. Debido al interés de analizar este tipo de
la misma. Debe destacarse que los titulares información, surge la tarea de detectar au-
proceden de noticias publicadas en periódicos tomáticamente las emociones públicas evoca-
de España y de diversos paı́ses de América, das por los documentos en lı́nea. Sin embar-
de manera que el corpus que se proporciona, go, anotar los titulares de noticias con emo-
SANSE, es una representación global de la ciones es una tarea difı́cil incluso para los se-
lengua española escrita1 . res humanos (Katz, Singleton, y Wicentows-
Con la aparición de la Web 2.0, la cantidad ki, 2007).
de información subjetiva en Internet ha creci- El reconocimiento de emociones en textos
do exponencialmente. Existen diferentes pla- tiene múltiples beneficios en diferentes sec-
taformas como son las redes sociales, portales tores. Algunos ejemplos se listan a continua-
ción:
1
Los detalles de la tarea y el corpus pueden leerse
en (Martı́nez-Cámara et al., 2018). 1. Ayuda a las empresas a configurar sus
ISSN 1613-0073 Copyright © 2018 by the paper's authors. Copying permitted for private and academic purposes.
Flor Miriam-Plaza-del-Arco, Eugenio Martínez Cámara, M. Teresa Martín Valdivia y L. Alfonso Ureña López
estrategias de marketing en función de los trabajos están orientados a tratar docu-
las emociones de los consumidores (Bou- mentos en inglés, encontrando muy pocos tra-
gie, Pieters, y Zeelenberg, 2003). bajos en español.
La mayor parte de los trabajos de recono-
2. Permite mejorar los sistemas de reco-
cimiento de emociones, se centran en el uso
mendación basados en filtros colabora-
e integración de diferentes recursos como le-
tivos (Badaro et al., 2013).
xicones y corpus. En concreto, los lexicones
3. Los polı́ticos pueden adaptar su discur- afectivos son muy valiosos ya que proporcio-
so en base a la reacción de la población nan información acerca del tipo de emoción e
(Pang, Lee, y others, 2008). intensidad que expresa cada palabra del tex-
to. Además, pueden ser utilizados en varios
4. Puede ayudar a predecir el mercado de enfoques del AS, como caracterı́sticas para la
valores. clasificación en métodos de aprendizaje au-
5. Puede identificar si el titular de una no- tomático (Liu y Zhang, 2012), o para gene-
ticia es seguro o inseguro para un anun- rar una puntuación de afecto para cada do-
ciante en función de las emociones ex- cumento, basada en el valor de intensidad de
presadas en el mismo. cada palabra (Socher et al., 2013).
Sin embargo, la disponibilidad de recursos
En este trabajo, proponemos un sistema emocionales es escasa y la mayorı́a de ellos los
de clasificación de emociones en español para encontramos en inglés. Por ejemplo, Strappa-
el reconocimiento de emociones en titulares rava y Valitutti (2004) desarrollaron el recur-
de noticias. Para ello, usamos diferentes le- so WordNet-Affect formado por un conjunto
xicones afectivos para extraer una serie de de términos afectivos en inglés y basado en los
caracterı́sticas y, además, integramos dicho synsets de WordNet. Linguistic Inquiry and
conocimiento en un clasificador supervisado. Word Count (LIWC) es otro lexicon emo-
Los resultados obtenidos nos animan a seguir cional que divide las palabras en diferentes
trabajando en esta tarea. categorı́as, incluidos los estados emociona-
les. Mohammad y Turney (2010) desarrollan
2 Minerı́a de emociones un recurso denominado NRC Affect Intensity
La minerı́a de la opinión y la minerı́a de la Lexicon el cual proporciona valores de inten-
emoción forman parte del área de Análisis de sidad de afecto para cuatro emociones básicas
Sentimientos (AS), pero tienen diferentes ob- (enfado, miedo, tristeza, alegrı́a). Por último
jetivos. La minerı́a de la opinión trata el estu- Mohammad y Turney (2010) crean otro re-
dio de las opiniones expresadas en los textos curso denominado NRC Word-Emotion As-
y su tarea básica es la detección de la po- sociation Lexicon (Emolex).
laridad (Liu, 2015), mientras que la minerı́a Con respecto a la disponibilidad de recur-
de la emoción se relaciona con el estudio de sos emocionales en español, encontramos que
las emociones y su tarea básica es el recono- el número es muy limitado. Hasta donde sa-
cimiento de emociones (Cambria, 2016). La bemos, el único lexicón emocional que pode-
detección de la polaridad suele ser una tarea mos encontrar es Spanish Emotion Lexicon
de clasificación binaria en la que se obtiene (SEL) (Sidorov et al., 2012) aunque los re-
como resultado si una opinión es positiva o sultados obtenidos en diferentes experimen-
negativa, mientras que el reconocimiento de tos no son muy prometedores.
emociones trata de identificar diferentes cate- En este trabajo, usamos los lexicones emo-
gorı́as emocionales en un texto como el mie- cionales como caracterı́sticas para la clasifica-
do, la alegrı́a, la tristeza o la repulsión. ción de noticias haciendo uso de un algoritmo
En la última década, la mayor parte del de aprendizaje automático.
trabajo se ha centrado en la tarea de clasifica-
ción de la polaridad. Sin embargo, una de las 3 Descripción del sistema
áreas más complejas que aún no se ha estu- El equipo SINAI ha participado con un sis-
diado en profundidad es la minerı́a de la emo- tema, que se describirá a continuación, en la
ción. Algunos trabajos están comenzando a Subtarea 1 de la Tarea 4 de la edición de 2018
explorar el potencial de los sistemas de de- del taller TASS.
tección y clasificación de emociones (Moham- En esta sección, se presentan los elemen-
mad, 2017). No obstante, la mayor parte de tos que forman parte del sistema desarrollado
126
SINAI en TASS 2018: Inserción de Conocimiento Emocional Externo a un Clasificador Lineal de Emociones
para la competición. En primer lugar, se des- la traducción. iSOL contiene 2.509 pala-
criben los lexicones utilizados para la obten- bras positivas y 5.626 negativas.
ción de las caracterı́sticas emocionales dadas
en una noticia. En segundo lugar, se explica el 3.2 Extracción de caracterı́sticas
proceso seguido para la extracción de las ca- Para la extracción de caracterı́sticas emocio-
racterı́sticas haciendo uso de los lexicones y, nales de una noticia se ha tenido en cuenta la
por último, se explica la etapa de clasificación siguiente hipótesis: si una noticia genera una
llevada a cabo con un algoritmo supervisado. emoción positiva o neutra, es segura para in-
corporar anuncios, pero si genera una emo-
3.1 Lexicones de emoción y de ción negativa, la noticia no es segura para
polaridad añadir anuncios. En base a esta hipótesis, se
Para el reconocimiento de la emoción a nivel han utilizado los lexicones mencionados an-
de oración, es esencial el análisis de las pala- teriormente mapeando cada emoción de las
bras del titular de la noticia para determinar distintas palabras en polaridad positiva o ne-
su emoción. Por esta razón, en este sistema gativa. Este mapeo se ha realizado en el caso
utilizamos dos lexicones de emoción y uno de de los lexicones que contienen palabras cla-
polaridad con el fin de determinar la carga sificadas en emociones: Emolex y SEL. Sin
emocional que expresan las palabras del titu- embargo, para el caso del lexicón iSOL no ha
lar de una noticia. Los lexicones empleados sido necesario ya que se trata de un lexicón
son: de polaridad. Las Tablas 1 y 2 muestran la
correspondencia realizada entre las emocio-
• NRC Word-Emotion Association nes de los distintos lexicones y la polaridad
Lexicon (Emolex) (Mohammad y Tur- (positiva o negativa).
ney, 2010). Está constituido por 14.182
términos en inglés asociados a una o Emoción Polaridad
más emociones: ira, miedo, anticipación, anger negativa
confianza, sorpresa, tristeza, alegrı́a. fear negativa
Además, este recurso está disponible en sadness negativa
más de cien idiomas, incluido el español. joy positiva
Todas estas versiones se han generado disgust negativa
mediante la traducción de los términos surprise positiva
en inglés haciendo uso del traductor de
Google. Tabla 1: Correspondencia entre las emociones
de SEL y la polaridad positiva/negativa
• Spanish Emotion Lexicon (SEL)
(Sidorov et al., 2012). Incluye 2.036 pala-
bras en español que se asocian con la me-
dida del Factor de Probabilidad de Uso Emoción Polaridad
Afectivo con respecto a al menos una
emoción básica: alegrı́a, ira, miedo, tris- enfado negativa
teza, sorpresa y repulsión. Fue anotado miedo negativa
manualmente por 19 anotadores (escala: tristeza negativa
nula, baja, media, alta) y se implemen- alegrı́a positiva
taron ciertos umbrales de acuerdo. asco negativa
sorpresa positiva
• Lexicón Mejorado de Opiniones en anticipación negativa
Español (iSOL2 ) (Molina-González et confianza positiva
al., 2013). Es una lista de palabras de
opinión en español independiente del do- Tabla 2: Correspondencia entre las emociones
minio. Los autores tradujeron automáti- de Emolex y la polaridad positiva/negativa
camente con el traductor Reverso3 el le-
xicón de Bing Liu (Hu y Liu, 2004), y
posteriormente corrigieron manualmente El método seguido para la extracción de
caracterı́sticas emocionales es el siguiente:
2
http://sinai.ujaen.es/isol/
3
http://www.reverso.net/ 1. Se comprueba la presencia de cada uno
127
Flor Miriam-Plaza-del-Arco, Eugenio Martínez Cámara, M. Teresa Martín Valdivia y L. Alfonso Ureña López
de aprendizaje supervisado SVM, y concreta-
mente su implementación C-SVC. Se usó un
núcleo lineal y el valor de C fue 1.0.
Por último, para ejecutar nuestros expe-
rimentos, se utilizaron los conjuntos de da-
tos proporcionados por los organizadores de
la tarea de la siguiente manera. Durante
el perı́odo de pre-evaluación, entrenamos el
sistema con el conjunto de entrenamiento
(train) y evaluamos con el conjunto de desa-
Figura 1: Cobertura del número de palabras rrollo (dev.). Sin embargo, durante el perı́odo
de la noticia detectadas en los lexicones de evaluación, entrenamos el sistema con el
conjunto train y dev., y evaluamos con el con-
de los términos que componen el titular junto de evaluación (test).
de la noticia en los distintos lexicones.
4 Resultados obtenidos
2. Si el término está presente en algún le-
xicón, se mapea la emoción de dicho Los resultados proporcionados por nuestro
término y se obtiene la polaridad posi- sistema sobre el corpus SANSE para la Ta-
tiva o negativa. rea 4 se muestran en la Tabla 3 y 4. Las me-
didas oficiales de la competición son Macro-
3. Para cada titular de noticia, obtenemos Precisión, Macro-Recall, Macro-F1 y Accu-
un valor de polaridad positiva y otro de racy.
polaridad negativa. Este valor se obtiene En la Tabla 5 podemos observar los resul-
realizando el sumatorio de la polaridad tados obtenidos por clase (SAFE, UNSAFE).
de cada una de las palabras del titular Como podemos apreciar, el modelo mues-
presente en los distintos lexicones (Emo- tra mejores resultados para la clase UNSA-
lex, SEL e iSOL). FE. Sin embargo, para la clase SAFE obte-
nemos un recall bajo de 62,2 %. Esto se de-
4. Como resultado, obtenemos un vector de
be a que en el mapeado realizado (emoción-
dos valores (positivo, negativo) para ca-
polaridad), el número de emociones negativas
da lexicon, es decir, extraemos un total
es mayor que el número de emociones positi-
de seis caracterı́sticas para cada noticia.
vas como se puede observar en la Tabla 1 y
2 y, por consiguiente, hay más palabras ne-
En la Tabla 3 podemos ver un ejemplo de
gativas que positivas en los lexicones emocio-
algunas de las noticias junto a las emociones
nales. En la Figura 1 vemos claramente que
reconocidas por el sistema.
el número de palabras negativas encontradas
3.3 Aprendizaje supervisado en la noticia (65,1 %) es mayor que el número
de palabras positivas (34,9 %). Por tanto, se
En primer lugar, preprocesamos el corpus de
recuperan pocas palabras con polaridad po-
noticias proporcionado. El preprocesamiento
sitiva. Por otra parte, como podemos ver en
que llevamos a cabo se explica a continuación:
la Tabla 4 los resultados obtenidos a nivel
• Tokenización con TweetTokenizer4 de general por nuestro sistema son de 73,33 %
NLTK. en el caso de la Macro-Precisión, 72,22 % de
• Eliminación de palabras vacı́as (stop- Macro-Recall, 72,8 % de Macro-F1 y 74,2 %
words) con NLTK.5 de Accuracy.
• Conversión de las palabras a minúscula.
5 Conclusiones
Seguidamente, se realiza la unión de los En este trabajo presentamos un método de
vectores obtenidos con los distintos lexicones clasificación de emociones desarrollado con
de emociones y de polaridad, y la representa- aprendizaje supervisado que hace uso de ca-
ción TF-IDF de la noticia. Para llevar a ca- racterı́sticas emocionales extraı́das a partir
bo la clasificación, optamos por el algoritmo de diferentes lexicones y que se utilizan como
4
http://www.nltk.org/api/nltk.tokenize. entrada para un clasificador supervisado. Los
html resultados obtenidos demuestran la utilidad
5
https://pythonspot.com/nltk-stop-words/ de utilizar caracterı́sticas emocionales para
128
SINAI en TASS 2018: Inserción de Conocimiento Emocional Externo a un Clasificador Lineal de Emociones
Titular noticia Emociones positivas Emociones negativas
Obesidad[tristeza, asco] , un proble- 1 3
ma[tristeza, miedo] de gravedad[tristeza, miedo]
mayor[tristeza, confianza] en México
Secretario de estado comprometi- 2 1
do[alegrı́a, confianza, anticipación] con la
paz[alegrı́a, confianza, anticipación] en Bolivia
Detenido un yihadista que querı́a ma- 0 4
tarenfado, miedo, tristeza, anticipación a Españoles
Tabla 3: Emociones detectadas en una noticia
Macro-P Macro-R Macro-F1 Acc. Mobile Computing Conference (IWCMC),
2013 9th International, páginas 349–354.
0.733 0.722 0.728 0.742 IEEE.
Tabla 4: Resultados obtenidos sobre el corpus Bougie, R., R. Pieters, y M. Zeelenberg.
SANSE 2003. Angry customers don’t come back,
they get back: The experience and beha-
vioral implications of anger and dissatis-
Categorı́a Precisión Recall F1 faction in services. Journal of the Aca-
SAFE 0.702 0.622 0.660 demy of Marketing Science, 31(4):377–
UNSAFE 0.764 0.823 0.792 393.
Cambria, E. 2016. Affective computing and
Tabla 5: Evaluación categórica
sentiment analysis. IEEE Intelligent Sys-
tems, 31(2):102–107.
realizar la clasificación ya que son aceptables. Hu, M. y B. Liu. 2004. Mining and sum-
Además, vemos que es necesario el desarrollo marizing customer reviews. En Procee-
de lexicones emocionales en español ya que el dings of the tenth ACM SIGKDD interna-
único que encontramos actualmente es SEL. tional conference on Knowledge discovery
Nuestro próximo estudio se enfocará en ex- and data mining, páginas 168–177. ACM.
plorar más lexicones afectivos en otros idio-
Katz, P., M. Singleton, y R. Wicentowski.
mas con el objetivo de adaptarlos al español
2007. Swat-mp: the semeval-2007 systems
ya que como se demostró en la tarea compar-
for task 5 and task 14. En Proceedings of
tida del WASSA-2017 (Mohammad y Bravo-
the 4th international workshop on seman-
Marquez, 2017), el uso de lexicones es bene-
tic evaluations, páginas 308–313. Associa-
ficioso para la clasificación de emociones.
tion for Computational Linguistics.
Agradecimientos Liu, B. 2015. Sentiment analysis: Mi-
Este trabajo ha sido parcialmente subven- ning opinions, sentiments, and emotions.
cionado por el Fondo Europeo de Desa- Cambridge University Press.
rrollo Regional (FEDER), el proyecto RE-
DES (TIN2015-65136-C2-1-R) y el proyecto Liu, B. y L. Zhang. 2012. A survey of opinion
SMART-DASCI (TIN2017-89517-P) del Go- mining and sentiment analysis. En Mining
bierno de España. Eugenio Martı́nez Cáma- text data. Springer, páginas 415–463.
ra fue financiado por el programa Juan de Martı́nez-Cámara, E., Y. Almeida-Cruz,
la Cierva Formación (FJCI-2016-28353) del M. C. Dı́az-Galiano, S. Estévez-Velarde,
Gobierno de España. M. A. Garcı́a-Cumbreras, M. Garcı́a-
Vega, Y. Gutiérrez, A. Montejo Ráez,
Bibliografı́a A. Montoyo, R. Muñoz, A. Piad-Morffis,
Badaro, G., H. Hajj, W. El-Hajj, y L. Nach- y J. Villena-Román. 2018. Overview
man. 2013. A hybrid approach with co- of TASS 2018: Opinions, health and
llaborative filtering for recommender sys- emotions. En E. Martı́nez-Cámara
tems. En Wireless Communications and Y. Almeida-Cruz M. C. Dı́az-Galiano
129
Flor Miriam-Plaza-del-Arco, Eugenio Martínez Cámara, M. Teresa Martín Valdivia y L. Alfonso Ureña López
S. Estévez-Velarde M. A. Garcı́a- net. En Lrec, volumen 4, páginas 1083–
Cumbreras M. Garcı́a-Vega Y. Gutiérrez 1086. Citeseer.
A. Montejo Ráez A. Montoyo R. Muñoz
A. Piad-Morffis, y J. Villena-Román,
editores, Proceedings of TASS 2018:
Workshop on Semantic Analysis at
SEPLN (TASS 2018), volumen 2172 de
CEUR Workshop Proceedings, Sevilla,
Spain, September. CEUR-WS.
Mohammad, S. M. 2017. Word affect inten-
sities. arXiv preprint arXiv:1704.08798.
Mohammad, S. M. y F. Bravo-Marquez.
2017. Wassa-2017 shared task on
emotion intensity. arXiv preprint ar-
Xiv:1708.03700.
Mohammad, S. M. y P. D. Turney. 2010.
Emotions evoked by common words and
phrases: Using mechanical turk to crea-
te an emotion lexicon. En Proceedings
of the NAACL HLT 2010 workshop on
computational approaches to analysis and
generation of emotion in text, páginas 26–
34. Association for Computational Lin-
guistics.
Molina-González, M. D., E. Martı́nez-Cáma-
ra, M.-T. Martı́n-Valdivia, y J. M. Perea-
Ortega. 2013. Semantic orientation
for polarity classification in spanish re-
views. Expert Systems with Applications,
40(18):7250–7257.
Pang, B., L. Lee, y others. 2008. Opinion
mining and sentiment analysis. Founda-
tions and Trends R in Information Retrie-
val, 2(1–2):1–135.
Sidorov, G., S. Miranda-Jiménez, F. Viveros-
Jiménez, A. Gelbukh, N. Castro-Sánchez,
F. Velásquez, I. Dı́az-Rangel, S. Suárez-
Guerra, A. Trevino, y J. Gordon. 2012.
Empirical study of machine learning based
approach for opinion mining in tweets. En
Mexican international conference on Arti-
ficial intelligence, páginas 1–14. Springer.
Socher, R., A. Perelygin, J. Wu, J. Chuang,
C. D. Manning, A. Ng, y C. Potts. 2013.
Recursive deep models for semantic com-
positionality over a sentiment treebank.
En Proceedings of the 2013 conference
on empirical methods in natural language
processing, páginas 1631–1642.
Strapparava, C. y A. Valitutti. 2004. Word-
net affect: an affective extension of word-
130