=Paper=
{{Paper
|id=Vol-1961/paper10
|storemode=property
|title=
Metodología semi-automática para la anotación de corpus emocionales
(Semi-automatic methodology to annotate emotional corpora)
|pdfUrl=https://ceur-ws.org/Vol-1961/paper10.pdf
|volume=Vol-1961
|authors=Lea Canales
}}
==
Metodología semi-automática para la anotación de corpus emocionales
(Semi-automatic methodology to annotate emotional corpora)
==
Metodologı́a semi-automática para la anotación de
corpus emocionales
Semi-automatic Methodology to Annotate Emotional Corpora
Lea Canales
Departamento de Lenguajes y Sistemas Informáticos
Universidad de Alicante
lcanales@dlsi.ua.es
Resumen: En este proyecto de tesis nos planteamos el desarrollo de una nueva
metodologı́a semi-automática que nos permita abarcar uno de los grandes retos de
la tarea de detección de emociones: la creación de corpus emocionales. El desarrollo
de corpus emocionales que nos permitan entrenar sistemas de reconocimiento de
emociones es crucial para la creación de herramientas que nos permitan analizar y
evaluar el estado emocional de los miembros de una sociedad. El análisis emocio-
nal resulta de gran importancia, ya que actualmente renombrados organismos ya
realizan estos análisis a través de la interpretación de encuestas, con distintas finali-
dades: polı́ticas, sociales, comerciales o educativas. Por tanto, el desarrollo de nuevos
recursos y metodologı́as que nos permitan mejorar estos análisis automáticamente
resultan de gran utilidad para este campo de investigación. Por ello, en este proyecto
de tesis proponemos una metodologı́a semi-automática con el objetivo de mejorar
tanto en la calidad de los corpus como en la reducción del tiempo y coste necesario
para su desarrollo.
Palabras clave: Detección de emociones, Anotación Semi-automática, Corpus
Emocionales, Análisis de Sentimientos
Abstract: The objective of this PhD is to analyse and develop a new semi-automatic
methodology with the aim of tackling one of the most important challenges in textual
emotion detection: emotional annotation. The development of emotional corpora is
crucial for improving the current emotional recognition systems, thus allowing us
to analyse and evaluate people’s emotions more precisely. This information and the
patterns of these emotions provide a great value for politics, society, businesses
or education. Therefore, the development of new resources and methodologies will
allow us to improve the current emotion detection systems. Accordingly, this thesis
proposes a semi-automatic methodology with the aim of improving the quality of
emotional corpora and overcoming the cost and time-consuming shortcoming of
manual annotation.
Keywords: Emotion detection, Semi-automatic Annotation, Emotional Corpora,
Sentiment Analysis
1 Motivación miento de estos algoritmos implica la ano-
tación de grandes cantidades de datos con
Actualmente, en Lingüı́stica Computacional categorı́as emocionales. Siendo este uno de
ha aumentado el interés de la detección de los retos más importantes en este campo de
emociones a partir de texto escrito, debido al investigación, ya que no es una tarea trivial
gran número de beneficios obtenidos a nivel debido a que la detección de emociones en
empresarial, educativo, polı́tico o social. texto escrito puede ser un reto incluso para
En este campo de investigación, existen di- los seres humanos.
ferentes aproximaciones de sistemas de reco-
nocimiento de emociones, pero la mayorı́a de La mayorı́a de investigación llevada a ca-
ellas han sido llevadas acabo mediante apren- bo hasta el momento ha demostrado los re-
dizaje automático supervisado. El entrena- tos existentes en la anotación de corpus emo-
cionales, como por ejemplo, la obtención de infantiles anotadas con categorı́as emociona-
acuerdo entre los anotadores o el tiempo y les (Alm, Roth, y Sproat, 2005); entradas de
el coste asociado para su desarrollo. Esto blogs coleccionadas directamente de la Web,
es debido al hecho de que la anotación ma- anotadas con categorı́as emocionales y la in-
nual puede estar influenciada por un conjun- tensidad de cada emoción (Aman y Szpako-
to de factores, como la claridad de la guı́a de wicz, 2007); o titulares de noticias anotados
anotación, la dificultad de la tarea o el en- con las categorı́as emociones y la valencia pa-
trenamiento de los anotadores (Mohammad, ra la tarea Affective Text del Semeval-2007
2016). (Strapparava y Mihalcea, 2007). Todos estos
Como consecuencia, el número de corpus corpus tienen en común un gran coste tempo-
emociones disponibles en el estado de la cues- ral y económico necesario para su desarrollo y
tión es reducido y, además, el tamaño de además las dificultades para obtener acuerdo
los mismos es pequeño si deseamos aplicar entre los anotadores, dificultando la obten-
técnicas de Aprendizaje Automático (Machi- ción de un corpus de calidad.
ne Learning) o Aprendizaje Profundo (Deep El coste temporal y económico del desa-
Learning). rrollo de un corpus es un reto compartido en
Es por ello, que en este proyecto de te- muchas tareas de PLN, y la pre-anotación es
sis nos planteamos el desarrollo de una nue- una de las tareas que se ha llevado a cabo
va metodologı́a semi-automática para la ano- para abordarlo. La pre-anotación ha sido am-
tación de emociones, que nos permita crear pliamente estudiada en otras tareas de PLN,
corpus emocionales en diferentes géneros, do- como POS-tagging o Reconocimiento de En-
minios e idiomas de manera eficiente, con tidades Nombradas, proporcionando mejoras
el objetivo de crear recursos y herramientas en tiempo y calidad de los corpus desarrolla-
que nos permitan analizar y evaluar el estado dos.
emocional de los miembros de una sociedad. Marcus, Marcinkiewicz, y Santorini (1993)
La metodologı́a propuesta está compuesta presentaron una de las primeras aproxima-
de dos fases principales: 1) una pre-anotación ciones en las que se evaluaba el proceso de
automática de un conjunto reducido de las pre-anotación para la tarea de POS-tagging.
categorı́as emocionales más predominantes Este experimento demostró que la anotación
en cada frase; y 2) una anotación manual, en manual sin pre-anotación requirió el doble de
la que los anotadores seleccionarán la emo- tiempo y se obtuvo aproximadamente el do-
ción dominante de cada frase entre las pre- ble de tasa de desacuerdo con respecto a la
seleccionadas en la primera fase. tarea con pre-anotación. También Fort y Sa-
En la siguiente sección vamos a descri- got (2010) aplicaron la pre-anotación al POS-
bir los corpus emocionales más relevantes en tagging y confirmaron la mejora en tiempo y
el campo de detección de emociones, ası́ co- calidad de la anotación, pero además los ex-
mo trabajos previos donde se ha utilizado perimentos llevados a cabo demostraron que
la técnica de pre-anotación en diferentes ta- incluso cuando la pre-anotación no era preci-
reas de Procesamiento de Lenguaje Natural sa también ayudaba a mejorar la anotación
(PLN). manual. Más recientemente, Lingren et al.
(2014) evalúan el impacto de la pre-anotación
2 Antecedentes y trabajos en el Reconocimiento de Entidades Nombra-
relacionados das del dominio médico, concluyendo que el
Nuestra investigación se lleva a cabo desde anotador que tenı́a el texto pre-anotado ne-
el área de la Informática Afectiva o Affective cesitó menos tiempo para anotar que el ano-
Computing y más concretamente en su mo- tador sin texto pre-anotado. Además, la pre-
dalidad textual. anotación no redujo el acuerdo o rendimiento
Como hemos comentado en el apartado del anotador.
anterior, las aproximaciones más utilizadas Teniendo en cuenta este contexto y con-
en esta modalidad son basadas en algorit- siderando los retos planteados en la tarea de
mos de aprendizaje automático supervisado. anotación de emociones, una nueva metodo-
Con el objetivo de crear estos sistemas en logı́a semi-automática es propuesta en este
diferentes dominios y géneros, varios corpus proyecto de tesis con el objetivo de mejorar
emocionales anotados manualmente han sido tanto la calidad como el tiempo y coste aso-
desarrollados, como por ejemplo 185 historias ciado con el desarrollo de recursos emociona-
les, que nos permitan la anotación de corpus trabajando. Es decir, si nuestro objetivo
emocionales a gran escala y con estándares es anotar con las seis emociones básicas de
de fiabilidad. Ekman (1992), el sistema pre-anotará las
frases con tres de las seis categorı́as. Por
3 Propuesta de investigación tanto, la metodologı́a es adaptable a dife-
La hipótesis de partida de este proyecto de rentes conjuntos de categorı́as emocionales,
tesis es que la reducción automática de ca- como por ejemplo el conjunto propuesto
tegorı́as emocionales reducirá la complejidad por Plutchik (1980) donde las emociones
de la tarea de anotación y por tanto la am- propuestas como básicas son: IRA, ASCO,
bigüedad a la que se tienen que enfrentar los MIEDO, FELICIDAD, TRISTEZA, SORPRESA,
anotadores, proponiéndoles un número redu- CONFIANZA y ANTICIPACIÓN.
cido de categorı́as emocionales. También los Hemos desarrollado dos procesos de pre-
trabajos previos que demuestran las mejoras anotación: un proceso no supervisado basa-
obtenidas con pre-anotación en otras tareas do en modelos de Semántica Distribucional
de PLN y el estudio de Antoine, Villaneau, (Distributional Semantic Models) (Canales
y Lefeuvre (2014) donde concluyen que el et al., 2017) y otro supervisado basado en
acuerdo entre anotadores incrementa signifi- Aprendizaje Automático.
cativamente cuando el número de clases pro- La aproximación no supervisada esta ba-
puestas decrece, nos permiten considerar la sada en semántica distribucional y está com-
viabilidad de nuestra hipótesis de partida. puesta de dos pasos principales:
Por ello, se propone una metodologı́a
semi-automática que está compuesta de dos 1. La representación de las emociones y las
fases principales: frases en un espacio semántico.
2. La asociación entre frases y emociones.
Fase 1 - Pre-anotación automática: pro-
ceso automático donde cada frase es pre-
En el primer paso, las frases y emociones
anotada con un número reducido de ca-
son representados en forma de vectores dis-
tegorı́as emocionales.
tribucionales (word embedding). Este fase se
Fase 2 - Anotación manual : proceso ma- divide en dos pasos: 1) el pre-procesamiento
nual donde anotadores humanos deter- de las frases y las emociones, donde se cons-
minarán cual es la emoción dominante truyen bolsas de palabras con vocabulario re-
entre las pre-seleccionadas en la primera lacionado con cada una de las emociones y de
fase. las frases que deseamos anotar; y 2) la crea-
ción de un vector distribucional por cada una
Nuestro objetivo es lograr una alta fiabi- de las emociones y las frases, sustituyendo y
lidad en la tarea de anotación de emociones sumando los vectores distribucionales de las
reduciendo su complejidad automáticamente, palabras contenidas en las bolsas de palabras
y a su vez reducir el tiempo y el coste asocia- creadas en el paso anterior. Para la creación
do a dicha tarea. El desarrollo de esta meto- de las bolsas de palabras de las emociones es
dologı́a nos permitirá la anotación de grandes necesario un lexicón emocional y en nuestro
cantidades de datos de manera eficiente y con caso, EmoSenticNet (Poria et al., 2013) es el
garantı́a de estándares de fiabilidad. recurso utilizado. Una representación gráfica
de este primer paso se observa en la Figura
4 Metodologı́a propuesta 1.
Como hemos mencionado en la sección an- En el segundo paso, se lleva a cabo la aso-
terior, la metodologı́a que proponemos pa- ciación entre frases y emociones calculando la
ra mejorar el proceso de anotación de emo- similitud semántica entre vectores, asociado
ciones es una metodologı́a semi-automática aquellas emociones cuya similitud semánti-
compuesta de dos fases principales. ca con cada frase es mayor. Con el objeti-
La primera fase consiste en un proceso vo de mejorar el conjunto de emociones pre-
de pre-anotación en que se pre-selecciona seleccionadas, en este proceso también se uti-
aquellas emociones más relacionadas con liza la información de polaridad y subjetivi-
cada una de las frases. Concretamente, se dad de cada una de las frases, utilizando pa-
pre-anotan la mitad del número de cate- ra ello la herramienta Pattern (De Smedt y
gorı́as emocionales con las que estemos Daelemans, 2012).
Figura 1: La representación de las emociones y las frases en el espacio semántico.
Respecto al proceso supervisado basado ras que nos pueda aportar la pre-anotación,
en Aprendizaje Automático, hemos utilizado tanto en la calidad del corpus como en la re-
corpus desarrollados hasta el momento en el ducción del tiempo y coste necesario para su
campo de detección de emociones para crear desarrollo.
modelos que nos permitan pre-anotar textos
nuevos. En estas aproximaciones de Aprendi- 5 Cuestiones de investigación
zaje Automático, hemos utilizado diferentes Este proyecto de tesis se enmarca dentro del
conjuntos de caracterı́sticas con el objetivo campo de Informática Afectiva y Análisis de
de evaluar cual de ellos nos proporcionaba Sentimiento, lo que convierte la tarea en un
mejores resultados. reto, dado que tenemos que abarcar proble-
Ambos procesos de pre-anotación, tanto mas como la ironı́a o la subjetividad. Con-
el supervisado como el no supervisado, han siderando, por tanto, esta situación, surgen
sido evaluados en dos corpus emocionales: algunas cuestiones cuya puesta en común re-
Aman corpus (Aman y Szpakowicz, 2007) y sultarı́a interesante:
EmoTweet-28 (Liew, Turtle, y Liddy, 2016)
permitiéndonos verificar la viabilidad del pro- ¿Qué conjunto de caracterı́sticas po-
ceso en corpus de diferentes géneros. En el demos incorporar al proceso de pre-
proceso de evaluación, se ha considerado que anotación basado en Aprendizaje Au-
la pre-anotación era correcta si entre las emo- tomático para mejorar dicho proceso?
ciones propuestas por el sistema se encontra- ¿Qué otras técnicas no supervisadas
ba la emoción anotada en el gold standard de podrı́amos aplicar para mejorar el pro-
cada uno de los corpus. La evaluación mues- ceso de pre-anotación?
tra que la aproximación supervisada obtiene
mejores resultados, pero la usabilidad de los ¿Qué otras técnicas podrı́amos utilizar
métodos debe ser validada en la segunda fa- para alcanzar nuestro objetivo? ¿Podrı́a
se de la metodologı́a: la anotación manual a ser Active Learning una buena técnica
partir de la pre-anotación. para abarcar nuestro proyecto?
Por ello, el siguiente paso es el desarro- Estudios psicológicos muestran que las
llo de la anotación manual utilizando la pre- personas expresan sus emociones según
anotación. Es un proceso que ya hemos di- su cultura e idioma. Por tanto, ¿es nece-
señado y que será llevado a cabo en las próxi- sario crear recursos emocionales tenien-
mas semanas. En esta experimentación, nues- do en cuenta el idioma? o ¿una simple
tro objetivos es analizar las ventajas o mejo- traducción entre recursos es suficiente?
Agradecimientos Fort, K. y B. Sagot. 2010. Influence of
Quiero agradecer al programa de Formación pre-annotation on pos-tagged corpus de-
de Personal Investigador (FPI) del Ministerio velopment. En Proceedings of the Fourth
de Economı́a y Competitividad del Gobierno Linguistic Annotation Workshop, LAW
de España por su apoyo a través de una de sus IV ’10, páginas 56–63, Stroudsburg, PA,
becas pre-doctorales de investigación (BES- USA. Association for Computational Lin-
2013-065950) y por su apoyo a través del guistics.
proyecto REDES (TIN2015-65136-C02-2-R) Liew, J. S. Y., H. R. Turtle, y E. D. Liddy.
y RESCATA (TIN2015-65100-R). También, 2016. EmoTweet-28: A Fine-Grained
quiero agradecer el apoyo de la Generalitat Emotion Corpus for Sentiment Analysis.
Valenciana a través del proyecto PROME- En Proceedings of the Tenth International
TEOII/2014/00, la Universidad de Alicante Conference on Language Resources and
con el proyecto GRE16-01: “Plataforma inte- Evaluation (LREC 2016).
ligente para recuperación, análisis y represen-
tación de la información generada por usua- Lingren, T., L. Deleger, K. Molnar, H. Zhai,
rios en Internet” y a las ayudas de la Fun- J. Meinzen-Derr, M. Kaiser, L. Stoutenbo-
dación BBVA para equipos de investigación rough, Q. Li, y I. Solti. 2014. Evaluating
cientı́fica 2016 a través del proyecto “Análisis the impact of pre-annotation on annota-
de Sentimientos Aplicado a la Prevención del tion speed and potential bias: natural lan-
Suicidio en las Redes Sociales” (ASAP). guage processing gold standard develop-
ment for clinical named entity recognition
Bibliografı́a in clinical trial announcements. Journal
Alm, C. O., D. Roth, y R. Sproat. 2005. of the American Medical Informatics As-
Emotions from text: Machine learning for sociation : JAMIA, 21(3):406–413.
text-based emotion prediction. En Procee- Marcus, M. P., M. A. Marcinkiewicz, y
dings of the conference on HLT-EMNLP, B. Santorini. 1993. Building a large an-
páginas 579–586. notated corpus of english: The penn tree-
Aman, S. y S. Szpakowicz. 2007. Identifying bank. Comput. Linguist., 19(2):313–330,
Expressions of Emotion in Text. En Text, Junio.
Speech and Dialogue. páginas 196–205. Mohammad, S. M. 2016. Sentiment Analy-
Antoine, J.-y., J. Villaneau, y A. Lefeuvre. sis: Detecting Valence, Emotions, and Ot-
2014. Weighted Krippendorff’s alpha is a her Affectual States from Text. En
more reliable metrics for multi- coders or- H. Meiselman, editor, Emotion Measure-
dinal annotations: experimental studies on ment. Elsevier.
emotion, opinion and coreference annota- Plutchik, R. 1980. A general psychoevolu-
tion. En Proceedings of the 14th Conferen- tionary theory of emotion. En Theories of
ce of the European Chapter of the Associa- Emotion. páginas 3–33.
tion for Computational Linguistics, nume-
ro 1, páginas 550–559. Poria, S., A. Gelbukh, A. Hussain, N. Ho-
ward, D. Das, y S. Bandyopadhyay. 2013.
Canales, L., W. Daelemans, E. Boldrini, y Enhanced senticnet with affective labels
P. Martı́nez-Barco. 2017. Towards the for concept-based opinion mining. IEEE
improvement of automatic emotion pre- Intelligent Systems, 28(2):2–9.
annotation with polarity and subjecti-
ve information. En Proceedings of the Strapparava, C. y R. Mihalcea. 2007.
11th biennial Recent Advances in Natural Semeval-2007 task 14: Affective text.
Language Processing conference (RANLP En Proceedings of the 4th International
2017). Workshop on Semantic Evaluations, pági-
nas 70–74.
De Smedt, T. y W. Daelemans. 2012. Pat-
tern for python. J. Mach. Learn. Res.,
13(1):2063–2067, Junio.
Ekman, P. 1992. An argument for basic
emotions. Cognition and Emotion, pági-
nas 169–200.