Metodologı́a semi-automática para la anotación de corpus emocionales Semi-automatic Methodology to Annotate Emotional Corpora Lea Canales Departamento de Lenguajes y Sistemas Informáticos Universidad de Alicante lcanales@dlsi.ua.es Resumen: En este proyecto de tesis nos planteamos el desarrollo de una nueva metodologı́a semi-automática que nos permita abarcar uno de los grandes retos de la tarea de detección de emociones: la creación de corpus emocionales. El desarrollo de corpus emocionales que nos permitan entrenar sistemas de reconocimiento de emociones es crucial para la creación de herramientas que nos permitan analizar y evaluar el estado emocional de los miembros de una sociedad. El análisis emocio- nal resulta de gran importancia, ya que actualmente renombrados organismos ya realizan estos análisis a través de la interpretación de encuestas, con distintas finali- dades: polı́ticas, sociales, comerciales o educativas. Por tanto, el desarrollo de nuevos recursos y metodologı́as que nos permitan mejorar estos análisis automáticamente resultan de gran utilidad para este campo de investigación. Por ello, en este proyecto de tesis proponemos una metodologı́a semi-automática con el objetivo de mejorar tanto en la calidad de los corpus como en la reducción del tiempo y coste necesario para su desarrollo. Palabras clave: Detección de emociones, Anotación Semi-automática, Corpus Emocionales, Análisis de Sentimientos Abstract: The objective of this PhD is to analyse and develop a new semi-automatic methodology with the aim of tackling one of the most important challenges in textual emotion detection: emotional annotation. The development of emotional corpora is crucial for improving the current emotional recognition systems, thus allowing us to analyse and evaluate people’s emotions more precisely. This information and the patterns of these emotions provide a great value for politics, society, businesses or education. Therefore, the development of new resources and methodologies will allow us to improve the current emotion detection systems. Accordingly, this thesis proposes a semi-automatic methodology with the aim of improving the quality of emotional corpora and overcoming the cost and time-consuming shortcoming of manual annotation. Keywords: Emotion detection, Semi-automatic Annotation, Emotional Corpora, Sentiment Analysis 1 Motivación miento de estos algoritmos implica la ano- tación de grandes cantidades de datos con Actualmente, en Lingüı́stica Computacional categorı́as emocionales. Siendo este uno de ha aumentado el interés de la detección de los retos más importantes en este campo de emociones a partir de texto escrito, debido al investigación, ya que no es una tarea trivial gran número de beneficios obtenidos a nivel debido a que la detección de emociones en empresarial, educativo, polı́tico o social. texto escrito puede ser un reto incluso para En este campo de investigación, existen di- los seres humanos. ferentes aproximaciones de sistemas de reco- nocimiento de emociones, pero la mayorı́a de La mayorı́a de investigación llevada a ca- ellas han sido llevadas acabo mediante apren- bo hasta el momento ha demostrado los re- dizaje automático supervisado. El entrena- tos existentes en la anotación de corpus emo- cionales, como por ejemplo, la obtención de infantiles anotadas con categorı́as emociona- acuerdo entre los anotadores o el tiempo y les (Alm, Roth, y Sproat, 2005); entradas de el coste asociado para su desarrollo. Esto blogs coleccionadas directamente de la Web, es debido al hecho de que la anotación ma- anotadas con categorı́as emocionales y la in- nual puede estar influenciada por un conjun- tensidad de cada emoción (Aman y Szpako- to de factores, como la claridad de la guı́a de wicz, 2007); o titulares de noticias anotados anotación, la dificultad de la tarea o el en- con las categorı́as emociones y la valencia pa- trenamiento de los anotadores (Mohammad, ra la tarea Affective Text del Semeval-2007 2016). (Strapparava y Mihalcea, 2007). Todos estos Como consecuencia, el número de corpus corpus tienen en común un gran coste tempo- emociones disponibles en el estado de la cues- ral y económico necesario para su desarrollo y tión es reducido y, además, el tamaño de además las dificultades para obtener acuerdo los mismos es pequeño si deseamos aplicar entre los anotadores, dificultando la obten- técnicas de Aprendizaje Automático (Machi- ción de un corpus de calidad. ne Learning) o Aprendizaje Profundo (Deep El coste temporal y económico del desa- Learning). rrollo de un corpus es un reto compartido en Es por ello, que en este proyecto de te- muchas tareas de PLN, y la pre-anotación es sis nos planteamos el desarrollo de una nue- una de las tareas que se ha llevado a cabo va metodologı́a semi-automática para la ano- para abordarlo. La pre-anotación ha sido am- tación de emociones, que nos permita crear pliamente estudiada en otras tareas de PLN, corpus emocionales en diferentes géneros, do- como POS-tagging o Reconocimiento de En- minios e idiomas de manera eficiente, con tidades Nombradas, proporcionando mejoras el objetivo de crear recursos y herramientas en tiempo y calidad de los corpus desarrolla- que nos permitan analizar y evaluar el estado dos. emocional de los miembros de una sociedad. Marcus, Marcinkiewicz, y Santorini (1993) La metodologı́a propuesta está compuesta presentaron una de las primeras aproxima- de dos fases principales: 1) una pre-anotación ciones en las que se evaluaba el proceso de automática de un conjunto reducido de las pre-anotación para la tarea de POS-tagging. categorı́as emocionales más predominantes Este experimento demostró que la anotación en cada frase; y 2) una anotación manual, en manual sin pre-anotación requirió el doble de la que los anotadores seleccionarán la emo- tiempo y se obtuvo aproximadamente el do- ción dominante de cada frase entre las pre- ble de tasa de desacuerdo con respecto a la seleccionadas en la primera fase. tarea con pre-anotación. También Fort y Sa- En la siguiente sección vamos a descri- got (2010) aplicaron la pre-anotación al POS- bir los corpus emocionales más relevantes en tagging y confirmaron la mejora en tiempo y el campo de detección de emociones, ası́ co- calidad de la anotación, pero además los ex- mo trabajos previos donde se ha utilizado perimentos llevados a cabo demostraron que la técnica de pre-anotación en diferentes ta- incluso cuando la pre-anotación no era preci- reas de Procesamiento de Lenguaje Natural sa también ayudaba a mejorar la anotación (PLN). manual. Más recientemente, Lingren et al. (2014) evalúan el impacto de la pre-anotación 2 Antecedentes y trabajos en el Reconocimiento de Entidades Nombra- relacionados das del dominio médico, concluyendo que el Nuestra investigación se lleva a cabo desde anotador que tenı́a el texto pre-anotado ne- el área de la Informática Afectiva o Affective cesitó menos tiempo para anotar que el ano- Computing y más concretamente en su mo- tador sin texto pre-anotado. Además, la pre- dalidad textual. anotación no redujo el acuerdo o rendimiento Como hemos comentado en el apartado del anotador. anterior, las aproximaciones más utilizadas Teniendo en cuenta este contexto y con- en esta modalidad son basadas en algorit- siderando los retos planteados en la tarea de mos de aprendizaje automático supervisado. anotación de emociones, una nueva metodo- Con el objetivo de crear estos sistemas en logı́a semi-automática es propuesta en este diferentes dominios y géneros, varios corpus proyecto de tesis con el objetivo de mejorar emocionales anotados manualmente han sido tanto la calidad como el tiempo y coste aso- desarrollados, como por ejemplo 185 historias ciado con el desarrollo de recursos emociona- les, que nos permitan la anotación de corpus trabajando. Es decir, si nuestro objetivo emocionales a gran escala y con estándares es anotar con las seis emociones básicas de de fiabilidad. Ekman (1992), el sistema pre-anotará las frases con tres de las seis categorı́as. Por 3 Propuesta de investigación tanto, la metodologı́a es adaptable a dife- La hipótesis de partida de este proyecto de rentes conjuntos de categorı́as emocionales, tesis es que la reducción automática de ca- como por ejemplo el conjunto propuesto tegorı́as emocionales reducirá la complejidad por Plutchik (1980) donde las emociones de la tarea de anotación y por tanto la am- propuestas como básicas son: IRA, ASCO, bigüedad a la que se tienen que enfrentar los MIEDO, FELICIDAD, TRISTEZA, SORPRESA, anotadores, proponiéndoles un número redu- CONFIANZA y ANTICIPACIÓN. cido de categorı́as emocionales. También los Hemos desarrollado dos procesos de pre- trabajos previos que demuestran las mejoras anotación: un proceso no supervisado basa- obtenidas con pre-anotación en otras tareas do en modelos de Semántica Distribucional de PLN y el estudio de Antoine, Villaneau, (Distributional Semantic Models) (Canales y Lefeuvre (2014) donde concluyen que el et al., 2017) y otro supervisado basado en acuerdo entre anotadores incrementa signifi- Aprendizaje Automático. cativamente cuando el número de clases pro- La aproximación no supervisada esta ba- puestas decrece, nos permiten considerar la sada en semántica distribucional y está com- viabilidad de nuestra hipótesis de partida. puesta de dos pasos principales: Por ello, se propone una metodologı́a semi-automática que está compuesta de dos 1. La representación de las emociones y las fases principales: frases en un espacio semántico. 2. La asociación entre frases y emociones. Fase 1 - Pre-anotación automática: pro- ceso automático donde cada frase es pre- En el primer paso, las frases y emociones anotada con un número reducido de ca- son representados en forma de vectores dis- tegorı́as emocionales. tribucionales (word embedding). Este fase se Fase 2 - Anotación manual : proceso ma- divide en dos pasos: 1) el pre-procesamiento nual donde anotadores humanos deter- de las frases y las emociones, donde se cons- minarán cual es la emoción dominante truyen bolsas de palabras con vocabulario re- entre las pre-seleccionadas en la primera lacionado con cada una de las emociones y de fase. las frases que deseamos anotar; y 2) la crea- ción de un vector distribucional por cada una Nuestro objetivo es lograr una alta fiabi- de las emociones y las frases, sustituyendo y lidad en la tarea de anotación de emociones sumando los vectores distribucionales de las reduciendo su complejidad automáticamente, palabras contenidas en las bolsas de palabras y a su vez reducir el tiempo y el coste asocia- creadas en el paso anterior. Para la creación do a dicha tarea. El desarrollo de esta meto- de las bolsas de palabras de las emociones es dologı́a nos permitirá la anotación de grandes necesario un lexicón emocional y en nuestro cantidades de datos de manera eficiente y con caso, EmoSenticNet (Poria et al., 2013) es el garantı́a de estándares de fiabilidad. recurso utilizado. Una representación gráfica de este primer paso se observa en la Figura 4 Metodologı́a propuesta 1. Como hemos mencionado en la sección an- En el segundo paso, se lleva a cabo la aso- terior, la metodologı́a que proponemos pa- ciación entre frases y emociones calculando la ra mejorar el proceso de anotación de emo- similitud semántica entre vectores, asociado ciones es una metodologı́a semi-automática aquellas emociones cuya similitud semánti- compuesta de dos fases principales. ca con cada frase es mayor. Con el objeti- La primera fase consiste en un proceso vo de mejorar el conjunto de emociones pre- de pre-anotación en que se pre-selecciona seleccionadas, en este proceso también se uti- aquellas emociones más relacionadas con liza la información de polaridad y subjetivi- cada una de las frases. Concretamente, se dad de cada una de las frases, utilizando pa- pre-anotan la mitad del número de cate- ra ello la herramienta Pattern (De Smedt y gorı́as emocionales con las que estemos Daelemans, 2012). Figura 1: La representación de las emociones y las frases en el espacio semántico. Respecto al proceso supervisado basado ras que nos pueda aportar la pre-anotación, en Aprendizaje Automático, hemos utilizado tanto en la calidad del corpus como en la re- corpus desarrollados hasta el momento en el ducción del tiempo y coste necesario para su campo de detección de emociones para crear desarrollo. modelos que nos permitan pre-anotar textos nuevos. En estas aproximaciones de Aprendi- 5 Cuestiones de investigación zaje Automático, hemos utilizado diferentes Este proyecto de tesis se enmarca dentro del conjuntos de caracterı́sticas con el objetivo campo de Informática Afectiva y Análisis de de evaluar cual de ellos nos proporcionaba Sentimiento, lo que convierte la tarea en un mejores resultados. reto, dado que tenemos que abarcar proble- Ambos procesos de pre-anotación, tanto mas como la ironı́a o la subjetividad. Con- el supervisado como el no supervisado, han siderando, por tanto, esta situación, surgen sido evaluados en dos corpus emocionales: algunas cuestiones cuya puesta en común re- Aman corpus (Aman y Szpakowicz, 2007) y sultarı́a interesante: EmoTweet-28 (Liew, Turtle, y Liddy, 2016) permitiéndonos verificar la viabilidad del pro- ¿Qué conjunto de caracterı́sticas po- ceso en corpus de diferentes géneros. En el demos incorporar al proceso de pre- proceso de evaluación, se ha considerado que anotación basado en Aprendizaje Au- la pre-anotación era correcta si entre las emo- tomático para mejorar dicho proceso? ciones propuestas por el sistema se encontra- ¿Qué otras técnicas no supervisadas ba la emoción anotada en el gold standard de podrı́amos aplicar para mejorar el pro- cada uno de los corpus. La evaluación mues- ceso de pre-anotación? tra que la aproximación supervisada obtiene mejores resultados, pero la usabilidad de los ¿Qué otras técnicas podrı́amos utilizar métodos debe ser validada en la segunda fa- para alcanzar nuestro objetivo? ¿Podrı́a se de la metodologı́a: la anotación manual a ser Active Learning una buena técnica partir de la pre-anotación. para abarcar nuestro proyecto? Por ello, el siguiente paso es el desarro- Estudios psicológicos muestran que las llo de la anotación manual utilizando la pre- personas expresan sus emociones según anotación. Es un proceso que ya hemos di- su cultura e idioma. Por tanto, ¿es nece- señado y que será llevado a cabo en las próxi- sario crear recursos emocionales tenien- mas semanas. En esta experimentación, nues- do en cuenta el idioma? o ¿una simple tro objetivos es analizar las ventajas o mejo- traducción entre recursos es suficiente? Agradecimientos Fort, K. y B. Sagot. 2010. Influence of Quiero agradecer al programa de Formación pre-annotation on pos-tagged corpus de- de Personal Investigador (FPI) del Ministerio velopment. En Proceedings of the Fourth de Economı́a y Competitividad del Gobierno Linguistic Annotation Workshop, LAW de España por su apoyo a través de una de sus IV ’10, páginas 56–63, Stroudsburg, PA, becas pre-doctorales de investigación (BES- USA. Association for Computational Lin- 2013-065950) y por su apoyo a través del guistics. proyecto REDES (TIN2015-65136-C02-2-R) Liew, J. S. Y., H. R. Turtle, y E. D. Liddy. y RESCATA (TIN2015-65100-R). También, 2016. EmoTweet-28: A Fine-Grained quiero agradecer el apoyo de la Generalitat Emotion Corpus for Sentiment Analysis. Valenciana a través del proyecto PROME- En Proceedings of the Tenth International TEOII/2014/00, la Universidad de Alicante Conference on Language Resources and con el proyecto GRE16-01: “Plataforma inte- Evaluation (LREC 2016). ligente para recuperación, análisis y represen- tación de la información generada por usua- Lingren, T., L. Deleger, K. Molnar, H. Zhai, rios en Internet” y a las ayudas de la Fun- J. Meinzen-Derr, M. Kaiser, L. Stoutenbo- dación BBVA para equipos de investigación rough, Q. Li, y I. Solti. 2014. Evaluating cientı́fica 2016 a través del proyecto “Análisis the impact of pre-annotation on annota- de Sentimientos Aplicado a la Prevención del tion speed and potential bias: natural lan- Suicidio en las Redes Sociales” (ASAP). guage processing gold standard develop- ment for clinical named entity recognition Bibliografı́a in clinical trial announcements. Journal Alm, C. O., D. Roth, y R. Sproat. 2005. of the American Medical Informatics As- Emotions from text: Machine learning for sociation : JAMIA, 21(3):406–413. text-based emotion prediction. En Procee- Marcus, M. P., M. A. Marcinkiewicz, y dings of the conference on HLT-EMNLP, B. Santorini. 1993. Building a large an- páginas 579–586. notated corpus of english: The penn tree- Aman, S. y S. Szpakowicz. 2007. Identifying bank. Comput. Linguist., 19(2):313–330, Expressions of Emotion in Text. En Text, Junio. Speech and Dialogue. páginas 196–205. Mohammad, S. M. 2016. Sentiment Analy- Antoine, J.-y., J. Villaneau, y A. Lefeuvre. sis: Detecting Valence, Emotions, and Ot- 2014. Weighted Krippendorff’s alpha is a her Affectual States from Text. En more reliable metrics for multi- coders or- H. Meiselman, editor, Emotion Measure- dinal annotations: experimental studies on ment. Elsevier. emotion, opinion and coreference annota- Plutchik, R. 1980. A general psychoevolu- tion. En Proceedings of the 14th Conferen- tionary theory of emotion. En Theories of ce of the European Chapter of the Associa- Emotion. páginas 3–33. tion for Computational Linguistics, nume- ro 1, páginas 550–559. Poria, S., A. Gelbukh, A. Hussain, N. Ho- ward, D. Das, y S. Bandyopadhyay. 2013. Canales, L., W. Daelemans, E. Boldrini, y Enhanced senticnet with affective labels P. Martı́nez-Barco. 2017. Towards the for concept-based opinion mining. IEEE improvement of automatic emotion pre- Intelligent Systems, 28(2):2–9. annotation with polarity and subjecti- ve information. En Proceedings of the Strapparava, C. y R. Mihalcea. 2007. 11th biennial Recent Advances in Natural Semeval-2007 task 14: Affective text. Language Processing conference (RANLP En Proceedings of the 4th International 2017). Workshop on Semantic Evaluations, pági- nas 70–74. De Smedt, T. y W. Daelemans. 2012. Pat- tern for python. J. Mach. Learn. Res., 13(1):2063–2067, Junio. Ekman, P. 1992. An argument for basic emotions. Cognition and Emotion, pági- nas 169–200.