=Paper= {{Paper |id=Vol-1961/paper10 |storemode=property |title= Metodología semi-automática para la anotación de corpus emocionales (Semi-automatic methodology to annotate emotional corpora) |pdfUrl=https://ceur-ws.org/Vol-1961/paper10.pdf |volume=Vol-1961 |authors=Lea Canales }} == Metodología semi-automática para la anotación de corpus emocionales (Semi-automatic methodology to annotate emotional corpora) == https://ceur-ws.org/Vol-1961/paper10.pdf
    Metodologı́a semi-automática para la anotación de
                   corpus emocionales
Semi-automatic Methodology to Annotate Emotional Corpora
                                      Lea Canales
                    Departamento de Lenguajes y Sistemas Informáticos
                                Universidad de Alicante
                                   lcanales@dlsi.ua.es

      Resumen: En este proyecto de tesis nos planteamos el desarrollo de una nueva
      metodologı́a semi-automática que nos permita abarcar uno de los grandes retos de
      la tarea de detección de emociones: la creación de corpus emocionales. El desarrollo
      de corpus emocionales que nos permitan entrenar sistemas de reconocimiento de
      emociones es crucial para la creación de herramientas que nos permitan analizar y
      evaluar el estado emocional de los miembros de una sociedad. El análisis emocio-
      nal resulta de gran importancia, ya que actualmente renombrados organismos ya
      realizan estos análisis a través de la interpretación de encuestas, con distintas finali-
      dades: polı́ticas, sociales, comerciales o educativas. Por tanto, el desarrollo de nuevos
      recursos y metodologı́as que nos permitan mejorar estos análisis automáticamente
      resultan de gran utilidad para este campo de investigación. Por ello, en este proyecto
      de tesis proponemos una metodologı́a semi-automática con el objetivo de mejorar
      tanto en la calidad de los corpus como en la reducción del tiempo y coste necesario
      para su desarrollo.
      Palabras clave: Detección de emociones, Anotación Semi-automática, Corpus
      Emocionales, Análisis de Sentimientos
      Abstract: The objective of this PhD is to analyse and develop a new semi-automatic
      methodology with the aim of tackling one of the most important challenges in textual
      emotion detection: emotional annotation. The development of emotional corpora is
      crucial for improving the current emotional recognition systems, thus allowing us
      to analyse and evaluate people’s emotions more precisely. This information and the
      patterns of these emotions provide a great value for politics, society, businesses
      or education. Therefore, the development of new resources and methodologies will
      allow us to improve the current emotion detection systems. Accordingly, this thesis
      proposes a semi-automatic methodology with the aim of improving the quality of
      emotional corpora and overcoming the cost and time-consuming shortcoming of
      manual annotation.
      Keywords: Emotion detection, Semi-automatic Annotation, Emotional Corpora,
      Sentiment Analysis


1    Motivación                                       miento de estos algoritmos implica la ano-
                                                       tación de grandes cantidades de datos con
Actualmente, en Lingüı́stica Computacional            categorı́as emocionales. Siendo este uno de
ha aumentado el interés de la detección de           los retos más importantes en este campo de
emociones a partir de texto escrito, debido al         investigación, ya que no es una tarea trivial
gran número de beneficios obtenidos a nivel           debido a que la detección de emociones en
empresarial, educativo, polı́tico o social.            texto escrito puede ser un reto incluso para
    En este campo de investigación, existen di-       los seres humanos.
ferentes aproximaciones de sistemas de reco-
nocimiento de emociones, pero la mayorı́a de              La mayorı́a de investigación llevada a ca-
ellas han sido llevadas acabo mediante apren-          bo hasta el momento ha demostrado los re-
dizaje automático supervisado. El entrena-            tos existentes en la anotación de corpus emo-
cionales, como por ejemplo, la obtención de       infantiles anotadas con categorı́as emociona-
acuerdo entre los anotadores o el tiempo y         les (Alm, Roth, y Sproat, 2005); entradas de
el coste asociado para su desarrollo. Esto         blogs coleccionadas directamente de la Web,
es debido al hecho de que la anotación ma-        anotadas con categorı́as emocionales y la in-
nual puede estar influenciada por un conjun-       tensidad de cada emoción (Aman y Szpako-
to de factores, como la claridad de la guı́a de    wicz, 2007); o titulares de noticias anotados
anotación, la dificultad de la tarea o el en-     con las categorı́as emociones y la valencia pa-
trenamiento de los anotadores (Mohammad,           ra la tarea Affective Text del Semeval-2007
2016).                                             (Strapparava y Mihalcea, 2007). Todos estos
    Como consecuencia, el número de corpus        corpus tienen en común un gran coste tempo-
emociones disponibles en el estado de la cues-     ral y económico necesario para su desarrollo y
tión es reducido y, además, el tamaño de        además las dificultades para obtener acuerdo
los mismos es pequeño si deseamos aplicar         entre los anotadores, dificultando la obten-
técnicas de Aprendizaje Automático (Machi-       ción de un corpus de calidad.
ne Learning) o Aprendizaje Profundo (Deep              El coste temporal y económico del desa-
Learning).                                         rrollo de un corpus es un reto compartido en
    Es por ello, que en este proyecto de te-       muchas tareas de PLN, y la pre-anotación es
sis nos planteamos el desarrollo de una nue-       una de las tareas que se ha llevado a cabo
va metodologı́a semi-automática para la ano-      para abordarlo. La pre-anotación ha sido am-
tación de emociones, que nos permita crear        pliamente estudiada en otras tareas de PLN,
corpus emocionales en diferentes géneros, do-     como POS-tagging o Reconocimiento de En-
minios e idiomas de manera eficiente, con          tidades Nombradas, proporcionando mejoras
el objetivo de crear recursos y herramientas       en tiempo y calidad de los corpus desarrolla-
que nos permitan analizar y evaluar el estado      dos.
emocional de los miembros de una sociedad.             Marcus, Marcinkiewicz, y Santorini (1993)
    La metodologı́a propuesta está compuesta      presentaron una de las primeras aproxima-
de dos fases principales: 1) una pre-anotación    ciones en las que se evaluaba el proceso de
automática de un conjunto reducido de las         pre-anotación para la tarea de POS-tagging.
categorı́as emocionales más predominantes         Este experimento demostró que la anotación
en cada frase; y 2) una anotación manual, en      manual sin pre-anotación requirió el doble de
la que los anotadores seleccionarán la emo-       tiempo y se obtuvo aproximadamente el do-
ción dominante de cada frase entre las pre-       ble de tasa de desacuerdo con respecto a la
seleccionadas en la primera fase.                  tarea con pre-anotación. También Fort y Sa-
    En la siguiente sección vamos a descri-       got (2010) aplicaron la pre-anotación al POS-
bir los corpus emocionales más relevantes en      tagging y confirmaron la mejora en tiempo y
el campo de detección de emociones, ası́ co-      calidad de la anotación, pero además los ex-
mo trabajos previos donde se ha utilizado          perimentos llevados a cabo demostraron que
la técnica de pre-anotación en diferentes ta-    incluso cuando la pre-anotación no era preci-
reas de Procesamiento de Lenguaje Natural          sa también ayudaba a mejorar la anotación
(PLN).                                             manual. Más recientemente, Lingren et al.
                                                   (2014) evalúan el impacto de la pre-anotación
2   Antecedentes y trabajos                        en el Reconocimiento de Entidades Nombra-
    relacionados                                   das del dominio médico, concluyendo que el
Nuestra investigación se lleva a cabo desde       anotador que tenı́a el texto pre-anotado ne-
el área de la Informática Afectiva o Affective   cesitó menos tiempo para anotar que el ano-
Computing y más concretamente en su mo-           tador sin texto pre-anotado. Además, la pre-
dalidad textual.                                   anotación no redujo el acuerdo o rendimiento
    Como hemos comentado en el apartado            del anotador.
anterior, las aproximaciones más utilizadas           Teniendo en cuenta este contexto y con-
en esta modalidad son basadas en algorit-          siderando los retos planteados en la tarea de
mos de aprendizaje automático supervisado.        anotación de emociones, una nueva metodo-
Con el objetivo de crear estos sistemas en         logı́a semi-automática es propuesta en este
diferentes dominios y géneros, varios corpus      proyecto de tesis con el objetivo de mejorar
emocionales anotados manualmente han sido          tanto la calidad como el tiempo y coste aso-
desarrollados, como por ejemplo 185 historias      ciado con el desarrollo de recursos emociona-
les, que nos permitan la anotación de corpus      trabajando. Es decir, si nuestro objetivo
emocionales a gran escala y con estándares        es anotar con las seis emociones básicas de
de fiabilidad.                                     Ekman (1992), el sistema pre-anotará las
                                                   frases con tres de las seis categorı́as. Por
3   Propuesta de investigación                    tanto, la metodologı́a es adaptable a dife-
La hipótesis de partida de este proyecto de       rentes conjuntos de categorı́as emocionales,
tesis es que la reducción automática de ca-      como por ejemplo el conjunto propuesto
tegorı́as emocionales reducirá la complejidad     por Plutchik (1980) donde las emociones
de la tarea de anotación y por tanto la am-       propuestas como básicas son: IRA, ASCO,
bigüedad a la que se tienen que enfrentar los     MIEDO, FELICIDAD, TRISTEZA, SORPRESA,
anotadores, proponiéndoles un número redu-       CONFIANZA y ANTICIPACIÓN.
cido de categorı́as emocionales. También los         Hemos desarrollado dos procesos de pre-
trabajos previos que demuestran las mejoras        anotación: un proceso no supervisado basa-
obtenidas con pre-anotación en otras tareas       do en modelos de Semántica Distribucional
de PLN y el estudio de Antoine, Villaneau,         (Distributional Semantic Models) (Canales
y Lefeuvre (2014) donde concluyen que el           et al., 2017) y otro supervisado basado en
acuerdo entre anotadores incrementa signifi-       Aprendizaje Automático.
cativamente cuando el número de clases pro-          La aproximación no supervisada esta ba-
puestas decrece, nos permiten considerar la        sada en semántica distribucional y está com-
viabilidad de nuestra hipótesis de partida.       puesta de dos pasos principales:
   Por ello, se propone una metodologı́a
semi-automática que está compuesta de dos         1. La representación de las emociones y las
fases principales:                                     frases en un espacio semántico.
                                                    2. La asociación entre frases y emociones.
    Fase 1 - Pre-anotación automática: pro-
    ceso automático donde cada frase es pre-
                                                       En el primer paso, las frases y emociones
    anotada con un número reducido de ca-
                                                   son representados en forma de vectores dis-
    tegorı́as emocionales.
                                                   tribucionales (word embedding). Este fase se
    Fase 2 - Anotación manual : proceso ma-       divide en dos pasos: 1) el pre-procesamiento
    nual donde anotadores humanos deter-           de las frases y las emociones, donde se cons-
    minarán cual es la emoción dominante         truyen bolsas de palabras con vocabulario re-
    entre las pre-seleccionadas en la primera      lacionado con cada una de las emociones y de
    fase.                                          las frases que deseamos anotar; y 2) la crea-
                                                   ción de un vector distribucional por cada una
   Nuestro objetivo es lograr una alta fiabi-      de las emociones y las frases, sustituyendo y
lidad en la tarea de anotación de emociones       sumando los vectores distribucionales de las
reduciendo su complejidad automáticamente,        palabras contenidas en las bolsas de palabras
y a su vez reducir el tiempo y el coste asocia-    creadas en el paso anterior. Para la creación
do a dicha tarea. El desarrollo de esta meto-      de las bolsas de palabras de las emociones es
dologı́a nos permitirá la anotación de grandes   necesario un lexicón emocional y en nuestro
cantidades de datos de manera eficiente y con      caso, EmoSenticNet (Poria et al., 2013) es el
garantı́a de estándares de fiabilidad.            recurso utilizado. Una representación gráfica
                                                   de este primer paso se observa en la Figura
4   Metodologı́a propuesta                         1.
Como hemos mencionado en la sección an-               En el segundo paso, se lleva a cabo la aso-
terior, la metodologı́a que proponemos pa-         ciación entre frases y emociones calculando la
ra mejorar el proceso de anotación de emo-        similitud semántica entre vectores, asociado
ciones es una metodologı́a semi-automática        aquellas emociones cuya similitud semánti-
compuesta de dos fases principales.                ca con cada frase es mayor. Con el objeti-
   La primera fase consiste en un proceso          vo de mejorar el conjunto de emociones pre-
de pre-anotación en que se pre-selecciona         seleccionadas, en este proceso también se uti-
aquellas emociones más relacionadas con           liza la información de polaridad y subjetivi-
cada una de las frases. Concretamente, se          dad de cada una de las frases, utilizando pa-
pre-anotan la mitad del número de cate-           ra ello la herramienta Pattern (De Smedt y
gorı́as emocionales con las que estemos            Daelemans, 2012).
       Figura 1: La representación de las emociones y las frases en el espacio semántico.


    Respecto al proceso supervisado basado          ras que nos pueda aportar la pre-anotación,
en Aprendizaje Automático, hemos utilizado         tanto en la calidad del corpus como en la re-
corpus desarrollados hasta el momento en el         ducción del tiempo y coste necesario para su
campo de detección de emociones para crear         desarrollo.
modelos que nos permitan pre-anotar textos
nuevos. En estas aproximaciones de Aprendi-         5   Cuestiones de investigación
zaje Automático, hemos utilizado diferentes        Este proyecto de tesis se enmarca dentro del
conjuntos de caracterı́sticas con el objetivo       campo de Informática Afectiva y Análisis de
de evaluar cual de ellos nos proporcionaba          Sentimiento, lo que convierte la tarea en un
mejores resultados.                                 reto, dado que tenemos que abarcar proble-
    Ambos procesos de pre-anotación, tanto         mas como la ironı́a o la subjetividad. Con-
el supervisado como el no supervisado, han          siderando, por tanto, esta situación, surgen
sido evaluados en dos corpus emocionales:           algunas cuestiones cuya puesta en común re-
Aman corpus (Aman y Szpakowicz, 2007) y             sultarı́a interesante:
EmoTweet-28 (Liew, Turtle, y Liddy, 2016)
permitiéndonos verificar la viabilidad del pro-        ¿Qué conjunto de caracterı́sticas po-
ceso en corpus de diferentes géneros. En el            demos incorporar al proceso de pre-
proceso de evaluación, se ha considerado que           anotación basado en Aprendizaje Au-
la pre-anotación era correcta si entre las emo-        tomático para mejorar dicho proceso?
ciones propuestas por el sistema se encontra-           ¿Qué otras técnicas no supervisadas
ba la emoción anotada en el gold standard de           podrı́amos aplicar para mejorar el pro-
cada uno de los corpus. La evaluación mues-            ceso de pre-anotación?
tra que la aproximación supervisada obtiene
mejores resultados, pero la usabilidad de los           ¿Qué otras técnicas podrı́amos utilizar
métodos debe ser validada en la segunda fa-            para alcanzar nuestro objetivo? ¿Podrı́a
se de la metodologı́a: la anotación manual a           ser Active Learning una buena técnica
partir de la pre-anotación.                            para abarcar nuestro proyecto?
    Por ello, el siguiente paso es el desarro-          Estudios psicológicos muestran que las
llo de la anotación manual utilizando la pre-          personas expresan sus emociones según
anotación. Es un proceso que ya hemos di-              su cultura e idioma. Por tanto, ¿es nece-
señado y que será llevado a cabo en las próxi-       sario crear recursos emocionales tenien-
mas semanas. En esta experimentación, nues-            do en cuenta el idioma? o ¿una simple
tro objetivos es analizar las ventajas o mejo-          traducción entre recursos es suficiente?
Agradecimientos                                      Fort, K. y B. Sagot. 2010. Influence of
Quiero agradecer al programa de Formación              pre-annotation on pos-tagged corpus de-
de Personal Investigador (FPI) del Ministerio           velopment. En Proceedings of the Fourth
de Economı́a y Competitividad del Gobierno              Linguistic Annotation Workshop, LAW
de España por su apoyo a través de una de sus         IV ’10, páginas 56–63, Stroudsburg, PA,
becas pre-doctorales de investigación (BES-            USA. Association for Computational Lin-
2013-065950) y por su apoyo a través del               guistics.
proyecto REDES (TIN2015-65136-C02-2-R)               Liew, J. S. Y., H. R. Turtle, y E. D. Liddy.
y RESCATA (TIN2015-65100-R). También,                  2016.    EmoTweet-28: A Fine-Grained
quiero agradecer el apoyo de la Generalitat             Emotion Corpus for Sentiment Analysis.
Valenciana a través del proyecto PROME-                En Proceedings of the Tenth International
TEOII/2014/00, la Universidad de Alicante               Conference on Language Resources and
con el proyecto GRE16-01: “Plataforma inte-             Evaluation (LREC 2016).
ligente para recuperación, análisis y represen-
tación de la información generada por usua-        Lingren, T., L. Deleger, K. Molnar, H. Zhai,
rios en Internet” y a las ayudas de la Fun-             J. Meinzen-Derr, M. Kaiser, L. Stoutenbo-
dación BBVA para equipos de investigación             rough, Q. Li, y I. Solti. 2014. Evaluating
cientı́fica 2016 a través del proyecto “Análisis      the impact of pre-annotation on annota-
de Sentimientos Aplicado a la Prevención del           tion speed and potential bias: natural lan-
Suicidio en las Redes Sociales” (ASAP).                 guage processing gold standard develop-
                                                        ment for clinical named entity recognition
Bibliografı́a                                           in clinical trial announcements. Journal
Alm, C. O., D. Roth, y R. Sproat. 2005.                 of the American Medical Informatics As-
  Emotions from text: Machine learning for              sociation : JAMIA, 21(3):406–413.
  text-based emotion prediction. En Procee-          Marcus, M. P., M. A. Marcinkiewicz, y
  dings of the conference on HLT-EMNLP,                B. Santorini. 1993. Building a large an-
  páginas 579–586.                                    notated corpus of english: The penn tree-
Aman, S. y S. Szpakowicz. 2007. Identifying            bank. Comput. Linguist., 19(2):313–330,
  Expressions of Emotion in Text. En Text,             Junio.
  Speech and Dialogue. páginas 196–205.             Mohammad, S. M. 2016. Sentiment Analy-
Antoine, J.-y., J. Villaneau, y A. Lefeuvre.           sis: Detecting Valence, Emotions, and Ot-
  2014. Weighted Krippendorff’s alpha is a             her Affectual States from Text.       En
  more reliable metrics for multi- coders or-          H. Meiselman, editor, Emotion Measure-
  dinal annotations: experimental studies on           ment. Elsevier.
  emotion, opinion and coreference annota-           Plutchik, R. 1980. A general psychoevolu-
  tion. En Proceedings of the 14th Conferen-            tionary theory of emotion. En Theories of
  ce of the European Chapter of the Associa-            Emotion. páginas 3–33.
  tion for Computational Linguistics, nume-
  ro 1, páginas 550–559.                            Poria, S., A. Gelbukh, A. Hussain, N. Ho-
                                                       ward, D. Das, y S. Bandyopadhyay. 2013.
Canales, L., W. Daelemans, E. Boldrini, y              Enhanced senticnet with affective labels
  P. Martı́nez-Barco. 2017. Towards the                for concept-based opinion mining. IEEE
  improvement of automatic emotion pre-                Intelligent Systems, 28(2):2–9.
  annotation with polarity and subjecti-
  ve information. En Proceedings of the              Strapparava, C. y R. Mihalcea.       2007.
  11th biennial Recent Advances in Natural              Semeval-2007 task 14: Affective text.
  Language Processing conference (RANLP                 En Proceedings of the 4th International
  2017).                                                Workshop on Semantic Evaluations, pági-
                                                        nas 70–74.
De Smedt, T. y W. Daelemans. 2012. Pat-
  tern for python. J. Mach. Learn. Res.,
  13(1):2063–2067, Junio.
Ekman, P. 1992. An argument for basic
  emotions. Cognition and Emotion, pági-
  nas 169–200.