=Paper= {{Paper |id=Vol-1961/paper06 |storemode=property |title= Análisis de emociones en español para el dominio médico (Emotion analysis in Spanish for the medical domain) |pdfUrl=https://ceur-ws.org/Vol-1961/paper06.pdf |volume=Vol-1961 |authors=Flor M. Plaza del Arco }} == Análisis de emociones en español para el dominio médico (Emotion analysis in Spanish for the medical domain) == https://ceur-ws.org/Vol-1961/paper06.pdf
      Análisis de emociones en español para el dominio médico
               Emotion analysis in Spanish for the medical domain

                                 Flor M. Plaza del Arco
                                        Sinai Group
                                    Universidad de Jaén
                              Campus Las Lagunillas s/n. E-23071
                                      fmplaza@ujaen.es

      Resumen: El Análisis de Sentimientos (AS) es una tarea del Procesamiento
      del Lenguaje Natural (PLN) que ha captado la atención de varias áreas no solo
      relacionadas con la inteligencia artificial sino también con la polı́tica, economı́a o
      psicologı́a. El reconocimiento y análisis de emociones en documentos textuales se
      considera una tarea avanzada dentro del AS que consiste en determinar la categorı́a
      emocional (tristeza, alegrı́a, sorpresa, entre otras). Hasta ahora, la mayor parte de la
      investigación se ha desarrollado en inglés, sin embargo, la adaptación de herramientas
      de AS a otros idiomas diferentes al inglés se hace cada vez más necesaria, ya que
      la información en la web social crece de manera exponencial. En este trabajo nos
      centramos en el análisis de emociones en español. Por otra parte, las aplicaciones del
      AS hasta hoy están centradas en áreas como el análisis de mercado, la polı́tica, la
      detección de Spam, los sistemas de recomendación, etc. Sin embargo, otras áreas
      como el dominio médico no han sido exploradas todavı́a o no suficientemente. Por
      ello, proponemos la aplicación de la tecnologı́a desarrollada en el ámbito biomédico.
      Palabras clave: Reconocimiento de emociones, Análisis de sentimientos, Dominio
      médico, Procesamiento de Lenguaje Natural
      Abstract: Sentiment Analysis is a well-known task of Natural Language Processing
      that is attracting the attention of several areas not only related to artificial intelligence
      but also to politics, economics or psychology. The recognition and analysis of emotions
      in textual documents is considered an advanced task within the AS that consists in
      determining the emotional category (sadness, joy, surprise, among others). To date,
      most of the research has been developed in English. However, increasingly, adapting
      AS tools to languages other than English is becoming more and more important. In
      this work we focus on the analysis of emotions in Spanish. On the other hand, the
      applications of the AS until now are centered on areas like market analysis, politics,
      Spam detection, recommendation systems, etc. Nevertheless, other areas such as the
      medical domain have not sufficiently been explored yet. Therefore, we propose the
      application of technology developed in the biomedical domain.
      Keywords: Emotion recognition, Sentiment Analysis, Medical domain, Natural
      Language Processing



1    Justificación de la                              Inteligencia Artificial ası́ como de la Economı́a,
     investigación propuesta                          Polı́tica, Sociologı́a, etc. Sin embargo, la
                                                       mayorı́a de la investigación relacionada se ha
El Análisis de Sentimientos (AS) es una tarea         realizado sobre documentos en inglés aunque
del Procesamiento de Lenguaje Natural (PLN)            cada vez con mayor interés se empiezan a
que trata la subjetividad en documentos                estudiar otros idiomas como por ejemplo el
(Liu, 2012). Aunque se trata de una tarea              español (Martı́n-Valdivia et al., 2013).
relativamente reciente, ya cuenta con una gran             Por otra parte, una de las áreas más
cantidad de investigación en el área no solo del     complejas y menos estudiadas en el AS es
PLN sino también de otras disciplinas de la           el análisis de la emoción (Cambria, 2016). En
el análisis de emociones se han de identificar     el AS engloba el tratamiento computacional
diferentes categorı́as emocionales en el texto.     de la opinión, emoción y la subjetividad
Al igual que ocurre en el resto de tareas del       en cualquier tipo de documento (Cambria,
AS, la mayor parte de la investigación se ha       Livingstone, and Hussain, 2012). Podemos
realizado en inglés, encontrando muy pocos         encontrar una visión general del campo de la
trabajos para otros idiomas y concretamente         computación afectiva (Affective Computing)
para español.                                      en (Picard and Picard, 1997), que pone el foco
    En lingüı́stica computacional, la detección   más en el tratamiento de las emociones.
automática de las emociones en los textos es           Precisamente, una de las tareas más
cada vez más importante desde el punto de          complejas del AS y que aún no ha sido
vista práctico. Consideramos, por ejemplo, las     estudiada en profundidad es la identificación
aplicaciones basadas en minerı́a de opiniones,      y análisis de la emoción en los textos. Liu,
análisis de mercado, computación afectiva o       Lieberman, and Selker (2003) realizan un
interfaces de lenguaje natural como entornos        estudio sobre la inferencia textual de la
de e-learning. Los posibles efectos beneficiosos    afinidad emocional a nivel de oración. Los
de las emociones sobre la memoria y la              autores adoptan la noción de emociones
atención de los usuarios son bien conocidos        básicas y utilizan seis categorı́as emocionales
en el campo de la psicologı́a (Strapparava and      básicas (Ekman et al., 1987): ira, disgusto,
Mihalcea, 2007).                                    temor, felicidad, tristeza y sorpresa. El
    Mientras que la identificación de la           trabajo no resulta exitoso ya que trabajan
polaridad de la opinión (positiva, negativa)       a nivel de oración.
es un campo activo en el AS, creemos que                Uno de los pilares fundamentales en
la identificación de la emoción en los textos     la investigación relacionada con AS se
aumentarı́a la eficacia de las aplicaciones.        centra en los recursos lingüı́sticos disponibles.
    Recientemente,       con el vertiginoso         Los recursos léxicos son indispensables y
desarrollo de la Web 2.0, gran cantidad de          existen varios disponibles para el idioma
opiniones son asignadas por los usuarios            inglés, como SentiWordNet (Esuli and
con categorı́as emocionales, tales como la          Sebastiani, 2006) o General Inquirer (Stone,
felicidad, la tristeza y la sorpresa. Dichas        Dunphy, and Smith, 1966).                 Si nos
emociones se pueden tratar para realizar            centramos en el reconocimiento de emociones
categorización de documentos, y por tanto          encontramos menos recursos, si bien podemos
ayudar a los usuarios conectados a seleccionar      destacar por ejemplo ANEW (Affective
documentos basándose en sus preferencias           Norms for English Words) (Redondo et
emocionales.                                        al., 2007) y WordnetAffect (Strapparava,
    Este trabajo se centra en el análisis          Valitutti, and others, 2004). Concretamente,
de la emoción en español en el dominio            para el desarrollo de WordnetAffect, se
médico. Este dominio es una de las áreas más     consideró como punto de partida WordNet
importantes para el ser humano debido a que         Domains (Magnini and Cavaglia, 2000)
la salud es uno de los temas que más preocupa      una extensión multilingüe de WordNet,
al mismo. Comprender la experiencia de los          desarrollada en ITC-irst. WordnetAffect
pacientes es un pilar fundamental para la           incluye un subconjunto de synsets adecuados
calidad de la asistencia sanitaria.                 para representar conceptos afectivos.
                                                        Con respecto a la disponibilidad de
2   Origen y trabajo relacionado                    recursos de AS en un idioma distinto al
Desde principios del año 2000, el Análisis de     inglés, nos encontramos con que el número es
la Opinión ha crecido hasta convertirse en una     bastante más limitado. Concretamente para
de las principales áreas de investigación del     español podemos citar el recurso CRiSOL
PLN. Esto es debido a la aparición de gran         (Molina-González, Martı́nez-Cámara, and
cantidad de información subjetiva disponible       Martı́n Valdivia, 2015) que es el resultado de
en forma digital en la Web 2.0.                     la combinación de dos recursos lingüı́sticos
   Las tareas iniciales en AS se centraron en       destinados al Análisis de Opiniones. Uno
la clasificación de polaridad de las opiniones     de esos recursos es la lista de palabras de
determinando simplemente si dichas opiniones        opinión en español iSOL (Molina-González et
eran positivas o negativas (Pang, Lee, and          al., 2013), y el otro es el lexicón de opinión
others, 2008). Sin embargo, actualmente             en inglés SentiWordNet. (Ortiz, Pozo, and
Sánchez, 2010)                                      de emociones sobre el dominio médico, hasta
    En lo referente al análisis de emociones,       donde sabemos, no conocemos ningún trabajo.
encontramos el corpus EmotiBlog (Boldrini et
al., 2009) anotado con emociones que incluye         3     Descripción de la investigación
los idiomas español, inglés e italiano.                  propuesta
    El único recurso marcado con emociones          En este trabajo proponemos un sistema
encontrado en español es el desarrollado por        automático de reconocimiento de emociones
(Dı́az Rangel, Sidorov, and Suárez Guerra,          en español.
2014), que presentan un método para la                  En primer lugar,             haremos una
creación de diccionarios marcados con un valor      investigación a fondo de los trabajos
especı́fico para su uso en varias tareas de          sobre reconocimiento e identificación de
PLN realizadas por computadoras. Dicho               emociones que se han desarrollado para inglés.
método se diferencia en varios aspectos de la       A continuación, se verán los posibles estudios
adaptación al español del ANEW; primero            que haya en otros idiomas, centrándonos en
por el hecho de que cada palabra proporciona         los que se enfoquen en español.
información acerca de su categorı́a emocional,          Se intentarán implementar los sistemas ya
tomando como referencia las seis emociones           existentes en inglés adaptándolos al español
básicas de Ekman; segundo, las palabras             mediante la generación de diferentes recursos,
incluidas indican la frecuencia con que se           tanto corpus como lexicones.
usan con un sentido emocional, considerando              Elegimos realizar el trabajo en español
diferentes contextos de aplicación; tercero,        ya que son escasos los recursos disponibles
se aplica una adaptación del método de             actualmente en nuestra lengua y cada vez el
concordancia ponderada en las evaluaciones           español tiene más presencia en la red.
realizadas, mientras que ANEW no lo hace.                Por último, los sistemas se desarrollarán
    El AS se ha aplicado a varios dominios           en un principio de manera general, pero en
tales como el cine, la polı́tica, el análisis       una segunda fase se adaptarán a un dominio
de mercado, entre otros.          Sin embargo,       especı́fico como es el dominio médico, ya
la investigación en el dominio médico es           que consideramos que es posible extraer de
muy escasa. Quizás uno de los primeros              redes sociales diversos corpus interesantes que
enfoques es el propuesto por (Niu et al., 2005).     expresen emociones. Podremos utilizar estos
Los autores aplican aprendizaje automático          recursos para entrenar nuestros sistemas ası́
(SVM) para clasificar la polaridad de las            como para validar el modelo propuesto.
oraciones extraı́das de la base de datos de              Otro de los motivos para centrarnos en
la bibliografı́a médica MEDLINE. (Greaves           el ámbito biomédico es que el crecimiento
et al., 2013) aplicaron técnicas de aprendizaje     de los documentos médicos en Internet
automático para clasificar las opiniones de los     en la última década se ha incrementado
pacientes relacionadas con su experiencia en         exponencialmente. En España, un estudio
un hospital en el Servicio Nacional de Salud         realizado por Doctoralia en 2015 muestra
Inglés. El objetivo principal era predecir          que el 62% de la población española consulta
automáticamente la información textual en          internet para buscar información acerca de
el comentario si el paciente recomendaba un          algún tema relacionado con la salud. Por
hospital, si el hospital estaba limpio y si          tanto, se requiere el desarrollo de sistemas más
él/ella fue tratado/a con dignidad. El objetivo     eficientes para tratar este tipo de información.
principal era estudiar la aplicabilidad de los           Los objetivos concretos que se pretenden
métodos de análisis de opiniones tı́picas en los   alcazar con este proyecto son los siguientes:
textos clı́nicos. Un enfoque similar al trabajo          • Extraer información subjetiva de las
de (Greaves et al., 2013) es el expuesto en                diferentes plataformas (blogs, redes
(Plaza del Arco et al., 2016) donde se recopila            sociales, foros, etc) que dispongan de
el corpus COPOS con opiniones de pacientes                 emociones.
sobre médicos y clı́nicas en español extraı́das
de la página web masquemedicos. Aplican dos             • Generar      distintos   recursos  para
enfoques (supervisado y no supervisado) para               reconocimiento de emociones en
clasificar la polaridad (positiva, negativa) de            español, tanto corpus como lexicones.
las opiniones escritas por los pacientes.                • Procesar dicha información para
    Con respecto a la aplicación de técnicas             desarrollar sistemas que sean capaces
       de identificar las diferentes categorı́as     la que es necesario aplicar técnicas de PLN.
       emocionales.                                  Por tanto y con la finalidad de mejorar el
                                                     procesamiento del sistema inteligente y el
    • Adaptar los sistemas desarrollados al
                                                     razonamiento, es necesario generar recursos
      dominio médico.
                                                     con modelos emocionales.
4     Metodologı́a y experimentos                       El propósito de este trabajo es generar
      propuestos                                     recursos en español en el dominio médico
                                                     para el análisis de emociones, extrayendo
La metodologı́a que se propone para la               información subjetiva de distintas plataformas
consecución de esta tesis se presenta a             Web y procesando dicha información para
continuación:                                       desarrollar sistemas capaces de identificar las
    1. Estudio y revisión del estado del arte. Se   diferentes categorı́as emocionales.
       comenzará con el estudio y análisis de
       la bibliografı́a existente sobre el AS, en    Agradecimientos
       concreto, sobre la tarea de análisis de      Este     trabajo     está parcialmente
       emociones.                                    subvencionado por el proyecto REDES
    2. Adaptación de recursos existentes para       (TIN2015-65136-C2-1-R) del MICINN del
       poder realizar un análisis de los métodos   Gobierno de España.
       propuestos. Se intentará adaptar ciertos
       recursos tales como WornetAffect y            Bibliografı́a
       SentiWordnet al español.                     Boldrini, E., A. Balahur, P. Martı́nez-Barco,
    3. Desarrollo de un prototipo. Se tratará         and A. Montoyo. 2009. Emotiblog: an
       de implementar un sistema de detección         annotation scheme for emotion detection
       de emociones en español.                       and analysis in non-traditional textual
                                                       genres. In DMIN, pages 491–497.
         • Diseño de una arquitectura modular
           que permita integrar nuevas               Cambria, E. 2016. Affective computing
           funcionalidades a medida que se             and sentiment analysis. IEEE Intelligent
           vaya avanzando en la investigación.        Systems, 31(2):102–107.
         • Construcción de la arquitectura          Cambria, E., A. Livingstone, and A. Hussain.
           modular diseñada.                          2012.      The hourglass of emotions.
         • Prueba del correcto funcionamiento          Cognitive behavioural systems, pages
           del prototipo.                              144–157.

    4. Experimentación y evaluación.         Se    Dı́az Rangel, I., G. Sidorov, and
       utilizarán los recursos generados para          S. Suárez Guerra. 2014. Creación y
       llevar a cabo la experimentación y              evaluación de un diccionario marcado con
       posteriormente se procederá a la                emociones y ponderado para el español.
       evaluación del prototipo, llevando a            Onomazein, 1(29).
       cabo una comparación de los resultados
                                                     Ekman, P., W. V. Friesen, M. O’sullivan,
       obtenidos con los ya existentes. Los
                                                       A. Chan,        I. Diacoyanni-Tarlatzis,
       resultados obtenidos se pondrán a
                                                       K. Heider, R. Krause, W. A. LeCompte,
       disposición de la comunidad cientı́fica.
                                                       T. Pitcairn, P. E. Ricci-Bitti, et al. 1987.
5     Conclusión                                      Universals and cultural differences in
                                                       the judgments of facial expressions of
El AS ha sido aplicado a diferentes dominios           emotion. Journal of personality and social
tales como el cine, la polı́tica, el análisis de      psychology, 53(4):712.
mercado, etc. La mayorı́a de los recursos
generados están en inglés. Sin embargo, como       Esuli, A. and F. Sebastiani.        2006.
hemos visto, apenas se han creado recursos             Sentiwordnet: A high-coverage lexical
en español, al igual que no se han explotado          resource for opinion mining. Institute
tareas de AS en el dominio médico. Con el             of Information Science and Technologies
crecimiento de la Web 2.0, disponemos de una           (ISTI) of the Italian National Research
cantidad ingente de información subjetiva a           Council (CNR).
Greaves, F., D. Ramirez-Cano, C. Millett,        Plaza del Arco, F. M., M. T. Martı́n Valdivia,
  A. Darzi, and L. Donaldson. 2013. Use             S.   M.    Jiménez    Zafra,     M.    D.
  of sentiment analysis for capturing patient       Molina González, and E. Martı́nez Cámara.
  experience from free-text comments posted         2016. Copos: Corpus of patient opinions
  online.    Journal of medical Internet            in spanish. application of sentiment
  research, 15(11).                                 analysis techniques. Procesamiento del
                                                    Lenguaje Natural, 57:83–90.
Liu, B. 2012. Sentiment analysis and opinion
   mining. Synthesis lectures on human           Redondo, J., I. Fraga, I. Padrón, and
   language technologies, 5(1):1–167.              M. Comesaña.      2007.     The spanish
Liu, H., H. Lieberman, and T. Selker. 2003.        adaptation of anew (affective norms for
   A model of textual affect sensing using         english words). Behavior research methods,
   real-world knowledge. In Proceedings of the     39(3):600–605.
   8th international conference on Intelligent   Stone, P. J., D. C. Dunphy, and M. S. Smith.
   user interfaces, pages 125–132. ACM.             1966. The general inquirer: A computer
Magnini, B. and G. Cavaglia.       2000.            approach to content analysis.
  Integrating subject field codes into           Strapparava, C. and R. Mihalcea. 2007.
  wordnet. In LREC, pages 1413–1418.                Semeval-2007 task 14: Affective text.
Martı́n-Valdivia, M.-T., E. Martı́nez-Cámara,      In Proceedings of the 4th International
  J.-M. Perea-Ortega,         and L. A.            Workshop on Semantic Evaluations, pages
  Ureña-López. 2013. Sentiment polarity           70–74. Association for Computational
  detection in spanish reviews combining            Linguistics.
  supervised and unsupervised approaches.        Strapparava, C., A. Valitutti, et al. 2004.
  Expert Systems With Applications,                 Wordnet affect: an affective extension
  10(40):3934–3942.                                 of wordnet. In LREC, volume 4, pages
Molina-González, M. D., E. Martı́nez-Cámara,      1083–1086.
  and M. T. Martı́n Valdivia. 2015. Crisol:
  Base de conocimiento de opiniones para
  el español. Procesamiento del Lenguaje
  Natural, 55:143–150.
Molina-González, M. D., E. Martı́nez-Cámara,
  M.-T. Martı́n-Valdivia, and J. M.
  Perea-Ortega. 2013. Semantic orientation
  for polarity classification in spanish
  reviews. Expert Systems with Applications,
  40(18):7250–7257.
Niu, Y., X. Zhu, J. Li, and G. Hirst.
  2005. Analysis of polarity information in
  medical text. In AMIA annual symposium
  proceedings, volume 2005, page 570.
  American Medical Informatics Association.
Ortiz, A. M., Á. P. Pozo, and S. T. Sánchez.
  2010. Sentitext: sistema de análisis de
  sentimiento para el español. Procesamiento
  del Lenguaje Natural, 45:297–298.
Pang, B., L. Lee, et al. 2008. Opinion mining
  and sentiment analysis.        Foundations
  and Trends R in Information Retrieval,
  2(1–2):1–135.
Picard, R. W. and R. Picard. 1997. Affective
   computing, volume 252.       MIT press
   Cambridge.