=Paper=
{{Paper
|id=Vol-1961/paper06
|storemode=property
|title=
Análisis de emociones en español para el dominio médico
(Emotion analysis in Spanish for the medical domain)
|pdfUrl=https://ceur-ws.org/Vol-1961/paper06.pdf
|volume=Vol-1961
|authors=Flor M. Plaza del Arco
}}
==
Análisis de emociones en español para el dominio médico
(Emotion analysis in Spanish for the medical domain)
==
Análisis de emociones en español para el dominio médico
Emotion analysis in Spanish for the medical domain
Flor M. Plaza del Arco
Sinai Group
Universidad de Jaén
Campus Las Lagunillas s/n. E-23071
fmplaza@ujaen.es
Resumen: El Análisis de Sentimientos (AS) es una tarea del Procesamiento
del Lenguaje Natural (PLN) que ha captado la atención de varias áreas no solo
relacionadas con la inteligencia artificial sino también con la polı́tica, economı́a o
psicologı́a. El reconocimiento y análisis de emociones en documentos textuales se
considera una tarea avanzada dentro del AS que consiste en determinar la categorı́a
emocional (tristeza, alegrı́a, sorpresa, entre otras). Hasta ahora, la mayor parte de la
investigación se ha desarrollado en inglés, sin embargo, la adaptación de herramientas
de AS a otros idiomas diferentes al inglés se hace cada vez más necesaria, ya que
la información en la web social crece de manera exponencial. En este trabajo nos
centramos en el análisis de emociones en español. Por otra parte, las aplicaciones del
AS hasta hoy están centradas en áreas como el análisis de mercado, la polı́tica, la
detección de Spam, los sistemas de recomendación, etc. Sin embargo, otras áreas
como el dominio médico no han sido exploradas todavı́a o no suficientemente. Por
ello, proponemos la aplicación de la tecnologı́a desarrollada en el ámbito biomédico.
Palabras clave: Reconocimiento de emociones, Análisis de sentimientos, Dominio
médico, Procesamiento de Lenguaje Natural
Abstract: Sentiment Analysis is a well-known task of Natural Language Processing
that is attracting the attention of several areas not only related to artificial intelligence
but also to politics, economics or psychology. The recognition and analysis of emotions
in textual documents is considered an advanced task within the AS that consists in
determining the emotional category (sadness, joy, surprise, among others). To date,
most of the research has been developed in English. However, increasingly, adapting
AS tools to languages other than English is becoming more and more important. In
this work we focus on the analysis of emotions in Spanish. On the other hand, the
applications of the AS until now are centered on areas like market analysis, politics,
Spam detection, recommendation systems, etc. Nevertheless, other areas such as the
medical domain have not sufficiently been explored yet. Therefore, we propose the
application of technology developed in the biomedical domain.
Keywords: Emotion recognition, Sentiment Analysis, Medical domain, Natural
Language Processing
1 Justificación de la Inteligencia Artificial ası́ como de la Economı́a,
investigación propuesta Polı́tica, Sociologı́a, etc. Sin embargo, la
mayorı́a de la investigación relacionada se ha
El Análisis de Sentimientos (AS) es una tarea realizado sobre documentos en inglés aunque
del Procesamiento de Lenguaje Natural (PLN) cada vez con mayor interés se empiezan a
que trata la subjetividad en documentos estudiar otros idiomas como por ejemplo el
(Liu, 2012). Aunque se trata de una tarea español (Martı́n-Valdivia et al., 2013).
relativamente reciente, ya cuenta con una gran Por otra parte, una de las áreas más
cantidad de investigación en el área no solo del complejas y menos estudiadas en el AS es
PLN sino también de otras disciplinas de la el análisis de la emoción (Cambria, 2016). En
el análisis de emociones se han de identificar el AS engloba el tratamiento computacional
diferentes categorı́as emocionales en el texto. de la opinión, emoción y la subjetividad
Al igual que ocurre en el resto de tareas del en cualquier tipo de documento (Cambria,
AS, la mayor parte de la investigación se ha Livingstone, and Hussain, 2012). Podemos
realizado en inglés, encontrando muy pocos encontrar una visión general del campo de la
trabajos para otros idiomas y concretamente computación afectiva (Affective Computing)
para español. en (Picard and Picard, 1997), que pone el foco
En lingüı́stica computacional, la detección más en el tratamiento de las emociones.
automática de las emociones en los textos es Precisamente, una de las tareas más
cada vez más importante desde el punto de complejas del AS y que aún no ha sido
vista práctico. Consideramos, por ejemplo, las estudiada en profundidad es la identificación
aplicaciones basadas en minerı́a de opiniones, y análisis de la emoción en los textos. Liu,
análisis de mercado, computación afectiva o Lieberman, and Selker (2003) realizan un
interfaces de lenguaje natural como entornos estudio sobre la inferencia textual de la
de e-learning. Los posibles efectos beneficiosos afinidad emocional a nivel de oración. Los
de las emociones sobre la memoria y la autores adoptan la noción de emociones
atención de los usuarios son bien conocidos básicas y utilizan seis categorı́as emocionales
en el campo de la psicologı́a (Strapparava and básicas (Ekman et al., 1987): ira, disgusto,
Mihalcea, 2007). temor, felicidad, tristeza y sorpresa. El
Mientras que la identificación de la trabajo no resulta exitoso ya que trabajan
polaridad de la opinión (positiva, negativa) a nivel de oración.
es un campo activo en el AS, creemos que Uno de los pilares fundamentales en
la identificación de la emoción en los textos la investigación relacionada con AS se
aumentarı́a la eficacia de las aplicaciones. centra en los recursos lingüı́sticos disponibles.
Recientemente, con el vertiginoso Los recursos léxicos son indispensables y
desarrollo de la Web 2.0, gran cantidad de existen varios disponibles para el idioma
opiniones son asignadas por los usuarios inglés, como SentiWordNet (Esuli and
con categorı́as emocionales, tales como la Sebastiani, 2006) o General Inquirer (Stone,
felicidad, la tristeza y la sorpresa. Dichas Dunphy, and Smith, 1966). Si nos
emociones se pueden tratar para realizar centramos en el reconocimiento de emociones
categorización de documentos, y por tanto encontramos menos recursos, si bien podemos
ayudar a los usuarios conectados a seleccionar destacar por ejemplo ANEW (Affective
documentos basándose en sus preferencias Norms for English Words) (Redondo et
emocionales. al., 2007) y WordnetAffect (Strapparava,
Este trabajo se centra en el análisis Valitutti, and others, 2004). Concretamente,
de la emoción en español en el dominio para el desarrollo de WordnetAffect, se
médico. Este dominio es una de las áreas más consideró como punto de partida WordNet
importantes para el ser humano debido a que Domains (Magnini and Cavaglia, 2000)
la salud es uno de los temas que más preocupa una extensión multilingüe de WordNet,
al mismo. Comprender la experiencia de los desarrollada en ITC-irst. WordnetAffect
pacientes es un pilar fundamental para la incluye un subconjunto de synsets adecuados
calidad de la asistencia sanitaria. para representar conceptos afectivos.
Con respecto a la disponibilidad de
2 Origen y trabajo relacionado recursos de AS en un idioma distinto al
Desde principios del año 2000, el Análisis de inglés, nos encontramos con que el número es
la Opinión ha crecido hasta convertirse en una bastante más limitado. Concretamente para
de las principales áreas de investigación del español podemos citar el recurso CRiSOL
PLN. Esto es debido a la aparición de gran (Molina-González, Martı́nez-Cámara, and
cantidad de información subjetiva disponible Martı́n Valdivia, 2015) que es el resultado de
en forma digital en la Web 2.0. la combinación de dos recursos lingüı́sticos
Las tareas iniciales en AS se centraron en destinados al Análisis de Opiniones. Uno
la clasificación de polaridad de las opiniones de esos recursos es la lista de palabras de
determinando simplemente si dichas opiniones opinión en español iSOL (Molina-González et
eran positivas o negativas (Pang, Lee, and al., 2013), y el otro es el lexicón de opinión
others, 2008). Sin embargo, actualmente en inglés SentiWordNet. (Ortiz, Pozo, and
Sánchez, 2010) de emociones sobre el dominio médico, hasta
En lo referente al análisis de emociones, donde sabemos, no conocemos ningún trabajo.
encontramos el corpus EmotiBlog (Boldrini et
al., 2009) anotado con emociones que incluye 3 Descripción de la investigación
los idiomas español, inglés e italiano. propuesta
El único recurso marcado con emociones En este trabajo proponemos un sistema
encontrado en español es el desarrollado por automático de reconocimiento de emociones
(Dı́az Rangel, Sidorov, and Suárez Guerra, en español.
2014), que presentan un método para la En primer lugar, haremos una
creación de diccionarios marcados con un valor investigación a fondo de los trabajos
especı́fico para su uso en varias tareas de sobre reconocimiento e identificación de
PLN realizadas por computadoras. Dicho emociones que se han desarrollado para inglés.
método se diferencia en varios aspectos de la A continuación, se verán los posibles estudios
adaptación al español del ANEW; primero que haya en otros idiomas, centrándonos en
por el hecho de que cada palabra proporciona los que se enfoquen en español.
información acerca de su categorı́a emocional, Se intentarán implementar los sistemas ya
tomando como referencia las seis emociones existentes en inglés adaptándolos al español
básicas de Ekman; segundo, las palabras mediante la generación de diferentes recursos,
incluidas indican la frecuencia con que se tanto corpus como lexicones.
usan con un sentido emocional, considerando Elegimos realizar el trabajo en español
diferentes contextos de aplicación; tercero, ya que son escasos los recursos disponibles
se aplica una adaptación del método de actualmente en nuestra lengua y cada vez el
concordancia ponderada en las evaluaciones español tiene más presencia en la red.
realizadas, mientras que ANEW no lo hace. Por último, los sistemas se desarrollarán
El AS se ha aplicado a varios dominios en un principio de manera general, pero en
tales como el cine, la polı́tica, el análisis una segunda fase se adaptarán a un dominio
de mercado, entre otros. Sin embargo, especı́fico como es el dominio médico, ya
la investigación en el dominio médico es que consideramos que es posible extraer de
muy escasa. Quizás uno de los primeros redes sociales diversos corpus interesantes que
enfoques es el propuesto por (Niu et al., 2005). expresen emociones. Podremos utilizar estos
Los autores aplican aprendizaje automático recursos para entrenar nuestros sistemas ası́
(SVM) para clasificar la polaridad de las como para validar el modelo propuesto.
oraciones extraı́das de la base de datos de Otro de los motivos para centrarnos en
la bibliografı́a médica MEDLINE. (Greaves el ámbito biomédico es que el crecimiento
et al., 2013) aplicaron técnicas de aprendizaje de los documentos médicos en Internet
automático para clasificar las opiniones de los en la última década se ha incrementado
pacientes relacionadas con su experiencia en exponencialmente. En España, un estudio
un hospital en el Servicio Nacional de Salud realizado por Doctoralia en 2015 muestra
Inglés. El objetivo principal era predecir que el 62% de la población española consulta
automáticamente la información textual en internet para buscar información acerca de
el comentario si el paciente recomendaba un algún tema relacionado con la salud. Por
hospital, si el hospital estaba limpio y si tanto, se requiere el desarrollo de sistemas más
él/ella fue tratado/a con dignidad. El objetivo eficientes para tratar este tipo de información.
principal era estudiar la aplicabilidad de los Los objetivos concretos que se pretenden
métodos de análisis de opiniones tı́picas en los alcazar con este proyecto son los siguientes:
textos clı́nicos. Un enfoque similar al trabajo • Extraer información subjetiva de las
de (Greaves et al., 2013) es el expuesto en diferentes plataformas (blogs, redes
(Plaza del Arco et al., 2016) donde se recopila sociales, foros, etc) que dispongan de
el corpus COPOS con opiniones de pacientes emociones.
sobre médicos y clı́nicas en español extraı́das
de la página web masquemedicos. Aplican dos • Generar distintos recursos para
enfoques (supervisado y no supervisado) para reconocimiento de emociones en
clasificar la polaridad (positiva, negativa) de español, tanto corpus como lexicones.
las opiniones escritas por los pacientes. • Procesar dicha información para
Con respecto a la aplicación de técnicas desarrollar sistemas que sean capaces
de identificar las diferentes categorı́as la que es necesario aplicar técnicas de PLN.
emocionales. Por tanto y con la finalidad de mejorar el
procesamiento del sistema inteligente y el
• Adaptar los sistemas desarrollados al
razonamiento, es necesario generar recursos
dominio médico.
con modelos emocionales.
4 Metodologı́a y experimentos El propósito de este trabajo es generar
propuestos recursos en español en el dominio médico
para el análisis de emociones, extrayendo
La metodologı́a que se propone para la información subjetiva de distintas plataformas
consecución de esta tesis se presenta a Web y procesando dicha información para
continuación: desarrollar sistemas capaces de identificar las
1. Estudio y revisión del estado del arte. Se diferentes categorı́as emocionales.
comenzará con el estudio y análisis de
la bibliografı́a existente sobre el AS, en Agradecimientos
concreto, sobre la tarea de análisis de Este trabajo está parcialmente
emociones. subvencionado por el proyecto REDES
2. Adaptación de recursos existentes para (TIN2015-65136-C2-1-R) del MICINN del
poder realizar un análisis de los métodos Gobierno de España.
propuestos. Se intentará adaptar ciertos
recursos tales como WornetAffect y Bibliografı́a
SentiWordnet al español. Boldrini, E., A. Balahur, P. Martı́nez-Barco,
3. Desarrollo de un prototipo. Se tratará and A. Montoyo. 2009. Emotiblog: an
de implementar un sistema de detección annotation scheme for emotion detection
de emociones en español. and analysis in non-traditional textual
genres. In DMIN, pages 491–497.
• Diseño de una arquitectura modular
que permita integrar nuevas Cambria, E. 2016. Affective computing
funcionalidades a medida que se and sentiment analysis. IEEE Intelligent
vaya avanzando en la investigación. Systems, 31(2):102–107.
• Construcción de la arquitectura Cambria, E., A. Livingstone, and A. Hussain.
modular diseñada. 2012. The hourglass of emotions.
• Prueba del correcto funcionamiento Cognitive behavioural systems, pages
del prototipo. 144–157.
4. Experimentación y evaluación. Se Dı́az Rangel, I., G. Sidorov, and
utilizarán los recursos generados para S. Suárez Guerra. 2014. Creación y
llevar a cabo la experimentación y evaluación de un diccionario marcado con
posteriormente se procederá a la emociones y ponderado para el español.
evaluación del prototipo, llevando a Onomazein, 1(29).
cabo una comparación de los resultados
Ekman, P., W. V. Friesen, M. O’sullivan,
obtenidos con los ya existentes. Los
A. Chan, I. Diacoyanni-Tarlatzis,
resultados obtenidos se pondrán a
K. Heider, R. Krause, W. A. LeCompte,
disposición de la comunidad cientı́fica.
T. Pitcairn, P. E. Ricci-Bitti, et al. 1987.
5 Conclusión Universals and cultural differences in
the judgments of facial expressions of
El AS ha sido aplicado a diferentes dominios emotion. Journal of personality and social
tales como el cine, la polı́tica, el análisis de psychology, 53(4):712.
mercado, etc. La mayorı́a de los recursos
generados están en inglés. Sin embargo, como Esuli, A. and F. Sebastiani. 2006.
hemos visto, apenas se han creado recursos Sentiwordnet: A high-coverage lexical
en español, al igual que no se han explotado resource for opinion mining. Institute
tareas de AS en el dominio médico. Con el of Information Science and Technologies
crecimiento de la Web 2.0, disponemos de una (ISTI) of the Italian National Research
cantidad ingente de información subjetiva a Council (CNR).
Greaves, F., D. Ramirez-Cano, C. Millett, Plaza del Arco, F. M., M. T. Martı́n Valdivia,
A. Darzi, and L. Donaldson. 2013. Use S. M. Jiménez Zafra, M. D.
of sentiment analysis for capturing patient Molina González, and E. Martı́nez Cámara.
experience from free-text comments posted 2016. Copos: Corpus of patient opinions
online. Journal of medical Internet in spanish. application of sentiment
research, 15(11). analysis techniques. Procesamiento del
Lenguaje Natural, 57:83–90.
Liu, B. 2012. Sentiment analysis and opinion
mining. Synthesis lectures on human Redondo, J., I. Fraga, I. Padrón, and
language technologies, 5(1):1–167. M. Comesaña. 2007. The spanish
Liu, H., H. Lieberman, and T. Selker. 2003. adaptation of anew (affective norms for
A model of textual affect sensing using english words). Behavior research methods,
real-world knowledge. In Proceedings of the 39(3):600–605.
8th international conference on Intelligent Stone, P. J., D. C. Dunphy, and M. S. Smith.
user interfaces, pages 125–132. ACM. 1966. The general inquirer: A computer
Magnini, B. and G. Cavaglia. 2000. approach to content analysis.
Integrating subject field codes into Strapparava, C. and R. Mihalcea. 2007.
wordnet. In LREC, pages 1413–1418. Semeval-2007 task 14: Affective text.
Martı́n-Valdivia, M.-T., E. Martı́nez-Cámara, In Proceedings of the 4th International
J.-M. Perea-Ortega, and L. A. Workshop on Semantic Evaluations, pages
Ureña-López. 2013. Sentiment polarity 70–74. Association for Computational
detection in spanish reviews combining Linguistics.
supervised and unsupervised approaches. Strapparava, C., A. Valitutti, et al. 2004.
Expert Systems With Applications, Wordnet affect: an affective extension
10(40):3934–3942. of wordnet. In LREC, volume 4, pages
Molina-González, M. D., E. Martı́nez-Cámara, 1083–1086.
and M. T. Martı́n Valdivia. 2015. Crisol:
Base de conocimiento de opiniones para
el español. Procesamiento del Lenguaje
Natural, 55:143–150.
Molina-González, M. D., E. Martı́nez-Cámara,
M.-T. Martı́n-Valdivia, and J. M.
Perea-Ortega. 2013. Semantic orientation
for polarity classification in spanish
reviews. Expert Systems with Applications,
40(18):7250–7257.
Niu, Y., X. Zhu, J. Li, and G. Hirst.
2005. Analysis of polarity information in
medical text. In AMIA annual symposium
proceedings, volume 2005, page 570.
American Medical Informatics Association.
Ortiz, A. M., Á. P. Pozo, and S. T. Sánchez.
2010. Sentitext: sistema de análisis de
sentimiento para el español. Procesamiento
del Lenguaje Natural, 45:297–298.
Pang, B., L. Lee, et al. 2008. Opinion mining
and sentiment analysis. Foundations
and Trends R in Information Retrieval,
2(1–2):1–135.
Picard, R. W. and R. Picard. 1997. Affective
computing, volume 252. MIT press
Cambridge.