Análisis de emociones en español para el dominio médico Emotion analysis in Spanish for the medical domain Flor M. Plaza del Arco Sinai Group Universidad de Jaén Campus Las Lagunillas s/n. E-23071 fmplaza@ujaen.es Resumen: El Análisis de Sentimientos (AS) es una tarea del Procesamiento del Lenguaje Natural (PLN) que ha captado la atención de varias áreas no solo relacionadas con la inteligencia artificial sino también con la polı́tica, economı́a o psicologı́a. El reconocimiento y análisis de emociones en documentos textuales se considera una tarea avanzada dentro del AS que consiste en determinar la categorı́a emocional (tristeza, alegrı́a, sorpresa, entre otras). Hasta ahora, la mayor parte de la investigación se ha desarrollado en inglés, sin embargo, la adaptación de herramientas de AS a otros idiomas diferentes al inglés se hace cada vez más necesaria, ya que la información en la web social crece de manera exponencial. En este trabajo nos centramos en el análisis de emociones en español. Por otra parte, las aplicaciones del AS hasta hoy están centradas en áreas como el análisis de mercado, la polı́tica, la detección de Spam, los sistemas de recomendación, etc. Sin embargo, otras áreas como el dominio médico no han sido exploradas todavı́a o no suficientemente. Por ello, proponemos la aplicación de la tecnologı́a desarrollada en el ámbito biomédico. Palabras clave: Reconocimiento de emociones, Análisis de sentimientos, Dominio médico, Procesamiento de Lenguaje Natural Abstract: Sentiment Analysis is a well-known task of Natural Language Processing that is attracting the attention of several areas not only related to artificial intelligence but also to politics, economics or psychology. The recognition and analysis of emotions in textual documents is considered an advanced task within the AS that consists in determining the emotional category (sadness, joy, surprise, among others). To date, most of the research has been developed in English. However, increasingly, adapting AS tools to languages other than English is becoming more and more important. In this work we focus on the analysis of emotions in Spanish. On the other hand, the applications of the AS until now are centered on areas like market analysis, politics, Spam detection, recommendation systems, etc. Nevertheless, other areas such as the medical domain have not sufficiently been explored yet. Therefore, we propose the application of technology developed in the biomedical domain. Keywords: Emotion recognition, Sentiment Analysis, Medical domain, Natural Language Processing 1 Justificación de la Inteligencia Artificial ası́ como de la Economı́a, investigación propuesta Polı́tica, Sociologı́a, etc. Sin embargo, la mayorı́a de la investigación relacionada se ha El Análisis de Sentimientos (AS) es una tarea realizado sobre documentos en inglés aunque del Procesamiento de Lenguaje Natural (PLN) cada vez con mayor interés se empiezan a que trata la subjetividad en documentos estudiar otros idiomas como por ejemplo el (Liu, 2012). Aunque se trata de una tarea español (Martı́n-Valdivia et al., 2013). relativamente reciente, ya cuenta con una gran Por otra parte, una de las áreas más cantidad de investigación en el área no solo del complejas y menos estudiadas en el AS es PLN sino también de otras disciplinas de la el análisis de la emoción (Cambria, 2016). En el análisis de emociones se han de identificar el AS engloba el tratamiento computacional diferentes categorı́as emocionales en el texto. de la opinión, emoción y la subjetividad Al igual que ocurre en el resto de tareas del en cualquier tipo de documento (Cambria, AS, la mayor parte de la investigación se ha Livingstone, and Hussain, 2012). Podemos realizado en inglés, encontrando muy pocos encontrar una visión general del campo de la trabajos para otros idiomas y concretamente computación afectiva (Affective Computing) para español. en (Picard and Picard, 1997), que pone el foco En lingüı́stica computacional, la detección más en el tratamiento de las emociones. automática de las emociones en los textos es Precisamente, una de las tareas más cada vez más importante desde el punto de complejas del AS y que aún no ha sido vista práctico. Consideramos, por ejemplo, las estudiada en profundidad es la identificación aplicaciones basadas en minerı́a de opiniones, y análisis de la emoción en los textos. Liu, análisis de mercado, computación afectiva o Lieberman, and Selker (2003) realizan un interfaces de lenguaje natural como entornos estudio sobre la inferencia textual de la de e-learning. Los posibles efectos beneficiosos afinidad emocional a nivel de oración. Los de las emociones sobre la memoria y la autores adoptan la noción de emociones atención de los usuarios son bien conocidos básicas y utilizan seis categorı́as emocionales en el campo de la psicologı́a (Strapparava and básicas (Ekman et al., 1987): ira, disgusto, Mihalcea, 2007). temor, felicidad, tristeza y sorpresa. El Mientras que la identificación de la trabajo no resulta exitoso ya que trabajan polaridad de la opinión (positiva, negativa) a nivel de oración. es un campo activo en el AS, creemos que Uno de los pilares fundamentales en la identificación de la emoción en los textos la investigación relacionada con AS se aumentarı́a la eficacia de las aplicaciones. centra en los recursos lingüı́sticos disponibles. Recientemente, con el vertiginoso Los recursos léxicos son indispensables y desarrollo de la Web 2.0, gran cantidad de existen varios disponibles para el idioma opiniones son asignadas por los usuarios inglés, como SentiWordNet (Esuli and con categorı́as emocionales, tales como la Sebastiani, 2006) o General Inquirer (Stone, felicidad, la tristeza y la sorpresa. Dichas Dunphy, and Smith, 1966). Si nos emociones se pueden tratar para realizar centramos en el reconocimiento de emociones categorización de documentos, y por tanto encontramos menos recursos, si bien podemos ayudar a los usuarios conectados a seleccionar destacar por ejemplo ANEW (Affective documentos basándose en sus preferencias Norms for English Words) (Redondo et emocionales. al., 2007) y WordnetAffect (Strapparava, Este trabajo se centra en el análisis Valitutti, and others, 2004). Concretamente, de la emoción en español en el dominio para el desarrollo de WordnetAffect, se médico. Este dominio es una de las áreas más consideró como punto de partida WordNet importantes para el ser humano debido a que Domains (Magnini and Cavaglia, 2000) la salud es uno de los temas que más preocupa una extensión multilingüe de WordNet, al mismo. Comprender la experiencia de los desarrollada en ITC-irst. WordnetAffect pacientes es un pilar fundamental para la incluye un subconjunto de synsets adecuados calidad de la asistencia sanitaria. para representar conceptos afectivos. Con respecto a la disponibilidad de 2 Origen y trabajo relacionado recursos de AS en un idioma distinto al Desde principios del año 2000, el Análisis de inglés, nos encontramos con que el número es la Opinión ha crecido hasta convertirse en una bastante más limitado. Concretamente para de las principales áreas de investigación del español podemos citar el recurso CRiSOL PLN. Esto es debido a la aparición de gran (Molina-González, Martı́nez-Cámara, and cantidad de información subjetiva disponible Martı́n Valdivia, 2015) que es el resultado de en forma digital en la Web 2.0. la combinación de dos recursos lingüı́sticos Las tareas iniciales en AS se centraron en destinados al Análisis de Opiniones. Uno la clasificación de polaridad de las opiniones de esos recursos es la lista de palabras de determinando simplemente si dichas opiniones opinión en español iSOL (Molina-González et eran positivas o negativas (Pang, Lee, and al., 2013), y el otro es el lexicón de opinión others, 2008). Sin embargo, actualmente en inglés SentiWordNet. (Ortiz, Pozo, and Sánchez, 2010) de emociones sobre el dominio médico, hasta En lo referente al análisis de emociones, donde sabemos, no conocemos ningún trabajo. encontramos el corpus EmotiBlog (Boldrini et al., 2009) anotado con emociones que incluye 3 Descripción de la investigación los idiomas español, inglés e italiano. propuesta El único recurso marcado con emociones En este trabajo proponemos un sistema encontrado en español es el desarrollado por automático de reconocimiento de emociones (Dı́az Rangel, Sidorov, and Suárez Guerra, en español. 2014), que presentan un método para la En primer lugar, haremos una creación de diccionarios marcados con un valor investigación a fondo de los trabajos especı́fico para su uso en varias tareas de sobre reconocimiento e identificación de PLN realizadas por computadoras. Dicho emociones que se han desarrollado para inglés. método se diferencia en varios aspectos de la A continuación, se verán los posibles estudios adaptación al español del ANEW; primero que haya en otros idiomas, centrándonos en por el hecho de que cada palabra proporciona los que se enfoquen en español. información acerca de su categorı́a emocional, Se intentarán implementar los sistemas ya tomando como referencia las seis emociones existentes en inglés adaptándolos al español básicas de Ekman; segundo, las palabras mediante la generación de diferentes recursos, incluidas indican la frecuencia con que se tanto corpus como lexicones. usan con un sentido emocional, considerando Elegimos realizar el trabajo en español diferentes contextos de aplicación; tercero, ya que son escasos los recursos disponibles se aplica una adaptación del método de actualmente en nuestra lengua y cada vez el concordancia ponderada en las evaluaciones español tiene más presencia en la red. realizadas, mientras que ANEW no lo hace. Por último, los sistemas se desarrollarán El AS se ha aplicado a varios dominios en un principio de manera general, pero en tales como el cine, la polı́tica, el análisis una segunda fase se adaptarán a un dominio de mercado, entre otros. Sin embargo, especı́fico como es el dominio médico, ya la investigación en el dominio médico es que consideramos que es posible extraer de muy escasa. Quizás uno de los primeros redes sociales diversos corpus interesantes que enfoques es el propuesto por (Niu et al., 2005). expresen emociones. Podremos utilizar estos Los autores aplican aprendizaje automático recursos para entrenar nuestros sistemas ası́ (SVM) para clasificar la polaridad de las como para validar el modelo propuesto. oraciones extraı́das de la base de datos de Otro de los motivos para centrarnos en la bibliografı́a médica MEDLINE. (Greaves el ámbito biomédico es que el crecimiento et al., 2013) aplicaron técnicas de aprendizaje de los documentos médicos en Internet automático para clasificar las opiniones de los en la última década se ha incrementado pacientes relacionadas con su experiencia en exponencialmente. En España, un estudio un hospital en el Servicio Nacional de Salud realizado por Doctoralia en 2015 muestra Inglés. El objetivo principal era predecir que el 62% de la población española consulta automáticamente la información textual en internet para buscar información acerca de el comentario si el paciente recomendaba un algún tema relacionado con la salud. Por hospital, si el hospital estaba limpio y si tanto, se requiere el desarrollo de sistemas más él/ella fue tratado/a con dignidad. El objetivo eficientes para tratar este tipo de información. principal era estudiar la aplicabilidad de los Los objetivos concretos que se pretenden métodos de análisis de opiniones tı́picas en los alcazar con este proyecto son los siguientes: textos clı́nicos. Un enfoque similar al trabajo • Extraer información subjetiva de las de (Greaves et al., 2013) es el expuesto en diferentes plataformas (blogs, redes (Plaza del Arco et al., 2016) donde se recopila sociales, foros, etc) que dispongan de el corpus COPOS con opiniones de pacientes emociones. sobre médicos y clı́nicas en español extraı́das de la página web masquemedicos. Aplican dos • Generar distintos recursos para enfoques (supervisado y no supervisado) para reconocimiento de emociones en clasificar la polaridad (positiva, negativa) de español, tanto corpus como lexicones. las opiniones escritas por los pacientes. • Procesar dicha información para Con respecto a la aplicación de técnicas desarrollar sistemas que sean capaces de identificar las diferentes categorı́as la que es necesario aplicar técnicas de PLN. emocionales. Por tanto y con la finalidad de mejorar el procesamiento del sistema inteligente y el • Adaptar los sistemas desarrollados al razonamiento, es necesario generar recursos dominio médico. con modelos emocionales. 4 Metodologı́a y experimentos El propósito de este trabajo es generar propuestos recursos en español en el dominio médico para el análisis de emociones, extrayendo La metodologı́a que se propone para la información subjetiva de distintas plataformas consecución de esta tesis se presenta a Web y procesando dicha información para continuación: desarrollar sistemas capaces de identificar las 1. Estudio y revisión del estado del arte. Se diferentes categorı́as emocionales. comenzará con el estudio y análisis de la bibliografı́a existente sobre el AS, en Agradecimientos concreto, sobre la tarea de análisis de Este trabajo está parcialmente emociones. subvencionado por el proyecto REDES 2. Adaptación de recursos existentes para (TIN2015-65136-C2-1-R) del MICINN del poder realizar un análisis de los métodos Gobierno de España. propuestos. Se intentará adaptar ciertos recursos tales como WornetAffect y Bibliografı́a SentiWordnet al español. Boldrini, E., A. Balahur, P. Martı́nez-Barco, 3. Desarrollo de un prototipo. Se tratará and A. Montoyo. 2009. Emotiblog: an de implementar un sistema de detección annotation scheme for emotion detection de emociones en español. and analysis in non-traditional textual genres. In DMIN, pages 491–497. • Diseño de una arquitectura modular que permita integrar nuevas Cambria, E. 2016. Affective computing funcionalidades a medida que se and sentiment analysis. IEEE Intelligent vaya avanzando en la investigación. Systems, 31(2):102–107. • Construcción de la arquitectura Cambria, E., A. Livingstone, and A. Hussain. modular diseñada. 2012. The hourglass of emotions. • Prueba del correcto funcionamiento Cognitive behavioural systems, pages del prototipo. 144–157. 4. Experimentación y evaluación. Se Dı́az Rangel, I., G. Sidorov, and utilizarán los recursos generados para S. Suárez Guerra. 2014. Creación y llevar a cabo la experimentación y evaluación de un diccionario marcado con posteriormente se procederá a la emociones y ponderado para el español. evaluación del prototipo, llevando a Onomazein, 1(29). cabo una comparación de los resultados Ekman, P., W. V. Friesen, M. O’sullivan, obtenidos con los ya existentes. Los A. Chan, I. Diacoyanni-Tarlatzis, resultados obtenidos se pondrán a K. Heider, R. Krause, W. A. LeCompte, disposición de la comunidad cientı́fica. T. Pitcairn, P. E. Ricci-Bitti, et al. 1987. 5 Conclusión Universals and cultural differences in the judgments of facial expressions of El AS ha sido aplicado a diferentes dominios emotion. Journal of personality and social tales como el cine, la polı́tica, el análisis de psychology, 53(4):712. mercado, etc. La mayorı́a de los recursos generados están en inglés. Sin embargo, como Esuli, A. and F. Sebastiani. 2006. hemos visto, apenas se han creado recursos Sentiwordnet: A high-coverage lexical en español, al igual que no se han explotado resource for opinion mining. Institute tareas de AS en el dominio médico. Con el of Information Science and Technologies crecimiento de la Web 2.0, disponemos de una (ISTI) of the Italian National Research cantidad ingente de información subjetiva a Council (CNR). Greaves, F., D. Ramirez-Cano, C. Millett, Plaza del Arco, F. M., M. T. Martı́n Valdivia, A. Darzi, and L. Donaldson. 2013. Use S. M. Jiménez Zafra, M. D. of sentiment analysis for capturing patient Molina González, and E. Martı́nez Cámara. experience from free-text comments posted 2016. Copos: Corpus of patient opinions online. Journal of medical Internet in spanish. application of sentiment research, 15(11). analysis techniques. Procesamiento del Lenguaje Natural, 57:83–90. Liu, B. 2012. Sentiment analysis and opinion mining. Synthesis lectures on human Redondo, J., I. Fraga, I. Padrón, and language technologies, 5(1):1–167. M. Comesaña. 2007. The spanish Liu, H., H. Lieberman, and T. Selker. 2003. adaptation of anew (affective norms for A model of textual affect sensing using english words). Behavior research methods, real-world knowledge. In Proceedings of the 39(3):600–605. 8th international conference on Intelligent Stone, P. J., D. C. Dunphy, and M. S. Smith. user interfaces, pages 125–132. ACM. 1966. The general inquirer: A computer Magnini, B. and G. Cavaglia. 2000. approach to content analysis. Integrating subject field codes into Strapparava, C. and R. Mihalcea. 2007. wordnet. In LREC, pages 1413–1418. Semeval-2007 task 14: Affective text. Martı́n-Valdivia, M.-T., E. Martı́nez-Cámara, In Proceedings of the 4th International J.-M. Perea-Ortega, and L. A. Workshop on Semantic Evaluations, pages Ureña-López. 2013. Sentiment polarity 70–74. Association for Computational detection in spanish reviews combining Linguistics. supervised and unsupervised approaches. Strapparava, C., A. Valitutti, et al. 2004. Expert Systems With Applications, Wordnet affect: an affective extension 10(40):3934–3942. of wordnet. In LREC, volume 4, pages Molina-González, M. D., E. Martı́nez-Cámara, 1083–1086. and M. T. Martı́n Valdivia. 2015. Crisol: Base de conocimiento de opiniones para el español. Procesamiento del Lenguaje Natural, 55:143–150. Molina-González, M. D., E. Martı́nez-Cámara, M.-T. Martı́n-Valdivia, and J. M. Perea-Ortega. 2013. Semantic orientation for polarity classification in spanish reviews. Expert Systems with Applications, 40(18):7250–7257. Niu, Y., X. Zhu, J. Li, and G. Hirst. 2005. Analysis of polarity information in medical text. In AMIA annual symposium proceedings, volume 2005, page 570. American Medical Informatics Association. Ortiz, A. M., Á. P. Pozo, and S. T. Sánchez. 2010. Sentitext: sistema de análisis de sentimiento para el español. Procesamiento del Lenguaje Natural, 45:297–298. Pang, B., L. Lee, et al. 2008. Opinion mining and sentiment analysis. Foundations and Trends R in Information Retrieval, 2(1–2):1–135. Picard, R. W. and R. Picard. 1997. Affective computing, volume 252. MIT press Cambridge.