=Paper=
{{Paper
|id=Vol-2633/paper2
|storemode=property
|title=
Usando la minerı́a de emociones para la detección de problemas reales
(Using emotion mining to detect real-life problems)
|pdfUrl=https://ceur-ws.org/Vol-2633/paper2.pdf
|volume=Vol-2633
|authors=Flor Miriam Plaza-del-Arco
}}
==
Usando la minerı́a de emociones para la detección de problemas reales
(Using emotion mining to detect real-life problems)
==
Usando la minerı́a de emociones para la detección de problemas reales Using emotion mining to detect real-life problems Flor Miriam Plaza-del-Arco Departamento de Informática, Escuela Politécnica Superior de Jaén Universidad de Jaén, Campus Las Lagunillas, 23071, Jaén, Spain fmplaza@ujaen.es Resumen: Las emociones juegan un papel importante en la inteligencia y el com- portamiento humano y son un vehı́culo esencial para la comunicación. La minerı́a de emociones es una tarea reciente que tiene como objetivo la identificación de di- ferentes categorı́as emocionales en un texto. Debido a su complejidad y a la escasa disponibilidad de recursos léxicos anotados, se encuentra en una primera etapa de investigación. Además, la mayorı́a de los estudios y recursos existentes se han reali- zado para el inglés, pero la presencia en Internet de otras lenguas, como el español, es cada vez mayor. Por esta razón, en este trabajo, se describe un proyecto de tesis cuyo objetivo es el desarrollo de sistemas orientados al reconocimiento de emocio- nes en textos en español. Además, se pretende utilizar dichos sistemas para resolver otras tareas de gran relevancia hoy en dı́a, como por ejemplo, la incitación al odio en las redes sociales o la detección de trastornos mentales. Palabras clave: Minerı́a de emociones, natural language processing, recursos léxi- cos afectivos, incitación al odio Abstract: Emotions play an important role in human intelligence and behaviour and are a major vehicle for communication. Emotion mining is a relatively recent task that attempts to identify different emotional categories in text. However, due to its complexity and the limited availability of annotated lexical resources, it is still in the early stages of research. In addition, most of the work and resources have been focus on English texts, but the presence of other languages, such as Spanish, is growing on the Web. Therefore, in this work, we describe a thesis project that will focus on the development of emotion recognition systems in Spanish texts. In addition, we aim to use these systems to solve other relevant tasks, such as, hate speech identification on social media or mental disorders detection. Keywords: Emotion mining, natural language processing, affective lexicons, hate speech 1 Justificación de la ferentes categorı́as emocionales en un texto, investigación propuesta tales como la tristeza, la alegrı́a, el enfado o el miedo. En los últimos años, ha surgido un Las emociones juegan un papel adaptativo, creciente interés en la detección automática social y motivacional en nuestro dı́a a dı́a ya de las emociones en un texto dando lugar a que representan diferentes caracterı́sticas in- trabajos muy prometedores en el área (Strap- dicativas del comportamiento humano, como parava, 2016). el estado emocional, el nivel de interés o el estado de alerta. Por otra parte, actualmente cada vez son El objetivo de la computación afectiva es más los usuarios que utilizan las redes socia- permitir que los ordenadores puedan recono- les, blogs o foros para comunicarse, por lo que cer, interpretar y procesar emociones huma- el texto es una fuente de datos particularmen- nas. Por lo tanto, esta rama es un elemento te importante con contenido emocional en la clave para el progreso de la Inteligencia Ar- Web. El tratamiento de estos datos requie- tificial. La minerı́a de emociones se enmar- re la identificación y el análisis automatizado ca dentro del análisis de sentimientos y de la de las emociones expresadas por los usuarios computación afectiva y trata de identificar di- en el texto (Hasan, Rundensteiner, y Agu, Lloret, E.; Saquete, E.; Martı́nez-Barco, P.; Sepúlveda-Torres, R. (eds.) Proceedings of the Doctoral Symposium of the XXXV International Conference of the Spanish Society for Natural Language Processing (SEPLN 2019), p. 7–12 Bilbao, Spain, September 25th 2019. Copyright c 2019 his paper by its authors. Use permitted under Creative Commons License Attribution 4.0 International (CC BY 4.0). 2019). so, y Anzovino, 2018). Se considera una tarea La minerı́a de emociones tiene el poten- muy compleja para estas plataformas tanto cial de humanizar las interacciones digitales que, para resolver este problema, a menudo y ofrecer beneficios en una gama casi ilimita- dependen de su comunidad para reportar el da de aplicaciones. Por ejemplo, en el campo contenido malicioso. de la psicologı́a, puede ayudar a los profe- Este proyecto de tesis se centra en el análi- sionales a comprender rápidamente el estado sis de las emociones y en la aplicación de di- de ánimo de un paciente o buscar signos de cho análisis a problemas reales, como puede que el usuario sufre alguna enfermedad men- ser la detección del odio o de trastornos men- tal como la depresión o la anorexia. En las tales en las redes sociales. Además, a diferen- redes sociales, se podrı́a identificar usuarios cia de la mayorı́a de los trabajos existentes que están sufriendo ciberbullying o incluso hasta el momento, la tesis principalmente se usuarios que piensan en suicidarse (Hinduja y centrará en el tratamiento de textos en es- Patchin, 2010). Al igual, es posible identificar pañol, ya que su presencia en Internet es cada en estas plataformas mensajes que incitan al vez mayor, por lo que surge la necesidad de odio provocando efectos psicológicos negati- desarrollar sistemas aplicados a dicho idioma. vos a otros usuarios. El resto del artı́culo está organizado de la La incitación al odio se define comúnmen- siguiente forma: en primer lugar, en la Sec- te como el lenguaje hostil, malicioso y moti- ción 2 se mencionará el origen y trabajo re- vado por prejuicios dirigido a una persona en lacionado con el proyecto de tesis. En la Sec- especı́fico o a un grupo de personas en base a ción 3 se describe la investigación propues- alguna caracterı́stica, como puede ser la raza, ta. La Sección 4 expone la metodologı́a y los la sexualidad, el color, la etnia, la apariencia experimentos que se van a desarrollar y por fı́sica, la religión o la discapacidad (Cohen- último, se presentan los elementos de inves- Almagor, 2011; Erjavec y Kovačič, 2012). Ini- tifación propuestos para su discusión en la cialmente, este tipo de contenido se difundı́a Sección 5. a través de medios tradicionales, como la tele- visión, la radio o los periódicos. Actualmente, 2 Origen y trabajo relacionado con el continuo crecimiento de las redes so- Uno de los primeros estudios relacionados con ciales, desafortunadamente encontramos una la computación afectiva es el de Picard (Pi- gran variedad de contenido malintencionado card, 1997). Ella propuso la idea de entrenar en la Web. Este hecho preocupa a la socie- a los sistemas para identificar las emociones dad, a los gobiernos y a las plataformas de humanas. La construcción de sistemas afec- redes sociales. Según un informe sobre la evo- tivos requiere un procesamiento multimodal, lución de los incidentes relacionados con los ya que un ser humano puede expresar emo- delitos motivados por el odio en España rea- ciones a partir de una amplia gama de señales lizado por el Ministerio del Interior en 20171 , de comportamiento. Los investigadores reali- Internet y las redes sociales aparecen como zan el análisis a través de diferentes fuentes los medios más utilizados para difundir la in- de información, como los gestos, el habla, los citación al odio, con un 36,5 % y un 17,9 %, movimientos, la expresión facial o las señales respectivamente. fisiológicas. El reconocimiento de la emoción Las graves consecuencias de este proble- en un texto es considerado una de las ra- ma, combinadas con la gran cantidad de da- mas más recientes de la computación afec- tos que los usuarios publican diariamente en tiva. De hecho, las redes sociales representan la Web, requieren el desarrollo de algoritmos una fuente enorme de expresividad emocio- capaces de detectar automáticamente comen- nal textual mayor que cualquier otra. Esta es tarios inapropiados. una de las razones por las que muchos inves- Recientemente, un gran número de inves- tigadores de áreas como el Procesamiento del tigadores han comenzado a trabajar en la ta- Lenguaje Natural (PNL), la Inteligencia Ar- rea de detección automática del odio en redes tificial (IA) o la psicologı́a están interesados sociales (Fortuna y Nunes, 2018; Fersini, Ros- en este campo. 1 Los estudios cientı́ficos sobre la clasifica- http://www.interior.gob.es/ documents/10180/7146983/ESTUDIO+ ción de las emociones humanas datan de la INCIDENTES+DELITOS+DE+ODIO+2017+v3.pdf/ década de 1960. Muchos teóricos han pro- 5d9f1996-87ee-4e30-bff4-e2c68fade874 puesto conjuntos de emociones que tienden a 8 ser básicos con caracterı́sticas innatas y uni- 3 Descripción de la investigación versales (Tomkins, 1962; Izard, 1992). Si bien propuesta los psicólogos no están de acuerdo sobre qué Este proyecto de tesis se propone con la fina- modelo describe con mayor precisión el con- lidad de desarrollar un sistema automático de junto de emociones básicas, el más utilizado reconocimiento de emociones en español con en la investigación informática es el propues- el objetivo de aplicarlo a tareas reales, como to por Ekman (1992) con 6 emociones (enfa- por ejemplo, la detección del odio en las redes do, repulsión, miedo, alegrı́a, tristeza y sor- sociales. presa) (Gholipour Shahraki, 2015). En primer lugar, se están estudiando en Uno de los pilares fundamentales en la detalle los trabajos que tratan el reconoci- investigación relacionada con la minerı́a de miento de emociones en inglés y en español. emociones se centra en los recursos lingüı́sti- Este estudio es fundamental para obtener co- cos disponibles. Los recursos léxicos son in- nocimiento de los enfoques más utilizados en dispensables y existen varios disponibles para inglés y reproducirlos con objeto de conocer el idioma inglés, como WordnetAffect (Strap- y comparar su funcionamiento en español. parava y Valitutti, 2004), Emolex (Moham- Elegimos realizar el trabajo en español, ya mad y Turney, 2013) NRC Affect Intensity que son escasos los recursos disponibles ac- Lexicon (Mohammad y Kiritchenko, 2018) y tualmente en nuestra lengua, a pesar de ser LIWC (Pennebaker, Francis, y Booth, 2001). la segunda lengua más hablada en el mundo Sin embargo, con respecto a la disponibili- y la tercera lengua más usada en la Web. dad de recursos para otros idiomas, nos en- A continuación, se mencionarán los traba- contramos con que el número es bastante jos que se han realizado hasta el momento más reducido (Yadollahi, Shahraki, y Zaia- para la persecución del objetivo de la tesis. ne, 2017). Concretamente, para el español En 2018, uno de nuestros primeros tra- podemos citar el recurso Spanish Emotion bajos fue el desarrollo de tres sistemas mul- Lexicon (SEL) de Dı́az Rangel, Sidorov, y tilingües con motivo de nuestra participa- Suárez Guerra (2014). ción en tres subtareas (EI-oc, EI-reg, E-c) Los algoritmos basados en el reconoci- de la Tarea 1 de SemEval: Affect in Tweets miento de emociones en el texto pueden cla- (Mohammad et al., 2018). Son tareas relacio- sificarse en dos categorı́as: enfoques basados nadas con la identificación de la intensidad en el léxico y enfoques basados en aprendi- de la emoción y con la clasificación de emo- zaje automático (Cambria, 2016). El primero ciones en tweets. Nuestra principal contribu- trata sobre el uso de recursos léxicos u onto- ción fue la implementación de un sistema pa- logı́as clasificados por emoción (Mohammad, ra adaptar WordNet-Affect al español (Plaza- 2012). El segundo aplica algoritmos estadı́sti- del-Arco et al., 2018a) utilizando diferentes cos sobre caracterı́sticas lingüı́sticas, los cua- recursos como BabelNet (Navigli y Ponzetto, les pueden ser supervisados o no supervisados 2012) o Babelfy (Moro, Raganato, y Navigli, (Chaffar y Inkpen, 2011). 2014). Otro de los trabajos relacionado con La incitación al odio y el análisis de emo- los recursos léxicos, fue la adaptación del le- ciones están estrechamente relacionados, ya xicón NRC Affect Intensity construyendo un que generalmente las emociones negativas nuevo lexicón para el español probado sobre aparecen en comentarios maliciosos. En los el conjunto de datos liberado en la tarea 1 de últimos años, el interés por desarrollar siste- la competición de SemEval 2018. (Plaza-del- mas para combatir contenido malicioso en las Arco et al., 2018d). Por otra parte, se realizó redes sociales apoyándose en técnicas basa- un sistema automático para categorizar emo- das en el reconocimiento de emociones ha in- cionalmente artı́culos de noticias para la ta- crementado, tanto que, cada vez son más los rea 4 de la competición TASS 2018 (Plaza- trabajos que proliferan en el ámbito del PLN. del-Arco et al., 2018c). Además, participamos Algunos trabajos realizados hasta el momen- en WASSA 2018 Implicit Emotion desarro- to siguen un enfoque en el que se aplica en llando un sistema basado en redes neurona- primer lugar un clasificador para detectar co- les para predecir la emoción que expresa una mentarios negativos antes de que el clasifica- palabra excluida en el texto (Plaza-del-Arco dor final verifique especı́ficamente si hay evi- et al., 2018a). Por último, se desarrolló un dencia de odio (Dinakar et al., 2012; Sood, sistema para el reconocimiento de emociones Churchill, y Antin, 2012; Gitari et al., 2015). en el dominio polı́tico (Plaza-del-Arco et al., 9 2018b). 1. Estudio y revisión del estado del arte. En 2019, no solo nos centramos en el reco- Se realizará un estudio de la bibliografı́a nocimiento de emociones en sı́, si no que tam- existen sobre la minerı́a de emociones en bién optamos por realizar sistemas orientados inglés y en español. a diferentes aplicaciones dentro del ámbito de 2. Creación, adaptación e integración de la minerı́a de la emoción, como por ejemplo, recursos existentes para poder realizar la identificación del lenguaje ofensivo o la de- un análisis de los métodos propuestos. tección de trastornos mentales (anorexia, de- Se intentará crear recursos lingüı́sticos presión) en las redes sociales. Por ello, hemos además de adaptar ciertos recursos ya participado en diferentes competiciones que disponibles en inglés. tratan dichas tareas. En primer lugar, partici- pamos una vez más en SemEval, en concreto, 3. Desarrollo de un prototipo. Se tratará de en las tareas EmoContext, HatEval y Offen- implementar un sistema de detección de sEval. En la primera de ellas, implementamos emociones para el español y se aplicará un sistema automático orientado al reconoci- a determinadas tareas tales como la de- miento de cuatro emociones (enfado, tristeza tección de la incitación al odio. y alegrı́a y otras) en un diálogo textual entre dos personas incorporando caracterı́sticas de- Diseño de una arquitectura modu- rivadas de diferentes lexicones afectivos. En lar que permita integrar nuevas fun- la segunda tarea, implementamos un sistema cionalidades a medida que se vaya multilingüe para la detección del odio en re- avanzando en la investigación. des sociales dirigido a dos objetivos especı́fi- Construcción de la arquitectura mo- cos: inmigrantes y mujeres. Para la tercera dular diseñada. tarea, desarrollamos un sistema con el obje- tivo de identificar el lenguaje ofensivo en las Prueba del correcto funcionamiento redes sociales. Por otra parte, este año he- del prototipo. mos participamos por primera vez en CLEF 4. Experimentación y evaluación. Se utili- eRisk 2019: Early risk prediction on the In- zarán los recursos generados para llevar ternet (Losada, Crestani, y Parapar, 2019) en a cabo la experimentación y posterior- la tarea 1: Detección temprana de signos de mente se procederá a la evaluación del anorexia. prototipo, llevando a cabo una compara- Los objetivos concretos que se pretenden ción de los resultados obtenidos con los alcazar con este proyecto son los siguientes: ya existentes. Los resultados obtenidos Extraer información subjetiva de las di- se pondrán a disposición de la comuni- ferentes plataformas (blogs, redes socia- dad cientı́fica. les, foros, etc) que dispongan de emocio- nes. 5 Elementos de investigación especı́ficos propuestos para Generar y adaptar distintos recursos pa- discusión ra el reconocimiento de emociones en es- pañol, tanto corpus como lexicones. Las principales cuestiones de investigación a las que se pretende responder con este pro- Procesar dicha información para desa- yecto de tesis son las siguientes: rrollar sistemas que sean capaces de identificar las diferentes categorı́as emo- Estudios psicológicos muestran que las cionales. emociones del ser humano van ligadas a Aplicar los sistemas desarrollados a apli- su cultura e idioma. Por tanto, ¿es nece- caciones reales para solucionar proble- sario crear recursos emocionales tenien- mas actuales. do en cuenta el idioma? o ¿una simple traducción entre recursos es suficiente? 4 Metodologı́a y experimentos ¿Qué caracterı́sticas se deben tener en propuestos cuenta en el proceso del análisis de emo- La metodologı́a que se propone para la con- ciones? ¿Cómo se pueden utilizar estas secución de esta tesis se presenta a continua- caracterı́sticas para mejorar los sistemas ción: de reconocimiento de emociones? 10 ¿Qué algoritmos son los que nos propor- Fersini, E., P. Rosso, y M. Anzovino. 2018. cionan una mayor exactitud para recono- Overview of the task on automatic mi- cer las diferentes categorı́as emocionales sogyny identification at ibereval 2018. en un texto? Fortuna, P. y S. Nunes. 2018. A survey Dado que los usuarios en las redes so- on automatic detection of hate speech in ciales es donde más suelen expresar sus text. ACM Computing Surveys (CSUR), emociones, ¿es útil esta información para 51(4):85. la creación de recursos léxicos? Gholipour Shahraki, A. 2015. Emotion mi- ¿Es útil incorporar conocimiento afec- ning from text. tivo para detectar problemas como el odio o los trastornos mentales?. En caso Gitari, N. D., Z. Zuping, H. Damien, y afirmativo, ¿qué caracterı́sticas afectivas J. Long. 2015. A lexicon-based approach aportan más valor? for hate speech detection. International Journal of Multimedia and Ubiquitous En- Agradecimientos gineering, 10(4):215–230. Este trabajo ha sido parcialmente subven- Hasan, M., E. Rundensteiner, y E. Agu. cionado por el Fondo Europeo de Desarro- 2019. Automatic emotion detection in llo Regional (FEDER) y el proyecto REDES text streams by analyzing twitter data. (TIN2015-65136-C2-1-R) del Gobierno de Es- International Journal of Data Science and paña. Analytics, 7(1):35–51. Bibliografı́a Hinduja, S. y J. W. Patchin. 2010. Bull- ying, cyberbullying, and suicide. Archives Cambria, E. 2016. Affective computing and of suicide research, 14(3):206–221. sentiment analysis. IEEE Intelligent Sys- tems, 31(2):102–107. Izard, C. E. 1992. Basic emotions, relations among emotions, and emotion-cognition Chaffar, S. y D. Inkpen. 2011. Using a hete- relations. rogeneous dataset for emotion analysis in text. En Canadian Conference on Artifi- Losada, D. E., F. Crestani, y J. Parapar. cial Intelligence, páginas 62–67. Springer. 2019. Overview of eRisk 2019: Early Risk Prediction on the Internet. En Experi- Cohen-Almagor, R. 2011. Fighting hate and mental IR Meets Multilinguality, Multi- bigotry on the internet. Policy & Internet, modality, and Interaction. 10th Interna- 3(3):1–26. tional Conference of the CLEF Associa- Dı́az Rangel, I., G. Sidorov, y S. Suárez Gue- tion, CLEF 2019, Lugano, Switzerland. rra. 2014. Creación y evaluación de un Springer International Publishing. diccionario marcado con emociones y pon- Mohammad, S. M. 2012. From once upon a derado para el español. Onomazein, 1(29). time to happily ever after: Tracking emo- Dinakar, K., B. Jones, C. Havasi, H. Lie- tions in mail and books. Decision Support berman, y R. Picard. 2012. Com- Systems, 53(4):730–741. mon sense reasoning for detection, pre- Mohammad, S. M., F. Bravo-Marquez, vention, and mitigation of cyberbullying. M. Salameh, y S. Kiritchenko. 2018. ACM Transactions on Interactive Intelli- Semeval-2018 Task 1: Affect in tweets. gent Systems (TiiS), 2(3):18. En Proceedings of International Workshop Ekman, P. 1992. An argument for basic emo- on Semantic Evaluation (SemEval-2018), tions. Cognition & emotion, 6(3-4):169– New Orleans, LA, USA. 200. Mohammad, S. M. y S. Kiritchenko. 2018. Erjavec, K. y M. P. Kovačič. 2012. “you Understanding emotions: A dataset of don’t understand, this is a new war!” tweets to study interactions between af- analysis of hate speech in news web sites’ fect categories. En Proceedings of the 11th comments. Mass Communication and So- Edition of the Language Resources and ciety, 15(6):899–920. Evaluation Conference, Miyazaki, Japan. 11 Mohammad, S. M. y P. D. Turney. 2013. American Society for Information Science Crowdsourcing a word–emotion associa- and Technology, 63(2):270–285. tion lexicon. Computational Intelligence, Strapparava, C. 2016. Emotions and nlp: Fu- 29(3):436–465. ture directions. En Proceedings of the 7th Moro, A., A. Raganato, y R. Navigli. 2014. workshop on computational approaches to Entity linking meets word sense disambi- subjectivity, sentiment and social media guation: a unified approach. Transactions analysis, página 180. of the Association for Computational Lin- Strapparava, C. y A. Valitutti. 2004. Word- guistics, 2:231–244. net affect: an affective extension of word- Navigli, R. y S. P. Ponzetto. 2012. Babel- net. En Language Resources and Evalua- net: The automatic construction, evalua- tion Conference (LREC), volumen 4, pági- tion and application of a wide-coverage nas 1083–1086. multilingual semantic network. Artificial Tomkins, S. 1962. Affect imagery cons- Intelligence, 193:217–250. ciousness: Volume I: The positive affects. Pennebaker, J. W., M. E. Francis, y R. J. Springer publishing company. Booth. 2001. Linguistic inquiry and word Yadollahi, A., A. G. Shahraki, y O. R. Zaia- count: Liwc 2001. Mahway: Lawrence Erl- ne. 2017. Current state of text senti- baum Associates, 71(2001):2001. ment analysis from opinion to emotion mi- Picard, R. W. 1997. Affective computing. ning. ACM Comput. Surv., 50(2):25:1– 1997. 25:33, Mayo. Plaza-del-Arco, F. M., S. M. Jiménez-Zafra, M. Martin, y L. A. Ureña-Lopez. 2018a. Sinai at semeval-2018 task 1: Emotion re- cognition in tweets. En Proceedings of the 12th International Workshop on Semantic Evaluation, páginas 128–132. Plaza-del-Arco, F., S. M. Jiménez-Zafra, M.- T. Martın-Valdivia, y L. A. Urena-López. 2018b. Using facebook reactions to recog- nize emotion in political domain. Plaza-del-Arco, F. M., E. Martı́nez-Cámara, M. T. M. Valdivia, y L. A. U. López. 2018c. SINAI en TASS 2018: Inserción de conocimiento emocional externo a un clasificador lineal de emociones (SINAI at TASS 2018: Lineal classification sys- tem with emotional external knowledge). En Proceedings of TASS 2018: Works- hop on Semantic Analysis at SEPLN, TASS@SEPLN 2018, co-located with 34nd SEPLN Conference (SEPLN 2018), Sevi- lla, Spain, September 18th, 2018., páginas 125–130. Plaza-del-Arco, F. M., M. D. Molina- González, S. M. Jiménez-Zafra, y M. T. Martı́n-Valdivia. 2018d. Lexicon adapta- tion for spanish emotion mining. Procesa- miento del Lenguaje Natural, 61:117–124. Sood, S. O., E. F. Churchill, y J. Antin. 2012. Automatic identification of personal in- sults on social news sites. Journal of the 12