Detección de la negación en textos en español y aplicación al Análisis de Sentimientos Negation detection in Spanish texts and application to Sentiment Analysis Salud Marı́a Jiménez-Zafra Departamento de Informática, Escuela Politécnica Superior de Jaén Universidad de Jaén, E-23071 - Jaén sjzafra@ujaen.es Resumen: El tratamiento de la negación es un problema abierto dentro del Proce- samiento del Lenguaje Natural en general y dentro del Análisis de Sentimientos en particular. Es un fenómeno lingüı́stico que se utiliza para modificar el valor de verdad de la unidad lingüı́stica sobre la que se aplica y requiere un tratamiento especı́fico, pero no ha sido suficientemente estudiado debido a su complejidad. Por ello, en este trabajo, se describe un proyecto de tesis que se va a centrar en el tratamiento de la negación en español. En concreto, la investigación va a estar dirigida al análisis de opiniones, ya que se pretende mejorar la capacidad de predicción de los sistemas de clasificación de opiniones que son tan demandados actualmente. No obstante, el estudio relacionado con la identificación de la negación y su ámbito permitirá, además, extrapolar las conclusiones extraı́das para su aplicación a cualquier tarea de Procesamiento del Lenguaje Natural. Palabras clave: Análisis de sentimientos, detección de la negación, identificación del ámbito de la negación Abstract: Negation detection is an open challenge in Natural Language Processing and specifically in Sentiment Analysis. It is a linguistic phenomenon that is used to change the truth value of a linguistic unit and it needs specific treatment, but it has not been sufficiently studied due to its complexity. Therefore, in this work, we describe a thesis project that will focus on the treatment of negation in Spanish. Particularly, the research will be directed to the analysis of opinions, since it is in- tended to improve the predictive capacity of the opinions classification systems that are so demanded currently. Nevertheless, the study related to the identification of the negation and its scope will also allow to extrapolate the conclusions drawn for its application to any task of Natural Language Processing. Keywords: Sentiment analysis, negation cue detection, negation scope identifica- tion 1 Introducción para la realización de esta tesis. A continua- ción, se llevará a cabo una breve revisión de En este trabajo se presenta un proyecto de los antecedentes y trabajos relacionados. Pos- tesis que tiene como objetivo el estudio de teriormente, se describirá la investigación que uno de los grandes desafı́os del análisis de se va a llevar a cabo y, por último, se mostrará opiniones: el tratamiento de la negación. La la metodologı́a a seguir y se plantearán algu- mayor parte de las investigaciones realizadas nas cuestiones especı́ficas relacionadas con la hasta el momento sobre este fenómeno se cen- investigación. tran en opiniones escritas en inglés, pero hay otros idiomas, entre los que se encuentra el español, cuya presencia en Internet es cada 2 Motivación vez mayor. Un adecuado tratamiento de este Las opiniones son fundamentales en muchas fenómeno supondrı́a un gran avance en esta de las actividades que realizamos, ya que son área. Por ello, esta investigación se va a cen- una clara influencia en nuestro comporta- trar fundamentalmente en textos en español. miento. La posibilidad de publicar contenido El resto del trabajo se organiza como si- en la web ha generado un gran interés por co- gue. En primer lugar, se mostrarán los moti- nocer las opiniones que se comparten en este vos que han llevado a la elección de este tema medio. Cada dı́a son más las empresas intere- sadas en la opinión que los usuarios tienen manifiesto la necesidad de su tratamiento. acerca de sus productos o servicios, pero este conocimiento no sólo ha originado interés en 3 Antecedentes y trabajos las empresas, sino que los propios consumido- relacionados res antes de adquirir un producto o contra- El tratamiento de la negación es un problema tar un servicio, utilizan la web para buscar abierto dentro del PLN en general y dentro de opiniones de otros usuarios. Se trata de una la MO en particular, que no ha sido estudia- información muy útil que se ha convertido en do suficientemente y que requiere un análisis un recurso indispensable en la toma de de- profundo. Se trata de un fenómeno lingüı́stico cisiones y en la definición de las estrategias que se utiliza para modificar el valor de ver- de marketing. Además, esta información se dad de la unidad lingüı́stica (proposición, sin- puede emplear incluso para predecir los re- tagma o palabra) sobre la que se aplica. Hasta sultados de unas elecciones o el éxito de una ahora, la mayor parte de las investigaciones pelı́cula. relacionadas con la negación en el AS se han La gran cantidad de fuentes y el eleva- realizado sobre opiniones escritas en inglés. do volumen de textos disponibles en la web Las primeras aproximaciones comenzaron en hacen que resulte complicado seleccionar in- el año 2001 y sugieren métodos relativamente formación de interés. Por ello, es necesario sencillos. Das y Chen (2001) proponen añadir desarrollar sistemas automáticos de extrac- “NOT” (“NOT word”) a las palabras de la ción, clasificación y presentación de opiniones oración que se encuentren próximas a marca- que ayuden a los usuarios a tomar decisiones dores de negación, como por ejemplo “no” o y que, por otro lado, muestren a las empresas “don’t”. Pang, Lee, y Vaithyanathan (2002) la opinión que los consumidores tienen acer- siguen un enfoque similar al anterior, pero ca de sus productos, para ayudarles a deci- considerando que las palabras afectadas por dir qué deben mantener, qué deben eliminar la negación son todas aquellas que aparecen o qué deben mejorar. La disciplina conocida después de una clave de negación hasta en- como Minerı́a de Opiniones (MO) o Análisis contrar el primer signo de puntuación. Es- de Sentimientos (AS) surge para dar solución tos autores realizan experimentos utilizando a este problema. algoritmos de aprendizaje automático para La MO es una disciplina que combina comprobar si la clasificación de opiniones te- técnicas de Procesamiento del Lenguaje Na- niendo en cuenta la negación mejora, llegan- tural (PLN) y de la Lingüı́stica Computacio- do a la conclusión de que con el método pro- nal para detectar la información subjetiva de puesto se produce una mejora insignificante. un texto y clasificarla. El amplio abanico de En 2004, a la vista de los resultados obte- aplicaciones en las que se puede emplear ha nidos hasta el momento, Polanyi y Zaenen provocado un gran interés por parte de la co- (2004) dan un paso más allá y tienen en cuen- munidad cientı́fica. Existen muchos trabajos ta además de la negación, intensificadores y centrados en este tema, la mayorı́a de ellos en atenuantes. Además, presentan el primer mo- inglés, pero son muchos los frentes que aún si- delo que asigna puntuaciones a palabras de guen abiertos y que requieren un estudio pro- opinión, invirtiendo la polaridad de las ex- fundo, como el tratamiento de la negación, presiones negadas. Desafortunadamente este el análisis a nivel de aspecto, el tratamiento modelo no se llegó a implementar, por lo que de la ironı́a y del sarcasmo. . . Algunos auto- sólo podemos especular sobre su efectividad. res los definen incluso como desafı́os (Pang y Posteriormente, Kennedy y Inkpen (2006) Lee, 2008; Liu, 2012). Un correcto tratamien- desarrollan un modelo de negación muy si- to de estos fenómenos supondrı́a un avance milar al propuesto por Polanyi y Zaenen, en importante en esta área. Por ello, el objeti- el que definen como ámbito de un marcador vo de esta tesis es ir un paso más allá de los de negación/intensificador/atenuante aquella sistemas tradicionales para tratar de dar so- palabra inmediatamente posterior. En el ca- lución, en la medida de lo posible, a uno de so de las palabras afectadas por la negación estos desafı́os, el tratamiento de la negación. siguen un enfoque basado en invertir la pola- Además, en contraposición de la mayorı́a de ridad de las mismas, mientras que en el caso los estudios existentes hasta el momento, se de las palabras que se encuentran en el ámbi- va a realizar sobre español, ya que su pre- to de intensificadores/atenuantes, lo que ha- sencia en Internet, cada vez mayor, pone de cen es incrementar/disminuir el grado de po- sitividad/negatividad según sea el caso. Para dinadas mejora con respecto a los sistemas clasificar las opiniones emplean dos métodos, puramente léxicos (Vilares, Alonso, y Gómez- el primero de ellos consiste en clasificar un co- Rodrı́guez, 2013; Vilares, Alonso, y Gómez- mentario en función del número de palabras Rodrı́guez, 2015). de opinión positivas y negativas que contiene y el segundo se basa en el uso del algoritmo 4 Descripción de la investigación de aprendizaje automático SVM, llegando a propuesta la conclusión de que el tratamiento de la ne- Este proyecto de tesis se encuentra actual- gación es un hecho importante. Por otro lado, mente en la fase de desarrollo de un sistema Wilson, Wiebe, y Hoffmann (2005) proponen automático para la detección de la negación utilizar una ventana fija de tamaño 4 para de- y su ámbito, por lo que, en las fases previas, terminar el ámbito de la negación. Los traba- se van a ir indicando los trabajos realizados jos presentados son los pioneros en el mode- hasta el momento. lado de la negación en el AS en inglés, pero la El punto de partida de esta investigación comunidad cientı́fica sigue trabajando en es- comenzó con el análisis de los trabajos exis- te tema ya que los enfoques presentados has- tentes en inglés y en español. Este análisis fue ta ahora no son lo suficientemente precisos. una pieza clave para el inicio de la investiga- En los últimos trabajos se plantean métodos ción en español, ya que permitió conocer los basados en la definición de reglas lingüı́sti- enfoques utilizados en inglés y reproducir los cas a partir de árboles sintácticos (Jia, Yu, más usados con el objetivo de comprobar su y Meng, 2009; de Albornoz et al., 2012) y, funcionamiento en español (Jiménez-Zafra et métodos más complejos como el de Taboada, al., 2015; Jiménez-Zafra et al., 2017a). Voll, y Brooke (2008) en el que se definen di- Teniendo en cuenta que la negación es un ferentes reglas para determinar el ámbito de fenómeno lingüı́stico y que para determinar la negación teniendo en cuenta la categorı́a las palabras que se encuentra en su ámbito gramatical de las palabras adyacentes y en el influye la estructura de la oración, un en- que se introduce una nueva forma de tratar foque bastante útil serı́a aquel que tuviera la negación que consiste en reducir el valor en cuenta las relaciones sintácticas. Por ello, de polaridad de las palabras negadas en lu- en esta investigación, se proponen métodos gar de invertirlo. Además, algunos trabajos basados en el análisis de árboles sintácticos recientes están incorporando el uso de Deep para determinar el ámbito de la negación Learning (Socher et al., 2013) y de técnicas (Jiménez-Zafra et al., 2015; Jiménez-Zafra et de Machine Learning para detectar este tipo al., 2017a). de información de forma automática (Cruz, El análisis de los enfoques aplicados hasta Taboada, y Mitkov, 2016) haciendo uso de el momento en español permitió detectar la un corpus anotado previamente para tal fin necesidad de generar un corpus anotado con (Konstantinova et al., 2012). Incluso, se pue- la negación y su ámbito para poder determi- den encontrar excelentes estudios como el de nar dónde está la fortaleza de los sistemas Wiegand et al. (2010) en el que se realiza una estudiados, es decir, si ésta se encuentra en revisión del estado del arte del tratamiento de la identificación de la negación y su alcance la negación en el AS en inglés y el estudio de o en el método de clasificación utilizado. Los Morante y Sporleder (2012) sobre modalidad enfoques propuestos hasta ahora para la de- y negación en lingüı́stica computacional. tección del ámbito de la negación han centra- Por otra parte, la investigación existente do sus esfuerzos en la definición de reglas que en español sobre este tema es muy limitada. no han podido ser correctamente evaluadas El primer trabajo que se conoce es el de Broo- debido a la inexistencia de un corpus anota- ke, Tofiloski, y Taboada (2009) en el que uti- do con tal información. Por ello, otra de las lizan el mismo enfoque que el empleado en aportaciones de esta tesis es un corpus ano- su primera versión en inglés (Taboada, Voll, tado con la negación y su ámbito, ası́ como y Brooke, 2008) pero adaptado al español. con información sobre cómo actúa la nega- Vilares, Alonso and Gómez-Rodrı́guez tam- ción sobre las palabras de su ámbito, es decir, bién han trabajado en este reto demostrando si modifica su polaridad o si por el contrario que tener en cuenta la estructura sintáctica la intensifica o reduce (Jiménez-Zafra et al., del texto para el tratamiento de la negación, 2017b). Para la anotación de este corpus se de la intensificación y de las oraciones subor- llevó a cabo un análisis de la negación en es- pañol y se definieron los criterios de anota- 6 Cuestiones de investigación ción y la tipologı́a lingüı́stica correspondien- Las principales cuestiones de investigación a te (Martı́ et al., 2016). Las principales fuen- las que se pretende responder con este pro- tes de desacuerdo y los casos problemáticos yecto de tesis son las siguientes: encontrados durante el proceso de anotación fueron analizados y puestos a disposición de ¿El estudio de la negación es indepen- la comunidad cientı́fica con el objetivo de fa- diente de la lengua? cilitar futuras anotaciones (Jiménez-Zafra et al., 2016). ¿Es posible generalizar su tratamiento para cualquier idioma? Finalmente, esta investigación se va a cen- trar en el desarrollo de un sistema automático ¿Es necesario invertir esfuerzos en la ge- para la detección de la negación y su ámbito neración de corpus anotados con nega- en textos escritos en español para su poste- ción y su ámbito? rior aplicación al análisis de opiniones. Para ¿Cuáles son las caracterı́sticas más ade- ello, se llevará a cabo un estudio de cuáles cuadas para identificar la presencia de son las caracterı́sticas más adecuadas para negación? ¿Y para determinar su ámbi- identificar de forma correcta la negación y to? su ámbito de influencia, ası́ como de la es- trategia a seguir para desarrollar un sistema ¿Cómo se puede utilizar esta informa- con la habilidad de interpretar cómo afecta ción para mejorar los sistemas de clasifi- la negación a las palabras de su ámbito (si cación de opiniones? cambia su significado o no, o si lo intensifica ¿Qué algoritmos son más adecuados pa- o reduce). ra la fase de identificación? ¿Y para la de clasificación? 5 Metodologı́a La metodologı́a propuesta para la consecu- Agradecimientos ción de esta tesis se presenta a continuación: Este trabajo ha sido parcialmente financia- do por el Ministerio de Educación, Cultura y 1. Estudio y revisión del estado del arte. Deporte (MECD - ayuda FPU014/00983), el Fondo Europeo de Desarrollo Regional (FE- 2. Adaptación de recursos existentes para DER) y el proyecto REDES (TIN2015-65136- poder realizar un análisis de los métodos C2-1-R) del Gobierno de España. propuestos. Bibliografı́a 3. Desarrollo de un prototipo. Brooke, J., M. Tofiloski, y M. Taboada. Diseño de una arquitectura modu- 2009. Cross-Linguistic Sentiment Analy- lar que permita integrar nuevas fun- sis: From English to Spanish. En RANLP, cionalidades a medida que se vaya páginas 50–54. avanzando en la investigación. Cruz, N. P., M. Taboada, y R. Mitkov. 2016. A machine-learning approach to ne- Construcción de la arquitectura mo- gation and speculation detection for senti- dular diseñada. ment analysis. Journal of the Association Prueba del correcto funcionamiento for Information Science and Technology, del prototipo. 67(9):2118–2136. Das, S. y M. Chen. 2001. Yahoo! for Ama- 4. Experimentación y evaluación. Se utili- zon: Extracting market sentiment from zarán los recursos generados para llevar stock message boards. En Proceedings a cabo la experimentación y posterior- of the Asia Pacific finance association mente se procederá a la evaluación del annual conference (APFA), volumen 35, prototipo, llevando a cabo una compara- página 43. Bangkok, Thailand. ción de los resultados obtenidos con los ya existentes. Los resultados obtenidos de Albornoz, J. C., L. Plaza, A. Dı́az, y se pondrán a disposición de la comuni- M. Ballesteros. 2012. Ucm-i: A rule-based dad cientı́fica. syntactic approach for resolving the scope of negation. En Proceedings of the First Martı́, M. A., M. T. Martı́n-Valdivia, Joint Conference on Lexical and Compu- M. Taulé, S. M. Jiménez-Zafra, M. No- tational Semantics-Volume 1: Proceedings fre, y L. Marsó. 2016. La negación en of the main conference and the shared español: análisis y tipologı́a de patrones task, and Volume 2: Proceedings of the de negación. Procesamiento del Lenguaje Sixth International Workshop on Seman- Natural, 57:41–48. tic Evaluation, páginas 282–287. Associa- Morante, R. y C. Sporleder. 2012. Moda- tion for Computational Linguistics. lity and negation: An introduction to the Jia, L., C. Yu, y W. Meng. 2009. The special issue. Computational linguistics, effect of negation on sentiment analysis 38(2):223–260. and retrieval effectiveness. En Proceedings Pang, B. y L. Lee. 2008. Opinion mining of the 18th ACM conference on Informa- and sentiment analysis. Foundations and tion and knowledge management, páginas trends in information retrieval, 2(1-2):1– 1827–1830. ACM. 135. Jiménez-Zafra, S. M., M. T. Martı́n-Valdivia, Pang, B., L. Lee, y S. Vaithyanathan. L. A. Ureña-López, M. A. Martı́, y 2002. Thumbs up?: sentiment classifica- M. Taulé. 2016. Problematic cases in the tion using machine learning techniques. annotation of negation in Spanish. Ex- En Proceedings of the ACL-02 conference ProM 2016, páginas 42–48. on Empirical methods in natural language processing-Volume 10, páginas 79–86. As- Jiménez-Zafra, S. M., E. Martı́nez-Cámara, sociation for Computational Linguistics. M. T. Martı́n-Valdivia, y M. D. Molina- González. 2015. Tratamiento de la nega- Polanyi, L. y A. Zaenen. 2004. Contex- ción en el análisis de opiniones en español. tual valence shifters. En Proceedings of 54:37–44. the AAAI Spring Symposium on Exploring Attitude and Affect in Text, páginas 1–10. Jiménez-Zafra, S. M., M. Taulé, M. T. Martı́n-Valdivia, L. A. Ureña-López, y Socher, R., A. Perelygin, J. Y. Wu, M. A. Martı́. 2017b. SFU ReviewSP- J. Chuang, C. D. Manning, A. Y. Ng, NEG: a Spanish corpus annotated with C. Potts, y others. 2013. Recursive deep negation for sentiment analysis. A typo- models for semantic compositionality over logy of negation patterns. Language Re- a sentiment treebank. En Proceedings sources and Evaluation, páginas 1–37. of the conference on empirical methods in natural language processing (EMNLP), Jiménez-Zafra, S. M., M. T. Martı́n Valdi- volumen 1631, página 1642. via, E. Martı́nez Cámara, y L. A. Ureña- Taboada, M., K. Voll, y J. Brooke. 2008. López. 2017a. Studying the Scope of Ne- Extracting sentiment as a function of dis- gation for Spanish Sentiment Analysis on course structure and topicality. Simon Twitter. IEEE Transactions on Affective Fraser Univeristy School of Computing Computing, PP(99):1–14. Science Technical Report, páginas 1–22. Kennedy, A. y D. Inkpen. 2006. Sentiment Vilares, D., M. A. Alonso, y C. Gómez- classification of movie reviews using con- Rodrı́guez. 2013. Clasificación de pola- textual valence shifters. Computational ridad en textos con opiniones en español intelligence, 22(2):110–125. mediante análisis sintáctico de dependen- Konstantinova, N., S. CM. De Sousa, N. P. cias. Procesamiento del lenguaje natural, Cruz-Dı́az, M. J. López Maña, M. Taboa- 50:13–20. da, y R. Mitkov. 2012. A review cor- Vilares, D., M. A. Alonso, y C. Gómez- pus annotated for negation, speculation Rodrı́guez. 2015. A syntactic approach and their scope. En LREC, páginas 3190– for opinion mining on Spanish reviews. 3195. Natural Language Engineering, 21(1):139– 163. Liu, B. 2012. Sentiment analysis and opi- nion mining. Synthesis Lectures on Hu- Wiegand, M., A. Balahur, B. Roth, D. Kla- man Language Technologies, 5(1):1–167. kow, y A. Montoyo. 2010. A survey on the role of negation in sentiment analysis. En Proceedings of the workshop on nega- tion and speculation in natural language processing, páginas 60–68. Association for Computational Linguistics. Wilson, T., J. Wiebe, y P. Hoffmann. 2005. Recognizing contextual polarity in phrase- level sentiment analysis. En Proceedings of the conference on human language tech- nology and empirical methods in natural language processing, páginas 347–354. As- sociation for Computational Linguistics.