=Paper=
{{Paper
|id=Vol-1961/paper13
|storemode=property
|title=
Detección de la negación en textos en español y aplicación al análisis de sentimientos
(Negation detection in Spanish texts and application to sentiment analysis)
|pdfUrl=https://ceur-ws.org/Vol-1961/paper13.pdf
|volume=Vol-1961
|authors=Salud María Jiménez-Zafra
}}
==
Detección de la negación en textos en español y aplicación al análisis de sentimientos
(Negation detection in Spanish texts and application to sentiment analysis)
==
Detección de la negación en textos en español y aplicación al
Análisis de Sentimientos
Negation detection in Spanish texts and application to Sentiment Analysis
Salud Marı́a Jiménez-Zafra
Departamento de Informática, Escuela Politécnica Superior de Jaén
Universidad de Jaén, E-23071 - Jaén
sjzafra@ujaen.es
Resumen: El tratamiento de la negación es un problema abierto dentro del Proce-
samiento del Lenguaje Natural en general y dentro del Análisis de Sentimientos en
particular. Es un fenómeno lingüı́stico que se utiliza para modificar el valor de verdad
de la unidad lingüı́stica sobre la que se aplica y requiere un tratamiento especı́fico,
pero no ha sido suficientemente estudiado debido a su complejidad. Por ello, en este
trabajo, se describe un proyecto de tesis que se va a centrar en el tratamiento de
la negación en español. En concreto, la investigación va a estar dirigida al análisis
de opiniones, ya que se pretende mejorar la capacidad de predicción de los sistemas
de clasificación de opiniones que son tan demandados actualmente. No obstante,
el estudio relacionado con la identificación de la negación y su ámbito permitirá,
además, extrapolar las conclusiones extraı́das para su aplicación a cualquier tarea
de Procesamiento del Lenguaje Natural.
Palabras clave: Análisis de sentimientos, detección de la negación, identificación
del ámbito de la negación
Abstract: Negation detection is an open challenge in Natural Language Processing
and specifically in Sentiment Analysis. It is a linguistic phenomenon that is used
to change the truth value of a linguistic unit and it needs specific treatment, but it
has not been sufficiently studied due to its complexity. Therefore, in this work, we
describe a thesis project that will focus on the treatment of negation in Spanish.
Particularly, the research will be directed to the analysis of opinions, since it is in-
tended to improve the predictive capacity of the opinions classification systems that
are so demanded currently. Nevertheless, the study related to the identification of
the negation and its scope will also allow to extrapolate the conclusions drawn for
its application to any task of Natural Language Processing.
Keywords: Sentiment analysis, negation cue detection, negation scope identifica-
tion
1 Introducción para la realización de esta tesis. A continua-
ción, se llevará a cabo una breve revisión de
En este trabajo se presenta un proyecto de los antecedentes y trabajos relacionados. Pos-
tesis que tiene como objetivo el estudio de teriormente, se describirá la investigación que
uno de los grandes desafı́os del análisis de se va a llevar a cabo y, por último, se mostrará
opiniones: el tratamiento de la negación. La la metodologı́a a seguir y se plantearán algu-
mayor parte de las investigaciones realizadas nas cuestiones especı́ficas relacionadas con la
hasta el momento sobre este fenómeno se cen- investigación.
tran en opiniones escritas en inglés, pero hay
otros idiomas, entre los que se encuentra el
español, cuya presencia en Internet es cada 2 Motivación
vez mayor. Un adecuado tratamiento de este Las opiniones son fundamentales en muchas
fenómeno supondrı́a un gran avance en esta de las actividades que realizamos, ya que son
área. Por ello, esta investigación se va a cen- una clara influencia en nuestro comporta-
trar fundamentalmente en textos en español. miento. La posibilidad de publicar contenido
El resto del trabajo se organiza como si- en la web ha generado un gran interés por co-
gue. En primer lugar, se mostrarán los moti- nocer las opiniones que se comparten en este
vos que han llevado a la elección de este tema medio. Cada dı́a son más las empresas intere-
sadas en la opinión que los usuarios tienen manifiesto la necesidad de su tratamiento.
acerca de sus productos o servicios, pero este
conocimiento no sólo ha originado interés en 3 Antecedentes y trabajos
las empresas, sino que los propios consumido- relacionados
res antes de adquirir un producto o contra-
El tratamiento de la negación es un problema
tar un servicio, utilizan la web para buscar
abierto dentro del PLN en general y dentro de
opiniones de otros usuarios. Se trata de una
la MO en particular, que no ha sido estudia-
información muy útil que se ha convertido en
do suficientemente y que requiere un análisis
un recurso indispensable en la toma de de-
profundo. Se trata de un fenómeno lingüı́stico
cisiones y en la definición de las estrategias
que se utiliza para modificar el valor de ver-
de marketing. Además, esta información se
dad de la unidad lingüı́stica (proposición, sin-
puede emplear incluso para predecir los re-
tagma o palabra) sobre la que se aplica. Hasta
sultados de unas elecciones o el éxito de una
ahora, la mayor parte de las investigaciones
pelı́cula.
relacionadas con la negación en el AS se han
La gran cantidad de fuentes y el eleva- realizado sobre opiniones escritas en inglés.
do volumen de textos disponibles en la web Las primeras aproximaciones comenzaron en
hacen que resulte complicado seleccionar in- el año 2001 y sugieren métodos relativamente
formación de interés. Por ello, es necesario sencillos. Das y Chen (2001) proponen añadir
desarrollar sistemas automáticos de extrac- “NOT” (“NOT word”) a las palabras de la
ción, clasificación y presentación de opiniones oración que se encuentren próximas a marca-
que ayuden a los usuarios a tomar decisiones dores de negación, como por ejemplo “no” o
y que, por otro lado, muestren a las empresas “don’t”. Pang, Lee, y Vaithyanathan (2002)
la opinión que los consumidores tienen acer- siguen un enfoque similar al anterior, pero
ca de sus productos, para ayudarles a deci- considerando que las palabras afectadas por
dir qué deben mantener, qué deben eliminar la negación son todas aquellas que aparecen
o qué deben mejorar. La disciplina conocida después de una clave de negación hasta en-
como Minerı́a de Opiniones (MO) o Análisis contrar el primer signo de puntuación. Es-
de Sentimientos (AS) surge para dar solución tos autores realizan experimentos utilizando
a este problema. algoritmos de aprendizaje automático para
La MO es una disciplina que combina comprobar si la clasificación de opiniones te-
técnicas de Procesamiento del Lenguaje Na- niendo en cuenta la negación mejora, llegan-
tural (PLN) y de la Lingüı́stica Computacio- do a la conclusión de que con el método pro-
nal para detectar la información subjetiva de puesto se produce una mejora insignificante.
un texto y clasificarla. El amplio abanico de En 2004, a la vista de los resultados obte-
aplicaciones en las que se puede emplear ha nidos hasta el momento, Polanyi y Zaenen
provocado un gran interés por parte de la co- (2004) dan un paso más allá y tienen en cuen-
munidad cientı́fica. Existen muchos trabajos ta además de la negación, intensificadores y
centrados en este tema, la mayorı́a de ellos en atenuantes. Además, presentan el primer mo-
inglés, pero son muchos los frentes que aún si- delo que asigna puntuaciones a palabras de
guen abiertos y que requieren un estudio pro- opinión, invirtiendo la polaridad de las ex-
fundo, como el tratamiento de la negación, presiones negadas. Desafortunadamente este
el análisis a nivel de aspecto, el tratamiento modelo no se llegó a implementar, por lo que
de la ironı́a y del sarcasmo. . . Algunos auto- sólo podemos especular sobre su efectividad.
res los definen incluso como desafı́os (Pang y Posteriormente, Kennedy y Inkpen (2006)
Lee, 2008; Liu, 2012). Un correcto tratamien- desarrollan un modelo de negación muy si-
to de estos fenómenos supondrı́a un avance milar al propuesto por Polanyi y Zaenen, en
importante en esta área. Por ello, el objeti- el que definen como ámbito de un marcador
vo de esta tesis es ir un paso más allá de los de negación/intensificador/atenuante aquella
sistemas tradicionales para tratar de dar so- palabra inmediatamente posterior. En el ca-
lución, en la medida de lo posible, a uno de so de las palabras afectadas por la negación
estos desafı́os, el tratamiento de la negación. siguen un enfoque basado en invertir la pola-
Además, en contraposición de la mayorı́a de ridad de las mismas, mientras que en el caso
los estudios existentes hasta el momento, se de las palabras que se encuentran en el ámbi-
va a realizar sobre español, ya que su pre- to de intensificadores/atenuantes, lo que ha-
sencia en Internet, cada vez mayor, pone de cen es incrementar/disminuir el grado de po-
sitividad/negatividad según sea el caso. Para dinadas mejora con respecto a los sistemas
clasificar las opiniones emplean dos métodos, puramente léxicos (Vilares, Alonso, y Gómez-
el primero de ellos consiste en clasificar un co- Rodrı́guez, 2013; Vilares, Alonso, y Gómez-
mentario en función del número de palabras Rodrı́guez, 2015).
de opinión positivas y negativas que contiene
y el segundo se basa en el uso del algoritmo 4 Descripción de la investigación
de aprendizaje automático SVM, llegando a propuesta
la conclusión de que el tratamiento de la ne- Este proyecto de tesis se encuentra actual-
gación es un hecho importante. Por otro lado, mente en la fase de desarrollo de un sistema
Wilson, Wiebe, y Hoffmann (2005) proponen automático para la detección de la negación
utilizar una ventana fija de tamaño 4 para de- y su ámbito, por lo que, en las fases previas,
terminar el ámbito de la negación. Los traba- se van a ir indicando los trabajos realizados
jos presentados son los pioneros en el mode- hasta el momento.
lado de la negación en el AS en inglés, pero la El punto de partida de esta investigación
comunidad cientı́fica sigue trabajando en es- comenzó con el análisis de los trabajos exis-
te tema ya que los enfoques presentados has- tentes en inglés y en español. Este análisis fue
ta ahora no son lo suficientemente precisos. una pieza clave para el inicio de la investiga-
En los últimos trabajos se plantean métodos ción en español, ya que permitió conocer los
basados en la definición de reglas lingüı́sti- enfoques utilizados en inglés y reproducir los
cas a partir de árboles sintácticos (Jia, Yu, más usados con el objetivo de comprobar su
y Meng, 2009; de Albornoz et al., 2012) y, funcionamiento en español (Jiménez-Zafra et
métodos más complejos como el de Taboada, al., 2015; Jiménez-Zafra et al., 2017a).
Voll, y Brooke (2008) en el que se definen di- Teniendo en cuenta que la negación es un
ferentes reglas para determinar el ámbito de fenómeno lingüı́stico y que para determinar
la negación teniendo en cuenta la categorı́a las palabras que se encuentra en su ámbito
gramatical de las palabras adyacentes y en el influye la estructura de la oración, un en-
que se introduce una nueva forma de tratar foque bastante útil serı́a aquel que tuviera
la negación que consiste en reducir el valor en cuenta las relaciones sintácticas. Por ello,
de polaridad de las palabras negadas en lu- en esta investigación, se proponen métodos
gar de invertirlo. Además, algunos trabajos basados en el análisis de árboles sintácticos
recientes están incorporando el uso de Deep para determinar el ámbito de la negación
Learning (Socher et al., 2013) y de técnicas (Jiménez-Zafra et al., 2015; Jiménez-Zafra et
de Machine Learning para detectar este tipo al., 2017a).
de información de forma automática (Cruz,
El análisis de los enfoques aplicados hasta
Taboada, y Mitkov, 2016) haciendo uso de
el momento en español permitió detectar la
un corpus anotado previamente para tal fin
necesidad de generar un corpus anotado con
(Konstantinova et al., 2012). Incluso, se pue-
la negación y su ámbito para poder determi-
den encontrar excelentes estudios como el de
nar dónde está la fortaleza de los sistemas
Wiegand et al. (2010) en el que se realiza una
estudiados, es decir, si ésta se encuentra en
revisión del estado del arte del tratamiento de
la identificación de la negación y su alcance
la negación en el AS en inglés y el estudio de
o en el método de clasificación utilizado. Los
Morante y Sporleder (2012) sobre modalidad
enfoques propuestos hasta ahora para la de-
y negación en lingüı́stica computacional.
tección del ámbito de la negación han centra-
Por otra parte, la investigación existente do sus esfuerzos en la definición de reglas que
en español sobre este tema es muy limitada. no han podido ser correctamente evaluadas
El primer trabajo que se conoce es el de Broo- debido a la inexistencia de un corpus anota-
ke, Tofiloski, y Taboada (2009) en el que uti- do con tal información. Por ello, otra de las
lizan el mismo enfoque que el empleado en aportaciones de esta tesis es un corpus ano-
su primera versión en inglés (Taboada, Voll, tado con la negación y su ámbito, ası́ como
y Brooke, 2008) pero adaptado al español. con información sobre cómo actúa la nega-
Vilares, Alonso and Gómez-Rodrı́guez tam- ción sobre las palabras de su ámbito, es decir,
bién han trabajado en este reto demostrando si modifica su polaridad o si por el contrario
que tener en cuenta la estructura sintáctica la intensifica o reduce (Jiménez-Zafra et al.,
del texto para el tratamiento de la negación, 2017b). Para la anotación de este corpus se
de la intensificación y de las oraciones subor- llevó a cabo un análisis de la negación en es-
pañol y se definieron los criterios de anota- 6 Cuestiones de investigación
ción y la tipologı́a lingüı́stica correspondien- Las principales cuestiones de investigación a
te (Martı́ et al., 2016). Las principales fuen- las que se pretende responder con este pro-
tes de desacuerdo y los casos problemáticos yecto de tesis son las siguientes:
encontrados durante el proceso de anotación
fueron analizados y puestos a disposición de ¿El estudio de la negación es indepen-
la comunidad cientı́fica con el objetivo de fa- diente de la lengua?
cilitar futuras anotaciones (Jiménez-Zafra et
al., 2016). ¿Es posible generalizar su tratamiento
para cualquier idioma?
Finalmente, esta investigación se va a cen-
trar en el desarrollo de un sistema automático ¿Es necesario invertir esfuerzos en la ge-
para la detección de la negación y su ámbito neración de corpus anotados con nega-
en textos escritos en español para su poste- ción y su ámbito?
rior aplicación al análisis de opiniones. Para
¿Cuáles son las caracterı́sticas más ade-
ello, se llevará a cabo un estudio de cuáles
cuadas para identificar la presencia de
son las caracterı́sticas más adecuadas para
negación? ¿Y para determinar su ámbi-
identificar de forma correcta la negación y
to?
su ámbito de influencia, ası́ como de la es-
trategia a seguir para desarrollar un sistema ¿Cómo se puede utilizar esta informa-
con la habilidad de interpretar cómo afecta ción para mejorar los sistemas de clasifi-
la negación a las palabras de su ámbito (si cación de opiniones?
cambia su significado o no, o si lo intensifica
¿Qué algoritmos son más adecuados pa-
o reduce).
ra la fase de identificación? ¿Y para la
de clasificación?
5 Metodologı́a
La metodologı́a propuesta para la consecu- Agradecimientos
ción de esta tesis se presenta a continuación: Este trabajo ha sido parcialmente financia-
do por el Ministerio de Educación, Cultura y
1. Estudio y revisión del estado del arte. Deporte (MECD - ayuda FPU014/00983), el
Fondo Europeo de Desarrollo Regional (FE-
2. Adaptación de recursos existentes para DER) y el proyecto REDES (TIN2015-65136-
poder realizar un análisis de los métodos C2-1-R) del Gobierno de España.
propuestos.
Bibliografı́a
3. Desarrollo de un prototipo.
Brooke, J., M. Tofiloski, y M. Taboada.
Diseño de una arquitectura modu- 2009. Cross-Linguistic Sentiment Analy-
lar que permita integrar nuevas fun- sis: From English to Spanish. En RANLP,
cionalidades a medida que se vaya páginas 50–54.
avanzando en la investigación. Cruz, N. P., M. Taboada, y R. Mitkov.
2016. A machine-learning approach to ne-
Construcción de la arquitectura mo-
gation and speculation detection for senti-
dular diseñada.
ment analysis. Journal of the Association
Prueba del correcto funcionamiento for Information Science and Technology,
del prototipo. 67(9):2118–2136.
Das, S. y M. Chen. 2001. Yahoo! for Ama-
4. Experimentación y evaluación. Se utili-
zon: Extracting market sentiment from
zarán los recursos generados para llevar
stock message boards. En Proceedings
a cabo la experimentación y posterior-
of the Asia Pacific finance association
mente se procederá a la evaluación del
annual conference (APFA), volumen 35,
prototipo, llevando a cabo una compara-
página 43. Bangkok, Thailand.
ción de los resultados obtenidos con los
ya existentes. Los resultados obtenidos de Albornoz, J. C., L. Plaza, A. Dı́az, y
se pondrán a disposición de la comuni- M. Ballesteros. 2012. Ucm-i: A rule-based
dad cientı́fica. syntactic approach for resolving the scope
of negation. En Proceedings of the First Martı́, M. A., M. T. Martı́n-Valdivia,
Joint Conference on Lexical and Compu- M. Taulé, S. M. Jiménez-Zafra, M. No-
tational Semantics-Volume 1: Proceedings fre, y L. Marsó. 2016. La negación en
of the main conference and the shared español: análisis y tipologı́a de patrones
task, and Volume 2: Proceedings of the de negación. Procesamiento del Lenguaje
Sixth International Workshop on Seman- Natural, 57:41–48.
tic Evaluation, páginas 282–287. Associa-
Morante, R. y C. Sporleder. 2012. Moda-
tion for Computational Linguistics.
lity and negation: An introduction to the
Jia, L., C. Yu, y W. Meng. 2009. The special issue. Computational linguistics,
effect of negation on sentiment analysis 38(2):223–260.
and retrieval effectiveness. En Proceedings Pang, B. y L. Lee. 2008. Opinion mining
of the 18th ACM conference on Informa- and sentiment analysis. Foundations and
tion and knowledge management, páginas trends in information retrieval, 2(1-2):1–
1827–1830. ACM. 135.
Jiménez-Zafra, S. M., M. T. Martı́n-Valdivia, Pang, B., L. Lee, y S. Vaithyanathan.
L. A. Ureña-López, M. A. Martı́, y 2002. Thumbs up?: sentiment classifica-
M. Taulé. 2016. Problematic cases in the tion using machine learning techniques.
annotation of negation in Spanish. Ex- En Proceedings of the ACL-02 conference
ProM 2016, páginas 42–48. on Empirical methods in natural language
processing-Volume 10, páginas 79–86. As-
Jiménez-Zafra, S. M., E. Martı́nez-Cámara,
sociation for Computational Linguistics.
M. T. Martı́n-Valdivia, y M. D. Molina-
González. 2015. Tratamiento de la nega- Polanyi, L. y A. Zaenen. 2004. Contex-
ción en el análisis de opiniones en español. tual valence shifters. En Proceedings of
54:37–44. the AAAI Spring Symposium on Exploring
Attitude and Affect in Text, páginas 1–10.
Jiménez-Zafra, S. M., M. Taulé, M. T.
Martı́n-Valdivia, L. A. Ureña-López, y Socher, R., A. Perelygin, J. Y. Wu,
M. A. Martı́. 2017b. SFU ReviewSP- J. Chuang, C. D. Manning, A. Y. Ng,
NEG: a Spanish corpus annotated with C. Potts, y others. 2013. Recursive deep
negation for sentiment analysis. A typo- models for semantic compositionality over
logy of negation patterns. Language Re- a sentiment treebank. En Proceedings
sources and Evaluation, páginas 1–37. of the conference on empirical methods
in natural language processing (EMNLP),
Jiménez-Zafra, S. M., M. T. Martı́n Valdi- volumen 1631, página 1642.
via, E. Martı́nez Cámara, y L. A. Ureña-
Taboada, M., K. Voll, y J. Brooke. 2008.
López. 2017a. Studying the Scope of Ne-
Extracting sentiment as a function of dis-
gation for Spanish Sentiment Analysis on
course structure and topicality. Simon
Twitter. IEEE Transactions on Affective
Fraser Univeristy School of Computing
Computing, PP(99):1–14.
Science Technical Report, páginas 1–22.
Kennedy, A. y D. Inkpen. 2006. Sentiment Vilares, D., M. A. Alonso, y C. Gómez-
classification of movie reviews using con- Rodrı́guez. 2013. Clasificación de pola-
textual valence shifters. Computational ridad en textos con opiniones en español
intelligence, 22(2):110–125. mediante análisis sintáctico de dependen-
Konstantinova, N., S. CM. De Sousa, N. P. cias. Procesamiento del lenguaje natural,
Cruz-Dı́az, M. J. López Maña, M. Taboa- 50:13–20.
da, y R. Mitkov. 2012. A review cor- Vilares, D., M. A. Alonso, y C. Gómez-
pus annotated for negation, speculation Rodrı́guez. 2015. A syntactic approach
and their scope. En LREC, páginas 3190– for opinion mining on Spanish reviews.
3195. Natural Language Engineering, 21(1):139–
163.
Liu, B. 2012. Sentiment analysis and opi-
nion mining. Synthesis Lectures on Hu- Wiegand, M., A. Balahur, B. Roth, D. Kla-
man Language Technologies, 5(1):1–167. kow, y A. Montoyo. 2010. A survey on
the role of negation in sentiment analysis.
En Proceedings of the workshop on nega-
tion and speculation in natural language
processing, páginas 60–68. Association for
Computational Linguistics.
Wilson, T., J. Wiebe, y P. Hoffmann. 2005.
Recognizing contextual polarity in phrase-
level sentiment analysis. En Proceedings
of the conference on human language tech-
nology and empirical methods in natural
language processing, páginas 347–354. As-
sociation for Computational Linguistics.