Tarea 2 del Taller NEGES 2018: Detección de Claves de Negación NEGES 2018 Task 2: Negation Cues Detection Salud Marı́a Jiménez-Zafra1 , Noa P. Cruz Dı́az2 , Roser Morante3 , Marı́a Teresa Martı́n-Valdivia1 1 SINAI, Centro de Estudios Avanzados en TIC (CEATIC), Universidad de Jaén {sjzafra, maite}@ujaen.es 2 Savana Médica, Madrid contact@noacruz.com 3 CLTL Lab, Computational Linguistics, VU University Amsterdam r.morantevallejo@vu.nl Resumen: El XXXIV Congreso Internacional de la Sociedad Española para el Pro- cesamiento del Lenguaje Natural (SEPLN 2108) albergó el taller de NEGación en ESpañol (NEGES 2018). La segunda tarea compartida estuvo dedicada a identificar las claves de negación. Este artı́culo presenta las especificaciones, el conjunto de da- tos y los criterios de evaluación de la tarea. Además, se proporciona una descripción general de los sistemas participantes y se resumen sus resultados. Palabras clave: Negación, detección de claves, análisis de sentimientos Abstract: The XXXIV International Conference of the Spanish Society for the Natural Language Processing (SEPLN 2108) hosted the workshop on Negation in Spanish (NEGES 2018). The second shared task was dedicated to identifying the negation cues. This article presents the specifications, the data set and the evaluation criteria of the task. Moreover, an overview of participating systems is provided and their results are summarised. Keywords: Negation processing, cue detection, sentiment analysis 1 Introducción contramos sistemas como los propuestos por Costumero et al. (2014) y Stricker, Iacobac- La negación es un fenómeno lingüı́stico com- ci, y Cotik (2015) orientados a identificar de plejo que se ha estudiado ampliamente desde forma automática la negación en el ámbito una perspectiva teórica (Morante y Sporle- clı́nico mediante la adaptación del popular al- der, 2012). Su detección y tratamiento au- goritmo basado en reglas, NegEx (Chapman tomático es relevante en una amplia gama de et al., 2001). aplicaciones, como la extracción de informa- ción (Savova et al., 2010), la traducción au- Aunque en menor medida, la detección de tomática (Baker et al., 2012) o el análisis de la negación en español se ha aplicado también sentimientos (Cruz Dı́az et al., 2012), donde al análisis de sentimientos como medio para es crucial conocer cuándo una parte del texto determinar la polaridad de los sentimientos puede tener un significado diferente debido a y la opinión. Por ejemplo, Vilares, Alonso, la presencia de negación. Esta parte del texto y Gómez-Rodrı́guez (2015) demostraron que es lo que se conoce como el alcance o ámbito. tener en cuenta la estructura sintáctica del La detección de la negación se está con- texto para el tratamiento de la negación, de virtiendo en una tarea importante en el Pro- la intensificación y de las oraciones subordi- cesamiento del Lenguaje Natural (PLN). De nadas mejora con respecto a los sistemas pu- hecho, en los últimos años, varios desafı́os y ramente léxicos. Por otro lado, Jimenez-Zafra tareas compartidas han incluido la extrac- et al. (2017) desarrollaron un sistema basado ción de este elemento del lenguaje (Moran- en reglas de detección de las claves de nega- te y Blanco, 2012). Sin embargo, la mayor ción y su alcance para mejorar la clasificación parte de la investigación sobre la negación de tweets en español. La evaluación de este se ha realizado para inglés. En español, en- enfoque en el corpus TASS (Villena-Román 35 Proceedings of NEGES 2018: Workshop on Negation in Spanish, pages 35-41 Seville, Spain, September, 18, 2018 et al., 2013) mostró cómo introducir la detec- Los sistemas participantes recibieron un ción de la negación en un sistema de análisis conjunto de datos de entrenamiento y desa- de sentimientos aumenta considerablemente rrollo para construir sus sistemas durante la su precisión. fase de entrenamiento. Todas las claves de En un trabajo más reciente, Jiménez-Zafra negación utilizadas para las fases de entrena- et al. (2018a) llevaron a cabo varios experi- miento, desarrollo y test se generaron a través mentos orientados a la clasificación de opi- de una exhaustiva anotación manual por ex- niones en los que se combinaban diferentes pertos del dominio, siguiendo unas guı́as de aspectos de la información de la negación y anotación bien definidas (Jiménez-Zafra et distintos algoritmos de aprendizaje automáti- al., 2018b). En una etapa posterior, se puso co. La colección de documentos utilizada en disponible un conjunto de test para el que los este caso fue el SFU ReviewSP-NEG corpus, participantes enviaron sus predicciones que anotado con claves de negación, su alcance y fueron evaluadas frente a las anotaciones ma- la forma en que la negación afecta a la pola- nuales. ridad de las palabras de su ámbito (inversión, no efecto, incremento o reducción) (Jiménez- 2.1 Métricas de evaluación Zafra et al., 2018b). Los resultados obtenidos El script de evaluación fue el propuesto en el demostraron que considerar la negación me- *SEM 2012 Shared Task - Resolving the Sco- jora el rendimiento de la tarea de clasificación pe and Focus of Negation (Morante y Blanco, de sentimientos. 2012) y se basa en los siguientes criterios: A pesar de que, como demuestran los tra- Los signos de puntuación son ignorados. bajos descritos anteriormente, el campo de la detección de la negación en español es un área Un verdadero positivo (VP) requiere que muy activa en los últimos años, son necesarios todos los elementos de la clave de nega- más esfuerzos que permitan avanzar en este ción sean identificados correctamente. área. Por ello, la tarea 2 del taller NEGES Para evaluar las claves, las coincidencias 2018 se propuso con el objetivo de promover parciales no se cuentan como falso positi- el desarrollo y la evaluación de los sistemas vo (FP), sólo como falso negativo (FN) de identificación de claves de negación en es- con el objetivo de evitar penalizar más pañol en el área del análisis de opiniones. la identificación parcial de las claves de El resto del documento está organizado de negación que la no identificación de las la siguiente manera. La tarea propuesta se mismas. describe en la Sección 2 y el corpus en la Sección 3. Los sistemas participantes y sus Se utilizaron las medidas estándar de eva- resultados se resumen en la Sección 4. Los luación de precisión (P), cobertura (C) y enfoques utilizados por los sistemas partici- Medida-F donde: pantes se describen en la Sección 5, ası́ como el análisis de los resultados. Finalmente, la VP P = (1) Sección 6 concluye el documento. V P + FP VP 2 Descripción de la tarea C= (2) V P + FN Como se ha especificado en la introducción, 2∗P ∗R la tarea 2 del taller NEGES 20181 estuvo de- M edida − F = (3) P +R dicada a la detección automática de las claves de negación en español en el dominio de las En la evaluación propuesta, se cuenta co- opiniones. mo FN aquellas claves incorrectamente iden- Por ejemplo, en la frase (1) los sistemas tificadas por el sistema, ya sea porque la coin- tenı́an que identificar la palabra no como cidencia es parcial o porque directamente no clave de negación. hayan sido identificadas como claves de nega- ción. Se considera FP aquellas palabras iden- tificadas incorrectamente como claves de ne- (1) Yo [no] recomiendo el libro. gación. Finalmente, se cuenta como VP aque- llas claves de negación correctamente identi- 1 http://www.sepln.org/workshops/neges/ ficadas por el sistema (esto es, coincidencia index.php exacta). 36 Entrenamiento Desarrollo Test Comentarios 264 (130-, 134+) 56 (34-, 22+) 80(36-, 44+) Neg 2.511 594 836 Noneg 104 22 55 Contrast 100 23 52 Comp 18 6 6 Tabla 1: Distribución de comentarios y claves de negación en la colección de datos 3 Colecciones de datos Columnas 8 hasta el final: Si la oración El corpus SFU ReviewSP-NEG (Jiménez- no tiene negaciones, la columna 8 tiene Zafra et al., 2018b) fue la colección de docu- un valor *** y no hay más columnas. mentos utilizada para entrenar y probar los Si la oración tiene negaciones, la anota- sistemas. ción para cada negación se proporciona en tres columnas. La primera columna Los conjuntos de entrenamiento, desarro- contiene la palabra que pertenece a la llo y test fueron generados de forma aleatoria clave de negación y la segunda y tercera manteniendo 33 comentarios por dominio en columnas contienen -. el entrenamiento, 7 por dominio en el desa- rrollo y 10 por dominio en el test. Las claves de negación se corresponden con las estruc- 3.1 Anotación de claves de turas neg y las que no niegan con las demás negación en el SFU estructuras (noneg, contrast, comp). En total, ReviewSP-NEG corpus 221.866 palabras y 9.455 frases, de las cuales, El SFU ReviewSP-NEG corpus2 consiste en 3.022 frases contienen al menos una estructu- 400 reseñas de coches, hoteles, lavadoras, li- ra de negación. En la Tabla 1 puede verse la bros, teléfonos móviles, música, ordenadores distribución de comentarios y claves. y pelı́culas extraı́das del sitio web ciao.es. Ca- Los datos se proporcionaron en forma- da dominio contiene 25 revisiones positivas y to CoNLL (Farkas et al., 2010) donde cada 25 negativas. La anotación se llevó a cabo a lı́nea corresponde a un token, cada anotación nivel de token para el lema y la categorı́a gra- se proporciona en una columna y las lı́neas matical y a nivel de frase para las claves de vacı́as indican el final de la frase. El conteni- negación, su alcance lingüı́stico y el evento. do de las columnas dadas es: Las etiquetas utilizadas para la anotación de la negación son las siguientes: Columna 1: dominio y nombre del archi- vo separados por barra baja. . Columna 2: número de oración dentro Describe la polaridad de la revisión, que del archivo. puede ser positiva o negativa. . Esta Columna 3: número de token dentro de etiqueta corresponde a una frase com- la oración. pleta o fragmento de la misma en la que Columna 4: palabra. pueda aparecer una estructura negativa. Las frases sin claves negativas no son Columna 5: lema. anotadas. Esta etiqueta lleva asociado Columna 6: categorı́a gramatical. un atributo que puede tomar los siguien- tes valores: Columna 7: tipo de categorı́a gramatical. • “yes”, si la frase contiene más Los sistemas tuvieron que generar un ar- de una estructura negativa chivo por dominio con el contenido de las 7 (). columnas anteriores más las siguientes colum- • “no”, si la frase contiene sólo una nas (los archivos debı́an tener el mismo or- estructura negativa. den de oraciones y tokens que los archivos de 2 test): http://sinai.ujaen.es/sfu-review-sp-neg-2/ 37 . Esta etiquta corres- en la tarea y expresaron que no participa- ponde con una estructura sintáctica en la ron debido a la falta de tiempo. Los resulta- que aparece una clave de negación. Tie- dos oficiales se muestran en las Tablas 2, 3 y ne 4 atributos posibles, dos de los cuáles 4, evaluados en términos de Precisión (Prec), (change y polarity modifier son mutua- Cobertura (Cob) y Medida F (F). mente excluyentes). • polarity: indica la orientación Equipo Prec Cob F semántica de la estrucutra de UNED 79,45 59,58 67,97 negación (“positive”, “negative” or UPC 91,48 82,18 86,45 “neutral”). • change: indica si la orientación o Tabla 2: Resultados oficiales globales significado de la estructura de ne- gación se ha modificado completa- Si comparamos los resultados globales de mente a causa de la negación (chan- la Tabla 2, vemos cómo la precisión de ambos ge=“yes” o change=“no”). sistemas fue similar. Sin embargo, el nivel de cobertura que presentó el sistema desarrolla- • polarity modifier: indica si la estruc- do por el equipo de la UNED fue bajo, lo que tura negativa contiene un elemento provocó la caı́da de la medida-F. No obstante, que matiza su polaridad. Si hay un hay que tener en cuenta que hubo un error al incremento en la intensidad del va- enviar los datos y el sistema no pudo ser eva- lor de polaridad, toma el valor “in- luado sobre la subcolección de ordenadores, crement” y, en cambio, si hay una por lo que los resultados globales deben ser disminución del valor de polaridad, interpretados con precaución. El mejor resul- toma el valor “reduction”. tado lo obtuvo el equipo de la UPC con una • value: muestra el significado de la medida-F del 86,25 %. estructura de negación, esto es, “neg” si expresa negación, “con- Dominio Prec Cob F trast” si expresa contraste u opo- Coches 94,23 72,06 81,67 sición, “comp” si expresa compara- Hoteles 97,67 71,19 82,35 ción o desigualdad entre términos y Lavadoras 92,00 66,67 77,31 “noneg” si no niega pese a contener Libros 79,52 66,27 72,29 una clave de negación. Teléfonos móviles 93,33 73,68 82,35 . Esta etiqueta delimita la parte Música 92,59 57,47 70,92 de la estructura negativa que está dentro Ordenadores - - - del alcance de la negación. Incluye tanto Pelı́culas 86,26 69,33 76,87 la clave de negación () como el evento (). Tabla 3: Resultados oficiales por dominio pa- . Esta etiqueta se correspon- ra el equipo de la UNED de con la(s) palabra(s) que indica(n) ne- gación. Puede tener asociado el atributo discid si la negación está expresada por Dominio Prec Cob F más de un elemento negativo disconti- Coches 95,08 85,29 89,92 nuo. Hoteles 94,00 79,66 86,24 . Denota las palabras que están Lavadoras 94,74 78,26 85,72 afectadas directamente por la negación. Libros 84,19 84,52 84,35 Teléfonos móviles 89,80 77,19 83,02 4 Trabajos presentados y Música 92,96 75,86 83,54 Ordenadores 91,36 91,36 91,36 resultados Pelı́culas 89,68 85,28 87,42 Dos sistemas participaron en esta tarea (Fa- bregat, Martı́nez-Romo, y Araujo, 2018; Loharja, Padró, y Turmo, 2018). No obstan- Tabla 4: Resultados oficiales por dominio pa- te, hubo participantes que mostraron interés ra el equipo de la UPC 38 Si analizamos los datos por dominio en 6 Conclusiones las Tablas 3 y 4, hay subcolecciones como La tarea 2 del taller NEGES 2018 promovió el la de libros y móviles en la que ambos sis- desarrollo de sistemas de detección automáti- temas obtuvieron peores resultados en com- ca de la negación en español en el ámbito del paración con el resto de subcolecciones. El análisis de sentimientos, una tarea clave de sistema desarrollado por la UNED obtuvo el PLN. En concreto, se centró en la detección mayor rendimiento en las subcolecciones de de las claves de negación presentes en la co- móviles y hoteles, mientras que el sistema de lección de documentos SFU ReviewSP-NEG. la UPC mostró una mejor detección de las Hasta donde conocemos, se trató de la pri- claves de negación en la subcolección de or- mera tarea orientada a detectar la negación denadores, en concreto, obtuvo una medida-F en español, de ahı́ la relevancia del taller. 2 de 91,36 %. fueron los sistemas presentados pero varios equipos mostraron su interés en la tarea, no pudiendo entregar sus propuestas a tiempo. 5 Enfoques Los participantes utilizaron enfoques super- visados basados en técnicas de aprendizaje Remitimos al lector a los artı́culos de los automático y aprendizaje profundo, mostran- participantes (Fabregat, Martı́nez-Romo, y do las primeras un mayor rendimiento. Araujo, 2018; Loharja, Padró, y Turmo, En futuras ediciones del taller, las tareas 2018) para obtener una descripción completa podrı́an ir orientadas a detectar de forma au- de los sistemas. En la sección anterior puede tomática las claves de negación en español en verse el rendimiento, tanto global como por otros dominios como el clı́nico. Además, se domino, de cada uno de estos sistemas. podrı́a incluir la detección del ámbito o al- Ambas propuestas utilizaron el esquema cance de dichas claves de negación. estándar de etiquetado BIO donde la prime- ra palabra de una estructura de negación de Agradecimientos denota por B y las restantes por I. La etique- Este trabajo ha sido parcialmente financia- ta O indica que la palabra no se corresponde do por el Ministerio de Educación, Cultura y con una clave de negación. Deporte (MECD - ayuda FPU014/00983), el El equipo de la UNED (Fabregat, Fondo Europeo de Desarrollo Regional (FE- Martı́nez-Romo, y Araujo, 2018) aplicó un DER) y el proyecto REDES (TIN2015-65136- modelo de aprendizaje profundo inspirado en C2-1-R) del Gobierno de España. Roser Mo- las arquitecturas del reconocimiento de en- rante ha sido financiada por la Organiza- tidades nombradas y en modelos de detec- ción Holandesa para la Investigación Cientı́fi- ción del ámbito de la negación. En concreto, ca (NWO) a través del premio Spinoza otor- la propuesta está basada en el uso de varias gado a Piek Vossen (SPI 30-673, 2014-2019). redes neuronales junto a una LSTM (Long Short-Term Memory) bidireccional. Este en- Bibliografı́a foque supervisado se basa en word embed- Abadi, M., P. Barham, J. Chen, Z. Chen, dings preentrenados para el español. Por su A. Davis, J. Dean, M. Devin, S. Ghema- parte, el equipo de la UPC (Loharja, Padró, y wat, G. Irving, M. Isard, y others. 2016. Turmo, 2018) utilizó el algoritmo de aprendi- Tensorflow: a system for large-scale machi- zaje automático Conditional Random Fields ne learning. En OSDI, volumen 16, pági- (CRFs) junto a una serie de atributos como la nas 265–283. categorı́a gramatical de la palabra, informa- ción sobre cómo están escritas las palabras, Baker, K., M. Bloodgood, B. J. Dorr, etc. C. Callison-Burch, N. W. Filardo, C. Piat- ko, L. Levin, y S. Miller. 2012. Moda- Los recursos utilizados por los participan- lity and negation in simt use of moda- tes son diversos. El equipo de la UNED hizo lity and negation in semantically-informed uso de la librerı́as Keras (Chollet, 2015) y syntactic mt. Computational Linguistics, TensorFlow (Abadi et al., 2016), además de 38(2):411–438. word embeddings preentrenados para el es- pañol (Cardellino, 2016), y el equipo de la Cardellino, C. 2016. Spanish billion words UPC utilizó NLTK (Loper y Bird, 2002). corpus and embeddings. 39 Chapman, W. W., W. Bridewell, P. Hanbury, Spanish Sentiment Analysis on Twitter. G. F. Cooper, y B. G. Buchanan. 2001. A IEEE Transactions on Affective Compu- simple algorithm for identifying negated ting. findings and diseases in discharge summa- ries. Journal of biomedical informatics, Loharja, H., L. Padró, y J. Turmo. 2018. 34(5):301–310. Negation Cues Detection Using CRF on Spanish Product Review Text at NEGES Chollet, F. 2015. Keras. 2018. En Proceedings of NEGES 2018: Costumero, R., F. López, C. Gonzalo-Martı́n, Workshop on Negation in Spanish, volu- M. Millan, y E. Menasalvas. 2014. An men 2174, páginas 49–54. approach to detect negation on medical Loper, E. y S. Bird. 2002. NLTK: The na- documents in Spanish. En Internatio- tural language toolkit. En Proceedings nal Conference on Brain Informatics and of the ACL-02 Workshop on Effective Health, páginas 366–375. Springer. tools and methodologies for teaching natu- Cruz Dı́az, N. P., M. J. Maña López, J. Ma- ral language processing and computational ta Vázquez, y V. Pachón Álvarez. 2012. linguistics-Volume 1, páginas 63–70. Asso- A machine-learning approach to nega- ciation for Computational Linguistics. tion and speculation detection in clini- cal texts. Journal of the American so- Morante, R. y E. Blanco. 2012. * SEM 2012 ciety for information science and techno- shared task: Resolving the scope and focus logy, 63(7):1398–1410. of negation. En Proceedings of the First Joint Conference on Lexical and Compu- Fabregat, H., J. Martı́nez-Romo, y L. Araujo. tational Semantics-Volume 1: Proceedings 2018. Deep Learning Approach for Nega- of the main conference and the shared tion Cues Detection in Spanish at NEGES task, and Volume 2: Proceedings of the 2018. En Proceedings of NEGES 2018: Sixth International Workshop on Seman- Workshop on Negation in Spanish, volu- tic Evaluation, páginas 265–274. Associa- men 2174, páginas 43–48. tion for Computational Linguistics. Farkas, R., V. Vincze, G. Móra, J. Csirik, y Morante, R. y C. Sporleder. 2012. Moda- G. Szarvas. 2010. The CoNLL-2010 sha- lity and negation: An introduction to the red task: learning to detect hedges and special issue. Computational linguistics, their scope in natural language text. En 38(2):223–260. Proceedings of the Fourteenth Conferen- ce on Computational Natural Language Savova, G. K., J. J. Masanz, P. V. Ogren, Learning—Shared Task, páginas 1–12. As- J. Zheng, S. Sohn, K. C. Kipper-Schuler, sociation for Computational Linguistics. y C. G. Chute. 2010. Mayo clinical Text Jiménez-Zafra, S. M., M. T. Martı́n-Valdivia, Analysis and Knowledge Extraction Sys- M. D. Molina-González, y L. A. Ureña- tem (cTAKES): architecture, component López. 2018a. Relevance of the SFU evaluation and applications. Journal of Review SP-NEG corpus annotated with the American Medical Informatics Asso- the scope of negation for supervised pola- ciation, 17(5):507–513. rity classification in Spanish. Information Stricker, V., I. Iacobacci, y V. Cotik. 2015. Processing & Management, 54(2):240– Negated Findings Detection in Radiology 251. Reports in Spanish: an Adaptation of Ne- Jiménez-Zafra, S. M., M. Taulé, M. T. gEx to Spanish. En IJCAI-Workshop on Martı́n-Valdivia, L. A. Ureña-López, y Replicability and Reproducibility in Natu- M. A. Martı́. 2018b. SFU Review SP- ral Language Processing: adaptative met- NEG: a Spanish corpus annotated with hods, resources and software, Buenos Ai- negation for sentiment analysis. a typo- res, Argentina. logy of negation patterns. Language Re- Vilares, D., M. A. Alonso, y C. Gómez- sources and Evaluation, 52(2):533–569. Rodrı́guez. 2015. A syntactic approach Jimenez-Zafra, S. M., M. T. M. Valdivia, for opinion mining on Spanish reviews. E. M. Camara, y L. A. Urena-Lopez. Natural Language Engineering, 21(1):139– 2017. Studying the Scope of Negation for 163. 40 Villena-Román, J., S. Lana-Serrano, E. Martı́nez-Cámara, y J. C. González- Cristóbal. 2013. TASS-Workshop on Sentiment Analysis at SEPLN. Procesa- miento del Lenguaje Natural, 50:37–44. 41