Análisis Comparativo de los Sistemas de Anotación de la Negación en Español Comparative Analysis of the Annotation Guidelines for Negation in Spanish M. Antònia Martí, Mariona Taulé CLiC-UBICS, Universitat de Barcelona Gran Via de Les Corts Catalanes 585,08029 Barcelona {amarti, mtaule}@ub.edu http://clic.ub.edu/ http://ubics.ub.edu/ Resumen: En este artículo presentamos un análisis comparativo de las diferentes guías de anotación de la negación en español en el marco de la Tarea-1 del taller NEGES-2018, Workshop on Negation in Spanish. Palabras clave: Negación, guía de anotación, corpus anotados Abstract: In this paper we present a comparative analysis of the different negation guidelines in Spanish in the framework of Task-1 at the NEGES-2018, Workshop on Negation in Spanish. Keywords: Negation, guidelines, annotated corpora informal que el periodístico –UAM Spanish 1 Introducción Treebank (Moreno y Garrote, 2013). El artículo se estructura de la siguiente En este artículo presentamos un análisis manera. En la sección 2 se presenta un análisis comparativo de las diferentes guías de lingüístico de las características generales de los anotación de la negación en español en el marco cinco corpus. En la sección 3 se presentan los de la Tarea 1 del taller NEGES-2018, Workshop datos comparativos de las cinco guías de on Negation in Spanish (Jiménez-Zafra et al., anotación. En la sección 4 se proponen 2018b). El objetivo principal de esta tarea directrices generales para la anotación de la (Annotation Guidelines) es analizar los negación en español como resultado del análisis diferentes aspectos relacionados con la realizado en 2 y 3. En la sección 5 se presentan negación para llegar a un acuerdo en la las conclusiones. definición de unas directrices comunes para la anotación de la negación en español. 2 Análisis de los corpus El análisis se basa en la comparación de cinco sistemas de anotación, tres de ellos del Una primera distinción a destacar en el análisis dominio biomédico, uno sobre opiniones de comparativo de los 5 corpus presentados en productos y uno del dominio periodístico. Los NEGES viene determinada tanto por el dominio tres corpus del dominio biomédico –IULA- temático como por la estructura discursiva de SCRC (Marimon, Vivaldi y Bel, 2017), los textos. Estas dos características inciden en el IxaMed-GS (Oronoz et al., 2017) y UHU- modo de expresar la negación. En este sentido, HUVR (Cruz et al., 2017)– se caracterizan por en el dominio biomédico, las estructuras contener información semi-estructurada, negativas predominantes constituyen un mientras que los otros dos contienen subconjunto de las estructuras de negación información no estructurada. El corpus de posibles en la lengua: predominan los opiniones –SFU ReviewSP-NEG (Jiménez- sintagmas nominales precedidos por un Zafra et al., 2018a)– utiliza un lenguaje más marcador de negación, mayoritariamente ‘no’ y 23 Proceedings of NEGES 2018: Workshop on Negation in Spanish, pages 23-28 Seville, Spain, September, 18, 2018 ‘sin’, donde el nombre suele ser una Named En este caso, fundamentalmente, importa dar Entity (NE) del dominio biomédico: cuenta de todas las estructuras de negación posibles y determinar si tienen o no un valor de (1) No alergias medicamentosas 1 (UHU- negación. Se trata de una aproximación que HUVR) atiende tanto a la cobertura de estructuras (2) No edemas en extremidades inferiores posibles como al valor de negación de las (IULA-SCRC) expresiones estudiadas. La aproximación que se sigue en ambos casos es de carácter sintáctico y Es importante señalar que las estructuras de se trata de detectar y anotar todas las posibles (1) y (2) no se atienen a la gramática estándar estructuras de negación. de la lengua y se pueden considerar Sin embargo, en los corpus de dominio características de este dominio. Pueden biomédico, el objetivo fundamental es, en considerarse oraciones en las que se ha omitido último término, determinar si los hechos, el verbo por ser fácilmente inferible. En eventos o entidades afectados por la negación general, las oraciones del dominio biomédico son o no son factuales: la negación constituye son cortas y los predicados verbales utilizados una subtarea en el marco de los sistemas de constituyen un conjunto restringido y de alta Extracción de Información (EI) o minería de frecuencia (3), (4) y (5), lo que explica también datos. La negación puede cambiar el estatus su omisión. factual de la información y, por ello, se sigue una aproximación semántico-pragmática, que (3) No ausculto soplos (IULA-SCRC) adopta soluciones no generalizables ni al (4) Se descarta enolismo (IULA-SCRC) dominio general de la lengua ni a otros (5) No visualizamos alteraciones (UHU- dominios (7): HUVR) (7) Técnicas de Z-N (normal y largo) Otra característica importante en este negativo (UHU-HUVR) dominio es que determinados documentos son textos semiestructurados (por ejemplo, informes Los autores consideran que no hay negación radiológicos o anamnesis), donde la negación es porque no hay hechos negados ya que la técnica un valor de algún tipo de exploración o test Z-N se ha llevado a cabo (Cruz et al., 2017). médico: A pesar de estas divergencias debidas al (6) Serología materna: Toxoplasma: carácter general de dos de los corpus y al Negativo. VHB: Negativo. Rubeola: carácter específico del dominio biomédico de Negativo. Lues: Negativo. (UHU- los otros tres, se puede llevar a cabo una HUVR) comparación conjunta ya que muchos de los temas abordados son comunes. La comparativa En el corpus UHU-HUVR, se anotan como se presenta en la sección 3. marcadores de negación los símbolos ‘-‘ y ‘/’, que tienen este valor solo en determinados 3 Datos comparativos dominios. También se utilizan abreviaturas que Los corpus del ámbito biomédico corresponden contienen negación ‘namc’ (no alergias a informes médicos en soporte electrónico medicamentos conocidos) como marcadores de (Electronic Health Records, EHRs) del hospital negación. Galdako-Usansolo del País Vasco, como es el En cuanto a los otros dos corpus analizados caso de IxaMed-GS, y a informes médicos en el taller NEGES-2018, aunque el SFU sobre diagnósticos de radiología y de historia corresponde a un uso más informal de la lengua personal (anamnesis) del hospital Virgen del y el UAM-Treebank es un corpus de la lengua Rocío de Sevilla en el caso de UHU-HUVR. En estándar, ambos hacen un uso normativo de la el caso del corpus IULA-SCRC son informes lengua y presentan una estructura discursiva sobre diferentes servicios de un hospital, cuyo estándar. nombre no se especifica. El corpus SFU consiste en 400 reseñas de productos, extraídos de la página web Ciao.es y el corpus UAM- 1 Los ejemplos se han obtenido de los artículos Treebank es un corpus formado por oraciones en los que se describen los criterios de anotación. 24 extraídas de textos periodísticos del UAM- un corpus justifican este tipo de decisiones. En Spanish Treebank (El País Digital y Compra el caso de SFU-ReviewSP-NEG y UAM Spanish Maestra). Treebank, el objetivo de la anotación es obtener En la Tabla 1 se muestran el número de datos empíricos sobre las diferentes formas que documentos (Doc.), oraciones y tokens que adopta la negación en español. Por este motivo, conforman cada uno de los corpus anotados con se anotan todos aquellos elementos que aportan negación. información relevante sobre el tema, mientras que en IxaMed-GS interesa sólo extraer qué entidades están negadas y, por lo tanto, ignoran Doc. Oraciones Tokens el marcador. IxaMed-GS 75 5.410 41.633 Respecto de los marcadores que contienen IULA-SCRC 300 1.093 - más de un ítem, SFU-ReviewSP-NEG distingue UHU-HUVR 604 8.312 145.291 los continuos (8) y (9) de los discontinuos (10): SFU- 400 9.455 221.866 ReviewSPNEG (8) La calidad del sonido no es mala UAM-Treebank - 1.501 - (9) En_mi_vida he hecho una reserva con tanta antelación Tabla 1: Estadísticas de los corpus (10) El coche no frena en absoluto La Tabla 2 resume los distintos aspectos de Mientras que IULA-SCRC y UAM- la negación anotados en cada uno de los corpus: Treebank para los marcadores complejos, la anotación del marcador de negación distinguen los ítems que aparecen en posición (columna 2); el alcance o ámbito (scope) de la preverbal (inductores de negación) de los que negación (columna 3); si se incluye o no el aparecen en posición postverbal (ítems de sujeto dentro del alcance (columna 4); polaridad negativa): anotación de estructuras coordinadas (columna 5); anotación de las locuciones de negación (11) No[NI] objetivando ninguna[NPI] (columna 6); anotación de la negación léxica y focalidad neurológica (IULA-SCRC) por afijación (columna 7) y anotación de la especulación (columna 8). Todos los corpus han marcado el alcance o ámbito (scope) de la negación, pero divergen en Locución Neg. si incluyen (SFU-ReviewSP-NEG, UAM- Coordinación Especulación Scope (Subj) Marcador de Treebank) o no (UHU-HUVR, IULA-SCRC) el Corpus Scope Nega. negación Léx./Af. sujeto dentro del ámbito. Consideramos que esta decisión está determinada por las características del dominio biomédico, ya que muchas de las expresiones utilizadas no tienen estructura oracional, por lo que no tiene sentido IULA- sí sí no sí - sí(r) - marcar el sujeto. SCRC IxaMed- Respecto de la negación en estructuras no sí - - - no sí coordinadas, sólo se tratan en SFU-ReviewSP- GS UHU- NEG, UHU-HUVR e IULA-SCRC aunque se sí sí no sí - sí(r) - HUVR abordan de manera distinta. A diferencia de SFU- IULA-SCRC y UHU-HUVR, en SFU- ReviewSP- sí sí sí sí sí no no ReviewSP-NEG se distingue entre las NEG estructuras negativas coordinadas (12) y las UAM- estructuras negativas que contienen elementos sí sí sí - - no no Treebank coordinados, anotados mediante la etiqueta discid (elementos discontinuos) (13). En el Tabla 2: Corpus comparativa primer caso, cada marcador de negación tiene su propio scope (12), mientras que en el Por lo que respecta al marcador de negación, segundo caso el scope incluye toda la el único corpus que no lo marca explícitamente coordinación (13). es el IxaMed-GS. Los otros cuatro sí lo marcan. Los objetivos en función de los cuales se anota 25 (12) No [soy muy alta] tampoco [un pitufo] objetivo de la anotación de la negación en los (SFU-ReviewSP-NEG) corpus semiestructurados del dominio (13) No [es ni muy pesado ni muy ligero] biomédico y el de los corpus de texto libre (SFU-ReviewSP-NEG) presentan marcadas diferencias. Los primeros requieren a menudo una solución ad hoc para Sin embargo, esta distinción no se establece en marcar la negación; en los segundos se aborda los corpus de IULA-SCRC y UHU-HUVR, que la anotación de la negación desde una adoptan soluciones distintas. En el corpus de perspectiva más general, basada en la estructura IULA-SCRC siempre se incluye la lingüística. coordinación dentro del scope (14), mientras Ambas aproximaciones son necesarias y que en UHU-HUVR cualquier tipo de adecuadas teniendo en cuenta los objetivos que coordinación da lugar a dos estructuras distintas se quieren alcanzar. con sus marcadores de negación y Además, en el dominio biomédico, negación correspondientes scopes (15) y (16). y especulación son dos temas que encontramos tratados conjuntamente en diversos corpus del (14) No [masas ni megalias] (IULA-SCRC) inglés (Vincze et al. 2008; Vincze, 2010; (15) No hemos observado [alteraciones a Konstantinova et al., 2012; Morante y nivel de los distintos ligamentos (…)], Sporleder, 2012) y también del español (Oronoz así como [de las restantes partes et al., 2017). Se trata de dos temas que se blandas]. (UHU-HUVR) interrelacionan ya que ambos inciden en el (16) No [hay evidencia de módulos carácter factual o no factual de lo que se pulmonares] / [adenomegalias expresa. Este interés que se detecta en un mediastínicas] (UHU-HUVR) dominio específico, sugiere que se trata de un tema de calado que debería tratarse en un El ejemplo (16), según los criterios de SFU, contexto más amplio, en el marco de la lengua se interpretaría como una sola estructura en general. negativa y, por lo tanto, con un único scope. A continuación presentamos nuestras Estas estructuras dependen de la interpretación recomendaciones respecto de los diferentes del anotador, según considere que la estructura rasgos anotados en los corpus. coordinada tiene, o no, el mismo predicado verbal, generalmente elidido. Marcadores de negación: - Siempre que sea posible, consideramos Sólo SFU-ReviewSP-NEG trata necesario anotar el marcador de negación explícitamente las locuciones de negación. ya que aporta información al conocimiento Éstas incluyen todo tipo de expresión general de la lengua: si se marcan, siempre multipalabra que expresa negación, contenga o se pueden recuperar y así facilitar, por no un marcador de negación, por ejemplo: ‘en ejemplo, la creación de un léxico de la vida’, ‘en absoluto’. marcadores de negación. UHU-HUVR e IULA-SCRC anotan la - Es necesario distinguir los marcadores negación léxica, aunque de manera restringida. simples (‘no’, ‘sin’, etc.) de los complejos IULA-SCRC limita la negación léxica a los (‘no…nadie’), donde uno implica la predicados: ‘descartar’, ‘ausencia de’, ‘incapaz presencia del otro. En este sentido, de’. En el caso de UHU-HUVR, sólo se da unos consideramos pertinente la distinción de ejemplos: ‘abandono’, ‘negativo, ‘-‘ y ‘/’, pero SFU-ReviewSP-NEG entre simples y no se dan más detalles. complejos, continuos y discontinuos y, dentro de los complejos, los que actúan Sólo el corpus IxaMed-GS anota la como modificadores. especulación, tema fundamental en el dominio médico. Scope (ámbito o alcance): Consideramos necesario marcar siempre el 4 Propuesta de anotación scope e incluir el sujeto siempre que sea posible. Esta recomendación está justificada por Del análisis comparativo de las guías de el hecho de que estamos anotando un corpus anotación presentadas en NEGES-2018 se donde se marca el foco de la negación (Guzzi et desprende, en una primera aproximación, que el al., 2018) y, en algunos casos, éste es el sujeto 26 (17). Por tanto, no marcar el sujeto dentro del SCRC, aunque de manera restringida. De la scope puede presentar problemas de cara a observación de los casos anotados, se desprende futuras anotaciones. la necesidad de abordar a fondo el scope de la negación léxica y morfológica. (17) Dice que [no vendrá Luisa]. 2 5 Conclusiones En (17) el sujeto enfático 'Luisa' está En este trabajo se realiza un análisis dislocado en posición postverbal y es el foco de comparativo de cinco guías de anotación de la la negación, por lo tanto, el sujeto debe negación en español en el marco de la Tarea 1 incluirse en el ámbito de la negación. del taller NEGES-2018. El análisis parte de la distinción inicial entre corpus pertenecientes al Coordinación: dominio biomédico (textos semiestructurados) En el estudio comparativo de las guías, se y corpus de dominio temático más general detectan dos enfoques para el tratamiento de la como son la noticias y las reseñas de productos, negación coordinada: a) considerar un único porqué las características del dominio marcador de negación (el primero en el texto) y condicionan la estructura discursiva de los el resto de la estructura de negación como textos y la manera de expresar la negación y, en scope, incluyendo los subsiguientes consecuencia, también los criterios de anotación marcadores; y b) distinguir un scope para cada aplicados. Se comparan las distintas propuestas marcador de negación coordinado. En SFU- para la anotación de los aspectos básicos ReviewSP-NEG se contemplan ambas tratados en las diferentes guías y se proponen anotaciones, reservando la primera para unas directrices (recomendaciones) para la sintagmas coordinados afectados por un mismo anotación de la negación en español. Las predicado y marcador de negación (13) y la recomendaciones incluyen: 1) la anotación de segunda para estructuras coordinadas con los marcadores de negación, distinguiendo entre marcadores y predicados independientes (12). marcadores simples y complejos; 2) la anotación del scope o ámbito de la negación, Locuciones incluyendo el sujeto dentro del ámbito; 3) el En lo que respecta a locuciones, tratamiento de la negación coordinada; 4) la consideramos apropiada la anotación de anotación de las locuciones negativas (aunque locuciones que expresan negación, contengan o no contengan marcadores explícitos de no (18) marcadores explícitos de negación, ya negación) y 5) la anotación de la negación que en la lengua se da una variedad importante léxica y morfológica. También sería muy de las mismas y su valor funcional es de recomendable la anotación del foco de la negación. En SFU-ReviewSP-NEG se marcan negación, que no se trata en ninguna de las también los marcadores de negación que en guías analizadas. determinados contextos no tienen un valor funcional de negación (19). Agradecimientos (18) En su vida ha hecho una reserva con Este trabajo ha sido posible gracias al proyecto tanta antelación. TIN2015-71147-C2-2 del Ministerio de (19) No pienso irme hasta que no vengas. Economía y Competitividad y a la Generalitat de Catalunya (2017 SGR 3419). En el ejemplo (19), el segundo ‘no’ tiene un valor puramente retórico. Bibliografía Cruz, N., R. Morante, M.J. Maña-López, J. Negación léxica y morfológica Mata-Vázquez y C. L. Parra-Calderón. 2017. Consideramos también importante Annotating negation in Spanish Clinical identificar la negación léxica y morfológica. Texts. Proceedings of the Workshop Son pocos los corpus que incluyen esta Computational Semantics Beyond Events información. En este análisis, sólo se ha and Roles, (SemBEaR), páginas 53-58, aplicado a los corpus UHU-HUVR e IULA- Valencia, Spain. 2 En el ejemplo (17) utilizamos la cursiva para marcar el foco de la negación. 27 Guzzi, E., M.A. Martí, M. Nofre y M. Taulé. the case of Bioscope might (not) reveal. 2018. Guidelines for the annotation of Proceedings of the Workshop on Negation negation in Spanish, UB, Barcelona. and Speculation in NLP, ACL páginas 28- 31. Jiménez-Zafra, S. M., M. Taulé, M. T. Martín- Valdivia, L. A. Ureña López y M. A. Martí. 2018a. SFU ReviewSP-NEG: a Spanish corpus annotated with negation for sentiment analysis. A typology of negation patterns. Language, Resources and Evaluation, 52 (2): 533-569. Jiménez-Zafra, S. M., N. P. Cruz-Díaz, R. Morante y M. T. Martín-Valdivia. 2018b. Resumen de la Tarea 1 del Taller NEGES 2018: Guías de Anotación. Proceedings of NEGES 2018: Workshop on Negation in Spanish, volumen 2174, páginas 15-21. Konstantinova, N., S. C.M. de Sousa, N.P. Cruz, M.J. Maña, M. Taboada y R. Mitkov. 2012. A review corpus annotated for negation, speculation and their scope. Proceedings of LREC 2012. Turquía. Marimon, M., J. Vivaldi y N. Bel. 2017. Annotation of negation in the IULA Spanish Clinical Record corpus. Proceedings of the Workshop Computational Semantics Beyond Events and Roles, (SemBEaR), páginas 43- 52, Valencia, Spain. Morante, R. y C. Sporleder. 2012. Modality and Negation: An introduction to the special issue. Computational Linguistics 38 (2): 223-260. Moreno-Sandoval A. y M. Garrote-Salazar. 2013. La anotación de la negación en un corpus escrito etiquetado sintácticamente. Revista Iberoamericana de Lingüística 8: 45-60, Valladolid, España. Oronoz, M., K. Gojenola, A. Pérez, A. Díaz de Ilarraza y A. Casillas. 2015. On the creation of a clinical gold standard corpus in Spanish: Mining adverse drug reactions. Journal of Biomedical Informatics, 56: 318-332. Elsevier. Szarvas, G., V. Vincze, R. Farkas y J. Csirik. 2008. The Bioscope corpus: annotation for negation, uncertainty and their scope in biomedical texts. BioNLP 2008: Current Trends in Biomedical Natural Language Processing, páginas 38-45. Columbus, Ohio. (USA) Vincze, V. 2010. Speculation and negation annotation in Natural Language Texts: What 28