Reconocimiento y Clasicación de Entidades Nombradas independiente de la lengua y el dominio mediante perles Language and Domain Independent Named Entity Recognition and Classication through Proles Isabel Moreno Departamento de Lenguajes y Sistemas Informáticos Universidad de Alicante Apdo. de correos, 99 E-03080 Alicante imoreno@dlsi.ua.es Resumen: El reconocimiento y la clasicación de entidades nombradas (RCEN) es clave para muchas aplicaciones de procesamiento de lenguaje natural. Sin embargo, la adaptación de un sistema RCEN suele resultar costosa, ya que la mayoría solo fun- cionan adecuadamente en el escenario para el que fueron desarrollados. Por tanto, el objetivo principal de esta tesis es la investigación, análisis y desarrollo de un sistema adaptable, llamado CARMEN, para el RCEN mediante perles y aprendizaje auto- mático supervisado. La atención se centrará en que CARMEN sea independiente del dominio y la lengua para, con el mismo método, conseguir resultados similares sin importar el corpus de entrenamiento utilizado. Palabras clave: Entidad nombrada, Perles, Aprendizaje automático, Dominio in- dependiente, Lengua independiente Abstract: Named Entity Recognition and Classication (NERC) is a prerequisite to many natural language processing applications. Nevertheless, the adaptation of NERC systems is usually expensive given that most of them only work appropriately on the scenario for which they were created. Therefore, the main purpose of this thesis is to research, analyse and develop an adaptable system, named CARMEN, for NERC through proles and supervised machine learning. Attention would be focused on CARMEN being domain and language independent so as to achieve similar results, using the same method, regardless of the training corpus utilised. Keywords: Named entity, Proles, Machine learning, Domain independent, Language independent 1 Motivación Una de las tareas que lleva a cabo la EI es el Reconocimiento y la Clasicación de Enti- Desde hace tiempo estamos en la era de dades Nombradas (RCEN) (Nadeau y Sekine, la información digital y, aunque esta crece 2007; Marrero et al., 2013), que tiene dos ob- sin descanso, nuestra habilidad para explo- jetivos diferenciados. Primero, identicar las tarla y procesarla continúa constante (Ben- menciones de nombres propios en un texto, dov y Feldman, 2010). Desde esta perspec- lo que se conoce como la fase de reconoci- tiva, el Procesamiento del Lenguaje Natu- miento (REN). Segundo, asignar una catego- ral (PLN) investiga y formula mecanismos ría, de entre un conjunto predeterminado, a computacionales para facilitar la interrelación cada una de las entidades previamente reco- hombre-máquina por medio del lenguaje na- nocidas, llamada fase de clasicación (CEN). tural, en lugar de otros lenguajes más forma- Ambos objetivos pueden abordarse de mane- les y restrictivos, sin perder efectividad (Ma- ra conjunta o separada. naris, 1998; Moreno et al., 1999). Más concre- tamente, las técnicas de Extracción de Infor- Los sistemas RCEN juegan un papel im- mación (EI) procesan texto para detectar la portante en muchas aplicaciones que procesan información textual explícita de interés y con- información textual. La razón es que el RCEN vertirla a un formato fácilmente comprensible es un prerrequisito para diversas tareas como: por las máquinas, también conocido como es- la minería de opiniones (Ding, Liu, y Zhang, tructurado (Ben-dov y Feldman, 2010). 2009; Jin, Hay Ho, y Srihari, 2009), la gene- ración automática de resúmenes (Fuentes y ta conferencia Message Understanding Con- Rodríguez, 2002; Alcón y Lloret, 2015), la ge- ference (MUC). En ella el objetivo era la neración de lenguaje natural (Vicente y Llo- RCEN de personas, organizaciones, lugares ret, 2016), los sistemas de búsqueda de res- así como expresiones numéricas de tiempo y puestas (Peregrino, Tomás, y Pascual, 2012; cantidad (Grishman y Sundheim, 1996). Des- Lee, Hwang, y Jang, 2007; Lee et al., 2006) de entonces, diversos foros de PLN han se- o los sistemas de recuperación de informa- guido sus pasos, promocionando tareas pa- ción (Guo et al., 2009; Chen, Ding, y Tsai, ra evaluar sistemas RCEN (Tjong Kim Sang, 1998), entre otras aplicaciones. 2002; Sang y De Meulder, 2003; Uzuner, Solti, A pesar de que los sistemas RCEN son de y Cadag, 2010; Segura-Bedmar, Martnez, y uso común, su utilización no siempre es di- Herrero-Zazo, 2013; Ji, Nothman, y Hachey, recta. La mayoría de sistemas RCEN fueron 2014; Pradhan et al., 2014; Elhadad et al., desarrollados ad-hoc para un dominio 1 con- 2015; Ji, Nothman, y Hachey, 2015). creto, con requisitos especícos y, a su vez, Se observan dos patrones en el foco de un conjunto reducido de tipos de entidades de las mismas: (i) un dominio y múltiples idio- interés en ese dominio. Como resultado, cuan- mas (Tjong Kim Sang, 2002; Sang y De Meul- do se quiere portar una herramienta RCEN a der, 2003; Ji, Nothman, y Hachey, 2014; Ji, otro dominio, con otros requisitos y un con- Nothman, y Hachey, 2015); o (ii) un dominio junto diferente de entidades, se requiere un restringido y un solo idioma (Uzuner, Solti, esfuerzo considerable para que funcione ade- y Cadag, 2010; Segura-Bedmar, Martnez, y cuadamente (Marrero et al., 2013). Herrero-Zazo, 2013; Pradhan et al., 2014; El- Además, el RCEN está condicionado por hadad et al., 2015). la lengua para la que se desarrollan los sis- Un ejemplo del primer caso lo encontra- temas. La mayoría de herramientas se cons- mos en la conferencia CoNLL, donde se orga- truyen para un corpus especíco y, como con- nizaron dos competiciones (Tjong Kim Sang, secuencia, existe una dependencia de la len- 2002; Sang y De Meulder, 2003) para tratar el gua de dicho corpus. La adaptación de un RCEN en noticias de periódicos en inglés, ho- RCEN a un nuevo idioma no siempre es posi- landés, castellano y alemán. En ambas edicio- ble por tres razones principales: (i) estos siste- nes, los sistemas obtuvieron diferentes resul- mas RCEN suelen necesitar de herramientas tados en cada idioma. Por ejemplo, el mejor de análisis lingüístico que no siempre están sistema de cada edición tuvo una diferencia disponibles para todos los idiomas (Indurkh- de al menos 15 puntos en la F1 global, por ya, 2014); (ii) el RCEN depende comúnmente lo que es discutible que sean completamen- de otros recursos (como diccionarios) que va- te independientes del idioma. Más reciente- rían entre lenguas (Marrero et al., 2013), si es mente se han investigado otras aproximacio- que existen; y (iii) cada idioma supone retos nes RCEN multilingües (Konkol et al., 2015; diferentes que pueden afectar al rendimiento Agerri y Rigau, 2016), donde también se ob- del RCEN, como se observó en (Tjong Kim servan diferentes resultados en cada uno de Sang, 2002; Sang y De Meulder, 2003). los idiomas (aproximadamente 15 puntos de Por ello, el presente proyecto de tesis se F1 global). centrará en analizar, proponer y desarrollar Respecto al último caso, un ejemplo de un sistema RCEN, llamado CARMEN, basa- competición centrada en un dominio res- do en perles que empleará aprendizaje au- tringido y un idioma es el DDIExtraction tomático supervisado. Se buscará que dicho 2013 (Segura-Bedmar, Martnez, y Herrero- sistema sea independiente del dominio y de la Zazo, 2013), organizado dentro del taller in- lengua para, con el mismo método, conseguir ternacional SemEval. Uno de sus objetivos resultados similares sin importar el corpus de principales es el RCEN en dos fuentes médi- entrenamiento utilizado. cas de información textual (DrugBank y Med- 2 Trabajo relacionado Line). También en este caso los participan- tes obtuvieron resultados diferentes según la Hace más de dos décadas que fue acuñado el fuente (al menos 20 puntos en la F1 global). término Entidad Nombrada (EN) en la sex- Fuera de estos marcos de evaluación y 1 la multilingualidad, Tkachenko y Simanovsky En esta tesis se entiende por dominio al tópico o área de interés de un corpus, como pueden ser el (2012) diseñan un RCEN y experimentan con dominio médico o el educativo. varios géneros textuales presentes en el corpus OntoNotes. Kitoogo y Baryamureeba (2008) RCEN en este dominio, así como evaluar denen un RCEN que se probó en dos domi- la calidad del recurso generado. nios (general y legislativo): entrenando en el O3 Diseñar e implementar nuevas técnicas dominio general (Sang y De Meulder, 2003) y de RCEN que permitan solventar alguna evaluando en el legislativo, y viceversa. Am- de las limitaciones de las aproximaciones bos trabajos obtienen una diferencia de al me- encontradas en el estado de la cuestión: nos 20 puntos en la F1 global cuando cambian de dominio o género. O3.1 diseñar nuevas técnicas de REN, Aunque vemos que se han hecho progresos O3.2 diseñar nuevas técnicas de CEN, y considerables en el RCEN, los resultados de O3.3 diseñar nuevas técnicas de desambi- las investigaciones ponen de maniesto que guación de entidades con respecto a los sistemas no han mostrado un rendimiento bases de conocimiento y las relacio- óptimo cuando cambia el idioma o el dominio, nes entre las mismas. así como la fuente o el género textual. O4 Diseñar y analizar experimentos para 3 Propuesta de investigación evaluar el resultado del objetivo O3, en al menos dos dominios y dos lenguas, reali- Dado este panorama general, esta tesis doc- zando para ello una evaluación intrínseca toral plantea como objetivo la investigación, y extrínseca, basada en métodos cuanti- análisis y desarrollo de un sistema adaptable para el RCEN, llamado CARMEN. La aten- tativos y cualitativos. ción se centrará, sobre todo, en que CAR- MEN proporcione salidas consistentes aun 4 Metodología y experimentos cuando cambie el dominio o la fuente o el gé- Con el n de demostrar la hipótesis y los obje- nero o el idioma del corpus de entrenamiento. tivos presentados en la sección anterior, hasta ahora hemos llevado a cabo tres grandes ta- Por tanto, la hipótesis de partida es que reas: el desarrollo de un sistema RCEN basado en Primero, la creación del corpus DrugSe- perles con aprendizaje automático, redun- mantics para el RCEN en el dominio farmaco- da en herramientas con mínima adaptación, terapéutico ha concluido con la creación de un evitando las diferencias observadas en los re- sultados actuales en relación a dependencias gold standard, siguiendo la metodología des- crita en (Moreno et al., 2017). del dominio o de la lengua. En cuanto a la Segundo, la implementación de un RCEN, dependencia del dominio, concretamente, nos llamado MaNER, basado en lexicones especí- planteamos el estudio de nuestra aproxima- cos del dominio médico (Moreno, Moreda, y ción en al menos dos dominios: (i) general, Romá-Ferri, 2012; Moreno, Moreda, y Romá- que representa necesidades de información co- Ferri, 2015; Moreno, Moreda, y Romá-Ferri, munes; y (ii) farmacoterapéutico, que repre- 2015; Moreno et al., 2017), que sirvió de apo- senta necesidades de información especícas durante la atención sanitaria. Ambos domi- yo en la construcción de un gold standard de calidad. nios son altamente representativos en cuanto Tercero, el desarrollo del módulo CEN ba- a géneros textuales, idiomas y entidades nom- sado en perles del sistema CARMEN, que bradas. Por tanto, estos dominios permiten emplea aprendizaje automático supervisado denir un escenario de evaluación apropiado y cuyas características incluyen información para conrmar nuestra hipótesis y denir ob- local a la entidad (ajos, longitud y la pro- jetivos especícos: pia entidad) así como información de contex- O1 Realizar un estado de la cuestión, siste- to en una ventana. El contexto se consigue mático y exhaustivo, para detectar las li- mediante perles generados para cada una de mitaciones tanto de las aproximaciones las entidades. Los resultados de diversos expe- para RCEN como de los corpus existen- rimentos nos han permitido estudiar diferen- tes, al menos, en dos dominios: general y tes parámetros en corpus de diferentes domi- farmacoterapéutico. nios (Moreno, Romá-Ferri, y Moreda, 2017d), así como su rendimiento (Moreno, Moreda, O2 Analizar las entidades nombradas rele- y Romá-Ferri, 2016; Moreno, Romá-Ferri, y vantes en el dominio farmacoterapéuti- Moreda, 2017b; Moreno, Romá-Ferri, y More- co y crear un corpus en español para el da, 2017c). Además, estamos experimentan- do en varios idiomas (Moreno, Romá-Ferri, y Ding, X., B. Liu, y L. Zhang. 2009. Entity Moreda, 2017a). Discovery and Assignment for Opinion Mi- ning Applications. En Proceedings of the 15th 5 Elementos especícos para ACM SIGKDD international conference on Knowledge discovery and data mining, pági- discusión nas 11251134. Siendo el RCEN un tema de gran interés en Elhadad, N., S. Pradhan, S. L. Gorman, S. Ma- el PLN, queremos intercambiar experiencias nandhar, W. W. Chapman, y G. Savova. 2015. para orientar nuestra investigación. SemEval-2015 Task 14 : Analysis of Clini- En concreto, son dos los intereses a deba- cal Text. Proceedings of the 9th Internatio- tir: nal Workshop on Semantic Evaluation, pági- nas 303310. nuestra próxima tarea, la REN, así co- Fuentes, M. y H. Rodríguez. 2002. Using cohesi- mo las diferentes técnicas, características ve properties of text for automatic summariza- y herramientas que permitirían construir tion. En Actas de las Jornadas de tratamiento este módulo independiente del dominio y y recuperación de la información (Jotri'2002). la lengua. Grishman, R. y B. Sundheim. 1996. Message un- derstanding conference-6: A brief history. En posibles escenarios y experimentos que Proceedings of the 16th Conference on Compu- nos permitan reforzar nuestra hipótesis. tational Linguistics - Volume 1, COLING '96, páginas 466471, Stroudsburg, PA, USA. As- Agradecimientos sociation for Computational Linguistics. Esta investigación ha sido nanciada Guo, J., G. Xu, X. Cheng, y H. Li. 2009. Named parcialmente por el Gobierno Español Entity Recognition in Query. En Proceedings (TIN2015-65100-R y TIN2015-65136-C2- of the 32nd international ACM SIGIR con- 2-R), la Generalitat Valenciana (PRO- ference on Research and development in in- METEOII/2014/001), la Universidad de formation retrieval, páginas 267274, Boston, Massachusetts, USA. Alicante (GRE16-01: Plataforma inteligente para recuperación, análisis y representación Indurkhya, N. 2014. Natural Language Pro- de la información generada por usuarios en cessing. En T. Gonzalez J. Díaz-Herrera, y A. Tucker, editores, Computing Handbook, Internet) y las Ayudas Fundación BBVA Third Edition: Computer Science and Softwa- a equipos de investigación cientíca 2016 re Engineering. CRC Press, capítulo 40, pági- (ASAP - Análisis de Sentimientos Aplicado nas 40:117. a la Prevención del Suicidio en las Redes Ji, H., J. Nothman, y B. Hachey. 2014. Overview Sociales). of TAC-KBP2014 Entity Discovery and Lin- king Tasks. En Proceedings of Text Analysis Bibliografía Conference. Agerri, R. y G. Rigau. 2016. Robust multilin- Ji, H., J. Nothman, y B. Hachey. 2015. Overview gual Named Entity Recognition with shallow of TAC-KBP2015 Entity Discovery and Lin- semi-supervised features. Articial Intelligen- king Tasks. En Proceedings of Text Analysis ce, 238:6382. Conference 2015. Alcón, Ó. y E. Lloret. 2015. Estudio de la Jin, W., H. Hay Ho, y R. K. Srihari. 2009. Opi- inuencia de incorporar conocimiento léxico- nionMiner: A Novel Machine Learning System semántico a la técnica de Análisis de Compo- for Web Opinion Mining and Extraction. En nentes Principales para la generación de re- Proceedings of the 15th ACM SIGKDD inter- súmenes multilingües. Linguamática, 7(1):53 national conference on Knowledge discovery 63, Julio. and data mining, páginas 11951204, Paris, Ben-dov, M. y R. Feldman. 2010. Text Mining France. and Information Extraction. En O. Maimon y Kitoogo, F. y V. Baryamureeba. 2008. To- L. Rokach, editores, Data Mining and Know- wards domain independent named entity re- ledge Discovery Handbook. Springer US, Bos- cognition. En Strengthening the Role of ICT ton, MA, 2nd edición, capítulo 42, páginas in Development, volumen IV. Fountain publis- 809835. hers, páginas 84  95. Chen, H., Y. Ding, y S. Tsai. 1998. Named Konkol, M., T. Brychcín, Konopí, y M. K. 2015. Entity Extraction for Information Retrieval. Latent semantics in Named Entity Recog- En COMPUTER PROCESSING OF ORIEN- nition. Expert Systems with Applications, TAL LANGUAGES, volumen 11. 42(7):34703479. Lee, C., Y.-G. Hwang, y M.-G. Jang. 2007. Moreno, I., M. T. Romá-Ferri, y P. Moreda. Fine-Grained Named Entity Recognition and 2017b. Named entity classication based on Relation Extraction for Question Answering. proles: A domain independent approach. En En Proceedings of the 30th annual internatio- 22nd International Conference on Applica- nal ACM SIGIR conference on Research and tions of Natural Language to Information Sys- development in information retrieval, páginas tems, volumen 10260 de LNCS, páginas 142 799800, Amsterdam, The Netherlands. 146, Lieja. Springer. Lee, C.-H., Y. G. Hwang, H. J. Oh, S. Lim, Moreno, I., M. T. Romá-Ferri, y P. Moreda. J. Heo, C. H. Lee, H. J. Kim, J. H. Wang, 2017c. Propuesta de un sistema de clasi- y M. G. Jang. 2006. Fine-grained Named cación de entidades basado en perles e in- Entity Recognition using Conditional Random dependiente del dominio. Procesamiento del Fields for Question Answering. En Informa- Lenguaje Natural, 59. tion Retrieval Technololgy, Proceedings, volu- Moreno, I., M. Romá-Ferri, y P. Moreda. 2017d. men 4182. Springer, Berlin, Heidelberg, pági- A domain and language independent named nas 581587. entity classication approach based on proles Manaris, B. 1998. Natural Language Processing: and local information. En Recent Advances A Human-Computer Interaction Perspective. in Natural Language Processing, páginas 510 En Advances in Computers, volumen 47. pá- 518, Varna (To appear). ginas 166. Moreno, L., M. Palomar, A. Molina, y A. Fernán- Marrero, M., J. Urbano, S. Sánchez-Cuadrado, dez. 1999. Introducción al procesamiento del J. Morato, y J. M. Gómez-Berbís. 2013. Na- lenguaje natural. Publicaciones Universidad med Entity Recognition: Fallacies, challenges de Alicante. and opportunities. Computer Standards and Nadeau, D. y S. Sekine. 2007. A survey of named Interfaces, 35(5):482489. entity recognition and classication. Lingvis- Moreno, I., E. Boldrini, P. Moreda, y M. T. ticae Investigationes, 30(1):326, jan. Romá-Ferri. 2017. Drugsemantics: A corpus Peregrino, F. S., D. Tomás, y F. L. Pascual. 2012. for named entity recognition in spanish sum- Question Answering and Multi-search Engines maries of product characteristics. Journal of in Geo-Temporal Information Retrieval. En Biomedical Informatics, 72:8  22. A. Gelbukh, editor, Computational Linguistics Moreno, I., P. Moreda, y M. T. Romá-Ferri. 2016. and Intelligent Text Processing: 13th Interna- An active ingredients entity recogniser system tional Conference, CICLing 2012, New Delhi, based on proles. En 21st International Con- India, March 11-17, 2012, Proceedings, Part ference on Applications of Natural Langua- II. Springer, Berlin, Heidelberg, páginas 342 ge to Information Systems, volumen 9612 de 352. LNCS, páginas 276284, Salford. Springer. Pradhan, S., N. Elhadad, W. W. Chapman, Moreno, I., P. Moreda, y M. T. Romá-Ferri. 2015. S. Manandhar, y G. Savova. 2014. SemEval- Estudio de abilidad y viabilidad de la Web 2014 Task 7: Analysis of Clinical Text. pági- 2.0 y la Web semántica para enriquecer lexi- nas 5462. cones en el dominio farmacológico. Procesa- Sang, E. F. T. K. y F. De Meulder. 2003. In- miento del Lenguaje Natural, 55:6572. troduction to the CoNLL-2003 Shared Task: Moreno, I., P. Moreda, y M. Romá-Ferri. 2012. Language-Independent Named Entity Recog- Reconocimiento de entidades nombradas en nition. Proceedings of the 7th Conference on dominios restringidos. En Actas del III Natural Language Learning, páginas 142147. Workshop en Tecnologías de la Informática. Segura-Bedmar, I., P. Martnez, y M. Herrero- páginas 4157. Zazo. 2013. SemEval-2013 Task 9: Extrac- Moreno, I., P. Moreda, y M. Romá-Ferri. 2015. tion of Drug-Drug Interactions from Biome- MaNER: a MedicAl Named Entity Recogni- dical Texts (DDIExtraction 2013). En Pro- ser for Spanish. En 20th International Confe- ceedings of the 7th International Workshop on rence on Applications of Natural Language to Semantic Evaluation, páginas 341350. Information Systems, volumen 9103 de LNCS, Tjong Kim Sang, E. F. 2002. Introduction to the páginas 418423, Passau. Springer. CoNLL-2002 shared task. En Proceeding of Moreno, I., M. T. Romá-Ferri, y P. Moreda. the 6th Conference on Natural Language Lear- 2017a. Language independent proposal to ning. prole-based named entity classication. En Tkachenko, M. y A. Simanovsky. 2012. Selec- The First Workshop on Multi-Language Pro- ting Features for Domain-Independent Named cessing in a Globalising World, páginas 2130, Entity Recognition. En Proceedings of KON- Dublin. VENS 2012, páginas 248253. Uzuner, O., I. Solti, y E. Cadag. 2010. Extrac- ting medication information from clinical text. Journal of the American Medical Informatics Association, 17(5):5148. Vicente, M. y E. Lloret. 2016. Exploring Fle- xibility in Natural Language Generation th- roughout Discursive Analysis of New Textual Genres. Proceedings of the 2nd Internatio- nal Workshop Future and Emerging Trends in Language Technologies, Machine Learning and Big Data (FETLT).