=Paper=
{{Paper
|id=Vol-2251/paper6
|storemode=property
|title=
Integración de conocimiento para la mejora de sistemas de recuperación de información
(Knowledge integration for improving information retrieval systems)
|pdfUrl=https://ceur-ws.org/Vol-2251/paper6.pdf
|volume=Vol-2251
|authors=Pilar López Úbeda
}}
==
Integración de conocimiento para la mejora de sistemas de recuperación de información
(Knowledge integration for improving information retrieval systems)
==
Integración de Conocimiento para la Mejora de Sistemas de Recuperación de Información Knowledge Integration for Improving Information Retrieval Systems Pilar López Úbeda Sinai Group Universidad de Jaén Campus Las Lagunillas s/n. E-23071 plubeda@ujaen.es Resumen: Con el paso del tiempo, está tomando más importancia el intercambio y manejo de la información, sobre todo el ámbito biomédico, pues estos documentos contienen información relevante sobre sı́ntomas, enfermedades, alergias, etc. Por ello, se necesitan sistemas para poder tratar dicha información de manera adecuada. Este trabajo se enmarca dentro del área del Procesamiento del Lenguaje Natural en lengua española, concretamente, aborda el estudio de tareas tan importantes dentro de los Sistemas de Recuperación de Información, como son el Reconocimiento de Entidades Nombradas o la integración de conocimiento desde fuentes externas. En nuestro caso, propondremos identificar y clasificar elementos en un informe clı́nico estudiando diccionarios y ontologı́as en el dominio biomédico y diferentes idiomas, algoritmos y recursos existentes. Finalmente, crearemos nuevos sistemas para posteriormente probarlos y ponerlos a disposición de la comunidad cientı́fica. Palabras clave: Recuperación de información, reconocimiento de entidades, UMLS, SNOMED-CT, ICD10, cTAKES, MetaMap, aprendizaje automático Abstract: Over time, the exchange and management of information is becoming more important, especially in the biomedical field. These documents contain relevant information on symptoms, diseases, allergies, etc. For this reason, we need systems to be able to process this information properly. This work is framed within the area of Natural Language Processing in Spanish language, specifically, the study of a very important task within the Information Retrieval Systems, such as the Named Entities Recognition and the knowledege integration from external sources. In our case, we will propose the identification and classification of medical concepts in clinical reports by studying dictionaries and ontologies in the biomedical domain and different languages, algorithms and existing resources. Finally, we will create new systems to later test them and make them available to the scientific community. Keywords: Information retrieval, entity recognition, UMLS, SNOMED-CT, ICD10, cTAKES, MetaMap, machine learning 1 Introducción que faciliten el acceso y recuperación de datos, de ahı́ nacen los llamados sistemas Unos de los retos tecnológicos que se de recuperación de información. Un Sistema plantean en esta tesis es la exploración de Recuperación de Información (SRI) se de la Web Semántica haciendo uso de puede definir como un proceso capaz de herramientas y recursos de Procesamiento almacenar, recuperar y mantener información del Lenguaje Natural (PLN). El objetivo (Kowalski, 2007). Estos sistemas amplı́an es entender automáticamente el lenguaje el espectro de cobertura en la búsqueda humano apoyándonos en la inteligencia a partir de bases de datos documentales, artificial. Se centrará concretamente en la además de poder incorporar diversos métodos búsqueda y recuperación de información para para el ordenamiento de los documentos que poder obtener respuestas completas, correctas mejoren la relevancia de los resultados para y oportunas a las necesidades de información el usuario. Dentro de los SRI la gestión de los usuarios. de informes médicos está obteniendo gran Se hace necesario el uso de herramientas Lloret, E.; Saquete, E.; Martı́nez-Barco, P.; Moreno, I. (eds.) Proceedings of the Doctoral Symposium of the XXXIV International Conference of the Spanish Society for Natural Language Processing (SEPLN 2018), p. 31–36 Sevilla, Spain, September 19th 2018. Copyright c 2018 by the paper’s authors. Copying permitted for private and academic purposes. importancia, pues los datos contenidos en desarrolladas. dichos informes son relevantes tanto para los enfermos como para los especialistas en 2 Origen y trabajo relacionado medicina. Los informes clı́nicos contienen En los últimos años, las ontologı́as han información sobre el paciente, medicación, desempeñado un papel importante en el resultados de análisis, diagnósticos, dosis, campo biomédico (Rubin, Shah, y Noy, etc. Manteniendo esa información digitalizada 2007). Se han utilizado ontologı́as de dominio obtenemos grandes ventajas, se reduce el biomédico para la anotación de datos, la tiempo de trabajo del personal de salud y se integración de información, el descubrimiento mejora la calidad de la atención entre otros. de conocimientos y otras aplicaciones. El cumplimiento de ciertas normas Existe una gran cantidad de ontologı́as en necesarias para desarrollar de manera este ámbito y muchas de ellas estrechamente coherente la recuperación de contenidos relacionadas, por lo tanto, las calidades web supone la creación de ontologı́as de dichas ontologı́a pueden variar mucho. sobre el dominio o área de conocimiento Encontramos investigaciones interesantes y especı́fico. “Una Ontologı́a define los de diversa ı́ndole sobre las ontologı́as más términos básicos y las relaciones entre ellos comúnmente utilizadas como: SNOMED-CT de un tema en concreto como también la (Stearns et al., 2001; Patrick, Wang, y Budd, reglas para combinarlos y extender otros 2007), UMLS (Bodenreider, 2004; Huang et términos y relaciones del vocabulario” al., 2005; Brennan y Aronson, 2003) y CIE-10 (Neches et al., 1991). Gruber (1995) (Névéol et al., 2017). también aportó conocimiento en base a En cuanto a los trabajos relacionados con las ontologı́as para obtener conocimiento el reconocimiento de entidades médicas en a partir de ellas y compartirlo “se puede inglés, encontramos sistemas de detección considerar una ontologı́a como un sistema de automática, como son MetaMap y cTAKES, representación del conocimiento en un ámbito ambos se encuentran disponibles y permiten especı́fico que puede organizarse en forma descubrir entidades médicas en texto e jerárquica para facilitar la representación identificarlas como conceptos ontológicos. y comprensión del conocimiento”. En MetaMap es creado por investigadores de este trabajo estudiaremos el diccionario la National Library of Medicine (NLM) y es ICD10 (International Classification of capaz de identificar los conceptos biomédicos Diseases) y las ontologı́as UMLS (Unified de textos no estructurados y los mapea en los Medical Language System) y SNOMED-CT conceptos de UMLS Metathesaurus (Aronson, (Systematized Nomenclature of Medicine – 2001), por otro lado, Apache cTAKES Clinical Terms) para resolver los problemas (Apache Clinical Text Analysis and Knowledge antes mencionados. Extraction System) (Savova et al., 2010) es Para llegar a obtener documentos que un sistema de procesamiento de lenguaje satisfagan las necesidades del usuario en los natural para extracción de información en SRI, haremos uso de diferentes subtareas texto clı́nico. Rodrı́guez González et al. como la identificación de términos o la (2015) realiza una comparativa entre las dos clasificación, donde ellos se convierten en herramientas sobre MedLinePlus 1 . la clave para acceder a documentación Existen otras alternativas para el inglés, bibliográfica y literatura relacionada. El como MedLEE (Medical Language Extraction objetivo del Reconocimiento de Entidades and Encoding System) originalmente Nombradas (NER Named Entity Recognition desarrollado para radiologı́a y posteriormente por sus siglas en inglés) es identificar en un extendido a otros subdominios. BioPortal texto menciones de elementos pertenecientes (Noy et al., 2009; Zheng et al., 2018) del a una determinada clase de conceptos. NCBO (National Center for Biomedical Aunque el trabajo está centrado en el Ontologies) representa mapeos entre términos dominio biomédico, la idea principal es de diferentes ontologı́as, actualmente crear técnicas y algoritmos lo suficientemente incorpora más de 600 ontologı́as. flexibles para ser aplicados a distintos ámbitos En cuanto al idioma español existen menos con éxito. La mayor dificultad radicarı́a herramientas disponibles, si bien podemos en encontrar recursos de calidad para el 1 dominio donde se quieran aplicar las técnicas https://medlineplus.gov/ 32 encontrar algunos ejemplos como la versión En la Task 1, Multilingual Information en español de MetaMap (Carrero, Cortizo, y Extraction - ICD10 coding (Névéol et Gómez, 2008) y Freeling-Med (Oronoz et al., al., 2018) del CLEF eHealth, el principal 2013). objetivo es crear un sistema basado en técnicas de PLN para la detección de códigos 3 Investigación propuesta ICD10 utilizando diferentes algoritmos de aprendizaje automático. Primero, Este trabajo de tesis se encuentra en fase de encontramos todos los posibles códigos ICD10 desarrollo y adaptación de recursos existentes. mencionados en el texto y a continuación, Por lo que a lo largo de este año se han creamos varias medidas para tratar el ido siguiendo una serie de hitos marcados texto del concepto identificado. Con estas por los actuales talleres y competiciones que métricas entrenamos diferentes algoritmos de existen dentro del dominio médico como son aprendizaje automático y elegimos el mejor los talleres TASS e IberEval que se celebran modelo a utilizar en nuestro sistema. en el marco del congreso de la Sociedad Española para el Procesamiento del Lenguaje Natural (SEPLN), el foro CLEF eHealth Un reto marcado por el taller DIANN y la competición TREC; con todos ellos (Disability annotation on documents from the pretendemos desarrollar nuestros sistemas, biomedical domain) incluı́do en la SEPLN evaluarlos y crear una comparativa para seguir ha sido el anotar discapacidades encontradas avanzando. en un texto. Se trata como reto porque En cuanto a reconocimiento de entidades las herramientas para la detección de médicas en español, se ha diseñado una entidades nombradas en el ámbito biomédico herramienta propia para la detección de no consideran las discapacidades como un términos biomédicos en un texto llamada concepto distintivo, sino como cualquier otro BSB2 (Buscador Semántico Biomédico) signo. Por lo tanto, no permiten distinguir (López-Úbeda et al., 2018c). Las bases una discapacidad, generalmente una condición de conocimiento usadas en el reconocedor permanente, de otros signos asociados a son UMLS, SNOMED e ICD10, todas en enfermedades. Para esta tarea utilizamos ellas en español. La herramienta utiliza la nuestro sistema BSB para los textos en biblioteca NLTK (Natural Language Toolkit) español y MetaMap con UMLS para el desarrollada en el lenguaje de programación inglés y pudimos ver las diferencias existentes. Python y el analizador sintáctico incluido Además, para el español, incorporamos una en la herramienta CoreNLP en español nueva fuente de conocimiento basada en siglas (Manning et al., 2014) para obtener una que incluı́a terminologı́a sobre discapacidades mayor precisión a la hora de identificar (López-Úbeda et al., 2018a). terminologı́a (lematización, desambiguación, palabras compuestas). Pretendemos modelar el lenguaje humano En cuanto a trabajos relacionados con la en escenarios de dominio biomédico para obtención de documentos relevantes en SRI que los documentos electrónicos puedan ser hemos participado en la Task3 - Consumer legibles por máquinas desde un punto de vista Health Search Task (Jimmy et al., 2018), semántico, para ello, participamos en la Task donde aplicamos la técnica de expansión 3. eHealth Knowledge Discovery del Taller de consultas utilizando el buscador Google. de Análisis Semántico de la SEPLN (TASS) Identificamos los conceptos médicos en los (López-Úbeda et al., 2018b). Con esta tarea resultados de Google utilizando cTAKES para pudimos crear un sistema donde identificar evitar introducir ruido en la consulta con todas las frases clave en un documento conceptos que no sean de dominio médico. Por escrito en español y asignar una etiqueta otro lado, en fase de desarrollo se encuentra (concepto o acción) a todas aquellas frases la participación en TREC Precision Medicine clave detectadas. Para ello, adaptamos la Track para 2018, basada en su anterior tarea herramienta desarrollada BSB. (Roberts et al., 2017) donde estamos aplicando Por otra parte, también hemos intentado técnicas de word embedding(Mikolov et al., estudiar otros idiomas como el francés. 2013) para expandir la consulta original con terminologı́a cercana a los conceptos más 2 http://sinai.ujaen.es/demo/bsb/ importantes de la consulta. 33 4 Metodologı́a propuesta 4. ¿Qué sistemas automáticos existen Para el desarrollo de esta tesis se propone la actualmente para identificar entidades siguiente metodologı́a a seguir: médicas en un texto? ¿Y especı́fico para el idioma español? 1. Estudio y revisión del estado del arte. 5. ¿Es necesario crear un reconocedor de Se comenzará con el estudio y análisis entidades médicas multilingüe? de la bibliografı́a existente sobre los sistemas de recuperación de información 6. Comparativa entre los NER en los utilizando la técnica de reconocimiento idiomas inglés y español. de entidades. Agradecimientos 2. Estudiar las diversas ontologı́as existentes tanto en español como en Este trabajo está parcialmente otros idiomas. subvencionado por el proyecto REDES (TIN2015-65136-C2-1-R) del MICINN del 3. Adaptar los recursos existentes para Gobierno de España. poder realizar un análisis de los métodos propuestos. Bibliografı́a 4. Desarrollo de recursos y herramientas Aronson, A. R. 2001. Effective mapping of propios para el análisis y la extracción biomedical text to the umls metathesaurus: de información en informes médicos. the metamap program. En Proceedings of American Medical Informatics Association, 5. Implementación de los sistemas que AMIA, página 17. American Medical permitan satisfacer las necesidades de Informatics Association. información de un usuario. Bodenreider, O. 2004. The unified medical 6. Experimentación y evaluación. Se language system (umls): integrating utilizarán los recursos generados para biomedical terminology. Nucleic Acids llevar a cabo la experimentación y Research, 32(suppl 1):D267–D270. posteriormente se procederá a la evaluación de los sistemas desarrollados, Brennan, P. F y Alan R Aronson. 2003. llevando a cabo una comparación de Towards linking patients and clinical los resultados obtenidos con los ya information: detecting umls concepts in existentes. Los resultados obtenidos se e-mail. Journal of Biomedical Informatics, pondrán a disposición de la comunidad 36(4-5):334–341. cientı́fica. Carrero, F, José Carlos Cortizo, y José Marı́a Gómez. 2008. Building a spanish 5 Elementos especı́ficos para mmtx by using automatic translation and discusión biomedical ontologies. En International La clasificación, anotación e identificación de Conference on Intelligent Data Engineering entidades es un tema de interés en el PLN y and Automated Learning, páginas 346–353. en los SRI, nuestra intención en este trabajo Springer. es discutir las siguientes aspectos para seguir profundizando en el estudio: Gruber, T. R. 1995. Toward principles for the design of ontologies used for knowledge 1. ¿Qué ontologı́as médicas son las más sharing? International Journal of utilizadas y por qué? Human-computer Studies, 43(5-6):907–928. 2. ¿Cuáles son los algoritmos y recursos Huang, Y, Henry J Lowe, Dan Klein, y para hacer búsquedas más aproximadas Russell J Cucina. 2005. Improved en los SRI? identification of noun phrases in clinical radiology reports using a high-performance 3. ¿Qué tipo de información de una statistical natural language parser ontologı́a puede mejorar un SRI? augmented with the umls specialist ¿Qué aporta esa información (precisión, lexicon. Journal of the American Medical cobertura, diversidad, etc.)? Informatics Association, 12(3):275–285. 34 Jimmy, Guido Zuccon, Joao Palotti, Lorraine Senator, y William R Swartout. 1991. Goeuriot, y Liadh Kelly. 2018. Overview Enabling technology for knowledge sharing. of the clef 2018 consumer health search AI magazine, 12(3):36. task. En CLEF 2018 Evaluation Labs Névéol, A, A Robert, F Grippo, C Morgand, and Workshop: Online Working Notes, C Orsi, L Pelikán, L Ramadier, G Rey, CEUR-WS. y P Zweigenbaum. 2018. Clef ehealth Kowalski, G. J. 2007. Information retrieval 2018 multilingual information extraction systems: theory and implementation, task overview: ICD10 coding of death volumen 1. Springer. certificates in french, hungarian and italian. En CLEF 2018 Evaluation Labs López-Úbeda, P, Manuel Carlos Dı́az Galiano, and Workshop: Online Working Notes, Marı́a Teresa Martı́n-Valdivia, y CEUR-WS. Salud Jiménez-Zafra. 2018a. Sinai at diann-ibereval 2018. annotating Névéol, A, Robert N Anderson, K Bretonnel disabilities in multi-language systems Cohen, Cyril Grouin, Thomas Lavergne, with umls. En Proceedings of the Third Grégoire Rey, Aude Robert, Claire Rondet, Workshop on Evaluation of Human y Pierre Zweigenbaum. 2017. Clef Language Technologies for Iberian ehealth 2017 multilingual information Languages (IberEval 2018). extraction task overview: ICD10 coding of death certificates in english and López-Úbeda, P, Manuel Carlos Dı́az-Galiano, french. En CLEF 2017 Evaluation Labs Marı́a Teresa Martı́n-Valdivia, y Luis and Workshop: Online Working Notes, Alfonso Ureña López. 2018b. SINAI en CEUR-WS, página 17. TASS 2018 task 3. clasificando acciones y conceptos con UMLS en medline Noy, N. F, Nigam H Shah, Patricia L Whetzel, (SINAI in TASS 2018 task 3. classifying Benjamin Dai, Michael Dorf, Nicholas actions and concepts with UMLS on Griffith, Clement Jonquet, Daniel L Rubin, medline). En Proceedings of TASS Margaret-Anne Storey, y Christopher G 2018: Workshop on Semantic Analysis at Chute. 2009. Bioportal: ontologies and SEPLN, TASS@SEPLN 2018, co-located integrated data resources at the click with 34nd SEPLN Conference (SEPLN of a mouse. Nucleic Acids Research, 2018), Sevilla, Spain, September 18th, 37(suppl 2):W170–W173. 2018, páginas 77–82. Oronoz, M, Arantza Casillas, Koldo Gojenola, López-Úbeda, P, Manuel Carlos Dı́az Galiano, y Alicia Perez. 2013. Automatic Arturo Montejo Ráez, Fernando annotation of medical records in spanish Martı́nez Santiago, Alberto Andreu-Marı́n, with disease, drug and substance names. Martı́n, Marı́a Teresa, y Luis Alfonso En Iberoamerican Congress on Pattern Ureña López. 2018c. Buscador semántico Recognition, páginas 536–543. Springer. biomédico. Procesamiento del Lenguaje Patrick, J, Yefeng Wang, y Peter Budd. Natural, 61:189–192. 2007. An automated system for conversion Manning, C, Mihai Surdeanu, John Bauer, of clinical notes into snomed clinical Jenny Finkel, Steven Bethard, y David terminology. En Proceedings of the McClosky. 2014. The stanford corenlp fifth Australasian symposium on ACSW natural language processing toolkit. En frontiers-Volume 68, páginas 219–226. Proceedings of 52nd annual meeting of the Australian Computer Society, Inc. Association for Computational Linguistics, Roberts, K, Dina Demner-Fushman, Ellen M ACL: system demonstrations, páginas Voorhees, William R Hersh, Steven 55–60. Bedrick, Alexander J Lazar, y Shubham Mikolov, T, Kai Chen, Greg Corrado, y Jeffrey Pant. 2017. Overview of the trec Dean. 2013. Efficient estimation of word 2017 precision medicine track. En representations in vector space. arXiv Text REtrieval Conference, TREC, preprint arXiv:1301.3781. Gaithersburg, MD. Neches, R, Richard E Fikes, Tim Finin, Rodrı́guez González, A, Roberto Thomas Gruber, Ramesh Patil, Ted Costumero Moreno, Marcos 35 Martı́nez Romero, Mark Denis Wilkinson, y Ernestina Menasalvas Ruiz. 2015. Extracting diagnostic knowledge from medline plus: a comparison between metamap and ctakes approaches. Current Bioinformatics, 375:1–7. Rubin, D. L, Nigam H Shah, y Natalya F Noy. 2007. Biomedical ontologies: a functional perspective. Briefings in Bioinformatics, 9(1):75–90. Savova, G. K, James J Masanz, Philip V Ogren, Jiaping Zheng, Sunghwan Sohn, Karin C Kipper-Schuler, y Christopher G Chute. 2010. Mayo clinical text analysis and knowledge extraction system (ctakes): architecture, component evaluation and applications. Journal of the American Medical Informatics Association, AMIA, 17(5):507–513. Stearns, M. Q, Colin Price, Kent A Spackman, y Amy Y Wang. 2001. Snomed clinical terms: overview of the development process and project status. En Proceedings of the AMIA Symposium, página 662. American Medical Informatics Association. Zheng, L, Yan Chen, Gai Elhanan, Yehoshua Perl, James Geller, y Christopher Ochs. 2018. Complex overlapping concepts: An effective auditing methodology for families of similarly structured bioportal ontologies. Journal of Biomedical Informatics, 83:135 – 149. 36