=Paper= {{Paper |id=Vol-2251/paper6 |storemode=property |title= Integración de conocimiento para la mejora de sistemas de recuperación de información (Knowledge integration for improving information retrieval systems) |pdfUrl=https://ceur-ws.org/Vol-2251/paper6.pdf |volume=Vol-2251 |authors=Pilar López Úbeda }} == Integración de conocimiento para la mejora de sistemas de recuperación de información (Knowledge integration for improving information retrieval systems) == https://ceur-ws.org/Vol-2251/paper6.pdf
    Integración de Conocimiento para la Mejora de Sistemas de
                    Recuperación de Información
    Knowledge Integration for Improving Information Retrieval Systems

                                       Pilar López Úbeda
                                            Sinai Group
                                        Universidad de Jaén
                                  Campus Las Lagunillas s/n. E-23071
                                         plubeda@ujaen.es

       Resumen: Con el paso del tiempo, está tomando más importancia el intercambio y
       manejo de la información, sobre todo el ámbito biomédico, pues estos documentos
       contienen información relevante sobre sı́ntomas, enfermedades, alergias, etc. Por ello,
       se necesitan sistemas para poder tratar dicha información de manera adecuada. Este
       trabajo se enmarca dentro del área del Procesamiento del Lenguaje Natural en lengua
       española, concretamente, aborda el estudio de tareas tan importantes dentro de los
       Sistemas de Recuperación de Información, como son el Reconocimiento de Entidades
       Nombradas o la integración de conocimiento desde fuentes externas. En nuestro caso,
       propondremos identificar y clasificar elementos en un informe clı́nico estudiando
       diccionarios y ontologı́as en el dominio biomédico y diferentes idiomas, algoritmos
       y recursos existentes. Finalmente, crearemos nuevos sistemas para posteriormente
       probarlos y ponerlos a disposición de la comunidad cientı́fica.
       Palabras clave: Recuperación de información, reconocimiento de entidades, UMLS,
       SNOMED-CT, ICD10, cTAKES, MetaMap, aprendizaje automático
       Abstract: Over time, the exchange and management of information is becoming
       more important, especially in the biomedical field. These documents contain relevant
       information on symptoms, diseases, allergies, etc. For this reason, we need systems
       to be able to process this information properly. This work is framed within the area
       of Natural Language Processing in Spanish language, specifically, the study of a
       very important task within the Information Retrieval Systems, such as the Named
       Entities Recognition and the knowledege integration from external sources. In our
       case, we will propose the identification and classification of medical concepts in
       clinical reports by studying dictionaries and ontologies in the biomedical domain and
       different languages, algorithms and existing resources. Finally, we will create new
       systems to later test them and make them available to the scientific community.
       Keywords: Information retrieval, entity recognition, UMLS, SNOMED-CT, ICD10,
       cTAKES, MetaMap, machine learning

1    Introducción                                            que faciliten el acceso y recuperación de
                                                              datos, de ahı́ nacen los llamados sistemas
Unos de los retos tecnológicos que se                        de recuperación de información. Un Sistema
plantean en esta tesis es la exploración                     de Recuperación de Información (SRI) se
de la Web Semántica haciendo uso de                          puede definir como un proceso capaz de
herramientas y recursos de Procesamiento                      almacenar, recuperar y mantener información
del Lenguaje Natural (PLN). El objetivo                       (Kowalski, 2007). Estos sistemas amplı́an
es entender automáticamente el lenguaje                      el espectro de cobertura en la búsqueda
humano apoyándonos en la inteligencia                        a partir de bases de datos documentales,
artificial. Se centrará concretamente en la                  además de poder incorporar diversos métodos
búsqueda y recuperación de información para                para el ordenamiento de los documentos que
poder obtener respuestas completas, correctas                 mejoren la relevancia de los resultados para
y oportunas a las necesidades de información                 el usuario. Dentro de los SRI la gestión
de los usuarios.                                              de informes médicos está obteniendo gran
    Se hace necesario el uso de herramientas
Lloret, E.; Saquete, E.; Martı́nez-Barco, P.; Moreno, I. (eds.) Proceedings of the Doctoral Symposium of the XXXIV
International Conference of the Spanish Society for Natural Language Processing (SEPLN 2018), p. 31–36 Sevilla, Spain,
September 19th 2018. Copyright c 2018 by the paper’s authors. Copying permitted for private and academic purposes.
importancia, pues los datos contenidos en                desarrolladas.
dichos informes son relevantes tanto para
los enfermos como para los especialistas en              2        Origen y trabajo relacionado
medicina. Los informes clı́nicos contienen
                                                         En los últimos años, las ontologı́as han
información sobre el paciente, medicación,
                                                         desempeñado un papel importante en el
resultados de análisis, diagnósticos, dosis,
                                                         campo biomédico (Rubin, Shah, y Noy,
etc. Manteniendo esa información digitalizada
                                                         2007). Se han utilizado ontologı́as de dominio
obtenemos grandes ventajas, se reduce el
                                                         biomédico para la anotación de datos, la
tiempo de trabajo del personal de salud y se
                                                         integración de información, el descubrimiento
mejora la calidad de la atención entre otros.
                                                         de conocimientos y otras aplicaciones.
    El cumplimiento de ciertas normas                        Existe una gran cantidad de ontologı́as en
necesarias para desarrollar de manera                    este ámbito y muchas de ellas estrechamente
coherente la recuperación de contenidos                 relacionadas, por lo tanto, las calidades
web supone la creación de ontologı́as                   de dichas ontologı́a pueden variar mucho.
sobre el dominio o área de conocimiento                 Encontramos investigaciones interesantes y
especı́fico. “Una Ontologı́a define los                  de diversa ı́ndole sobre las ontologı́as más
términos básicos y las relaciones entre ellos          comúnmente utilizadas como: SNOMED-CT
de un tema en concreto como también la                  (Stearns et al., 2001; Patrick, Wang, y Budd,
reglas para combinarlos y extender otros                 2007), UMLS (Bodenreider, 2004; Huang et
términos y relaciones del vocabulario”                  al., 2005; Brennan y Aronson, 2003) y CIE-10
(Neches et al., 1991). Gruber (1995)                     (Névéol et al., 2017).
también aportó conocimiento en base a                      En cuanto a los trabajos relacionados con
las ontologı́as para obtener conocimiento                el reconocimiento de entidades médicas en
a partir de ellas y compartirlo “se puede                inglés, encontramos sistemas de detección
considerar una ontologı́a como un sistema de             automática, como son MetaMap y cTAKES,
representación del conocimiento en un ámbito           ambos se encuentran disponibles y permiten
especı́fico que puede organizarse en forma               descubrir entidades médicas en texto e
jerárquica para facilitar la representación            identificarlas como conceptos ontológicos.
y comprensión del conocimiento”. En
                                                             MetaMap es creado por investigadores de
este trabajo estudiaremos el diccionario
                                                         la National Library of Medicine (NLM) y es
ICD10 (International Classification of
                                                         capaz de identificar los conceptos biomédicos
Diseases) y las ontologı́as UMLS (Unified
                                                         de textos no estructurados y los mapea en los
Medical Language System) y SNOMED-CT
                                                         conceptos de UMLS Metathesaurus (Aronson,
(Systematized Nomenclature of Medicine –
                                                         2001), por otro lado, Apache cTAKES
Clinical Terms) para resolver los problemas
                                                         (Apache Clinical Text Analysis and Knowledge
antes mencionados.
                                                         Extraction System) (Savova et al., 2010) es
    Para llegar a obtener documentos que                 un sistema de procesamiento de lenguaje
satisfagan las necesidades del usuario en los            natural para extracción de información en
SRI, haremos uso de diferentes subtareas                 texto clı́nico. Rodrı́guez González et al.
como la identificación de términos o la                (2015) realiza una comparativa entre las dos
clasificación, donde ellos se convierten en             herramientas sobre MedLinePlus 1 .
la clave para acceder a documentación                       Existen otras alternativas para el inglés,
bibliográfica y literatura relacionada. El              como MedLEE (Medical Language Extraction
objetivo del Reconocimiento de Entidades                 and Encoding System) originalmente
Nombradas (NER Named Entity Recognition                  desarrollado para radiologı́a y posteriormente
por sus siglas en inglés) es identificar en un          extendido a otros subdominios. BioPortal
texto menciones de elementos pertenecientes              (Noy et al., 2009; Zheng et al., 2018) del
a una determinada clase de conceptos.                    NCBO (National Center for Biomedical
    Aunque el trabajo está centrado en el               Ontologies) representa mapeos entre términos
dominio biomédico, la idea principal es                 de diferentes ontologı́as, actualmente
crear técnicas y algoritmos lo suficientemente          incorpora más de 600 ontologı́as.
flexibles para ser aplicados a distintos ámbitos            En cuanto al idioma español existen menos
con éxito. La mayor dificultad radicarı́a               herramientas disponibles, si bien podemos
en encontrar recursos de calidad para el
                                                             1
dominio donde se quieran aplicar las técnicas                   https://medlineplus.gov/

                                                    32
encontrar algunos ejemplos como la versión             En la Task 1, Multilingual Information
en español de MetaMap (Carrero, Cortizo, y             Extraction - ICD10 coding (Névéol et
Gómez, 2008) y Freeling-Med (Oronoz et al.,            al., 2018) del CLEF eHealth, el principal
2013).                                                  objetivo es crear un sistema basado en
                                                        técnicas de PLN para la detección de códigos
3        Investigación propuesta                       ICD10 utilizando diferentes algoritmos
                                                        de aprendizaje automático. Primero,
Este trabajo de tesis se encuentra en fase de
                                                        encontramos todos los posibles códigos ICD10
desarrollo y adaptación de recursos existentes.
                                                        mencionados en el texto y a continuación,
Por lo que a lo largo de este año se han
                                                        creamos varias medidas para tratar el
ido siguiendo una serie de hitos marcados
                                                        texto del concepto identificado. Con estas
por los actuales talleres y competiciones que
                                                        métricas entrenamos diferentes algoritmos de
existen dentro del dominio médico como son
                                                        aprendizaje automático y elegimos el mejor
los talleres TASS e IberEval que se celebran
                                                        modelo a utilizar en nuestro sistema.
en el marco del congreso de la Sociedad
Española para el Procesamiento del Lenguaje
Natural (SEPLN), el foro CLEF eHealth                       Un reto marcado por el taller DIANN
y la competición TREC; con todos ellos                 (Disability annotation on documents from the
pretendemos desarrollar nuestros sistemas,              biomedical domain) incluı́do en la SEPLN
evaluarlos y crear una comparativa para seguir          ha sido el anotar discapacidades encontradas
avanzando.                                              en un texto. Se trata como reto porque
    En cuanto a reconocimiento de entidades             las herramientas para la detección de
médicas en español, se ha diseñado una               entidades nombradas en el ámbito biomédico
herramienta propia para la detección de                no consideran las discapacidades como un
términos biomédicos en un texto llamada               concepto distintivo, sino como cualquier otro
BSB2 (Buscador Semántico Biomédico)                   signo. Por lo tanto, no permiten distinguir
(López-Úbeda et al., 2018c). Las bases                una discapacidad, generalmente una condición
de conocimiento usadas en el reconocedor                permanente, de otros signos asociados a
son UMLS, SNOMED e ICD10, todas en                      enfermedades. Para esta tarea utilizamos
ellas en español. La herramienta utiliza la            nuestro sistema BSB para los textos en
biblioteca NLTK (Natural Language Toolkit)              español y MetaMap con UMLS para el
desarrollada en el lenguaje de programación            inglés y pudimos ver las diferencias existentes.
Python y el analizador sintáctico incluido             Además, para el español, incorporamos una
en la herramienta CoreNLP en español                   nueva fuente de conocimiento basada en siglas
(Manning et al., 2014) para obtener una                 que incluı́a terminologı́a sobre discapacidades
mayor precisión a la hora de identificar               (López-Úbeda et al., 2018a).
terminologı́a (lematización, desambiguación,
palabras compuestas).
    Pretendemos modelar el lenguaje humano                  En cuanto a trabajos relacionados con la
en escenarios de dominio biomédico para                obtención de documentos relevantes en SRI
que los documentos electrónicos puedan ser             hemos participado en la Task3 - Consumer
legibles por máquinas desde un punto de vista          Health Search Task (Jimmy et al., 2018),
semántico, para ello, participamos en la Task          donde aplicamos la técnica de expansión
3. eHealth Knowledge Discovery del Taller               de consultas utilizando el buscador Google.
de Análisis Semántico de la SEPLN (TASS)              Identificamos los conceptos médicos en los
(López-Úbeda et al., 2018b). Con esta tarea           resultados de Google utilizando cTAKES para
pudimos crear un sistema donde identificar              evitar introducir ruido en la consulta con
todas las frases clave en un documento                  conceptos que no sean de dominio médico. Por
escrito en español y asignar una etiqueta              otro lado, en fase de desarrollo se encuentra
(concepto o acción) a todas aquellas frases            la participación en TREC Precision Medicine
clave detectadas. Para ello, adaptamos la               Track para 2018, basada en su anterior tarea
herramienta desarrollada BSB.                           (Roberts et al., 2017) donde estamos aplicando
    Por otra parte, también hemos intentado            técnicas de word embedding(Mikolov et al.,
estudiar otros idiomas como el francés.                2013) para expandir la consulta original con
                                                        terminologı́a cercana a los conceptos más
    2
        http://sinai.ujaen.es/demo/bsb/                 importantes de la consulta.
                                                   33
4     Metodologı́a propuesta                               4. ¿Qué sistemas automáticos existen
Para el desarrollo de esta tesis se propone la                actualmente para identificar entidades
siguiente metodologı́a a seguir:                              médicas en un texto? ¿Y especı́fico para
                                                              el idioma español?
    1. Estudio y revisión del estado del arte.            5. ¿Es necesario crear un reconocedor de
       Se comenzará con el estudio y análisis               entidades médicas multilingüe?
       de la bibliografı́a existente sobre los
       sistemas de recuperación de información           6. Comparativa entre los NER en los
       utilizando la técnica de reconocimiento               idiomas inglés y español.
       de entidades.
                                                          Agradecimientos
    2. Estudiar las diversas ontologı́as
       existentes tanto en español como en               Este     trabajo     está parcialmente
       otros idiomas.                                     subvencionado por el proyecto REDES
                                                          (TIN2015-65136-C2-1-R) del MICINN del
    3. Adaptar los recursos existentes para               Gobierno de España.
       poder realizar un análisis de los métodos
       propuestos.                                        Bibliografı́a
    4. Desarrollo de recursos y herramientas              Aronson, A. R. 2001. Effective mapping of
       propios para el análisis y la extracción           biomedical text to the umls metathesaurus:
       de información en informes médicos.                the metamap program. En Proceedings of
                                                            American Medical Informatics Association,
    5. Implementación de los sistemas que                  AMIA, página 17. American Medical
       permitan satisfacer las necesidades de               Informatics Association.
       información de un usuario.
                                                          Bodenreider, O. 2004. The unified medical
    6. Experimentación y evaluación. Se
                                                            language system (umls): integrating
       utilizarán los recursos generados para
                                                            biomedical terminology. Nucleic Acids
       llevar a cabo la experimentación y
                                                            Research, 32(suppl 1):D267–D270.
       posteriormente se procederá a la
       evaluación de los sistemas desarrollados,         Brennan, P. F y Alan R Aronson. 2003.
       llevando a cabo una comparación de                  Towards linking patients and clinical
       los resultados obtenidos con los ya                  information: detecting umls concepts in
       existentes. Los resultados obtenidos se              e-mail. Journal of Biomedical Informatics,
       pondrán a disposición de la comunidad              36(4-5):334–341.
       cientı́fica.
                                                          Carrero, F, José Carlos Cortizo, y José Marı́a
                                                            Gómez.      2008.     Building a spanish
5     Elementos especı́ficos para
                                                            mmtx by using automatic translation and
      discusión                                            biomedical ontologies. En International
La clasificación, anotación e identificación de          Conference on Intelligent Data Engineering
entidades es un tema de interés en el PLN y                and Automated Learning, páginas 346–353.
en los SRI, nuestra intención en este trabajo              Springer.
es discutir las siguientes aspectos para seguir
profundizando en el estudio:                              Gruber, T. R. 1995. Toward principles for
                                                            the design of ontologies used for knowledge
    1. ¿Qué ontologı́as médicas son las más              sharing?       International Journal of
       utilizadas y por qué?                               Human-computer Studies, 43(5-6):907–928.

    2. ¿Cuáles son los algoritmos y recursos             Huang, Y, Henry J Lowe, Dan Klein, y
       para hacer búsquedas más aproximadas               Russell J Cucina.       2005.    Improved
       en los SRI?                                          identification of noun phrases in clinical
                                                            radiology reports using a high-performance
    3. ¿Qué tipo de información de una                    statistical natural language parser
       ontologı́a puede mejorar un SRI?                     augmented with the umls specialist
       ¿Qué aporta esa información (precisión,           lexicon. Journal of the American Medical
       cobertura, diversidad, etc.)?                        Informatics Association, 12(3):275–285.
                                                     34
Jimmy, Guido Zuccon, Joao Palotti, Lorraine             Senator, y William R Swartout. 1991.
   Goeuriot, y Liadh Kelly. 2018. Overview              Enabling technology for knowledge sharing.
   of the clef 2018 consumer health search              AI magazine, 12(3):36.
   task. En CLEF 2018 Evaluation Labs
                                                      Névéol, A, A Robert, F Grippo, C Morgand,
   and Workshop: Online Working Notes,
                                                         C Orsi, L Pelikán, L Ramadier, G Rey,
  CEUR-WS.
                                                         y P Zweigenbaum. 2018. Clef ehealth
Kowalski, G. J. 2007. Information retrieval              2018 multilingual information extraction
  systems: theory and implementation,                    task overview: ICD10 coding of death
  volumen 1. Springer.                                   certificates in french, hungarian and
                                                         italian. En CLEF 2018 Evaluation Labs
López-Úbeda, P, Manuel Carlos Dı́az Galiano,
                                                         and Workshop: Online Working Notes,
   Marı́a     Teresa  Martı́n-Valdivia,     y
                                                         CEUR-WS.
   Salud Jiménez-Zafra.     2018a.     Sinai
   at diann-ibereval 2018. annotating                 Névéol, A, Robert N Anderson, K Bretonnel
   disabilities in multi-language systems                Cohen, Cyril Grouin, Thomas Lavergne,
   with umls. En Proceedings of the Third                Grégoire Rey, Aude Robert, Claire Rondet,
   Workshop on Evaluation of Human                       y Pierre Zweigenbaum.        2017.   Clef
   Language Technologies for Iberian                     ehealth 2017 multilingual information
   Languages (IberEval 2018).                            extraction task overview: ICD10 coding
                                                         of death certificates in english and
López-Úbeda, P, Manuel Carlos Dı́az-Galiano,
                                                         french. En CLEF 2017 Evaluation Labs
   Marı́a Teresa Martı́n-Valdivia, y Luis
                                                         and Workshop: Online Working Notes,
   Alfonso Ureña López. 2018b. SINAI en
                                                         CEUR-WS, página 17.
   TASS 2018 task 3. clasificando acciones
   y conceptos con UMLS en medline                    Noy, N. F, Nigam H Shah, Patricia L Whetzel,
   (SINAI in TASS 2018 task 3. classifying              Benjamin Dai, Michael Dorf, Nicholas
   actions and concepts with UMLS on                    Griffith, Clement Jonquet, Daniel L Rubin,
   medline).      En Proceedings of TASS                Margaret-Anne Storey, y Christopher G
   2018: Workshop on Semantic Analysis at               Chute. 2009. Bioportal: ontologies and
   SEPLN, TASS@SEPLN 2018, co-located                   integrated data resources at the click
   with 34nd SEPLN Conference (SEPLN                    of a mouse. Nucleic Acids Research,
   2018), Sevilla, Spain, September 18th,               37(suppl 2):W170–W173.
   2018, páginas 77–82.                              Oronoz, M, Arantza Casillas, Koldo Gojenola,
López-Úbeda, P, Manuel Carlos Dı́az Galiano,          y Alicia Perez.       2013.    Automatic
   Arturo     Montejo     Ráez,    Fernando            annotation of medical records in spanish
   Martı́nez Santiago, Alberto Andreu-Marı́n,           with disease, drug and substance names.
   Martı́n, Marı́a Teresa, y Luis Alfonso               En Iberoamerican Congress on Pattern
   Ureña López. 2018c. Buscador semántico            Recognition, páginas 536–543. Springer.
   biomédico. Procesamiento del Lenguaje
                                                      Patrick, J, Yefeng Wang, y Peter Budd.
   Natural, 61:189–192.
                                                        2007. An automated system for conversion
Manning, C, Mihai Surdeanu, John Bauer,                 of clinical notes into snomed clinical
  Jenny Finkel, Steven Bethard, y David                 terminology.     En Proceedings of the
  McClosky. 2014. The stanford corenlp                  fifth Australasian symposium on ACSW
  natural language processing toolkit. En               frontiers-Volume 68, páginas 219–226.
  Proceedings of 52nd annual meeting of the             Australian Computer Society, Inc.
  Association for Computational Linguistics,
                                                      Roberts, K, Dina Demner-Fushman, Ellen M
  ACL: system demonstrations, páginas
                                                        Voorhees, William R Hersh, Steven
  55–60.
                                                        Bedrick, Alexander J Lazar, y Shubham
Mikolov, T, Kai Chen, Greg Corrado, y Jeffrey           Pant.     2017.  Overview of the trec
  Dean. 2013. Efficient estimation of word              2017 precision medicine track.      En
  representations in vector space. arXiv                Text REtrieval Conference, TREC,
  preprint arXiv:1301.3781.                             Gaithersburg, MD.
Neches, R, Richard E Fikes, Tim Finin,                Rodrı́guez  González,  A,          Roberto
  Thomas Gruber, Ramesh Patil, Ted                      Costumero       Moreno,            Marcos
                                                 35
  Martı́nez Romero, Mark Denis Wilkinson,
  y Ernestina Menasalvas Ruiz.      2015.
  Extracting diagnostic knowledge from
  medline plus: a comparison between
  metamap and ctakes approaches. Current
  Bioinformatics, 375:1–7.
Rubin, D. L, Nigam H Shah, y Natalya F Noy.
  2007. Biomedical ontologies: a functional
  perspective. Briefings in Bioinformatics,
  9(1):75–90.
Savova, G. K, James J Masanz, Philip V
  Ogren, Jiaping Zheng, Sunghwan Sohn,
  Karin C Kipper-Schuler, y Christopher G
  Chute. 2010. Mayo clinical text analysis
  and knowledge extraction system (ctakes):
  architecture, component evaluation and
  applications. Journal of the American
  Medical Informatics Association, AMIA,
  17(5):507–513.
Stearns, M. Q, Colin Price, Kent A Spackman,
   y Amy Y Wang. 2001. Snomed clinical
   terms: overview of the development process
   and project status. En Proceedings of the
   AMIA Symposium, página 662. American
   Medical Informatics Association.
Zheng, L, Yan Chen, Gai Elhanan, Yehoshua
  Perl, James Geller, y Christopher Ochs.
  2018. Complex overlapping concepts: An
  effective auditing methodology for families
  of similarly structured bioportal ontologies.
  Journal of Biomedical Informatics, 83:135
  – 149.




                                                  36