Descripcion general

DOTT-HEALTH: Desarrollo de Tecnolog a aplicada a textos para el soporte de diagnosis, prevencion y gestion de instituciones de SALUD

Lourdes Araujo

Juan Mart nez-Romo

Jordi Turmo

Lluis Padro

padrog@cs.upc.edu 0

Arantza Casillas

Koldo Gojenola

koldo.gojenolag@ehu.eus 1

UNED. NLP

IR group. IMIENS. C/ Juan del Rosal

Madrid

0 UPC. TALP Research Center, IDEAI Research Center C/ Jordi Girona , 1-3 08034 Barcelona 1 UPV/EHU. HiTZ Center for Language Technologies , P. M. Lardizabal, 1, 20018 San Sebastian

13 16

The combination of individual patient data and guidelines is conceptualized as clinical decision support systems. The increase in the adoption of Electronic Health Records (EHR) by healthcare systems results in a collection of massive healthcare data that practitioners, having a limited capability to deal with a big amount of information, are unable to process. This, together with the increase of machine processing capabilities, leads to a scenario where automatic analysis of Electronic Health Records becomes essential to ascertain patterns, to prevent errors, improve quality, reduce costs and save time to the Health Services. This proposal addresses two main challenges: Development of technologies to support the clinical diagnosis and prevention, and to support the management of medical services.

Descripcion general

El proyecto DOTT-HEALTH1 es un proyecto nanciado por el Ministerio de Ciencia e Innovacion en la convocatoria 2019 de Proyectos I+D+i, dentro del Programa Estatal de Investigacion, Desarrollo e Innovacion Orientada a los Retos de la Sociedad. DOTTHEALTH. Es un proyecto coordinado entre la Universidad del Pa s Vasco, la Universidad Nacional de Educacion a Distancia y la Universidad Politecnica de Catalun~a, que en algunos objetivos es continuacion de proyectos anteriores del consorcio relacionados con aplicaciones del procesamiento del lenguaje en el dominio de la salud, como PROSAMED (D az de Ilarraza et al., 2017) y EXTRECM (D az de Ilarraza et al., 2015). En este nuevo proyecto, la investigacion y los distintos casos de uso se relacionan con el desarrollo de sistemas de ayuda a la toma de decisiones en distintos ambitos de salud: psiquiatr a, multimorbilidad o fenotipado. En la gura 1 se da una vision general del proyecto.

El soporte a la toma de decisiones cl nicas (CDS) tiene como objetivo ayudar a los medicos, al personal, a los pacientes y a los proveedores de atencion sanitaria a mejorar la salud y la atencion sanitaria proporcionando conocimientos e informacion ltrada de forma inteligente.

En general, un CDS puede conducir a mejoras signi cativas en los servicios de salud, afectando a la seguridad, la e ciencia y la e cacia de la atencion sanitaria. La evolucion y el aumento del uso de los sistemas de CDS en la practica son inevitables (Middleton, Sittig, y Wright, 2016), dada la explosion de informacion biomedica y la presion para mejorar la calidad y reducir los costes de la atencion basada en el valor. Sin embargo, es necesario seguir trabajando en la estandarizacion de los metodos de representacion de datos, en la construccion de sistemas transparentes y en el intercambio de datos y conocimientos de los pacientes.

A pesar de la extensa investigacion en el tema, las aplicaciones de CDS no han alcanzado una amplia aceptacion y utilizacion en el ambito de atencion sanitaria debido, entre otras razones (Wagholikar, Sundararajan, y Deshpande, 2012), a los desaf os que plantea la necesidad de utilizar tecnicas de Procesamiento de Lenguaje Natural PLN, ya que la 1http://www.ixa.eus/node/13110?language=en mayor a de la informacion de los pacientes no esta estructurada sino que se encuentra en forma de texto libre. Con los avances en este ambito, el texto libre puede proporcionar informacion util que se puede integrar con otras procedentes, por ejemplo, de pruebas de laboratorio, mejorando as la precision de las decisiones de las aplicaciones de CDS.

En este proyecto nos proponemos avanzar en tecnicas de PLN que permitiran mejorar los CDS en el ambito sanitario. Como valor adicional, esto llevara a la mejora de las tecnicas de procesamiento de informes cl nicos electronicos (ICE) que registran un tipo de texto con caracter sticas muy espec cas. En concreto, entre las tecnicas que exploraremos se encuentran la anonimizacion, la negacion y especulacion, la desambiguacion de acronimos, cuya presencia en los informes medicos es extremadamente comun, la identi cacion de expresiones temporales que permiten la creacion de l neas de tiempo de eventos relacionados con un paciente, y la exploracion del analisis de estados emocionales como fuente de informacion adicional sobre el paciente.

Tambien se avanzara en la mejora de los modelos de representacion de la informacion para el dominio biomedico (por ejemplo en la combinacion de embeddings, grafos, reglas de asociacion, etc.), as como en el enriquecimiento de ontolog as medicas con variantes terminologicas de conceptos y su busqueda aproximada, que permitira mejorar en el resto de objetivos. Las herramientas y la tecnolog a desarrolladas conjuntamente por los grupos seran aplicadas y evaluadas sobre algunos casos de uso de alta relevancia medica y, por tanto, social.

Entre los casos de uso considerados esta la ayuda a la prediccion de casos de riesgo en psiquiatr a (suicidio, autolesiones, consumo de sustancias, aislamiento social, abandono del tratamiento, etc.), que explorara tecnicas de deteccion de estados de animo que complementaran la informacion relacionada con las entidades medicas mencionadas en el ICE.

Otro caso de uso que se considerara es la prediccion de riesgo de multimorbilidad. Dado que la Organizacion Mundial de la Salud sostiene que la multimorbilidad esta mostrando una mayor prevalencia en las ultimas decadas y en pa ses de toda ndole, la capacidad de evaluar el riesgo de multimorbilidad no solo reducir a la proporcion de ciudadanos afecFigura 1: Descripcion general del proyecto. tados, sino que tambien mejorar a su calidad de vida y reducir a costes sanitarios.

Tambien se abordara el fenotipado de los pacientes, ya que puede ayudar a identi car correctamente la cohorte de pacientes y a identi car mejor el contexto cl nico. Esto puede suponer avances fundamentales en la gestion medica, la prevencion y el diagnostico identi cando cohortes de pacientes y desarrollando medidas de similitud entre pacientes, lo que puede aportar nuevos conocimientos importantes.

Tambien trataremos la tecnolog a enfocada a la gestion hospitalaria. Se abordara el problema de la identi cacion de casos de enfermedades raras (ER) que no han sido identi cados por su nombre generico, mejorando as la exhaustividad de su registro. Ademas, buscaremos correlaciones con malformaciones congenitas, una indicacion que puede ser de gran ayuda para identi car casos de ER no mencionados expl citamente en los registros. Tambien seguiremos avanzando en la clasi cacion y recomendacion de los codigos de la CIE-10, un problema complejo que se empezo a investigar en el proyecto anterior del con

Grupos Involucrados

DOTT-HEALTH consta de tres subproyectos: • PAT-MED: PATient characterization and MEDical document management through text-based technology. • INDICA-MED: INformation DIscovery and CAtegorization based on language processing for the MEDical domain. • TADIA-MED: Medical Text Analysis for

Disease Prediction Assistance.

El proyecto, que tiene naturaleza multidisciplicar, cuenta con la colaboracion de tres grupos de investigacion en PLN y varias instituciones relacionadas con salud, con las que se desarrollaran los casos de uso de cada subproyecto.

Los grupos involucrados en los subproyectos son: • Grupo IXA2 de la Universidad del Pa s 2http://ixa.si.ehu.es/Ixade Vasco Vasco UPV/EHU. Lleva trabajando cerca de treinta an~os en Procesamiento de Lenguaje Natural (PLN) y Lingu stica Computacional en general. Desde hace diez an~os viene desarrollando una l nea de investigacion orientada al trabajo con textos medicos. • Grupo NLP&IR3 de la UNED. Cuenta con una larga experiencia en Acceso Inteligente a la Informacioon y Adquisicion y Representacion de Conocimiento. En particular tiene diversas l neas de investigacion abiertas en el dominio medico. • Grupo TALP4 de la UPC, con amplio historial de proyectos de investigacion en Procesamiento de Lenguaje Natural y Miner a de Texto. Actualmente tiene l neas abiertas de investigacion en el dominio medico. • Hospitales de Galdakao (HGA) y Basurto (HUB), integrados en el grupo de trabajo IXA pertenecientes al Servicio Publico de Salud. • Hospitales publicos Universitarios Cl nico San Carlos y Fundacion Universitaria Fundacion Alcorcon (HUFA) de la Comunidad de Madrid. Estos hospitales, junto con la Consejer a de Sanidad de la Comunidad de Madrid colaboran en el subproyecto INDICA-MED del grupo UNED. • Fundacion IDIAP JGol, integrada en el grupo TALP. IDIAP desarrolla y gestiona la investigacion de la Atencion Primaria principalmente en Catalun~a, facilitando la participacion de investigadores de distintos sectores. 3

Objetivos

El proyecto plantea lograr estos objetivos: • Desarrollo de tecnolog a para el soporte al diagnostico y prevencion: extraccion de informacion medica (entidades medicas, negacion e incertidumbre) y descubrimiento de patrones para prevencion y diagnosis. Identi cacion de relaciones relevantes entre conceptos medicos y extraccion de patrones temporales en registros historicos de pacientes. • Desarrollo de tecnolog a para CDS y soporte a la gestion de instituciones de salud: clasi cacion de acuerdo a sistemas de codi cacion medica (p.e., CIE.10), extension de informacion sobre enfermedades raras, prediccion de multimorbilidad y fenotipado.

Agradecimientos

Este trabajo ha sido nanciado por el proyecto DOTT-HEALTH (MCI/AEI/FEDER, UE) con referencias PID2019-106942RBC31, PID2019-106942RB-C32, PID2019106942RB-C33.

Bibliograf a

D az de Ilarraza, A., K. Gojenola, L. Araujo, y R. Mart nez. 2015. Extraccion de relaciones entre conceptos medicos en fuentes de informacion heterogeneas (extrecm). Procesamiento del Lenguaje Natural, 55(0):157{160.

D az de Ilarraza, A., K. Gojenola, R. Mart nez, V. Fresno, J. Turmo, y L. Padro. 2017. Procesamiento semantico textual avanzado para la deteccion de diagnosticos, procedimientos, otros conceptos y sus relaciones en informes medicos (PROSA-MED). Proces. del Leng. Natural, 59:133{136.

Middleton, B., D. Sittig, y A. Wright. 2016.

Clinical decision support: a 25 year retrospective and a 25 year vision. Yearbook of medical informatics, Suppl 1:S103{16, 08/2016.

Wagholikar, K. B., V. Sundararajan, y A. W.

Deshpande. 2012. Modeling paradigms for medical diagnostic decision support: a survey and future directions. Journal of medical systems, 36(5):3029|3049, October.