=Paper= {{Paper |id=Vol-2968/paper4 |storemode=property |title=DOTT-HEALTH: Desarrollo de Tecnologı́a aplicada a textos para el soporte de diagnosis, prevención y gestión de instituciones de SALUD |pdfUrl=https://ceur-ws.org/Vol-2968/paper4.pdf |volume=Vol-2968 |authors=Lourdes Araujo,Juan Martı́nez-Romo,Jordi Turmo,Lluis Padró,Arantza Casillas,Koldo Gojenola |dblpUrl=https://dblp.org/rec/conf/sepln/AraujoMT0CG21 }} ==DOTT-HEALTH: Desarrollo de Tecnologı́a aplicada a textos para el soporte de diagnosis, prevención y gestión de instituciones de SALUD== https://ceur-ws.org/Vol-2968/paper4.pdf
DOTT-HEALTH: Desarrollo de Tecnologı́a aplicada
a textos para el soporte de diagnosis, prevención y
        gestión de instituciones de SALUD
DOTT-HEALTH: Development Of Text-based Technology to
 support diagnosis, prevention and HEALTH institutions
                       management

           Lourdes Araujo,1 Juan Martı́nez-Romo1 Jordi Turmo2
              Lluis Padró2 Arantza Casillas3 Koldo Gojenola3
        1
          UNED. NLP & IR group. IMIENS. C/ Juan del Rosal, 16 28040 Madrid
             2
               UPC. TALP Research Center, IDEAI Research Center
                                            C/ Jordi Girona, 1-3 08034 Barcelona
                     3
                         UPV/EHU. HiTZ Center for Language Technologies,
                                         P. M. Lardizabal, 1, 20018 San Sebastián
 1 {lurdes,juaner}@lsi.uned.es 2 {turmo,padro}@cs.upc.edu 3 {arantza.casillas,koldo.gojenola}@ehu.eus



  Resumen: La combinación de datos y pautas dirigidas a pacientes individuales se
  engloba en los Sistemas de Apoyo a la Decisión Clı́nica. La adopción del Informe
  Clı́nico Electrónico de forma sistemática por parte de los sistemas de salud da lugar
  a una recopilación masiva de datos clı́nicos que los profesionales no pueden procesar,
  dada la limitación humana para manejar una gran cantidad de información. Esto,
  junto con el aumento de la capacidad de procesamiento de las máquinas, conduce a
  un escenario en el que el análisis automático de los Informes Clı́nicos Electrónicos
  se vuelve esencial para determinar patrones, prevenir errores, mejorar la calidad,
  reducir costos y ahorrar tiempo a los servicios de salud. Esta propuesta aborda
  dos desafı́os principales: el desarrollo de tecnologı́as para el apoyo al diagnóstico
  clı́nico y a la prevención, y la creación de tecnologı́as de ayuda a la gestión de los
  servicios médicos. Teniendo todo esto en mente, el proyecto se enfocará en desarrollar
  herramientas que supongan un avance de la tecnologı́a en los sistemas de apoyo para
  la toma de decisiones médicas.
  Palabras clave: Sistemas de apoyo a la decisión clı́nica, minerı́a de datos, extracción
  de información, fenotipado de pacientes, grafos semánticos, aprendizaje profundo.
  Abstract: The combination of individual patient data and guidelines is concep-
  tualized as clinical decision support systems. The increase in the adoption of Elec-
  tronic Health Records (EHR) by healthcare systems results in a collection of mas-
  sive healthcare data that practitioners, having a limited capability to deal with a
  big amount of information, are unable to process. This, together with the increase
  of machine processing capabilities, leads to a scenario where automatic analysis of
  Electronic Health Records becomes essential to ascertain patterns, to prevent errors,
  improve quality, reduce costs and save time to the Health Services. This proposal
  addresses two main challenges: Development of technologies to support the clinical
  diagnosis and prevention, and to support the management of medical services.
  Keywords: Clinical decision support systems, data mining, information extraction,
  patient phenotype, semantic graphs, deep learning.


         Copyright © 2021 for this paper by its authors. Use permitted under Creative Commons License Attribution 4.0 International (CC BY 4.0).




                                                                          13
1       Descripción general                             mayorı́a de la información de los pacientes no
                                                         está estructurada sino que se encuentra en
El proyecto DOTT-HEALTH1 es un proyec-
                                                         forma de texto libre. Con los avances en este
to financiado por el Ministerio de Ciencia e
                                                         ámbito, el texto libre puede proporcionar in-
Innovación en la convocatoria 2019 de Pro-
                                                         formación útil que se puede integrar con otras
yectos I+D+i, dentro del Programa Esta-
                                                         procedentes, por ejemplo, de pruebas de la-
tal de Investigación, Desarrollo e Innovación
                                                         boratorio, mejorando ası́ la precisión de las
Orientada a los Retos de la Sociedad. DOTT-
                                                         decisiones de las aplicaciones de CDS.
HEALTH. Es un proyecto coordinado entre
la Universidad del Paı́s Vasco, la Universi-                 En este proyecto nos proponemos avanzar
dad Nacional de Educación a Distancia y la              en técnicas de PLN que permitirán mejorar
Universidad Politécnica de Cataluña, que en            los CDS en el ámbito sanitario. Como va-
algunos objetivos es continuación de proyec-            lor adicional, esto llevará a la mejora de las
tos anteriores del consorcio relacionados con            técnicas de procesamiento de informes clı́ni-
aplicaciones del procesamiento del lenguaje              cos electrónicos (ICE) que registran un ti-
en el dominio de la salud, como PROSAMED                 po de texto con caracterı́sticas muy especı́fi-
(Dı́az de Ilarraza et al., 2017) y EXTRECM               cas. En concreto, entre las técnicas que ex-
(Dı́az de Ilarraza et al., 2015). En este nuevo          ploraremos se encuentran la anonimización,
proyecto, la investigación y los distintos ca-          la negación y especulación, la desambigua-
sos de uso se relacionan con el desarrollo de            ción de acrónimos, cuya presencia en los in-
sistemas de ayuda a la toma de decisiones en             formes médicos es extremadamente común, la
distintos ámbitos de salud: psiquiatrı́a, mul-          identificación de expresiones temporales que
timorbilidad o fenotipado. En la figura 1 se             permiten la creación de lı́neas de tiempo de
da una visión general del proyecto.                     eventos relacionados con un paciente, y la ex-
    El soporte a la toma de decisiones clı́nicas         ploración del análisis de estados emocionales
(CDS) tiene como objetivo ayudar a los médi-            como fuente de información adicional sobre
cos, al personal, a los pacientes y a los pro-           el paciente.
veedores de atención sanitaria a mejorar la                 También se avanzará en la mejora de los
salud y la atención sanitaria proporcionando            modelos de representación de la información
conocimientos e información filtrada de for-            para el dominio biomédico (por ejemplo en
ma inteligente.                                          la combinación de embeddings, grafos, reglas
    En general, un CDS puede conducir a me-              de asociación, etc.), ası́ como en el enrique-
joras significativas en los servicios de salud,          cimiento de ontologı́as médicas con variantes
afectando a la seguridad, la eficiencia y la efi-        terminológicas de conceptos y su búsqueda
cacia de la atención sanitaria. La evolución y         aproximada, que permitirá mejorar en el res-
el aumento del uso de los sistemas de CDS en             to de objetivos. Las herramientas y la tec-
la práctica son inevitables (Middleton, Sittig,         nologı́a desarrolladas conjuntamente por los
y Wright, 2016), dada la explosión de infor-            grupos serán aplicadas y evaluadas sobre al-
mación biomédica y la presión para mejorar            gunos casos de uso de alta relevancia médica
la calidad y reducir los costes de la atención          y, por tanto, social.
basada en el valor. Sin embargo, es necesa-                  Entre los casos de uso considerados está la
rio seguir trabajando en la estandarización             ayuda a la predicción de casos de riesgo en
de los métodos de representación de datos,             psiquiatrı́a (suicidio, autolesiones, consumo
en la construcción de sistemas transparentes            de sustancias, aislamiento social, abandono
y en el intercambio de datos y conocimientos             del tratamiento, etc.), que explorará técnicas
de los pacientes.                                        de detección de estados de ánimo que comple-
    A pesar de la extensa investigación en el           mentarán la información relacionada con las
tema, las aplicaciones de CDS no han alcan-              entidades médicas mencionadas en el ICE.
zado una amplia aceptación y utilización en                Otro caso de uso que se considerará es la
el ámbito de atención sanitaria debido, entre          predicción de riesgo de multimorbilidad. Da-
otras razones (Wagholikar, Sundararajan, y               do que la Organización Mundial de la Salud
Deshpande, 2012), a los desafı́os que plantea            sostiene que la multimorbilidad esta mostran-
la necesidad de utilizar técnicas de Procesa-           do una mayor prevalencia en las últimas déca-
miento de Lenguaje Natural PLN, ya que la                das y en paı́ses de toda ı́ndole, la capacidad
                                                         de evaluar el riesgo de multimorbilidad no so-
    1
        http://www.ixa.eus/node/13110?language=en        lo reducirı́a la proporción de ciudadanos afec-



                                                    14
                             Figura 1: Descripción general del proyecto.

tados, sino que también mejorarı́a su calidad            sorcio.
de vida y reducirı́a costes sanitarios.
    También se abordará el fenotipado de los            2       Grupos Involucrados
pacientes, ya que puede ayudar a identifi-                DOTT-HEALTH consta de tres subproyec-
car correctamente la cohorte de pacientes y               tos:
a identificar mejor el contexto clı́nico. Esto
                                                              • PAT-MED: PATient characterization
puede suponer avances fundamentales en la
                                                                and MEDical document management th-
gestión médica, la prevención y el diagnóstico
                                                                rough text-based technology.
identificando cohortes de pacientes y desarro-
llando medidas de similitud entre pacientes,                  • INDICA-MED: INformation DIscovery
lo que puede aportar nuevos conocimientos                       and CAtegorization based on language
importantes.                                                    processing for the MEDical domain.
    También trataremos la tecnologı́a enfoca-                • TADIA-MED: Medical Text Analysis for
da a la gestión hospitalaria. Se abordará el                  Disease Prediction Assistance.
problema de la identificación de casos de en-
fermedades raras (ER) que no han sido iden-                  El proyecto, que tiene naturaleza multi-
tificados por su nombre genérico, mejorando              disciplicar, cuenta con la colaboración de tres
ası́ la exhaustividad de su registro. Además,            grupos de investigación en PLN y varias ins-
buscaremos correlaciones con malformacio-                 tituciones relacionadas con salud, con las que
nes congénitas, una indicación que puede ser            se desarrollarán los casos de uso de cada sub-
de gran ayuda para identificar casos de ER no             proyecto.
mencionados explı́citamente en los registros.                Los grupos involucrados en los subproyec-
También seguiremos avanzando en la clasifi-              tos son:
cación y recomendación de los códigos de la
                                                              • Grupo IXA2 de la Universidad del Paı́s
CIE-10, un problema complejo que se empezó
                                                              2
a investigar en el proyecto anterior del con-                     http://ixa.si.ehu.es/Ixade




                                                     15
         Vasco Vasco UPV/EHU. Lleva traba-                  • Desarrollo de tecnologı́a para CDS y so-
         jando cerca de treinta años en Proce-               porte a la gestión de instituciones de sa-
         samiento de Lenguaje Natural (PLN) y                 lud: clasificación de acuerdo a sistemas
         Lingüı́stica Computacional en general.              de codificación médica (p.e., CIE.10), ex-
         Desde hace diez años viene desarrollan-             tensión de información sobre enfermeda-
         do una lı́nea de investigación orientada            des raras, predicción de multimorbilidad
         al trabajo con textos médicos.                      y fenotipado.
    • Grupo NLP&IR3 de la UNED. Cuenta                    Agradecimientos
      con una larga experiencia en Acceso In-
      teligente a la Informacióon y Adquisición         Este trabajo ha sido financiado por el pro-
      y Representación de Conocimiento. En               yecto DOTT-HEALTH (MCI/AEI/FEDER,
      particular tiene diversas lı́neas de inves-         UE) con referencias PID2019-106942RB-
      tigación abiertas en el dominio médico.           C31, PID2019-106942RB-C32, PID2019-
                                                          106942RB-C33.
    • Grupo TALP4 de la UPC, con amplio
      historial de proyectos de investigación            Bibliografı́a
      en Procesamiento de Lenguaje Natural                Dı́az de Ilarraza, A., K. Gojenola, L. Arau-
      y Minerı́a de Texto. Actualmente tiene                  jo, y R. Martı́nez. 2015. Extracción
      lı́neas abiertas de investigación en el do-            de relaciones entre conceptos médicos en
      minio médico.                                          fuentes de información heterogéneas (ex-
    • Hospitales de Galdakao (HGA) y Ba-                      trecm). Procesamiento del Lenguaje Na-
      surto (HUB), integrados en el grupo de                  tural, 55(0):157–160.
      trabajo IXA pertenecientes al Servicio              Dı́az de Ilarraza, A., K. Gojenola,
      Público de Salud.                                      R. Martı́nez, V. Fresno, J. Turmo, y
    • Hospitales públicos Universitarios Clı́ni-             L. Padró. 2017. Procesamiento semánti-
      co San Carlos y Fundación Universita-                  co textual avanzado para la detección
      ria Fundación Alcorcón (HUFA) de la                   de diagnósticos, procedimientos, otros
      Comunidad de Madrid. Estos hospitales,                  conceptos y sus relaciones en informes
      junto con la Consejerı́a de Sanidad de                  medicos (PROSA-MED).        Proces. del
      la Comunidad de Madrid colaboran en                     Leng. Natural, 59:133–136.
      el subproyecto INDICA-MED del grupo                 Middleton, B., D. Sittig, y A. Wright. 2016.
      UNED.                                                 Clinical decision support: a 25 year retros-
                                                            pective and a 25 year vision. Yearbook
    • Fundación IDIAP JGol, integrada en el
                                                            of medical informatics, Suppl 1:S103–16,
      grupo TALP. IDIAP desarrolla y gestio-
                                                            08/2016.
      na la investigación de la Atención Pri-
      maria principalmente en Cataluña, faci-            Wagholikar, K. B., V. Sundararajan, y A. W.
      litando la participación de investigado-             Deshpande. 2012. Modeling paradigms
      res de distintos sectores.                            for medical diagnostic decision support: a
                                                            survey and future directions. Journal of
3       Objetivos                                           medical systems, 36(5):3029—3049, Octo-
                                                            ber.
El proyecto plantea lograr estos objetivos:
    • Desarrollo de tecnologı́a para el soporte
      al diagnóstico y prevención: extracción
      de información médica (entidades médi-
      cas, negación e incertidumbre) y descu-
      brimiento de patrones para prevención
      y diagnosis. Identificación de relaciones
      relevantes entre conceptos médicos y ex-
      tracción de patrones temporales en re-
      gistros históricos de pacientes.
    3
        http://nlp.uned.es/
    4
        http://http://www.talp.upc.edu/




                                                     16