<!DOCTYPE article PUBLIC "-//NLM//DTD JATS (Z39.96) Journal Archiving and Interchange DTD v1.0 20120330//EN" "JATS-archivearticle1.dtd">
<article xmlns:xlink="http://www.w3.org/1999/xlink">
  <front>
    <journal-meta />
    <article-meta>
      <title-group>
        <article-title>DOTT-HEALTH: Desarrollo de Tecnolog a aplicada a textos para el soporte de diagnosis, prevencion y gestion de instituciones de SALUD</article-title>
      </title-group>
      <contrib-group>
        <contrib contrib-type="author">
          <string-name>Lourdes Araujo</string-name>
        </contrib>
        <contrib contrib-type="author">
          <string-name>Juan Mart nez-Romo</string-name>
        </contrib>
        <contrib contrib-type="author">
          <string-name>Jordi Turmo</string-name>
          <xref ref-type="aff" rid="aff0">0</xref>
        </contrib>
        <contrib contrib-type="author">
          <string-name>Lluis Padro</string-name>
          <email>padrog@cs.upc.edu</email>
          <xref ref-type="aff" rid="aff0">0</xref>
        </contrib>
        <contrib contrib-type="author">
          <string-name>Arantza Casillas</string-name>
          <xref ref-type="aff" rid="aff1">1</xref>
        </contrib>
        <contrib contrib-type="author">
          <string-name>Koldo Gojenola</string-name>
          <email>koldo.gojenolag@ehu.eus</email>
          <xref ref-type="aff" rid="aff1">1</xref>
        </contrib>
        <contrib contrib-type="author">
          <string-name>UNED. NLP</string-name>
        </contrib>
        <contrib contrib-type="author">
          <string-name>IR group. IMIENS. C/ Juan del Rosal</string-name>
        </contrib>
        <contrib contrib-type="author">
          <string-name>Madrid</string-name>
        </contrib>
        <aff id="aff0">
          <label>0</label>
          <institution>UPC. TALP Research Center, IDEAI Research Center C/ Jordi Girona</institution>
          ,
          <addr-line>1-3 08034 Barcelona</addr-line>
        </aff>
        <aff id="aff1">
          <label>1</label>
          <institution>UPV/EHU. HiTZ Center for Language Technologies</institution>
          ,
          <addr-line>P. M. Lardizabal, 1, 20018 San Sebastian</addr-line>
        </aff>
      </contrib-group>
      <fpage>13</fpage>
      <lpage>16</lpage>
      <abstract>
        <p>The combination of individual patient data and guidelines is conceptualized as clinical decision support systems. The increase in the adoption of Electronic Health Records (EHR) by healthcare systems results in a collection of massive healthcare data that practitioners, having a limited capability to deal with a big amount of information, are unable to process. This, together with the increase of machine processing capabilities, leads to a scenario where automatic analysis of Electronic Health Records becomes essential to ascertain patterns, to prevent errors, improve quality, reduce costs and save time to the Health Services. This proposal addresses two main challenges: Development of technologies to support the clinical diagnosis and prevention, and to support the management of medical services.</p>
      </abstract>
    </article-meta>
  </front>
  <body>
    <sec id="sec-1">
      <title>Descripcion general</title>
      <p>El proyecto DOTT-HEALTH1 es un
proyecto nanciado por el Ministerio de Ciencia e
Innovacion en la convocatoria 2019 de
Proyectos I+D+i, dentro del Programa
Estatal de Investigacion, Desarrollo e Innovacion
Orientada a los Retos de la Sociedad.
DOTTHEALTH. Es un proyecto coordinado entre
la Universidad del Pa s Vasco, la
Universidad Nacional de Educacion a Distancia y la
Universidad Politecnica de Catalun~a, que en
algunos objetivos es continuacion de
proyectos anteriores del consorcio relacionados con
aplicaciones del procesamiento del lenguaje
en el dominio de la salud, como PROSAMED
(D az de Ilarraza et al., 2017) y EXTRECM
(D az de Ilarraza et al., 2015). En este nuevo
proyecto, la investigacion y los distintos
casos de uso se relacionan con el desarrollo de
sistemas de ayuda a la toma de decisiones en
distintos ambitos de salud: psiquiatr a,
multimorbilidad o fenotipado. En la gura 1 se
da una vision general del proyecto.</p>
      <p>El soporte a la toma de decisiones cl nicas
(CDS) tiene como objetivo ayudar a los
medicos, al personal, a los pacientes y a los
proveedores de atencion sanitaria a mejorar la
salud y la atencion sanitaria proporcionando
conocimientos e informacion ltrada de
forma inteligente.</p>
      <p>En general, un CDS puede conducir a
mejoras signi cativas en los servicios de salud,
afectando a la seguridad, la e ciencia y la e
cacia de la atencion sanitaria. La evolucion y
el aumento del uso de los sistemas de CDS en
la practica son inevitables (Middleton, Sittig,
y Wright, 2016), dada la explosion de
informacion biomedica y la presion para mejorar
la calidad y reducir los costes de la atencion
basada en el valor. Sin embargo, es
necesario seguir trabajando en la estandarizacion
de los metodos de representacion de datos,
en la construccion de sistemas transparentes
y en el intercambio de datos y conocimientos
de los pacientes.</p>
      <p>A pesar de la extensa investigacion en el
tema, las aplicaciones de CDS no han
alcanzado una amplia aceptacion y utilizacion en
el ambito de atencion sanitaria debido, entre
otras razones (Wagholikar, Sundararajan, y
Deshpande, 2012), a los desaf os que plantea
la necesidad de utilizar tecnicas de
Procesamiento de Lenguaje Natural PLN, ya que la
1http://www.ixa.eus/node/13110?language=en
mayor a de la informacion de los pacientes no
esta estructurada sino que se encuentra en
forma de texto libre. Con los avances en este
ambito, el texto libre puede proporcionar
informacion util que se puede integrar con otras
procedentes, por ejemplo, de pruebas de
laboratorio, mejorando as la precision de las
decisiones de las aplicaciones de CDS.</p>
      <p>En este proyecto nos proponemos avanzar
en tecnicas de PLN que permitiran mejorar
los CDS en el ambito sanitario. Como
valor adicional, esto llevara a la mejora de las
tecnicas de procesamiento de informes cl
nicos electronicos (ICE) que registran un
tipo de texto con caracter sticas muy espec
cas. En concreto, entre las tecnicas que
exploraremos se encuentran la anonimizacion,
la negacion y especulacion, la
desambiguacion de acronimos, cuya presencia en los
informes medicos es extremadamente comun, la
identi cacion de expresiones temporales que
permiten la creacion de l neas de tiempo de
eventos relacionados con un paciente, y la
exploracion del analisis de estados emocionales
como fuente de informacion adicional sobre
el paciente.</p>
      <p>Tambien se avanzara en la mejora de los
modelos de representacion de la informacion
para el dominio biomedico (por ejemplo en
la combinacion de embeddings, grafos, reglas
de asociacion, etc.), as como en el
enriquecimiento de ontolog as medicas con variantes
terminologicas de conceptos y su busqueda
aproximada, que permitira mejorar en el
resto de objetivos. Las herramientas y la
tecnolog a desarrolladas conjuntamente por los
grupos seran aplicadas y evaluadas sobre
algunos casos de uso de alta relevancia medica
y, por tanto, social.</p>
      <p>Entre los casos de uso considerados esta la
ayuda a la prediccion de casos de riesgo en
psiquiatr a (suicidio, autolesiones, consumo
de sustancias, aislamiento social, abandono
del tratamiento, etc.), que explorara tecnicas
de deteccion de estados de animo que
complementaran la informacion relacionada con las
entidades medicas mencionadas en el ICE.</p>
      <p>Otro caso de uso que se considerara es la
prediccion de riesgo de multimorbilidad.
Dado que la Organizacion Mundial de la Salud
sostiene que la multimorbilidad esta
mostrando una mayor prevalencia en las ultimas
decadas y en pa ses de toda ndole, la capacidad
de evaluar el riesgo de multimorbilidad no
solo reducir a la proporcion de ciudadanos
afecFigura 1: Descripcion general del proyecto.
tados, sino que tambien mejorar a su calidad
de vida y reducir a costes sanitarios.</p>
      <p>Tambien se abordara el fenotipado de los
pacientes, ya que puede ayudar a identi
car correctamente la cohorte de pacientes y
a identi car mejor el contexto cl nico. Esto
puede suponer avances fundamentales en la
gestion medica, la prevencion y el diagnostico
identi cando cohortes de pacientes y
desarrollando medidas de similitud entre pacientes,
lo que puede aportar nuevos conocimientos
importantes.</p>
      <p>Tambien trataremos la tecnolog a
enfocada a la gestion hospitalaria. Se abordara el
problema de la identi cacion de casos de
enfermedades raras (ER) que no han sido
identi cados por su nombre generico, mejorando
as la exhaustividad de su registro. Ademas,
buscaremos correlaciones con
malformaciones congenitas, una indicacion que puede ser
de gran ayuda para identi car casos de ER no
mencionados expl citamente en los registros.
Tambien seguiremos avanzando en la clasi
cacion y recomendacion de los codigos de la
CIE-10, un problema complejo que se empezo
a investigar en el proyecto anterior del
con</p>
    </sec>
    <sec id="sec-2">
      <title>Grupos Involucrados</title>
      <p>DOTT-HEALTH consta de tres
subproyectos:
• PAT-MED: PATient characterization
and MEDical document management
through text-based technology.
• INDICA-MED: INformation DIscovery
and CAtegorization based on language
processing for the MEDical domain.
• TADIA-MED: Medical Text Analysis for</p>
      <p>Disease Prediction Assistance.</p>
      <p>El proyecto, que tiene naturaleza
multidisciplicar, cuenta con la colaboracion de tres
grupos de investigacion en PLN y varias
instituciones relacionadas con salud, con las que
se desarrollaran los casos de uso de cada
subproyecto.</p>
      <p>Los grupos involucrados en los
subproyectos son:
• Grupo IXA2 de la Universidad del Pa s
2http://ixa.si.ehu.es/Ixade
Vasco Vasco UPV/EHU. Lleva
trabajando cerca de treinta an~os en
Procesamiento de Lenguaje Natural (PLN) y
Lingu stica Computacional en general.
Desde hace diez an~os viene
desarrollando una l nea de investigacion orientada
al trabajo con textos medicos.
• Grupo NLP&amp;IR3 de la UNED. Cuenta
con una larga experiencia en Acceso
Inteligente a la Informacioon y Adquisicion
y Representacion de Conocimiento. En
particular tiene diversas l neas de
investigacion abiertas en el dominio medico.
• Grupo TALP4 de la UPC, con amplio
historial de proyectos de investigacion
en Procesamiento de Lenguaje Natural
y Miner a de Texto. Actualmente tiene
l neas abiertas de investigacion en el
dominio medico.
• Hospitales de Galdakao (HGA) y
Basurto (HUB), integrados en el grupo de
trabajo IXA pertenecientes al Servicio
Publico de Salud.
• Hospitales publicos Universitarios Cl
nico San Carlos y Fundacion
Universitaria Fundacion Alcorcon (HUFA) de la
Comunidad de Madrid. Estos hospitales,
junto con la Consejer a de Sanidad de
la Comunidad de Madrid colaboran en
el subproyecto INDICA-MED del grupo
UNED.
• Fundacion IDIAP JGol, integrada en el
grupo TALP. IDIAP desarrolla y
gestiona la investigacion de la Atencion
Primaria principalmente en Catalun~a,
facilitando la participacion de
investigadores de distintos sectores.
3</p>
    </sec>
    <sec id="sec-3">
      <title>Objetivos</title>
      <p>El proyecto plantea lograr estos objetivos:
• Desarrollo de tecnolog a para el soporte
al diagnostico y prevencion: extraccion
de informacion medica (entidades
medicas, negacion e incertidumbre) y
descubrimiento de patrones para prevencion
y diagnosis. Identi cacion de relaciones
relevantes entre conceptos medicos y
extraccion de patrones temporales en
registros historicos de pacientes.
• Desarrollo de tecnolog a para CDS y
soporte a la gestion de instituciones de
salud: clasi cacion de acuerdo a sistemas
de codi cacion medica (p.e., CIE.10),
extension de informacion sobre
enfermedades raras, prediccion de multimorbilidad
y fenotipado.</p>
    </sec>
    <sec id="sec-4">
      <title>Agradecimientos</title>
      <p>Este trabajo ha sido nanciado por el
proyecto DOTT-HEALTH (MCI/AEI/FEDER,
UE) con referencias
PID2019-106942RBC31, PID2019-106942RB-C32,
PID2019106942RB-C33.</p>
    </sec>
    <sec id="sec-5">
      <title>Bibliograf a</title>
      <p>D az de Ilarraza, A., K. Gojenola, L.
Araujo, y R. Mart nez. 2015. Extraccion
de relaciones entre conceptos medicos en
fuentes de informacion heterogeneas
(extrecm). Procesamiento del Lenguaje
Natural, 55(0):157{160.</p>
      <p>D az de Ilarraza, A., K. Gojenola,
R. Mart nez, V. Fresno, J. Turmo, y
L. Padro. 2017. Procesamiento
semantico textual avanzado para la deteccion
de diagnosticos, procedimientos, otros
conceptos y sus relaciones en informes
medicos (PROSA-MED). Proces. del
Leng. Natural, 59:133{136.</p>
      <p>Middleton, B., D. Sittig, y A. Wright. 2016.</p>
      <p>Clinical decision support: a 25 year
retrospective and a 25 year vision. Yearbook
of medical informatics, Suppl 1:S103{16,
08/2016.</p>
      <p>Wagholikar, K. B., V. Sundararajan, y A. W.</p>
      <p>Deshpande. 2012. Modeling paradigms
for medical diagnostic decision support: a
survey and future directions. Journal of
medical systems, 36(5):3029|3049,
October.</p>
    </sec>
  </body>
  <back>
    <ref-list />
  </back>
</article>