Detección Automática de Patologías en Notas Clínicas en Español Combinando Modelos de Lenguaje y Ontologías Médicos Automatic Pathology Detection in Spanish Clinical Notes Combining Language Models and Medical Ontologies León-Paul Schaub-Torre1,*,† , Pelayo Quirós1,† and Helena García-Mieres1 1 CTIC Technology Centre. W3C Spain Office host, Ada Byron 39, Gijón, 33203, Asturias, Spain Resumen En este artículo presentamos un método híbrido para la detección automática de patologías dermatológicas en informes médicos. Usamos un modelo de lenguaje amplio en español combinado con ontologías médicas para predecir, dado un informe médico de primera cita o de seguimiento, la patología del paciente. Los resultados muestran que el tipo, la gravedad y el sitio en el cuerpo de una patología dermatológica, así como en qué orden tiene un modelo que aprender esas tres características, aumentan su precisión. El artículo presenta la demostración de resultados comparables al estado del arte de clasificación de textos médicos con una precisión de 0.84, micro y macro F1-score de 0.82 y 0.75, y deja a disposición de la comunidad tanto el método como el conjunto de datos utilizado. Abstract In this paper we present a hybrid method for the automatic detection of dermatological pathologies in medical reports. We use a large language model combined with medical ontologies to predict, given a first appointment or follow-up medical report, the pathology a person may suffer from. The results show that teaching the model to learn the type, severity and location on the body of a dermatological pathology as well as in which order it has to learn these three features significantly increases its accuracy. The article presents the demonstration of state-of-the-art results for classification of medical texts with a precision of 0.84, micro and macro F1-score of 0.82 and 0.75, and makes both the method and the dataset used available to the community. Palabras clave modelo de lenguaje, biomédico, ontología, método híbrido Keywords language model, biomedical, ontology, hybrid method 1. Introducción cional que lleva décadas en desarrollo. Uno de los primeros protocolos de digitalización de los informes La digitalización de informes médicos (EHR por es el ISO TC 2151 creado en 1998. Se trata de una electronic health records) es una iniciativa interna- norma cuyo objetivo es estandarizar la digitalización de los informes de más de 50 países, incluyendo Es- SEPLN-2024: 40th Conference of the Spanish Society for paña, tanto de tipo fotográfico (radiología, ecografía, Natural Language Processing. Valladolid, Spain. 24-27 September 2024. etc.), como textual. Esto permite tener un contexto * Corresponding author. y un historial de cada paciente, así como facilitar los $ leon.schaub@fundacionctic.org (L. Schaub-Torre); seguimientos [1]. Sin embargo, la aceleración de esta pelayo.quiros@fundacionctic.org (P. Quirós); digitalización en los últimos 15 años, con la global- helenagmieres@gmail.com (H. García-Mieres) ización de Internet a alta velocidad y de la capaci-  0000-0002-0116-9698 (L. Schaub-Torre); 0000-0002-0500-9034 (P. Quirós); 0000-0002-2813-1737 dad de los servidores, ha provocado un crecimiento (H. García-Mieres) de la cantidad de datos. Es por eso por lo que † These authors contributed equally. el procesamiento del lenguaje natural (PLN) tiene © 2024 Copyright for this paper by its authors. Use permitted under Creative Commons License Attribu- gran potencial como herramienta de ayuda a los tion 4.0 International (CC BY 4.0). CEUR CEUR Workshop Proceedings (CEUR- 1 Workshop Proceedings http://ceur-ws.org ISSN 1613-0073 WS.org) https://www.iso.org/committee/54960.html CEUR ceur-ws.org Workshop ISSN 1613-0073 Proceedings médicos para facilitarles el trabajo de seguimiento gravedad de la patología y un último modelo que, de pacientes, al preanalizar los EHR [2] extraer en- gracias a los anteriores, predice qué patología es. tidades (NER) [3], o predecir las patologías que Los informes utilizados provienen de EHRs y son padece una persona [4]. En paralelo, los progresos notas clínicas de pacientes escritas por médicos, que en aprendizaje profundo [5] desde los años 2010 y los pueden ser de primera cita o un seguimiento. Cada transformadores a partir de 2018 [6] han permitido informe tiene dos etiquetas asociadas: la patología la creación de modelos más precisos [7]. Combi- y una codificación de la patología. Estos informes nando ambos avances, en los últimos años se han provienen de la unidad de dermatología de distintos desarrollado modelos pre-entrenados de lenguaje centros de salud de España. Han sido anonimizados especializados en el vocabulario médico, y ajusta- de manera semi automática con técnicas basadas en dos (fine-tuned) para las aplicaciones mencionadas reglas simbólicas. Las contribuciones que realizamos [8, 9, 10]. En lengua española y en cualquier otro con el trabajo actual son las siguientes: idioma distinto del inglés [11] los recursos existentes son limitados, pero modelos como los desarrolla- • Un conjunto de datos anonimizado de EHR dos por [12, 13] consiguen resultados comparables a de dermatología en español, público y de modelos en lengua inglesa para tareas de extracción libre acceso2 . de información, [14] como es el caso de para NER. • Una nomenclatura de patologías dermatológ- Sin embargo, son pocos los trabajos que se en- icas que viene a enriquecer las ontologías y focan en la predicción de una enfermedad dentro léxicos existentes. de un informe clínico [15]. Existen trabajos de en- • Un método híbrido basado en transfor- caje léxico que han tenido éxito para conectar un madores con ontología para la tarea de clasi- informe y un concepto (por ejemplo, enfermedad o ficación de las EHR con respecto a las pa- tipo de enfermedad) [16, 17], logrando superar a los tologías posibles. trabajos de ontología y de semántica de la última Además de la introducción en la Sección 1, el década [18, 19]. Pese a ello, apenas existen corpus artículo se divide en otras cuatro secciones. En la de referencia para tener a la vez informes médicos Sección 2 se presenta un estado de la cuestión donde en español y la patología asociada, habiendo identi- resumimos tanto los métodos que se asemejan al ficado como única referencia el corpus CARES [20], nuestro como los recursos lingüísticos que existen. si bien está centrado en datos radiológicos. Tam- En la Sección 3 se proporciona una descripción de poco se ha detectado un método del estado de la nuestra metodología y de la arquitectura final del técnica que sea capaz de predecir a qué patología(s) modelo. La Sección 4 se centra en los resultados. corresponde un determinado informe médico. La Sección 5 aborda la discusión, conclusiones, y Por otra parte, la motivación de este trabajo viene los posibles trabajos futuros. dada de no ser NER una tarea adaptada a nuestro problema por dos motivos: 1. No tenemos un conjunto de datos etiquetado 2. Estado de la cuestión en entidades nombradas (EN), lo cual supon- La minería de texto en informes clínicos es un campo dría realizar una campaña de etiquetado y importante del PLN desde hace años [23]. Sin em- contar con un conocimiento experto del cual bargo, la cantidad de trabajos relacionados con la no disponemos. extracción de información en el ámbito médico ha 2. Aunque tuviéramos ese conjunto etiquetado, florecido con la expansión de los EHR [24]. un análisis cualitativo de los datos muestra En este sentido, a principios de los 2000 se solía que la presencia de ciertas EN no se corre- utilizar una combinación de ontología y de web sponden con la patología que hemos de prede- semántica para extraer nombres de enfermedades o cir. Por ejemplo, en el caso de sospechas, du- de medicamentos [25, 26]. Además, las ontologías se das o negaciones, el informe puede contener utilizaban combinadas con algoritmos estadísticos una EN como “Se sospecha una queratosis [27]. aparente que resulta ser un bulto maligno”. La mayoría de los trabajos en este campo son en Buscamos resolver este problema, para lo cual pre- inglés, pero algunos como [3, 28] emplearon textos sentamos un método híbrido que combina los trans- en español. A partir de 2010 se empezaron a usar formadores con un modelo basado en RoBERTa redes neuronales como los LSTM [29], dado que [21] y ontologías [22]. Con este fin, creamos con tienen capacidad para retener relaciones entre las ellos modelos en cascada: detectan el tipo (síntoma, proceso neoplásico, etc.), el sitio anatómico y la 2 https://huggingface.co/fundacionctic/DermatES frases. Estas redes se utilizaron para el NER médico 3.1. Descripción del conjunto de datos tanto en lengua inglesa [30] como española [31]. Aun así, los trabajos que buscan asociar la totali- Los datos utilizados se corresponden con notas clíni- dad del texto a un concepto de patología son escasos cas de hospitales españoles con respecto a consultas en comparación con los que aspiran a detectar las de dermatología, tanto de primera consulta como patologías nombradas. de revisiones posteriores. Dichos datos vienen da- En conjuntos de datos en inglés encontramos dos en ficheros individuales en formato HL7 (Health MIMIC [32] y MIMIC-III [33]. Por otro lado, en es- Level 7 ) [50], el cual se trata de un conjunto de pañol está el conjunto privado [34], SPACCC (Span- estándares internacionales que permiten el inter- ish Clinical Cases Corpus) que no contiene etique- cambio, integración, compartición y recuperación tado [35] o PharmacoNER [36] pero también para de datos electrónicos de salud. Además, facilita que NER. El conjunto en español que más se asemeja la comunicación entre diferentes sistemas sea más al del presente trabajo es el CodiEsp [37] pero está ágil y fiable. Nuestro corpus contiene 8881 informes etiquetado en diagnóstico y procedimiento. Para y 173 patologías dermatológicas diferentes. Cada consultar conjuntos de datos existentes, se puede informe contiene una sola etiqueta de una patología consultar la amplia lista creada por [38]. dermatológica y estamos ante un caso de clasifi- En general, siendo los datos de salud sensibles, cación multiclase. Los informes clínicos ligados a 43 y con la necesidad de cumplir el RGPD3 [39], es variables de diversa índole, incluidas el nombre y el imprescindible anonimizar los datos clínicos [40]. código de la patología. Dado el objetivo planteado Como métodos explorados de anonimización, [41] en este proyecto, se ha limitado dicho conjunto a usan BRAT [42] para anonimizarlos. [43] muestra dos variables de interés: el texto escrito por parte que un modelo híbrido hace casi imposible la rei- del facultativo sobre la consulta en lenguaje natural, dentificación de las personas. En conjunto con estos y la variable que ofrece la patología diagnosticada trabajos, nos inspiramos en [44] y MEDOCCAN al paciente dentro de la taxonomía considerada por [45] para anonimizar los nuestros. el sistema de recogida. Un ejemplo del conjunto de Por otro lado, respecto a los métodos que clasifi- datos está ilustrado en la Figura 1. can el texto entero en vez de realizar NER, encon- Teniendo en cuenta el número de patologías y tramos a [46], que emplea ontologías para prede- su reparto desequilibrado (Figura 4 en Anexo B), cir las enfermedades en textos clínicos. [47] aplica intuíamos que incluso con nuestro método híbrido, los transformadores inspirados en BERT [48] para muchas clases iban a ser obviadas durante el entre- crear encajes léxicos médicos. Los trabajos que ofre- namiento del modelo. Es por eso que estudiamos cen mejores resultados en términos de exactitud y definir el umbral del mínimo de ejemplos por pa- precisión son los que combinan la potencia lingüís- tología que maximice la precisión del modelo sin tica de los modelos de lengua masivos (LLM) y de perder demasiadas patologías. Decidimos guardar las ontologías, por lo que nos inspiramos en estos las 25 patologías más representadas que correspon- para diseñar nuestro trabajo. Por ejemplo, [49] im- den a un mínimo de 61 ejemplos por categoría. En plementaron transformadores BERT y ontologías el anexo A.6 explicamos que ese umbral es el óp- médicas, obteniendo los mejores resultados sobre timo para conservar cierto número de categorías sin MIMIC. Hasta donde alcanza nuestro conocimiento, mermar la eficacia de los modelos y en el anexo. no existe un trabajo en español que describa cómo El conjunto de datos no ha sido lematizado o predecir la patología de un paciente a partir del pasado por otros preprocesamientos clásicos tal y EHR textual utilizando estos métodos. como tampoco lo hicieron [51] explicando que los modelos de lenguaje hoy en día son capaces de procesar textos brutos. 3. Metodología En esta sección presentamos el conjunto de datos 3.2. Anonimización que creamos y procesamos, así como la técnica de A lo largo de este apartado se detalla el proceso de anonimización que usamos para proteger la privaci- anonimizado del conjunto de datos. Los datos médi- dad de su contenido. Finalmente, describimos los cos pueden presentar información sensible que no ha modelos que utilizamos además de nuestro método de compartirse. Por esta razón, se ha procedido con híbrido: transformador-ontología con modelos en diferentes fases semi-automatizadas que permitan cascada. enmascarar información de carácter privado. En 3 un primer nivel, se ha procedido a eliminar todo https://www.hacienda.gob.es/es-ES/El% aquel contenido numérico que aparezca en dichos 20Ministerio/Paginas/DPD/Normativa_PD.aspx Figura 1: Ejemplo del conjunto de datos. A la izquierda, el informe de primera consulta o de seguimiento. A la derecha, la patología a predecir. mensajes. Esto se debe a que dicha información está • Se añaden un total de 43 excepciones que ligada a información sensible: fechas, años, edades puedan ser relevantes para el ámbito particu- o diferentes identificadores (DNI, identificador del lar de la dermatología (cabello, seco, benigno, paciente, etc.). Por otro lado, se ha abordado la etc.). detección de otros tipos de información sensible, • Se enmascaran patrones que han sido identi- que en lugar de eliminar como se ha hecho con los ficados como candidatos a contener informa- caracteres numéricos, se ha procedido con su en- ción sensible (texto posterior a los términos mascaramiento con la etiqueta “[Entidad]”. En este dr, dra, doctor, doctora). caso, se han tratado entidades como nombres pro- pios, apellidos, ciudades/localizaciones o nombres Con esto, se genera un conjunto de textos anon- de hospitales. Para llevar a cabo este paso, se ha imizado y enmascarado, que se ha procedido a procedido con la identificación de diferentes fuentes analizar para validar que la información está prote- externas que permitan localizar tal información, ha- gida. Para ello, se ha realizado una revisión manual ciendo uso de las siguientes: por parte de dos revisores: • Lista de apellidos y nombres de hombre y mu- • Se ha seleccionado una muestra del conjunto jer más frecuentes en España, proporcionados de datos anonimizado del 10% del total. por el INE (Instituto Nacional de Estadís- • Se ha realizado dicha selección de forma es- tica)4 . tratificada con respecto a la categorización • Lista de palabras más frecuentes en el del texto original. lenguaje español mediante recursos propor- • Dicho conjunto se ha dividido a su vez en dos cionados por la Real Academia Española subconjuntos del mismo tamaño, donde cada (RAE) ligadas al Corpus de Referencia del uno de ellos tiene entradas únicas y entradas Español Actual (CREA)5 . compartidas entre sí. • Lista con las ciudades y hospitales más habit- En la Figura 2 se presenta dicha partición gener- uales dentro de la fuente de datos utilizada. ada, así como los tamaños exactos de cada uno de Así, el proceso de enmascaramiento se ha desar- los conjuntos. rollado del siguiente modo: Así, se ha validado si el anonimizado de cada texto ha sido adecuado o si se ha equivocado pro- • Se han identificado todas aquellas apariciones tegiendo información innecesaria o no protegiendo de los nombres propios de hombre o mujer información sensible. más frecuentes. Tras dicha revisión, se han identificado casos par- • Se han identificado todas aquellas apariciones ticulares a corregir y patrones generalizados. Se de los apellidos más frecuentes como primer han corregido con iteraciones posteriores análogas apellido. para garantizar la correcta protección de dicha in- • Entre dichos nombres y apellidos, se filtran formación. aquellos que estén entre los términos más A nivel de acuerdo interjueces, de las 112 observa- frecuentes para que no sean filtrados. ciones comunes, los revisores solo han discrepado en 4. Dichos errores han sido analizados y subsanados en el proceso semi-automático previo para todo el 4 https://www.ine.es/dyngs/INEbase/ conjunto. es/operacion.htm?c=Estadistica_C&cid= 1254736177009&menu=resultados&idp=1254734710990 5 https://corpus.rae.es/lfrecuencias.html 3.4.1. Tratamiento del desequilibrio de clases El desequilibrio presente en los datos implica que la mayoría de las clases tienen una cobertura casi nula y provocan un sobreentrenamiento del modelo con las tres primeras clases. Para remediar este problema intentamos reducir la dimensionalidad no de manera matemática con PCA [54] o T-SNE [55], sino con modelos en cascada, cada uno tratando de resolver una tarea más simple y agregando su salida a la entrada del siguiente modelo, hasta ser capaz de predecir la patología exacta. Nos inspiramos en [56] y [57], quienes utilizaron este método para el NER y para el reconocimiento de voz, respectivamente. Por otro lado, en vez de usar métodos probabilísticos Figura 2: Representación gráfica de la partición generada para reducir la variabilidad de las clases, introduci- para la validación de la anonimización realizada. mos determinismo en la arquitectura de nuestro método mediante ontologías que permiten extraer el tipo de patología, el sitio anatómico afectado, 3.3. Modelo de lenguaje la gravedad o la intensidad. Esto nos permite rea- grupar las patologías en relaciones semánticas mas Dada la potencia y la cantidad de datos necesarios genéricas que consiguen mejorar la precisión a la para entrenar un modelo de lenguaje [52], la opción hora de predecir la patología en cada informe. más eficiente para poder usar transformadores es realizar fine-tuning. El objetivo de esto es encon- 3.4.2. Ontologías médicas y traducción trar el modelo preentrenado que mejor se ajuste a nuestros datos y a la detección de una patología. Hubieron trabajos previos que combinaban apren- Para este problema, elegimos el bsc-bio-ehr-es6 , un dizaje automático y ontologías [58], pero dadas las modelo preentrenado de lenguaje biomédico-clínico características tanto lingüísticas como de dificul- diseñado para el idioma español. El modelo ha sido tad de la tarea, nuestro método es original en tér- preentrenado utilizando datos de textos biomédi- minos de extracción de información y de combi- cos y clínicos en español para aprender patrones nación de modelos especializados. Aunque existen lingüísticos específicos. Se basa en la arquitectura ontologías en lengua española como ONTERMET de RoBERTa [53]. Sin embargo, los resultados (pre- [59] o ECIEMAPS [60], tienen el inconveniente de sentados en la Sección 4.3) evidenciaron la dificul- ser demasiado especializadas o poco completas. Por tad que tiene un único modelo para aprender a este motivo decidimos traducir de forma automática detectar enfermedades, por lo que enriquecimos el [61] el nombre de las patologías de nuestro conjunto entrenamiento usando información de ontologías de etiquetas del español al inglés con la API Google médicas y varios modelos en cascada, donde cada Translate y usar ontologías médicas más generales uno aprende informaciones específicas de lo datos. y completas como UMLS [62], SNOMED [63], Med- DRA [64] y HumanDO [65, 22]. 3.4. Ontologías utilizadas y modelos en cas- Tras esto, se ha accedido a dicha información a cada través de las bibliotecas de Python PyMedTermino y PyMedTermino2 [66], así como medcat [67] , dis- A lo largo de esta sección, abordamos en un primer eñadas para acceder a estas ontologías. Con estas nivel el tratamiento del desequilibrio de la variable herramientas, identificamos la codificación corre- objetivo, seguido por la revisión de las ontologías spondiente a cada ontología de las enfermedades médicas y traducción aplicadas, con un apartado analizadas de forma semisupervisada, revisando que final centrado en los modelos en cascada propuestos. la identificación se ajuste a la enfermedad real y no a posibles variaciones similares. Analizando las características y metadatos de dichas ontologías, extrajimos varios metadatos rel- evantes. Primero, utilizando SNOMED es posible identificar diferentes sitios anatómicos de la pa- 6 https://huggingface.co/PlanTL-GOB-ES/bsc-bio- tología a través del finding site. Luego, usando ehr-es Figura 3: Arquitectura de nuestro método (en rojo las etapas solo de entrenamiento, en verde las de entrenamiento e inferencia). de manera combinada UMLS, ICD-10 y MedDRA, ciones son un oráculo. En modo inferencia, extrajimos el tipo y la gravedad de la enfermedad. las relaciones son generadas por el modelo. Para extraer estas características nos hemos inspi- 3. Cada modelo intermediario recibe como en- rado en la clasificación de características predictivas trada los informes y una relación del modelo dermatológicas propuesta en [68]. previo. 4. En cada etapa de la cascada, es decir cuando 3.4.3. Modelos en cascada un modelo ha realizado su predicción, se de- scodifica cada una de ellas y se concatena Los modelos en cascada aprenden las relaciones con el informe inicial, y se vuelve a vectorizar mencionadas en la Tabla 1 (ampliada en la Tabla 8 el conjunto informe-relación predicha medi- del Anexo B). ante el tokenizador del bsc-bio-ehr-es. En la Una vez que hemos extraído de los conceptos ultima etapa, el vector de entrada contiene (las etiquetas traducidas) las relaciones comunes una representación del informe y de las tres existentes en la ontología, entrenamos el bsc-bio- relaciones. ehr-es para predecir cada una de ellas (ver Tabla 5. Un modelo final aprende a predecir la pa- 1). Cada relación predicha sirve para predecir la tología a partir de los informes y de la salida siguiente. En la Sección 4 mostramos en qué orden del último modelo intermediario. deben de ser aprendidas las relaciones. La Figura 3 ilustra nuestro método: 1. Extraemos del corpus el nombre de las pa- 4. Experimentos y resultados tologías, las traducimos, las convertimos en conceptos y recuperamos las relaciones En esta sección describimos los resultados de nuestra ligadas a esos conceptos dentro de las on- arquitectura comparada con modelos de referencia, tologías. y evaluamos su rendimiento. 2. Por cada relación extraída, entrenamos un modelo. En modo entrenamiento, las rela- Tabla 1 Nomenclatura generada a partir de las características extraídas con Pymedtermino (muestra de las 5 enfermedades más frecuentes, versión completa con todas las enfermedades y frecuencias de aparición en la Tabla 8 del Anexo B) Enfermedad Tipo Gravedad Sitio carcinoma de células basales proceso neoplasico importante piel psoriasis proceso autoinmune inofensivo extremidades nevus melanocítico precancer inofensivo todo acné enfermedad leve todo queratosis actínica precancer inofensivo piel 4.1. Enriquecimiento con ontologías patología. El objetivo de este modo es de- mostrar la necesidad de información externa Esta estrategia consiste en entrenar un modelo pre- para realizar la tarea de clasificación. vio al de clasificación de informes: se trata de un • El modo predictivo (PR): el modelo final9 modelo intermediario para aprender el tipo de en- debe predecir las tres características men- fermedad. Para eso, usamos UMLS [62] para re- cionadas, en el orden óptimo. Cada inferen- cuperar los tipos de patología, SNOMED para el cia de una característica debe ayudar a la sitio anatómico y ICD10 para la gravedad7 . Tra- predicción de la siguiente. El objetivo de este ducimos de manera automática el nombre de las modo es demostrar que nuestro modelo tiene enfermedades con Google Translate. una aplicación real y útil para la comunidad médica. 4.2. Modelos Se han considerado diferentes enfoques para este 4.3. Resultados y evaluación modelado, tanto haciendo uso de técnicas basadas De cara a generar una comparativa de OR y PR, en transformadores, como modelos de aprendizaje hemos seleccionado las siguientes métricas: supervisado de clasificación. En cuanto a aquellos basados en transformadores, • Exactitud. Proporción de predicciones cor- se han utilizado los siguientes: rectas sobre el total de predicciones real- • BETO [69]. Tal y como indican sus autores, izadas. se trata de un modelo BERT entrenado con • F1-score. Media armónica de la precisión un corpus en español, utilizando la técnica y el recall. Para problemas multiclase, el Whole Word Masking. F1-score puede calcularse de manera macro • bsc-bio-ehr-es [21]. Modelo generado por (media de f-score de cada clase) o micro (me- el BSC (Barcelona Supercomuting Center), dia entre falsos positivos, falsos negativos y utilizando de base un gran corpus de textos reales positivos de todo el conjunto). biomédicos en español. • Exactitud top-k. Proporción de casos en los cuales la clase verdadera está entre las k Además, el segundo de estos modelos ha sido predicciones más probables del modelo. Esta tratado a través del tuneado de hiperparámetros. métrica es útil cuando no solo importa la Se especifican esos hiperparámetros y el material predicción más probable, sino también otras usado para entrenar los modelos en el Anexo A.3. alternativas que el modelo considere razon- En lo que respecta a modelos clásicos de apren- ables. Para todo este artículo, consideramos dizaje automático de clasificación, se ha recurrido a (k=2). tres de los algoritmos más habituales: la regresión • F1-score top-k. Extensión del concepto de F1- logística, las máquinas de vector soporte (SVM) y score considerando las k clases más probables los Random Forest. predichas por el modelo. Se han propuesto dos enfoques: • El modo oráculo (OR): el modelo8 conoce el Inspirándonos en los trabajos de [70, 71] en apren- tipo, el sitio anatómico y la gravedad de la dizaje automático y [72] en la tarea de POS-tagging, 7 Se descartó MedDRA por no aportar más que las otras 8 9 https://huggingface.co/fundacionctic/oracle-dermat https://huggingface.co/fundacionctic/predict-dermat Tabla 2 que pasamos del 0.5 de precisión con el modelo Tabla con los resultados intermediarios para tipo (t), “vanilla” a 0.66 con la mejor combinación de infor- gravedad (gr) y sitio (sit) de cada enfermedad mación. Es notable que la mejor combinación de características en cascada sea la de tipo seguido Cat. info. Prec. Micro F1 Macro F1 por sitio y gravedad, puesto que la gravedad solo t 0.57 0.56 0.38 tiene 4 variables, lo que nos hacía intuir que su gr 0.57 0.56 0.41 aprendizaje sería más sencillo. Estos resultados con- sit 0.68 0.67 0.59 firman nuestras intuiciones: la necesidad de buscar t → gr → sit 0.70 0.68 0.58 informaciones externas para el entrenamiento del gr → t → sit 0.62 0.61 0.51 modelo y la necesidad de buscar en qué orden hay sit → gr → t 0.72 0.71 0.62 que aprender estas informaciones para optimizar el sistema final de clasificación, así como la eficacia del bsc-bio-ehr-es para nuestra tarea. En la Tabla 4 se presentan los mejores resultados en OR y PR consideramos que profesionales médicos usando nue- para las 5 patologías más frecuentes. stro modelo pueden ver más informativo tener no una sino dos predicciones (viendo la cantidad de clases posibles), al parecerse esto más al estilo de de- 4.4. Análisis de errores de los modelos cisión natural humano, y dejando que sea el médico Tras la generación de estos modelos se ha proce- el que tenga el veredicto final de la enfermedad. dido a realizar un análisis de errores de la mejor Estas métricas han sido obtenidas para todas las configuración PR y del mejor OR. configuraciones contempladas en esta investigación. Por un lado, la poca precisión de los tres mode- Las flechas corresponden a los diferentes modelos en los clásicos de aprendizaje supervisado (regresión cascada: cada característica predicha se convierte logística, SVM, Random Forest) tiene como posible en característica conocida para el siguiente modelo. causa la incapacidad de generalizar sobre etiquetas poco frecuentes. La principal limitación de los mod- 4.3.1. Resultados modelos intermediarios elos clásicos de machine learning está en su falta Exponemos en la Tabla 2 un resumen de los resul- de memoria de contexto: cuanto más largo sea un tados obtenidos con el bsc-bio-ehr-es en PR sobre texto, más costoso es para la máquina recordar el cada uno de los tres componentes del sistema de cas- contenido del principio. Las altas dimensiones de cada: tipo, gravedad y sitio de la enfermedad. Los embeddings tampoco ayudan, puesto que la cantidad detalles de todos los resultados se pueden encontrar de variables a aprender es exponencial. en el Anexo A.4. Examinando las categorías de enfermedad donde La mejor combinación de categorías intermedi- más erran los modelos, concluimos que las discrep- arias en cascada parece ser primero predecir el sitio ancias son debidas a que las enfermedades confundi- de la enfermedad, seguido por la gravedad y por das comparten zonas del cuerpo afectadas similares, fin el tipo. Observemos ahora si se refleja en la niveles de gravedad parecidos, y algunas descrip- predicción final de la enfermedad. ciones de aspecto visual y síntomas compartidos. Por otro lado, a excepción de los cánceres, el mod- 4.3.2. Modelo final de predicción de enfermedad elo tiende a confundir enfermedades cuya apariencia física son las protuberancias. La confusión más fre- En todas las combinaciones de experimentos, bien cuente es entre el carcinoma de células basales y sea con modelos de aprendizaje automático clási- de células escamosas, representando 844 de 2334 cos o con transformadores ajustados, se trata de errores. Aunque pueden aparecer en cualquier parte una tarea de clasificación supervisada multiclase del cuerpo, es más probable que estas enfermedades monoetiqueta. se desarrollen en áreas expuestas al sol, como la Observando la Tabla 3, se puede apreciar cómo los cabeza, el cuello y los brazos. La diferencia clave mejores resultados con respecto a las cuatro métri- entre ellos es su gravedad, siendo el carcinoma es- cas se obtienen para el modelo basado en ontologías camoso más agresivo. Otra confusión frecuente con todas las informaciones añadidas, existiendo del modelo es el acné con la queratosis seborre- una diferencia sustancial con el resto de opciones. ica con 325 errores. Estas enfermedades tienen En OR, cuando el modelo conoce las informaciones similitudes en aspecto visual (protuberancias, en- de las ontologías, los resultados superan el 0.84 rojecimiento, picazón) y en lugares de aparición de precisión absoluta y el 0.92 en precisión top-k. (cara y torso). Son dos condiciones dermatológicas En PR, la ganancia también es significativa puesto que pueden parecerse en textos descriptivos, lo que Tabla 3 Tabla con las métricas obtenidas para cada configuración considerada (AAC: aprendizaje automático clásico; TR: transformador; PR modo predictivo; OR modo oráculo; bsc bsc-bio-ehr-es) Modelo Precisión Micro F1-sc. Macro F1-sc Prec. top-k F1-sc. top-k Regresión logística (AAC) 0.25 0.16 0.12 0.37 0.31 SVM (AAC) 0.263 0.13 0.14 0.39 0.29 Random Forest (AAC) 0.268 0.19 0.12 0.40 0.33 PR BETO (TR) 0.34 0.38 0.12 0.63 0.60 PR bsc (TR) 0.52 0.50 0.42 0.67 0.61 PR bsc (TR) + gr → sit → t 0.58 0.55 0.47 0.69 0.62 PR bsc (TR) + sit → gr → t 0.61 0.59 0.53 0.67 0.59 PR bsc (TR) + t → gr → sit 0.63 0.60 0.54 0.68 0.61 PR bsc (TR) + t → sit → gr 0.66 0.61 0.38 0.71 0.65 OR bsc (TR) + t 0.64 0.47 0.42 0.78 0.63 OR bsc (TR) + gr 0.55 0.53 0.36 0.69 0.60 OR bsc (TR) + sit 0.65 0.63 0.50 0.75 0.74 OR bsc (TR) + sit → t 0.77 0.76 0.66 0.87 0.87 OR bsc (TR) + t → sit → gr 0.84 0.82 0.75 0.92 0.90 Tabla 4 esa información externa para realizar la clasificación Tabla con las métricas (sin top-k) para las 5 patologías porque su modelo de lenguaje no es suficiente. En mas frecuentes un primer momento, intuíamos que el modelo que aprende primero de la gravedad daría el mejor resul- Enfermedad F1 PR F1 OR tado, puesto que esta variable solo tiene 4 categorías acné 0.86 0.94 (inofensiva, leve, moderada, extrema). Sin embargo, carc. cél. basales 0.70 0.92 el mejor resultado lo da un modelo que aprende psoriasis 0.81 0.87 primero el tipo de enfermedad, seguido por el lu- nevus melanocítico 0.72 0.93 gar y al final la gravedad de la enfermedad. Eso queratosis actínica 0.63 0.83 significa, y es lógico a nivel médico, que primero se detecta el tipo de patología, antes de intentar adivinar su gravedad. podría llevar a confusión en un modelo de lenguaje. Como conclusiones, nuestro trabajo presenta varias contribuciones importantes. Primero, propor- cionamos un nuevo conjunto de datos de EHR en 5. Discusión, conclusión y líneas de español de dermatología, anonimizado y etiquetado trabajo futuras en patologías. Segundo, proponemos un método novedoso para predecir en EHR la patología que De manera general, los errores cometidos por el padece una persona. Tercero, este método es un modelo pueden ser explicados, pese a la dificultad sistema híbrido compuesto por varios modelos trans- de la tarea (muchas enfermedades posibles, informes formadores especializados puestos en cascada que médicos que pueden ser tanto de primera cita o de usan como entrada además de los EHR, la salida seguimiento). del modelo precedente. El último modelo es el que Debido a estos errores hemos decidido usar una predice la patología exacta. Los resultados mues- métrica basada en el top-k en vez de la exactitud tran que los modelos en cascada son más eficaces estricta. Si este sistema se utiliza en un entorno que un solo modelo para distinguir enfermedades médico, entendemos que un profesional prefiere poco frecuentes. Eso significa que un solo modelo tener que elegir entre 2 posibles diagnósticos en de extremo a extremo de transformadores no es vez de 25. Es también interesante mencionar que suficiente para distinguir un concepto de patología el mejor escenario en PR es cuando el modelo tiene entre varias decenas en un EHR, pero además que el que aprender tanto el sitio anatómico como el tipo y uso de ontologías externas es necesario para que los la gravedad de la enfermedad antes de adivinar esta transformadores aprendan conceptos intermediarios última. Concluimos que un transformador necesita relacionados con la patología, de forma similar al aprendizaje humano. Aun así, los resultados mues- [5] D. W. Otter, J. R. Medina, J. K. Kalita, tran un margen de mejora importante. Esto puede A Survey of the Usages of Deep Learning abordarse desde diferentes puntos de vista, como el for Natural Language Processing, IEEE etiquetado manual de los EHR en primera cita o cita Transactions on Neural Networks and Learn- de seguimiento, la búsqueda de nuevas relaciones ing Systems 32 (2021) 604–624. doi:10.1109/ ontológicas (como por ejemplo características de TNNLS.2020.2979670. etiología más exhaustivas), o probar modelos difer- [6] A. Vaswani, N. Shazeer, N. Parmar, J. Uszkor- entes para aprender cada característica. eit, L. Jones, A. N. Gomez, L. u. Kaiser, I. Polo- Como posible línea de trabajo futuro proponemos sukhin, Attention is all you need, in: I. Guyon, automatizar el uso de ontologías mediante el RAG U. V. Luxburg, S. Bengio, H. Wallach, R. Fer- [73], como en BiomedRAG [74] así como el uso de gus, S. Vishwanathan, R. Garnett (Eds.), NegEx [75] para evitar los falsos positivos, acom- Advances in Neural Information Processing pañado de nuestro sistema de modelos en cascada Systems, volume 30, Curran Associates, Inc., para eliminar el determinismo a la hora de encon- 2017. URL: https://proceedings.neurips.cc/ trar relaciones de concepto para convertirse en un paper_files/paper/2017/file/ modelo de extremo a extremo. 3f5ee243547dee91fbd053c1c4a845aa- Paper.pdf. [7] L. P. Schaub, M. M. Maestre, La inteligencia Agradecimientos artificial como impulso del procesamiento Agradecimiento a la entidad SATEC por propor- del lenguaje natural: retos, fronteras y cionar el conjunto de datos, a la Fundación CTIC logros, Abaco: Revista de cultura y cien- que puso a nuestra disposición todo el material y cias sociales 61 (2023) 66–81. URL: https: los recursos. Agradecemos a los revisores así como //revista-abaco.es/la-inteligencia-artificial- a Bea de Otto por la lectura y los comentarios per- como-impulso-del-procesamiento-del- tinentes que mejoraron el articulo. Agradecemos y lenguaje-natural-retos-fronteras-y-logros/. felicitamos al BSC por el modelo bsc-bio-ehr-es. [8] J. K. De Freitas, K. W. Johnson, E. Golden, G. N. Nadkarni, J. T. Dudley, E. P. Bottinger, B. S. Glicksberg, R. Miotto, Phe2vec: Au- Referencias tomated disease phenotyping based on unsu- pervised embeddings from electronic health [1] C. Hernández Salvador, Modelo de his- records, Patterns (N. Y.) 2 (2021) 100337. toria clínica electrónica para teleconsulta doi:doi.org/10.1016/j.patter.2021.100337. médica, 2004. URL: https://oa.upm.es/231/. [9] T.-D. Le, R. Noumeir, J. Rambaud, G. Sans, doi:10.20868/UPM.thesis.231, unpublished. P. Jouvet, Detecting of a Patient’s Condition [2] J. L. Hernández, Análisis y tipificación de From Clinical Narratives Using Natural Lan- errores lingüísticos para una propuesta de guage Representation, IEEE Open Journal of mejora de informes médicos en español, Proce- Engineering in Medicine and Biology 3 (2022) samiento del Lenguaje Natural 70 (2023) 231– 142–149. doi:10.1109/OJEMB.2022.3209900. 234. URL: http://journal.sepln.org/sepln/ojs/ [10] Y. Li, M. Mamouei, G. Salimi-Khorshidi, ojs/index.php/pln/article/view/6493. S. Rao, A. Hassaine, D. Canoy, T. Lukasiewicz, [3] F. C. García, J. M. G. Hidalgo, M. de Bue- K. Rahimi, Hi-BEHRT: Hierarchical naga Rodríguez, J. Mata, M. M. López, Transformer-Based Model for Accurate Pre- Acceso a la información bilingüe uti- diction of Clinical Events Using Multimodal lizando ontologías específicas del do- Longitudinal Electronic Health Records, IEEE minio biomédico, Procesamiento del Journal of Biomedical and Health Infor- Lenguaje Natural (2007) 107–117. URL: matics 27 (2023) 1106–1117. doi:10.1109/ https://www.redalyc.org/articulo.oa?id= JBHI.2022.3224727. 515751738012. [11] A. Névéol, H. Dalianis, S. Velupillai, [4] S. Santiso, A. Casillas, A. Pérez, M. Oronoz, G. Savova, P. Zweigenbaum, Clinical Natu- K. Gojenola, Document-level adverse ral Language Processing in languages other drug reaction event extraction on elec- than English: opportunities and challenges, tronic health records in Spanish, Proce- Journal of Biomedical Semantics 9 (2018) samiento del Lenguaje Natural 56 (2016) 49–56. 12. URL: https://doi.org/10.1186/s13326-018- URL: http://journal.sepln.org/sepln/ojs/ojs/ 0179-8. doi:10.1186/s13326-018-0179-8. index.php/pln/article/view/5286. [12] J. de la Rosa, E. G. Ponferrada, M. Romero, P. Villegas, P. G. de Prado Salas, M. Grandury, URL: https://www.sciencedirect.com/science/ BERTIN: Efficient Pre-Training of a Spanish article/pii/S1532046417301466. doi:https:// Language Model using Perplexity Sampling, doi.org/10.1016/j.jbi.2017.06.019. Procesamiento del Lenguaje Natural 68 (2022) [20] M. Chizhikova, P. López-Úbeda, J. Collado- 13–23. URL: http://journal.sepln.org/sepln/ Montañez, T. Martín-Noguerol, M. C. Díaz- ojs/ojs/index.php/pln/article/view/6403. Galiano, A. Luna, L. A. Ureña-López, [13] C. Aracena, N. Rodríguez, V. Rocco, M. T. Martín-Valdivia, CARES: A J. Dunstan, Pre-trained language models Corpus for classification of Spanish Ra- in Spanish for health insurance cover- diological reports, Computers in Bi- age, in: T. Naumann, A. Ben Abacha, ology and Medicine 154 (2023) 106581. S. Bethard, K. Roberts, A. Rumshisky (Eds.), URL: https://www.sciencedirect.com/science/ Proceedings of the 5th Clinical Natural article/pii/S001048252300046X. doi:https:// Language Processing Workshop, Association doi.org/10.1016/j.compbiomed.2023.106581. for Computational Linguistics, Toronto, [21] C. P. Carrino, J. Llop, M. Pàmies, A. Gutiérrez- Canada, 2023, pp. 433–438. URL: https: Fandiño, J. Armengol-Estapé, J. Silveira- //aclanthology.org/2023.clinicalnlp-1.46. Ocampo, A. Valencia, A. Gonzalez-Agirre, doi:10.18653/v1/2023.clinicalnlp-1.46. M. Villegas, Pretrained Biomedical Language [14] M. Rojas, J. Dunstan, F. Villena, Clinical Models for Clinical NLP in Spanish, in: Flair: A Pre-Trained Language Model for D. Demner-Fushman, K. B. Cohen, S. Ana- Spanish Clinical Natural Language Processing, niadou, J. Tsujii (Eds.), Proceedings of the in: T. Naumann, S. Bethard, K. Roberts, 21st Workshop on Biomedical Language Pro- A. Rumshisky (Eds.), Proceedings of the cessing, Association for Computational Lin- 4th Clinical Natural Language Processing guistics, Dublin, Ireland, 2022, pp. 193–199. Workshop, Association for Computational Lin- URL: https://aclanthology.org/2022.bionlp- guistics, Seattle, WA, 2022, pp. 87–92. URL: 1.19. doi:10.18653/v1/2022.bionlp-1.19. https://aclanthology.org/2022.clinicalnlp-1.9. [22] L. M. Schriml, J. B. Munro, M. Schor, D. Ol- doi:10.18653/v1/2022.clinicalnlp-1.9. ley, C. McCracken, V. Felix, J. A. Baron, [15] J. Xu, X. Xi, J. Chen, V. S. Sheng, R. Jackson, S. M. Bello, C. Bearer, otros, J. Ma, Z. Cui, A Survey of Deep Learn- The human disease ontology 2022 update, Nu- ing for Electronic Health Records, Ap- cleic acids research 50 (2022) D1255–D1261. plied Sciences 12 (2022). URL: https: doi:10.1093/nar/gkab1063. //www.mdpi.com/2076-3417/12/22/11709. [23] A. T. McCray, J. L. Sponsler, B. Brylawski, doi:10.3390/app122211709. A. C. Browne, The role of lexical knowledge [16] K. Araki, N. Matsumoto, K. Togo, in biomedical text understanding, in: Pro- N. Yonemoto, E. Ohki, L. Xu, Y. Hasegawa, ceedings of the annual symposium on com- D. Satoh, R. Takemoto, T. Miyazaki, Develop- puter application in medical care, American ing artificial intelligence models for extracting Medical Informatics Association, 1987, pp. oncologic outcomes from japanese electronic 103–107. URL: https://www.ncbi.nlm.nih.gov/ health records, Adv. Ther. 40 (2023) 934–950. pmc/articles/PMC2245098/. doi:doi.org/10.1007/s12325-022-02397-7. [24] S. Doan, M. Conway, T. M. Phuong, L. Ohno- [17] Z. Kraljevic, A. Shek, D. Bean, R. Bendayan, Machado, Natural language processing in J. T. Teo, R. J. B. Dobson, MedGPT: Medical biomedicine: a unified system architecture Concept Prediction from Clinical Narratives, overview, Methods Mol Biol 1168 (2014) 275– CoRR abs/2107.03134 (2021). URL: https:// 294. doi:10.1007/978-1-4939-0847-9_16. arxiv.org/abs/2107.03134. arXiv:2107.03134. [25] P. Lambrix, Towards a semantic web for bioin- [18] P. Haug, J. Ferraro, J. Holmén, X. Wu, K. My- formatics using ontology-based annotation, in: nam, M. Ebert, N. Dean, J. Jones, An 14th IEEE International Workshops on En- ontology-driven, diagnostic modeling system, abling Technologies: Infrastructure for Collab- Journal of the American Medical Informat- orative Enterprise (WETICE’05), IEEE, 2005, ics Association: JAMIA 20 (2013) 102–110. pp. 3–7. doi:10.1109/WETICE.2005.58. doi:10.1136/amiajnl-2012-001376. [26] X. Jing, H. Min, Y. Gong, D. F. Sittig, [19] K. Buchan, M. Filannino, Özlem Uzuner, P. Biondich, D. Robinson, T. Law, A. Wright, Automatic prediction of coronary artery C. Nøhr, A. Faxvaag, L. Rennert, N. Hubig, disease from clinical narratives, Journal R. Gimbel, A systematic review of ontology- of Biomedical Informatics 72 (2017) 23–32. based clinical decision support system rules: us- age, management, and interoperability (2022). compounds and proteins named entity recog- doi:10.1101/2022.05.11.22274984. nition track, in: K. Jin-Dong, N. Claire, [27] G. J. Shannon, N. Rayapati, S. M. Corns, D. C. B. Robert, D. Louise (Eds.), Proceedings of Wunsch, 2nd, Comparative study using inverse the 5th Workshop on BioNLP Open Shared ontology cogency and alternatives for concept Tasks, Association for Computational Lin- recognition in the annotated National Library guistics, Hong Kong, China, 2019, pp. 1– of Medicine database, Neural Netw. 139 (2021) 10. URL: https://aclanthology.org/D19-5701. 86–104. doi:10.1016/j.neunet.2021.01.018. doi:10.18653/v1/D19-5701. [28] M. Romá-Ferri, OntoFIS: Tecnología [37] A. Miranda-Escalada, A. Gonzalez-Agirre, ontológica en el dominio farma- J. Armengol-Estapé, M. Krallinger, Overview coterapéutico, Ph.D. thesis, 2009. of automatic clinical coding: annotations, URL: https://www.researchgate.net/ guidelines, and solutions for non-english clin- publication/265986206_OntoFIS_ ical cases at codiesp track of CLEF eHealth Tecnologia_ontologica_en_el_dominio_ 2020, in: Working Notes of Conference and farmacoterapeutico. Labs of the Evaluation (CLEF) Forum. CEUR [29] S. Hochreiter, J. Schmidhuber, Long short- Workshop Proceedings, 2020. URL: https:// term memory, Neural Comput. 9 (1997) ceur-ws.org/Vol-2696/paper_263.pdf. 1735–1780. URL: https://www.bioinf.jku.at/ [38] T. A. Koleck, C. Dreisbach, P. E. Bourne, publications/older/2604.pdf. S. Bakken, Natural language processing of [30] Y. Luo, Recurrent neural networks for clas- symptoms documented in free-text narratives sifying relations in clinical notes, Journal of electronic health records: a systematic of biomedical informatics 72 (2017) 85–95. review, Journal of the American Medical doi:doi.org/10.1016/j.jbi.2017.07.006. Informatics Association 26 (2019) 364–379. [31] J. Giner Pérez de Lucía, Reconocimiento doi:10.1093/jamia/ocy173. de entidades nombradas mediante técnicas [39] A.-J. Aberkane, G. Poels, S. V. Broucke, Ex- de aprendizaje neuronal profundo en imá- ploring Automated GDPR-Compliance in Re- genes manuscritas, Ph.D. thesis, Universitat quirements Engineering: A Systematic Map- Politècnica de València, 2022. URL: http:// ping Study, IEEE Access 9 (2021) 66542–66559. hdl.handle.net/10251/185263. doi:10.1109/ACCESS.2021.3076921. [32] A. E. W. Johnson, L. Bulgarelli, L. Shen, [40] A. Iglesias, E. Castro, R. Pérez, L. Castaño, A. Gayles, A. Shammout, S. Horng, T. J. P. Martínez, J. M. Gómez-Pérez, S. Kohler, Pollard, S. Hao, B. Moody, B. Gow, L.- R. Melero, Mostas: Un etiquetador morfo- w. H. Lehman, L. A. Celi, R. G. Mark, semántico, anonimizador y corrector de his- MIMIC-IV, a freely accessible electronic health toriales clínicos, Procesamiento del lenguaje record dataset, Scientific Data 10 (2023) Natural 41 (2008) 299–300. URL: http:// 1. URL: https://doi.org/10.1038/s41597-022- hdl.handle.net/10045/8615. 01899-x. doi:10.1038/s41597-022-01899-x. [41] T. Lordick, A. Hoch, B. Fransen, Anonymiza- [33] A. Johnson, T. Pollard, R. Mark, MIMIC-III tion of Electronic Health Care Records: The clinical database, 2023. doi:doi.org/10.13026/ EHR Anonymizer, Springer International Pub- C2XW26. lishing, Cham, 2022, pp. 485–499. URL: https: [34] F. J. Moreno-Barea, H. Mesa, N. Ribelles, //doi.org/10.1007/978-3-031-08411-9_18. E. Alba, J. M. Jerez, Clinical Text Classifi- [42] P. Stenetorp, S. Pyysalo, G. Topić, T. Ohta, cation in Cancer Real-World Data in Span- S. Ananiadou, J. Tsujii, brat: a Web-based ish, in: I. Rojas, O. Valenzuela, F. Ro- Tool for NLP-Assisted Text Annotation, in: jas Ruiz, L. J. Herrera, F. Ortuño (Eds.), F. Segond (Ed.), Proceedings of the Demon- Bioinformatics and Biomedical Engineering, strations at the 13th Conference of the Euro- Springer Nature Switzerland, Cham, 2023, pean Chapter of the Association for Compu- pp. 482–496. doi:doi.org/10.1007/978-3-031- tational Linguistics, Association for Computa- 34953-9_38. tional Linguistics, Avignon, France, 2012, pp. [35] A. Intxaurrondo, SPACCC, 2019. URL: 102–107. URL: https://aclanthology.org/E12- https://doi.org/10.5281/zenodo.2560316. 2021. doi:10.5281/zenodo.2560316. [43] S. Lima Lopez, N. Perez, L. García-Sardiña, [36] A. Gonzalez-Agirre, M. Marimon, A. Intxau- M. Cuadros, HitzalMed: Anonymisation of rrondo, O. Rabal, M. Villegas, M. Krallinger, clinical text in Spanish, in: Proceedings of PharmaCoNER: Pharmacological substances, the Twelfth Language Resources and Eval- uation Conference, European Language Re- arXiv:2307.13106. sources Association, Marseille, France, 2020, [52] B. Kim, S. Cha, S. Park, J. Lee, S. Lee, pp. 7038–7043. URL: https://aclanthology.org/ S. Kang, J. So, K. Kim, J. Jung, J. Lee, 2020.lrec-1.870. S. Lee, Y. Paik, H. Kim, J. Kim, W. Lee, [44] G. Francopoulo, L.-P. Schaub, Anonymiza- Y. Ro, Y. Cho, J. Kim, J. Song, J. Yu, S. Lee, tion for the GDPR in the Context of Citi- J. Cho, K. Sohn, The breakthrough mem- zen and Customer Relationship Management ory solutions for improved performance on and NLP, in: workshop on Legal and Eth- llm inference, IEEE Micro 44 (2024) 40–48. ical Issues (Legal2020), LREC2020, ELRA, doi:10.1109/MM.2024.3375352. Marseille, France, 2020, pp. 9–14. URL: https: [53] Y. Liu, M. Ott, N. Goyal, J. Du, M. Joshi, //hal.science/hal-02939437. D. Chen, O. Levy, M. Lewis, L. Zettle- [45] M. Marimon, A. Gonzalez-Agirre, A. Intxaur- moyer, V. Stoyanov, RoBERTa: A Ro- rondo, H. Rodriguez, J. L. Martin, M. Villegas, bustly Optimized BERT Pretraining Approach, M. Krallinger, Automatic De-identification of 2019. URL: https://arxiv.org/abs/1907.11692. Medical Texts in Spanish: the MEDDOCAN arXiv:1907.11692. Track, Corpus, Guidelines, Methods and Eval- [54] M. A. H. Wadud, M. M. Kabir, M. F. Mridha, uation of Results, in: IberLEF@ SEPLN, 2019, M. A. Ali, M. A. Hamid, M. M. Monowar, pp. 618–638. URL: https://ceur-ws.org/Vol- How can we manage offensive text in so- 2421/MEDDOCAN_overview.pdf. cial media-a text classification approach us- [46] G. S. Krishnan, S. Kamath S, Ontology- ing LSTM-BOOST, International Journal driven text feature modeling for disease pre- of Information Management Data Insights 2 diction using unstructured radiological notes, (2022) 100095. doi:https://doi.org/10.1016/ Computación y Sistemas 23 (2019) 915–922. j.jjimei.2022.100095. doi:doi.org/10.13053/cys-23-3-3238. [55] G. Liu, M. Boyd, M. Yu, S. Z. Halim, N. Qud- [47] O. B. Shoham, N. Rappoport, CPLLM: Clin- dus, Identifying causality and contributory ical Prediction with Large Language Mod- factors of pipeline incidents by employing els, arXiv preprint arXiv:2309.11295 (2023). natural language processing and text mining arXiv:2309.11295. techniques, Process safety and environmen- [48] J. Devlin, M.-W. Chang, K. Lee, K. Toutanova, tal protection 152 (2021) 37–46. doi:doi.org/ BERT: Pre-training of Deep Bidirectional 10.1016/j.psep.2021.05.036. Transformers for Language Understanding, [56] M. Dinarelli, S. Rosset, Models Cascade in: J. Burstein, C. Doran, T. Solorio (Eds.), for Tree-Structured Named Entity Detection, Proceedings of the 2019 Conference of the in: H. Wang, D. Yarowsky (Eds.), Proceed- North American Chapter of the Association ings of 5th International Joint Conference on for Computational Linguistics: Human Lan- Natural Language Processing, Asian Federa- guage Technologies, Volume 1 (Long and tion of Natural Language Processing, Chiang Short Papers), Association for Computational Mai, Thailand, 2011, pp. 1269–1278. URL: Linguistics, Minneapolis, Minnesota, 2019, https://aclanthology.org/I11-1142. pp. 4171–4186. URL: https://aclanthology.org/ [57] S. Ghannay, A. Caubrière, S. Mdhaffar, N19-1423. doi:10.18653/v1/N19-1423. G. Laperrière, B. Jabaian, Y. Estève, Where [49] X. Peng, G. Long, T. Shen, S. Wang, J. Jiang, Are We in Semantic Concept Extraction Sequential Diagnosis Prediction with Trans- for Spoken Language Understanding?, in: former and Ontological Representation, in: Speech and Computer: 23rd International 2021 IEEE International Conference on Data Conference, SPECOM 2021, St. Petersburg, Mining (ICDM), IEEE Computer Society, Russia, September 27–30, 2021, Proceed- Los Alamitos, CA, USA, 2021, pp. 489–498. ings, Springer-Verlag, Berlin, Heidelberg, URL: https://doi.ieeecomputersociety.org/ 2021, p. 202–213. URL: https://doi.org/ 10.1109/ICDM51629.2021.00060. 10.1007/978-3-030-87802-3_19. doi:10.1007/ doi:10.1109/ICDM51629.2021.00060. 978-3-030-87802-3_19. [50] R. Saripalle, C. Runyan, M. Russell, Using HL7 [58] S. Ghidalia, O. L. Narsis, A. Bertaux, FHIR to achieve interoperability in patient C. Nicolle, Combining Machine Learning and health record, J. Biomed. Inform. 94 (2019) Ontology: A Systematic Literature Review, 103188. doi:10.1016/j.jbi.2019.103188. 2024. arXiv:2401.07744. [51] P. Törnberg, How to use llms for text analysis, [59] T. V. Vila, Ontoloxías e tradución biomédica: 2023. URL: https://arxiv.org/abs/2307.13106. creación dunha base de coñecemento termi- nolóxico sobre os erros innatos do metabolismo doi:doi.org/10.1186/s13326-016-0085-x. en francés e español, Ph.D. thesis, Universi- [69] J. Cañete, G. Chaperon, R. Fuentes, J.- dade de Vigo, 2015. URL: https://infoling.org/ H. Ho, H. Kang, J. Pérez, Spanish pre- informacion/T182.html. trained bert model and evaluation data, [60] A. Villaplana, R. Martínez, S. Montalvo, 2023. URL: https://arxiv.org/abs/2308.02976. Improving medical entity recognition in arXiv:2308.02976. spanish by means of biomedical language [70] M. Lapin, M. Hein, B. Schiele, Top-k models, Electronics 12 (2023). URL: https: Multiclass SVM, in: C. Cortes, N. Lawrence, //www.mdpi.com/2079-9292/12/23/4872. D. Lee, M. Sugiyama, R. Garnett (Eds.), doi:10.3390/electronics12234872. Advances in Neural Information Processing [61] F. Stahlberg, Neural machine translation: Systems, volume 28, Curran Associates, Inc., A review, Journal of Artificial Intelligence 2015. URL: https://proceedings.neurips.cc/ Research 69 (2020) 343–418. doi:doi.org/ paper_files/paper/2015/file/ 10.1613/jair.1.12007. 0336dcbab05b9d5ad24f4333c7658a0e- [62] O. Bodenreider, The unified medical language Paper.pdf. system (UMLS): integrating biomedical ter- [71] A. Sawada, E. Kaneko, K. Sagi, Trade-offs in minology, Nucleic acids research 32 (2004) Top-k Classification Accuracies on Losses for 267–270. doi:10.1093/nar/gkh061. Deep Learning, CoRR abs/2007.15359 (2020). [63] K. A. Spackman, K. E. Campbell, R. A. Côté, URL: https://arxiv.org/abs/2007.15359. SNOMED RT: a reference terminology for arXiv:2007.15359. health care, in: Proceedings of the AMIA [72] A. Ratnaparkhi, A Linear Observed Time annual fall symposium, American Medical In- Statistical Parser Based on Maximum Entropy formatics Association, 1997, p. 640. URL: Models, CoRR cmp-lg/9706014 (1997). URL: https://pubmed.ncbi.nlm.nih.gov/9357704/. http://arxiv.org/abs/cmp-lg/9706014. [64] E. G. Brown, L. Wood, S. Wood, The [73] Y. Gao, Y. Xiong, X. Gao, K. Jia, J. Pan, Y. Bi, medical dictionary for regulatory activities Y. Dai, J. Sun, M. Wang, H. Wang, Retrieval- (MedDRA), Drug safety 20 (1999) 109– Augmented Generation for Large Language 117. URL: https://bioportal.bioontology.org/ Models: A Survey, 2024. arXiv:2312.10997. ontologies/MEDDRA. [74] M. Li, H. Kilicoglu, H. Xu, R. Zhang, [65] L. M. Schriml, E. Mitraka, J. Munro, BiomedRAG: A Retrieval Augmented Large B. Tauber, M. Schor, L. Nickle, V. Felix, Language Model for Biomedicine, 2024. L. Jeng, C. Bearer, R. Lichenstein, et al., arXiv:2405.00465. Human Disease Ontology 2018 update: clas- [75] G. Argüello-González, J. Aquino-Esperanza, sification, content and workflow expansion, D. Salvador, R. Bretón-Romero, C. Del Río- Nucleic acids research 47 (2019) D955–D962. Bermudez, J. Tello, S. Menke, Negation recog- doi:10.1093/nar/gky1032. nition in clinical natural language processing [66] J.-B. Lamy, A. Venot, C. Duclos, PyMedTer- using a combination of the NegEx algorithm mino: an open-source generic API for ad- and a convolutional neural network, BMC vanced terminology services, Stud. Health Medical Informatics and Decision Making Technol. Inform. 210 (2015) 924–928. URL: 23 (2023) 216. URL: https://doi.org/10.1186/ https://pubmed.ncbi.nlm.nih.gov/25991291/. s12911-023-02301-5. doi:10.1186/s12911-023- [67] Z. Kraljevic, T. Searle, A. Shek, L. Roguski, 02301-5. K. Noor, D. Bean, A. Mascio, L. Zhu, A. A. Fo- larin, A. Roberts, R. Bendayan, M. P. Richard- son, R. Stewart, A. D. Shah, W. K. Wong, A. Detalles experimentales Z. Ibrahim, J. T. Teo, R. J. B. Dobson, Multi- domain clinical natural language processing En este apartado, explicamos y describimos en de- with MedCAT: The Medical Concept Anno- talles los resultados obtenidos y el procedimiento tation Toolkit, Artif. Intell. Med. 117 (2021) para reproducir el experimento. 102083. doi:10.1016/j.artmed.2021.102083. [68] H. M. Fisher, R. Hoehndorf, B. S. Bazelato, A.1. Algoritmos de extracción de informa- S. S. Dadras, L. E. King, Jr, G. V. Gkoutos, ción de las ontologías J. P. Sundberg, P. N. Schofield, DermO; an ontology for the description of dermatologic En el Algoritmo 1, explicamos el proceso de extrac- disease, J. Biomed. Semantics 7 (2016) 38. ción de información de las ontologías para agregar relaciones entre cada informe y la enfermedad aso- 3. Por cada elemento de cada paquete, entren- ciada a éste. amos un modelo en modo supervisado para aprender ese elemento. 1. Por cada enfermedad, la traducimos en inglés mediante la API de Google Translate. 4. Una vez que cada modelo está entrenado, su predicción del elemento se concatena con 2. Luego, por cada ontología en nuestra lista la entrada original, y sirve de nueva entrada tenemos diferentes relaciones, por lo que es para entrenar el modelo a predecir el próximo importante usarlas todas. A partir del nom- elemento del paquete. bre de la enfermedad traducida en inglés tenemos tres opciones: 5. Entrenamos otro modelo con el próximo ele- mento del paquete y la nueva entrada. a) Si es SNOMED, extraemos el sitio del cuerpo y de la piel afectados. 6. Cuando todos los elementos han sido apren- b) Si es UMLS, extraemos el por la enfer- dido por los diferentes modelos en cascada, medad. se entrena un último modelo con la entrada c) Si es ICD10, extraemos la gravedad original enriquecida por la última salida (con de la enfermedad mediante la inter- todos los elementos predichos) para predecir pretación de la información sobre si la enfermedad. es una afección mayor o menor, y si 7. Una vez que todos los paquetes están proce- conlleva morbilidad. sados, se comparan los modelos y se elige el mejor. Algoritmo 1 Extracción de relaciones 1: load pymedtermino library Algoritmo 2 Modelos en cascada 2: for 𝑑𝑖𝑠𝑒𝑎𝑠𝑒𝑠 = 1, 2, . . . , 𝑀 do 1: 𝑐𝑜𝑚𝑏𝑖 ← [] 3: translate 𝑑𝑖𝑠𝑒𝑎𝑠𝑒𝑠 with Google API 2: for 𝑖𝑡𝑒𝑟1 = 1, 2, . . . 𝑁 do 4: for 𝑜𝑛𝑡𝑜𝑙𝑜𝑔𝑦 = 1, 2, . . . , 𝑁 do 3: for 𝑖𝑡𝑒𝑟2 = 1, 2, . . . 𝑀 do 5: if 𝑆𝑁 𝑂𝑀 𝐸𝐷 then 4: 𝑐𝑜𝑚𝑏𝑖 ← 𝑖𝑡𝑒𝑟1, 𝑖𝑡𝑒𝑟2 6: 𝑑𝑖𝑠𝑒𝑎𝑠𝑒𝑠.𝑔𝑒𝑡𝑇 𝑦𝑝𝑒() 5: end for 7: else if 𝑈 𝑀 𝐿𝑆 then 6: end for 8: 𝑑𝑖𝑠𝑒𝑎𝑠𝑒𝑠.𝑔𝑒𝑡𝐿𝑜𝑐𝑎𝑡𝑖𝑜𝑛() 7: for 𝑟𝑒𝑙𝑎𝑡𝑖𝑜𝑛𝑠 in 𝑐𝑜𝑚𝑏𝑖 do 9: else 8: 𝑖𝑛𝑝𝑢𝑡 ← 𝑠𝑡𝑟𝑖𝑛𝑔(𝑚𝑒𝑑𝑖𝑐𝑎𝑙𝑅𝑒𝑐𝑜𝑟𝑑𝑠) 10: 𝑑𝑖𝑠𝑒𝑎𝑠𝑒𝑠.𝑔𝑒𝑡𝐴𝑓 𝑓 𝑒𝑐𝑡𝑖𝑜𝑛() 9: 𝑖𝑛𝑝𝑢𝑡.𝑡𝑜𝑘𝑒𝑛𝑖𝑧𝑒() 11: if ℎ𝑎𝑠(𝑚𝑖𝑛𝑜𝑟) then 10: for 𝑟𝑒𝑙𝑎𝑡𝑖𝑜𝑛 in 𝑟𝑒𝑙𝑎𝑡𝑖𝑜𝑛𝑠 do 12: 𝑆𝑒𝑡𝑇 𝑜(𝑙𝑖𝑔ℎ𝑡) 11: 𝑜𝑢𝑡𝑝𝑢𝑡 ← 𝑚𝑜𝑑𝑒𝑙.𝑡𝑟𝑎𝑖𝑛(𝑟𝑒𝑙𝑎𝑡𝑖𝑜𝑛) 13: else if ℎ𝑎𝑠(𝑚𝑎𝑗𝑜𝑟) then 12: 𝑖𝑛𝑝𝑢𝑡 ← 𝑖𝑛𝑝𝑢𝑡 + 𝑜𝑢𝑡𝑝𝑢𝑡 14: 𝑆𝑒𝑡𝑇 𝑜(𝑖𝑚𝑝𝑜𝑟𝑡𝑎𝑛𝑡) 13: end for 15: else if ℎ𝑎𝑠(𝑚𝑜𝑟𝑏𝑖𝑑𝑖𝑡𝑦) then 14: 𝑜𝑢𝑡𝑝𝑢𝑡 ← 𝑀 𝑜𝑑𝑒𝑙.𝑡𝑟𝑎𝑖𝑛(𝑑𝑖𝑠𝑒𝑎𝑠𝑒𝑠) 16: 𝑆𝑒𝑡𝑇 𝑜(𝑑𝑒𝑎𝑑𝑙𝑦) 15: end for 17: else 16: 𝑐𝑜𝑚𝑝𝑢𝑡𝑒𝐴𝑐𝑐𝑢𝑟𝑎𝑐𝑦() 18: 𝑆𝑒𝑡𝑇 𝑜(𝑖𝑛𝑜𝑓 𝑓 𝑒𝑛𝑠𝑖𝑣𝑒) 17: 𝑔𝑒𝑡𝐵𝑒𝑠𝑡𝑀 𝑜𝑑𝑒𝑙() 19: end if 20: end if 21: end for 22: end for A.3. Configuración del entrenamiento Se han identificado los siguientes parámetros del modelo como susceptibles de tratamiento: A.2. Algoritmo de los modelos en cascada • Tamaño del lote (batch size). Número de En este apartado, explicamos el funcionamiento de muestras de entrenamiento que se procesarán los modelos en cascada (Algoritmo 2): a través de la red en una sola iteración antes de que se actualicen los pesos del modelo. 1. Realizamos la combinación ordenada de las • Tasa de aprendizaje (learning rate). Controla tres relaciones que tenemos, con paquetes de cuánto se ajustan los pesos del modelo en tamaño 1 o 3. respuesta al error calculado en cada iteración 2. Por cada uno de esos paquetes, cargamos el del entrenamiento. dataset y lo tokenizamos. Tabla 5 Tabla con los resultados intermediarios para tipo, gravedad y sitio de cada enfermedad Categoría de información Precisión Micro F1 Macro F1 t 0.57 0.56 0.38 gr 0.57 0.56 0.41 sit 0.68 0.67 0.59 gr → t → sit 0.62 0.61 0.51 gr → sit → t 0.66 0.66 0.58 t → gr → sit 0.70 0.68 0.58 t → sit → gr 0.70 0.68 0.57 sit → t → gr 0.69 0.67 0.58 sit → gr → t 0.72 0.71 0.62 • Número de épocas (epochs). Número de veces A.5. Comparativa entre los resultados de los que el algoritmo de aprendizaje trabajará diferentes enfoques a través de todo el conjunto de datos de entrenamiento. Se ha llevado a cabo una comparativa del método OR completo con la información de las ontologías Para cada uno de estos hiperparámetros se han (modelo A) y el método basado en el modelo bsc- contemplado diferentes valores posibles y, tras un bio-ehr-es vanilla sin ninguna información añadida proceso de grid search, se ha determinado que los (modelo B) como referencia de los desarrollos pre- valores que mejores resultados proporcionan son sentados en esta investigación, haciendo especial batch size 64, learning rate 0.001 y epochs 10. hincapié en las mejoras que ha proporcionado el Los experimentos se llevaron a cabo mediante utilizar la visión top-k, y viendo en qué situaciones una NVIDIA GeForce RTX 2080 Ti 12GB y una dichos cambios ha supuesto una mejora en los resul- NVIDIA RTX A6000 50GB. Usamos la bibioteca tados. Esta comparativa es presentada en la Tabla Pytorch 2.2.1 con CUDA 12.1. Cada entrenamiento 7. duraba entre 3 y 5 minutos dados los pocos datos en Para el modelo A, las métricas de precisión y F1- el corpus. En total, contando el grid search, los ex- score generadas sin el uso de top-k se corresponden perimentos necesitaron algo mas que 96 horas para con 0.82 y 0.73, las cuales se han visto mejoradas obtener los resultados presentados en el artículo. con el enfoque top-k pasando a valores 0.86 y 0.85. Del mismo modo, se ha observado como el modelo A.4. Resultados detallados de los modelos B pasa de valores 0.52 y 0.42 para dichas métricas intermediarios a 0.67 y 0.61 con la inclusión del top-k. Si bien en el modelo A se aprecian mejoras evidentes, es en el En esta sección, presentamos los resultados de varias caso B donde existe una mejora más sustancial. combinaciones en la Tabla 5 que se llevaron a cabo Ilustrativamente, se presenta tabla 6 un análisis para predecir la patología de la mejor manera posi- de en qué situaciones ambos modelos han mejorado ble. Tratándose de variaciones sin repetición, el por el uso del enfoque top-k. Con respecto al modelo numero total de combinaciones posibles es de la A, los principales errores vienen de predecir “der- forma: matitis atópica” donde la realidad se corresponde a 𝑛 𝑛 ∑︁ ∑︁ 𝑛! “eccema” (17.65%) o “psoriasis” (9.8%). En el caso 𝑉𝑛𝑘 = . (𝑛 − 𝑘)! de “eccema”, tiene sentido que se dé dicha confusión, 𝑘=1 𝑘=1 dado que son dos términos que se usan a menudo Para 𝑛 = 3, el número total de combinaciones indistintamente para referirse a la misma afección (variaciones) de tamaños 1 a 3 sin repetición es: cutánea. La “dermatitis atópica” es el término más específico, mientras que el “eccema” es un término 3! 3! 3! + + = 15. más general que abarca varios tipos de inflamación (3 − 1)! (3 − 2)! (3 − 3)! de la piel. En lo que respecta a la confusión con “psoriasis”, pueden darse razones para ello, como la apariencia similar en ciertas situaciones (enro- jecimiento, inflamación y picazón común, pudiendo Tabla 6 Tabla con las métricas (sin top-k) para las 25 patologías mas frecuentes Enfermedad F1 vanilla F1 PR F1 OR acné 0.43 0.86 0.94 carc. cél. basales 0.60 0.70 0.92 psoriasis 0.67 0.81 0.87 nevus melanocítico 0.52 0.72 0.93 queratosis actínica 0.49 0.63 0.83 carcinoma de células escamosas 0.43 0.52 0.86 eccema 0.45 0.59 0.62 rosácea 0.00 0.37 0.55 lentigo solar 0.54 0.65 0.97 liquen escleroatrófico 0.73 0.69 0.82 fibroma 0.57 0.50 0.87 llaga 0.64 0.69 0.78 melanoma 0.43 0.66 0.86 alopecia areata 0.74 0.80 0.80 dermatitis atópica 0.45 0.47 0.74 carcinoma espinocelular 0.40 0.60 0.91 queratosis seborreica 0.44 0.67 0.97 sin diagnostico 0.31 0.37 0.77 acné juvenil 0.04 0.00 0.63 verruga 0.57 0.82 0.98 urticaria crónica 0.22 0.71 0.87 hemangioma 0.86 0.77 0.97 nevus melanocítico atípico 0.00 0.00 0.91 dermatofibroma 0.53 0.53 0.95 ulcera 0.00 0.55 0.70 llegar a escamación en ambos casos), así como en cinoma de células basales”, “carcinoma de células es- cuanto a la localización corporal (ambas pueden camosas”) y queratosis (“queratosis actínica”, “quer- aparecer en áreas como los codos, rodillas o cuero atosis seborreica”). En este caso no son patologías cabelludo). semejantes, por lo que el incluir top-k proporcionaría En el caso del modelo B, la principal mejora se al facultativo una alternativa sobre la que valorar presenta en los casos en los que la enfermedad es cuál es la opción adecuada con su conocimiento “nevus melanocítico adquirido” y se predice “nevus experto. melanocítico” (11.89%). Los nevus melanocíticos adquiridos y congénitos comparten varias caracterís- A.6. Resultados del modelo con diferentes ticas, incluyendo su apariencia, histología, genética umbrales de frecuencia de cada pa- y desarrollo. Sin embargo, se diferencian en el mo- mento de su aparición, siendo los congénitos pre- tología sentes al nacer o en las primeras semanas de vida, La Tabla 7 muestra los resultados tanto del método mientras que los adquiridos aparecen a lo largo de A como del B, y demuestra que el umbral de 61 ejem- la vida. Esto ilustra cómo no solo el enfoque top-k plos mínimo por categoría es el óptimo para guardar mejora la precisión de los modelos, sino que algunos un máximo de categorías sin perder la eficacia de de los errores más comunes son entendibles dado el los modelos de clasificación. significado de los términos confundidos. Cabe destacar también que el enfoque top-k per- mite en varios casos mejorar la predicción que in- B. Información complementaria cluye situaciones “sin diagnóstico”, proporcionando dicha opción en casos donde el enfoque base no lo En esta sección se presenta información comple- contempla. También es reseñable cómo en ambos mentaria que sirve de apoyo a la comprensión de métodos aparece un alto número de casos de con- los desarrollos de este trabajo. En particular, se fusión entre diagnósticos ligados a carcinoma (“car- presenta la siguiente información: Tabla 7 Métricas obtenidas con diferentes umbrales de ejemplos por patología A es el método con la información de las ontologías y B el método con el bsc-bio-ehr-es vanilla Modelo Umbral Num. clases Prec. Micro F1-sc. Macro F1-sc Prec. top-k F1-sc. top-k B 2 173 0.39 0.34 0.08 0.54 0.13 B 10 76 0.41 0.41 0.12 0.58 0.27 B 25 44 0.46 0.43 0.24 0.59 0.46 B 50 27 0.48 0.46 0.38 0.66 0.63 B (nuestro) 61 25 0.52 0.50 0.42 0.67 0.61 B 75 20 0.51 0.49 0.44 0.69 0.71 B 100 15 0.55 0.54 0.51 0.71 0.77 A 2 173 0.68 0.62 0.14 0.80 0.28 A 10 76 0.72 0.66 0.25 0.86 0.52 A 25 44 0.77 0.73 0.48 0.90 0.81 A 50 27 0.83 0.80 0.72 0.91 0.86 A (nuestro) 61 25 0.84 0.82 0.75 0.92 0.90 A 75 20 0.87 0.85 0.80 0.94 0.91 A 100 15 0.87 0.87 0.85 0.96 0.92 • Tabla 8. Versión ampliada de la Tabla 1, con la lista completa de enfermedades. • Figura 4. Representación gráfica de la dis- tribución de las enfermedades en el conjunto de datos. • Figuras 5 y 6. Matrices de confusión de los métodos A y B presentados en el Anexo B, respectivamente. Tabla 8 Nomenclatura generada a partir de las características extraídas con Pymedtermino con las enfermedades mas frecuentes y la cantidad de aparición Enfermedad Tipo Gravedad Sitio Frecuencia carcinoma de células basales proceso neoplasico importante piel 1124 psoriasis proceso autoinmune inofensivo extremidades 761 nevus melanocítico precancer inofensivo todo 600 acné enfermedad leve todo 564 queratosis actínica precancer inofensivo piel 540 carcinoma de células escamosas proceso neoplasico extrema piel 474 eccema enfermedad inofensivo mano 432 queratosis seborreica tumor benigno inofensivo piel 352 dermatitis atópica enfermedad inofensivo articulaciones 324 sin diagnóstico sin enfermedad inofensivo todo 296 nevus melanocítico adquirido proceso neoplasico inofensivo extremidades 233 melanoma proceso neoplasico extrema todo 191 lupus eritematoso proceso autoinmune extrema tejido conectivo 181 verruga periungueal infeccion inofensivo mano 171 urticaria crónica sintoma inofensivo todo 161 hemangioma tumor benigno leve todo 149 alopecia areata proceso autoinmune inofensivo cabeza 143 quiste epidérmico anormalidad leve cara 134 fibroma tumor benigno leve pierna 122 llaga sintoma inofensivo boca 118 rosácea enfermedad inofensivo cara 118 nevus melanocítico atípico proceso neoplasico importante torso 117 granuloma infeccion extrema genitales 112 lentigo pielar sindrome leve todo 109 liquen escleroatrófico proceso autoinmune leve genitales 104 ampollas sintoma inofensivo mano 89 queratosis seborreica irritada enfermedad inofensivo todo 87 pitiriasis rubra pilaris proceso autoinmune leve articulaciones 84 alopecia cicatricial enfermedad inofensivo cabeza 78 urticaria funcion patologica leve todo 76 herpes zóster infeccion importante torso 74 foliculitis enfermedad inofensivo cabeza 70 queilitis actínica precancer leve boca 68 acné noduloquístico infeccion leve cara 68 prúrigo sintoma inofensivo cabeza 65 alopecia androgenética enfermedad inofensivo cabeza 56 nevus intradérmico precancer inofensivo piel 53 dermatitis seborreica proceso autoinmune inofensivo cara 52 vasculitis proceso autoinmune extrema articulaciones 51 psoriasis palmoplantar enfermedad leve extremidades 38 eccema crónico enfermedad inofensivo mano 38 micosis infeccion importante todo 37 melanoma in situ proceso neoplasico inofensivo todo 35 reacción a fármacos envenenamiento inofensivo todo 34 condiloma infeccion leve genitales 33 hiperpigmentación anormalidad inofensivo todo 33 dermatitis de contacto enfermedad inofensivo mano 32 Figura 4: Distribución de las enfermedades en el conjunto de datos generado. Figura 5: Matriz de confusión para modelo A. Figura 6: Matriz de confusión para modelo B.