Análisis y tipificación de errores para una propuesta de mejora de informes médicos en español Analysis and classification of errors for a proposal to improve medical reports in Spanish Jésica López-Hernández Departamento de Informática y Sistemas Universidad de Murcia jesica.lopez@um.es Resumen: Los métodos actuales de detección y corrección automática de errores tienden a ser desarrollados teniendo en cuenta un enfoque puramente computacional. La solvencia de los mismos es una realidad, pero la corrección automática aún no es un problema resuelto, principalmente en los lenguajes de especialidad. En los textos del dominio médico, debido a su complejidad terminológica y particularidades lingüísticas, los correctores ortográficos usuales resultan ineficaces y el procesamiento automático supone un reto en muchas ocasiones. Por tanto, este proyecto surge con la intención de aportar un módulo basado en conocimiento lingüístico que pueda añadir otra capa de información a los métodos actuales y, en consecuencia, contribuir a la mejora de corpus pertenecientes al ámbito de la medicina. Con el fin de investigar sobre el objetivo mencionado, se diseña un corpus de estudio constituido por una recopilación de informes clínicos electrónicos, se utilizan herramientas de extracción de errores y análisis estadístico para diseñar una tipología de error, y se aplican técnicas de procesamiento de lenguaje natural y métodos de aprendizaje automático para la implementación de la propuesta. Palabras clave: Corrección automática de errores, detección automática de errores, tipología de error, lenguaje médico. Abstract: Current methods of automatic error detection and correction tend to be developed with a purely computational approach. Their efficacy is a reality, but automatic correction is not yet a solved problem, mainly in specialized languages. In medical domain texts, due to their terminological complexity and linguistic particularities, the usual spell-checkers are ineffective and automatic processing is a challenge on many occasions. Therefore, this project arises with the intention of providing a module based on linguistic knowledge that can add another layer of information to current techniques and, consequently, contribute to the improvement of corpus belonging to the field of medicine. In order to investigate the mentioned objective, a study corpus is designed consisting of a compilation of electronic clinical reports, error extraction tools and statistical analysis are used to design a typology of error, and natural language processing techniques and machine learning methods are applied for the implementation of the proposal. Keywords: Automatic error correction, automatic error detection, error typology, medical language. Lloret, E.; Saquete, E.; Martı́nez-Barco, P.; Sepúlveda-Torres, R. (eds.) Proceedings of the Doctoral Symposium of the XXXV International Conference of the Spanish Society for Natural Language Processing (SEPLN 2019), p. 38–43 Bilbao, Spain, September 25th 2019. Copyright c 2019 his paper by its authors. Use permitted under Creative Commons License Attribution 4.0 International (CC BY 4.0). 1 Justificación de la investigación Es en esta realidad donde surge la pregunta . propuesta que define en gran medida este trabajo: ¿qué papel puede tener la lingüística en la detección El desarrollo tecnológico de las últimas décadas y corrección automática de errores en el campo ha permitido, mediante el procesamiento de la medicina? En la actualidad no existen informático de datos lingüísticos, la realización datos cuantitativos sobre patrones de error en de estudios y análisis de grandes corpus con textos que procedan del ámbito biosanitario, y mayor profundidad y eficiencia. Asimismo, en tampoco hay una revisión sistemática sobre la el campo de la medicina la progresiva naturaleza de los mismos. Por consiguiente, es digitalización de los registros clínicos ha ido necesario llevar a cabo un estudio y tipificación generando mayor disponibilidad de diversos de errores que nos permita saber qué tipos de conjuntos de datos. errores tienden a cometerse en este dominio, Las tareas de detección y corrección cuáles son sus propiedades y cómo podemos automática de errores son un requisito previo aportar una base de conocimiento lingüístico a para cualquier tipo de procesamiento los métodos de detección y corrección lingüístico. No obstante, la efectividad de los existentes para tal fin. correctores ortográficos, como la mayoría de Como hemos mencionado anteriormente, los aplicaciones que se construyen para métodos actuales tienden a ser desarrollados procesamiento de textos, depende en gran exclusivamente desde un punto de vista medida del dominio donde se van a aplicar. computacional. Por este motivo, consideramos En el dominio médico es especialmente que un enfoque híbrido va a permitir definir importante que la información se presente de la rasgos de manera explícita y puede ayudar a la forma más rigurosa y precisa posible para toma de decisiones en aquellos casos que facilitar el proceso de comprensión, la plantean dificultades o conflictos en la elección extracción de información, la toma de de alternativas a la palabra errónea. A partir de decisiones, la predicción de sucesos o la este análisis de errores puede añadirse un nuevo interoperabilidad. Sin embargo, para el criterio al motor de sugerencias del corrector procesamiento de los documentos clínicos automático, y así contribuir a tener una mayor existen diversos inconvenientes que deben ser precisión y cobertura en este dominio tenidos en cuenta: la información se presenta especializado. desestructurada y en muchas ocasiones contiene abreviaturas, ambigüedades y errores 2 Antecedentes y trabajo relacionado ortográficos (Ruch, Baud y Geissbühler, 2003). Son diversos los proyectos y trabajos que Son múltiples los trabajos que podemos investigan sobre el proceso de desambiguación encontrar sobre detección y corrección y estudio de abreviaturas, siglas y acrónimos automática de errores ortográficos si llevamos a (Wong y Glance, 2011); por el contrario, no cabo una revisión bibliográfica sistemática. Las encontramos investigaciones que se centren en primeras investigaciones se remontan a la el estudio de los errores ortográficos en década de los sesenta. En esa década se define documentación clínica para el idioma español. el concepto de distancia de Levenshtein, que Nuestra experiencia previa trabajando con alude al número mínimo de operaciones informes médicos procedentes de diversas requeridas para transformar una cadena de especialidades nos ha permitido comprobar que caracteres en otra; y se establecen cuatro estos poseen un elevado número de errores operaciones básicas de edición (Damerau, 1964; ortográficos, tipográficos y gramaticales. Los Levenshtein, 1966): profesionales de la salud suelen sufrir - Adición: se inserta un carácter. sobrecarga de trabajo y disponen de poco - Omisión: se elimina un carácter. tiempo para redactar estos documentos, por lo - Sustitución: se elimina un carácter y se inserta que no atienden a la forma, sino únicamente al otro distinto en su lugar. contenido. Sin embargo, en un área como - Transposición: se produce el intercambio de medicina es de especial importancia poder caracteres adyacentes. hacer uso de las tecnologías basadas en Los métodos convencionales de corrección procesamiento automático de datos, de ahí el de errores ortográficos se basaban interés en profundizar en esta cuestión. principalmente en el uso de diccionarios y en la 39 distancia de edición mínima entre un error Se han llevado a cabo estudios sobre ortográfico y sus candidatos de corrección. Con identificación y clasificación de errores en otros el paso de los años se han ido sumando a estos idiomas. Entre ellos, el mayor número está métodos nuevas técnicas, como las basadas en dedicado al inglés (Kukich, 1992; similitud fonética (Veronis, 1988); técnicas Yannakoudakis y Fawthrop, 1983; Pollock y probabilísticas, como el análisis de n-gramas Zamora, 1983; Mitton, 1985; Verberne, 2002; (Ahmed, Luca y Nürnberger. 2009); técnicas entre otros). En los últimos años también han basadas en reglas y heurísticas (Naber, 2003); sido publicados estudios sobre patrones de error técnicas basadas en modelos de canales en portugués (Gimenes, Roman y Carvalho, ruidosos o noisy channel model (Brill y Moore, 2015), en húngaro (Siklósi, Novák, y Prószéky, 2000); o las más actuales basadas en 2016), en japonés (Baba y Suzuki, 2012), en aprendizaje automático y redes neuronales danés (Paggio, 2000) o en punjabi (Lehal y (Pande, 2017). Bhagat, 2007). Es destacable el número de Sin embargo, la literatura sobre corrección tipologías y estudios sobre patrones de error automática en informes clínicos es mucho más desarrollados en el ámbito de aprendizaje de limitada. En ella encontramos sistemas que lenguas (Nagata, Takamura y Neubig. 2017). incorporan diversas combinaciones de los En el caso del español, hallamos dos métodos y técnicas anteriormente mencionadas, trabajos sobre tipologías enfocados a tareas de con mayor o menor tasa de éxito. Todos corrección automática: Spelling Error Patterns coinciden en señalar el importante número de in Spanish for Word Processing Applications errores que presentan estos textos y la (Ramírez y López, 2006) y Tipología de complejidad del tratamiento de los registros errores gramaticales para un corrector clínicos, tanto por el gran número de automático (Díaz, 2005). El primero discute abreviaturas que contienen, como por la sobre generalizaciones previas de patrones de compleja terminología, la falta de error en estudios realizados para otros idiomas estandarización de las formas y la ausencia de y ofrece una nueva perspectiva sobre patrones revisión posterior (Patrick et al, 2010; Lai et al, de error en español. Es un trabajo que se 2015; Siklósi, Novák, y Prószéky, 2016; Fivez, enmarca en el desarrollo de un corrector para el Suster y Daelemans, 2017; entre otros). español en Microsoft Corporation y es A su vez, como adelantábamos en la anterior especialmente relevante porque se trata de la sección, son inexistentes los estudios realizados tipología más completa existente sobre errores sobre patrones de error en documentación en español. A su vez, el segundo trabajo se clínica en español, circunstancia que nos resulta centra en el tratamiento de errores gramaticales llamativa. Una tipología de error es un sistema y de motivación cognitiva. En él se defiende la de clasificación jerárquicamente organizado relevancia de la creación de una tipología de para todo tipo de errores de un determinado error para diseñar un corrector gramatical y de idioma o dominio (Wedbjer Rambell, 1999). estilo. Existen distintas dimensiones posibles para clasificar los errores: 3 Descripción de la investigación . propuesta 1) Non-word (palabra no existente) y real- word (palabra existente). El objetivo principal de este proyecto es 2) Tipo de error: sustitución, inserción, desarrollar una propuesta de mejora de corpus eliminación, transposición, palabra lingüísticos, pertenecientes al ámbito de la dividida… medicina, a partir del diseño de un módulo 3) Error tipográfico, ortográfico, de estilo o basado en conocimiento lingüístico que se gramatical. combine con otras técnicas de corrección. Este 4) Posición del error. objetivo general se desglosa en una serie de 5) Longitud de palabra. objetivos menores o específicos entre los que 6) Número de errores en una palabra mal destacan: escrita. 7) Error de competencia o de actuación. ▪ Compilación de un corpus de estudio a 8) Contexto del error. partir de informes médicos. 9) Origen del error. ▪ Selección de metodología y criterios de análisis de error. 40 ▪ Identificación, análisis y clasificación error al sistema, dando lugar a una combinación sistemática de errores contenidos en híbrida de criterios y contribuyendo a la informes médicos. ponderación de alternativas y elección de ▪ Diseño de una tipología de error y sugerencias. desarrollo de un modelo de error. ▪ Incorporación de la tipología o reglas 4 Metodología y experimentos basadas en conocimiento a herramientas y . propuestos procesos de detección y corrección automática. Como ya hemos adelantado en la sección ▪ Análisis, desarrollo y evaluación del anterior, nuestro trabajo puede ser dividido en prototipo. tres fases principales: una primera fase dedicada al estudio de la literatura, una segunda fase Por tanto, nuestra hipótesis de partida basada en el análisis (y de carácter defiende que el análisis de patrones de error en eminentemente descriptivo), y una fase final en los textos médicos y el diseño de una tipología la que se desarrollará el módulo y se harán de error va a contribuir a la mejora de pruebas de evaluación del mismo integrado en resultados en sistemas de detección y un sistema de corrección. Los pasos que se van corrección automática para este dominio. a llevar a cabo son los siguientes: Al tratarse de un entorno muy específico, es de gran importancia en el desarrollo de la 1. Estudio y revisión del estado del arte, herramienta de corrección saber qué tipos de delimitación del proyecto y estudio de diversas errores ocurren en los informes médicos metodologías. Se comenzará con la frecuentemente y en qué contexto, para que investigación sobre técnicas de detección y estos se sistematicen de manera adecuada. corrección automática, normalización y Llevaremos a cabo un análisis cuantitativo y extracción de información. Al mismo tiempo, cualitativo de patrones de error contenidos en profundizaremos en criterios y técnicas de los documentos clínicos, en los que se tendrán análisis de patrones de error, además de en el en cuenta aspectos y características tales como estudio de las tipologías de error existentes en frecuencia de aparición, tipo de error, causa del otros ámbitos de investigación e idiomas. Por error, posición del error en la palabra, longitud último, llevaremos a cabo la búsqueda de de la palabra o contexto en el que aparece. recursos y herramientas existentes que son Debemos establecer unas convenciones para útiles para análisis lingüístico. que nuestra tipología sea consistente, especialmente en el tratamiento que queremos 2. Constitución del corpus de estudio. En esta dar a abreviaturas, siglas, acrónimos, fase se llevará a cabo la recopilación de anglicismos, neologismos, errores de informes clínicos digitalizados, la compilación puntuación, etc. Para tal fin, nos hemos valido del corpus objeto de estudio y el de diccionarios normativos, manuales de estilo preprocesamiento del mismo. Haremos uso de y glosarios especializados. Actualmente herramientas y frameworks para el contamos con una primera tipología diseñada a procesamiento lingüístico del texto en distintos partir del análisis de la primera muestra del niveles: léxico, morfológico, sintáctico y corpus. Está centrada en la tipificación de semántico. errores ortográficos y va a ser ampliada progresivamente con subgrupos y nuevas 3. Análisis. Se realizará la identificación, especificaciones. análisis y clasificación de patrones de errores. Asimismo, pretendemos desarrollar un Para obtener la lista de palabras candidatas a modelo de error a partir del análisis de errores y error utilizaremos el corrector ortográfico la tipología. Un modelo de error puede ser Hunspell, que contiene un diccionario general, aplicado en la técnica conocida como noisy recursos terminológicos, como Snomed-CT o channel model (Brill y Moore, 2000). CIE-10, nomenclaturas, lexicones, distintos La última parte de la investigación es la que listados de palabras (como listas de siglas tiene el componente más aplicado. Se centrará estandarizadas), documentos y glosarios de en el uso de una arquitectura modular formada dominio biomédico en español. Analizaremos por diferentes bloques con distintas técnicas de los distintos tipos de errores y crearemos corrección y en la incorporación del modelo de categorías adaptadas que servirán para el diseño 41 de la tipología de error. Además, llevaremos a Agradecimientos cabo la búsqueda de correlación y coocurrencia Esta investigación está financiada por el entre errores. Tras la obtención de los Ministerio de Educación y Formación resultados, crearemos una matriz de confusión que será utilizada para el desarrollo del modelo Profesional de España a través del Programa Nacional de Ayudas para la Formación de de error. Profesorado Universitario (FPU), y por la Agencia Estatal de Investigación (AEI) y el 4. Diseño e implementación de propuesta de Fondo Europeo de Desarrollo Regional mejora basada en conocimiento lingüístico. En (FEDER / ERDF) a través del proyecto esta última fase se llevará a cabo el proceso de KBS4FIA (TIN2016-76323-R). experimentación y evaluación del prototipo. Realizaremos una descripción de las técnicas utilizadas en nuestro sistema y de los distintos Bibliografía métodos de elección. Integraremos el módulo Ahmed, F., E. W. Luca, y A. Nürnberger. 2009. basado en conocimiento lingüístico en la Revised N-Gram based Automatic Spelling arquitectura compuesta por otras técnicas y Correction Tool to Improve Retrieval definiremos una fórmula de decisión y Effectiveness. Polibits, 40:39–48. ponderación de las alternativas generadas para las palabras erróneas. Finalmente, llevaremos a Baba, Y. y H. Suzuki. 2012. How Are Spelling cabo la prueba y validación del prototipo, con Errors Generated and Corrected? A Study of distintos experimentos y métricas que reflejen Corrected and Uncorrected Spelling Errors la cobertura real y el grado de precisión que Using Keystroke Logs. En Proceedings of podemos alcanzar mediante la combinación de the 50th Annual Meeting of the Association técnicas y la integración del módulo diseñado. for Computational Linguistics, páginas 373– 377, Jeju Island (Corea). 5 Cuestiones de investigación Brill, E. y R C. Moore. 2000. An improved error model for noisy channel spelling En correspondencia con el propósito de trabajo correction. En Proceedings of the 38th establecido, consideramos de interés plantear Annual Meeting of the Association for las siguientes preguntas de estudio: Computational Linguistics - ACL, páginas 286–293, Hong Kong (China). ▪ ¿Tiene sentido hacer una tipología de dominio? ¿Por qué no se han desarrollado más Damerau, F.J. 1964. A Technique for Computer tipologías? Detection and Correction of Spelling Errors. ▪ ¿Es útil para el proceso de corrección Communications of ACM, 7(3):171–176. automática de informes médicos contar con un Díaz Villa, A. 2005. Tipología de errores estudio sobre los tipos de errores? gramaticales para un corrector automático, ▪ ¿De qué manera el enfoque lingüístico de Procesamiento del Lenguaje Natural, análisis de errores puede contribuir en nuestra 35:409–416. propuesta de mejora de corpus médicos? ▪ ¿Cómo podemos incorporar el modelo de Fivez P., S. Suster y W. Daelemans. 2017. error a procesos de detección y corrección Unsupervised Context-Sensitive Spelling automática de errores? Correction of Clinical Free-Text with Word ▪ ¿De qué forma puede complementar la and Character N-Gram Embeddings. En tipología y el análisis lingüístico a las técnicas Proceedings of the BioNLP workshop – basadas en redes neuronales? Association for Computational Linguistics, ▪ ¿La incorporación de un módulo basado en páginas 143–148, Vancouver (Canada). conocimiento junto con la combinación de Gimenes, P. A., N. T. Roman y A. M. técnicas y criterios de elección va a aumentar la Carvalho. 2015. Spelling Error Patterns in precisión de los métodos de corrección Brazilian Portuguese. Computational actuales? Linguistics, 41(1):175–183. Kukich, K. 1992. Technique for automatically correcting words in text. ACM Computing Survey, 24(4):377–439. 42 Lai, K. H., M. Topaz, F. R. Goss, y L. Zhou. Applications. En Proceedings of Fifth 2015. Automated misspelling detection and international conference on Language correction in clinical free-text records. Resources and Evaluation, LREC, páginas Journal of Biomedical Informatics, 55:188– 93–98, Genoa (Italy). 195. Ruch, P., R. Baud y A. Geissbühler. 2003. Lehal G. S. y M. Bhagat. 2007. Spelling Error Using lexical disambiguation and named- Pattern Analysis of Punjabi Typed Text. En entity recognition to improve spelling Proceedings of the 2007 International correction in the electronic patient record, Symposum on Machine Translation, NLP Artif. Intell. Med. 29 (1):169–184. and TSS, páginas 128–141. Siklósi, B., A. Novák, y G. Prószéky. 2016. Levenshtein, V. I. 1966. Binary codes capable Context-aware correction of spelling errors of correcting deletions, insertions and in Hungarian medical documents, Computer reversals. Soviet Physics Doklady, 10:707– Speech & Language, 35:219–233. 710. Verberne, S. 2002. Context-sensitive spell Mitton, R. 1987. Spelling Checkers, Spelling checking based on trigram probabilities. Correctors, and the Misspellings of Poor Master’s thesis, University of Nijmegen. Spellers, Information Processing & Veronis, J. 1988. Computerized correction of Management, 23(5):495–505. phonographic errors. Computers and the Nagata, R., H. Takamura, y G. Neubig. 2017. Humanities, 22(1):43–56. Adaptive Spelling Error Correction Models Wedbjer Rambell, O. 1999. Error typology for for Learner English. Procedia Computer automatic proof-reading purposes. En A. Science, 112:474–483. Sagvall Hein, editor, Reports from the Naber D. 2003. A Rule-Based Style and SCARRIE project, Uppsala. Grammar Checker. Diploma thesis, Wong, W. y D. Glance. 2011. Statistical University of Bielefeld. semantic and clinician confidence analysis Paggio, P. 2000. Spelling and grammar for correcting abbreviations and spelling correction for Danish in SCARRIE. En errors in clinical progress notes. Artificial Proceedings of the Sixth Conference on Intelligence in Medicine, 53(3): 171–180. Applied Natural Language Processing, Yannakoudakis, E. J. y D. Fawthrop. 1983. The páginas 255–261, Seattle (Washington). rules of spelling errors, Information Pande, H. 2017. Effective search space processing and management, 19(12):101– reduction for spell correction using character 108. neural embeddings. En Proceedings of the 15th Conference of the European Chapter of the Association for Computational Linguistics, páginas 170–174, Valencia (España). Patrick, J., M. Sabbagh, S. Jain y H. Zheng. 2010. Spelling correction in clinical notes with emphasis on first suggestion accuracy. En 2nd Workshop on Building and Evaluating Resources for Biomedical Text Mining, páginas 1–8, Valletta (Malta). Pollock, J. J. y A. Zamora. 1983. Collection and characterization of spelling errors in scientific and scholarly text, Journal of American Society of Informatics and Science, 34(1):51–58. Ramírez, F. y E. López. 2006. Spelling Error Patterns in Spanish for Word Processing 43