Extracción de conocimiento en documentos textuales Extraction of knowledge in textual documents Denis Cedeño-Moreno Universidad Tecnológica de Panamá Grupo de Investigación en Salud Electrónica y Supercomputación Apartado 0819-07289 El Dorado, Panamá Provincia de Panamá, República de Panamá denis.cedeno@utp.ac.pa Resumen: En Panamá, existe mucha información de pacientes almacenada de for- ma textual, la cual no se puede manipular para gestionar un conocimiento adecuado por parte de los especialistas. Existen múltiples recursos creados para representar el conocimiento, entre ellos, los glosarios especializados, taxonomı́as, tesauros y onto- logı́as. La construcción de una ontologı́a puede realizarse de manera manual, pero esto ocasiona diversos problemas de coste y tiempo. Para resolver estos inconve- nientes, se propone en esta tesis doctoral un análisis de herramientas adecuadas de procesamiento de lenguaje natural y tecnologı́as de representación de conocimiento para la gestión del conocimiento en documentos clı́nicos. El resultado de esta tesis será un sistema informático que permita instanciar una ontologı́a del dominio que representa a los pacientes y sus enfermedades. Este enfoque se validará con un cor- pus de dominio médico y los resultados del proceso se medirán por los indicadores de precisión, exhaustividad y medida-F. Palabras clave: Conocimiento, ontologı́a, procesamiento de lenguaje natural, ex- tracción de información Abstract: In Panama, there is a lot of patient information stored in a textual form, which can not be manipulated to manage an adequate knowledge by specialists. There are multiple resources created to represent knowledge, including specialized glossaries, taxonomies, thesauri and ontologies. The construction of an ontology can be done manually, but this causes various problems of cost and time. To solve these problems, it is proposed in this doctoral thesis an analysis of appropriate natural language processing tools and knowledge representation technologies for knowledge management in clinical documents. The result of this thesis will be a computer sys- tem that allows to instantiate an ontology of the domain that represents the patients and their illnesses. This approach will be validated with a corpus of medical domain and the results of the process will be measured by the indicators of precision, com- pleteness and F-measure. Keywords: Knowledge, ontology, natural language processing, information extrac- tion 1. Introducción interpretativos que confieren algún compor- tamiento inteligente (Haugeland, 1988). Está Las organizaciones modernas realizan sus formado por hechos, conceptos, procedimien- actividades en un mundo globalizado, dispo- tos, ideas abstracciones, reglas y asociaciones ner del conocimiento en el momento adecua- utilizadas para modelar el mundo real. do puede suponer una clara ventaja compe- La convergencia de diversas áreas de co- titiva para estar o no posicionado como la nocimiento actualmente ha dado lugar al di- organización lı́der. seño e implementación de sistemas informáti- Desde el punto de vista de la Inteligen- cos que soporten la integración de herramien- cia Artificial (IA), el conocimiento se puede tas innovadoras. interpretar como la combinación de esque- El primer paso para el procesamiento in- mas o estructuras de datos y procedimientos formático del conocimiento lingüı́stico es la representación formal de dicho conocimien- sualización de ese conocimiento, desempeña to. Existen múltiples recursos creados pa- un papel crucial como base tecnológica pa- ra representar la información lingüı́stica, en- ra el desarrollo de un gran número de siste- tre ellos, los glosarios especializados, taxo- mas de información (Valencia-Garcı́a y Alor- nomı́as, tesauros y ontologı́as. Hernández, 2016). En la actualidad, las ontologı́as son parte En Panamá la gran mayorı́a de las organi- importante dentro del ámbito de la recupera- zaciones de atención hospitalaria y de salud ción y organización de la información y la web mantienen muy poca información almacena- semántica. Además, cada vez están tomando da de sus pacientes en medios electrónicos; en una mayor importancia dentro del PLN (Ci- algunos casos esta información esta recopila- miano, Unger, y McCrae, 2014). da en documentos de texto. Las ontologı́as se pueden crear de mane- Realizar una investigación que formule ra manual; sin embargo, esto origina diversos una metodologı́a de representación del cono- problemas de costo y tiempo (Ruiz-Martı́nez cimiento, combinando técnicas para el pro- et al., 2008). cesamiento de documentos textuales, herra- Como una alternativa surge el aprendiza- mientas de PLN y la instanciación automáti- je automático de ontologı́as a partir de do- ca de una ontologı́a será novedosa e innova- cumentos textuales cuyo objetivo es identifi- dora en áreas de convergencia como la in- car los elementos ontológicos de manera au- formática y la medicina. tomática o semiautomática. Consideramos entonces que esta investiga- Es un enfoque interesante que intenta re- ción a parte de proporcionar una metodo- ducir el tiempo y los recursos. Para ello se logı́a propia de un sistema de información hace uso de técnicas y métodos de campos para toma de decisiones basado en PLN y como IA, el aprendizaje automático (AA), la tecnologı́as de representación de conocimien- recuperación de la información (RI) o el pro- to, es también una fuente de documentación cesamiento de lenguaje natural (PLN). en tiempo real para investigadores de nuestro El objetivo principal de este trabajo con- paı́s. siste en diseñar e implementar un sistema computacional que permita desde un tex- 3. Trabajos relacionados to clı́nico escrito en lenguaje natural (LN), El término ontologı́a se ha empleado desde extraer los elementos necesarios utilizando hace muchos siglos en el campo de la filosofı́a herramientas de PLN para luego instanciar y del conocimiento y hace ya varias décadas una ontologı́a de forma automática y ex- cobró especial relevancia en el campo de la in- traer conocimiento. Luego este conocimien- formática (Bilgin, Dikmen, y Birgonul, 2014). to se podrá visualizar de manera amigable Una definición muy aceptada en el área de por parte de los sanitarios mediante un ma- IA es la de Studer (Studer, Benjamins, y Fen- pa conceptual. sel, 1998 p.25), quien dijo: “Una ontologı́a es una especificación formal y explı́cita de una 2. Justificación de la conceptualización compartida”. investigación propuesta Las ontologı́as son tecnologı́as que permi- El conocimiento, se ha convertido en el te- ten una representación formal y estructurada soro más valioso de la raza humana. Dentro del conocimiento donde los conceptos, las re- de las organizaciones, pueden ser diferentes laciones y las restricciones conceptuales son las fuentes donde encontrar este conocimien- definidos mediante formalismos en un deter- to (Terzieva, 2014). minado dominio. Gran parte de este conocimiento existe en Una ontologı́a puede construirse de forma las mentes humanas y en forma de LN en li- manual, pero representa una tarea tediosa, bros, periódicos, informes técnicos, historias costosa y que consume mucho tiempo. clı́nicas, encuestas, cuestionarios. Poder dis- El procesamiento de grandes volúmenes de poner de todo este conocimiento depende de texto libre o texto no estructurado para ex- nuestra habilidad para hacer ciertos procesos traer conocimiento requiere la aplicación de con la información. una serie de técnicas de análisis entre ellas el Las tecnologı́as basadas en el conocimien- PLN. En la actualidad se han realizado al- to proporcionan una base coherente y fia- gunos trabajos relacionados que utilizan al- ble en las organizaciones. La gestión y vi- gunos de los elementos expuestos en nuestra investigación. es debido a muchos factores como la falta de Como por ejemplo, la investigación de Pa- presupuesto de las instituciones de salud o la risa Kordjamshidi (2015), cuya idea central falta de tiempo de los especialistas. es desarrollar un framework para poblar on- No existe en Panamá un método de re- tologı́as utilizando técnicas de PLN y un mo- presentación del conocimiento que combine delo de aprendizaje de máquina. Cabe men- técnicas de procesos de texto o PLN gestio- cionar el trabajo que presenta un modelo se- nada por el desarrollo de una ontologı́a y su miautomático para poblar ontologı́as, lidera- instanciación de forma automática, para ayu- do por Lennart J. Nederstigt (2014), para dar a la toma de decisiones de los especialis- el dominio de e-commerce utiliza una onto- tas u otras actividades como la investigación. logı́a predefinida y compatible con la onto- En este trabajo se propone diseñar, imple- logı́a GoogRelation. mentar y desarrollar un nuevo enfoque para Junto a estos enfoques tenemos la inves- la extracción de conocimiento a partir de la tigación de Francesco Colace (2014) que usa información clı́nica en texto en LN, basado un sistema para el aprendizaje y población en la utilización de herramientas de PLN pa- de ontologı́as, que combina metodologı́as es- ra extraer información y gestionar una onto- tadı́sticas y semánticas. logı́a de forma automática. Por su parte Suzane Santos y Rosario Gi- rardi (2014) presentan el proyecto Apponto- 5. Metodologı́a propuesta Pro, en el método proponen un proceso incre- Modelo propuesto: La arquitectura pro- mental, para lograr la construcción y poste- puesta debe permitir extraer la información rior población de una ontologı́a de aplicación de un texto clı́nico escrito en LN, que re- en el dominio de Derecho Familiar. El siste- presenta el corpus de las historias clı́nicas de ma es capaz de generar todos los elementos de pacientes, extraer las entidades nombradas y la ontologı́a tales como clases, taxonomı́a, re- elementos de conocimiento pertinentes, y ge- laciones no taxonómicas, instancias, propie- nerar e instanciar una ontologı́a del dominio. dades y axiomas en un archivo de extensión Esta ontologı́a que contendrá la informa- OWL (Web Ontology Language). ción extraı́da se utilizará para poder visuali- Son varias las investigaciones existentes zar la información de una manera más con- en donde se combinan técnicas de PLN y ceptual y amigable para los profesionales sa- el uso de ontologı́as de dominio para la re- nitarios. presentación del conocimiento. Además tie- En la arquitectura propuesta las onto- nen áreas de aplicación distintas, desde e- logı́as juegan un papel fundamental, ya que commerce, turismo, biologı́a y otras, lo que de su correcto diseño, estructura y comple- hace que existan muchas áreas de interés so- jidad dependen directamente los resultados bre las cuales se puedan desarrollar nuevas obtenidos en los procesos. investigaciones. Además, la arquitectura deberá cum- plir con restricciones de interoperabilidad 4. Descripción de la semántica y más concretamente deberá po- investigación propuesta der extraerse toda la información de los pa- Las ontologı́as se han convertido en cientes en el estándar de historias clı́nicas una importante herramienta para desarrollar electrónicas HL7 (Vida, Lupse, y Stoicu- aplicaciones semánticamente ricas. Los mo- Tivadar, 2012). delos ontológicos son capaces de representar Esta arquitectura se compone de varias fa- una gran cantidad de información usando un ses que se explican a continuación: pequeño número de axiomas. PLN y Procesamiento del corpus: Esta Como la mayorı́a del conocimiento del fase tiene como objetivo el análisis del texto mundo está codificado en LN, la automati- de forma lingüı́stica. Divide el texto en ora- zación del proceso de población de las onto- ciones y palabras. logı́as utilizando los resultados obtenidos del La tarea estándar de la segmentación de análisis de PLN de documentos se ha conver- las palabras se realizará con la interfaz de tido recientemente en un gran desafı́o para programación de aplicaciones proporcionada aplicaciones (Witte, Khamis, y Rilling, 2010). en el marco de desarrollo para el PLN llama- En Panamá casi no se gestiona la informa- da GATE (General Architecture for Text En- ción de pacientes de forma electrónica. Esto gineering) (Thakker, Osman, y Lakin, 2009). El marco de desarrollo GATE proporcio- 2009). Se trata de una recomendación del na los componentes necesarios para realizar World Wide Web Consortium (W3C) (Mal- la segmentación del texto en oraciones y pa- donado et al., 2012), y puede usarse para re- labras. Estos componentes son fácilmente en- presentar ontologı́as de forma explı́cita, es de- samblados para lograr una aplicación más cir, permite definir el significado de términos compleja basada en tuberı́as, donde se agrega en vocabularios y las relaciones entre aquellos el componente de extracción de anotaciones. términos u ontologı́as. A continuación se describen estos componen- Las anotaciones se insertarán en la onto- tes: logı́a como individuos de una o más clases. Para este módulo utilizaremos una API de Tokenizer: Realiza el proceso de separar Java llamada JENA (Zhou et al., 2010). JE- las palabras que se encuentran en el tex- NA es un marco de trabajo que permite cons- to en simples tokens (Berry y Castella- truir aplicaciones para la web semántica. nos, 2008). Los tokens pueden ser pala- JENA tiene una serie de librerı́as para bras, números, sı́mbolos, signos de pun- que los desarrolladores puedan escribir códi- tuación y espacio en blanco o saltos de go que se encargue de procesar RDF (Resour- lı́nea. ce Description Framework), OWL, SPARQL. Además incluye un motor de inferencia que se Sentence Splitter: Divide el texto en ora- basa en reglas para razonar sobre ontologı́as ciones, para lo cual se utilizan transduc- RDF y OWL especialmente. Posee una se- tores de estado finito, es decir, alfabe- rie de aplicaciones de almacenamiento para tos de entrada y salida (IJntema et al., guardar tripletas RDF en el disco o en la me- 2012). moria (Ibrahim, Mokhtar, y Harb, 2013). Además, en esta fase, se extraen las ano- Visualización de información clı́nica: taciones que luego servirán para instanciar La arquitectura que planteamos a través del la ontologı́a de dominio de forma automáti- sistema informático tiene como objetivo final ca. Para ello, GATE proporciona una API en varios escenarios en virtud a los resultados Java llamada StandAloneAnnie. deseados, por un lado, el archivo .owl, que Para la extracción de información de las puede accederse desde cualquier editor de on- anotaciones, se utilizarán dos componentes tologı́as, por otro lado un archivo en formato de GATE llamado JAPE Transducer (Wyner .xml siguiendo el estándar de HL7, y tercero et al., 2012) y los Gazzetteer, los cuales se en- un reporte o interfaz gráfica que contendrá cargarán de compilar y ejecutar un conjunto ordenadamente la información del paciente, de reglas basadas en la gramática JAPE (Ja- de manera que quien la consulte pueda ges- va Annotation Pattern Engine). tionar el conocimiento y que sirva de apoyo Instanciar la ontologı́a: En esta fase se para la toma de decisiones. insertarán las instancias que poblarán nues- tra ontologı́a, en nuestra metodologı́a las ano- 6. Referencias bibliográficas taciones recuperadas se utilizarán para reali- Bibliografı́a zar el proceso de instanciación. Berry, M. W. y M. Castellanos. 2008. Survey La ontologı́a de dominio será construida of text mining II, volumen 6. Springer. con Protégé (Horridge, Tsarkov, y Redmond, 2006), el cual es un editor de ontologı́as y de Bilgin, G., I. Dikmen, y M. T. Birgonul. sistemas basados en conocimiento, es gratui- 2014. Ontology evaluation: An example to y de código abierto. Con esta herramienta of delay analysis. Procedia Engineering, crearemos todos los elementos de la ontologı́a 85:61–68. de dominio. Cimiano, P., C. Unger, y J. P. McCrae. 2014. La ontologı́a tendrá formato OWL, con- Ontology-Based Interpretation of Natural formada por clases, subclases, propiedades e Language. Synthesis Lectures on Human individuos. A una ontolgı́a, también se le co- Language Technologies. Morgan & Clay- noce como base de conocimiento (knowledge pool Publishers. base) (Guerrero et al., 2014). OWL es un lenguaje de etiquetado Guerrero, J. I., C. León, I. Monedero, F. Bis- semántico para publicar y compartir onto- carri, y J. Biscarri. 2014. Improving logı́as en la Web (Martı́nez-Costa et al., knowledge-based systems with statistical techniques, text mining, and neural net- Thakker, D., T. Osman, y P. Lakin. 2009. works for non-technical loss detection. Gate jape grammar tutorial. Nottingham Knowledge-Based Systems, 71:376–388. Trent University, UK, Phil Lakin, UK, Version, 1. Haugeland, J. 1988. La inteligencia artifi- cial. Siglo XXI. Valencia-Garcı́a, R. y G. Alor-Hernández. 2016. Special issue on knowledge-based Horridge, M., D. Tsarkov, y T. Redmond. software engineering. 2006. Supporting early adoption of owl 1.1 with protege-owl and fact++. En OW- Vida, M., O. Lupse, y L. Stoicu-Tivadar. LED. 2012. Improving the interoperability of healthcare information systems through Ibrahim, N. Y., S. A. Mokhtar, y H. M. Harb. hl7 cda and ccd standards. En Applied 2013. Towards an ontology based integra- Computational Intelligence and Informa- ted framework for semantic web. arXiv tics (SACI), 2012 7th IEEE International preprint arXiv:1305.7058. Symposium on, páginas 157–161. IEEE. IJntema, W., J. Sangers, F. Hogenboom, y Witte, R., N. Khamis, y J. Rilling. 2010. Fle- F. Frasincar. 2012. A lexico-semantic pat- xible ontology population from text: The tern language for learning ontology instan- owlexporter. En LREC, volumen 2010, ces from text. Web Semantics: Science, páginas 3845–3850. Services and Agents on the World Wide Web, 15:37–50. Wyner, A. Z., J. Schneider, K. Atkinson, y T. J. Bench-Capon. 2012. Semi- Maldonado, J. A., C. M. Costa, D. Moner, automated argumentative analysis of onli- M. Menárguez-Tortosa, D. Boscá, J. A. M. ne product reviews. COMMA, 245:43–50. Giménez, J. T. Fernández-Breis, y M. Ro- bles. 2012. Using the researchehr plat- Zhou, S., H. Ling, M. Han, y H. Zhang. 2010. form to facilitate the practical application Ontology generator from relational data- of the ehr standards. Journal of biomedi- base based on jena. Computer and Infor- cal informatics, 45(4):746–762. mation Science, 3(2):263. Martı́nez-Costa, C., M. Menárguez-Tortosa, J. T. Fernández-Breis, y J. A. Maldona- do. 2009. A model-driven approach for re- presenting clinical archetypes for semantic web environments. Journal of biomedical informatics, 42(1):150–164. Ruiz-Martı́nez, J. M., J. A. Miñarro- Giménez, L. Guillén-Cárceles, D. Castellanos-Nieves, R. Valencia- Garcı́a, F. Garcı́a-Sánchez, J. T. Fernández-Breis, y R. Martı́nez-Béjar. 2008. Populating ontologies in the etourism domain. En Web Intelligence and Intelligent Agent Technology, 2008. WI-IAT’08. IEEE/WIC/ACM Interna- tional Conference on, volumen 3, páginas 316–319. IEEE. Studer, R., V. R. Benjamins, y D. Fensel. 1998 p.25. Knowledge engineering: prin- ciples and methods. Data & knowledge engineering, 25(1-2):161–197. Terzieva, M. 2014. Project knowledge mana- gement: how organizations learn from ex- perience. Procedia Technology, 16:1086– 1095.