=Paper=
{{Paper
|id=Vol-1318/paper8
|storemode=property
|title=SIFR Project: The Semantic Indexing of French Biomedical Data Resources
|pdfUrl=https://ceur-ws.org/Vol-1318/paper8.pdf
|volume=Vol-1318
|dblpUrl=https://dblp.org/rec/conf/simbig/VenturaJRT14
}}
==SIFR Project: The Semantic Indexing of French Biomedical Data Resources==
SIFR Project: The Semantic Indexing of French Biomedical Data
Resources
Juan Antonio Lossio-Ventura, Mathieu Roche,
Clement Jonquet Maguelonne Teisseire
LIRMM, CNRS, Univ. Montpellier 2 TETIS, Cirad, Irstea, AgroParisTech
Montpellier, France Montpellier, France
fName.lName@lirmm.fr fName.lName@teledection.fr
Abstract riquecimiento de ontologı́as, con el fin de poblar
ontologı́as con los términos extraı́dos.
The Semantic Indexing of French Biomed- El artı́culo es organizado como sigue. Primero
ical Data Resources project proposes to in- discutimos sobre la sobre la metodologı́a puesta
vestigate the scientific and technical chal- en marcha para este proyecto en la Sección 2.
lenges in building ontology-based services La evaluación de la precisión es presentada en
to leverage biomedical ontologies and ter- la Sección 3 seguida de las conclusiones en la
minologies in indexing, mining and re- Sección 4.
trieval of French biomedical data.
2 Metodologı́a
1 Introducción
Nuestro trabajo se divide en dos procesos princi-
Hoy en dı́a la gran cantidad de datos disponibles pales: (i) la extracción de términos biomédicos, y
en lı́nea suele componerse de texto no es- (ii) el enriquecimiento de ontologı́as, explicados a
tructurado, por ejemplo reportes clı́nicos, in- continuación.
formes de reportes adversos, historiales clı́nicos
2.1 Extracción Automática de Términos
electrónicos (Lossio-Ventura et al., 2013). Reg-
Biomédicos
ularmente estos textos son escritos usando un
lenguaje especı́fico (expresiones y términos) us- La extracción de términos es una tarea esencial
ados por una comunidad. Es por eso existe la en la adquisición de conocimiento de un dominio.
necesidad de formalizar e indexar términos o con- En este trabajo presentamos las medidas creadas
ceptos técnicos. Lo cual implica un gran consumo para este objetivo. Medidas que se basan en var-
de tiempo. ios criterios como lingüı́stico, estadı́stico, grafos
Los términos relevantes son útiles para obtener y web para mejorar el resultado de extracción
una mayor comprensión de la estructura con- de términos biomédicos. Las medidas presen-
ceptual de un dominio. Estos pueden ser: tadas a continuación son puestas a disposición de
(i) términos de una sola palabra (sencillo a ex- la comunidad, bajo la aplicación llamada B IO -
traer), o (ii) términos de varias palabras (difı́cil). T EX (Lossio-Ventura et al., 2014).
En el ámbito biomédico, hay una gran diferen- 2.1.1 Lingüı́stica
cia entre los recursos existentes (ontologı́as) en
inglés y francés. En Inglés hay cerca de 7 000 000 Estas técnicas intentan recuperar términos gracias
de términos asociados a 6 000 000 de conceptos, a la formación de patrones. La idea principal es
tales como los de UMLS1 o BioPortal (Noy et al., la construcción de reglas para describir las es-
2009). Mientras que, en francés sólo hay alrede- tructuras de los términos de un dominio medi-
dor de 330 000 términos asociados a 160 000 con- ante el uso de caracterı́sticas ortográficas, léxicas
ceptos (Neveol et al., 2014). Por lo tanto, hay o morfo-sintácticas. La idea principal es la con-
una necesidad de enriquecer terminologı́as u on- strucción de reglas, normalmente de forma man-
tologı́as en francés. Por lo tanto, nuestro tra- ual, que describen las estructuras comunes de
bajo se compone de dos pasos principales: (i) la términos para ciertos campos. En muchos ca-
extracción de términos biomédicos, y (ii) el en- sos también, diccionarios conteniendo términos
técnicos (e.g., prefijos, sufijos y acrónimos es-
1
http://www.nlm.nih.gov/research/umls pecı́ficos) son usados para ayudar a extraer
58
términos (Krauthammer et al., 2004). con LIDF-value, donde los nodos representan los
términos relacionados con otros términos gracias
2.1.2 Estadı́stica a la co-ocurrencia en el corpus.
Las técnicas estadı́sticas se basan en la eviden-
cia presentada en el corpus a través de la infor- 2.1.4 Web
mación contextual. Tales enfoques abordan prin- Diferentes estudios de Web Mining se enfocan en
cipalmente el reconocimiento de términos gen- la similitud semántica, relación semántica. Esto
erales (Van Eck et al., 2010). La mayorı́a de me- significa para cuantificar el grado en el que al-
didas se basan en la frecuencia. La mayor parte gunas palabras están relacionadas, teniendo en
de trabajos combinan la información lingüı́stica cuenta no sólo similitud sino también cualquier
y estadı́stica, tal es el caso de C-value (Frantzi posible relación semántica entre ellos. La
et al., 2000) combina la información estadı́stica y primera medida web creada fue WebR (Lossio-
lingüı́stica tanto para la extracción de términos de Ventura et al., 2014), finalmente la mejora lla-
varias palabras como de términos largos y anida- mada WAHI (Lossio-Ventura et al., 2014) (Web
dos. Es la medida más conocida en la liter- Association based on Hits Information). Nuestra
atura. En el trabajo de (Zhang et al., 2008), de- medida basada en la Web tiene por objetivo volver
mostraron que C-value obtiene los mejores resul- a clasificar la lista obtenida previamente con TeR-
tados comparado a otras medidas. Además del Graph. Demostramos con esta medida que la pre-
inglés, C-value también ha sido aplicado a otros cisión de los k primeros términos extraı́dos su-
idiomas tales como japonés, serbio, esloveno, po- peran los resultados de las medidas arriba men-
laco, chino (Ji et al., 2007), español (Barrón- cionadas (ver Sección 3).
Cedeno et al., 2009), árabe. Es por eso, en nue-
2.2 Enriquecimiento de Ontologı́as
stro primer trabajo (Lossio-Ventura et al., 2013),
la modificamos y adaptamos para el francés. El objetivo de este proceso es enriquecer las ter-
A partir de C-value, hemos creados otras me- minologı́as u ontologı́as con los términos nuevos
didas, como F-TFIDF-C, F-OCapi, C-OKapi, extraı́dos en el proceso anterior. Los tres grandes
C-TFIDF (Lossio-Ventura et al., 2014), estas pasos a seguir en este proceso son:
medidas obtienen mejores resultados que C- (1) Determinar si un término es polisémico:
value. Finalmente una nueva medida basada con la ayuda del Meta-Learning, hemos po-
en la información lingüı́stica y estadı́stica es dido predecir con una confianza de 97% si un
LIDF-value (Lossio-Ventura et al., 2014) (pa- término es polisémico. Esta contribución será
trones Lingüı́sticos, IDF, and C-value informa- valorizada en la conferencia ECIR 2015.
tion), que mejora con gran diferencia los resulta- (2) Identificar los posibles significados si el
dos obtenidos por las medidas antes citadas. término es polisémico: es nuestro trabajo
actual, con la ayuda de clustering, cluster-
2.1.3 Grafos
ing sobre los grafos tratamos de resolver este
El modelo de grafos es una alternativa al modelo problema.
de información, muestra claramente las relaciones (3) Posicionar el término en una ontologı́a.
entre los nodos gracias a las aristas. Gracias a los
algoritmos de centralidad se puede aprovechar los 3 Experimentaciones
grupos de información en grafos. Existen aplica-
3.1 Datos, protocolo y validación
ciones de grafos para la Recuperación de Infor-
mación (RI) en el contexto de las redes sociales, de En nuestros experimentos, hemos usado el corpus
colaboración y sistemas de recomendación (Noh estándar GENIA2 , el cual es compuesto de 2 000
et al., 2009). tı́tulos y resúmenes de artı́culos de revistas que han
Una medida basada en grafos creada para este sido tomadas de la base de datos Medline, con-
proceso es TeRGraph (Lossio-Ventura et al., 2014) tiene más de 400 000 palabras. GENIA corpus
(Terminology Ranking based on Graph informa- contiene expresiones lingüı́sticas que se refieren a
tion). Esta medida tiene como objetivo mejorar entidades con interés en biologı́a molecular tales
la precisión de los primeros k términos extraı́dos como proteı́nas, genes y células.
después de haber aplicado LIDF-value. El grafo 2
http://www.nactem.ac.uk/genia/
es construido con la lista de términos obtenidos genia-corpus/term-corpus
59
3.2 Resultados
Los resultados son evaluados en términos de pre-
cisión obtenidos sobre los primeros k términos
extraı́dos (P @k) para las medidas propuestas y
las medidas base (referencia) para la extracción
de términos compuestos de varias palabras. En
las subsecciones siguientes, limitamos los resul-
tados para la medida basada en grafos con sólo los
primeros 8 000 términos extraı́dos y los resulta-
dos para la medida basada en la web con sólo los
primeros 1 000 términos. Figure 3: Comparación de la precisión de WAHI y
3.2.1 Resultados lingüı́sticos y estadı́sticos TeRGraph
grandes procesos.
El primer proceso Extracción Automática de
Términos Biomédicos, terminado y siendo val-
orizado en varias publicaciones citadas anterior-
mente. En este proceso demostramos que las me-
didas propuestas mejoran la precisión de la ex-
tracción automática de términos en comparación
a las medidas más populares de extracción de
términos.
El segundo proceso Enriquecimiento de On-
tologı́as, a la vez dividio en 3 etapas, es nues-
tra tarea actual, solo la primera etapa ha sido fi-
nalizada. En este proceso buscamos encontrar la
Figure 1: Comparación de la precisión de LIDF- mejor posición de un término en una ontologı́a.
value con las mejores medidas de base Como trabajo futuro, pensamos acabar el se-
gundo proceso. Además, planeamos probar es-
3.2.2 Resultados basados en grafos tos enfoques generales sobre otros dominios,
tales como ecologı́a y agronomı́a. Finalmente,
planeamos aplicar estos enfoques con corpus en
español.
Agradecimientos
Este proyecto es apoyado en parte por la Agencia
Nacional de Investigación de Francia bajo el pro-
grama JCJC, ANR-12-JS02-01001, ası́ como por
la Universidad de Montpellier 2, el CNRS y el pro-
grama de becas FINCyT, Perú.
References
Figure 2: Comparación de la precisión de TeR-
Graph y LIDF-value Barrón-Cedeno, A., Sierra, G., Drouin, P., Ananiadou,
S. 2009. An improved automatic term recognition
method for Spanish. Computational Linguistics, In-
3.2.3 Resultados basados en la web telligent Text Processing, pp. 125-136. Springer.
4 Trabajo Futuro Frantzi K., Ananiadou S., Mima, H. 2000. Automatic
recognition of multiword terms: the C-value/NC-
Este artı́culo presenta la metodologı́a propuesta value Method. International Journal on Digital Li-
para el proyecto SIFR. Este proyecto consta de dos braries, (3):115-130.
60
Ji, L., Sum, M., Lu, Q., Li, W., Chen, Y. 2007. Chinese Van Eck, N.J., Waltman, L., Noyons, E.CM., Buter,
Terminology Extraction Using Window-Based Con- R.K. 2010. Automatic term identification for bib-
textual Information. Proceedings of the 8th Inter- liometric mapping. Scientometrics, vol. 82, pp. 581-
national Conference on Computational Linguistics, 596.
Intelligent Text Processing (CICLing07), pp. 62-74.
Springer-Verlag, Mexico City, Mexico. Zhang, Z., Iria, J., Brewster, C., Ciravegna, F. 2008.
A Comparative Evaluation of Term Recognition Al-
Krauthammer, M., Nenadic, G. 2004. Term Iden- gorithms. Proceedings of the Sixth International
tification in the Biomedical Literature. Journal of Conference on Language Resources, Evaluation
Biomedical Informatics, vol. 37, pp. 512-526. Else- (LREC08). Marrakech, Morocco.
vier Science, San Diego, USA.
Lossio-Ventura, J.A., Jonquet, C., Roche, M., Teis-
seire M. 2014. B IOT EX: A system for Biomed-
ical Terminology Extraction, Ranking, and Valida-
tion. Proceedings of the 13th International Seman-
tic Web Conference (ISWC’14). Trento, Italy.
Lossio-Ventura, J.A., Jonquet, C., Roche, M., Teisseire
M. 2014. Integration of linguistic and Web infor-
mation to improve biomedical terminology ranking.
Proceedings of the 18th International Database En-
gineering and Applications Symposium (IDEAS’14),
ACM. Porto, Portugal.
Lossio-Ventura, J.A., Jonquet, C., Roche, M., Teis-
seire M. 2014. Yet another ranking function to
automatic multi-word term extraction. Proceed-
ings of the 9th International Conference on Natural
Language Processing (PolTAL’14), Springer LNAI.
Warsaw, Poland.
Lossio-Ventura, J.A., Jonquet, C., Roche, M., Teis-
seire M. 2014. Biomedical Terminology Ex-
traction: A new combination of Statistical, Web
Mining Approaches. Proceedings of Journées
internationales d’Analyse statistique des Données
Textuelles (JADT2014). Paris, France.
Lossio-Ventura, J.A., Jonquet, C., Roche, M., Teisseire
M. 2013. Combining C-value, Keyword Extraction
Methods for Biomedical Terms Extraction. Pro-
ceedings of the Fifth International Symposium on
Languages in Biology, Medicine (LBM13), pp. 45-
49, Tokyo, Japan.
Neveol, A., Grosjean, J., Darmoni, S., Zweigenbaum,
P. 2014. Language Resources for French in the
Biomedical Domain. Proceedings of the 9th In-
ternational Conference on Language Resources and
Evaluation (LREC’14). Reykjavik, Iceland
Noh, TG., Park, SB., Yoon, HG., Lee, SJ., Park,
SY. 2009. An Automatic Translation of Tags for
Multimedia Contents Using Folksonomy Networks.
Proceedings of the 32nd International ACM SIGIR
Conference on Research, Development in Informa-
tion Retrieval SIGIR ’09, pp. 492-499. Boston, MA,
USA, ACM.
Noy, N. F., Shah, N. H., Whetzel, P. L., Dai, B., Dorf,
M., Griffith, N., Jonquet, C., Rubin, D. L., Storey,
M., Chute, C.G., Musen, M. A. 2009. BioPortal:
ontologies and integrated data resources at the click
of a mouse. Nucleic acids research, vol. 37(suppl
2), pp 170–173.
61