=Paper= {{Paper |id=Vol-1318/paper8 |storemode=property |title=SIFR Project: The Semantic Indexing of French Biomedical Data Resources |pdfUrl=https://ceur-ws.org/Vol-1318/paper8.pdf |volume=Vol-1318 |dblpUrl=https://dblp.org/rec/conf/simbig/VenturaJRT14 }} ==SIFR Project: The Semantic Indexing of French Biomedical Data Resources== https://ceur-ws.org/Vol-1318/paper8.pdf
          SIFR Project: The Semantic Indexing of French Biomedical Data
                                   Resources
              Juan Antonio Lossio-Ventura,                              Mathieu Roche,
                    Clement Jonquet                                  Maguelonne Teisseire
            LIRMM, CNRS, Univ. Montpellier 2                    TETIS, Cirad, Irstea, AgroParisTech
                   Montpellier, France                                 Montpellier, France
               fName.lName@lirmm.fr                            fName.lName@teledection.fr


                        Abstract                               riquecimiento de ontologı́as, con el fin de poblar
                                                               ontologı́as con los términos extraı́dos.
        The Semantic Indexing of French Biomed-                   El artı́culo es organizado como sigue. Primero
        ical Data Resources project proposes to in-            discutimos sobre la sobre la metodologı́a puesta
        vestigate the scientific and technical chal-           en marcha para este proyecto en la Sección 2.
        lenges in building ontology-based services             La evaluación de la precisión es presentada en
        to leverage biomedical ontologies and ter-             la Sección 3 seguida de las conclusiones en la
        minologies in indexing, mining and re-                 Sección 4.
        trieval of French biomedical data.
                                                               2     Metodologı́a
1       Introducción
                                                               Nuestro trabajo se divide en dos procesos princi-
Hoy en dı́a la gran cantidad de datos disponibles              pales: (i) la extracción de términos biomédicos, y
en lı́nea suele componerse de texto no es-                     (ii) el enriquecimiento de ontologı́as, explicados a
tructurado, por ejemplo reportes clı́nicos, in-                continuación.
formes de reportes adversos, historiales clı́nicos
                                                               2.1     Extracción Automática de Términos
electrónicos (Lossio-Ventura et al., 2013). Reg-
                                                                       Biomédicos
ularmente estos textos son escritos usando un
lenguaje especı́fico (expresiones y términos) us-             La extracción de términos es una tarea esencial
ados por una comunidad. Es por eso existe la                   en la adquisición de conocimiento de un dominio.
necesidad de formalizar e indexar términos o con-             En este trabajo presentamos las medidas creadas
ceptos técnicos. Lo cual implica un gran consumo              para este objetivo. Medidas que se basan en var-
de tiempo.                                                     ios criterios como lingüı́stico, estadı́stico, grafos
   Los términos relevantes son útiles para obtener           y web para mejorar el resultado de extracción
una mayor comprensión de la estructura con-                   de términos biomédicos. Las medidas presen-
ceptual de un dominio.            Estos pueden ser:            tadas a continuación son puestas a disposición de
(i) términos de una sola palabra (sencillo a ex-              la comunidad, bajo la aplicación llamada B IO -
traer), o (ii) términos de varias palabras (difı́cil).        T EX (Lossio-Ventura et al., 2014).
En el ámbito biomédico, hay una gran diferen-                2.1.1    Lingüı́stica
cia entre los recursos existentes (ontologı́as) en
inglés y francés. En Inglés hay cerca de 7 000 000          Estas técnicas intentan recuperar términos gracias
de términos asociados a 6 000 000 de conceptos,               a la formación de patrones. La idea principal es
tales como los de UMLS1 o BioPortal (Noy et al.,               la construcción de reglas para describir las es-
2009). Mientras que, en francés sólo hay alrede-             tructuras de los términos de un dominio medi-
dor de 330 000 términos asociados a 160 000 con-              ante el uso de caracterı́sticas ortográficas, léxicas
ceptos (Neveol et al., 2014). Por lo tanto, hay                o morfo-sintácticas. La idea principal es la con-
una necesidad de enriquecer terminologı́as u on-               strucción de reglas, normalmente de forma man-
tologı́as en francés. Por lo tanto, nuestro tra-              ual, que describen las estructuras comunes de
bajo se compone de dos pasos principales: (i) la               términos para ciertos campos. En muchos ca-
extracción de términos biomédicos, y (ii) el en-            sos también, diccionarios conteniendo términos
                                                               técnicos (e.g., prefijos, sufijos y acrónimos es-
    1
        http://www.nlm.nih.gov/research/umls                   pecı́ficos) son usados para ayudar a extraer



                                                          58
términos (Krauthammer et al., 2004).                          con LIDF-value, donde los nodos representan los
                                                               términos relacionados con otros términos gracias
2.1.2   Estadı́stica                                           a la co-ocurrencia en el corpus.
Las técnicas estadı́sticas se basan en la eviden-
cia presentada en el corpus a través de la infor-             2.1.4 Web
mación contextual. Tales enfoques abordan prin-               Diferentes estudios de Web Mining se enfocan en
cipalmente el reconocimiento de términos gen-                 la similitud semántica, relación semántica. Esto
erales (Van Eck et al., 2010). La mayorı́a de me-              significa para cuantificar el grado en el que al-
didas se basan en la frecuencia. La mayor parte                gunas palabras están relacionadas, teniendo en
de trabajos combinan la información lingüı́stica             cuenta no sólo similitud sino también cualquier
y estadı́stica, tal es el caso de C-value (Frantzi             posible relación semántica entre ellos.        La
et al., 2000) combina la información estadı́stica y           primera medida web creada fue WebR (Lossio-
lingüı́stica tanto para la extracción de términos de        Ventura et al., 2014), finalmente la mejora lla-
varias palabras como de términos largos y anida-              mada WAHI (Lossio-Ventura et al., 2014) (Web
dos. Es la medida más conocida en la liter-                   Association based on Hits Information). Nuestra
atura. En el trabajo de (Zhang et al., 2008), de-              medida basada en la Web tiene por objetivo volver
mostraron que C-value obtiene los mejores resul-               a clasificar la lista obtenida previamente con TeR-
tados comparado a otras medidas. Además del                   Graph. Demostramos con esta medida que la pre-
inglés, C-value también ha sido aplicado a otros             cisión de los k primeros términos extraı́dos su-
idiomas tales como japonés, serbio, esloveno, po-             peran los resultados de las medidas arriba men-
laco, chino (Ji et al., 2007), español (Barrón-              cionadas (ver Sección 3).
Cedeno et al., 2009), árabe. Es por eso, en nue-
                                                               2.2    Enriquecimiento de Ontologı́as
stro primer trabajo (Lossio-Ventura et al., 2013),
la modificamos y adaptamos para el francés.                   El objetivo de este proceso es enriquecer las ter-
   A partir de C-value, hemos creados otras me-                minologı́as u ontologı́as con los términos nuevos
didas, como F-TFIDF-C, F-OCapi, C-OKapi,                       extraı́dos en el proceso anterior. Los tres grandes
C-TFIDF (Lossio-Ventura et al., 2014), estas                   pasos a seguir en este proceso son:
medidas obtienen mejores resultados que C-                      (1) Determinar si un término es polisémico:
value. Finalmente una nueva medida basada                           con la ayuda del Meta-Learning, hemos po-
en la información lingüı́stica y estadı́stica es                  dido predecir con una confianza de 97% si un
LIDF-value (Lossio-Ventura et al., 2014) (pa-                       término es polisémico. Esta contribución será
trones Lingüı́sticos, IDF, and C-value informa-                    valorizada en la conferencia ECIR 2015.
tion), que mejora con gran diferencia los resulta-              (2) Identificar los posibles significados si el
dos obtenidos por las medidas antes citadas.                        término es polisémico: es nuestro trabajo
                                                                    actual, con la ayuda de clustering, cluster-
2.1.3   Grafos
                                                                    ing sobre los grafos tratamos de resolver este
El modelo de grafos es una alternativa al modelo                    problema.
de información, muestra claramente las relaciones              (3) Posicionar el término en una ontologı́a.
entre los nodos gracias a las aristas. Gracias a los
algoritmos de centralidad se puede aprovechar los              3     Experimentaciones
grupos de información en grafos. Existen aplica-
                                                               3.1    Datos, protocolo y validación
ciones de grafos para la Recuperación de Infor-
mación (RI) en el contexto de las redes sociales, de          En nuestros experimentos, hemos usado el corpus
colaboración y sistemas de recomendación (Noh                estándar GENIA2 , el cual es compuesto de 2 000
et al., 2009).                                                 tı́tulos y resúmenes de artı́culos de revistas que han
   Una medida basada en grafos creada para este                sido tomadas de la base de datos Medline, con-
proceso es TeRGraph (Lossio-Ventura et al., 2014)              tiene más de 400 000 palabras. GENIA corpus
(Terminology Ranking based on Graph informa-                   contiene expresiones lingüı́sticas que se refieren a
tion). Esta medida tiene como objetivo mejorar                 entidades con interés en biologı́a molecular tales
la precisión de los primeros k términos extraı́dos           como proteı́nas, genes y células.
después de haber aplicado LIDF-value. El grafo                  2
                                                                   http://www.nactem.ac.uk/genia/
es construido con la lista de términos obtenidos              genia-corpus/term-corpus




                                                          59
3.2 Resultados
Los resultados son evaluados en términos de pre-
cisión obtenidos sobre los primeros k términos
extraı́dos (P @k) para las medidas propuestas y
las medidas base (referencia) para la extracción
de términos compuestos de varias palabras. En
las subsecciones siguientes, limitamos los resul-
tados para la medida basada en grafos con sólo los
primeros 8 000 términos extraı́dos y los resulta-
dos para la medida basada en la web con sólo los
primeros 1 000 términos.                                  Figure 3: Comparación de la precisión de WAHI y
3.2.1   Resultados lingüı́sticos y estadı́sticos          TeRGraph


                                                           grandes procesos.
                                                               El primer proceso Extracción Automática de
                                                           Términos Biomédicos, terminado y siendo val-
                                                           orizado en varias publicaciones citadas anterior-
                                                           mente. En este proceso demostramos que las me-
                                                           didas propuestas mejoran la precisión de la ex-
                                                           tracción automática de términos en comparación
                                                           a las medidas más populares de extracción de
                                                           términos.
                                                               El segundo proceso Enriquecimiento de On-
                                                           tologı́as, a la vez dividio en 3 etapas, es nues-
                                                           tra tarea actual, solo la primera etapa ha sido fi-
                                                           nalizada. En este proceso buscamos encontrar la
Figure 1: Comparación de la precisión de LIDF-           mejor posición de un término en una ontologı́a.
value con las mejores medidas de base                          Como trabajo futuro, pensamos acabar el se-
                                                           gundo proceso. Además, planeamos probar es-
3.2.2   Resultados basados en grafos                       tos enfoques generales sobre otros dominios,
                                                           tales como ecologı́a y agronomı́a. Finalmente,
                                                           planeamos aplicar estos enfoques con corpus en
                                                           español.

                                                           Agradecimientos
                                                           Este proyecto es apoyado en parte por la Agencia
                                                           Nacional de Investigación de Francia bajo el pro-
                                                           grama JCJC, ANR-12-JS02-01001, ası́ como por
                                                           la Universidad de Montpellier 2, el CNRS y el pro-
                                                           grama de becas FINCyT, Perú.


                                                           References
Figure 2: Comparación de la precisión de TeR-
Graph y LIDF-value                                         Barrón-Cedeno, A., Sierra, G., Drouin, P., Ananiadou,
                                                             S. 2009. An improved automatic term recognition
                                                             method for Spanish. Computational Linguistics, In-
3.2.3   Resultados basados en la web                         telligent Text Processing, pp. 125-136. Springer.
4   Trabajo Futuro                                         Frantzi K., Ananiadou S., Mima, H. 2000. Automatic
                                                             recognition of multiword terms: the C-value/NC-
Este artı́culo presenta la metodologı́a propuesta            value Method. International Journal on Digital Li-
para el proyecto SIFR. Este proyecto consta de dos           braries, (3):115-130.



                                                      60
Ji, L., Sum, M., Lu, Q., Li, W., Chen, Y. 2007. Chinese        Van Eck, N.J., Waltman, L., Noyons, E.CM., Buter,
    Terminology Extraction Using Window-Based Con-               R.K. 2010. Automatic term identification for bib-
    textual Information. Proceedings of the 8th Inter-           liometric mapping. Scientometrics, vol. 82, pp. 581-
    national Conference on Computational Linguistics,            596.
    Intelligent Text Processing (CICLing07), pp. 62-74.
    Springer-Verlag, Mexico City, Mexico.                      Zhang, Z., Iria, J., Brewster, C., Ciravegna, F. 2008.
                                                                 A Comparative Evaluation of Term Recognition Al-
Krauthammer, M., Nenadic, G. 2004. Term Iden-                    gorithms. Proceedings of the Sixth International
  tification in the Biomedical Literature. Journal of            Conference on Language Resources, Evaluation
  Biomedical Informatics, vol. 37, pp. 512-526. Else-            (LREC08). Marrakech, Morocco.
  vier Science, San Diego, USA.
Lossio-Ventura, J.A., Jonquet, C., Roche, M., Teis-
  seire M. 2014. B IOT EX: A system for Biomed-
  ical Terminology Extraction, Ranking, and Valida-
  tion. Proceedings of the 13th International Seman-
  tic Web Conference (ISWC’14). Trento, Italy.
Lossio-Ventura, J.A., Jonquet, C., Roche, M., Teisseire
  M. 2014. Integration of linguistic and Web infor-
  mation to improve biomedical terminology ranking.
  Proceedings of the 18th International Database En-
  gineering and Applications Symposium (IDEAS’14),
  ACM. Porto, Portugal.
Lossio-Ventura, J.A., Jonquet, C., Roche, M., Teis-
  seire M. 2014. Yet another ranking function to
  automatic multi-word term extraction. Proceed-
  ings of the 9th International Conference on Natural
  Language Processing (PolTAL’14), Springer LNAI.
  Warsaw, Poland.
Lossio-Ventura, J.A., Jonquet, C., Roche, M., Teis-
  seire M. 2014. Biomedical Terminology Ex-
  traction: A new combination of Statistical, Web
  Mining Approaches.      Proceedings of Journées
  internationales d’Analyse statistique des Données
  Textuelles (JADT2014). Paris, France.
Lossio-Ventura, J.A., Jonquet, C., Roche, M., Teisseire
  M. 2013. Combining C-value, Keyword Extraction
  Methods for Biomedical Terms Extraction. Pro-
  ceedings of the Fifth International Symposium on
  Languages in Biology, Medicine (LBM13), pp. 45-
  49, Tokyo, Japan.
Neveol, A., Grosjean, J., Darmoni, S., Zweigenbaum,
  P. 2014. Language Resources for French in the
  Biomedical Domain. Proceedings of the 9th In-
  ternational Conference on Language Resources and
  Evaluation (LREC’14). Reykjavik, Iceland
Noh, TG., Park, SB., Yoon, HG., Lee, SJ., Park,
  SY. 2009. An Automatic Translation of Tags for
  Multimedia Contents Using Folksonomy Networks.
  Proceedings of the 32nd International ACM SIGIR
  Conference on Research, Development in Informa-
  tion Retrieval SIGIR ’09, pp. 492-499. Boston, MA,
  USA, ACM.
Noy, N. F., Shah, N. H., Whetzel, P. L., Dai, B., Dorf,
 M., Griffith, N., Jonquet, C., Rubin, D. L., Storey,
 M., Chute, C.G., Musen, M. A. 2009. BioPortal:
 ontologies and integrated data resources at the click
 of a mouse. Nucleic acids research, vol. 37(suppl
 2), pp 170–173.



                                                          61