=Paper=
{{Paper
|id=Vol-1318/paper8
|storemode=property
|title=SIFR Project: The Semantic Indexing of French Biomedical Data Resources
|pdfUrl=https://ceur-ws.org/Vol-1318/paper8.pdf
|volume=Vol-1318
|dblpUrl=https://dblp.org/rec/conf/simbig/VenturaJRT14
}}
==SIFR Project: The Semantic Indexing of French Biomedical Data Resources==
<pdf width="1500px">https://ceur-ws.org/Vol-1318/paper8.pdf</pdf>
<pre>
          SIFR Project: The Semantic Indexing of French Biomedical Data
                                   Resources
              Juan Antonio Lossio-Ventura,                              Mathieu Roche,
                    Clement Jonquet                                  Maguelonne Teisseire
            LIRMM, CNRS, Univ. Montpellier 2                    TETIS, Cirad, Irstea, AgroParisTech
                   Montpellier, France                                 Montpellier, France
               fName.lName@lirmm.fr                            fName.lName@teledection.fr


                        Abstract                               riquecimiento de ontologı́as, con el fin de poblar
                                                               ontologı́as con los términos extraı́dos.
        The Semantic Indexing of French Biomed-                   El artı́culo es organizado como sigue. Primero
        ical Data Resources project proposes to in-            discutimos sobre la sobre la metodologı́a puesta
        vestigate the scientific and technical chal-           en marcha para este proyecto en la Sección 2.
        lenges in building ontology-based services             La evaluación de la precisión es presentada en
        to leverage biomedical ontologies and ter-             la Sección 3 seguida de las conclusiones en la
        minologies in indexing, mining and re-                 Sección 4.
        trieval of French biomedical data.
                                                               2     Metodologı́a
1       Introducción
                                                               Nuestro trabajo se divide en dos procesos princi-
Hoy en dı́a la gran cantidad de datos disponibles              pales: (i) la extracción de términos biomédicos, y
en lı́nea suele componerse de texto no es-                     (ii) el enriquecimiento de ontologı́as, explicados a
tructurado, por ejemplo reportes clı́nicos, in-                continuación.
formes de reportes adversos, historiales clı́nicos
                                                               2.1     Extracción Automática de Términos
electrónicos (Lossio-Ventura et al., 2013). Reg-
                                                                       Biomédicos
ularmente estos textos son escritos usando un
lenguaje especı́fico (expresiones y términos) us-             La extracción de términos es una tarea esencial
ados por una comunidad. Es por eso existe la                   en la adquisición de conocimiento de un dominio.
necesidad de formalizar e indexar términos o con-             En este trabajo presentamos las medidas creadas
ceptos técnicos. Lo cual implica un gran consumo              para este objetivo. Medidas que se basan en var-
de tiempo.                                                     ios criterios como lingüı́stico, estadı́stico, grafos
   Los términos relevantes son útiles para obtener           y web para mejorar el resultado de extracción
una mayor comprensión de la estructura con-                   de términos biomédicos. Las medidas presen-
ceptual de un dominio.            Estos pueden ser:            tadas a continuación son puestas a disposición de
(i) términos de una sola palabra (sencillo a ex-              la comunidad, bajo la aplicación llamada B IO -
traer), o (ii) términos de varias palabras (difı́cil).        T EX (Lossio-Ventura et al., 2014).
En el ámbito biomédico, hay una gran diferen-                2.1.1    Lingüı́stica
cia entre los recursos existentes (ontologı́as) en
inglés y francés. En Inglés hay cerca de 7 000 000          Estas técnicas intentan recuperar términos gracias
de términos asociados a 6 000 000 de conceptos,               a la formación de patrones. La idea principal es
tales como los de UMLS1 o BioPortal (Noy et al.,               la construcción de reglas para describir las es-
2009). Mientras que, en francés sólo hay alrede-             tructuras de los términos de un dominio medi-
dor de 330 000 términos asociados a 160 000 con-              ante el uso de caracterı́sticas ortográficas, léxicas
ceptos (Neveol et al., 2014). Por lo tanto, hay                o morfo-sintácticas. La idea principal es la con-
una necesidad de enriquecer terminologı́as u on-               strucción de reglas, normalmente de forma man-
tologı́as en francés. Por lo tanto, nuestro tra-              ual, que describen las estructuras comunes de
bajo se compone de dos pasos principales: (i) la               términos para ciertos campos. En muchos ca-
extracción de términos biomédicos, y (ii) el en-            sos también, diccionarios conteniendo términos
                                                               técnicos (e.g., prefijos, sufijos y acrónimos es-
    1
        http://www.nlm.nih.gov/research/umls                   pecı́ficos) son usados para ayudar a extraer


                                                          58
términos (Krauthammer et al., 2004).                          con LIDF-value, donde los nodos representan los
                                                               términos relacionados con otros términos gracias
2.1.2   Estadı́stica                                           a la co-ocurrencia en el corpus.
Las técnicas estadı́sticas se basan en la eviden-
cia presentada en el corpus a través de la infor-             2.1.4 Web
mación contextual. Tales enfoques abordan prin-               Diferentes estudios de Web Mining se enfocan en
cipalmente el reconocimiento de términos gen-                 la similitud semántica, relación semántica. Esto
erales (Van Eck et al., 2010). La mayorı́a de me-              significa para cuantificar el grado en el que al-
didas se basan en la frecuencia. La mayor parte                gunas palabras están relacionadas, teniendo en
de trabajos combinan la información lingüı́stica             cuenta no sólo similitud sino también cualquier
y estadı́stica, tal es el caso de C-value (Frantzi             posible relación semántica entre ellos.        La
et al., 2000) combina la información estadı́stica y           primera medida web creada fue WebR (Lossio-
lingüı́stica tanto para la extracción de términos de        Ventura et al., 2014), finalmente la mejora lla-
varias palabras como de términos largos y anida-              mada WAHI (Lossio-Ventura et al., 2014) (Web
dos. Es la medida más conocida en la liter-                   Association based on Hits Information). Nuestra
atura. En el trabajo de (Zhang et al., 2008), de-              medida basada en la Web tiene por objetivo volver
mostraron que C-value obtiene los mejores resul-               a clasificar la lista obtenida previamente con TeR-
tados comparado a otras medidas. Además del                   Graph. Demostramos con esta medida que la pre-
inglés, C-value también ha sido aplicado a otros             cisión de los k primeros términos extraı́dos su-
idiomas tales como japonés, serbio, esloveno, po-             peran los resultados de las medidas arriba men-
laco, chino (Ji et al., 2007), español (Barrón-              cionadas (ver Sección 3).
Cedeno et al., 2009), árabe. Es por eso, en nue-
                                                               2.2    Enriquecimiento de Ontologı́as
stro primer trabajo (Lossio-Ventura et al., 2013),
la modificamos y adaptamos para el francés.                   El objetivo de este proceso es enriquecer las ter-
   A partir de C-value, hemos creados otras me-                minologı́as u ontologı́as con los términos nuevos
didas, como F-TFIDF-C, F-OCapi, C-OKapi,                       extraı́dos en el proceso anterior. Los tres grandes
C-TFIDF (Lossio-Ventura et al., 2014), estas                   pasos a seguir en este proceso son:
medidas obtienen mejores resultados que C-                      (1) Determinar si un término es polisémico:
value. Finalmente una nueva medida basada                           con la ayuda del Meta-Learning, hemos po-
en la información lingüı́stica y estadı́stica es                  dido predecir con una confianza de 97% si un
LIDF-value (Lossio-Ventura et al., 2014) (pa-                       término es polisémico. Esta contribución será
trones Lingüı́sticos, IDF, and C-value informa-                    valorizada en la conferencia ECIR 2015.
tion), que mejora con gran diferencia los resulta-              (2) Identificar los posibles significados si el
dos obtenidos por las medidas antes citadas.                        término es polisémico: es nuestro trabajo
                                                                    actual, con la ayuda de clustering, cluster-
2.1.3   Grafos
                                                                    ing sobre los grafos tratamos de resolver este
El modelo de grafos es una alternativa al modelo                    problema.
de información, muestra claramente las relaciones              (3) Posicionar el término en una ontologı́a.
entre los nodos gracias a las aristas. Gracias a los
algoritmos de centralidad se puede aprovechar los              3     Experimentaciones
grupos de información en grafos. Existen aplica-
                                                               3.1    Datos, protocolo y validación
ciones de grafos para la Recuperación de Infor-
mación (RI) en el contexto de las redes sociales, de          En nuestros experimentos, hemos usado el corpus
colaboración y sistemas de recomendación (Noh                estándar GENIA2 , el cual es compuesto de 2 000
et al., 2009).                                                 tı́tulos y resúmenes de artı́culos de revistas que han
   Una medida basada en grafos creada para este                sido tomadas de la base de datos Medline, con-
proceso es TeRGraph (Lossio-Ventura et al., 2014)              tiene más de 400 000 palabras. GENIA corpus
(Terminology Ranking based on Graph informa-                   contiene expresiones lingüı́sticas que se refieren a
tion). Esta medida tiene como objetivo mejorar                 entidades con interés en biologı́a molecular tales
la precisión de los primeros k términos extraı́dos           como proteı́nas, genes y células.
después de haber aplicado LIDF-value. El grafo                  2
                                                                   http://www.nactem.ac.uk/genia/
es construido con la lista de términos obtenidos              genia-corpus/term-corpus


                                                          59
3.2 Resultados
Los resultados son evaluados en términos de pre-
cisión obtenidos sobre los primeros k términos
extraı́dos (P @k) para las medidas propuestas y
las medidas base (referencia) para la extracción
de términos compuestos de varias palabras. En
las subsecciones siguientes, limitamos los resul-
tados para la medida basada en grafos con sólo los
primeros 8 000 términos extraı́dos y los resulta-
dos para la medida basada en la web con sólo los
primeros 1 000 términos.                                  Figure 3: Comparación de la precisión de WAHI y
3.2.1   Resultados lingüı́sticos y estadı́sticos          TeRGraph


                                                           grandes procesos.
                                                               El primer proceso Extracción Automática de
                                                           Términos Biomédicos, terminado y siendo val-
                                                           orizado en varias publicaciones citadas anterior-
                                                           mente. En este proceso demostramos que las me-
                                                           didas propuestas mejoran la precisión de la ex-
                                                           tracción automática de términos en comparación
                                                           a las medidas más populares de extracción de
                                                           términos.
                                                               El segundo proceso Enriquecimiento de On-
                                                           tologı́as, a la vez dividio en 3 etapas, es nues-
                                                           tra tarea actual, solo la primera etapa ha sido fi-
                                                           nalizada. En este proceso buscamos encontrar la
Figure 1: Comparación de la precisión de LIDF-           mejor posición de un término en una ontologı́a.
value con las mejores medidas de base                          Como trabajo futuro, pensamos acabar el se-
                                                           gundo proceso. Además, planeamos probar es-
3.2.2   Resultados basados en grafos                       tos enfoques generales sobre otros dominios,
                                                           tales como ecologı́a y agronomı́a. Finalmente,
                                                           planeamos aplicar estos enfoques con corpus en
                                                           español.

                                                           Agradecimientos
                                                           Este proyecto es apoyado en parte por la Agencia
                                                           Nacional de Investigación de Francia bajo el pro-
                                                           grama JCJC, ANR-12-JS02-01001, ası́ como por
                                                           la Universidad de Montpellier 2, el CNRS y el pro-
                                                           grama de becas FINCyT, Perú.


                                                           References
Figure 2: Comparación de la precisión de TeR-
Graph y LIDF-value                                         Barrón-Cedeno, A., Sierra, G., Drouin, P., Ananiadou,
                                                             S. 2009. An improved automatic term recognition
                                                             method for Spanish. Computational Linguistics, In-
3.2.3   Resultados basados en la web                         telligent Text Processing, pp. 125-136. Springer.
4   Trabajo Futuro                                         Frantzi K., Ananiadou S., Mima, H. 2000. Automatic
                                                             recognition of multiword terms: the C-value/NC-
Este artı́culo presenta la metodologı́a propuesta            value Method. International Journal on Digital Li-
para el proyecto SIFR. Este proyecto consta de dos           braries, (3):115-130.


                                                      60
Ji, L., Sum, M., Lu, Q., Li, W., Chen, Y. 2007. Chinese        Van Eck, N.J., Waltman, L., Noyons, E.CM., Buter,
    Terminology Extraction Using Window-Based Con-               R.K. 2010. Automatic term identification for bib-
    textual Information. Proceedings of the 8th Inter-           liometric mapping. Scientometrics, vol. 82, pp. 581-
    national Conference on Computational Linguistics,            596.
    Intelligent Text Processing (CICLing07), pp. 62-74.
    Springer-Verlag, Mexico City, Mexico.                      Zhang, Z., Iria, J., Brewster, C., Ciravegna, F. 2008.
                                                                 A Comparative Evaluation of Term Recognition Al-
Krauthammer, M., Nenadic, G. 2004. Term Iden-                    gorithms. Proceedings of the Sixth International
  tification in the Biomedical Literature. Journal of            Conference on Language Resources, Evaluation
  Biomedical Informatics, vol. 37, pp. 512-526. Else-            (LREC08). Marrakech, Morocco.
  vier Science, San Diego, USA.
Lossio-Ventura, J.A., Jonquet, C., Roche, M., Teis-
  seire M. 2014. B IOT EX: A system for Biomed-
  ical Terminology Extraction, Ranking, and Valida-
  tion. Proceedings of the 13th International Seman-
  tic Web Conference (ISWC’14). Trento, Italy.
Lossio-Ventura, J.A., Jonquet, C., Roche, M., Teisseire
  M. 2014. Integration of linguistic and Web infor-
  mation to improve biomedical terminology ranking.
  Proceedings of the 18th International Database En-
  gineering and Applications Symposium (IDEAS’14),
  ACM. Porto, Portugal.
Lossio-Ventura, J.A., Jonquet, C., Roche, M., Teis-
  seire M. 2014. Yet another ranking function to
  automatic multi-word term extraction. Proceed-
  ings of the 9th International Conference on Natural
  Language Processing (PolTAL’14), Springer LNAI.
  Warsaw, Poland.
Lossio-Ventura, J.A., Jonquet, C., Roche, M., Teis-
  seire M. 2014. Biomedical Terminology Ex-
  traction: A new combination of Statistical, Web
  Mining Approaches.      Proceedings of Journées
  internationales d’Analyse statistique des Données
  Textuelles (JADT2014). Paris, France.
Lossio-Ventura, J.A., Jonquet, C., Roche, M., Teisseire
  M. 2013. Combining C-value, Keyword Extraction
  Methods for Biomedical Terms Extraction. Pro-
  ceedings of the Fifth International Symposium on
  Languages in Biology, Medicine (LBM13), pp. 45-
  49, Tokyo, Japan.
Neveol, A., Grosjean, J., Darmoni, S., Zweigenbaum,
  P. 2014. Language Resources for French in the
  Biomedical Domain. Proceedings of the 9th In-
  ternational Conference on Language Resources and
  Evaluation (LREC’14). Reykjavik, Iceland
Noh, TG., Park, SB., Yoon, HG., Lee, SJ., Park,
  SY. 2009. An Automatic Translation of Tags for
  Multimedia Contents Using Folksonomy Networks.
  Proceedings of the 32nd International ACM SIGIR
  Conference on Research, Development in Informa-
  tion Retrieval SIGIR ’09, pp. 492-499. Boston, MA,
  USA, ACM.
Noy, N. F., Shah, N. H., Whetzel, P. L., Dai, B., Dorf,
 M., Griffith, N., Jonquet, C., Rubin, D. L., Storey,
 M., Chute, C.G., Musen, M. A. 2009. BioPortal:
 ontologies and integrated data resources at the click
 of a mouse. Nucleic acids research, vol. 37(suppl
 2), pp 170–173.


                                                          61

</pre>