=Paper= {{Paper |id=Vol-1797/paper8 |storemode=property |title=Extracción de Datos Enlazados desde Información No Estructurada Aplicando Técnicas de PLN y Ontologías |pdfUrl=https://ceur-ws.org/Vol-1797/paper8.pdf |volume=Vol-1797 |authors=Aramís Rodríguez,Alfredo Simón,Wenny Hojas,José M. Perea |dblpUrl=https://dblp.org/rec/conf/iwsw/Rodriguez-Blanco16 }} ==Extracción de Datos Enlazados desde Información No Estructurada Aplicando Técnicas de PLN y Ontologías== https://ceur-ws.org/Vol-1797/paper8.pdf
            Extracción de Datos Enlazados desde
          Información No Estructurada Aplicando
               Técnicas de PLN y Ontologı́as

     Aramı́s Rodrı́guez-Blanco1 , Alfredo Simón-Cuevas1 , Wenny Hojas-Mazo1 ,
                              José M. Perea-Ortega2
1
    Universidad Tecnológica de La Habana José Antonio Echeverrı́a, Cujae, La Habana,
                                         Cuba
                    2
                      Universidad de Extremadura, Badajoz, España
                    {aridriguezb, asimon, whojas}@ceis.cujae.edu.cu
                                    jmperea@unex.es




         Resumen En este trabajo se presenta un método para la extracción au-
         tomática de datos enlazados a partir de información textual no estructu-
         rada en idioma español e inglés. El método está basado en la extracción
         de una conceptualización del texto en forma de mapa conceptual, la cual
         es posteriormente transformada en un modelo de dados RDF. En la ex-
         tracción de la conceptualización se aplican diversas técnicas de PNL y
         se brinda la posibilidad de utilizar una ontologı́a, para incrementar las
         capacidades de extracción de información del texto. Se realizaron prue-
         bas usando tres colecciones de textos en español e inglés para evaluar
         la propuesta, con resultados prometedores en la extracción de conceptos
         y relaciones entre ellos, y mostrando también los beneficios del uso de
         ontologı́as como recurso de conocimiento externo.

         Palabras claves: extracción de datos enlazados; PLN; mapas concep-
         tuales; y ontologı́as

         Abstract In this work a method for the automatic extraction of lin-
         ked data from unstructured textual information in Spanish and English
         language is presented. The method is based on the extraction of a concep-
         tualization from the text in form of concept map, which is transformed
         later in a RDF data model. In the conceptualization extraction several
         NLP techniques are applied and the possibility to use an ontology is
         offered, for increasing the capacities of information extraction from the
         text. Several tests using three collections of texts in Spanish and English
         were carried out for evaluating the proposal, with promising results in
         the concepts and relationships extraction and showing the benefits of the
         use of ontologies as external knowledge resource.

         Keywords: linked data extraction; NLP; concept map; and ontologies
                                                                                  81

1.     Introducción

     El surgimiento de aplicaciones inteligentes, tales como la búsqueda semántica,
y la popularidad de las tecnologı́as de la Web Semántica están requiriendo cada
vez más que el contenido en la Web sea reorganizado a través de datos semánticos
[1]. El paradigma de los Datos Enlazados (DE) (linked data en inglés) ha evolu-
cionado como un poderoso facilitador en la transición de la actual Web (orientada
a documentos) a una Web de datos interconectados [2]. En este sentido, los DE
se han convertido en un activo de gran valor para la búsqueda, el análisis, la
ingenierı́a del conocimiento, la integración y la recuperación de información. La
extracción de información en fuentes no estructuradas, semi-estructuradas o es-
tructuradas y su descripción en un modelo de datos RDF son tareas claves en
el ciclo de vida de los DE [2]. Los DE son generalmente construidos a partir del
minado de fuentes de información semi-estructuradas, como Wikipedia donde
DBpedia [3] es el referente principal, estructuradas como las bases de datos [4],
y en menor medida a partir de contenido textual no estructurado. La extracción
de DE a partir de fuentes textuales se ha abordado en [5][6][7], pero estas solu-
ciones son aplicables a contenido en inglés y presentan algunas limitaciones en
cuanto a la cantidad de información que puede ser extraı́da, ası́ como en los me-
canismos diseñados para ello. La ausencia de propuestas para extraer DE desde
textos en español, no posibilita aprovechar el volumen de información actual-
mente disponible en ese idioma, siendo esta situación una de las motivaciones de
este trabajo. Un ejemplo de esta necesidad y también motivación, lo constituye
DBpedia-LatAm 1 , como iniciativa que se une al esfuerzo colaborativo impulsado
desde DBpedia para extraer DE desde artı́culos de Wikipedia2 , pero con énfasis
en los documentos escritos en español.
     En este trabajo se presenta un método para extraer DE a partir de conteni-
do textual no estructurado escrito en español e inglés, basado en la extracción
automática de una conceptualización del texto, representada en forma de Ma-
pa Conceptual (MC) [8], la cual es posteriormente transformada en un modelo
de datos RDF. Los MC son un tipo de grafo de conocimiento no formalizado
semánticamente, donde el conocimiento se representa en lenguaje natural y se
estructura a través de nodos que representan conceptos y relaciones entre ellos
formando proposiciones. Los conceptos pueden representar entidades, eventos,
objetos o regularidad percibida de ellos, y las proposiciones son declaraciones
(unidades semánticas) constituidas por dos o más conceptos interconectados me-
diante una relación dirigida y etiquetada por una frase-enlace que define el tipo
de relación [8]. Estos elementos indican la existencia de similitudes estructurales
entre el MC y el grafo subyacente al modelo de datos RDF, ya que este últi-
mo se basa en tripletas (sujeto, predicado, objeto) y los MC en proposiciones
(concepto, frase-enlace, concepto), lo que sirve de fundamento para diseñar una
propuesta de extracción de DE bajo la perspectiva de los MC. El método consta
de tres fases: pre-procesamiento, extracción de la conceptualización y genera-
1
    http://es-la.dbpedia.org/home/
2
    http://es.wikipedia.org/wiki/Wikipedia
82

ción del modelo RDF. En las dos primeras se aplican un conjunto de técnicas
de Procesamiento de Lenguaje Natural (PLN), tales como: análisis sintáctico
superficial y de dependencias, reconocimiento de entidades, patrones lingı́sticos,
entre otras, algunas de ellas incluidas en propuestas similares [9][10][11][12][13],
pero no integradas en una misma solución. También brinda la posibilidad de
procesar textos en idioma inglés y español, a diferencia de las propuestas re-
portadas en [9][10][11][12][13], dirigidas solo a textos en inglés, y de usar una
ontologı́a OWL como recurso de conocimiento externo para apoyar la extrac-
ción de conceptos y relaciones del texto, siendo esta otra de las contribuciones
de la propuesta. Este método no solo posibilita extraer datos que representen
entidades, como principalmente se realiza en [5][6][7], sino que también permite
extraer otros conceptos que pueden ser útiles para ampliar la información aso-
ciada a las entidades y facilitar la identificación de vı́nculos entre ellas. Por otra
parte, también incluye mecanismos para identificar relaciones semánticas, ya
sean taxonómicas y no taxonómicas, significando una ventaja respecto a traba-
jos similares [5][6][7][9][10][11][12][13]. El método fue evaluado mediante pruebas
realizadas con tres colecciones formadas por resúmenes en español e inglés, y
textos más extensos en inglés sobre temas de Inteligencia Artificial (IA). Los
resultados obtenidos se muestran alentadores, alcanzándose en la mayorı́a de las
colecciones valores de precisión superiores al 90 % en la extracción de conceptos
y al 50 % en la extracción de proposiciones. En las pruebas realizadas también
se constataron los beneficios del uso de una ontologı́a en cuanto al aumento de
la cantidad de información extraı́da y a la calidad de su obtención.
     El resto del trabajo se organiza según se describe a continuación. En la Sec-
ción 2 se describen y analizan trabajos relacionados con la propuesta. En la
Sección 3 se describe la solución propuesta y las fases que la componen. En la
Sección 4 se presentan y analizan los resultados de las pruebas realizadas. Las
conclusiones se exponen en la Sección 5.


2.    Trabajos Relacionados

    La extracción automática de DE a partir de contenido textual no estructura-
dos ha sido un tema abordado con anterioridad en [5][6][7], pero estas soluciones
son aplicables mayoritariamente a textos en idioma inglés, no identificándose
propuestas para textos en español. En [6] se reporta una solución para extraer
DE a partir de textos del dominio de la ciberseguridad, en la cual la extracción de
términos y conceptos se realiza aplicando un reconocedor de entidades adaptado
para reconocer clases de entidades asociadas a ese dominio. Los vı́nculos entre las
entidades se identifican mediante relaciones existentes entre las clases represen-
tadas en una ontologı́a, estableciendo un proceso de mapeado entre dichas clases
y las entidades identificadas en el texto, y no a partir del análisis sintáctico del
contenido. En este sentido, las relaciones posibles a extraer están limitadas a los
tipos de relaciones representadas en la ontologı́a, las cuales se enmarcan en el
ámbito de la ciberseguridad. En [5] se presenta una arquitectura para extraer
DE con independencia del dominio, en la que se combina un reconocedor de enti-
                                                                                   83

dades nombradas, con una estructura de representación del discurso que modela
el significado de los textos para extraer los datos y sus vı́nculos. En esta arqui-
tectura se representan otras entidades relevantes del texto, identificadas a partir
de frases sustantivas o eventos, y sus relaciones, ası́ como información sintáctica
y gramatical. Las relaciones binarias entre esas entidades se establecen a través
de proposiciones y roles verbales, siendo este último aspecto su limitación funda-
mental. En [7] se realiza un procesamiento del texto aplicando diferentes técnicas
de PLN que concluye con un árbol de dependencias de las sentencias del texto,
sobre el cual se realiza la extracción de entidades y relaciones entre ellas. En esta
propuesta se utiliza una Base de Datos de Entidades, construida manualmente,
donde se almacenan las posibles entidades a extraer. Las relaciones son identi-
ficadas a partir de consultas almacenadas en una Base de Datos de Consultas,
igualmente construida de forma manual y analizando los vı́nculos entre las en-
tidades identificadas en el árbol de dependencia. Estos elementos sugieren que
con esta propuesta se pueden alcanzar altos ı́ndices de precisión en la extracción
de la información, pero una baja cobertura del texto, ya que la información a
extraer está limitada a lo que se pueda identificar de lo almacenado en las bases
de datos que son utilizadas.


    La construcción de MC a partir de textos ha sido tratado en [9][10][11][12][13],
aunque igualmente todas estas propuestas están concebidas para textos en inglés.
Entre las técnicas de PLN empleadas en el pre-procesamiento del texto se encuen-
tran: etiquetado POS [10][12], el análisis sintáctico superficial [11] y de depen-
dencia [9][13], el reconocimiento de entidades [10] y la desambiguación del sentido
de las palabras [12][13]. Los conceptos han sido identificados fundamentalmen-
te a partir de frases sustantivas [9][10][11][12][13], en algunos casos empleando
patrones léxico-sintácticos predefinidos [9][10], y también a partir de entidades
reconocidas [10]. En la mayor parte de los trabajos las relaciones entre concep-
tos (proposiciones) se identifican a partir de relaciones verbales [9][11][12][13],
en muy pocas propuestas se aprovechan los beneficios que ofrece el análisis de
dependencias [9][13] para la identificación de relaciones entre conceptos, y solo
son identificadas relaciones taxonómicas en [10].


    A partir de este análisis, se decidió diseñar una nueva propuesta para ex-
traer DE aplicable principalmente a textos en español, aspecto no considerado
en [5][6][7], y también en inglés, independiente del dominio, a diferencia de [6], y
que posibilite extraer una mayor cantidad de conceptos (datos) y relaciones, res-
pecto a trabajos similares [5][6][7]. Asociado a este último objetivo, se proponen
algunas contribuciones: (1) el uso de patrones lingı́sticos, en combinación con
una ontologı́a de referencia, para extraer conceptos; y (2) la identificación de re-
laciones semánticas (taxonómicas y no taxonómicas) entre los conceptos, usando
para ello también patrones lingı́sticos y la ontologı́a; (3) uso intensivo del árbol
de dependencia para identificar relaciones entre los conceptos, principalmente
relaciones no taxonómicas.
84

3.      Método de Extracción de Datos Enlazados

    El método propuesto fue diseñado en varias fases, como se muestra en la
Fig. 1. En la obtención de la conceptualización se combinan varias técnicas de
PLN, y el uso de una ontologı́a OWL de referencia, para facilitar y ampliar
la cobertura del texto en la identificación de conceptos y relaciones entre ellos.
Una de las ventajas del diseño del método propuesto es su flexibilidad, ya que
permite utilizar cualquier ontologı́a, aunque es recomendable que el conocimiento
que represente sea del mismo dominio (o cercano) al del contenido de los textos,
para lograr un mayor aprovechamiento de ese recurso de conocimiento.




     Figura 1. Fases y componentes del método propuesto para la extracción de DE.




3.1.     Pre-procesamiento

    En esta fase, el contenido del fichero de entrada es segmentado y caracte-
rizado sintácticamente, partiendo de la extracción del texto plano usando una
biblioteca de clases de Java desarrolladas para este propósito, que brinda soporte
para ficheros html, htm, pdf, docx, doc, rtf y txt. Luego, se identifica si el texto
ha sido escrito en español o inglés aplicando la solución reportada en [14]. La
identificación del idioma constituye una tarea importante en este método, pues
a partir del resultado de esta tarea es que se decide que patrones utilizar para la
extracción de conceptos y relaciones, dado que los mismos están definidos para
textos en español o inglés. La segmentación se realiza en oraciones (unidad de
análisis), considerando principalmente el punto final como elemento que delimita
los segmentos. En este proceso se ignoran los puntos presentes en números, en
siglas y abreviaturas, y los puntos suspensivos. Sobre cada una de las oraciones,
se identifican los tokens (ej. palabras, números, signos de puntuación, etc.), y
se ejecuta el análisis morfosintáctico, el cual incluye el análisis sintáctico super-
ficial y de dependencias. Este análisis del texto se realiza usando el analizador
                                                                                     85

sintáctico Freeling [15], teniendo en cuenta que es uno de los pocos analizadores
que brinda soporte para textos en español, además de inglés. Como resultado del
análisis morfológico cada uno de los tokens se etiqueta con su raı́z morfológica,
categorı́a gramatical y otros datos.
     El análisis sintáctico superficial está dirigido principalmente a la identifica-
ción de conceptos, y consiste en agrupar los tokens de la oración en chunks
o constituyentes que representan estructuras gramaticales categorizadas como:
sintagmas nominales, adjetivales, preposicionales, grupos verbales, entre otros,
a partir de los cuales se obtiene un árbol sintáctico. A través del análisis de
dependencias se establecen las relaciones de dependencias existentes entre las
estructuras gramaticales, las cuales son representadas en un árbol de depen-
dencias. Los resultados de este análisis no solo son muy útiles para identificar
vı́nculos entre los conceptos presentes en las diferentes estructuras gramatica-
les, sino también para identificar o construir las frases-enlace a utilizar en el
etiquetado de esas relaciones.

3.2.   Extracción de la Conceptualización
     En esta fase, se construye automáticamente un MC del texto, como repre-
sentación de la conceptualización, a partir de la identificación de conceptos y
relaciones entre ellos (proposiciones). La extracción de conceptos se basa en la
identificación de términos (constituidos por una o varias palabras) dentro de los
sintagmas nominales o adjetivales, cuya composición se corresponda con alguno
de los patrones lingı́sticos definidos para este propósito, ası́ como en la identifica-
ción de conceptos representados en la ontologı́a que estén presentes en el texto.
La extracción de relaciones entre conceptos se basa también en el uso de patro-
nes lingı́sticos, en la identificación de vı́nculos entre conceptos representados en
la ontologı́a, y en el análisis de las dependencias existentes entre las estructuras
gramaticales del texto.
     La extracción de conceptos se inicia con la identificación en el texto de térmi-
nos representados como clases o instancias en la ontologı́a, los cuales son tratados
como entidades. En este proceso de mapeado se evalúa la similitud sintáctica
existente entre los términos del texto y los conceptos de la ontologı́a usando
la métrica de Levenshtein. Seguidamente, se analiza el árbol sintáctico de cada
oración para identificar otros términos que cumplan con alguno de los patro-
nes lingı́sticos definidos, los cuales se extraen también como conceptos. Estos
patrones han sido formalizados sobre la base del etiquetado gramatical que rea-
liza Freeling y constituyen los patrones más frecuentes a partir de los cuales
están formados los conceptos representados en la ontologı́a del proyecto DBpe-
dia. Mediante estos patrones no solo se identifican como conceptos las entidades
nombradas (ej. NP) sino también sustantivos, adjetivos y frases que expresan
combinaciones de ambos. En la Tabla 1 se muestra una selección de los patrones
definidos para textos en español, los cuales son equivalentes a los identificados en
análisis de los conceptos de la ontologı́a, y que se utilizan para textos en inglés.
     El método propuesto brinda la posibilidad de extraer relaciones explı́citas e
implı́citas entre los conceptos, siendo las primeras las identificadas en la oración
86

 Cuadro 1. Patrones lingı́sticos para identificar de conceptos en textos en español.

       Patrones    Ejemplos        Patrones         Ejemplos
         NC          procesos        Z NC         cinco archivos
         NP       San Cristóbal    AQ NC       gran personalidad
        NC AQ sistema informático NC AQ AQ procesador lógico operativo
        NC NP     director Juan       AQ               lejos
       Leyenda: NC: sustantivo común; NP: sustantivo propio; Z: número o numeral;
       AQ: adjetivo




y las segundas las identificadas a través de la ontologı́a, las cuales permiten
relacionar conceptos presentes en diferentes partes del texto a partir de vı́nculos
semánticos. En este proceso intervienen dos tareas: identificación del vı́nculo
entre los conceptos y la obtención de la frase-enlace. Entre los tipos de relaciones
a identificar se encuentran las relaciones semánticas del tipo taxonómicas y no
taxonómicas (ej. verbales). Las primeras se identifican mediante los patrones
lingı́sticos que se muestra en Tabla 2, definidos sobre la base de lo reportado en
[16][17][18], y a partir de la ontologı́a, la cual es consultada mediante SPARQL
y utilizando Jena.


 Cuadro 2. Patrones para identificar relaciones taxonómicas en textos en español.

 Patrones             Ejemplos           Patrones                Ejemplos
 SN0 ‘tales como’ ...animales tales SN {,} ‘incluyendo’ ...paı́ses de leyes
 {SN1 , SN2 ..., (y | como perro y ave. {SN,}+{y | o} NP         comunes, incluyendo
 o)} SNn                                                         Canadá y Reino
                                                                 Unido
 ‘tales’ SN ‘como’ ...tales     autores SN{,} ‘especialmente’ ...los paı́ses europeos,
 {NP,}+{(o | y)} como Hearst, y {NP,}+{y | o} NP                 especialmente Fran-
 NP                   Cimiano.                                   cia, Reino Unido, y
                                                                 España
 SN {, SN} + {,} Quemaduras,             SN1 ’es un tipo de’ SN0 el mapa conceptual
 ‘u otros’ SN         heridas, u otros                           es un tipo de grafo de
                      daños...                                  conocimiento
 SN {, sn}+{,} ‘y ...templos, vivien-
 otros’ SN            das y otras edifi-
                      caciones
 Leyenda: SN: sintagma nominal; NP: sustantivo propio; +: concatenación de elementos;
 |: disyunción de elementos; : elementos opcionales; ( ): grupo de elementos




   A través de la ontologı́a, se identificarı́a una relación taxonómica entre dos
conceptos C0 y C1 si ambos constituyen clases en la ontologı́a y están vinculados
mediante una relación de sub-clase, siendo especificada la frase-enlace como ‘sub-
ClaseDe’ (o ‘subClassOf ’ en inglés). Se identifican otras relaciones semánticas si:
C0 y C1 son clases en la ontologı́a que están vinculadas a través de una relación
de Propiedad de Objeto, siendo especificada la frase-enlace por el identificador
                                                                                  87

de ese tipo de relación en la ontologı́a; o C0 constituye una clase y C1 una de sus
instancias, o viceversa, siendo especificada la frase-enlace como ‘instanciaDe’ (o
‘instanceOf ’ en inglés).
    En un segundo paso, se identifican otros tipos de relaciones a partir del análi-
sis el árbol de dependencia generado de cada oración. Este proceso se basa en
el análisis de las estructuras asociadas a diferentes tipos de nodos representados
en ese árbol, tales como: preposicionales, conceptuales, verbales, subordinantes
y de coordinación, a partir de los cuales se establecen los vı́nculos de dependen-
cia entre las estructuras gramaticales de la oración. Por ejemplo, las relaciones
verbales se pueden extraer identificando conexiones existentes entre un concepto
identificado en el sujeto de la oración (sintagma nominal) y otros identificados
en los complementos que pertenecen a su ámbito de dependencia, a través de un
nodo verbal. En este caso, la proposición se construye vinculando el concepto
incluido en el sujeto con cada uno de los conceptos identificados en los comple-
mentos y la frase-enlace se construye a partir del nodo verbal y sus modificadores.
Las frases-enlace que etiquetan las relaciones identificadas en este análisis son
identificadas (o construidas) a partir de los siguientes patrones lingı́sticos: VM,
VM+SP, VM+CS+VM, VM+CS, PR+VM, CS+VM+SP, VM+VM, y AQ+SP,
siendo CS: conjunción subordinada; SP: preposición; AQ: adjetivo; VM: verbo
principal; PR: pronombre relativo.
    El proceso de normalización-refinado se realiza luego de haber extraı́dos los
conceptos y proposiciones del texto, y tiene como objetivo reducir redundancias
o incoherencia. Se lleva a cabo a partir de la eliminación de las proposiciones
repetidas (enlazan conceptos iguales), ası́ como la unificación de conceptos y
frases-enlace sintácticamente similares, usando para ello también la métrica de
Levenshtein.

3.3.   Generación del Modelo RDF
    En este proceso, la conceptualización extraı́da automáticamente del texto es
transformada en un modelo de datos RDF, donde cada una de las proposiciones
se codifica como una tripleta RDF. En esta transformación se sigue como con-
vención que: (1) el concepto origen de la proposición se codifica como el sujeto;
(2) el concepto destino se codifica como el objeto; y (3) la frase-enlace se codi-
fica como el predicado. Las URIs que identifican los elementos de las tripletas
RDF se construyen a partir de las direcciones URL obtenidas del fichero HTML
procesado, especı́ficamente, la asociada al propio fichero y las correspondientes
a los hipervı́nculos asociados a términos representados como conceptos, y las
etiquetas de los conceptos. Si un concepto no posee un hipervı́nculo, la dirección
URL de referencia serı́a la del propio fichero origen, y en otro caso serı́a la del
hipervı́nculo.

4.     Resultados y Discusión
    La obtención de forma automática de la conceptualización del texto cons-
tituye el elemento que mayor influencia tiene en la calidad de los resultados a
88

obtener por el método propuesto, por lo que las pruebas realizadas se centraron
en evaluar este aspecto. Hasta el momento, no se han identificado marcos de
evaluación de referencia, ni corpus de textos reconocidos para probar este tipo
de soluciones, por lo que su evaluación se hace bastante compleja. No obstante,
se decidió realizar las pruebas sobre textos en español e inglés usando tres co-
lecciones: DBpedia ES, DBpedia EN e IA. Las dos primeras fueron construidas
con resúmenes en español e inglés, respectivamente, tomados de un dataset de
resúmenes cortos disponible en DBpedia 3 , y la segunda con textos en inglés sobre
temas de IA4 . En la construcción de las colecciones se tuvo en cuenta que los
textos debı́an estar incluidos en corpus disponibles en Internet, tuvieran dife-
rentes tamaños, y que existiera alguna ontologı́a que tuviera algún vı́nculo con
el contenido de los mismos. La caracterización de las colecciones utilizadas se
muestra en la Tabla 3.

                Cuadro 3. Caracterización de las colecciones de prueba.

             Caracterı́sticas   DBpedia ES        DBpedia EN      IA
             Idioma             Español          Inglés         Inglés
             Documentos         50                50              6
             Prom. de palabras 75.9               75.2            1111.83
             Prom. de oraciones 3.0               3.4             46.83



     Inicialmente se ejecutó el método sobre cada una de las colecciones sin usar
la ontologı́a y luego usando la ontologı́a. Esta última ejecución se realizó solo
sobre las colecciones DBpedia EN e IA, ya que eran de las se disponı́a de una
ontologı́a de referencia. En las pruebas realizadas con la colección DBpedia EN
se utilizó la ontologı́a de DBpedia y en las realizadas con la colección IA se uti-
lizó una ontologı́a del dominio de IA, tomada de la misma fuente de los textos
seleccionados. En los experimentos se evaluaron aspectos tales como: cantidad
de información extraı́da (conceptos y relaciones), nivel de contribución de la on-
tologı́a, y precisión en la extracción de conceptos y proposiciones. Considerando
que no se tenı́a información sobre los resultados correctos a obtener para cada
texto, se decidió evaluar la calidad de la extracción de conceptos y proposicio-
nes a través de evaluadores humanos (3 profesores de la carrera de Ingenierı́a
Informática). Los evaluadores debı́an clasificar cada uno de los conceptos y pro-
porciones extraı́das en correctos o incorrectos, sobre la base del contenido de los
textos y considerando lo siguiente:
    - concepto correcto: sustantivos o adjetivos que tuvieran un significado impor-
      tante en el texto, nombres de entidades, o frases que tuvieran sentido;
    - proposición correcta: si puede ser interpretada con un sentido propio (ej.
      cuando ambos conceptos son correctos y la frase-enlace está bien definida).
3
     http://wiki.dbpedia.org/Datasets
4
     Corpus      de     textos    y     ontologı́a    asociada      disponibles   en
     http://azouaq.athabascua.ca/goldstandards.htm
                                                                                              89

    A partir de la información emitida por los evaluadores se calculó la precisión
como la razón entre los elementos extraı́dos (conceptos o proposiciones) correc-
tamente y el total, cuyos valores se muestran en la Tabla 4. La precisión se
calculó a partir de los resultados coincidentes de los evaluadores, con un ı́ndice
de acuerdo de 92 %.
    Según se aprecia, la mayor precisión se obtuvo en la extracción de conceptos,
sin una diferencia significativa respecto al idioma cuando no se usaron ontologı́as,
demostrándose la calidad y utilidad de los patrones lingı́sticos definidos para es-
te propósito. Sin embargo, se observa una menor precisión en la extracción de
proposiciones. Este resultado está dado en buena medida por la alta complejidad
que tiene la identificación de forma automática de relaciones entre conceptos en
un texto, ası́ como por algunos resultados no favorables del análisis sintáctico
realizado con Freeling. Esto último también incide en la identificación de con-
ceptos, pero repercute más en la extracción de las proposiciones porque en su
evaluación no solo se mide si los conceptos vinculados son correctos o no, sino
que también que la frase-enlace esté bien formada. La identificación del vı́nculo
entre los conceptos, ası́ como la obtención de la frase-enlace dependen en gran
medida del análisis que se realiza sobre el árbol de dependencias, y por tanto las
deficiencias que posea repercuten en los resultados.



   Cuadro 4. Resultados experimentales en la extracción de la conceptualización.

                                           DBpedia EN              IA
       Aspectos      DBpedia ES            NoOnt SiOnt             NoOnt         SiOnt
       CC            7,88                  10,06  10,2             112,4         120,2
       CE            2,2                   4,86   5,08             29,2          36,2
       CR            6,10                  8,38   8,48             103           114,8
       CCOnt.        -                     -      3,72             -             37,2
       CROnt.        -                     -      0                -             8,6
       PC            93,66                 89,21  92,58            96,81         98,57
       PR            53,92                 51,26  53,97            66,67         83,10
       Leyenda: CC: Prom. cant. conceptos; CE: Prom. cant. de entidades;
       CR: Prom. cant. relaciones; CCOnt.: Prom. cant. conceptos obtenidos
       de la ontologı́a; CROnt.: Prom. cant. relaciones obtenidasde la ontologı́a;
       PC: Precisión en la identificación de conceptos; PR: Precisión en la
       identificación de relaciones; NoOnt: sin usar ontologı́a; SiOnt: usando ontologı́a.




    Un resultado importante es el incremento de la precisión (aunque discreto)
cuando se utiliza la ontologı́a, ası́ como el incremento de la cantidad de infor-
mación extraı́da, apreciado en mayor medida en la colección IA. Esto demuestra
los beneficios que se pueden obtener cuando es usada una ontologı́a de refe-
rencia en la extracción automática de conceptos y relaciones desde textos no
estructurados.
90

5.   Conclusiones

     En el trabajo se ha presentado un nuevo método para extracción de los DE a
partir de textos no estructurados, aplicable a textos escritos en el idioma español
e inglés y no dependiente del dominio. En esta nueva propuesta se combinan un
conjunto de técnicas de PLN, tanto para el pre-procesamiento de los textos como
para la identificación de conceptos y relaciones, que permiten aumentar las capa-
cidades para extraer una mayor cantidad de información desde los textos. El uso
de patrones lingı́sticos para identificar conceptos y relaciones semánticas entre
ellos, la posibilidad de utilizar de manera flexible una ontologı́a de referencia,
ası́ como el análisis de las dependencias entre los conceptos en el texto, consti-
tuyen elementos que han propiciado alcanzar una mayor cobertura del texto a
la hora de extraer la información. La extracción de conceptos, que no necesaria-
mente representen entidades, ası́ como la identificación de vı́nculos semánticos
entre ellos, propicia que se obtenga una mayor riqueza en los DE que se obtienen
con el método propuesto. Las pruebas realizadas mostraron resultados prome-
tedores, alcanzándose valores de precisión en la mayorı́a de los casos superiores
al 90 % en la extracción de conceptos y al 50 % en la extracción de relaciones.
También se constataron los beneficios de usar una ontologı́a, referentes al incre-
mento de la cantidad de información extraı́da de los textos, y al aumento de la
precisión en la extracción de conceptos y relaciones.


Agradecimientos. Este trabajo ha sido parcialmente financiado por el Minis-
terio de Economı́a y Competitividad del Gobierno de España, en el marco del
proyecto REDES (TIN2015-65136-C2-1-R).


Referencias

 1. Wang, P., y Zhang, X.: Finding, Extracting, and Building Academic Linked Data.
    In Li, J. et al. (Eds): Semantic Web and Web Science, Springer & Business Media,
    25–39 (2013)
 2. Auer, S., Lehmann, J., Ngonga A. C., y Zaveri, A.: Introduction to Linked Data
    and its Lifecycle on the Web. Proc. of Reasoning Web 2013, LNCS, Vol. 8067, 1–90
    (2013)
 3. Lehmann, J., Isele, R., Jakob, M., Jentzsch, A., Kontokostas, D., Mendes, P. N.,
    Hellmann, S., Morsey, M., van Kleef, P., Auer, S., y Bizer, C.: DBpedia A Large-
    scale, Multilingual Knowledge Base Extracted from Wikipedia. Semantic Web, 1,
    1–27 (2012)
 4. Dimitrios-Emmanuel, S., Stavrou, P., y Mitrou, N.: Bringing relational databases
    into the semantic web: A survey. Semantic Web, 3(2), 169–209 (2012)
 5. Augenstein, I., Padó, S., y Rudolph, S.: LODifier: Generating Linked Data from
    Unstructured Text. In Proc. of ESWC 2012, LNSC, Vol. 7295, 210–224 (2012)
 6. Joshi, A., Lal, R., Finin, T., y Joshi, A.: Extracting Cybersecurity Related Linked
    Data from Text, IEEE 7th Int. Conf. on Semantic Computing (ICSC), 252–259
    (2013)
                                                                                    91

 7. Krı́, V., y Hladká, B.: RExtractor: a Robust Information Extractor. Proc. of the
    2015 Conf. of the North American Chapter of the Association for Computational
    Linguistics: Demonstrations, 21–25 (2015)
 8. Novak, J. D., y Cañas,A. J.: The Theory Underlying Concept Maps and How to
    Construct Them, Technical Report IHMC CmapTools, USA (2006)
 9. Kowata, J. H., Cury, D., y Silva, M. C.: Concept maps core elements candidates
    recognition from text. In Proc. of CMC 2010, 120–127 (2010)
10. Raymond, M., Song, D., Yuefeng, L. I., Terence, Ch., I., y Hao, J.-X.: Towards A
    Fuzzy Domain Ontology Extraction Method for Adaptive e-Learning. Knowledge
    and Data Engineering, 21(6), 800–813 (2009)
11. Valerio, A., Leake, D.,y Cañas, A. J.: Using Automatically Generated Concept
    Maps for Document Understanding: A Human Subject Experiment. In Proc. of
    CMC 2012, 438–445 (2012)
12. Wang, W. M., Cheung, C. F.,Lee, W. B. y Kwok, S. K.: Mining knowledge from
    natural language texts using fuzzy associated concept mapping. Information Pro-
    cessing and Management, 44(5), 1707–1719 (2008)
13. Attia S. S., Arafa, W. M. y Eldin,A. S.: A Framework of Proposed Intelligent Tool
    for Constructing Concept Map, In Proc. of ICL 2010, 524–533 (2010)
14. Amine, A., Elberrichi, Z., y Simonet, M.: Automatic language identification: An
    alternative unsupervised approach using a new hybrid algorithm. Int. J. on Compu-
    tational Science & Applications, 7(1), 94–107 (2010)
15. Padró, L. y Stanilovsky, E.: FreeLing 3.0: Towards Wider Multilinguality. Interna-
    tional Conference on Language Resources and Evaluation, In Proc. of LREC 2012,
    2473–2479 (2012)
16. Hearst, M. Automatic acquisition of hyponyms from large text corpora. In Proc.
    of the 14th Int. Conf. on Computational Linguistics, 539–545 (1992)
17. Cimiano P. y Vlker, J.: Text2Onto, In Proc. of the 10th Int. Conf. on Applications
    of Natural Language to Information Systems, 227–238 (2005)
18. Jiang, X., y Tan, A. H.: CRCTOL: A semanticbased domain ontology learning
    system. J. of the American Society for Information Science and Technology, 61(1),
    150–168 (2010)