=Paper=
{{Paper
|id=Vol-1797/paper8
|storemode=property
|title=Extracción de Datos Enlazados desde Información No Estructurada Aplicando Técnicas de PLN y Ontologías
|pdfUrl=https://ceur-ws.org/Vol-1797/paper8.pdf
|volume=Vol-1797
|authors=Aramís Rodríguez,Alfredo Simón,Wenny Hojas,José M. Perea
|dblpUrl=https://dblp.org/rec/conf/iwsw/Rodriguez-Blanco16
}}
==Extracción de Datos Enlazados desde Información No Estructurada Aplicando Técnicas de PLN y Ontologías==
<pdf width="1500px">https://ceur-ws.org/Vol-1797/paper8.pdf</pdf>
<pre>
            Extracción de Datos Enlazados desde
          Información No Estructurada Aplicando
               Técnicas de PLN y Ontologı́as

     Aramı́s Rodrı́guez-Blanco1 , Alfredo Simón-Cuevas1 , Wenny Hojas-Mazo1 ,
                              José M. Perea-Ortega2
1
    Universidad Tecnológica de La Habana José Antonio Echeverrı́a, Cujae, La Habana,
                                         Cuba
                    2
                      Universidad de Extremadura, Badajoz, España
                    {aridriguezb, asimon, whojas}@ceis.cujae.edu.cu
                                    jmperea@unex.es


         Resumen En este trabajo se presenta un método para la extracción au-
         tomática de datos enlazados a partir de información textual no estructu-
         rada en idioma español e inglés. El método está basado en la extracción
         de una conceptualización del texto en forma de mapa conceptual, la cual
         es posteriormente transformada en un modelo de dados RDF. En la ex-
         tracción de la conceptualización se aplican diversas técnicas de PNL y
         se brinda la posibilidad de utilizar una ontologı́a, para incrementar las
         capacidades de extracción de información del texto. Se realizaron prue-
         bas usando tres colecciones de textos en español e inglés para evaluar
         la propuesta, con resultados prometedores en la extracción de conceptos
         y relaciones entre ellos, y mostrando también los beneficios del uso de
         ontologı́as como recurso de conocimiento externo.

         Palabras claves: extracción de datos enlazados; PLN; mapas concep-
         tuales; y ontologı́as

         Abstract In this work a method for the automatic extraction of lin-
         ked data from unstructured textual information in Spanish and English
         language is presented. The method is based on the extraction of a concep-
         tualization from the text in form of concept map, which is transformed
         later in a RDF data model. In the conceptualization extraction several
         NLP techniques are applied and the possibility to use an ontology is
         offered, for increasing the capacities of information extraction from the
         text. Several tests using three collections of texts in Spanish and English
         were carried out for evaluating the proposal, with promising results in
         the concepts and relationships extraction and showing the benefits of the
         use of ontologies as external knowledge resource.

         Keywords: linked data extraction; NLP; concept map; and ontologies
                                                                                  81

1.     Introducción

     El surgimiento de aplicaciones inteligentes, tales como la búsqueda semántica,
y la popularidad de las tecnologı́as de la Web Semántica están requiriendo cada
vez más que el contenido en la Web sea reorganizado a través de datos semánticos
[1]. El paradigma de los Datos Enlazados (DE) (linked data en inglés) ha evolu-
cionado como un poderoso facilitador en la transición de la actual Web (orientada
a documentos) a una Web de datos interconectados [2]. En este sentido, los DE
se han convertido en un activo de gran valor para la búsqueda, el análisis, la
ingenierı́a del conocimiento, la integración y la recuperación de información. La
extracción de información en fuentes no estructuradas, semi-estructuradas o es-
tructuradas y su descripción en un modelo de datos RDF son tareas claves en
el ciclo de vida de los DE [2]. Los DE son generalmente construidos a partir del
minado de fuentes de información semi-estructuradas, como Wikipedia donde
DBpedia [3] es el referente principal, estructuradas como las bases de datos [4],
y en menor medida a partir de contenido textual no estructurado. La extracción
de DE a partir de fuentes textuales se ha abordado en [5][6][7], pero estas solu-
ciones son aplicables a contenido en inglés y presentan algunas limitaciones en
cuanto a la cantidad de información que puede ser extraı́da, ası́ como en los me-
canismos diseñados para ello. La ausencia de propuestas para extraer DE desde
textos en español, no posibilita aprovechar el volumen de información actual-
mente disponible en ese idioma, siendo esta situación una de las motivaciones de
este trabajo. Un ejemplo de esta necesidad y también motivación, lo constituye
DBpedia-LatAm 1 , como iniciativa que se une al esfuerzo colaborativo impulsado
desde DBpedia para extraer DE desde artı́culos de Wikipedia2 , pero con énfasis
en los documentos escritos en español.
     En este trabajo se presenta un método para extraer DE a partir de conteni-
do textual no estructurado escrito en español e inglés, basado en la extracción
automática de una conceptualización del texto, representada en forma de Ma-
pa Conceptual (MC) [8], la cual es posteriormente transformada en un modelo
de datos RDF. Los MC son un tipo de grafo de conocimiento no formalizado
semánticamente, donde el conocimiento se representa en lenguaje natural y se
estructura a través de nodos que representan conceptos y relaciones entre ellos
formando proposiciones. Los conceptos pueden representar entidades, eventos,
objetos o regularidad percibida de ellos, y las proposiciones son declaraciones
(unidades semánticas) constituidas por dos o más conceptos interconectados me-
diante una relación dirigida y etiquetada por una frase-enlace que define el tipo
de relación [8]. Estos elementos indican la existencia de similitudes estructurales
entre el MC y el grafo subyacente al modelo de datos RDF, ya que este últi-
mo se basa en tripletas (sujeto, predicado, objeto) y los MC en proposiciones
(concepto, frase-enlace, concepto), lo que sirve de fundamento para diseñar una
propuesta de extracción de DE bajo la perspectiva de los MC. El método consta
de tres fases: pre-procesamiento, extracción de la conceptualización y genera-
1
    http://es-la.dbpedia.org/home/
2
    http://es.wikipedia.org/wiki/Wikipedia
82

ción del modelo RDF. En las dos primeras se aplican un conjunto de técnicas
de Procesamiento de Lenguaje Natural (PLN), tales como: análisis sintáctico
superficial y de dependencias, reconocimiento de entidades, patrones lingı́sticos,
entre otras, algunas de ellas incluidas en propuestas similares [9][10][11][12][13],
pero no integradas en una misma solución. También brinda la posibilidad de
procesar textos en idioma inglés y español, a diferencia de las propuestas re-
portadas en [9][10][11][12][13], dirigidas solo a textos en inglés, y de usar una
ontologı́a OWL como recurso de conocimiento externo para apoyar la extrac-
ción de conceptos y relaciones del texto, siendo esta otra de las contribuciones
de la propuesta. Este método no solo posibilita extraer datos que representen
entidades, como principalmente se realiza en [5][6][7], sino que también permite
extraer otros conceptos que pueden ser útiles para ampliar la información aso-
ciada a las entidades y facilitar la identificación de vı́nculos entre ellas. Por otra
parte, también incluye mecanismos para identificar relaciones semánticas, ya
sean taxonómicas y no taxonómicas, significando una ventaja respecto a traba-
jos similares [5][6][7][9][10][11][12][13]. El método fue evaluado mediante pruebas
realizadas con tres colecciones formadas por resúmenes en español e inglés, y
textos más extensos en inglés sobre temas de Inteligencia Artificial (IA). Los
resultados obtenidos se muestran alentadores, alcanzándose en la mayorı́a de las
colecciones valores de precisión superiores al 90 % en la extracción de conceptos
y al 50 % en la extracción de proposiciones. En las pruebas realizadas también
se constataron los beneficios del uso de una ontologı́a en cuanto al aumento de
la cantidad de información extraı́da y a la calidad de su obtención.
     El resto del trabajo se organiza según se describe a continuación. En la Sec-
ción 2 se describen y analizan trabajos relacionados con la propuesta. En la
Sección 3 se describe la solución propuesta y las fases que la componen. En la
Sección 4 se presentan y analizan los resultados de las pruebas realizadas. Las
conclusiones se exponen en la Sección 5.


2.    Trabajos Relacionados

    La extracción automática de DE a partir de contenido textual no estructura-
dos ha sido un tema abordado con anterioridad en [5][6][7], pero estas soluciones
son aplicables mayoritariamente a textos en idioma inglés, no identificándose
propuestas para textos en español. En [6] se reporta una solución para extraer
DE a partir de textos del dominio de la ciberseguridad, en la cual la extracción de
términos y conceptos se realiza aplicando un reconocedor de entidades adaptado
para reconocer clases de entidades asociadas a ese dominio. Los vı́nculos entre las
entidades se identifican mediante relaciones existentes entre las clases represen-
tadas en una ontologı́a, estableciendo un proceso de mapeado entre dichas clases
y las entidades identificadas en el texto, y no a partir del análisis sintáctico del
contenido. En este sentido, las relaciones posibles a extraer están limitadas a los
tipos de relaciones representadas en la ontologı́a, las cuales se enmarcan en el
ámbito de la ciberseguridad. En [5] se presenta una arquitectura para extraer
DE con independencia del dominio, en la que se combina un reconocedor de enti-
                                                                                   83

dades nombradas, con una estructura de representación del discurso que modela
el significado de los textos para extraer los datos y sus vı́nculos. En esta arqui-
tectura se representan otras entidades relevantes del texto, identificadas a partir
de frases sustantivas o eventos, y sus relaciones, ası́ como información sintáctica
y gramatical. Las relaciones binarias entre esas entidades se establecen a través
de proposiciones y roles verbales, siendo este último aspecto su limitación funda-
mental. En [7] se realiza un procesamiento del texto aplicando diferentes técnicas
de PLN que concluye con un árbol de dependencias de las sentencias del texto,
sobre el cual se realiza la extracción de entidades y relaciones entre ellas. En esta
propuesta se utiliza una Base de Datos de Entidades, construida manualmente,
donde se almacenan las posibles entidades a extraer. Las relaciones son identi-
ficadas a partir de consultas almacenadas en una Base de Datos de Consultas,
igualmente construida de forma manual y analizando los vı́nculos entre las en-
tidades identificadas en el árbol de dependencia. Estos elementos sugieren que
con esta propuesta se pueden alcanzar altos ı́ndices de precisión en la extracción
de la información, pero una baja cobertura del texto, ya que la información a
extraer está limitada a lo que se pueda identificar de lo almacenado en las bases
de datos que son utilizadas.


    La construcción de MC a partir de textos ha sido tratado en [9][10][11][12][13],
aunque igualmente todas estas propuestas están concebidas para textos en inglés.
Entre las técnicas de PLN empleadas en el pre-procesamiento del texto se encuen-
tran: etiquetado POS [10][12], el análisis sintáctico superficial [11] y de depen-
dencia [9][13], el reconocimiento de entidades [10] y la desambiguación del sentido
de las palabras [12][13]. Los conceptos han sido identificados fundamentalmen-
te a partir de frases sustantivas [9][10][11][12][13], en algunos casos empleando
patrones léxico-sintácticos predefinidos [9][10], y también a partir de entidades
reconocidas [10]. En la mayor parte de los trabajos las relaciones entre concep-
tos (proposiciones) se identifican a partir de relaciones verbales [9][11][12][13],
en muy pocas propuestas se aprovechan los beneficios que ofrece el análisis de
dependencias [9][13] para la identificación de relaciones entre conceptos, y solo
son identificadas relaciones taxonómicas en [10].


    A partir de este análisis, se decidió diseñar una nueva propuesta para ex-
traer DE aplicable principalmente a textos en español, aspecto no considerado
en [5][6][7], y también en inglés, independiente del dominio, a diferencia de [6], y
que posibilite extraer una mayor cantidad de conceptos (datos) y relaciones, res-
pecto a trabajos similares [5][6][7]. Asociado a este último objetivo, se proponen
algunas contribuciones: (1) el uso de patrones lingı́sticos, en combinación con
una ontologı́a de referencia, para extraer conceptos; y (2) la identificación de re-
laciones semánticas (taxonómicas y no taxonómicas) entre los conceptos, usando
para ello también patrones lingı́sticos y la ontologı́a; (3) uso intensivo del árbol
de dependencia para identificar relaciones entre los conceptos, principalmente
relaciones no taxonómicas.
84

3.      Método de Extracción de Datos Enlazados

    El método propuesto fue diseñado en varias fases, como se muestra en la
Fig. 1. En la obtención de la conceptualización se combinan varias técnicas de
PLN, y el uso de una ontologı́a OWL de referencia, para facilitar y ampliar
la cobertura del texto en la identificación de conceptos y relaciones entre ellos.
Una de las ventajas del diseño del método propuesto es su flexibilidad, ya que
permite utilizar cualquier ontologı́a, aunque es recomendable que el conocimiento
que represente sea del mismo dominio (o cercano) al del contenido de los textos,
para lograr un mayor aprovechamiento de ese recurso de conocimiento.


     Figura 1. Fases y componentes del método propuesto para la extracción de DE.


3.1.     Pre-procesamiento

    En esta fase, el contenido del fichero de entrada es segmentado y caracte-
rizado sintácticamente, partiendo de la extracción del texto plano usando una
biblioteca de clases de Java desarrolladas para este propósito, que brinda soporte
para ficheros html, htm, pdf, docx, doc, rtf y txt. Luego, se identifica si el texto
ha sido escrito en español o inglés aplicando la solución reportada en [14]. La
identificación del idioma constituye una tarea importante en este método, pues
a partir del resultado de esta tarea es que se decide que patrones utilizar para la
extracción de conceptos y relaciones, dado que los mismos están definidos para
textos en español o inglés. La segmentación se realiza en oraciones (unidad de
análisis), considerando principalmente el punto final como elemento que delimita
los segmentos. En este proceso se ignoran los puntos presentes en números, en
siglas y abreviaturas, y los puntos suspensivos. Sobre cada una de las oraciones,
se identifican los tokens (ej. palabras, números, signos de puntuación, etc.), y
se ejecuta el análisis morfosintáctico, el cual incluye el análisis sintáctico super-
ficial y de dependencias. Este análisis del texto se realiza usando el analizador
                                                                                     85

sintáctico Freeling [15], teniendo en cuenta que es uno de los pocos analizadores
que brinda soporte para textos en español, además de inglés. Como resultado del
análisis morfológico cada uno de los tokens se etiqueta con su raı́z morfológica,
categorı́a gramatical y otros datos.
     El análisis sintáctico superficial está dirigido principalmente a la identifica-
ción de conceptos, y consiste en agrupar los tokens de la oración en chunks
o constituyentes que representan estructuras gramaticales categorizadas como:
sintagmas nominales, adjetivales, preposicionales, grupos verbales, entre otros,
a partir de los cuales se obtiene un árbol sintáctico. A través del análisis de
dependencias se establecen las relaciones de dependencias existentes entre las
estructuras gramaticales, las cuales son representadas en un árbol de depen-
dencias. Los resultados de este análisis no solo son muy útiles para identificar
vı́nculos entre los conceptos presentes en las diferentes estructuras gramatica-
les, sino también para identificar o construir las frases-enlace a utilizar en el
etiquetado de esas relaciones.

3.2.   Extracción de la Conceptualización
     En esta fase, se construye automáticamente un MC del texto, como repre-
sentación de la conceptualización, a partir de la identificación de conceptos y
relaciones entre ellos (proposiciones). La extracción de conceptos se basa en la
identificación de términos (constituidos por una o varias palabras) dentro de los
sintagmas nominales o adjetivales, cuya composición se corresponda con alguno
de los patrones lingı́sticos definidos para este propósito, ası́ como en la identifica-
ción de conceptos representados en la ontologı́a que estén presentes en el texto.
La extracción de relaciones entre conceptos se basa también en el uso de patro-
nes lingı́sticos, en la identificación de vı́nculos entre conceptos representados en
la ontologı́a, y en el análisis de las dependencias existentes entre las estructuras
gramaticales del texto.
     La extracción de conceptos se inicia con la identificación en el texto de térmi-
nos representados como clases o instancias en la ontologı́a, los cuales son tratados
como entidades. En este proceso de mapeado se evalúa la similitud sintáctica
existente entre los términos del texto y los conceptos de la ontologı́a usando
la métrica de Levenshtein. Seguidamente, se analiza el árbol sintáctico de cada
oración para identificar otros términos que cumplan con alguno de los patro-
nes lingı́sticos definidos, los cuales se extraen también como conceptos. Estos
patrones han sido formalizados sobre la base del etiquetado gramatical que rea-
liza Freeling y constituyen los patrones más frecuentes a partir de los cuales
están formados los conceptos representados en la ontologı́a del proyecto DBpe-
dia. Mediante estos patrones no solo se identifican como conceptos las entidades
nombradas (ej. NP) sino también sustantivos, adjetivos y frases que expresan
combinaciones de ambos. En la Tabla 1 se muestra una selección de los patrones
definidos para textos en español, los cuales son equivalentes a los identificados en
análisis de los conceptos de la ontologı́a, y que se utilizan para textos en inglés.
     El método propuesto brinda la posibilidad de extraer relaciones explı́citas e
implı́citas entre los conceptos, siendo las primeras las identificadas en la oración
86

 Cuadro 1. Patrones lingı́sticos para identificar de conceptos en textos en español.

       Patrones    Ejemplos        Patrones         Ejemplos
         NC          procesos        Z NC         cinco archivos
         NP       San Cristóbal    AQ NC       gran personalidad
        NC AQ sistema informático NC AQ AQ procesador lógico operativo
        NC NP     director Juan       AQ               lejos
       Leyenda: NC: sustantivo común; NP: sustantivo propio; Z: número o numeral;
       AQ: adjetivo


y las segundas las identificadas a través de la ontologı́a, las cuales permiten
relacionar conceptos presentes en diferentes partes del texto a partir de vı́nculos
semánticos. En este proceso intervienen dos tareas: identificación del vı́nculo
entre los conceptos y la obtención de la frase-enlace. Entre los tipos de relaciones
a identificar se encuentran las relaciones semánticas del tipo taxonómicas y no
taxonómicas (ej. verbales). Las primeras se identifican mediante los patrones
lingı́sticos que se muestra en Tabla 2, definidos sobre la base de lo reportado en
[16][17][18], y a partir de la ontologı́a, la cual es consultada mediante SPARQL
y utilizando Jena.


 Cuadro 2. Patrones para identificar relaciones taxonómicas en textos en español.

 Patrones             Ejemplos           Patrones                Ejemplos
 SN0 ‘tales como’ ...animales tales SN {,} ‘incluyendo’ ...paı́ses de leyes
 {SN1 , SN2 ..., (y | como perro y ave. {SN,}+{y | o} NP         comunes, incluyendo
 o)} SNn                                                         Canadá y Reino
                                                                 Unido
 ‘tales’ SN ‘como’ ...tales     autores SN{,} ‘especialmente’ ...los paı́ses europeos,
 {NP,}+{(o | y)} como Hearst, y {NP,}+{y | o} NP                 especialmente Fran-
 NP                   Cimiano.                                   cia, Reino Unido, y
                                                                 España
 SN {, SN} + {,} Quemaduras,             SN1 ’es un tipo de’ SN0 el mapa conceptual
 ‘u otros’ SN         heridas, u otros                           es un tipo de grafo de
                      daños...                                  conocimiento
 SN {, sn}+{,} ‘y ...templos, vivien-
 otros’ SN            das y otras edifi-
                      caciones
 Leyenda: SN: sintagma nominal; NP: sustantivo propio; +: concatenación de elementos;
 |: disyunción de elementos; : elementos opcionales; ( ): grupo de elementos


   A través de la ontologı́a, se identificarı́a una relación taxonómica entre dos
conceptos C0 y C1 si ambos constituyen clases en la ontologı́a y están vinculados
mediante una relación de sub-clase, siendo especificada la frase-enlace como ‘sub-
ClaseDe’ (o ‘subClassOf ’ en inglés). Se identifican otras relaciones semánticas si:
C0 y C1 son clases en la ontologı́a que están vinculadas a través de una relación
de Propiedad de Objeto, siendo especificada la frase-enlace por el identificador
                                                                                  87

de ese tipo de relación en la ontologı́a; o C0 constituye una clase y C1 una de sus
instancias, o viceversa, siendo especificada la frase-enlace como ‘instanciaDe’ (o
‘instanceOf ’ en inglés).
    En un segundo paso, se identifican otros tipos de relaciones a partir del análi-
sis el árbol de dependencia generado de cada oración. Este proceso se basa en
el análisis de las estructuras asociadas a diferentes tipos de nodos representados
en ese árbol, tales como: preposicionales, conceptuales, verbales, subordinantes
y de coordinación, a partir de los cuales se establecen los vı́nculos de dependen-
cia entre las estructuras gramaticales de la oración. Por ejemplo, las relaciones
verbales se pueden extraer identificando conexiones existentes entre un concepto
identificado en el sujeto de la oración (sintagma nominal) y otros identificados
en los complementos que pertenecen a su ámbito de dependencia, a través de un
nodo verbal. En este caso, la proposición se construye vinculando el concepto
incluido en el sujeto con cada uno de los conceptos identificados en los comple-
mentos y la frase-enlace se construye a partir del nodo verbal y sus modificadores.
Las frases-enlace que etiquetan las relaciones identificadas en este análisis son
identificadas (o construidas) a partir de los siguientes patrones lingı́sticos: VM,
VM+SP, VM+CS+VM, VM+CS, PR+VM, CS+VM+SP, VM+VM, y AQ+SP,
siendo CS: conjunción subordinada; SP: preposición; AQ: adjetivo; VM: verbo
principal; PR: pronombre relativo.
    El proceso de normalización-refinado se realiza luego de haber extraı́dos los
conceptos y proposiciones del texto, y tiene como objetivo reducir redundancias
o incoherencia. Se lleva a cabo a partir de la eliminación de las proposiciones
repetidas (enlazan conceptos iguales), ası́ como la unificación de conceptos y
frases-enlace sintácticamente similares, usando para ello también la métrica de
Levenshtein.

3.3.   Generación del Modelo RDF
    En este proceso, la conceptualización extraı́da automáticamente del texto es
transformada en un modelo de datos RDF, donde cada una de las proposiciones
se codifica como una tripleta RDF. En esta transformación se sigue como con-
vención que: (1) el concepto origen de la proposición se codifica como el sujeto;
(2) el concepto destino se codifica como el objeto; y (3) la frase-enlace se codi-
fica como el predicado. Las URIs que identifican los elementos de las tripletas
RDF se construyen a partir de las direcciones URL obtenidas del fichero HTML
procesado, especı́ficamente, la asociada al propio fichero y las correspondientes
a los hipervı́nculos asociados a términos representados como conceptos, y las
etiquetas de los conceptos. Si un concepto no posee un hipervı́nculo, la dirección
URL de referencia serı́a la del propio fichero origen, y en otro caso serı́a la del
hipervı́nculo.

4.     Resultados y Discusión
    La obtención de forma automática de la conceptualización del texto cons-
tituye el elemento que mayor influencia tiene en la calidad de los resultados a
88

obtener por el método propuesto, por lo que las pruebas realizadas se centraron
en evaluar este aspecto. Hasta el momento, no se han identificado marcos de
evaluación de referencia, ni corpus de textos reconocidos para probar este tipo
de soluciones, por lo que su evaluación se hace bastante compleja. No obstante,
se decidió realizar las pruebas sobre textos en español e inglés usando tres co-
lecciones: DBpedia ES, DBpedia EN e IA. Las dos primeras fueron construidas
con resúmenes en español e inglés, respectivamente, tomados de un dataset de
resúmenes cortos disponible en DBpedia 3 , y la segunda con textos en inglés sobre
temas de IA4 . En la construcción de las colecciones se tuvo en cuenta que los
textos debı́an estar incluidos en corpus disponibles en Internet, tuvieran dife-
rentes tamaños, y que existiera alguna ontologı́a que tuviera algún vı́nculo con
el contenido de los mismos. La caracterización de las colecciones utilizadas se
muestra en la Tabla 3.

                Cuadro 3. Caracterización de las colecciones de prueba.

             Caracterı́sticas   DBpedia ES        DBpedia EN      IA
             Idioma             Español          Inglés         Inglés
             Documentos         50                50              6
             Prom. de palabras 75.9               75.2            1111.83
             Prom. de oraciones 3.0               3.4             46.83


     Inicialmente se ejecutó el método sobre cada una de las colecciones sin usar
la ontologı́a y luego usando la ontologı́a. Esta última ejecución se realizó solo
sobre las colecciones DBpedia EN e IA, ya que eran de las se disponı́a de una
ontologı́a de referencia. En las pruebas realizadas con la colección DBpedia EN
se utilizó la ontologı́a de DBpedia y en las realizadas con la colección IA se uti-
lizó una ontologı́a del dominio de IA, tomada de la misma fuente de los textos
seleccionados. En los experimentos se evaluaron aspectos tales como: cantidad
de información extraı́da (conceptos y relaciones), nivel de contribución de la on-
tologı́a, y precisión en la extracción de conceptos y proposiciones. Considerando
que no se tenı́a información sobre los resultados correctos a obtener para cada
texto, se decidió evaluar la calidad de la extracción de conceptos y proposicio-
nes a través de evaluadores humanos (3 profesores de la carrera de Ingenierı́a
Informática). Los evaluadores debı́an clasificar cada uno de los conceptos y pro-
porciones extraı́das en correctos o incorrectos, sobre la base del contenido de los
textos y considerando lo siguiente:
    - concepto correcto: sustantivos o adjetivos que tuvieran un significado impor-
      tante en el texto, nombres de entidades, o frases que tuvieran sentido;
    - proposición correcta: si puede ser interpretada con un sentido propio (ej.
      cuando ambos conceptos son correctos y la frase-enlace está bien definida).
3
     http://wiki.dbpedia.org/Datasets
4
     Corpus      de     textos    y     ontologı́a    asociada      disponibles   en
     http://azouaq.athabascua.ca/goldstandards.htm
                                                                                              89

    A partir de la información emitida por los evaluadores se calculó la precisión
como la razón entre los elementos extraı́dos (conceptos o proposiciones) correc-
tamente y el total, cuyos valores se muestran en la Tabla 4. La precisión se
calculó a partir de los resultados coincidentes de los evaluadores, con un ı́ndice
de acuerdo de 92 %.
    Según se aprecia, la mayor precisión se obtuvo en la extracción de conceptos,
sin una diferencia significativa respecto al idioma cuando no se usaron ontologı́as,
demostrándose la calidad y utilidad de los patrones lingı́sticos definidos para es-
te propósito. Sin embargo, se observa una menor precisión en la extracción de
proposiciones. Este resultado está dado en buena medida por la alta complejidad
que tiene la identificación de forma automática de relaciones entre conceptos en
un texto, ası́ como por algunos resultados no favorables del análisis sintáctico
realizado con Freeling. Esto último también incide en la identificación de con-
ceptos, pero repercute más en la extracción de las proposiciones porque en su
evaluación no solo se mide si los conceptos vinculados son correctos o no, sino
que también que la frase-enlace esté bien formada. La identificación del vı́nculo
entre los conceptos, ası́ como la obtención de la frase-enlace dependen en gran
medida del análisis que se realiza sobre el árbol de dependencias, y por tanto las
deficiencias que posea repercuten en los resultados.


   Cuadro 4. Resultados experimentales en la extracción de la conceptualización.

                                           DBpedia EN              IA
       Aspectos      DBpedia ES            NoOnt SiOnt             NoOnt         SiOnt
       CC            7,88                  10,06  10,2             112,4         120,2
       CE            2,2                   4,86   5,08             29,2          36,2
       CR            6,10                  8,38   8,48             103           114,8
       CCOnt.        -                     -      3,72             -             37,2
       CROnt.        -                     -      0                -             8,6
       PC            93,66                 89,21  92,58            96,81         98,57
       PR            53,92                 51,26  53,97            66,67         83,10
       Leyenda: CC: Prom. cant. conceptos; CE: Prom. cant. de entidades;
       CR: Prom. cant. relaciones; CCOnt.: Prom. cant. conceptos obtenidos
       de la ontologı́a; CROnt.: Prom. cant. relaciones obtenidasde la ontologı́a;
       PC: Precisión en la identificación de conceptos; PR: Precisión en la
       identificación de relaciones; NoOnt: sin usar ontologı́a; SiOnt: usando ontologı́a.


    Un resultado importante es el incremento de la precisión (aunque discreto)
cuando se utiliza la ontologı́a, ası́ como el incremento de la cantidad de infor-
mación extraı́da, apreciado en mayor medida en la colección IA. Esto demuestra
los beneficios que se pueden obtener cuando es usada una ontologı́a de refe-
rencia en la extracción automática de conceptos y relaciones desde textos no
estructurados.
90

5.   Conclusiones

     En el trabajo se ha presentado un nuevo método para extracción de los DE a
partir de textos no estructurados, aplicable a textos escritos en el idioma español
e inglés y no dependiente del dominio. En esta nueva propuesta se combinan un
conjunto de técnicas de PLN, tanto para el pre-procesamiento de los textos como
para la identificación de conceptos y relaciones, que permiten aumentar las capa-
cidades para extraer una mayor cantidad de información desde los textos. El uso
de patrones lingı́sticos para identificar conceptos y relaciones semánticas entre
ellos, la posibilidad de utilizar de manera flexible una ontologı́a de referencia,
ası́ como el análisis de las dependencias entre los conceptos en el texto, consti-
tuyen elementos que han propiciado alcanzar una mayor cobertura del texto a
la hora de extraer la información. La extracción de conceptos, que no necesaria-
mente representen entidades, ası́ como la identificación de vı́nculos semánticos
entre ellos, propicia que se obtenga una mayor riqueza en los DE que se obtienen
con el método propuesto. Las pruebas realizadas mostraron resultados prome-
tedores, alcanzándose valores de precisión en la mayorı́a de los casos superiores
al 90 % en la extracción de conceptos y al 50 % en la extracción de relaciones.
También se constataron los beneficios de usar una ontologı́a, referentes al incre-
mento de la cantidad de información extraı́da de los textos, y al aumento de la
precisión en la extracción de conceptos y relaciones.


Agradecimientos. Este trabajo ha sido parcialmente financiado por el Minis-
terio de Economı́a y Competitividad del Gobierno de España, en el marco del
proyecto REDES (TIN2015-65136-C2-1-R).


Referencias

 1. Wang, P., y Zhang, X.: Finding, Extracting, and Building Academic Linked Data.
    In Li, J. et al. (Eds): Semantic Web and Web Science, Springer & Business Media,
    25–39 (2013)
 2. Auer, S., Lehmann, J., Ngonga A. C., y Zaveri, A.: Introduction to Linked Data
    and its Lifecycle on the Web. Proc. of Reasoning Web 2013, LNCS, Vol. 8067, 1–90
    (2013)
 3. Lehmann, J., Isele, R., Jakob, M., Jentzsch, A., Kontokostas, D., Mendes, P. N.,
    Hellmann, S., Morsey, M., van Kleef, P., Auer, S., y Bizer, C.: DBpedia A Large-
    scale, Multilingual Knowledge Base Extracted from Wikipedia. Semantic Web, 1,
    1–27 (2012)
 4. Dimitrios-Emmanuel, S., Stavrou, P., y Mitrou, N.: Bringing relational databases
    into the semantic web: A survey. Semantic Web, 3(2), 169–209 (2012)
 5. Augenstein, I., Padó, S., y Rudolph, S.: LODifier: Generating Linked Data from
    Unstructured Text. In Proc. of ESWC 2012, LNSC, Vol. 7295, 210–224 (2012)
 6. Joshi, A., Lal, R., Finin, T., y Joshi, A.: Extracting Cybersecurity Related Linked
    Data from Text, IEEE 7th Int. Conf. on Semantic Computing (ICSC), 252–259
    (2013)
                                                                                    91

 7. Krı́, V., y Hladká, B.: RExtractor: a Robust Information Extractor. Proc. of the
    2015 Conf. of the North American Chapter of the Association for Computational
    Linguistics: Demonstrations, 21–25 (2015)
 8. Novak, J. D., y Cañas,A. J.: The Theory Underlying Concept Maps and How to
    Construct Them, Technical Report IHMC CmapTools, USA (2006)
 9. Kowata, J. H., Cury, D., y Silva, M. C.: Concept maps core elements candidates
    recognition from text. In Proc. of CMC 2010, 120–127 (2010)
10. Raymond, M., Song, D., Yuefeng, L. I., Terence, Ch., I., y Hao, J.-X.: Towards A
    Fuzzy Domain Ontology Extraction Method for Adaptive e-Learning. Knowledge
    and Data Engineering, 21(6), 800–813 (2009)
11. Valerio, A., Leake, D.,y Cañas, A. J.: Using Automatically Generated Concept
    Maps for Document Understanding: A Human Subject Experiment. In Proc. of
    CMC 2012, 438–445 (2012)
12. Wang, W. M., Cheung, C. F.,Lee, W. B. y Kwok, S. K.: Mining knowledge from
    natural language texts using fuzzy associated concept mapping. Information Pro-
    cessing and Management, 44(5), 1707–1719 (2008)
13. Attia S. S., Arafa, W. M. y Eldin,A. S.: A Framework of Proposed Intelligent Tool
    for Constructing Concept Map, In Proc. of ICL 2010, 524–533 (2010)
14. Amine, A., Elberrichi, Z., y Simonet, M.: Automatic language identification: An
    alternative unsupervised approach using a new hybrid algorithm. Int. J. on Compu-
    tational Science & Applications, 7(1), 94–107 (2010)
15. Padró, L. y Stanilovsky, E.: FreeLing 3.0: Towards Wider Multilinguality. Interna-
    tional Conference on Language Resources and Evaluation, In Proc. of LREC 2012,
    2473–2479 (2012)
16. Hearst, M. Automatic acquisition of hyponyms from large text corpora. In Proc.
    of the 14th Int. Conf. on Computational Linguistics, 539–545 (1992)
17. Cimiano P. y Vlker, J.: Text2Onto, In Proc. of the 10th Int. Conf. on Applications
    of Natural Language to Information Systems, 227–238 (2005)
18. Jiang, X., y Tan, A. H.: CRCTOL: A semanticbased domain ontology learning
    system. J. of the American Society for Information Science and Technology, 61(1),
    150–168 (2010)

</pre>