<!DOCTYPE article PUBLIC "-//NLM//DTD JATS (Z39.96) Journal Archiving and Interchange DTD v1.0 20120330//EN" "JATS-archivearticle1.dtd">
<article xmlns:xlink="http://www.w3.org/1999/xlink">
  <front>
    <journal-meta />
    <article-meta>
      <title-group>
        <article-title>&gt;Como hacer per les de documentos?</article-title>
      </title-group>
      <contrib-group>
        <contrib contrib-type="author">
          <string-name>Antonio Guillen Espejo</string-name>
          <email>aguillen@dlsi.ua.es</email>
          <xref ref-type="aff" rid="aff0">0</xref>
        </contrib>
        <aff id="aff0">
          <label>0</label>
          <institution>Departamento de Lenguajes y Sistemas Informaticos, Universidad de Alicante Carretera San Vicente del Raspeig S/N, 03690 San Vicente del Raspeig</institution>
        </aff>
      </contrib-group>
      <abstract>
        <p>Nowadays, users browse on the Internet through a huge amount of websites. In many cases, it is performed with the aim of nding speci c documents (e.g. news, blogs, etc.) or depending on a concrete category. How to improve search engines to be able properly nd out documents taking into account the users' needs? To this aim, it is necessary to nd out a proper way of extracting information from documents and o ering useful meta-data for their pro ling. For example, these metadata can be topics, sentiment polarity, subject areas and many other features that can be extracted thanks to the support of Human Language Technologies (HLT). In this research, we propose the de nition of a document pro ling model through the study of HLT in conjunction with di erent document types commonly found on the Internet.</p>
      </abstract>
    </article-meta>
  </front>
  <body>
    <sec id="sec-1">
      <title>Justi cacion de la investigacion propuesta</title>
      <p>Internet esta creciendo considerablemente
desde la Web 2.0, uno de los motivos es la
posibilidad que tiene cualquier usuario para
crear y publicar sus propios contenidos.
Estos contenidos pueden ser opiniones, ya sea
en blogs, redes sociales, pero tambien
opiniones acerca productos comprados por
Internet, v deos, noticias, etc. Este tipo de
contenidos se pueden considerar como
documentos de los cuales podemos obtener
informacion util usando las Tecnolog as del Lenguaje
Humano (TLH). Esta informacion asociada
al documento en forma de meta-datos puede
tener diversos propositos: el apoyo a la clasi
cacion de documentos, el apoyo a los motores
de busqueda, mejorar los sistemas de
recomendacion, pero tambien el apoyo a algunas
areas del Procesamiento del Lenguaje
Natural (PLN) como el analisis de sentimientos.</p>
      <p>El objetivo de la tesis es el estudio de
las TLH apropiadas para creacion de per
les de documentos (analisis semantico,
polaridad, complejidad de lectura, etc.). En
nuestro trabajo, de nimos el termino documento
como una unidad de informacion y contenido
proveniente de Internet, ya sea de mayor o
menor taman~o, y de diversos dominios. Por
ejemplo, algunos de los documentos a tratar
pueden ser noticias online, posts en redes
sociales o foros, blogs, comentarios sobre
productos, etc.</p>
      <p>Pretendemos que la creacion de este per l
sea capaz de representar un documento a n
de dar utilidad y apoyo a ciertas areas o
sistemas concretos. Para ello, se llevara a cabo la
creacion de un modelo donde se establece que
documentos concretos vamos a tratar, que
informacion queremos representar, que TLH se
van a usar para extraer esta informacion, as
como los detalles que se han de tener en
cuenta en la aplicacion de las TLH sobre ciertas
clases de documentos (tipo de contenido,
taman~o del documento, etc.). Asimismo, se
pretende crear una ontolog a para el adecuado
almacenamiento de los meta-datos del per l,
y la implementacion de un prototipo capaz
hacer un uso automatico de esta ontolog a.
Esto ayudara en la tarea de evaluacion del
modelo y la veri cacion de utilidad real de
los per les generados.
2</p>
    </sec>
    <sec id="sec-2">
      <title>Origen y trabajo relacionado</title>
      <p>
        Podr amos considerar antecedentes de
nuestro trabajo los sistemas de integracion de
TLH. Estos tratan de facilitar el acceso y
uso de estas tecnolog as por parte de
investigadores. En este sentido, existen
herramientas como InTime
        <xref ref-type="bibr" rid="ref2">(Gomez Soriano, 2008)</xref>
        que trata de integrar gran cantidad de
herramientas TLH para su uso de forma
remota e independientemente del sistema
operativo. Otra herramienta de integracion es TLH
Suite
        <xref ref-type="bibr" rid="ref3 ref7">(Guillen, Lloret, y Gutierrez, 2016)</xref>
        que ademas trata de vincular la
informacion anotada usando diferentes herramientas
con el n de obtener un paquete semantico.
Otra aproximacion vinculada con los
paquetes semanticos
        <xref ref-type="bibr" rid="ref5 ref7">(Lloret, Gutierrez, y Gomez,
2015)</xref>
        trata de la representacion del
conocimiento disen~ando una ontolog a. Nuestro
trabajo de investigacion pretende dar un
paso mas alla de la integracion y anotacion
semantica, aunque estas aproximaciones nos
pueden servir como base al modelo de per les
de documentos que se esta disen~ando.
      </p>
      <p>
        Segun la literatura, la generacion de
perles suele centrarse en los usuarios,
tratando aspectos como la identi cacion de autor a
        <xref ref-type="bibr" rid="ref8">(Sapkota et al., 2015)</xref>
        y el apoyo a los
sistemas recomendacion
        <xref ref-type="bibr" rid="ref1">(Bobadilla et al., 2013)</xref>
        .
A pesar de que nuestro trabajo se orienta a
la generacion de per les de documentos, nos
pueden ser utiles estos y otros trabajos
debido a que tendremos en cuenta aspectos
relacionados con la identi cacion de autor a, por
ejemplo, detectar la edad y genero del autor
del documento
        <xref ref-type="bibr" rid="ref3 ref7">(Rangel y Rosso, 2016)</xref>
        . En
referencia a los sistemas de recomendacion,
un enfoque que se acerca a nuestro trabajo
es
        <xref ref-type="bibr" rid="ref6">(Li et al., 2010)</xref>
        que trata de mejorar
sistemas de recomendacion de noticias teniendo
en cuenta la informacion asociada a la
propia noticia, justi cando el valor an~adido que
aporta este tipo de informacion vinculada.
      </p>
      <p>
        Existen aproximaciones con caracter
sticas muy similares a la nuestra.
        <xref ref-type="bibr" rid="ref4">(Gulla et al.,
2014)</xref>
        propone una aproximacion para
generar per les en base a la interaccion de un
usuario en Internet para la recomendacion de
noticias. Uno de nuestros dominios de
aplicacion tambien es el de noticias, por lo tanto,
se tendra en cuenta la metodolog a seguida.
        <xref ref-type="bibr" rid="ref5 ref7">(Kshirsagar y Deshkar, 2015)</xref>
        propone un
sistema de analisis de reviews de productos, con
el n de extraer caracter sticas tales como
la polaridad sentimental. En nuestro trabajo
tambien pretendemos tratar con reviews,
noticias, etc. pero obteniendo mas caracter
sticas de estos documentos.
3
      </p>
    </sec>
    <sec id="sec-3">
      <title>Descripcion de la investigacion propuesta e hipotesis</title>
      <p>Se propone un trabajo de investigacion
orientado a la generacion de per les de
documentos. Inicialmente trabajaremos con
documentos en ingles y espan~ol, ya que muchas de
las TLH a estudiar soportan estos dos
idiomas. Consideramos documento a una unidad
textual de informacion proveniente
principalmente de Internet. Nuestra hipotesis es que la
generacion de per les de documentos usando
las TLH, puede ayudar a aspectos como la
busqueda de documentos o recomendaciones
de estos a usuarios, seguimiento en tiempo
real de la informacion tratada en redes
sociales, o incluso mejorar resultados en tareas
del PLN como el analisis de sentimientos o la
clasi cacion de documentos.</p>
      <p>Inicialmente la investigacion se enmarca
en la de nicion de un modelo de per les de
documentos. La de nicion de este modelo
consiste en estudiar y especi car los
documentos concretos que vamos a tratar, un
estudio de la informacion que queremos
obtener de estos (meta-datos) y el estudio de las
TLH mas apropiadas para el calculo de estos
meta-datos. En la Figura 1 se puede observar
la idea del per l de documentos: dado un
documento, se le aplica las TLH para obtener
una serie de meta-datos vinculados al mismo.</p>
      <p>Para la de nicion del modelo, la
primeFormalidad</p>
      <p>escrita
Polaridad
sentimental</p>
      <p>Formalidad</p>
      <p>textual
Categorías
emocionales
Id Contenido</p>
      <p>Expresiones
temporales</p>
      <p>Características
lingüísticas
Título Tnioptoicdiae
Tópicos
Fuente</p>
      <p>Complejidad
de lectura</p>
      <p>Tipo
Resumen
ra tarea ha sido determinar que documentos
concretos vamos a estudiar. En Internet
existen muchos tipos de documentos, en nuestro
trabajo hemos querido limitar esta seleccion a
los documentos que habitualmente se
consultan en Internet: noticias online, posts en
redes sociales, reviews de productos o servicios,
blogs, Webs personales, documentos
academicos, documentos cient cos, manuales de
instrucciones, tutoriales, extractos literarios,
documentos administrativos/tecnicos.</p>
      <p>Posteriormente, se especi ca la
informacion concreta (meta-datos) que queremos
obtener de los documentos usando las TLH.
Esta seleccion contempla un amplio conjunto de
informacion con el n de representar
adecuadamente al documento, y ademas, sea capaz
de aportar un valor an~adido a los
propositos de este trabajo. Por ejemplo, conocer la
complejidad de lectura o la formalidad escrita
de un documento ayuda a la identi cacion de
las personas mas apropiadas para leer dicho
documento.</p>
      <p>Se tiene en cuenta que no todos los
metadatos son adecuados para todos los
documentos propuestos. Para solventar esto se ha
creado el esquema de documentos
mostrado en la Figura2. En este esquema en forma
de arbol aparecen los documentos
propuestos como hojas, y se establecen relaciones
entre ellos a traves de documentos
conceptuales. Los meta-datos son distribuidos en todo
el arbol de manera que solo se asocien a la
rama adecuada de documentos. Por ejemplo,
para los documentos subjetivos se asocia la
informacion referente el analisis de
sentimientos e ideolog a, ya que esta informacion solo
tiene sentido obtenerla con estos tipos de
documentos de caracter subjetivo. Asimismo, el
esquema de documentos se ha creado con la
intencion de disen~ar una ontolog a con la que
facilitar el almacenamiento y consulta de los
per les.</p>
      <p>Para calcular el valor de los meta-datos
se usan algunas de las TLH mas relevantes:
Extraccion de informacion, Deteccion de
expresiones temporales, Deteccion de entidades
nombradas, Deteccion de dominios, Clasi
cacion de polaridad, Analisis de legibilidad, etc.
Se debe realizar un estudio de las
herramientas que hay actualmente disponibles para el
calculo de los meta-datos, teniendo en cuenta
criterios como la abilidad de la herramienta
y el grado de automatizacion. La abilidad se
puede medir comprobando los trabajos
relacionados de estas herramientas y los
resultados obtenidos de su evaluacion. Sin embargo,
no todas las herramientas disponen de
evaluaciones publicadas. El grado de
automatizacion se de nira dado el tipo de
herramienta que se trate, por ejemplo, una herramienta
en formato Servicio Web tendra un alto
grado de automatizacion ya que es facilmente
incorporable en un prototipo o aplicacion.
4</p>
    </sec>
    <sec id="sec-4">
      <title>Metodolog a y experimentos propuestos</title>
      <p>El estado actual del trabajo de investigacion
comprende la de nicion del modelo
descrito en la seccion anterior y el estudio de
herramientas TLH que se podr an incluir en
nuestro trabajo. Tambien se esta preparando
un conjunto de datos (dataset) usando
documentos reales de cada tipo del esquema,
generando el per l de cada uno siguiendo el
Algoritmo 1.</p>
      <p>En este algoritmo, primero se obtiene el
contenido textual a partir de la fuente del
documento. De este contenido se genera un
resumen en el caso de que sea un documento
extenso. Este resumen servira para aquellas
herramientas TLH que requieren texto corto
para un mejor funcionamiento. Al identi car
el tipo de documento de los de nidos en el
modelo, se obtendran los meta-datos
corresLectura ●●●● lFFCReoooacrrtnmmmugrpaaoallleiidddjieaadddaeddteeasdxdcetruitaal ●●●●● LTVRReóaeenplsgogiuicróuamonacsejieónn ●●●●● ITTFCdiíuoptuenolntoetenido DGoceunméreicnoto
● Expresiones ●● ÁPraelaabsrdaes cinlatevreés● Fecha</p>
      <p>temporales
Lingüística ● Entidades nombradas
● Características lingüísticas</p>
      <p>Documento
Subjetivo</p>
      <p>Documento
Descriptivo</p>
      <p>Author
Document
Preudsidcuacaitóroinos ●● PPrreeddiicccciióónn egdéandero</p>
      <p>Análisis de ● Polaridad sentimental
sentimientos ● Categorías emocionales
● Orientación ideológica</p>
      <p>Documento hoja
Documento conceptual
Administrativo /</p>
      <p>Técnico</p>
      <p>Noticia</p>
      <p>Periodística
Datos ● Tipo de noticia
prensa ● Veracidad</p>
      <p>Documento
Generado por</p>
      <p>Usuario
Post Social</p>
      <p>Review
Producto /
Servicio</p>
      <p>Documento
Conocimiento</p>
      <p>Documento</p>
      <p>Literario
Blog</p>
      <p>Web
Personal</p>
      <p>Documento
Académico
liteDraartiooss ● Género literario
Manual</p>
      <p>Tutorial</p>
      <p>Documento
Científico</p>
      <p>Figura 2: Esquema de documentos y distribucion de los meta-datos.
Algorithm 1 Generar Per l Documento
Require: url, url documento Web
1: c obtenerContenido(url )
2: r generarResumen(c)
3: t obtenerTipo(c)
4: per l newPro le(c, r, t )
5: listaMt obtenerMetadatos(type)
6: for each mt 2 listaMt do
7: tlh mt.obtenerTLH()
8: valor tlh(c, r )
9: per l.an~adir(mt, valor )
pondientes al tipo. Cada meta-dato se calcula
usando su herramienta TLH asociada, sobre
el contenido original del documento o sobre el
resumen, segun requiera la herramienta. Una
vez calculado el valor del meta-dato se an~ade
al per l. Este algoritmo se implementara en
un prototipo para generar automaticamente
los per les y ser expuestos a evaluacion o
experimentaciones.</p>
      <p>Una posible evaluacion del modelo
consiste en la realizacion de una encuesta usando
para ello algunos de los per les generados en
el conjunto de datos y una serie de preguntas
para valorar los meta-datos obtenidos (por
ejemplo, si son correctos estos valores, que
informacion obtenida es mas util, etc.).</p>
      <p>La experimentacion del trabajo se puede
contemplar desde diversos escenarios. Un
escenario podr a ser comparar la busqueda de
documentos con el apoyo de los per les de
nuestra aproximacion, con respecto a la
indexacion de documentos habitual. Otro
escenario ser a la posible mejora de tareas del PLN
como la clasi cacion de documentos, usando
los meta-datos del per l como caracter sticas
de entrada al sistema de clasi cacion.</p>
    </sec>
    <sec id="sec-5">
      <title>5 Elementos de investigacion espec cos propuestos para discusion</title>
      <p>Nuestra propuesta de investigacion tiene
cierto caracter novedoso, por lo tanto, surgen
algunas cuestiones sobre la de nicion del
modelo que se esta haciendo, y las posibles
evaluaciones y experimentos que se pretenden
realizar. Algunas de estas cuestiones podr an
tratar los siguientes aspectos:</p>
      <p>Sobre la seleccion de documentos &gt;Es
adecuado el criterio seguido? &gt;Faltar an
o tendr an que descartarse ciertos
documentos?
Sobre la seleccion de meta-datos
&gt;Representa adecuadamente a los
documentos? &gt;Que meta-datos son mas utiles?
&gt;Se puede mejorar la distribucion de los
meta-datos en el esquema de
documentos presentado?
Sobre la evaluacion del modelo y los
experimentos planteados &gt;Son correctas las
evaluaciones y experimentos que se
proponen? &gt;Existen otros escenarios donde
ser a mas interesante experimentar?</p>
    </sec>
    <sec id="sec-6">
      <title>Agradecimientos</title>
      <p>Esta investigacion esta parcialmente
nanciada por la Universidad de Alicante a traves de
una beca del programa de Formacion de
Profesorado Universitario (UAFPU2015-5999),
as como la Generalitat Valenciana, el
Ministerio de Educacion, Cultura y Deporte, y las
Ayudas Fundacion BBVA a equipos de
investigacion cient ca 2016, a traves de los
proyectos: TIN2015-65100-R,
TIN2015-65136C2-2-R, PROMETEOII/2014/001,
GRE1601: \Plataforma inteligente para
recuperacion, analisis y representacion de la
informacion generada por usuarios en Internet" y
Analisis de Sentimientos Aplicado a la
Prevencion del Suicidio en las Redes Sociales
(ASAP).</p>
    </sec>
    <sec id="sec-7">
      <title>Bibliograf a</title>
      <p>Engineering and Knowledge Management,
paginas 155{162.</p>
    </sec>
  </body>
  <back>
    <ref-list>
      <ref id="ref1">
        <mixed-citation>
          <string-name>
            <surname>Bobadilla</surname>
            ,
            <given-names>J.</given-names>
          </string-name>
          ,
          <string-name>
            <given-names>F.</given-names>
            <surname>Ortega</surname>
          </string-name>
          ,
          <string-name>
            <surname>A</surname>
          </string-name>
          . Hernando, y
          <string-name>
            <given-names>A.</given-names>
            <surname>Gutierrez</surname>
          </string-name>
          .
          <year>2013</year>
          .
          <article-title>Recommender Systems Survey</article-title>
          .
          <source>Knowledge-Based Systems</source>
          ,
          <volume>46</volume>
          :
          <fpage>109</fpage>
          {
          <fpage>132</fpage>
          .
        </mixed-citation>
      </ref>
      <ref id="ref2">
        <mixed-citation>
          <string-name>
            <given-names>Gomez</given-names>
            <surname>Soriano</surname>
          </string-name>
          ,
          <string-name>
            <surname>J. M.</surname>
          </string-name>
          <year>2008</year>
          . InTiMe: Plataforma de Integracion de Recursos de PLN.
          <source>Procesamiento del Lenguaje Natural</source>
          ,
          <volume>40</volume>
          :
          <fpage>83</fpage>
          {
          <fpage>90</fpage>
          .
        </mixed-citation>
      </ref>
      <ref id="ref3">
        <mixed-citation>
          <string-name>
            <surname>Guillen</surname>
            ,
            <given-names>A.</given-names>
          </string-name>
          , E. Lloret, y
          <string-name>
            <given-names>Y.</given-names>
            <surname>Gutierrez</surname>
          </string-name>
          .
          <year>2016</year>
          .
          <article-title>TLH Suite: herramienta para la anotacion semantica de informacion</article-title>
          . RISTI - Revista Iberica de Sistemas e Tecnologias de Informaca~o,
          <year>2016</year>
          (
          <volume>18</volume>
          ):
          <volume>99</volume>
          {
          <fpage>113</fpage>
          .
        </mixed-citation>
      </ref>
      <ref id="ref4">
        <mixed-citation>
          <string-name>
            <surname>Gulla</surname>
            ,
            <given-names>J. A.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>A. D. Fidjest l</surname>
            , X. Su, y
            <given-names>H.</given-names>
          </string-name>
          <string-name>
            <surname>Castejon</surname>
          </string-name>
          .
          <year>2014</year>
          .
          <article-title>Implicit User Pro ling in News Recommender Systems</article-title>
          .
          <source>International Conference on Web Information Systems and Technologies</source>
          , paginas
          <volume>185</volume>
          {
          <fpage>192</fpage>
          .
        </mixed-citation>
      </ref>
      <ref id="ref5">
        <mixed-citation>
          <string-name>
            <surname>Kshirsagar</surname>
            ,
            <given-names>A. A. y P. A.</given-names>
          </string-name>
          <string-name>
            <surname>Deshkar</surname>
          </string-name>
          .
          <year>2015</year>
          .
          <article-title>Review analyzer analysis of product reviews on weka classi ers</article-title>
          .
          <source>En International Conference on Innovations in Information, Embedded and Communication Systems (ICIIECS</source>
          <year>2015</year>
          ), paginas 1{
          <fpage>5</fpage>
          .
        </mixed-citation>
      </ref>
      <ref id="ref6">
        <mixed-citation>
          <string-name>
            <surname>Li</surname>
            ,
            <given-names>Q.</given-names>
          </string-name>
          ,
          <string-name>
            <given-names>J.</given-names>
            <surname>Wang</surname>
          </string-name>
          ,
          <string-name>
            <given-names>Y. P.</given-names>
            <surname>Chen</surname>
          </string-name>
          , y
          <string-name>
            <given-names>Z.</given-names>
            <surname>Lin</surname>
          </string-name>
          .
          <year>2010</year>
          .
          <article-title>User comments for news recommendation in forum-based social media</article-title>
          .
          <source>Information Sciences</source>
          ,
          <volume>180</volume>
          (
          <issue>24</issue>
          ):
          <volume>4929</volume>
          {
          <fpage>4939</fpage>
          .
        </mixed-citation>
      </ref>
      <ref id="ref7">
        <mixed-citation>
          <string-name>
            <surname>Lloret</surname>
            ,
            <given-names>E.</given-names>
          </string-name>
          , Y. Gutierrez,
          <string-name>
            <given-names>y J.</given-names>
            <surname>Gomez</surname>
          </string-name>
          .
          <year>2015</year>
          .
          <article-title>Developing an ontology to capture documents' semantics</article-title>
          .
          <source>En IC3K 2015 - Proceedings of the 7th International Joint Conference on Knowledge Discovery</source>
          ,
          <string-name>
            <given-names>Knowledge</given-names>
            <surname>Rangel</surname>
          </string-name>
          ,
          <string-name>
            <given-names>F. y P.</given-names>
            <surname>Rosso</surname>
          </string-name>
          .
          <year>2016</year>
          .
          <article-title>On the impact of emotions on author pro ling</article-title>
          .
          <source>Information Processing and Management</source>
          ,
          <volume>52</volume>
          (
          <issue>1</issue>
          ):
          <volume>73</volume>
          {
          <fpage>92</fpage>
          .
        </mixed-citation>
      </ref>
      <ref id="ref8">
        <mixed-citation>
          <string-name>
            <surname>Sapkota</surname>
            , U.,
            <given-names>S.</given-names>
          </string-name>
          <string-name>
            <surname>Bethard</surname>
            , M. Montes-y Gomez, y
            <given-names>T.</given-names>
          </string-name>
          <string-name>
            <surname>Solorio</surname>
          </string-name>
          .
          <year>2015</year>
          .
          <article-title>Not all character n-grams are created equal: A study in authorship attribution. En Conference of the North American Chapter of the Association for Computational Linguistics { Human Language Technologies (NAACL HLT</article-title>
          <year>2015</year>
          ), paginas
          <volume>93</volume>
          {
          <fpage>102</fpage>
          .
        </mixed-citation>
      </ref>
    </ref-list>
  </back>
</article>