Justi cacion de la investigacion propuesta

>Como hacer per les de documentos?

Antonio Guillen Espejo

aguillen@dlsi.ua.es 0 0 Departamento de Lenguajes y Sistemas Informaticos, Universidad de Alicante Carretera San Vicente del Raspeig S/N, 03690 San Vicente del Raspeig

Nowadays, users browse on the Internet through a huge amount of websites. In many cases, it is performed with the aim of nding speci c documents (e.g. news, blogs, etc.) or depending on a concrete category. How to improve search engines to be able properly nd out documents taking into account the users' needs? To this aim, it is necessary to nd out a proper way of extracting information from documents and o ering useful meta-data for their pro ling. For example, these metadata can be topics, sentiment polarity, subject areas and many other features that can be extracted thanks to the support of Human Language Technologies (HLT). In this research, we propose the de nition of a document pro ling model through the study of HLT in conjunction with di erent document types commonly found on the Internet.

Internet esta creciendo considerablemente desde la Web 2.0, uno de los motivos es la posibilidad que tiene cualquier usuario para crear y publicar sus propios contenidos. Estos contenidos pueden ser opiniones, ya sea en blogs, redes sociales, pero tambien opiniones acerca productos comprados por Internet, v deos, noticias, etc. Este tipo de contenidos se pueden considerar como documentos de los cuales podemos obtener informacion util usando las Tecnolog as del Lenguaje Humano (TLH). Esta informacion asociada al documento en forma de meta-datos puede tener diversos propositos: el apoyo a la clasi cacion de documentos, el apoyo a los motores de busqueda, mejorar los sistemas de recomendacion, pero tambien el apoyo a algunas areas del Procesamiento del Lenguaje Natural (PLN) como el analisis de sentimientos.

El objetivo de la tesis es el estudio de las TLH apropiadas para creacion de per les de documentos (analisis semantico, polaridad, complejidad de lectura, etc.). En nuestro trabajo, de nimos el termino documento como una unidad de informacion y contenido proveniente de Internet, ya sea de mayor o menor taman~o, y de diversos dominios. Por ejemplo, algunos de los documentos a tratar pueden ser noticias online, posts en redes sociales o foros, blogs, comentarios sobre productos, etc.

Pretendemos que la creacion de este per l sea capaz de representar un documento a n de dar utilidad y apoyo a ciertas areas o sistemas concretos. Para ello, se llevara a cabo la creacion de un modelo donde se establece que documentos concretos vamos a tratar, que informacion queremos representar, que TLH se van a usar para extraer esta informacion, as como los detalles que se han de tener en cuenta en la aplicacion de las TLH sobre ciertas clases de documentos (tipo de contenido, taman~o del documento, etc.). Asimismo, se pretende crear una ontolog a para el adecuado almacenamiento de los meta-datos del per l, y la implementacion de un prototipo capaz hacer un uso automatico de esta ontolog a. Esto ayudara en la tarea de evaluacion del modelo y la veri cacion de utilidad real de los per les generados. 2

Origen y trabajo relacionado

Podr amos considerar antecedentes de nuestro trabajo los sistemas de integracion de TLH. Estos tratan de facilitar el acceso y uso de estas tecnolog as por parte de investigadores. En este sentido, existen herramientas como InTime (Gomez Soriano, 2008) que trata de integrar gran cantidad de herramientas TLH para su uso de forma remota e independientemente del sistema operativo. Otra herramienta de integracion es TLH Suite (Guillen, Lloret, y Gutierrez, 2016) que ademas trata de vincular la informacion anotada usando diferentes herramientas con el n de obtener un paquete semantico. Otra aproximacion vinculada con los paquetes semanticos (Lloret, Gutierrez, y Gomez, 2015) trata de la representacion del conocimiento disen~ando una ontolog a. Nuestro trabajo de investigacion pretende dar un paso mas alla de la integracion y anotacion semantica, aunque estas aproximaciones nos pueden servir como base al modelo de per les de documentos que se esta disen~ando.

Segun la literatura, la generacion de perles suele centrarse en los usuarios, tratando aspectos como la identi cacion de autor a (Sapkota et al., 2015) y el apoyo a los sistemas recomendacion (Bobadilla et al., 2013) . A pesar de que nuestro trabajo se orienta a la generacion de per les de documentos, nos pueden ser utiles estos y otros trabajos debido a que tendremos en cuenta aspectos relacionados con la identi cacion de autor a, por ejemplo, detectar la edad y genero del autor del documento (Rangel y Rosso, 2016) . En referencia a los sistemas de recomendacion, un enfoque que se acerca a nuestro trabajo es (Li et al., 2010) que trata de mejorar sistemas de recomendacion de noticias teniendo en cuenta la informacion asociada a la propia noticia, justi cando el valor an~adido que aporta este tipo de informacion vinculada.

Existen aproximaciones con caracter sticas muy similares a la nuestra. (Gulla et al., 2014) propone una aproximacion para generar per les en base a la interaccion de un usuario en Internet para la recomendacion de noticias. Uno de nuestros dominios de aplicacion tambien es el de noticias, por lo tanto, se tendra en cuenta la metodolog a seguida. (Kshirsagar y Deshkar, 2015) propone un sistema de analisis de reviews de productos, con el n de extraer caracter sticas tales como la polaridad sentimental. En nuestro trabajo tambien pretendemos tratar con reviews, noticias, etc. pero obteniendo mas caracter sticas de estos documentos. 3

Descripcion de la investigacion propuesta e hipotesis

Se propone un trabajo de investigacion orientado a la generacion de per les de documentos. Inicialmente trabajaremos con documentos en ingles y espan~ol, ya que muchas de las TLH a estudiar soportan estos dos idiomas. Consideramos documento a una unidad textual de informacion proveniente principalmente de Internet. Nuestra hipotesis es que la generacion de per les de documentos usando las TLH, puede ayudar a aspectos como la busqueda de documentos o recomendaciones de estos a usuarios, seguimiento en tiempo real de la informacion tratada en redes sociales, o incluso mejorar resultados en tareas del PLN como el analisis de sentimientos o la clasi cacion de documentos.

Inicialmente la investigacion se enmarca en la de nicion de un modelo de per les de documentos. La de nicion de este modelo consiste en estudiar y especi car los documentos concretos que vamos a tratar, un estudio de la informacion que queremos obtener de estos (meta-datos) y el estudio de las TLH mas apropiadas para el calculo de estos meta-datos. En la Figura 1 se puede observar la idea del per l de documentos: dado un documento, se le aplica las TLH para obtener una serie de meta-datos vinculados al mismo.

Para la de nicion del modelo, la primeFormalidad

escrita Polaridad sentimental

Formalidad

textual Categorías emocionales Id Contenido

Expresiones temporales

Características lingüísticas Título Tnioptoicdiae Tópicos Fuente

Complejidad de lectura

Tipo Resumen ra tarea ha sido determinar que documentos concretos vamos a estudiar. En Internet existen muchos tipos de documentos, en nuestro trabajo hemos querido limitar esta seleccion a los documentos que habitualmente se consultan en Internet: noticias online, posts en redes sociales, reviews de productos o servicios, blogs, Webs personales, documentos academicos, documentos cient cos, manuales de instrucciones, tutoriales, extractos literarios, documentos administrativos/tecnicos.

Posteriormente, se especi ca la informacion concreta (meta-datos) que queremos obtener de los documentos usando las TLH. Esta seleccion contempla un amplio conjunto de informacion con el n de representar adecuadamente al documento, y ademas, sea capaz de aportar un valor an~adido a los propositos de este trabajo. Por ejemplo, conocer la complejidad de lectura o la formalidad escrita de un documento ayuda a la identi cacion de las personas mas apropiadas para leer dicho documento.

Se tiene en cuenta que no todos los metadatos son adecuados para todos los documentos propuestos. Para solventar esto se ha creado el esquema de documentos mostrado en la Figura2. En este esquema en forma de arbol aparecen los documentos propuestos como hojas, y se establecen relaciones entre ellos a traves de documentos conceptuales. Los meta-datos son distribuidos en todo el arbol de manera que solo se asocien a la rama adecuada de documentos. Por ejemplo, para los documentos subjetivos se asocia la informacion referente el analisis de sentimientos e ideolog a, ya que esta informacion solo tiene sentido obtenerla con estos tipos de documentos de caracter subjetivo. Asimismo, el esquema de documentos se ha creado con la intencion de disen~ar una ontolog a con la que facilitar el almacenamiento y consulta de los per les.

Para calcular el valor de los meta-datos se usan algunas de las TLH mas relevantes: Extraccion de informacion, Deteccion de expresiones temporales, Deteccion de entidades nombradas, Deteccion de dominios, Clasi cacion de polaridad, Analisis de legibilidad, etc. Se debe realizar un estudio de las herramientas que hay actualmente disponibles para el calculo de los meta-datos, teniendo en cuenta criterios como la abilidad de la herramienta y el grado de automatizacion. La abilidad se puede medir comprobando los trabajos relacionados de estas herramientas y los resultados obtenidos de su evaluacion. Sin embargo, no todas las herramientas disponen de evaluaciones publicadas. El grado de automatizacion se de nira dado el tipo de herramienta que se trate, por ejemplo, una herramienta en formato Servicio Web tendra un alto grado de automatizacion ya que es facilmente incorporable en un prototipo o aplicacion. 4

Metodolog a y experimentos propuestos

El estado actual del trabajo de investigacion comprende la de nicion del modelo descrito en la seccion anterior y el estudio de herramientas TLH que se podr an incluir en nuestro trabajo. Tambien se esta preparando un conjunto de datos (dataset) usando documentos reales de cada tipo del esquema, generando el per l de cada uno siguiendo el Algoritmo 1.

En este algoritmo, primero se obtiene el contenido textual a partir de la fuente del documento. De este contenido se genera un resumen en el caso de que sea un documento extenso. Este resumen servira para aquellas herramientas TLH que requieren texto corto para un mejor funcionamiento. Al identi car el tipo de documento de los de nidos en el modelo, se obtendran los meta-datos corresLectura ●●●● lFFCReoooacrrtnmmmugrpaaoallleiidddjieaadddaeddteeasdxdcetruitaal ●●●●● LTVRReóaeenplsgogiuicróuamonacsejieónn ●●●●● ITTFCdiíuoptuenolntoetenido DGoceunméreicnoto ● Expresiones ●● ÁPraelaabsrdaes cinlatevreés● Fecha

temporales Lingüística ● Entidades nombradas ● Características lingüísticas

Documento Subjetivo

Documento Descriptivo

Author Document Preudsidcuacaitóroinos ●● PPrreeddiicccciióónn egdéandero

Análisis de ● Polaridad sentimental sentimientos ● Categorías emocionales ● Orientación ideológica

Documento hoja Documento conceptual Administrativo /

Técnico

Noticia

Periodística Datos ● Tipo de noticia prensa ● Veracidad

Documento Generado por

Usuario Post Social

Review Producto / Servicio

Documento Conocimiento

Documento

Literario Blog

Web Personal

Documento Académico liteDraartiooss ● Género literario Manual

Tutorial

Documento Científico

Figura 2: Esquema de documentos y distribucion de los meta-datos. Algorithm 1 Generar Per l Documento Require: url, url documento Web 1: c obtenerContenido(url ) 2: r generarResumen(c) 3: t obtenerTipo(c) 4: per l newPro le(c, r, t ) 5: listaMt obtenerMetadatos(type) 6: for each mt 2 listaMt do 7: tlh mt.obtenerTLH() 8: valor tlh(c, r ) 9: per l.an~adir(mt, valor ) pondientes al tipo. Cada meta-dato se calcula usando su herramienta TLH asociada, sobre el contenido original del documento o sobre el resumen, segun requiera la herramienta. Una vez calculado el valor del meta-dato se an~ade al per l. Este algoritmo se implementara en un prototipo para generar automaticamente los per les y ser expuestos a evaluacion o experimentaciones.

Una posible evaluacion del modelo consiste en la realizacion de una encuesta usando para ello algunos de los per les generados en el conjunto de datos y una serie de preguntas para valorar los meta-datos obtenidos (por ejemplo, si son correctos estos valores, que informacion obtenida es mas util, etc.).

La experimentacion del trabajo se puede contemplar desde diversos escenarios. Un escenario podr a ser comparar la busqueda de documentos con el apoyo de los per les de nuestra aproximacion, con respecto a la indexacion de documentos habitual. Otro escenario ser a la posible mejora de tareas del PLN como la clasi cacion de documentos, usando los meta-datos del per l como caracter sticas de entrada al sistema de clasi cacion.

5 Elementos de investigacion espec cos propuestos para discusion

Nuestra propuesta de investigacion tiene cierto caracter novedoso, por lo tanto, surgen algunas cuestiones sobre la de nicion del modelo que se esta haciendo, y las posibles evaluaciones y experimentos que se pretenden realizar. Algunas de estas cuestiones podr an tratar los siguientes aspectos:

Sobre la seleccion de documentos >Es adecuado el criterio seguido? >Faltar an o tendr an que descartarse ciertos documentos? Sobre la seleccion de meta-datos >Representa adecuadamente a los documentos? >Que meta-datos son mas utiles? >Se puede mejorar la distribucion de los meta-datos en el esquema de documentos presentado? Sobre la evaluacion del modelo y los experimentos planteados >Son correctas las evaluaciones y experimentos que se proponen? >Existen otros escenarios donde ser a mas interesante experimentar?

Agradecimientos

Esta investigacion esta parcialmente nanciada por la Universidad de Alicante a traves de una beca del programa de Formacion de Profesorado Universitario (UAFPU2015-5999), as como la Generalitat Valenciana, el Ministerio de Educacion, Cultura y Deporte, y las Ayudas Fundacion BBVA a equipos de investigacion cient ca 2016, a traves de los proyectos: TIN2015-65100-R, TIN2015-65136C2-2-R, PROMETEOII/2014/001, GRE1601: \Plataforma inteligente para recuperacion, analisis y representacion de la informacion generada por usuarios en Internet" y Analisis de Sentimientos Aplicado a la Prevencion del Suicidio en las Redes Sociales (ASAP).

Bibliograf a

Engineering and Knowledge Management, paginas 155{162.

Bobadilla , J. ,

Ortega , A . Hernando, y

Gutierrez . 2013 . Recommender Systems Survey . Knowledge-Based Systems , 46 : 109 { 132 .

Gomez

Soriano , J. M. 2008 . InTiMe: Plataforma de Integracion de Recursos de PLN. Procesamiento del Lenguaje Natural , 40 : 83 { 90 .

Guillen , A. , E. Lloret, y

Gutierrez . 2016 . TLH Suite: herramienta para la anotacion semantica de informacion . RISTI - Revista Iberica de Sistemas e Tecnologias de Informaca~o, 2016 ( 18 ): 99 { 113 .

Gulla , J. A. , A. D. Fidjest l , X. Su, y H. Castejon . 2014 . Implicit User Pro ling in News Recommender Systems . International Conference on Web Information Systems and Technologies , paginas 185 { 192 .

Kshirsagar , A. A. y P. A.

Deshkar . 2015 . Review analyzer analysis of product reviews on weka classi ers . En International Conference on Innovations in Information, Embedded and Communication Systems (ICIIECS 2015 ), paginas 1{ 5 .

Li , Q. ,

Wang ,

Y. P.

Chen , y

Lin . 2010 . User comments for news recommendation in forum-based social media . Information Sciences , 180 ( 24 ): 4929 { 4939 .

Lloret , E. , Y. Gutierrez,

y J.

Gomez . 2015 . Developing an ontology to capture documents' semantics . En IC3K 2015 - Proceedings of the 7th International Joint Conference on Knowledge Discovery ,

Knowledge

Rangel ,

F. y P.

Rosso . 2016 . On the impact of emotions on author pro ling . Information Processing and Management , 52 ( 1 ): 73 { 92 .

Sapkota , U., S.

Bethard , M. Montes-y Gomez, y T.

Solorio . 2015 . Not all character n-grams are created equal: A study in authorship attribution. En Conference of the North American Chapter of the Association for Computational Linguistics { Human Language Technologies (NAACL HLT 2015 ), paginas 93 { 102 .