¿Cómo hacer perfiles de documentos? How to profile documents? Antonio Guillén Espejo Departamento de Lenguajes y Sistemas Informáticos, Universidad de Alicante Carretera San Vicente del Raspeig S/N, 03690 San Vicente del Raspeig aguillen@dlsi.ua.es Resumen: En la actualidad muchos usuarios navegan por Internet a través de gran cantidad de sitios webs. En ocasiones, se realiza con el objetivo de encontrar docu- mentos especı́ficos (por ejemplo, noticias, blogs, etc.) o documentos de una categorı́a concreta. ¿Cómo hacer que los motores de búsqueda puedan identificar apropiada- mente aquellos documentos de acuerdo con las necesidades de los usuarios? Se hace necesario encontrar una forma correcta de extraer la información que pueda carac- terizar a los documentos. Esta información puede ser: tópicos, polaridad, áreas de interés, etc. Las Tecnologı́as del Lenguaje Humano (TLH) son capaces de obtener automáticamente esta información y representarla como meta-datos. En esta inves- tigación, proponemos definir un modelo de perfiles de documentos capaz de apoyar principalmente la búsqueda de documentos (entre otros objetivos) mediante el estu- dio de las TLH y los documentos más comunes en Internet. Palabras clave: Perfil de Documento, Perfil de Usuario, Clasificación de Documen- tos, Extracción de Información Abstract: Nowadays, users browse on the Internet through a huge amount of web- sites. In many cases, it is performed with the aim of finding specific documents (e.g. news, blogs, etc.) or depending on a concrete category. How to improve search en- gines to be able properly find out documents taking into account the users’ needs? To this aim, it is necessary to find out a proper way of extracting information from documents and offering useful meta-data for their profiling. For example, these meta- data can be topics, sentiment polarity, subject areas and many other features that can be extracted thanks to the support of Human Language Technologies (HLT). In this research, we propose the definition of a document profiling model through the study of HLT in conjunction with different document types commonly found on the Internet. Keywords: Document Profile, User Profile, Document Classification, Information Extraction 1 Justificación de la cación de documentos, el apoyo a los motores investigación propuesta de búsqueda, mejorar los sistemas de reco- mendación, pero también el apoyo a algunas Internet está creciendo considerablemente áreas del Procesamiento del Lenguaje Natu- desde la Web 2.0, uno de los motivos es la ral (PLN) como el análisis de sentimientos. posibilidad que tiene cualquier usuario para El objetivo de la tesis es el estudio de crear y publicar sus propios contenidos. Es- las TLH apropiadas para creación de perfi- tos contenidos pueden ser opiniones, ya sea les de documentos (análisis semántico, pola- en blogs, redes sociales, pero también opinio- ridad, complejidad de lectura, etc.). En nues- nes acerca productos comprados por Inter- tro trabajo, definimos el término documento net, vı́deos, noticias, etc. Este tipo de conte- como una unidad de información y contenido nidos se pueden considerar como documen- proveniente de Internet, ya sea de mayor o tos de los cuales podemos obtener informa- menor tamaño, y de diversos dominios. Por ción útil usando las Tecnologı́as del Lenguaje ejemplo, algunos de los documentos a tratar Humano (TLH). Esta información asociada pueden ser noticias online, posts en redes so- al documento en forma de meta-datos puede ciales o foros, blogs, comentarios sobre pro- tener diversos propósitos: el apoyo a la clasifi- ductos, etc. Pretendemos que la creación de este perfil del documento (Rangel y Rosso, 2016). En sea capaz de representar un documento a fin referencia a los sistemas de recomendación, de dar utilidad y apoyo a ciertas áreas o siste- un enfoque que se acerca a nuestro trabajo mas concretos. Para ello, se llevará a cabo la es (Li et al., 2010) que trata de mejorar sis- creación de un modelo donde se establece qué temas de recomendación de noticias teniendo documentos concretos vamos a tratar, qué in- en cuenta la información asociada a la pro- formación queremos representar, qué TLH se pia noticia, justificando el valor añadido que van a usar para extraer esta información, ası́ aporta este tipo de información vinculada. como los detalles que se han de tener en cuen- Existen aproximaciones con caracterı́sti- ta en la aplicación de las TLH sobre ciertas cas muy similares a la nuestra. (Gulla et al., clases de documentos (tipo de contenido, ta- 2014) propone una aproximación para gene- maño del documento, etc.). Asimismo, se pre- rar perfiles en base a la interacción de un tende crear una ontologı́a para el adecuado usuario en Internet para la recomendación de almacenamiento de los meta-datos del perfil, noticias. Uno de nuestros dominios de aplica- y la implementación de un prototipo capaz ción también es el de noticias, por lo tanto, hacer un uso automático de esta ontologı́a. se tendrá en cuenta la metodologı́a seguida. Esto ayudará en la tarea de evaluación del (Kshirsagar y Deshkar, 2015) propone un sis- modelo y la verificación de utilidad real de tema de análisis de reviews de productos, con los perfiles generados. el fin de extraer caracterı́sticas tales como la polaridad sentimental. En nuestro trabajo 2 Origen y trabajo relacionado también pretendemos tratar con reviews, no- Podrı́amos considerar antecedentes de nues- ticias, etc. pero obteniendo más caracterı́sti- tro trabajo los sistemas de integración de cas de estos documentos. TLH. Estos tratan de facilitar el acceso y uso de estas tecnologı́as por parte de in- 3 Descripción de la investigación vestigadores. En este sentido, existen herra- propuesta e hipótesis mientas como InTime (Gómez Soriano, 2008) Se propone un trabajo de investigación orien- que trata de integrar gran cantidad de he- tado a la generación de perfiles de documen- rramientas TLH para su uso de forma remo- tos. Inicialmente trabajaremos con documen- ta e independientemente del sistema operati- tos en inglés y español, ya que muchas de vo. Otra herramienta de integración es TLH las TLH a estudiar soportan estos dos idio- Suite (Guillén, Lloret, y Gutiérrez, 2016) mas. Consideramos documento a una unidad que además trata de vincular la informa- textual de información proveniente principal- ción anotada usando diferentes herramientas mente de Internet. Nuestra hipótesis es que la con el fin de obtener un paquete semántico. generación de perfiles de documentos usando Otra aproximación vinculada con los paque- las TLH, puede ayudar a aspectos como la tes semánticos (Lloret, Gutiérrez, y Gómez, búsqueda de documentos o recomendaciones 2015) trata de la representación del conoci- de estos a usuarios, seguimiento en tiempo miento diseñando una ontologı́a. Nuestro tra- real de la información tratada en redes so- bajo de investigación pretende dar un pa- ciales, o incluso mejorar resultados en tareas so más allá de la integración y anotación del PLN como el análisis de sentimientos o la semántica, aunque estas aproximaciones nos clasificación de documentos. pueden servir como base al modelo de perfiles Inicialmente la investigación se enmarca de documentos que se está diseñando. en la definición de un modelo de perfiles de Según la literatura, la generación de per- documentos. La definición de este modelo files suele centrarse en los usuarios, tratan- consiste en estudiar y especificar los docu- do aspectos como la identificación de autorı́a mentos concretos que vamos a tratar, un es- (Sapkota et al., 2015) y el apoyo a los siste- tudio de la información que queremos obte- mas recomendación (Bobadilla et al., 2013). ner de estos (meta-datos) y el estudio de las A pesar de que nuestro trabajo se orienta a TLH más apropiadas para el cálculo de estos la generación de perfiles de documentos, nos meta-datos. En la Figura 1 se puede observar pueden ser útiles estos y otros trabajos debi- la idea del perfil de documentos: dado un do- do a que tendremos en cuenta aspectos rela- cumento, se le aplica las TLH para obtener cionados con la identificación de autorı́a, por una serie de meta-datos vinculados al mismo. ejemplo, detectar la edad y genero del autor Para la definición del modelo, la prime- tre ellos a través de documentos conceptua- les. Los meta-datos son distribuidos en todo el árbol de manera que solo se asocien a la rama adecuada de documentos. Por ejemplo, para los documentos subjetivos se asocia la TLH información referente el análisis de sentimien- tos e ideologı́a, ya que esta información solo tiene sentido obtenerla con estos tipos de do- Formalidad Expresiones escrita temporales cumentos de carácter subjetivo. Asimismo, el esquema de documentos se ha creado con la Polaridad Formalidad Características lingüísticas intención de diseñar una ontologı́a con la que sentimental textual Tipo de facilitar el almacenamiento y consulta de los Categorías Título noticia perfiles. emocionales Tópicos Para calcular el valor de los meta-datos Complejidad Id Contenido Fuente de lectura se usan algunas de las TLH más relevantes: Resumen Tipo Extracción de información, Detección de ex- Género Entidades Áreas de literario nombradas interés presiones temporales, Detección de entidades Región Veracidad nombradas, Detección de dominios, Clasifica- Palabras Valoración Rango de Fecha clave edad ción de polaridad, Análisis de legibilidad, etc. Lenguaje Orientación Se debe realizar un estudio de las herramien- Predicción Predicción tas que hay actualmente disponibles para el ideológica edad género cálculo de los meta-datos, teniendo en cuenta criterios como la fiabilidad de la herramienta Figura 1: Idea del perfil de documentos. y el grado de automatización. La fiabilidad se puede medir comprobando los trabajos rela- ra tarea ha sido determinar qué documentos cionados de estas herramientas y los resulta- concretos vamos a estudiar. En Internet exis- dos obtenidos de su evaluación. Sin embargo, ten muchos tipos de documentos, en nuestro no todas las herramientas disponen de eva- trabajo hemos querido limitar esta selección a luaciones publicadas. El grado de automati- los documentos que habitualmente se consul- zación se definirá dado el tipo de herramien- tan en Internet: noticias online, posts en re- ta que se trate, por ejemplo, una herramienta des sociales, reviews de productos o servicios, en formato Servicio Web tendrá un alto gra- blogs, Webs personales, documentos académi- do de automatización ya que es fácilmente cos, documentos cientı́ficos, manuales de ins- incorporable en un prototipo o aplicación. trucciones, tutoriales, extractos literarios, do- cumentos administrativos/técnicos. 4 Metodologı́a y experimentos Posteriormente, se especifica la informa- propuestos ción concreta (meta-datos) que queremos ob- El estado actual del trabajo de investigación tener de los documentos usando las TLH. Es- comprende la definición del modelo descri- ta selección contempla un amplio conjunto de to en la sección anterior y el estudio de he- información con el fin de representar adecua- rramientas TLH que se podrı́an incluir en damente al documento, y además, sea capaz nuestro trabajo. También se está preparando de aportar un valor añadido a los propósi- un conjunto de datos (dataset) usando do- tos de este trabajo. Por ejemplo, conocer la cumentos reales de cada tipo del esquema, complejidad de lectura o la formalidad escrita generando el perfil de cada uno siguiendo el de un documento ayuda a la identificación de Algoritmo 1. las personas más apropiadas para leer dicho En este algoritmo, primero se obtiene el documento. contenido textual a partir de la fuente del Se tiene en cuenta que no todos los meta- documento. De este contenido se genera un datos son adecuados para todos los docu- resumen en el caso de que sea un documento mentos propuestos. Para solventar esto se ha extenso. Este resumen servirá para aquellas creado el esquema de documentos mostra- herramientas TLH que requieren texto corto do en la Figura2. En este esquema en forma para un mejor funcionamiento. Al identificar de árbol aparecen los documentos propues- el tipo de documento de los definidos en el tos como hojas, y se establecen relaciones en- modelo, se obtendrán los meta-datos corres- ● Complejidad de ● Tópicos ● Id ● Meta-dato lectura ● Resumen ● Tipo Lectura ● Formalidad textual ● Región ● Contenido Documento ● Lenguaje ● Fuente Documento hoja ● Formalidad escrita ● Valoración Genérico ● Rango de edad ● Título ● Áreas de interés ● Fecha Documento conceptual ● Expresiones ● Palabras clave Lingüística temporales ● Entidades nombradas ● Características lingüísticas Documento Documento Subjetivo Descriptivo Author Administrativo / Análisis de ●Polaridad sentimental Document sentimientos ●Categorías emocionales Técnico Predicción ● Predicción edad ● Orientación ideológica datos usuario ● Predicción género Documento Noticia Documento Documento Generado por Periodística Usuario Conocimiento Literario Datos ● Tipo de noticia Datos prensa ● literarios ● Género literario Veracidad Review Web Documento Documento Post Social Producto / Blog Manual Tutorial Servicio Personal Académico Científico Figura 2: Esquema de documentos y distribución de los meta-datos. Algorithm 1 Generar Perfil Documento nuestra aproximación, con respecto a la inde- Require: url, url documento Web xación de documentos habitual. Otro escena- 1: c ← obtenerContenido(url ) rio serı́a la posible mejora de tareas del PLN 2: r ← generarResumen(c) como la clasificación de documentos, usando 3: t ← obtenerTipo(c) los meta-datos del perfil como caracterı́sticas 4: perfil ← newProfile(c, r, t) de entrada al sistema de clasificación. 5: listaMt ← obtenerMetadatos(type) 6: for each mt ∈ listaMt do 5 Elementos de investigación 7: tlh ← mt.obtenerTLH() especı́ficos propuestos para 8: valor ← tlh(c, r ) discusión 9: perfil.añadir(mt, valor ) Nuestra propuesta de investigación tiene cier- to carácter novedoso, por lo tanto, surgen al- gunas cuestiones sobre la definición del mo- pondientes al tipo. Cada meta-dato se calcula delo que se está haciendo, y las posibles eva- usando su herramienta TLH asociada, sobre luaciones y experimentos que se pretenden el contenido original del documento o sobre el realizar. Algunas de estas cuestiones podrı́an resumen, según requiera la herramienta. Una tratar los siguientes aspectos: vez calculado el valor del meta-dato se añade al perfil. Este algoritmo se implementará en Sobre la selección de documentos ¿Es un prototipo para generar automáticamente adecuado el criterio seguido? ¿Faltarı́an los perfiles y ser expuestos a evaluación o ex- o tendrı́an que descartarse ciertos docu- perimentaciones. mentos? Una posible evaluación del modelo consis- Sobre la selección de meta-datos ¿Re- te en la realización de una encuesta usando presenta adecuadamente a los documen- para ello algunos de los perfiles generados en tos? ¿Qué meta-datos son más útiles? el conjunto de datos y una serie de preguntas ¿Se puede mejorar la distribución de los para valorar los meta-datos obtenidos (por meta-datos en el esquema de documen- ejemplo, si son correctos estos valores, que tos presentado? información obtenida es más útil, etc.). Sobre la evaluación del modelo y los ex- La experimentación del trabajo se puede perimentos planteados ¿Son correctas las contemplar desde diversos escenarios. Un es- evaluaciones y experimentos que se pro- cenario podrı́a ser comparar la búsqueda de ponen? ¿Existen otros escenarios donde documentos con el apoyo de los perfiles de serı́a más interesante experimentar? Agradecimientos Engineering and Knowledge Management, Esta investigación está parcialmente financia- páginas 155–162. da por la Universidad de Alicante a través de Rangel, F. y P. Rosso. 2016. On the im- una beca del programa de Formación de Pro- pact of emotions on author profiling. In- fesorado Universitario (UAFPU2015-5999), formation Processing and Management, ası́ como la Generalitat Valenciana, el Minis- 52(1):73–92. terio de Educación, Cultura y Deporte, y las Ayudas Fundación BBVA a equipos de inves- Sapkota, U., S. Bethard, M. Montes-y tigación cientı́fica 2016, a través de los pro- Gómez, y T. Solorio. 2015. Not all cha- yectos: TIN2015-65100-R, TIN2015-65136- racter n-grams are created equal: A study C2-2-R, PROMETEOII/2014/001, GRE16- in authorship attribution. En Conferen- 01: “Plataforma inteligente para recupera- ce of the North American Chapter of the ción, análisis y representación de la informa- Association for Computational Linguistics ción generada por usuarios en Internet” y – Human Language Technologies (NAACL Análisis de Sentimientos Aplicado a la Pre- HLT 2015), páginas 93–102. vención del Suicidio en las Redes Sociales (ASAP). Bibliografı́a Bobadilla, J., F. Ortega, A. Hernando, y A. Gutiérrez. 2013. Recommender Sys- tems Survey. Knowledge-Based Systems, 46:109–132. Gómez Soriano, J. M. 2008. InTiMe: Pla- taforma de Integración de Recursos de PLN. Procesamiento del Lenguaje Natu- ral, 40:83–90. Guillén, A., E. Lloret, y Y. Gutiérrez. 2016. TLH Suite: herramienta para la anotación semántica de información. RISTI - Re- vista Iberica de Sistemas e Tecnologias de Informação, 2016(18):99–113. Gulla, J. A., A. D. Fidjestøl, X. Su, y H. Cas- tejon. 2014. Implicit User Profiling in News Recommender Systems. Internatio- nal Conference on Web Information Sys- tems and Technologies, páginas 185–192. Kshirsagar, A. A. y P. A. Deshkar. 2015. Review analyzer analysis of product re- views on weka classifiers. En Interna- tional Conference on Innovations in In- formation, Embedded and Communication Systems (ICIIECS 2015), páginas 1–5. Li, Q., J. Wang, Y. P. Chen, y Z. Lin. 2010. User comments for news recommendation in forum-based social media. Information Sciences, 180(24):4929–4939. Lloret, E., Y. Gutiérrez, y J. Gómez. 2015. Developing an ontology to capture docu- ments’ semantics. En IC3K 2015 - Procee- dings of the 7th International Joint Confe- rence on Knowledge Discovery, Knowledge