PLN aplicado a internet; en busca de la subjetividad y valoración automática de los textos NLP techniques & the Internet: Searching for opinions and automatic sentiments analysis Jorge García Betanzos Sarenet S.A. Parque Tecnológico de Zamudio, edificio 103 jorge.garcia@sarenet.es Resumen: Las redes sociales han cambiado por completo las técnicas de análisis y rastreo de información en Internet. El análisis automático de los textos tratando de conseguir la opinión y la valoración de los mismos es el objetivo a futuro de muchas empresas. Palabras clave: Sentimiento, automático, internet, subjetividad, polaridad, PLN,... Abstract: The rise of social media networks has entirely transformed the searching and analysis techniques used until today. Many companies aim at analyzing the opinions found on the Internet therefore shaping the future of Sentiment Analysis Tools. Keywords: Sentiment, automatic, internet, subjectivity, polarity, NLP,… servicio concreto e incluso un producto. Estas 1 Esquemas pasados, esquemas opiniones son vitales para una empresa. Pueden presentes marcar líneas a seguir en la preventa, producción y atención sobre un producto o servicio. También pueden indicar fallos en las Tradicionalmente, en los medios de políticas de comunicación o de producción de comunicación escritos, la opinión descubierta y una compañía. Por tanto, tienen que conocer mostrada sin tapujos siempre se ha ubicado en estas opiniones, escucharlas y valorarlas. unas pocas páginas, las de opinión. Dichas opiniones y editoriales siempre se veían condicionadas por la línea política de cada uno de los medios y estaban (y siguen estando) muy focalizadas en aspectos plenamente políticos. Ahora, el papel focalizador de todas esas opiniones está en las redes sociales, en los blogs y en los foros. Se ha ganado en diversidad de formatos y con ello se han incrementado las dificultades técnicas para procesar una ingente cantidad de información. Otro gran cambio ha venido dado por la importancia que ahora tiene la marca, el producto o el servicio dentro de estos medios. Mientras que las opiniones de los medios tradicionales versan sobre aspectos más puramente políticos, en las redes sociales la marca es importante, en muchas ocasiones, es la clave. Se focaliza sobre una empresa, un Hasta ahora, en Iconoce, nos hemos 1. Combinar un análisis automatizado lo más centrado en sacar lo que nos demandaban los preciso posible con una necesidad de rapidez de clientes, la localización de información de ejecución. La empresa necesita ser rápida, ágil actualidad. Si alguien quería obtener la opinión, y tenerlo antes que la competencia para poder lo teníamos fácil puesto que ya teníamos tomar decisiones. Cuanto más se aproximen los segmentada la información en las secciones resultados al tiempo real, mejor. Y para ello, clásicas de los periódicos. Hoy en día, todo es cuanto más automático sea el sistema mejor. mucho más heterogéneo, la información está mucho más dispersa y el volumen de datos a 2. Afrontar el análisis de los nuevos métodos tratar es infinitamente superior. de escritura. "dnde kdamos?", "ste tfno s 1mierDDDa". Ninguna máquina lo puede Asimismo, es imperiosa la necesidad de ir entender, por ahora… un par de pasos más allá, diferenciarse de la Las opciones de escribir mal son más competencia y desgranar los resultados amplias que las de escribir bien. Y sin embargo obtenidos. Esto pasa por valorar cualquier persona entiende esto: automáticamente los resultados, sacar el sentido y la subjetividad de los textos. Sgeun etsduios raleziaods por una Para conseguir alcanzar este objetivo la Uivenrsdiad Ignlsea,no ipmotra el odren aplicación de técnicas de Procesamiento del en el que las ltears etsen ecsritas,la uicna Lenguaje Natural nos parecen claves. Los csoa ipormtnate es que la pmrirea y la objetivos están claros y se podrían desglosar en utlima ltera esetn ecsritas en la psiocion tres apartados: cocrreta. El retso peuden etsar ttaolmntee mal y - Obtener automáticamente las opiniones y aun pordas lerelo sin pobrleams, pquore su polaridad positiva, negativa o neutra no lemeos cada ltera en si msima snio - Obtener una relación de conceptos cdaa paalbra en un contxetso. vinculados a una marca, producto o servicio - Obtener una relación de protagonistas vinculados a una marca, producto o servicio Además, cuando tratamos de analizar el sentimiento o polaridad de las opiniones sobre una marca, producto o servicio también tenemos que ir un poco más allá de la individualidad. Una opinión aislada vale lo que vale y deber ser analizada en función del interlocutor que la señale. Pero lo realmente importante, lo que buscan y nos solicitan las empresas es poder establecer tendencias, gráficas a corto, medio y largo plazo, opiniones vinculadas a entidades o conceptos. 3 Estructuras cambiantes No solo nos encontramos con los problemas 2 Combinar rapidez y eficacia antes mencionados. La situación de la web actual permite múltiples posibilidades de Las soluciones de extracción automática de interacción. No vale con sacar “me gusta este opinión, conceptos y entidades se pueden producto”, ahora también hay que localizar si diseñar tan complejas como queramos: alguien tiene el icono del “me gusta” de algoritmos, métodos de ponderación, búsquedas Facebook. El abanico de posibilidades ya no es cruzadas de diccionarios, etc. Dicha tan reglado como lo era hasta hace un par de complejidad, ya de por si inherente a estos años. sistemas, se enfrenta adicionalmente a dos problemas a la hora de aplicarlos en Internet: Siendo sinceros no podemos abarcar previamente todas las opciones disponibles de estructuración de páginas web porque, además de ser infinitas, son cambiantes. Asimismo, lo Pueda analizar textos, imágenes, audios y que hoy es fundamental conocer (Tweets) vídeos. mañana puede que haya caído en el olvido - Que sea rápido. (¿MySpace?). Por tanto se hace importante - Que se amolde a las nuevas formas de establecer un método de trabajo diferente, en el escritura. que se deje el modelo muy abierto para tratar - Que entienda la ironía ;-) todos los casos particulares y tratar de aplicarlos a casuísticas generales. Por ejemplo, los grandes crawlers de internet siempre hemos absorbido toda la información para nuestras bases de datos adquiriendo y tratando el código fuente original de las páginas a las que lanzábamos nuestros spiders. Pero ahora, cada vez es más común que ciertos aspectos de gran interés, como pueden ser los comentarios de las noticias, se saquen mediante AJAX y no estén directamente publicados en el código fuente de la página web. Hay que hacer procesos especiales para tratar de obtener estos contenidos. Adicionalmente, hoy en día, el mayor reto reside no solo en sacar la información vinculada a resultados textuales, también debemos ser capaces de aplicar dichos sistemas de PLN al reconocimiento automático de imágenes, audio y vídeo. 4 Carta a los Reyes Magos. Buscando el sistema ideal Actualmente en Sarenet estamos trabajando en desarrollar un sistema que: - Recoja todas las apariciones de una determinada marca, servicio o producto filtrando los "ruidos", las apariciones no deseadas. - Clasifique automáticamente la aparición con los conceptos a los que está vinculado. - Clasifique automáticamente la aparición con los protagonistas (personas y entidades) a los que está vinculado. - Marque automáticamente la polaridad positiva, negativa o neutra de dicha aparición y el porqué de esa clasificación. - Sea adaptable a cualquier marca, producto o servicio. No podemos establecer unos diccionarios vinculados a un sector, debemos ser capaces de adaptarnos a todos y acaparar automáticamente su jerga particular. - Sea adaptable a los diferentes idiomas que queramos abarcar, catalán, gallego, valenciano y euskera.