-

1613-0073

Evaluacion de Modelos de Representacion del Texto con Vectores de Dimension Reducida para Analisis de Sentimiento

Edgar Casasola Murillo

edgar.casasola@ucr.ac.cr 0 1 0 Gabriela Mar n Raventos Universidad de Costa Rica San Jose , Costa Rica 1 Universidad de Costa Rica San Jose , Costa Rica

23 28

The Sentiment Analisys System developed by GAS-UCR team of the University of Costa Rica for task 1 of TASS 2016 workshop is presented. Preliminar evaluation results of the proposed Sentiment Analysis System are presented. The system is based on low dimension feature vectors for text representation. The proposed model is based on text normalization with emphasis mark identi cation, the use of local and global language models, and other features like emoticons an negation terms. Initial experimentation shows that the introduction of the selected features have a positive impact on precision at the polarity classi cation task.

Este trabajo tiene como proposito describir el sistema utilizado por el grupo de investigacion en analisis de sentimiento de la Universidad de Costa Rica en su participacion en el taller TASS2016 (Garc a-Cumbreras et al., 2016) . El enfoque del trabajo del grupo ha sido el estudio de los factores que van incidiendo en las mejoras en la precision obtenida al llevar a cabo la clasi cacion de la polaridad de tweets en idioma espan~ol. Nuestro sistema se fundamenta en tres elementos basicos que son: la normalizacion del texto en la etapa de preprocesamiento identi cando los poten

Este trabajo se ha llevado a cabo gracias al apoyo economico de la Universidad de Costa Rica y el Gobierno de la Republica de Costa Rica a traves del MICITT. Se agradece a los asistentes del grupo de investigacion GAS-UCR por su trabajo ciales marcadores de enfasis presentes en el mismo, la creacion de vectores de caracter sticas de dimension reducida para disminuir el efecto de la dispersion de los datos, y la exploracion del impacto del uso de diccionarios de polaridad que se generan mediante la utilizacion de diferentes modelos de representacion del lenguaje asociados tanto al contexto local como global de los datos. Para esto estamos utilizando una adaptacion propia del algoritmo de Turney (Turney, 2002) sobre un corpus de 5 millones de tweets en espan~ol. Estos modelos se almacenan en forma de diccionarios con polaridad para su posterior reutilizacion. Nos interesa particularmente la investigacion en este campo dado que si bien desde el an~o 2013 se identi co una brecha importante entre la cantidad de investigacion y tecnolog a del lenguaje desarrollada para el idioma ingles y el espan~ol (Cambria et al., 2013) (Melero et al., 2012) , de la misma forma debemos tener presente que no necesariamente las soluciones para espan~ol peninsular van a tener los mismos resultados al aplicarse a variantes de espan~ol americano, por lo que los recursos y metodos que utilizamos tienen la intension de aportar a la investigacion en espan~ol y colaborar para su posterior aplicacion en otros contextos de habla hispana. 2

Antecedentes

Entre los resultados obtenidos con sistemas con enfoques basados en aprendizaje maquina, el uso de maquina de soporte vectorial (MSV) ha ofrecido buenos resultados tanto en ingles (Kiritchenko, Zhu, y Mohammad, 2014) y (Batista y Ribeiro, 2013) como en espan~ol donde 9 de los 14 sistemas para el espan~ol presentados en TASS2015 ( VillenaRoman et al., 2015 ) hac an uso de este tipo de clasi cador. Sin embargo, la dependencia del lenguaje hace que estos clasi cadores dependan de los vectores de caracter sticas con los que son representados los comentarios de texto. Esta extraccion de caracter sticas ha sido el foco de atencion de multiples trabajos como (Cabanlit y Junshean Espinosa, 2014) , (Feldman, 2013) , (Guo y Wan, 2012) , (Sharma y Dey, 2012) y (Wang et al., 2011) . En trabajos recientes de analisis de sentimiento en espan~ol tales como el trabajo de (Mart nez-Camara et al., 2015) se utilizan varios diccionarios de polaridad y se representan utilizando un modelo de espacio vectorial MEV. El diccionario en s se convierte en un modelo de lenguaje que sirve como recurso para lograr representaciones e cientes de los vectores utilizados para la clasi cacion.

En los ultimos an~os la representacion vectorial basada en modelos de lenguaje como unigramas y bigramas se movio hacia representaciones de caracter sticas ya que la cantidad de terminos introduce un problema asociado a su alta dispersion en el vector (Cambria et al., 2013). Si los vectores contienen un alto numero de atributos diferentes, uno por termino, los conjuntos de datos para entrenamiento deben contener una mayor cantidad de textos anotados que atributos para un buen entrenamiento de los clasi cadores. Es por esto que los modelos de representacion del lenguaje basados en unigramas, bigramas o bien skipgramas requiren de una representacion vectorial e ciente. Trabajos recientes buscan la representacion vectorial de las palabras en el espacio continuo como es el caso del uso de Word2Vect (D az-Galiano y MontejoRaez, 2015) . 3

Descripcion del sistema

Nuestro sistema se fundamenta en cuatro elementos que consideramos importantes de mencionar. Primero nos referiremos a la forma en que construimos nuestro diccionario con la polaridad de los terminos y las razones para haber construido uno propio. Posteriormente nos referimos a nuestro proceso de preprocesamiento e identi cacion de potenciales marcadores de enfasis durante esta etapa inicial. En la siguiente subseccion explicamos la forma en que construimos vectores de baja dimension con informacion y hacemos uso del diccionario. Finalmente se menciona la forma en que se pretende capturar en los vectores de caracter sticas aspectos locales con respecto a los datos de entrenamiento, y globales, a partir de modelos de representacion del lenguaje general. 3.1

Creacion del diccionario polarizado

Decidimos desarrollar diccionarios de polaridad propios, en lugar de utilizar los existentes, ya que consideramos que desde el punto de vista del procesamiento de lenguaje natural tradicional (Indurkhya y Damerau, 2010) estos diccionarios con polaridad pueden ser vistos cada uno, como un modelo de lenguaje particular. Por este motivo tratamos de desarrollar y evaluar una adaptacion del tradicional metodo de generacion de estos recursos lingu sticos de (Turney, 2002) . La decision anterior no se debio a la no existencia de diccionarios polarizados ya que claramente en trabajos como (Mart nez-Camara et al., 2015) se hace uso de varios de ellos, sino con el n de incorporar la etapa de creacion de diccionario dentro de la metodolog a de trabajo para que posteriores investigaciones en otros pa ses de habla hispana puedan replicar el trabajo y disminuir la barrera inicial asociada a la falta de recursos lingu sticos propios y el efecto del uso del diccionario polarizado sobre la calidad de los resultados de clasi cacion.

El diccionario de polaridad creado utiliza un corpus recolectado durante el an~o 2013, con 5 millones de tweets en espan~ol. La variante con respecto al algoritmo propuesto por Turney (Turney, 2002) es la siguiente. Para el calculo de la orientacion semantica de un termino, tal y como lo de ne Turney en su art culo original, se utilizaron grupos de palabras semilla en lugar de un solo termino, y en lugar de utilizar consultas a motores de busqueda para obtener la cantidad de textos donde aparecen las palabras analizadas cerca de las palabras positivas o negativas se utilizo el motor de busqueda implementado con el software libre Solr http://lucene.apache.org/solr/. Con el motor se indexaron los 5 millones de tweets por lo que las consultas se ejecutaron en forma local. Este metodo cuenta con la ventaja de que se puede calcular entonces la orientacion semantica de un termino directamente o bien almacenarlo en un diccionario. En nuestro caso precalculamos la polaridad y la almacenamos en forma de diccionario. Por el momento solo se han llevado a cabo los calculos para terminos individuales. 3.2

Normalizador de texto con marcadores de enfasis

Luego de un proceso de analisis de las caracter sticas presentes en el texto desarrollamos un sistema para normalizacion del texto. Para este preprocesamiento se segmentan los terminos potenciales, signos de puntuacion y emoticones. Se lleva a cabo un marcado y conversion de los terminos. El proceso que seguimos hace una eliminacion de los terminos que son identi cados en el diccionario. Este proceso se muestra en la gura 1.

Las repeticiones de letras, repeticiones de s labas y mayusculas son identi cadas y eliminadas pero estos terminos se marcan como potenciales identi cadores de enfasis. Ejemplos son: EXCELENTE, graciassss, buenis simo. En esta fase se identi can los tweets que contienen palabras positivas con enfasis para su posterior uso. 3.3

Representacion vectorial de baja dimension

Dos caracter sticas representadas en los vectores tienen que ver con la presencia y polaridad de los emoticones y con la presencia de part culas de negacion. Ademas, al desarrollar esta investigacion se pudo observar que los terminos positivos con marcadores de enfasis son un potencial identi cador de la polaridad positiva de los textos que los contienen, por lo tanto esta caracter sti

Figura 1: Proceso de normalizacion del texto ca tambien fue incorporada. La presencia de marcadores de enfasis tales como repeticion de caracteres, de s labas, o mayusculas sobre terminos que aparecen como negativos en algun contexto son registrados como una caracter stica importante en el vector.

Los vectores generados utilizan la polaridad de los terminos para determinar la posicion en el vector de caracter sticas creado. Cabe dejar claro que dependiendo del modelo de datos los terminos pueden ser unigramas, bigramas o skipgramas. En el caso de los unigramas, por ejemplo, si se construye un vector con la frecuencia de los terminos segun su polaridad con valores de polaridad desde -1.0 hasta 1.0, el vector que se obtiene ser a como el que se muestra en la gura 2. En este vector por ejemplo se muestran dos terminos con polaridad, segun diccionario, entre el -0.8 y -0.9, un termino con polaridad entre 0.1 y 0.2, y otro con polaridad mayor a 0.9. En este caso, en nuestro diccionario, la polaridad se representa con valores distribuidos desde lo mas negativo hasta lo positivo con valores entre -1.0 y 0 para los negativos y 0 a 1.0 para los positivos.

Para el taller TASS2016 quisimos evaluar inicialmente el uso de vectores con la menor dimension posible, as que en lugar de vectores de 20 celdas utilizamos solo vectores de 5 celdas para cada grupo de caracter sticas, en lugar de saltos de 0.1 el rango utilizado es de Figura 2: Vector de caracter sticas 0.5. 3.4

Modelos locales y globales de representacion del lenguaje

Nuestra propuesta pretende representar en los vectores de caracter sticas informacion propia obtenida durante el proceso de entrenamiento, al igual que datos que representen informacion obtenida de modelos de lenguaje del espan~ol en general. En nuestro caso se utilizo inicialmente el diccionario generado a partir del corpus recolectado como insumo para obtener de el la informacion general del espan~ol. En el momento de entrenamiento, la polaridad de los terminos en cada tweet son conocidos para ese conjunto de datos. La informacion global es la que se ha calculado previamente y se encuentra almacenada en forma de diccionarios. En nuestra propuesta lo que queremos hacer es representar en el vector las frecuencias de los terminos de cada tweet distribuidos segun su polaridad pero utilizar diferentes modelos de representacion de lenguaje para llevar a cabo este calculo. El diccionario utilizado en estos experimentos fue nuestra version con unigramas. Se pretende utilizar representaciones con bigramas y una version de skipgramas que incluye solo los terminos anteriores a la palabra que se desea representar. Durante el entrenamiento, la polaridad obtenida en forma local es almacenada al igual que las frecuencias tomadas de diccionarios de polaridad global. Por lo tanto, los vectores cuentan con entradas para las distribuciones de polaridad local y las distribuciones de polaridad global. Aqu es donde incorporamos los diferentes modelos de lenguaje. Inicialmente trabajamos con unigramas para obtener resultados base para posteriores experimentos. Posteriormente, se genera un diccionario para bigramas y otro para lo que de nimos como skip-gramas previos. Por el momento estas variantes no fueron enviadas como experimentos a TASS2016 sino solo las versiones iniciales. 4

Metodolog a

Utilizando el diccionario, el normalizador y el modelo de representacion vectorial se procedio a crear vectores de respresentacion con diferentes con guraciones. Primeramente se construyo una version con vectores de dimension 20 distribuyendo la polaridad de los terminos segun la polaridad almacenada para unigramas en el diccionario local. En este caso se pretende evaluar solamente el uso del diccionario y los marcadores de enfasis como repeticiones y mayusculas. Este primer experimento es el denominado GASUCR-01. El segundo experimento consistio en evaluar un modelo un poco mas robusto a nivel local con bigramas y la polaridad para el unigrama en el diccionario, si el bigrama no esta presente durante el proceso de evaluacion. En este caso se crearon vectores de menor dimension para los datos locales, con solo cinco campos. Esta ejecucion se idendi co como experimento GASUCR-01-noEMO-noPartNeg. Esta es la implementacion base para luego evaluar el uso de bigramas tomados del contexto global. Esta version base tambien fue enviada a la tarea de 4 categor as. En este caso, lo que se hizo fue unir las categor as +P y P en una sola, y la categor a +N con la N. El tercer experimento agregaba al anterior el uso de los emoticones, aparicion de terminos positivos con enfasis y las part culas negativas. En los resultados esta version se identi co como GASUCR-04 En esta version de TASS no nos dio tiempo de ejecutar las versiones con bigramas globales, ni skipgramas. 5

Resultados

Los resultados o ciales obtenidos para las ejecuciones antes mencionadas son los que se muestran en las Tablas 1 y 2. En estas guras la columna Ac. muestra la exactitud, P se re ere a la Macro Precision, R al Macro Exhaustividad y F1 al Macro F1. En los resultados generales de TASS los resultados del grupo aparecen con el id indicado bajo el nombre del grupo GASUCR. En nuestro caso con el experimento 01 obtenemos los casos base para el uso de unigramas globales con vectores de dimension 20 y los bigramas locales con dimension 5. Es importante observar que los bigramas locales con dimension 5 y las caracter sticas de enfasis positivo, part culas de negacion y emoticones producen un leve incremento pasando de 0.32 a 0.41. Otro aspecto que rescatamos es el aumento de la exactitud al pasar a la tarea de 3 categor as.

Tabla 1: Resultados Tarea 1 con 5 levels y corpus completo) id Ac. P R F1 01 0.342 0.217 0.237 0.227 01-noEmNeg 0.326 0.334 0.258 0.291 04 0.410 0.268 0.242 0.254 Tabla 2: Resultados Tarea 1 con 3 niveles y corpus completo id Ac. P R F1 01-noEmNeg 0.373 0.212 0.303 0.250

Estos casos se fueron seleccionando para ir evaluando en forma incremental cada uno de los aspectos relacionados a nuestra propuesta. Con cada caracter stica nueva se trata de determinar su impacto sobre los valores de exactitud, precision y exhaustividad. 6

Conclusiones y trabajo futuro

El marco de evaluacion de TASS es provechoso para los grupos que inician la investigacion en analisis de sentimiento en espan~ol con el n de extenderla a otras latitudes. En nuestro caso pudimos evaluar y comparar la calidad de los resultados de los primeros casos base de nuestro trabajo. Observamos los primeros resultados con un sistema que utiliza un metodo de normalizacion con identi cacion de potenciales marcadores de enfasis, un modelo de representacion basado en vectores de baja dimension, y modelos de representacion del texto con caracter sticas locales y globales. El trabajo ademas hace uso de caracter sticas comunes con otros como los son el uso de emoticones y part culas negativas. Como trabajo futuro tenemos pendiente la evaluacion usando 3 categor as de los datos que hacen uso de contexto local con bigramas y caracter sticas adicionales como uso de emoticones, palabras positivas con enfasis, y part culas de negacion. Esperamos que los mejores resultados sean obtenidos al incorporar los nuevos modelos de lenguaje que estamos calculando para bigramas y skipgramas previos al unirlo con nuestro metodo de representacion en vectores de baja dimension. Se desea estudiar el efecto de la reduccion del taman~o del vector al igual que tecnicas de extrapolacion de la polaridad en los modelos para los terminos que no aparecen en los datos de entrenamiento.

Bibliograf a

Batista, F. y R. Ribeiro. 2013. Sentiment analysis and topic classi cation based on binary maximum entropy classi ers. Procesamiento de Lenguaje Natural, 50:77{ 84.

Cabanlit, M. A. y K. Junshean Espinosa. 2014. Optimizing n-gram based text feature selection in sentiment analysis for commercial products in twitter through polarity lexicons. En Information, Intelligence, Systems and Applications, IISA 2014, The 5th International Conference on, paginas 94{97. IEEE.

Cambria, E., B. Schuller, Y. Xia, y C. Havasi. 2013. New avenues in opinion mining and sentiment analysis. Intelligent Systems, IEEE, PP(99):1{1. tass 2016. En Proceedings of TASS 2016: Workshop on Sentiment Analysis at SEPLN co-located with the 32nd SEPLN Conference (SEPLN 2016), Salamanca, Spain, September.

Guo, L. y X. Wan. 2012. Exploiting syntactic and semantic relationships between terms for opinion retrieval. Journal of the american society for information science and technology, 63(11):2269{2282, Noviembre. sis in twitter: a graph-based hashtag sentiment classi cation approach. En Proceedings of the 20th ACM international conference on Information and knowledge management, paginas 1031{1040. ACM.

D az-

Galiano , M. y A . Montejo-Raez . 2015 . Participacion de sinai dw2vec en tass 2015 . En Proceedings del Taller TASS 2015 en Analisis de Sentimiento de la XXXI Conferencia SEPLN 2015 , paginas 59 { 64 .

Feldman , R.

2013 . Techniques and applications for sentiment analysis . Commun. ACM , 56 ( 4 ): 82 { 89 , Abril .

Garc a-Cumbreras, M. ,

Villena-Roman , E. Mart nez Camara, M. C. D azGaliano , M. T. Mart n Valdivia, y L. A. Uren~a Lopez . 2016 . Overview of Indurkhya, N. y

F. J.

Damerau . 2010 . Handbook of natural language processing, volumen 2 . CRC Press.

Kiritchenko , S. , X. Zhu, y

S. M.

Mohammad . 2014 . Sentiment analysis of short informal texts . Journal of Arti cial Intelligence Research , paginas 723 { 762 .

Mart nez-Camara, E. ,

M. A.

Garc aCumbreras , M. T. Mart n-Valdivia, y L. A. Uren~a-L'opez . 2015 . Sinai-emma: Vectores de palabras para el analisis de opiniones en twitter . En Proceedings del Taller TASS 2015 en Analisis de Sentimiento de la XXXI Conferencia SEPLN 2015 , paginas 41 { 46 .

Melero , M. , A.-B. Cardus , A.

Moreno , G. Rehm, K. de Smedt, y H.

Uszkoreit . 2012 . The Spanish language in the digital age . Springer.

Sharma , A. y S.

Dey . 2012 . A comparative study of feature selection and machine learning techniques for sentiment analysis . En Proceedings of the 2012 ACM Research in Applied Computation Symposium, paginas 1{7 . ACM.

Turney , P. D.

2002 . Thumbs up or thumbs down?: semantic orientation applied to unsupervised classi cation of reviews. En Proceedings of the 40th annual meeting on association for computational linguistics , paginas 417 { 424 . Association for Computational Linguistics .

Villena-Roman , J. , J. Garc a Morera ,

M. A.

Garc a-Cumbreras,

E. M.

Camara , M. T. M. Valdivia, y

L. A. U.

Lopez . 2015 . Overview of tass 2015 . En Proceedings del Taller TASS 2015 en Analisis de Sentimiento de la XXXI Conferencia SEPLN 2015 , paginas 13 { 21 .

Wang , X. ,

Wei ,

Liu , M. Zhou, y

Zhang . 2011 . Topic sentiment analy-