-

1613-0073

Participacion de SINAI en TASS 2016

A. Montejo-Raez

amontejo@ujaen.es 0

M.C. D az-Galiano

mcdiaz@ujaen.es 1 0 University of Jaen , 23071 Jaen , Spain 1 University of Jaen , 23071 Jaen , Spain

2016

41 45

This paper introduces the polarity classi cation system used by the SINAI team for the task 1 at the TASS 2016 workshop. Our approach is based on a supervised learning algorithm over vectors resulting from a weighted vector. This vector is computed using a deep-learning algorithm called Word2Vec. The algorithm is applied so as to generate a word vector from a deep neural net trained over a speci c tweets collection and the Spanish Wikipedia. Our experiments show massive data from Twitter can lead to a slight improvement in classi caciones accuracy.

En este trabajo describimos las aportaciones realizadas para participar en la tarea 1 del taller TASS (Sentiment Analysis at global level), en su edicion de 2016 (Garc a-Cumbreras et al., 2016) . Nuestra solucion continua con las tecnicas aplicadas en el TASS 2014 (Montejo-Raez, Garc aCumbreras, y D az-Galiano, 2014) y 2015 (D az-Galiano y Montejo-Raez, 2015) , utilizando aprendizaje profundo para representar el texto y una coleccion de entrenamiento creada con tweets que contienen emoticonos que expresan emociones de felicidad o tristeza. Para ello utilizamos el metodo Word2Vec, ya que ha obtenido los mejores resultados en an~os anteriores. Por lo tanto, generamos un vector de pesos para cada palabra del tweet utilizando Word2Vec, y realizamos la media de dichos vectores para obtener una unica representacion vectorial. Nuestros resultados demuestran que el rendimiento del sistema de clasi cacion puede verse sensiblemente mejorado gracias a la introduccion de estos datos en la generacion del modelo de palabras, no as en el entrenamiento del clasi cador de polaridad nal.

La tarea del TASS en 2016 denominada Sentiment Analysis at global level consiste en el desarrollo y evaluacion de sistemas que determinan la polaridad global de cada tweet del corpus general. Los sistemas presentados deben predecir la polaridad de cada tweet utilizando 6 o 4 etiquetas de clase (granularidad na y gruesa respectivamente).

El resto del art culo esta organizado de la siguiente forma. El apartado 2 describe el estado del arte de los sistemas de clasi cacion de polaridad en espan~ol. A continuacion, se describe la coleccion de tweets con emoticonos utilizada para entrenar el clasi cador. En el apartado 4 se describe el sistema desarrollado y en el apartado 5 los experimentos realizados, los resultados obtenidos y el analisis de los mismos. Finalmente, en el ultimo apartado exponemos las conclusiones y el trabajo futuro. 2

Clasi cacion de la polaridad en espan~ol

La mayor parte de los sistemas de clasi cacion de polaridad estan centrados en textos en ingles, y para textos en espan~ol el sistema mas completo, en cuanto a tecnicas lingu sticas aplicadas, posiblemente sea The Spanish SO Calculator (Brooke, To loski, y Taboada, 2009) , que ademas de resolver la polaridad de los componentes clasicos (adjetivos, sustantivos, verbos y adverbios) trabaja con modi cadores como la deteccion de negacion o los intensi cadores.

Los algoritmos de aprendizaje profundo (deep-learning en ingles) estan dando buenos resultados en tareas donde el estado del arte parec a haberse estancado (Bengio, 2009) . Estas tecnicas tambien son de aplicacion en el procesamiento del lenguaje natural (Collobert y Weston, 2008) , e incluso ya existen sistemas orientados al analisis de sentimientos, como el de Socher et al. (Socher et al., 2011) . Los algoritmos de aprendizaje automatico no son nuevos, pero s estan resurgiendo gracias a una mejora de las tecnicas y la disposicion de grandes volumenes de datos necesarios para su entrenamiento efectivo.

En la edicion de TASS en 2012 el equipo que obtuvo mejores resultados (Saralegi Urizar y San Vicente Roncal, 2012) presentaron un sistema completo de pre-procesamiento de los tweets y aplicaron un lexicon derivado del ingles para polarizar los tweets. Sus resultados eran robustos en granularidad na (65 % de accuracy) y gruesa (71 % de accuracy).

En la edicion de TASS en 2013 el mejor equipo (Fernandez et al., 2013) tuvo todos sus experimentos en el top 10 de los resultados, y la combinacion de ellos alcanzo la primera posicion. Presentaron un sistema con dos variantes: una version modi cada del algoritmo de ranking (RA-SR) utilizando bigramas, y una nueva propuesta basada en skipgrams. Con estas dos variantes crearon lexicones sobre sentimientos, y los utilizaron junto con aprendizaje automatico (SVM) para detectar la polaridad de los tweets.

En 2014 el equipo con mejores resultados en TASS se denominaba ELiRF-UPV (Hurtado y Pla, 2014) . Abordaron la tarea como un problema de clasi cacion, utilizando SVM. Utilizaron una estrategia uno-contratodos donde entrenan un sistema binario para cada polaridad. Los tweets fueron tokeninizados para utilizar las palabras o los lemas como caracter sticas y el valor de cada caracter stica era su coe ciente tf-idf. Posteriormente realizaron una validacion cruzada para determinar el mejor conjunto de caracter sticas y parametros a utilizar.

El equipo ELiRF-UPV (Hurtado, Pla, y Buscaldi, 2015) volvio a obtener los mejores resultados en la edicion de TASS 2015 con una tecnica muy similar a la edicion anterior (SVM, tokenizacion, clasi cadores binarios y coe cientes tf-idf). En este caso utilizaron un sistema de votacion simple entre un mayor numero de clasi cadores con parametros distintos. Los mejores resultados los obtuvieron con un sistema que combinaba 192 sistemas SVM con con guraciones diferentes, utilizando un nuevo sistema SVM para realizar dicha combinacion. 3

Coleccion de tweets con emoticonos

Los algoritmos de deep-learning necesitan grandes volumenes de datos para su entrenamiento. Por ese motivo se ha creado una coleccion de tweets espec ca para la deteccion de polaridad. Para crear dicha coleccion se han recuperado tweets con las siguientes caracter sticas:

Que contengan emoticonos que expresen la polaridad del tweet. En este caso se han utilizado los siguientes emoticonos: Positivos: :) :-) :D :-D

Negativos: :( :-(

Que los tweets no contengan URLs, para evitar tweets cuyo contenido principal se encuentra en el enlace.

Que no sean retweets, para reducir el numero de tweets repetidos.

La captura de dichos tweets se realizo durante 22 d as, del 18/07/2016 hasta el 9/08/2016, recuperando unos 100.000 tweets diarios aproximadamente. Tal y como se ve en la Figura 1 la recuperacion fue muy homogenea y se obtuvieron mas de 2.000.000 de tweets. Figura 1: Numero de tweets recuperados cada 12 horas

Posteriormente, se realizo un ltrado de dichos tweets eliminando aquellos que contubieran menos de 5 palabras, teniendo en cuenta que consideramos palabra todo termino que solo contenga letras (sin numeros, ni caracteres especiales).

Al nal quedaron 1.777.279 clasi cados segun el emoticono que contienen de la siguiente manera:

Positivos: 869.339 tweets Negativos: 907.940 tweets Por ultimo, se realiza la siguiente limpieza de tweets: Convertir el texto a minusculas.

Sustituir letras acentuadas por sus versiones sin acentuar.

Quitar las palabras vac as de contenido (stopwords).

Normalizar las palabras para que no contengan letras repetidas, sustituyendo las repeticiones de letras contiguas para dejar solo 3 repeticiones. 4

Descripcion del sistema

Word2Vec1 es una implementacion de la arquitectura de representacion de las palabras mediante vectores en el espacio continuo, basada en bolsas de palabras o n-gramas concebida por Tomas Mikolov et al. (Mikolov et al., 2013) . Su capacidad para capturar la semantica de las palabras queda comprobada en su aplicabilidad a problemas como la analog a entre terminos o el agrupamiento de palabras. El metodo consiste en proyectar las palabras a un espacio n-dimensional, cuyos pesos se determinan a partir de una estructura de red neuronal mediante un algoritmo recurrente. El modelo se puede con gurar para que utilice una topolog a de bolsa de palabras (CBOW) o skip-gram, muy similar al anterior, pero en la que se intenta predecir los terminos acompan~antes a partir de un termino dado. Con estas topolog as, si disponemos de un volumen de textos su ciente, esta representacion puede llegar a capturar la semantica de cada palabra. El numero de dimensiones (longitud de los vectores de cada palabra) puede elegirse libremente. Para el calculo del modelo Word2Vec hemos recurrido al software indicado, creado por los propios autores del metodo.

Tal y como se ha indicado, para obtener los vectores Word2Vec representativos para cada palabra tenemos que generar un modelo a partir de un volumen de texto grande. Para ello hemos utilizado los parametros que mejores resultados obtuvieron en nuestra participacion del 2014 (Montejo-Raez, Garc aCumbreras, y D az-Galiano, 2014) . Por lo tanto, a partir de un volcado de Wikipedia2 en Espan~ol de los art culos en XML, hemos extra do el texto de los mismos. Obtenemos as unos 2,2 GB de texto plano que alimenta al programa word2vec con los parametros siguientes: una ventana de 5 terminos, el modelo skip-gram y un numero de dimensiones esperado de 300, logrando un modelo con mas de 1,2 millones de palabras en su vocabulario.

Como puede verse en la Figura 2, nuestro sistema realiza la clasi cacion de los tweets utilizando dos fases de aprendizaje, una en la que entrenamos el modelo Word2Vec haciendo uso de un volcado de la enciclopedia on-line Wikipedia, en su version en espan~ol, como hemos indicado anteriormente. De esta forma representamos cada tweet con el vector resultado de calcular la media de los vectores Word2Vec de cada palabra en el tweet y su desviacion t pica (por lo que cada vector de palabras por modelo es de 600 dimensiones). Se lleva a cabo una simple normalizacion previa sobre el tweet, eliminando repeticion de letras y poniendo todo a minusculas. La segunda fase de entrenamiento utiliza el algoritmo SVM y se entrena con la coleccion de tweets con emoticonos explicada en el apartado 3. La implementacion de SVM utilizada es la basada en kernel lineal con entrenamiento SGD (Stochastic Gradient Descent) proporcionada por la biblioteca Sci-kit Learn3 (Pedregosa et al., 2011) .

Esta solucion es la utilizada en las dos variantes de la tarea 1 del TASS con prediccion 2http://dumps.wikimedia.org/eswiki 3http://scikit-learn.org/ de 4 clases: la que utiliza el corpus de tweets completo (full test corpus) y el que utiliza el corpus balanceado (1k test corpus).

Figura 2: Flujo de datos del sistema completo 5

Resultados obtenidos

Hemos experimentado con el efecto que tienen en el rendimiento del sistema el uso de una coleccion de datos generada a partir de la captura de tweets y que han sido etiquetados segun los emoticonos que contienen en la forma comentada anteriormente. La coleccion de mas de 1,7 millones de tweets ha sido utilizada al completo para generar un modelo de vectores de palabras, cuya combinacion con el de Wikipedia se ha analizado. Tambien hemos comprobado como el uso de dicha coleccion de tweets afecta cuando se usa para el entrenamiento del modelo de clasi cacion de la polaridad. Para ello se han seleccionado 500,000 tweets aleatoriamente de esta coleccion, con sus correspondientes etiquetas P (positivo) o N (negativo) y se han combiando con la colecciond de entrenamiento de TASS.

Los resultados segun las medidaas de Accuracy y Macro F1 obtenidas se muestran en la tabla 1. La primera columna nos indica a partir de cuales datos se han generado los modelos de vectores de palabras, bien solo con Wikipedia (W) o como combinacion de esta con los tweets del corpus construido (W+T). La segunda columna indica como se ha entrenado el clasi cador de polaridad a partir de los textos etiquetados vectorizados con los modelos generados en el paso previo, bien solo usando los datos de entrenamiento proporcionados por la organizacion (TASS) o incorporando los etiquetados a partir de emoticonos (TASS+T).

Como podemos observar, el uso de una coleccion de tweets para ampliar la capacidad de representar un modelo basado en vectores de palabras mejora sensiblemente al ge

Tabla 1: Resultados obtenidos sobre el conjunto full w2v SVM Accuracy W TASS 61,31 % W+T TASS 62,39 % W TASS+T 49,28 % W+T TASS+T 53,72 % Macro-F1 48,55 % 50,44 % 40,20 % 44,10 % nerado solamente con Wikipedia, pasando de 61,31 % de ajuste a un 62,39 %. En cambio, utilizar los tweets capturados para la fase de entrenamiento supervisado no lleva sino a una ca da del rendimiento del sistema.

Esto nos lleva a plantearnos la pregunta de que ocurrir a si utilizaramos solo los tweets recopilados para generar un modelo de vectores de palabras. Los resultados que se obtienen son un 59,05 % de ajuste y un 44,43 % de F1. No cabe duda de que conviene explorar el uso de modelos de generacion de caracter sticas a partir de vectores de palabras.

Estos resultados mejoran nuestros datos del an~o pasado, en los que obtuvimos un ajuste del 61,19 % combinando vectores de palabras (Word2Vec) y vectores de documentos (Doc2Vec). 6

Conclusiones y trabajo futuro

A partir de los resultados obtenidos, encontramos que resulta interesante la incorporacion de texto no formal (tweets) para la generacion de los modelos de palabras, lo cual tiene su sentido en una tarea de clasi cacion que, precisamente, trabaja sobre textos no formales que tienen la misma red social como fuente. En cambio, el considerar que los emoticonos en un tweet pueden ayudar a un clasi cador como SVM a mejorar en la determinacion de la polaridad ha resultado una hipotesis fallida. Esto puede entenderse echando un vistazo a algunos de los tweets capturados por el sistema, donde se evidencia la di cultad, incluso para una persona, de poner en contexto el sentido del tweet y su consideracion como positivo o negativo si no disponemos de un emoticono asociado.

Como trabajo futuro nos proponemos disen~ar una red neuronal profunda mas elaborada, pero que parta tambien de textos de entrenamiento tanto formales como no formales, si bien teniendo en cuanta informacion lingu stica mas avanzada como la sintactica, en lugar de trabajar con simples bolsas de palabras. Tambien queremos explorar el uso de redes de este tipo en el proceso de clas cacion en s , y no solo en la generacion de caracter sticas. Una posibilidad es utilizar una red de tipo DBN (Deep Belief Network) (Hinton y Salakhutdinov, 2006) en la que se an~ade una ultima fase donde se realiza el etiquetado de los ejemplos.

Bibliograf a

Bengio , Yoshua. 2009 . Learning deep architectures for ai . Foundations and trends in Machine Learning , 2 ( 1 ):1{ 127 .

Brooke , Julian, Milan To loski, y Maite Taboada. 2009 . Cross-linguistic sentiment analysis: From english to spanish. En Galia Angelova Kalina Bontcheva Ruslan Mitkov Nicolas Nicolov, y Nikolai Nikolov, editores , RANLP, paginas 50 { 54 . RANLP 2009 Organising Committee / ACL.

Collobert , Ronan y Jason Weston. 2008 . A uni ed architecture for natural language processing: Deep neural networks with multitask learning . En Proceedings of the 25th International Conference on Machine Learning, ICML '08, paginas 160 { 167 , New York, NY, USA. ACM.

D az-

Galiano , M.C. y A. Montejo-Raez . 2015 . Participacion de SINAI DW2Vec en TASS 2015 . En In Proc . of TASS 2015: Workshop on Sentiment Analysis at SEPLN. CEUR-WS.org, volumen 1397.

Fernandez , Javi, Yoan Gutierrez, Jose M. Gomez, Patricio Mart nez-Barco, Andres Montoyo, y Rafael Mun~oz. 2013 . Sentiment analysis of spanish tweets using a ranking algorithm and skipgrams . En In Proc. of the TASS workshop at SEPLN 2013 .

Garc a-Cumbreras, Miguel Angel, Julio Villena-Roman, Eugenio Mart nezCamara, Manuel Carlos D az- Galiano , Ma. Teresa Mart n-Valdivia, y L. Alfonso Uren~a- Lopez . 2016 . Overview of tass 2016 . En Proceedings of TASS 2016 : Workshop on Sentiment Analysis at SEPLN co-located with the 32nd SEPLN Conference (SEPLN 2016 ), Salamanca, Spain, September.

Hinton , Geo rey E y Ruslan R Salakhutdinov. 2006 . Reducing the dimensionality of data with neural networks . Science , 313 ( 5786 ): 504 { 507 .

Hurtado , Llu s F y Ferran Pla. 2014 . Elirfupv en tass 2014 : Analisis de sentimientos, deteccion de topicos y analisis de sentimientos de aspectos en twitter. En In Proc. of the TASS workshop at SEPLN 2014 .

Hurtado , Llu s-F, Ferran Pla, y Davide Buscaldi. 2015 . Elirf-upv en tass 2015: Analisis de sentimientos en twitter . En In Proc. of TASS 2015: Workshop on Sentiment Analysis at SEPLN. CEUR-WS.org, volumen 1397, paginas 35 { 40 .

Mikolov , Tomas, Kai Chen, Greg Corrado, y Je rey Dean . 2013 . E cient estimation of word representations in vector space . CoRR, abs/1301 .3781.

Montejo-Raez , A. ,

M.A.

Garc a-Cumbreras, y M. C. D az-Galiano. 2014 . Participacion de SINAI Word2Vec en TASS 2014 . En In Proc. of the TASS workshop at SEPLN 2014 .

Pedregosa , Fabian, Gael Varoquaux, Alexandre Gramfort, Vincent Michel, Bertrand Thirion, Olivier Grisel, Mathieu Blondel, Peter

Prettenhofer , Ron Weiss, Vincent Dubourg, y others. 2011 . Scikit-learn: Machine learning in python . The Journal of Machine Learning Research , 12 : 2825 { 2830 .

Saralegi

Urizar , Xabier y In~aki San Vicente Roncal. 2012 . Tass: Detecting sentiments in spanish tweets . En TASS 2012 Working Notes.

Socher , Richard, Je rey Pennington, Eric H. Huang , Andrew Y. Ng, y Christopher D. Manning . 2011 . Semi-supervised recursive autoencoders for predicting sentiment distributions . En Proceedings of the Conference on Empirical Methods in Natural Language Processing , EMNLP ' 11 , paginas 151 { 161 , Stroudsburg , PA, USA. Association for Computational Linguistics.