Introduccion

Estudio de las categor as LIWC para el analisis de sentimientos en espan~ol

Mar a del Pilar Salas-Zarate

Miguel Angel Rodr guez-Garc a

Murcia. Espan~a mariapilar.salas@um.es

miguelangel.rodriguez@um.es

valencia@um.es

Angela Almela

aalmela@ucam.edu 0 0 Departamento de Idiomas. Universidad Catolica San Antonio de Murcia , Espan~a

33 36

Las opiniones expresadas en redes sociales o blogs son actualmente un medio en el cual se basan los usuarios para la toma de decisiones en situaciones tales como la compra de un producto o en la contratacion de un servicio; recientemente, el numero de opiniones expresadas ha aumentado exponencialmente en la Web. La miner a de opiniones tiene como objetivo la extraccion de informacion subjetiva a partir de contenido generado por usuarios, es decir, permite extraer un valor directo, tal como positivo o negativo, a partir de un comentario textual. Este trabajo presenta un estudio sobre la e cacia de la clasi cacion de opiniones en espan~ol en cinco categor as utilizando la combinacion de caracter sticas lingu sticas y psicologicas de LIWC. Ademas se presenta una evaluacion comparativa de los resultados de las tocnicas de clasi cacion J48, SMO y BayesNet utilizando la medida-F.

Introduccion

Copyright c by the paper's authors. Copying permitted only for private and academic purposes. este proposito un corpus de productos tecnologicos fue compilado. Este corpus contiene opiniones obtenidas de sitios de comercio electronico, posteriormente el corpus se proceso en LIWC para extraer las caracter sticas ling sticas. Finalmente, para evaluar los resultados de clasi cacion se utilizaron los clasi cadores J48, SMO y BayesNet de WEKA [Bou10].

Este trabajo esta estructurado de la siguiente manera: la seccion 2 describe y ofrece una discusion del analisis de textos con dimensiones LIWC, la seccion 3 presenta la evaluacion realizada con WEKA con un experimento. Finalmente, la seccion 4 describe las conclusiones. 2

LIWC

LIWC es un software que ofrece una herramienta e caz para estudiar componentes emocionales, cognitivos y estructurales contenidos en un texto [Bou10]. Este software contiene un diccionario en espan~ol compuesto por 7.515 palabras. Cada palabra se puede clasi car en una o mas de las 72 categor as incluidas por omision en LIWC. Ademas, las categor as se clasi can en cuatro dimensiones: 1) procesos ling sticos estandar, 2) procesos psicologicos, 3) relatividad, y 4) asuntos personales.

Para el presente estudio se obtuvo un corpus de 600 opiniones, espec camente 100 muy negativas, 150 negativas, 100 neutras, 150 positivas y 100 muy positivas de productos tecnologicos tales como dispositivos moviles; con el proposito de analizar los textos a traves de todas las posibles combinaciones de las dimensiones de LIWC y la clasi cacion de opiniones: 1) positiva y negativa, 2) positiva, neutra y negativa, y 3) muy positiva, positiva, neutra, muy negativa y negativa. Una vez realizado el analisis, todos los resultados obtenidos por el programa LIWC se usaron para entrenar el clasi cador de aprendizaje automatico. 3

Evaluacion y resultados

WEKA [Bou10] ofrece diferentes clasi cadores, los cuales permiten la creacion de modelos de acuerdo con los datos y el proposito del analisis. Los clasi cadores se dividen en siete grupos: redes bayesianas (Nave Bayes, etc.), funciones (regresion lineal, SMO, regresion log stica, etc.), aprendizaje vago (IBk, LWL, etc.), metaclasi cadores (Bagging, Vote, etc.), reglas (DecisionTable, OneR, etc.), arboles de decision (J48, RandomTree, etc.) y otros (SerializedClassi er e InputMappedClassi er).

En este trabajo, WEKA se utilizo para evaluar los resultados de clasi cacion de las opiniones basandose en las categor as de LIWC. El experimento se llevo a cabo utilizando tres algoritmos: el arbol de decision J48, la red bayesiana (BayesNet) y el algoritmo SMO para clasi cadores SVM [Kee01]. Estos algoritmos fueron seleccionados debido a que han sido utilizados en otros experimentos [Nah12] [Che12] obteniendo buenos resultados en la clasi cacion de los datos. Para cada clasi cador se realizo una validacion cruzada de 10 iteraciones. Dicha validacion se aplico con el objetivo de estimar la precision de los modelos predictivos. Los resultados del experimento se muestran en la Table 1. En la primera columna se indica que dimensiones de LIWC se utilizan. Por ejemplo, 1 2 3 4 indica que se han utilizado todas las dimensiones, mientras que 1 2 indica que solo se utilizaron las categor as de las dos primeras dimensiones. Posteriormente se muestran los resultados para cada clasi cador J48, BayesNet y SMO con la clasi cacion de opiniones 2 (positiva y negativa), 3 (positiva, neutra y negativa) y 5 (muy positiva, positiva, neutra, muy negativa y negativa). Los valores que se presentan corresponden a la medida-F (F1), la media armonica de precision y exhaustividad. Estudio de las categorías LIWC para el análisis de sentimientos en español 1 2 3 4 1 2 1 3 1 4 2 3 2 4 3 4 1 2 3 1 2 4 1 3 4 2 3 4 1 2 3 4

Los resultados demuestran que los diferentes algoritmos de clasi cacion resultados similares, aunque los mejores resultados se obtuvieron por los SVM. Los modelos SVM se han aplicado con exito en muchas tareas de clasi cacion de texto [Rus11], debido a sus ventajas principales tales como 1) su robustez en espacios dimensionales elevados, 2) la relevancia de cualquier caracter stica, y 3) su robustez en conjuntos escasos de muestras. Ademas, basados en las categor as de clasi cacion los mejores resultados se obtuvieron con dos categor as (positiva y negativa), es decir, con la combinacion de un menor numero de categor as el algoritmo realiza una mejor clasi cacion, debido a que al existir menos categor as el algoritmo asigna los casos con mayor exactitud a una clase u otra. Por otra parte, la combinacion de todas las dimensiones de LIWC aporta el mejor resultado de clasi cacion con una medida-F de 90,4%. De forma individual la primera y la segunda dimension obtienen los mejores resultados debido a la gran cantidad de palabras gramaticales que son parte de la dimension ling stica, y al hecho de que las opiniones frecuentemente contienen obtienen modelos palabras relacionadas con el estado emocional del autor. Finalmente, la cuarta dimension es la que arroja los peores resultados, debido a que el tema elegido para este estudio tiene poca relacion con el vocabulario correspondiente con asuntos personales. 3.1

Conclusiones

En el presente trabajo se llevo a cabo un experimento basado en la clasi cacion de sentimientos con el objetivo de evaluar el potencial de la clasi cacion de las dimensiones LIWC. Con el proposito de realizar un estudio exhaustivo, consideramos dos categor as (positiva, negativa), tres categor as (positiva, negativa y neutra) y cinco categor as (muy positiva, muy negativa, positiva, negativa y neutra) para la clasi cacion de opiniones en espaol. Por otro lado, para evaluar la e cacia de las caracter sticas de LIWC se utilizo la plataforma WEKA, concretamente los clasi cadores J48, BayesNet y SMO. Los resultados muestran que la clasi cacion de opiniones con dos categor as (positiva, negativa) obtiene mejores resultados, siendo el clasi cado SMO el que tiene un mejor comportamiento. 3.1.1

Agradecimientos

Este trabajo ha sido nanciado por el Ministerio espaol de Econom a y Competitividad y la Comision Europea (FEDER) a traves del proyecto SeCloud (TIN2010- 18650)

[Pen01]

J. W.

Pennebaker ,

M. E.

Francis ,

R. J.

Booth . Linguistic Inquiry and

Word

Count . Mahwah NJ: Erlbaum Publishers, 2001 .

[Kee01]

S. S.

Keerthi ,

S. K.

Shevade ,

Bhattacharyya , K. R. K. Murthy Improvements to Platt's SMO Algorithm for SVM Classi er Design Neural Computation , 13 ( 3 ): 637 { 649 , 2001 .

[Nah12]

Nahar ,

Tickle ,

Ali ,

Chen . Computational intelligence for microarray data and biomedical image analysis for the early diagnosis of breast cancer Expert Systems with Applications , 39 : 12371 { 12377 , June 2012 .

[Che12]

Chen ,

Qi ,

Wang . Comparison of feature-level learning methods for mi- ning online consumer reviews Expert Systems with Applications , 9588 { 9601 , 2012 .

[Rus11] M. Rushdi Saleh , M. T. Martn

Valdivia , A.

Montejo , L. A.

Urea . Experiments with SVM to classify opinions in di erent domains . Expert Systems with Applications , 38 ( 12 ): 14799 { 14804 , 2011 .