<!DOCTYPE article PUBLIC "-//NLM//DTD JATS (Z39.96) Journal Archiving and Interchange DTD v1.0 20120330//EN" "JATS-archivearticle1.dtd">
<article xmlns:xlink="http://www.w3.org/1999/xlink">
  <front>
    <journal-meta />
    <article-meta>
      <title-group>
        <article-title>Estudio de las categor as LIWC para el analisis de sentimientos en espan~ol</article-title>
      </title-group>
      <contrib-group>
        <contrib contrib-type="author">
          <string-name>Mar a del Pilar Salas-Zarate</string-name>
          <xref ref-type="aff" rid="aff0">0</xref>
        </contrib>
        <contrib contrib-type="author">
          <string-name>Miguel Angel Rodr guez-Garc a</string-name>
          <xref ref-type="aff" rid="aff0">0</xref>
        </contrib>
        <contrib contrib-type="author">
          <string-name>Murcia. Espan~a mariapilar.salas@um.es</string-name>
          <xref ref-type="aff" rid="aff0">0</xref>
        </contrib>
        <contrib contrib-type="author">
          <string-name>miguelangel.rodriguez@um.es</string-name>
          <xref ref-type="aff" rid="aff0">0</xref>
        </contrib>
        <contrib contrib-type="author">
          <string-name>valencia@um.es</string-name>
          <xref ref-type="aff" rid="aff0">0</xref>
        </contrib>
        <contrib contrib-type="author">
          <string-name>Angela Almela</string-name>
          <email>aalmela@ucam.edu</email>
          <xref ref-type="aff" rid="aff0">0</xref>
        </contrib>
        <aff id="aff0">
          <label>0</label>
          <institution>Departamento de Idiomas. Universidad Catolica San Antonio de Murcia</institution>
          ,
          <addr-line>Espan~a</addr-line>
        </aff>
      </contrib-group>
      <fpage>33</fpage>
      <lpage>36</lpage>
      <abstract>
        <p>Las opiniones expresadas en redes sociales o blogs son actualmente un medio en el cual se basan los usuarios para la toma de decisiones en situaciones tales como la compra de un producto o en la contratacion de un servicio; recientemente, el numero de opiniones expresadas ha aumentado exponencialmente en la Web. La miner a de opiniones tiene como objetivo la extraccion de informacion subjetiva a partir de contenido generado por usuarios, es decir, permite extraer un valor directo, tal como positivo o negativo, a partir de un comentario textual. Este trabajo presenta un estudio sobre la e cacia de la clasi cacion de opiniones en espan~ol en cinco categor as utilizando la combinacion de caracter sticas lingu sticas y psicologicas de LIWC. Ademas se presenta una evaluacion comparativa de los resultados de las tocnicas de clasi cacion J48, SMO y BayesNet utilizando la medida-F.</p>
      </abstract>
    </article-meta>
  </front>
  <body>
    <sec id="sec-1">
      <title>Introduccion</title>
      <p>Copyright c by the paper's authors. Copying permitted only for private and academic purposes.
este proposito un corpus de productos tecnologicos fue compilado. Este corpus contiene opiniones obtenidas
de sitios de comercio electronico, posteriormente el corpus se proceso en LIWC para extraer las caracter sticas
ling sticas. Finalmente, para evaluar los resultados de clasi cacion se utilizaron los clasi cadores J48, SMO y
BayesNet de WEKA [Bou10].</p>
      <p>Este trabajo esta estructurado de la siguiente manera: la seccion 2 describe y ofrece una discusion del analisis
de textos con dimensiones LIWC, la seccion 3 presenta la evaluacion realizada con WEKA con un experimento.
Finalmente, la seccion 4 describe las conclusiones.
2</p>
    </sec>
    <sec id="sec-2">
      <title>LIWC</title>
      <p>LIWC es un software que ofrece una herramienta e caz para estudiar componentes emocionales, cognitivos y
estructurales contenidos en un texto [Bou10]. Este software contiene un diccionario en espan~ol compuesto por
7.515 palabras. Cada palabra se puede clasi car en una o mas de las 72 categor as incluidas por omision en
LIWC. Ademas, las categor as se clasi can en cuatro dimensiones: 1) procesos ling sticos estandar, 2) procesos
psicologicos, 3) relatividad, y 4) asuntos personales.</p>
      <p>Para el presente estudio se obtuvo un corpus de 600 opiniones, espec camente 100 muy negativas, 150 negativas,
100 neutras, 150 positivas y 100 muy positivas de productos tecnologicos tales como dispositivos moviles; con
el proposito de analizar los textos a traves de todas las posibles combinaciones de las dimensiones de LIWC y
la clasi cacion de opiniones: 1) positiva y negativa, 2) positiva, neutra y negativa, y 3) muy positiva, positiva,
neutra, muy negativa y negativa. Una vez realizado el analisis, todos los resultados obtenidos por el programa
LIWC se usaron para entrenar el clasi cador de aprendizaje automatico.
3</p>
    </sec>
    <sec id="sec-3">
      <title>Evaluacion y resultados</title>
      <p>WEKA [Bou10] ofrece diferentes clasi cadores, los cuales permiten la creacion de modelos de acuerdo con los
datos y el proposito del analisis. Los clasi cadores se dividen en siete grupos: redes bayesianas (Nave Bayes,
etc.), funciones (regresion lineal, SMO, regresion log stica, etc.), aprendizaje vago (IBk, LWL, etc.),
metaclasi cadores (Bagging, Vote, etc.), reglas (DecisionTable, OneR, etc.), arboles de decision (J48, RandomTree,
etc.) y otros (SerializedClassi er e InputMappedClassi er).</p>
      <p>En este trabajo, WEKA se utilizo para evaluar los resultados de clasi cacion de las opiniones basandose en
las categor as de LIWC. El experimento se llevo a cabo utilizando tres algoritmos: el arbol de decision J48,
la red bayesiana (BayesNet) y el algoritmo SMO para clasi cadores SVM [Kee01]. Estos algoritmos fueron
seleccionados debido a que han sido utilizados en otros experimentos [Nah12] [Che12] obteniendo buenos
resultados en la clasi cacion de los datos. Para cada clasi cador se realizo una validacion cruzada de 10
iteraciones. Dicha validacion se aplico con el objetivo de estimar la precision de los modelos predictivos.
Los resultados del experimento se muestran en la Table 1. En la primera columna se indica que dimensiones
de LIWC se utilizan. Por ejemplo, 1 2 3 4 indica que se han utilizado todas las dimensiones, mientras que 1 2
indica que solo se utilizaron las categor as de las dos primeras dimensiones. Posteriormente se muestran los
resultados para cada clasi cador J48, BayesNet y SMO con la clasi cacion de opiniones 2 (positiva y negativa),
3 (positiva, neutra y negativa) y 5 (muy positiva, positiva, neutra, muy negativa y negativa). Los valores que se
presentan corresponden a la medida-F (F1), la media armonica de precision y exhaustividad.
Estudio de las categorías LIWC para el análisis de sentimientos en español
1
2
3
4
1 2
1 3
1 4
2 3
2 4
3 4
1 2 3
1 2 4
1 3 4
2 3 4
1 2 3 4</p>
      <p>Los resultados demuestran que los diferentes algoritmos de clasi cacion resultados similares, aunque los mejores
resultados se obtuvieron por los SVM. Los modelos SVM se han aplicado con exito en muchas tareas de clasi
cacion de texto [Rus11], debido a sus ventajas principales tales como 1) su robustez en espacios dimensionales
elevados, 2) la relevancia de cualquier caracter stica, y 3) su robustez en conjuntos escasos de muestras. Ademas,
basados en las categor as de clasi cacion los mejores resultados se obtuvieron con dos categor as (positiva y
negativa), es decir, con la combinacion de un menor numero de categor as el algoritmo realiza una mejor clasi cacion,
debido a que al existir menos categor as el algoritmo asigna los casos con mayor exactitud a una clase u otra.
Por otra parte, la combinacion de todas las dimensiones de LIWC aporta el mejor resultado de clasi cacion con
una medida-F de 90,4%. De forma individual la primera y la segunda dimension obtienen los mejores resultados
debido a la gran cantidad de palabras gramaticales que son parte de la dimension ling stica, y al hecho de que las
opiniones frecuentemente contienen obtienen modelos palabras relacionadas con el estado emocional del autor.
Finalmente, la cuarta dimension es la que arroja los peores resultados, debido a que el tema elegido para este
estudio tiene poca relacion con el vocabulario correspondiente con asuntos personales.
3.1</p>
      <sec id="sec-3-1">
        <title>Conclusiones</title>
        <p>En el presente trabajo se llevo a cabo un experimento basado en la clasi cacion de sentimientos con el objetivo
de evaluar el potencial de la clasi cacion de las dimensiones LIWC. Con el proposito de realizar un estudio
exhaustivo, consideramos dos categor as (positiva, negativa), tres categor as (positiva, negativa y neutra) y
cinco categor as (muy positiva, muy negativa, positiva, negativa y neutra) para la clasi cacion de opiniones en
espaol. Por otro lado, para evaluar la e cacia de las caracter sticas de LIWC se utilizo la plataforma WEKA,
concretamente los clasi cadores J48, BayesNet y SMO. Los resultados muestran que la clasi cacion de opiniones
con dos categor as (positiva, negativa) obtiene mejores resultados, siendo el clasi cado SMO el que tiene un
mejor comportamiento.
3.1.1</p>
      </sec>
      <sec id="sec-3-2">
        <title>Agradecimientos</title>
        <p>Este trabajo ha sido nanciado por el Ministerio espaol de Econom a y Competitividad y la Comision Europea
(FEDER) a traves del proyecto SeCloud (TIN2010- 18650)</p>
      </sec>
    </sec>
  </body>
  <back>
    <ref-list>
      <ref id="ref1">
        <mixed-citation>
          [Pen01]
          <string-name>
            <given-names>J. W.</given-names>
            <surname>Pennebaker</surname>
          </string-name>
          ,
          <string-name>
            <given-names>M. E.</given-names>
            <surname>Francis</surname>
          </string-name>
          ,
          <string-name>
            <given-names>R. J.</given-names>
            <surname>Booth</surname>
          </string-name>
          . Linguistic Inquiry and
          <string-name>
            <given-names>Word</given-names>
            <surname>Count</surname>
          </string-name>
          . Mahwah NJ: Erlbaum Publishers,
          <year>2001</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref2">
        <mixed-citation>
          [Kee01]
          <string-name>
            <given-names>S. S.</given-names>
            <surname>Keerthi</surname>
          </string-name>
          ,
          <string-name>
            <given-names>S. K.</given-names>
            <surname>Shevade</surname>
          </string-name>
          ,
          <string-name>
            <given-names>C.</given-names>
            <surname>Bhattacharyya</surname>
          </string-name>
          ,
          <string-name>
            <surname>K. R. K. Murthy</surname>
          </string-name>
          <article-title>Improvements to Platt's SMO Algorithm for SVM Classi er Design Neural Computation</article-title>
          ,
          <volume>13</volume>
          (
          <issue>3</issue>
          ):
          <volume>637</volume>
          {
          <fpage>649</fpage>
          ,
          <year>2001</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref3">
        <mixed-citation>
          [Nah12]
          <string-name>
            <given-names>J.</given-names>
            <surname>Nahar</surname>
          </string-name>
          ,
          <string-name>
            <given-names>K.</given-names>
            <surname>Tickle</surname>
          </string-name>
          ,
          <string-name>
            <given-names>S.</given-names>
            <surname>Ali</surname>
          </string-name>
          ,
          <string-name>
            <given-names>P.</given-names>
            <surname>Chen</surname>
          </string-name>
          .
          <article-title>Computational intelligence for microarray data and biomedical image analysis for the early diagnosis of breast cancer Expert Systems with Applications</article-title>
          ,
          <volume>39</volume>
          :
          <fpage>12371</fpage>
          {
          <fpage>12377</fpage>
          ,
          <year>June 2012</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref4">
        <mixed-citation>
          [Che12]
          <string-name>
            <given-names>L.</given-names>
            <surname>Chen</surname>
          </string-name>
          ,
          <string-name>
            <given-names>L.</given-names>
            <surname>Qi</surname>
          </string-name>
          ,
          <string-name>
            <given-names>F.</given-names>
            <surname>Wang</surname>
          </string-name>
          .
          <article-title>Comparison of feature-level learning methods for mi- ning online consumer reviews Expert Systems with Applications</article-title>
          ,
          <volume>9588</volume>
          {
          <fpage>9601</fpage>
          ,
          <year>2012</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref5">
        <mixed-citation>
          <string-name>
            <surname>[Rus11] M. Rushdi Saleh</surname>
            ,
            <given-names>M. T. Martn</given-names>
          </string-name>
          <string-name>
            <surname>Valdivia</surname>
            ,
            <given-names>A.</given-names>
          </string-name>
          <string-name>
            <surname>Montejo</surname>
            ,
            <given-names>L. A.</given-names>
          </string-name>
          <string-name>
            <surname>Urea</surname>
          </string-name>
          .
          <article-title>Experiments with SVM to classify opinions in di erent domains</article-title>
          .
          <source>Expert Systems with Applications</source>
          ,
          <volume>38</volume>
          (
          <issue>12</issue>
          ):
          <volume>14799</volume>
          {
          <fpage>14804</fpage>
          ,
          <year>2011</year>
          .
        </mixed-citation>
      </ref>
    </ref-list>
  </back>
</article>