=Paper= {{Paper |id=Vol-1896/p5_lexfar_tass2017 |storemode=property |title=LexFAR en la competencia TASS 2017: Análisis de sentimientos en Twitter basado en lexicones (LexFAR at TASS 2017: Lexicon-based Sentiment Analysis in Twitter) |pdfUrl=https://ceur-ws.org/Vol-1896/p5_lexfar_tass2017.pdf |volume=Vol-1896 |authors=José A. Reyes-Ortiz,Fabián Paniagua-Reyes,Belém Priego,Mireya Tovar }} ==LexFAR en la competencia TASS 2017: Análisis de sentimientos en Twitter basado en lexicones (LexFAR at TASS 2017: Lexicon-based Sentiment Analysis in Twitter)== https://ceur-ws.org/Vol-1896/p5_lexfar_tass2017.pdf
                    TASS 2017: Workshop on Semantic Analysis at SEPLN, septiembre 2017, págs. 51-57




    LexFAR en la competencia TASS 2017: Análisis de sentimientos
                   en Twitter basado en lexicones

       LexFAR at TASS 2017: Lexicon-based sentiment analysis in Twitter
       José A. Reyes-Ortiz1, Fabián Paniagua-Reyes1, Belém Priego1, Mireya Tovar2
              1
                Universidad Autónoma Metropolitana, Departamento de Sistemas
                                   Azcapotzalco, México
    2
      Benemérita Universidad Autónoma de Puebla, Facultad de Ciencias de la Computación
                                      Puebla, México
                {jaro, al2112002241,abps}@azc.uam.mx, mtovar@cs.buap.mx


       Resumen: Este artículo describe el sistema para el análisis de sentimientos en Twitter a
       nivel de un mensaje sometido a la tarea 1 del TASS 2017: Taller sobre Análisis
       Semántico en SEPLN, desarrollado por el equipo de investigación de la Universidad
       Autónoma Metropolitana, unidad Azcapotzalco en colaboración con la Benemérita
       Universidad Autónoma de Puebla. El sistema propuesto utiliza aprendizaje automático, el
       algoritmo de máquinas de soporte vectorial y lexicones de polaridades semánticas a nivel
       de lemas para el español. Las características extraídas de los lexicones son representadas
       mediante el modelo de bolsa de palabras y son ponderadas utilizando la frecuencia de los
       términos, la cual expresa la ocurrencia del lema en cada tweet. La experimentación
       muestra resultados prometedores con el uso de lexicones para el análisis de sentimientos a
       nivel de tweet.
       Palabras clave: Análisis de sentimientos, aprendizaje automático, máquinas de soporte
       vectorial, lexicones.

       Abstract: This paper describes our system for sentiment analysis in Twitter at Tweet
       level submitted to task 1 of the TASS-2017: Workshop on Semantic Analysis at SEPLN,
       developed by team of the Autonomous Metropolitan University, Azcapotzalco in
       collaboration with the Autonomous University of Puebla. The proposed system uses
       machine learning, vector support machines algorithm and lexicons of semantic polarities
       at the level of lemma for Spanish. Features extracted from lexicons are represented by the
       bag-of-word model and they are weighted using TF “Term Frequency” measure, which
       expresses the occurrence of lemmas in each tweet. Experimentation shows promising
       results with the use of lexicons for the sentiment analysis in Twitter.
       Keywords: sentiment analysis, machine learning, support vector machine, lexicons.


                                                                precisión para identificar la intensidad de una
1    Introducción                                               opinión expresada en cada tweet. Por otro lado,
                                                                la tarea 2 consiste en clasificar la polaridad a
El Taller sobre Análisis Semántico en SEPLN
                                                                nivel de aspectos. Los sistemas enviados para
(TASS) en su edición 2017, Martínez-Cámara
                                                                esta tarea deben de ser capaces de clasificar una
et al. (2017), ha centrado su interés en dos
                                                                opinión dado un aspecto, en una etiqueta de tres
tareas: el análisis de sentimientos a nivel de
                                                                niveles de intensidad: Positiva, Negativa y
tweet y el análisis de sentimientos basados en
                                                                Neutra.
aspectos. Específicamente, la tarea consiste en
                                                                    El Análisis de Sentimientos (AS) es una
determinar la polaridad de un tweet,
                                                                tarea que se ha desarrollado ampliamente para
considerando cuatro etiquetas (P, N, NEU,
                                                                el inglés. Sin embargo, el AS para el español ha
NONE). La idea es evaluar los sistemas de
                                                                sido poco abordado y por ello se tiene una
clasificación de polaridad en cuanto a la
                                                                carencia de recursos de análisis de opiniones

ISSN 1613-0073                      Copyright © 2017 by the paper's authors. Copying permitted for private and academic purposes.
                         José A. Reyes-Ortiz, Fabián Paniagua-Reyes, Belém Priego, Mireya Tovar


para este idioma. El Taller TASS a lo largo de                  sentimientos a nivel de tweets. Posteriormente,
su existencia ha propuesto dicha tarea para el                  los resultados de la experimentación son
español, en la cual se han propuesto sistemas                   expuestos y analizados. Finalmente, las
con diversos enfoques. El aprendizaje profundo,                 conclusiones y el trabajo futuro son
como en (Vilares et al. 2015), (Díaz-Galiano y                  presentados.
Montejo-Ráez, 2015) y (Montejo-Ráez y Díaz-
Galiano, 2016), ha sido utilizado para                          2     Descripción del sistema propuesto
representar los tweets y desempeñar el análisis
                                                                El sistema propuesto se enfoca en la tarea 1 del
de sentimientos a nivel de sentencias. El uso de
                                                                TASS en su edición 2017. Para esta tarea, se
vectores de características es ampliamente
                                                                proporcionaron diversos corpora: InterTASS
utilizado en la tarea de análisis de sentimientos.
                                                                corpus presentado en (Martínez-Cámara et al.,
En (Murillo y Raventós, 2016) usan vectores de
                                                                2017) y dos corpora generales de TASS 2016
características de baja dimensión para
                                                                para el entrenamiento, los cuales se describen
representación del texto, ellos proponen un
                                                                en (García-Cumbreras et al., 2016).
modelo      simple     fundamentado       en    la
                                                                   De esta manera, esta sección presenta los
normalización de texto con identificación de
                                                                elementos que forman parte del sistema
marcadores de énfasis, el uso de modelos de
                                                                sometido a la competencia TASS 2017.
lenguaje para representar las características
                                                                Primero, se describen los lexicones utilizados
locales y globales del texto, y características
                                                                para la clasificación de la polaridad a nivel de
como emoticones y partículas de negación;
                                                                un tweet. Posteriormente, se expone la etapa de
(Martínez-Cámara et al., 2015), del mismo
                                                                pre-procesamiento de los tweets y de los
modo, construyen vectores de palabras a partir
                                                                lexicones. Después, se expone la representación
de la información de opinión de recursos
                                                                de los lemas del lexicón y la métrica de
lingüísticos;    Quirós,    Segura-Bedmar,       y
                                                                ponderación en cada tweet, con la finalidad de
Martínez (2016), representan los tweets por
                                                                obtener los vectores prototipo con las
medio de vectores de palabras ponderados con
                                                                características    para    el    conjunto     de
TF-IDF y son clasificados utilizando algoritmos
                                                                entrenamiento y para el conjunto de pruebas.
como máquinas de soporte vectorial (SVM) y
                                                                Finalmente, la etapa de identificación de
regresión logística.
                                                                polaridad llevada a cabo con el algoritmo de
    Las aproximaciones híbridas para el análisis
                                                                clasificación máquinas de soporte vectorial.
de sentimientos, también han sido empleadas,
Álvarez-López et al. (2015) desarrollan una
aproximación híbrida para el análisis de                        2.1     Lexicones de polaridad
sentimiento global en Twitter, mediante el uso                  Para el análisis de sentimientos a nivel de
de clasificadores y aproximaciones sin                          oraciones es indispensable el análisis de las
supervisión, construidas mediante léxicos de                    palabras del tweet completo para determinar su
polaridad y estructuras sintácticas.                            polaridad. Por ello, en este sistema utilizamos
    Este artículo se centra en la tarea 1 del                   dos lexicones de polaridad con la finalidad de
TASS 2017, para la cual presenta el sistema del                 determinar la carga emocional que imprimen las
equipo LexFAR de la Universidad Autónoma                        palabras de cada tweet, es decir, que tan
Metropolitana, unidad Azcapotzalco en                           positivo, negativo, neutro o sin polaridad es el
colaboración con la Benemérita Universidad                      contenido del tweet.
Autónoma de Puebla. El sistema propuesto                           El primer lexicón llamado ML-SentiCon
utiliza un enfoque basado en aprendizaje                        (Cruz et al., 2014), está constituido por 11302
automático, utilizando el algoritmo de SVM y                    entradas o lemas en español. Este recurso
dos lexicones de polaridades semánticas a nivel                 contiene lemas polarizados, con valores que van
de lemas para el español. Los lemas de los                      desde -1.0 “negativo” hasta +1.0 “positivo” y,
lexicones son representados mediante el modelo                  adicionalmente, un valor de desviación estándar
de bolsa de palabras y ponderadas utilizando la                 que refleja la ambigüedad resultante del
medida numérica de Frecuencia del Término                       cómputo de la polaridad a partir de los valores
(FT), la cual expresa la ocurrencia del lema en                 de los distintos significados posibles del lema.
cada tweet.                                                     Además, se tiene la categoría gramatical para
    El resto del artículo está organizado como                  cada lema: verbo (v), sustantivo (s), por
sigue. Primero, se presentan las diversas                       mencionar algunos. Este lexicón es generado de
aproximaciones del sistema para el análisis de                  manera automática utilizando una versión

                                                          52
                 LexFAR en la competencia TASS 2017: Análisis de sentimientos en Twitter basado en lexicones


mejorada del método usado para construir                          resultantes a minúsculas y se eliminan las
SentiWordNet 3.0 (Baccianella, Esuli, y                           stopwords, palabras que no aportan significado
Sebastiani, 2010). Las evaluaciones de este                       y por lo tanto, no son funcionales para la
lexicón      han      demostrado      resultados                  identificación de polaridad. Sin embargo, se
prometedores.                                                     conservan las palabras de negación (no, ni) o
    El segundo lexicón llamado iSOL (Lexicón                      afirmación (si), al ser consideradas como
Mejorado de Opiniones en Español), creado por                     funcionales para la identificación de la
Molina-González et al. (2013), es una versión                     polaridad manifestada por un tweet.
mejorada del recurso original llamado SOL, el                        Las tareas de normalización de la risa y la
cual proviene de una traducción del lexicón                       lematización de las palabras son aplicadas a los
BLEL. Diversas mejoras fueron llevadas a cabo                     textos tanto para la obtención de nuestro
para construir la lista de lemas polarizados y                    lexicón como para los experimentos con los
mejorados, y, finalmente, se obtuvo un léxico                     lexicones externos que, a priori, se encuentran
enriquecido para el español que llamaron iSOL,                    lematizados.
éste contiene 8133 palabras clasificadas en dos                      El objetivo de la normalización de la risa es
categorías positivas y negativas.                                 evitar la redundancia en la forma de expresarla.
    Para los diversos experimentos se utilizan                    Para ello, se aplican las reglas o patrones
estos dos lexicones debido a su cobertura en las                  mostrados en la Tabla 1, y se sustituyen las
polaridades positivas, negativas y neutras. Esto                  diversas formas de expresar risa por el término
quiere decir que tienen una capacidad para                        en común “jaja”.
caracterizar las posibles etiquetas en las que
está categorizado el conjunto de datos del                                 Patrón        Frase       Risa normalizada
corpus proporcionado. Ambos recursos están                                  (ja)+           ja             jaja
disponibles libremente.                                                     (je)+         jeje             jaja
    Nosotros confiamos en que los recursos                                  (jo)+        jojojo            jaja
iSOL y ML-SentiCon son recursos valiosos para                               (ji)+        jijijiji          jaja
determinar la polaridad y realizar en análisis de                             lol          lol             jaja
sentimientos para tweets en Español.
Adicionalmente, se considera un lexicón propio
                                                                             Tabla 1: Normalización de la risa
para uno de los experimentos, obtenido del
corpus InterTASS y descrito en las siguientes
secciones.                                                           La lematización consiste en obtener la raíz o
    Las entradas (frases) de los lexicones son                    lema de las palabras, es decir, eliminar los
extraídas, pre-procesadas y representadas                         sufijos o flexiones de las palabras. Esto permite
utilizando el modelo de bolsa de palabras.                        agrupar todas las palabras con la misma raíz en
                                                                  una sola representación en el lexicón propio y,
2.2   Pre-procesado                                               mejora el mapeo de los términos de los
                                                                  lexicones externos con los textos de los tweets.
Esta tarea de pre-procesado de los textos se                      Para esta tarea se utiliza la herramienta
aplica a los diversos experimentos realizados.                    TreeTagger (Schmid, 1999), la cual tiene
Por lo tanto, en esta sección se describen las                    soporte para el español.
tareas que involucra el pre-procesado de tweets.
Por un lado, para la obtención del lexicón                                      Palabra                   Lema
propio y, por otro lado, para las entradas de los                                malas                    malo
lexicones externos iSOL y MLSentiCon.                                           sentirán                  sentir
    La primera tarea para la obtención del                                       fueron                      ir
lexicón de palabras propio, es la limpieza de los                                felices                   feliz
textos. Para ello se realiza una segmentación
por palabras (tokens) y la eliminación de
caracteres especiales, como acentos (á, é, í, ó,                  Tabla 2: Forma enraizada de palabras para el
ú) y signos de puntuación (. , ¡ ¿ ;). Después, las               español
unidades léxicas son filtradas eliminando las
ligas (url) a sitios web externos y las menciones                    En la Tabla 2, se ha mostrado un ejemplo de
de usuarios en Twitter (@). También, se lleva a                   palabras en español tal como aparecen en los
cabo una normalización de las unidades léxicas


                                                             53
                         José A. Reyes-Ortiz, Fabián Paniagua-Reyes, Belém Priego, Mireya Tovar


textos y con su lema (raíz) que es generada por                 presentado en (Chang y Lin, 2001), el cual
la herramienta.                                                 construye un conjunto de hiperplanos en un
                                                                espacio n-dimensional con los tweets de
2.3 Extracción        de    características           y         entrenamiento, estos hiperplanos son utilizados
ponderación                                                     para predecir la clase de los tweets de prueba.
                                                                     El clasificador basado en máquinas de
La extracción de características se realiza en                  soporte vectorial ha demostrado resultados
dos escenarios: para el lexicón propio y para los               alentadores en la clasificación de textos. La
lexicones externos.                                             implementación del algoritmo de clasificación
    Para el caso de nuestro lexicón, se obtiene la              se ha llevado a cabo mediante la herramienta
lista de palabras sin repeticiones del conjunto                 WEKA (Garner, 1995).
de datos de entrenamiento y desarrollo                               Todos los experimentos fueron llevados a
proporcionado, para la tarea 1 del TASS 2017                    cabo con los parámetros: complejidad o número
denominado corpus InterTASS y los corpora                       de hiperplanos a construir: -C 1; parámetro
generales proporcionados para el TASS 2016.                     gama (tipo de kernel a utilizar): -K PolyKernel;
A partir de estos conjuntos se obtienen 9058                    tamaño de la memoria cache a utilizar: -C
palabras. Para los lexicones externos, se extraen               250007; parámetro de tolerancia: -L 0.001; y
sus entradas como unidades y éstas representan                  épsilon: -P 1.0E-12.
las características para la etapa de clasificación                  En los escenarios, de los experimentos, se
del tweet en alguna polaridad determinada.                      utilizan los conjuntos de datos de entrenamiento
    En ambos escenarios, el del lexicón propio y                proporcionados por TASS 2016 y TASS 2017
los lexicones externos, el modelo de bolsa de                   extrayendo los tweets para cuatro etiquetas. La
palabras (bag-of-words) es utilizado para la                    etapa de pruebas del clasificador SVM se lleva
representación de las entradas de los lexicones                 a cabo con el conjunto de pruebas del corpus
y la métrica de ponderación denominada                          InterTASS 2017.
Frecuencia del Término (TF). De esta manera,
cada tweet, tanto para el conjunto de                           3     Experimentos y resultados
entrenamiento como para el conjunto de prueba
es ponderado con la ocurrencia de cada entrada                  El sistema propuesto se evalúa, solamente, para
de los lexicones en un tweet dado.                              el conjunto de datos de prueba del corpus
    La ponderación que se ha utilizado,                         InterTASS 2017, como consecuencia el equipo
Frecuencia del Término (TF), consiste en el                     LexFAR solo participa en la tarea 1 del TASS
número de veces que un término (t) del lexicón                  2017: Análisis de sentimientos a nivel de tweet.
aparece en un tweet (S).                                            En esta tarea, se realizan tres experimentos
    De esta manera se obtienen un conjunto de                   utilizando el conjunto de datos de TASS 2016 y
vectores numéricos que representan los tweets                   TASS 2017 como entrenamiento y prueba, con
del conjunto de entrenamiento y los tweets de                   el corpus InterTASS para cuatro etiquetas (P, N,
los conjuntos de prueba.                                        NEU, NONE.).
                                                                    El primer experimento (run1) consiste en
2.4 Análisis de sentimientos a nivel de                         utilizar el lexicón ML-SentiCon (run1-msc),
tweet.                                                          para el cual se eliminan aquellas palabras
                                                                repetidas del lexicón. El resultado es un
La tarea de análisis de sentimientos a nivel de                 conjunto de 3084 características que fueron
tweet, se describe como un tarea típica de                      ponderadas para los tweets de entrenamiento y
clasificación supervisada, la cual consiste en                  de prueba.
determinar la etiqueta de un tweet basándose en                     El segundo experimento (run2) consiste en
su contenido. Para el caso de la tarea 1 del                    el lexicón propio (run2-propio), el cual está
TASS 2017, se evalúa la clasificación a cuatro                  conformado por 9058 entradas o características
niveles de intensidad de polaridad: Positivo                    que fueron ponderadas con la métrica TF para
“P”, Negativo “N”, Neutro “NEU”, Ninguna                        los tweets de entrenamiento y prueba.
“NONE”.                                                             El tercer experimento (run3) consiste en
    Entonces, para esta tarea de clasificación                  añadir el lexicón iSOL al lexicón ML-SentiCon
supervisada se utiliza la representación de los                 (run3-msc+isol). Al igual que el experimento
tweets en los vectores resultantes y ponderados                 uno, se eliminan entradas irrelevantes y
con TF. Se utiliza el clasificador denominado
máquinas de soporte vectorial (SVM) y

                                                          54
                LexFAR en la competencia TASS 2017: Análisis de sentimientos en Twitter basado en lexicones


repetidas en ambos lexicones. El resultado es                      Posición         Equipo          Macro-F1   Acc
un conjunto de 4016 características.
   Los tres experimentos fueron desempeñados                           1           Jacerong           0.459    0.608
con los 7184 tweets de entrenamiento y 1899                            2         ELiRF-UPV            0.493    0.607
tweets de prueba para el conjunto de prueba del
                                                                       3          RETUYT              0.471    0.596
corpus InterTASS, utilizando las máquinas de
soporte vectorial como algoritmo de                                    4         tecnolengua          0.441    0.595
clasificación. Los resultados son presentados en                       5        ITAINNOVA             0.461    0.576
términos de exactitud (Acc) y las versiones
macro-promediadas de Precisión (Macro-P),                              6            SINAI             0.442    0.575
Exhaustividad (Macro-R) y medida F1 (Macro-                            7           LexFAR             0.432    0.541
F1), las cuales serán utilizadas como medidas
                                                                       8              GSI             0.371    0.524
de evaluación. Los resultados para nuestros tres
experimentos, desempañados para la “Tarea 1:                           9         INGEOTEC             0.403    0.515
Análisis de sentimientos a nivel de Tweet” del
                                                                      10             OEG              0.377    0.505
TASS 2017” son mostrados en la Tabla 3.

               Macro-     Macro-     Macro-                      Tabla 4: Resultados por equipo de la Tarea 1
Experimento                                       Acc
                 P          R         F1                         del TASS 2017
  run1-msc     0.433       0.427       0.430     0.539
                                                                     El mejor experimento por equipo, ordenados
 run2-propio   0.372       0.371       0.372     0.490           por la medida de precisión obtenida, han sido
                                                                 mostrados en la Tabla 4. Con base en estos
   run3-                                                         resultados, nuestro sistema, presentado como
               0.433       0.431       0.432     0.541
  msc+isol
                                                                 LexFAR, ha logrado posicionarse en el lugar 7
                                                                 con respecto al resto de los participantes. Se ha
Tabla 3: Resultados            de     nuestros      tres         logrado un valor promedio de F1 de 0.432 y
experimentos                                                     una exactitud de 0.541.
                                                                     Con la ejecución de los diversos
                                                                 experimentos, se ha detectado que la clase
    Los resultados mostrados en la Tabla 3,                      “Ninguna / NONE” ocasiona resultados poco
exponen que nuestro mejor experimento se                         alentadores. Esto se debe, en gran medida, a
logra combinando los lexicones ML-SentiCon e                     que las entradas de los lexicones utilizados en
iSOL. Este experimento extiende el número de                     nuestro sistema (LexFAR) no aparecen en el
características ponderadas para cada tweet de                    conjunto de Tweets de dicha clase.
3084 para el primer experimento a 4016 para el                       Los resultados de los tres experimentos son
tercer experimento. Cabe señalar que la                          prometedores. El mejor resultado se ha logrado
exactitud se logra mejorar de 0.539 para el                      con el experimento denominado run3-msc+isol,
primer experimento (run1-msc usando el                           el cual utiliza dos lexicones (ML-SentiCon e
lexicón ML-SentiCon) a 0.541 con el tercer                       iSOL). Sin embargo, es notorio que el
experimento (run3-msc+isol usando los                            experimento 1, que solo utiliza el lexicón ML-
lexicones ML-SentiCon + iSOL).                                   SentiCon, ha logrado resultados similares al
    Los resultados de los diversos equipos o                     experimento 3. Esto se debe a la similitud de las
sistemas son clasificados por las medidas                        entradas de los lexicones, ya que iSOL se
Macro-F1 y exactitud (Acc). Por ello, en la                      interpone, en gran medida, a ML-SentiCon.
Tabla 4, se muestran los resultados del mejor                        Adicionalmente, es notable que el segundo
experimento por equipo, para la “Tarea 1:                        experimento ha quedado por debajo del 0.5 de
Análisis de sentimientos a nivel de Tweet” del                   precisión. A pesar de esto, el sistema propuesto
TASS 2017, ordenados de mayor a menor de                         por el equipo LexFAR puede ser utilizado para
acuerdo a sus resultados logrados en las                         el análisis de sentimientos a nivel de tweet, con
medidas Macro-F1 y exactitud. Esto con la                        resultados satisfactorios.
finalidad de mostrar la posición de nuestro
equipo, LexFAR, con respecto al resto de
participantes.


                                                            55
                        José A. Reyes-Ortiz, Fabián Paniagua-Reyes, Belém Priego, Mireya Tovar


4   Conclusiones y trabajo futuro                              Bibliografía
En este artículo se ha presentado el sistema del               Alvarez-López, T., J. Juncal-Martínez, M. F.
equipo LexFAR de la Universidad Autónoma                          Gavilanes, E. Costa-Montenegro, F. J.
Metropolitana, unidad Azcapotzalco en                             González-Castano, H. Cerezo-Costas, y D.
colaboración con la Benemérita Universidad                        Celix-Salgado. 2015. GTI-Gradiant at TASS
Autónoma de Puebla para la tarea 1 del TASS                       2015: A Hybrid Approach for Sentiment
2017: Taller sobre Análisis Semántico en                          Analysis in Twitter. En Proceedings of TASS
SEPLN. El sistema presentado realiza el                           2015: Workshop on Sentiment Analysis at
análisis de sentimientos a nivel de tweet en                      SEPLN co-located with 31st SEPLN
español, utilizando lexicones de polaridades                      Conference (SEPLN 2015), páginas 35-40.
semánticas a nivel de lemas para el español. El
                                                               Baccianella, Stefano, Andrea Esuli, y Fabrizio
sistema etiqueta los tweets dependiendo la
                                                                 Sebastiani. 2010. Sentiwordnet 3.0: An
intensidad de la polaridad: Positivo (P),
                                                                 enhanced lexical resource for sentiment
Negativo (N), Neutro (NEU) o Ninguno
                                                                 analysis     and    opinion  mining.     En
(NONE).
                                                                 Proceedings of the Seventh conference on
    El sistema sometido aborda el análisis de
                                                                 International Language Resources and
sentimientos como una tarea de clasificación,
                                                                 Evaluation (ELRA), páginas 2200-2204.
utilizando el algoritmo de máquinas de soporte
vectorial y lexicones para los diversos                        Chang, Ch., y Ch. Lin. 2001. LIBSVM - A
experimentos enviados. Los lexicones ML-                         Library for Support Vector Machines. ACM
SentiCon, iSOL y un lexicón propio son                           Transactions on Intelligent Systems and
utilizados como el conjunto de características                   Technology (TIST), 2(3): 27-28.
que son ponderadas utilizando la métrica de                    Cruz, F. L., J. A. Troyano, B. Pontes, y F. J.
frecuencia de un término.
                                                                  Ortega. 2014. ML-SentiCon: Un lexicón
    Nuestro sistema ha logrado posicionarse en                    multilingüe de polaridades semánticas a
el séptimo lugar con respecto al resto de los                     nivel de lemas. Procesamiento del Lenguaje
participantes, considerando sus mejores                           Natural, 53: 113-120.
experimentos. Nuestro mejor experimento se
logra combinando los lexicones ML-SentiCon e                   Vilares, D., Y. Doval, M. A. Alonso, C.
iSOL, el cual obtuvo una exactitud de 0.541                       Gómez-Rodríguez. 2015. LyS at TASS
para el corpus de prueba del InterTASS.                           2015: Deep Learning Experiments for
Además, aun cuando el segundo experimento                         Sentiment Analysis on Spanish Tweets. En
ha quedado por debajo del 0.5 de precisión, el                    Proceedings of TASS 2015: Workshop on
sistema propuesto por el equipo LexFAR puede                      Sentiment Analysis at SEPLN co-located
ser utilizado para el análisis de sentimientos a                  with 31st SEPLN Conference (SEPLN
nivel de tweet, con resultados prometedores.                      2015), páginas 47-52.
    Como trabajo a futuro nos planteamos                       Díaz-Galiano, M. C., y A. Montejo-Ráez. 2015.
experimentar la utilización de otros lexicones,                   Participación de SINAI DW2Vec en TASS
para el español, combinando éstos para la                         2015. En Proceedings of TASS 2015:
incorporación de nuevas características al                        Workshop on Sentiment Analysis at SEPLN
sistema de clasificación de tweets en nivel de                    co-located with 31st SEPLN Conference
intensidad de polaridad.                                          (SEPLN 2015), páginas 59-64,
Agradecimientos                                                García-Cumbreras, M. Á., J. Villena-Román, E.
                                                                 M. Cámara, M. C. Díaz-Galiano, M. T.
Este trabajo fue apoyado, parcialmente, por la                   Martín-Valdivia, y L. A. U. López. 2016.
SEP/PRODEP,         con       el     proyecto                    Overview of TASS 2016. En Proceedings of
DSA/103.5/16/9852. Los autores, también,                         TASS 2016: Workshop on Sentiment
agradecen a la Universidad Autónoma                              Analysis at SEPLN co-located with 31st
Metropolitana y a la Benemérita Universidad                      SEPLN     Conference,      páginas   13-21,
Autónoma de Puebla.                                              Salamanca (España).
                                                               Garner, S.R. 1995. Weka: The Waikato
                                                                 environment for knowledge analysis. En
                                                                 Proceedings of the New Zealand Computer

                                                         56
               LexFAR en la competencia TASS 2017: Análisis de sentimientos en Twitter basado en lexicones


   Science Research       Students      Conference,
   páginas 57-64.
Martínez-Cámara, E., M. Á. García Cumbreras,
  M. T. Martín-Valdivia, y L. A. Ureña López.
  2015. SINAI-EMMA: Vectores de Palabras
  para el Análisis de Opiniones en Twitter. En
  Proceedings of TASS 2015: Workshop on
  Sentiment Analysis at SEPLN co-located
  with 31st SEPLN Conference (SEPLN
  2015), páginas 41-46.
Martínez-Cámara, E., M. C. Díaz-Galiano, M.
  Á. García-Cumbreras, M. García-Vega, y J.
  Villena-Román. 2017. Overview of TASS
  2017, En Proceedings of TASS 2017:
  Workshop on Semantic Analysis at SEPLN
  (TASS 2017), volumen 1896.
Molina-González, M. D., E. Martínez-Cámara,
  M. T. Martín-Valdivia, y J. M. Perea-
  Ortega. 2013. Semantic orientation for
  polarity classification in Spanish reviews.
  Expert Systems with Applications, 40(18):
  7250-7257.
Montejo-Ráez, A., y M. C. Díaz-Galiano. 2016.
  Participación de SINAI en TASS 2016. En
  Proceedings of TASS 2016: Workshop on
  Sentiment Analysis at SEPLN co-located
  with 31st SEPLN Conference, páginas 41-
  45.
Murillo, E. C., y G. M. Raventós. 2016.
  Evaluación de Modelos de Representación
  del Texto con Vectores de Dimensión
  Reducida para Análisis de Sentimiento. En
  Proceedings of TASS 2016: Workshop on
  Sentiment Analysis at SEPLN co-located
  with 31st SEPLN Conference, páginas 23-
  28.
Quirós, A., I. Segura-Bedmar, y P. Martínez.
  2016. LABDA at the 2016 TASS Challenge
  Task: Using Word Embeddings for the
  Sentiment Analysis Task. En Proceedings of
  TASS 2016: Workshop on Sentiment
  Analysis at SEPLN co-located with 31st
  SEPLN Conference, páginas 29-33.
Schmid, H. 1999. Improvements in part-of-
   speech tagging with an application to
   German. En Natural language processing
   using very large corpora, páginas 13-25.
   Springer Netherlands.




                                                           57