=Paper= {{Paper |id=Vol-2633/paper6 |storemode=property |title= Sistema de extracción de caracterı́sticas lingüı́sticas en español para tareas de Procesamiento del Lenguaje Natural (Extracting Spanish Linguistic Features for Natural Language Processing tasks) |pdfUrl=https://ceur-ws.org/Vol-2633/paper6.pdf |volume=Vol-2633 |authors=José Antonio Garcı́a-Dı́az }} == Sistema de extracción de caracterı́sticas lingüı́sticas en español para tareas de Procesamiento del Lenguaje Natural (Extracting Spanish Linguistic Features for Natural Language Processing tasks) == https://ceur-ws.org/Vol-2633/paper6.pdf
    Sistema de extracción de caracterı́sticas lingüı́sticas
        en español para tareas de Procesamiento del
                      Lenguaje Natural
 Extracting Spanish Linguistic Features for Natural Language
                      Processing tasks
                                       José Antonio Garcı́a-Dı́az1
                           1
                               Universidad de Murcia. Facultad de Informática.
                                  Departamento de Informática y Sistemas
                                         joseantonio.garcia8@um.es

          Resumen: El español es el tercer idioma más utilizado en Internet con, aproxima-
          damente, 344 millones de usuarios; este hecho, unido al auge que supuso la Web
          2.0. dando a los usuarios un rol principal en la creación de contenido, ha propiciado
          que el Procesamiento del Lenguaje Natural (PLN) se haya convertido en una de
          las tecnologı́as destacadas con aplicaciones en la traducción automática, en sistemas
          conversacionales o en el desarrollo de filtros de correo no deseado. Sin embargo, en
          cuanto a recursos disponibles, el PLN en español se encuentra todavı́a en una fase
          temprana si lo comparamos con otros idiomas. Además, algunos de esos recursos
          disponibles han sido desarrollados como traducciones de su equivalente en inglés,
          por lo que pueden perder caracterı́sticas propias del español que no están presentes
          en el idioma para el que se diseñó el recurso. Por lo tanto, el objetivo de esta tesis
          doctoral es el desarrollo de un sistema de extracción de caracterı́sticas lingüı́sticas de
          textos en español, con aplicaciones en diferentes campos del PLN, como la minerı́a
          de opiniones, detección de plagios o análisis de legibilidad.
          Palabras clave: Procesamiento del Lenguaje Natural, Minerı́a de Opiniones,
          Aprendizaje supervisado, extracción de caracterı́sticas lingüı́sticas
          Abstract: Spanish is one of the most popular languages on the Internet with ap-
          proximately 344 million users; this fact, in conjunction with the rising of the Web
          2.0. and the leading role of the users in the creation of content, has leaded Natural
          Language Processing (NLP) to become one of the outstanding technologies, with ap-
          plications in machine translation, conversational systems or spam filters. However,
          some of the available resources are still at an early stage compared to other langua-
          ges. In addition, some of the tools available are translations of their equivalent in
          English, so they may lose characteristics of Spanish. Therefore, the objective of this
          doctoral thesis is the development of a system of extraction of linguistic characteris-
          tics of texts in Spanish, which has applications in different fields of the NLP, such
          as opinion mining, plagiarism detection, or readability analysis.
          Keywords: Natural Language Processing, Opinion Mining, Supervised Machine-
          learning, Linguistic Feature Extraction

1        Introducción                                           nibles para poder procesar esa información
                                                                 de manera eficiente están diseñados para el
Cada dı́a se generan grandes volúmenes de
                                                                 inglés. Por este motivo, la comunidad cientı́fi-
contenido en Internet. Dentro de la variedad
                                                                 ca está haciendo verdaderos esfuerzos pa-
dialéctica que se existe en la red, el español
                                                                 ra crear herramientas de Procesamiento del
tiene una posición relevante, siendo actual-
                                                                 Lenguaje Natural, o PLN, para el lenguaje
mente el tercer idioma más utilizado en In-
                                                                 español.
ternet, sólo por detrás del inglés y del chino
1 . Sin embargo, la mayorı́a de recursos dispo-                     Para que un ordenador sea capaz de ma-
                                                                 nejar textos escritos en lenguaje natural hay
    1
        https://www.internetworldstats.com/stats7.htm            que codificarlo de manera adecuada. Una es-
Lloret, E.; Saquete, E.; Martı́nez-Barco, P.; Sepúlveda-Torres, R. (eds.) Proceedings of the Doctoral Symposium of the
XXXV International Conference of the Spanish Society for Natural Language Processing (SEPLN 2019), p. 32–37
Bilbao, Spain, September 25th 2019. Copyright c 2019 his paper by its authors. Use permitted under Creative
Commons License Attribution 4.0 International (CC BY 4.0).
trategia consiste en representar un texto me-                Esparza et al., 2007), donde se identificaron
diante un vector formado por el porcenta-                    una serie de puntos a mejorar: (1) problemas
je de palabras psico-linguisticamente relevan-               de traducción entre el inglés y el español,
tes, con el objetivo de clasificar palabras que              (2) el arbitrario diseño de las dimensiones,
indiquen qué dice el texto, y cómo lo dice. Es-            (3) diferencias gramaticales no recogidas en-
tos vectores han probado ser efectivos a la ho-              tre el español y el inglés, (4) conjugaciones
ra de clasificar documentos. Por citar algunos               verbales insuficientes y, (5) la falta de estu-
ejemplos, se ha aplicado a estudios de autorı́a              dios con fuentes españolas. Además, es im-
(Gaston et al., 2018) o la predicción de resul-             portante destacar que LIWC es una herra-
tados electorales (Tumasjan et al., 2010).                   mienta comercial, lo que terminó de motivar
    Aunque existen herramientas de extrac-                   el desarrollo de una herramienta libre para la
ción de caracterı́sticas lingüı́sticas en español,        comunidad de PLN en español.
estas no recogen todas las caracterı́sticas re-
levantes del español debido, principalmente,                2.2    Minerı́a de Opiniones
a que son traducciones o adaptaciones de la                  El objetivo de la Minerı́a de Opiniones es cla-
versión en inglés. Con el ánimo de suplir esta            sificar si la percepción subjetiva de los usua-
carencia, se pretende el diseño y la implanta-              rios hacı́a un tema concreto es positiva, nega-
ción un sistema de extracción de caracterı́sti-            tiva o neutra (Esuli y Sebastiani, 2005). En
cas lingüı́sticas especı́fico para el idioma es-            función del nivel de profundidad del análisis
pañol con aplicaciones en (1) minerı́a de opi-              deseado, podemos distinguir entre: (1) análi-
niones, (2) medición del nivel de vocabulario               sis a nivel de documento, (2) análisis a nivel
de regiones concretas, (3) tests de legibilidad,             de sentencia, o (3) análisis a nivel de aspecto.
(4) estilometrı́a y (5) detección de plagios.               En el análisis a nivel de documento, el tex-
    El resto del documento está divido en                   to es clasificado como un todo, devolviendo
los siguientes apartados. La sección 2 des-                 si la opinión general es positiva, negativa o
cribe LIWC, el estándar de facto de análisis               neutra. En una clasificación a nivel de sen-
sintáctico ası́ como se citan trabajos relevan-             tencia el texto se divide en frases y cada una
tes dentro de la Minerı́a de Opiniones apli-                 se clasifica de manera individual. Por último,
cando esta herramienta. La sección 3 detalla                en la clasificación a nivel de aspecto, se tra-
la metodologı́a propuesta, haciendo especial                 ta de clasificar cada aspecto o caracterı́stica
hincapié en los prototipos que se están crean-             detectada en el documento.
do. En la sección 4 se listan tres estudios so-                 La obtención de la subjetividad se pue-
bre diferentes dominios en los que se está eva-             de realizar mediante (1) Orientación semánti-
luando el prototipo. Por último, la sección 5              ca y (2) Aprendizaje computacional. La
sugiere distintos temas de debate que se están              orientación Semántica consiste en compa-
planteando durante la realización de esta te-               rar los textos con lexicones compuestos por
sis doctoral.                                                palabras que reflejan sentimientos, como
                                                             WordNet-Affect (Strapparava, Valitutti, y
2     Trabajo relacionado                                    others, 2004) o SentiWordNet (Baccianella,
En la siguiente sección se describe LIWC,                   Esuli, y Sebastiani, 2010). Por otro lado, los
un estándar de facto para tareas de análi-                 métodos de aprendizaje computacional se ba-
sis lingüı́stico (Ver sección 2.1) ası́ como in-           san en entrenar un modelo a partir de un con-
vestigaciones relacionadas con la Minerı́a de                junto de instancias ya clasificadas. El modelo
Opiniones (ver sección 2.2) .                               resultante debe de ser capaz de replicar el
                                                             comportamiento humano.
2.1    LIWC                                                      Dentro de las técnicas de aprendizaje
LIWC (Tausczik y Pennebaker, 2010) es una                    computacional, se pueden extraer distintos ti-
herramienta para la extracción de carac-                    pos de caracterı́sticas. La técnica más básica
terı́sticas lingüı́sticas capaz de analizar un              de los modelos de aprendizaje supervisado, es
conjunto de textos y generar un vector con                   decir, del aprendizaje a través de ejemplos,
los porcentajes de una serie de categorı́as                  es conocida como Bolsa de Palabras (Bag of
preestablecidas. Aunque fue originalmente                    Words) y consiste en relacionar la frecuencia
diseñada para el inglés, LIWC cuenta con                   de ciertas expresiones con las opiniones del
una versión adaptada al español. Este proce-               conjunto de entrenamiento. Pese a su simpli-
so de traducción fue analizado en (Ramı́rez-                cidad, el modelo de Bolsa de Palabras fun-
                                                        33
ciona bastante bien; sin embargo, presenta                 (Ramı́rez-Esparza et al., 2007).
ciertas desventajas. En primer lugar, porque                   UMUTextStats es extensible y permite de-
puede sobre-entrenar el modelo, haciéndolo                finir dimensiones a partir de un conjunto de
demasiado especı́fico para el conjunto de en-              dimensiones abstractas predefinidas, donde
trenamiento pero fallando con nuevas instan-               destacamos:
cias. En segundo lugar, porque considera las
palabras de manera aislada sin recoger la re-                     Dimensiones de diccionario. Permite en
lación semántica entre el texto, perdiendo in-                  encontrar expresiones regulares que apa-
formación relevante para la clasificación.                      rezcan en un determinado catálogo de
     Gran cantidad de estudios de minerı́a de                     términos. Esta dimensión también per-
opiniones están centrados exclusivamente en                      mite indicar contraejemplos. Mediante
documentos en inglés, quizás debido a la falta                  los contraejemplos es más fácil diseñar
de recursos en otros idiomas (Martı́n-Valdivia                    una expresión regular sencilla sobre un
et al., 2013). Además, un aspecto importan-                      término, y luego listar las excepciones,
te sobre el cual la subjetividad y el análisis                   como ocurre con el género gramatical.
de sentimientos requieren mayores esfuerzos                       Dimensiones basadas en expresiones re-
está relacionado con el análisis de textos mul-                 gulares. Permite, por ejemplo, especifi-
tilı́ngües. La anotación manual de recursos                     car expresiones regulares para detectar
es una tarea tediosa y costosa, por lo que                        expresiones entrecomilladas, lo que es in-
existen muy pocos corpus y diccionarios para                      dicativo del uso de citas textuales o pa-
el análisis del sentimiento. Para superar este                   labras que adquieren algún determinado
problema, los investigadores han propuesto                        tono especial.
métodos para adaptar los recursos existentes
y las herramientas para el análisis del sen-                     Dimensiones basadas en en tipografı́a.
timiento desarrollado para el idioma inglés                      Permite detectar el porcentaje de pala-
para crear recursos en otros idiomas. En es-                      bras escritas en mayúsculas, lo cuál pue-
te sentido, los lexicones y los corpus anota-                     de ser indicio de tono elevado de la voz,
dos se han transformado a nuevos lenguajes                        caracterı́stica interesante para la detec-
utilizando diccionarios bilingües, bootstrap-                    ción de violencia a través de Internet.
ping monolingüe y multilingüe o traducción
automática (Balahur y Turchi, 2014). Sin em-                  Además de estas dimensiones genéricas,
bargo, estos métodos dependen de la dispo-                se han implementado dimensiones especı́ficas
nibilidad y la precisión de los motores de tra-           como, por ejemplo, una dimensión para cap-
ducción automática.                                      turar errores gramaticales a partir de la li-
                                                           brerı́a PSPell2 o dimensiones para la detec-
3     Descripción de la metodologı́a                      ción de verbos, a partir del POSTagger de
      propuesta                                            Stanford3 .
                                                               Una ventaja de UMUTextStats frente a
En la siguiente sección se describe el sistema            otras aplicaciones es que permite operar si-
de extracción de caracterı́sticas lingüı́sticas          multáneamente con distingas versiones del
en español (Ver sección 3.1) una herramienta             mismo texto. Por lo tanto, algunas dimensio-
de clasificación de corpus en Twitter, para la            nes pueden operar sobre una versión filtrada
obtención de corpus de evaluación de la he-              que facilita la búsqueda de términos en el dic-
rramienta (Ver sección 3.2) y, por último, la            cionario, mientras que la versión original se
interfaz gráfica de la aplicación (Ver sección          puede utilizar para medir caracterı́sticas co-
3.3).                                                      mo el porcentaje de palabras en mayúsculas.
3.1    UMUTextStats                                        3.2      UMUCorpusClassifier
UMUTextStats es un sistema de extracción                  Con objeto de facilitar el diseño de experi-
de caracterı́sticas lingüı́sticas diseñado para          mentos para verificar UMUTextSTats, se ha
el español. Al igual que LIWC, este sistema               desarrollado también una herramienta de ex-
es capaz de extraer un vector formado por los              tracción de tweets llamada UMUCorpusClas-
porcentajes de palabras y expresiones que en-              sifier. Esta herramienta permite recolectar
cajan en una serie de caracterı́sticas lingüı́sti-
cas. Sin embargo, se está tratando de resolver              2
                                                                 https://www.php.net/manual/en/book.pspell.php
las deficiencias que se encontraron en LIWC                  3
                                                                 https://nlp.stanford.edu/software/tagger.shtml

                                                      34
corpus de entrenamiento a partir de una ca-             UMUTextStats en diferentes dominios: (1) el
dena de búsqueda y, opcionalmente, una lo-             estudio de la sátira, (2) infodemiologı́a y (3)
calización geográfica.                                el análisis de opiniones sobre economı́a.
   Los tweets obtenidos se pueden clasificar
de dos maneras. Por un lado, mediante su-               4.1    Sátira
pervisión distante (Go, Bhayani, y Huang,              Además de divertida, la sátira es una he-
2009) estableciendo algún tipo de regla au-            rramienta constructiva que permite a la so-
tomática. Por ejemplo, algunos estudios de             ciedad detectar y sobreponerse a sus debili-
la búsqueda de tweets satı́ricos han parti-            dades. Sin embargo, aunque algunos autores
do de la asumpción de que todos los tweets             han comparado el periodismo satı́rico con las
con el hashtag #sarcasm son irónicos (Lie-             noticias falsas, estas difieren en la intenciona-
brecht, Kunneman, y van Den Bosch, 2013).               lidad. Mientras que la sátira pretende crear
Por otro lado, mediante clasificación manual,          una versión de la realidad donde nadie espera
donde la calidad de la clasificación depende           que sea real, las noticias falsas tienen la inten-
del número de usuarios que clasifican el mis-          cionalidad de confundir, generar odio, prejui-
mo documento de manera independiente. De                cio o decepción. Debido a la gran capacidad
esta manera, el sistema potencia cuáles son            de difusión de las noticias hoy en dı́a, hemos
los documentos que tienen más consenso en-             verificado la eficacia de UMUTextStats pa-
tre los usuarios descartando los que generen            ra entrenar modelos capaces de distinguir en-
más controversia. Independiente del sistema            tre noticias satı́ricas y noticias reales ya que,
de clasificación, cada corpus se permite el uso        aunque la sátira no es real, no deberı́a de ser
de una escala diferente, aunque por defecto se          considerada contenido pernicioso. Además, la
usa una configuración de cinco niveles: muy            clasificación de la sátira puede ayudar a otras
positiva, positiva, neutra, negativa, muy ne-           tareas del Procesamiento del Lenguaje Natu-
gativa y fuera del dominio.                             ral, como la Minerı́a de Opiniones, porque el
3.3        Interfaz de usuario                          significado implı́cito de textos satı́ricos difie-
                                                        re del texto explı́cito. Consecuentemente, la
La interfaz gráfica de UMUTextStats está in-
                                                        identificación de contenido satı́rico nos ayu-
tegrada con distintas fuentes de donde re-
                                                        darı́a a: (1) diferenciar entre contenido obje-
coger documentos. En primer lugar, se pue-
                                                        tivo y divertido, (2) filtrar noticias falsas sin
den obtener documentos directamente desde
                                                        perjudicar el contenido divertido, y (3) identi-
la API de Twitter. En segundo lugar, se pue-
                                                        ficar contenido que utiliza lenguaje figurado.
den subir documentos con los textos en dis-
tintos formatos, como CSV, ficheros de texto                Siguiendo esta lı́nea de investigación, se
plano o ficheros comprimidos. En tercer lu-             han extraı́do caracterı́sticas lingüı́sticas a
gar, se pueden comprobar artı́culos de la Wi-           partir de varios corpus encontrados en la bi-
kipedia a partir de especificar el tı́tulo. Por         bliografı́a, además de la recolección de un
último, se ha integrado una comunicación di-          nuevo corpus balanceado formado por 10.000
recta con UMUCorpusClassifier. Los vectores             tweets, escritos tanto en castellano y en es-
de caracterı́sticas generados se pueden expor-          pañol de México. Para la clasificación de
tar en diferentes formatos como JSON, CSV,              los tweets se ha seguido una estrategia de
HTML y ficheros ARFF para la suite WE-                  supervisión distante basando en la presun-
KA4 .                                                   ción de que los tweets son satı́ricos sólo si
    Como elemento adicional, la interfaz per-           provienen de un medio satı́rico, siguiendo
mite efectuar comparativas con otros mode-              la misma idea que (del Pilar Salas-Zárate
los. Actualmente, está diseñado para compa-           et al., 2017) y (Barbieri, Ronzano, y Sag-
rarse con un modelo de N-Gramas generado                gion, 2015). Además, hemos podido compa-
a partir de secuencias de palabras o de carac-          rar nuestro modelo con estos trabajos previos
teres.                                                  y con un modelo base formado por una Bolsa
                                                        de Palabras.
4        Metodologı́a y experimentos                        Además de las dimensiones genéricas, en
         propuestos                                     este experimento se crearon dos tipos de cate-
                                                        gorı́as más. Una categorı́a especı́fica para ex-
En la siguiente sección se describen los expe-
                                                        traer caracterı́sticas propias de Twitter, como
rimentos llevados a cabo para la validación de
                                                        el uso de menciones, hashtags o emoticonos, y
    4
        https://www.cs.waikato.ac.nz/ml/weka/           otra categorı́a especı́fica para capturar técni-
                                                   35
cas propias del lenguaje figurativo a partir               como el otro corpus. Los resultados de este
de la taxonomı́a especificada en (Roberts y                experimento se pueden consultar en (Garcı́a-
Kreuz, 1994) y que consta de (1) hipérboles,              Dı́az et al., 2018c).
(2) idiotismos, (3) peticiones indirectas, (4)
ironı́a verbal, (5) atenuación, (6) metáforas,           5   Temas especı́ficos a discutir
(7) preguntas retóricas y (8) sı́miles.                       sobre la investigación
   Los resultados obtenidos han sido positi-
                                                           UMUTextStats, al igual que LIWC, tiene un
vos mejorando UMUTextStats a los modelos
                                                           sistema arbitrario de dimensiones. Para solu-
obtenidos en (del Pilar Salas-Zárate et al.,
                                                           cionar el problema, nos hemos puesto en con-
2017) y (Barbieri, Ronzano, y Saggion, 2015).
                                                           tacto con lingüı́sticas de la Universidad de
Este trabajo ha sido enviado para su publi-
                                                           Murcia, para asesorarnos en establecer una
cación y se encuentra ahora mismo en fase de
                                                           mejor taxonomı́a.
revisión.
                                                               Además, se está analizando cuando ciertas
4.2    Infodemiologı́a                                     expresiones, como ”Nueva York ”deben de ser
                                                           analizadas como una entidad única o cuan-
La infodemiologı́a es la ciencia que investiga             do las palabras que lo conforman deben de
el uso de información disponible en Internet              identificarse en otras categorı́as. En este sen-
con el fin de mejorar los servicios sanitarios.            tido, la palabra ”Nueva”no deberı́a de con-
En este sentido, existen dos grandes tipos de              tabilizar en otras categorı́as como adjetivos.
enfoque. Debido al impacto socio-económico                Sin embargo, si que hay casos donde las pa-
causado por las enfermedades infecciosas he-               labras si que deben de aparecer en distintas
mos realizado un conjunto de experimentos                  categorı́as. Para solucionarlo, se ha planteado
con la colaboración de la Universidad de Gua-             usar un sistema de reconocimiento de entida-
yaquil. En concreto, se recolectó y se clasificó         des nombradas para tratar estos elementos de
un corpus formado por tweets procedentes de                manera aislada.
Ecuador a partir de palabras clave de virus
                                                               Sobre la herramienta de UMUCorpusClas-
como el Zika o el Chikungunya. Para estos
                                                           sifier se pretende mejorar el sistema de tweets
corpus utilizamos la herramienta UMUCor-
                                                           duplicados. Durante los experimentos se han
pusClassifier (Ver sección 3.2) , para recolec-
                                                           detectado casos de tweets muy parecidos don-
tar el corpus y para realizar una clasificación
                                                           de sólo se ha variado alguna coma o sı́mbolo
manual. Para ello, contamos con 20 estudian-
                                                           de puntuación. Para esto, se han buscado di-
tes de la universidad de Guayaquil. que rea-
                                                           ferentes herramientas como la propuesta en
lizaron un total de 51.127 clasificaciones ma-
                                                           (Rieck y Wressnegger, 2016), pero no se han
nuales. Como los alumnos clasificaron varias
                                                           implantado todavı́a.
veces los mismos tweets existe cierto consenso
en cuanto a las opiniones, y pudimos descar-
tar los tweets que generaban más polémica.
                                                           Agradecimientos
Se han llevado ya varios experimentos previos              Este trabajo ha sido apoyado por la Agen-
que se han publicado en (Garcı́a-Dı́az et al.,             cia Estatal de Investigación (AEI) y el Fon-
2018a) y (Garcı́a-Dı́az et al., 2018b).                    do Europeo de Desarrollo Regional (FEDER)
                                                           a través del proyecto KBS4FIA (TIN2016-
4.3    Economı́a                                           76323-R)
En tercer lugar, se ha aplicado este estudio al
dominio de la economı́a. El objetivo de esta               Bibliografı́a
tarea era analizar mensajes de usuarios en re-             Baccianella, S., A. Esuli, y F. Sebastiani.
des sociales para determinar qué combinación               2010. Sentiwordnet 3.0: an enhanced le-
de caracterı́sticas lingüı́sticas podrı́a predecir          xical resource for sentiment analysis and
opiniones positivas y negativas con respecto                 opinion mining. En Lrec, volumen 10,
de la economı́a. Este estudio se llevado por                 páginas 2200–2204.
dos vı́as. En primer lugar, se realizó un análi-
sis preliminar con un corpus balanceado de                 Balahur, A. y M. Turchi. 2014. Comparati-
1.000 tweets positivos y 1.000 tweets negati-                ve experiments using supervised learning
vos. Estos tweets fueron clasificados manual-                and machine translation for multilingual
mente por personal del laboratorio. En este                  sentiment analysis. Computer Speech &
sentido, el corpus, no tiene tanta aceptación               Language, 28(1):56–75.
                                                      36
Barbieri, F., F. Ronzano, y H. Saggion.                    tant supervision. CS224N Project Report,
  2015. Is this tweet satirical? a compu-                  Stanford, 1(12):2009.
  tational approach for satire detection in
                                                        Liebrecht, C., F. Kunneman, y A. van
  spanish. Procesamiento del Lenguaje Na-
                                                           Den Bosch. 2013. The perfect solu-
  tural, 55:135–142.
                                                           tion for detecting sarcasm in tweets#
del Pilar Salas-Zárate, M., M. A. Paredes-                not. En Proceedings of the 4th Workshop
   Valverde, M. A. Rodriguez-Garcia,                       on Computational Approaches to Subjecti-
   R. Valencia-Garcı́a, y G. Alor-Hernández.              vity. New Brunswick, NJ: ACL.
   2017.    Automatic detection of satire
                                                        Martı́n-Valdivia, M.-T., E. Martı́nez-Cáma-
   in twitter: A psycholinguistic-based
                                                          ra, J.-M. Perea-Ortega, y L. A. UreñA-
   approach.     Knowledge-Based Systems,
                                                          López. 2013. Sentiment polarity detec-
   128:20–33.
                                                          tion in spanish reviews combining supervi-
Esuli, A. y F. Sebastiani. 2005. Determi-                 sed and unsupervised approaches. Expert
  ning the semantic orientation of terms th-              Systems with Applications, 40(10):3934–
  rough gloss classification. En Proceedings              3942.
  of the 14th ACM international conferen-
                                                        Ramı́rez-Esparza, N., J. W. Pennebaker,
  ce on Information and knowledge mana-
                                                          F. A. Garcı́a, R. Suriá Martı́nez, y others.
  gement, páginas 617–624. ACM.
                                                          2007. La psicologı́a del uso de las pala-
Garcı́a-Dı́az, J. A., Ó. Apolinario-Arzube,              bras: Un programa de computadora que
  J. Medina-Moreira, H. Luna-Aveiga,                      analiza textos en español. Revista mexi-
  K. Lagos-Ortiz, y R. Valencia-Garcı́a.                  cana de psicologı́a, 24(1):85–99.
  2018a.      Sentiment analysis on tweets              Rieck, K. y C. Wressnegger. 2016. Harry: A
  related to infectious diseases in south                  tool for measuring string similarity. The
  america. En Proceedings of the Euro                      Journal of Machine Learning Research,
  American Conference on Telematics and                    17(1):258–262.
  Information Systems, página 21. ACM.
                                                        Roberts, R. M. y R. J. Kreuz. 1994. Why do
Garcı́a-Dı́az, J. A., O. Apolinario-Arzube,               people use figurative language? Psycholo-
  J. Medina-Moreira, J. O. Salavarria-                    gical science, 5(3):159–163.
  Melo, K. Lagos-Ortiz, H. Luna-Aveiga, y
  R. Valencia-Garcı́a. 2018b. Opinion mi-               Strapparava, C., A. Valitutti, y others. 2004.
  ning for measuring the social perception                 Wordnet affect: an affective extension of
  of infectious diseases. an infodemiology                 wordnet. En Lrec, volumen 4, páginas
  approach. En International Conference                    1083–1086. Citeseer.
  on Technologies and Innovation, páginas              Tausczik, Y. R. y J. W. Pennebaker. 2010.
  229–239. Springer.                                      The psychological meaning of words: Liwc
Garcı́a-Dı́az, J. A., M. P. Salas-Zárate, M. L.          and computerized text analysis methods.
  Hernández-Alcaraz, R. Valencia-Garcı́a, y              Journal of language and social psychology,
  J. M. Gómez-Berbı́s. 2018c. Machine lear-              29(1):24–54.
  ning based sentiment analysis on spanish              Tumasjan, A., T. O. Sprenger, P. G. Sandner,
  financial tweets. En World Conference                   y I. M. Welpe. 2010. Predicting elections
  on Information Systems and Technologies,                with twitter: What 140 characters reveal
  páginas 305–311. Springer.                             about political sentiment. En Fourth in-
Gaston, J., M. Narayanan, G. Dozier, D. L.                ternational AAAI conference on weblogs
  Cothran, C. Arms-Chavez, M. Rossi,                      and social media.
  M. C. King, y J. Xu. 2018. Authorship at-
  tribution vs. adversarial authorship from
  a liwc and sentiment analysis perspecti-
  ve. En 2018 IEEE Symposium Series on
  Computational Intelligence (SSCI), pági-
  nas 920–927. IEEE.
Go, A., R. Bhayani, y L. Huang. 2009.
  Twitter sentiment classification using dis-
                                                   37