Sistema de extracción de caracterı́sticas lingüı́sticas
        en español para tareas de Procesamiento del
                      Lenguaje Natural
 Extracting Spanish Linguistic Features for Natural Language
                      Processing tasks
                                       José Antonio Garcı́a-Dı́az1
                           1
                               Universidad de Murcia. Facultad de Informática.
                                  Departamento de Informática y Sistemas
                                         joseantonio.garcia8@um.es

          Resumen: El español es el tercer idioma más utilizado en Internet con, aproxima-
          damente, 344 millones de usuarios; este hecho, unido al auge que supuso la Web
          2.0. dando a los usuarios un rol principal en la creación de contenido, ha propiciado
          que el Procesamiento del Lenguaje Natural (PLN) se haya convertido en una de
          las tecnologı́as destacadas con aplicaciones en la traducción automática, en sistemas
          conversacionales o en el desarrollo de filtros de correo no deseado. Sin embargo, en
          cuanto a recursos disponibles, el PLN en español se encuentra todavı́a en una fase
          temprana si lo comparamos con otros idiomas. Además, algunos de esos recursos
          disponibles han sido desarrollados como traducciones de su equivalente en inglés,
          por lo que pueden perder caracterı́sticas propias del español que no están presentes
          en el idioma para el que se diseñó el recurso. Por lo tanto, el objetivo de esta tesis
          doctoral es el desarrollo de un sistema de extracción de caracterı́sticas lingüı́sticas de
          textos en español, con aplicaciones en diferentes campos del PLN, como la minerı́a
          de opiniones, detección de plagios o análisis de legibilidad.
          Palabras clave: Procesamiento del Lenguaje Natural, Minerı́a de Opiniones,
          Aprendizaje supervisado, extracción de caracterı́sticas lingüı́sticas
          Abstract: Spanish is one of the most popular languages on the Internet with ap-
          proximately 344 million users; this fact, in conjunction with the rising of the Web
          2.0. and the leading role of the users in the creation of content, has leaded Natural
          Language Processing (NLP) to become one of the outstanding technologies, with ap-
          plications in machine translation, conversational systems or spam filters. However,
          some of the available resources are still at an early stage compared to other langua-
          ges. In addition, some of the tools available are translations of their equivalent in
          English, so they may lose characteristics of Spanish. Therefore, the objective of this
          doctoral thesis is the development of a system of extraction of linguistic characteris-
          tics of texts in Spanish, which has applications in different fields of the NLP, such
          as opinion mining, plagiarism detection, or readability analysis.
          Keywords: Natural Language Processing, Opinion Mining, Supervised Machine-
          learning, Linguistic Feature Extraction

1        Introducción                                           nibles para poder procesar esa información
                                                                 de manera eficiente están diseñados para el
Cada dı́a se generan grandes volúmenes de
                                                                 inglés. Por este motivo, la comunidad cientı́fi-
contenido en Internet. Dentro de la variedad
                                                                 ca está haciendo verdaderos esfuerzos pa-
dialéctica que se existe en la red, el español
                                                                 ra crear herramientas de Procesamiento del
tiene una posición relevante, siendo actual-
                                                                 Lenguaje Natural, o PLN, para el lenguaje
mente el tercer idioma más utilizado en In-
                                                                 español.
ternet, sólo por detrás del inglés y del chino
1 . Sin embargo, la mayorı́a de recursos dispo-                     Para que un ordenador sea capaz de ma-
                                                                 nejar textos escritos en lenguaje natural hay
    1
        https://www.internetworldstats.com/stats7.htm            que codificarlo de manera adecuada. Una es-
Lloret, E.; Saquete, E.; Martı́nez-Barco, P.; Sepúlveda-Torres, R. (eds.) Proceedings of the Doctoral Symposium of the
XXXV International Conference of the Spanish Society for Natural Language Processing (SEPLN 2019), p. 32–37
Bilbao, Spain, September 25th 2019. Copyright c 2019 his paper by its authors. Use permitted under Creative
Commons License Attribution 4.0 International (CC BY 4.0).
trategia consiste en representar un texto me-                Esparza et al., 2007), donde se identificaron
diante un vector formado por el porcenta-                    una serie de puntos a mejorar: (1) problemas
je de palabras psico-linguisticamente relevan-               de traducción entre el inglés y el español,
tes, con el objetivo de clasificar palabras que              (2) el arbitrario diseño de las dimensiones,
indiquen qué dice el texto, y cómo lo dice. Es-            (3) diferencias gramaticales no recogidas en-
tos vectores han probado ser efectivos a la ho-              tre el español y el inglés, (4) conjugaciones
ra de clasificar documentos. Por citar algunos               verbales insuficientes y, (5) la falta de estu-
ejemplos, se ha aplicado a estudios de autorı́a              dios con fuentes españolas. Además, es im-
(Gaston et al., 2018) o la predicción de resul-             portante destacar que LIWC es una herra-
tados electorales (Tumasjan et al., 2010).                   mienta comercial, lo que terminó de motivar
    Aunque existen herramientas de extrac-                   el desarrollo de una herramienta libre para la
ción de caracterı́sticas lingüı́sticas en español,        comunidad de PLN en español.
estas no recogen todas las caracterı́sticas re-
levantes del español debido, principalmente,                2.2    Minerı́a de Opiniones
a que son traducciones o adaptaciones de la                  El objetivo de la Minerı́a de Opiniones es cla-
versión en inglés. Con el ánimo de suplir esta            sificar si la percepción subjetiva de los usua-
carencia, se pretende el diseño y la implanta-              rios hacı́a un tema concreto es positiva, nega-
ción un sistema de extracción de caracterı́sti-            tiva o neutra (Esuli y Sebastiani, 2005). En
cas lingüı́sticas especı́fico para el idioma es-            función del nivel de profundidad del análisis
pañol con aplicaciones en (1) minerı́a de opi-              deseado, podemos distinguir entre: (1) análi-
niones, (2) medición del nivel de vocabulario               sis a nivel de documento, (2) análisis a nivel
de regiones concretas, (3) tests de legibilidad,             de sentencia, o (3) análisis a nivel de aspecto.
(4) estilometrı́a y (5) detección de plagios.               En el análisis a nivel de documento, el tex-
    El resto del documento está divido en                   to es clasificado como un todo, devolviendo
los siguientes apartados. La sección 2 des-                 si la opinión general es positiva, negativa o
cribe LIWC, el estándar de facto de análisis               neutra. En una clasificación a nivel de sen-
sintáctico ası́ como se citan trabajos relevan-             tencia el texto se divide en frases y cada una
tes dentro de la Minerı́a de Opiniones apli-                 se clasifica de manera individual. Por último,
cando esta herramienta. La sección 3 detalla                en la clasificación a nivel de aspecto, se tra-
la metodologı́a propuesta, haciendo especial                 ta de clasificar cada aspecto o caracterı́stica
hincapié en los prototipos que se están crean-             detectada en el documento.
do. En la sección 4 se listan tres estudios so-                 La obtención de la subjetividad se pue-
bre diferentes dominios en los que se está eva-             de realizar mediante (1) Orientación semánti-
luando el prototipo. Por último, la sección 5              ca y (2) Aprendizaje computacional. La
sugiere distintos temas de debate que se están              orientación Semántica consiste en compa-
planteando durante la realización de esta te-               rar los textos con lexicones compuestos por
sis doctoral.                                                palabras que reflejan sentimientos, como
                                                             WordNet-Affect (Strapparava, Valitutti, y
2     Trabajo relacionado                                    others, 2004) o SentiWordNet (Baccianella,
En la siguiente sección se describe LIWC,                   Esuli, y Sebastiani, 2010). Por otro lado, los
un estándar de facto para tareas de análi-                 métodos de aprendizaje computacional se ba-
sis lingüı́stico (Ver sección 2.1) ası́ como in-           san en entrenar un modelo a partir de un con-
vestigaciones relacionadas con la Minerı́a de                junto de instancias ya clasificadas. El modelo
Opiniones (ver sección 2.2) .                               resultante debe de ser capaz de replicar el
                                                             comportamiento humano.
2.1    LIWC                                                      Dentro de las técnicas de aprendizaje
LIWC (Tausczik y Pennebaker, 2010) es una                    computacional, se pueden extraer distintos ti-
herramienta para la extracción de carac-                    pos de caracterı́sticas. La técnica más básica
terı́sticas lingüı́sticas capaz de analizar un              de los modelos de aprendizaje supervisado, es
conjunto de textos y generar un vector con                   decir, del aprendizaje a través de ejemplos,
los porcentajes de una serie de categorı́as                  es conocida como Bolsa de Palabras (Bag of
preestablecidas. Aunque fue originalmente                    Words) y consiste en relacionar la frecuencia
diseñada para el inglés, LIWC cuenta con                   de ciertas expresiones con las opiniones del
una versión adaptada al español. Este proce-               conjunto de entrenamiento. Pese a su simpli-
so de traducción fue analizado en (Ramı́rez-                cidad, el modelo de Bolsa de Palabras fun-
                                                        33
ciona bastante bien; sin embargo, presenta                 (Ramı́rez-Esparza et al., 2007).
ciertas desventajas. En primer lugar, porque                   UMUTextStats es extensible y permite de-
puede sobre-entrenar el modelo, haciéndolo                finir dimensiones a partir de un conjunto de
demasiado especı́fico para el conjunto de en-              dimensiones abstractas predefinidas, donde
trenamiento pero fallando con nuevas instan-               destacamos:
cias. En segundo lugar, porque considera las
palabras de manera aislada sin recoger la re-                     Dimensiones de diccionario. Permite en
lación semántica entre el texto, perdiendo in-                  encontrar expresiones regulares que apa-
formación relevante para la clasificación.                      rezcan en un determinado catálogo de
     Gran cantidad de estudios de minerı́a de                     términos. Esta dimensión también per-
opiniones están centrados exclusivamente en                      mite indicar contraejemplos. Mediante
documentos en inglés, quizás debido a la falta                  los contraejemplos es más fácil diseñar
de recursos en otros idiomas (Martı́n-Valdivia                    una expresión regular sencilla sobre un
et al., 2013). Además, un aspecto importan-                      término, y luego listar las excepciones,
te sobre el cual la subjetividad y el análisis                   como ocurre con el género gramatical.
de sentimientos requieren mayores esfuerzos                       Dimensiones basadas en expresiones re-
está relacionado con el análisis de textos mul-                 gulares. Permite, por ejemplo, especifi-
tilı́ngües. La anotación manual de recursos                     car expresiones regulares para detectar
es una tarea tediosa y costosa, por lo que                        expresiones entrecomilladas, lo que es in-
existen muy pocos corpus y diccionarios para                      dicativo del uso de citas textuales o pa-
el análisis del sentimiento. Para superar este                   labras que adquieren algún determinado
problema, los investigadores han propuesto                        tono especial.
métodos para adaptar los recursos existentes
y las herramientas para el análisis del sen-                     Dimensiones basadas en en tipografı́a.
timiento desarrollado para el idioma inglés                      Permite detectar el porcentaje de pala-
para crear recursos en otros idiomas. En es-                      bras escritas en mayúsculas, lo cuál pue-
te sentido, los lexicones y los corpus anota-                     de ser indicio de tono elevado de la voz,
dos se han transformado a nuevos lenguajes                        caracterı́stica interesante para la detec-
utilizando diccionarios bilingües, bootstrap-                    ción de violencia a través de Internet.
ping monolingüe y multilingüe o traducción
automática (Balahur y Turchi, 2014). Sin em-                  Además de estas dimensiones genéricas,
bargo, estos métodos dependen de la dispo-                se han implementado dimensiones especı́ficas
nibilidad y la precisión de los motores de tra-           como, por ejemplo, una dimensión para cap-
ducción automática.                                      turar errores gramaticales a partir de la li-
                                                           brerı́a PSPell2 o dimensiones para la detec-
3     Descripción de la metodologı́a                      ción de verbos, a partir del POSTagger de
      propuesta                                            Stanford3 .
                                                               Una ventaja de UMUTextStats frente a
En la siguiente sección se describe el sistema            otras aplicaciones es que permite operar si-
de extracción de caracterı́sticas lingüı́sticas          multáneamente con distingas versiones del
en español (Ver sección 3.1) una herramienta             mismo texto. Por lo tanto, algunas dimensio-
de clasificación de corpus en Twitter, para la            nes pueden operar sobre una versión filtrada
obtención de corpus de evaluación de la he-              que facilita la búsqueda de términos en el dic-
rramienta (Ver sección 3.2) y, por último, la            cionario, mientras que la versión original se
interfaz gráfica de la aplicación (Ver sección          puede utilizar para medir caracterı́sticas co-
3.3).                                                      mo el porcentaje de palabras en mayúsculas.
3.1    UMUTextStats                                        3.2      UMUCorpusClassifier
UMUTextStats es un sistema de extracción                  Con objeto de facilitar el diseño de experi-
de caracterı́sticas lingüı́sticas diseñado para          mentos para verificar UMUTextSTats, se ha
el español. Al igual que LIWC, este sistema               desarrollado también una herramienta de ex-
es capaz de extraer un vector formado por los              tracción de tweets llamada UMUCorpusClas-
porcentajes de palabras y expresiones que en-              sifier. Esta herramienta permite recolectar
cajan en una serie de caracterı́sticas lingüı́sti-
cas. Sin embargo, se está tratando de resolver              2
                                                                 https://www.php.net/manual/en/book.pspell.php
las deficiencias que se encontraron en LIWC                  3
                                                                 https://nlp.stanford.edu/software/tagger.shtml

                                                      34
corpus de entrenamiento a partir de una ca-             UMUTextStats en diferentes dominios: (1) el
dena de búsqueda y, opcionalmente, una lo-             estudio de la sátira, (2) infodemiologı́a y (3)
calización geográfica.                                el análisis de opiniones sobre economı́a.
   Los tweets obtenidos se pueden clasificar
de dos maneras. Por un lado, mediante su-               4.1    Sátira
pervisión distante (Go, Bhayani, y Huang,              Además de divertida, la sátira es una he-
2009) estableciendo algún tipo de regla au-            rramienta constructiva que permite a la so-
tomática. Por ejemplo, algunos estudios de             ciedad detectar y sobreponerse a sus debili-
la búsqueda de tweets satı́ricos han parti-            dades. Sin embargo, aunque algunos autores
do de la asumpción de que todos los tweets             han comparado el periodismo satı́rico con las
con el hashtag #sarcasm son irónicos (Lie-             noticias falsas, estas difieren en la intenciona-
brecht, Kunneman, y van Den Bosch, 2013).               lidad. Mientras que la sátira pretende crear
Por otro lado, mediante clasificación manual,          una versión de la realidad donde nadie espera
donde la calidad de la clasificación depende           que sea real, las noticias falsas tienen la inten-
del número de usuarios que clasifican el mis-          cionalidad de confundir, generar odio, prejui-
mo documento de manera independiente. De                cio o decepción. Debido a la gran capacidad
esta manera, el sistema potencia cuáles son            de difusión de las noticias hoy en dı́a, hemos
los documentos que tienen más consenso en-             verificado la eficacia de UMUTextStats pa-
tre los usuarios descartando los que generen            ra entrenar modelos capaces de distinguir en-
más controversia. Independiente del sistema            tre noticias satı́ricas y noticias reales ya que,
de clasificación, cada corpus se permite el uso        aunque la sátira no es real, no deberı́a de ser
de una escala diferente, aunque por defecto se          considerada contenido pernicioso. Además, la
usa una configuración de cinco niveles: muy            clasificación de la sátira puede ayudar a otras
positiva, positiva, neutra, negativa, muy ne-           tareas del Procesamiento del Lenguaje Natu-
gativa y fuera del dominio.                             ral, como la Minerı́a de Opiniones, porque el
3.3        Interfaz de usuario                          significado implı́cito de textos satı́ricos difie-
                                                        re del texto explı́cito. Consecuentemente, la
La interfaz gráfica de UMUTextStats está in-
                                                        identificación de contenido satı́rico nos ayu-
tegrada con distintas fuentes de donde re-
                                                        darı́a a: (1) diferenciar entre contenido obje-
coger documentos. En primer lugar, se pue-
                                                        tivo y divertido, (2) filtrar noticias falsas sin
den obtener documentos directamente desde
                                                        perjudicar el contenido divertido, y (3) identi-
la API de Twitter. En segundo lugar, se pue-
                                                        ficar contenido que utiliza lenguaje figurado.
den subir documentos con los textos en dis-
tintos formatos, como CSV, ficheros de texto                Siguiendo esta lı́nea de investigación, se
plano o ficheros comprimidos. En tercer lu-             han extraı́do caracterı́sticas lingüı́sticas a
gar, se pueden comprobar artı́culos de la Wi-           partir de varios corpus encontrados en la bi-
kipedia a partir de especificar el tı́tulo. Por         bliografı́a, además de la recolección de un
último, se ha integrado una comunicación di-          nuevo corpus balanceado formado por 10.000
recta con UMUCorpusClassifier. Los vectores             tweets, escritos tanto en castellano y en es-
de caracterı́sticas generados se pueden expor-          pañol de México. Para la clasificación de
tar en diferentes formatos como JSON, CSV,              los tweets se ha seguido una estrategia de
HTML y ficheros ARFF para la suite WE-                  supervisión distante basando en la presun-
KA4 .                                                   ción de que los tweets son satı́ricos sólo si
    Como elemento adicional, la interfaz per-           provienen de un medio satı́rico, siguiendo
mite efectuar comparativas con otros mode-              la misma idea que (del Pilar Salas-Zárate
los. Actualmente, está diseñado para compa-           et al., 2017) y (Barbieri, Ronzano, y Sag-
rarse con un modelo de N-Gramas generado                gion, 2015). Además, hemos podido compa-
a partir de secuencias de palabras o de carac-          rar nuestro modelo con estos trabajos previos
teres.                                                  y con un modelo base formado por una Bolsa
                                                        de Palabras.
4        Metodologı́a y experimentos                        Además de las dimensiones genéricas, en
         propuestos                                     este experimento se crearon dos tipos de cate-
                                                        gorı́as más. Una categorı́a especı́fica para ex-
En la siguiente sección se describen los expe-
                                                        traer caracterı́sticas propias de Twitter, como
rimentos llevados a cabo para la validación de
                                                        el uso de menciones, hashtags o emoticonos, y
    4
        https://www.cs.waikato.ac.nz/ml/weka/           otra categorı́a especı́fica para capturar técni-
                                                   35
cas propias del lenguaje figurativo a partir               como el otro corpus. Los resultados de este
de la taxonomı́a especificada en (Roberts y                experimento se pueden consultar en (Garcı́a-
Kreuz, 1994) y que consta de (1) hipérboles,              Dı́az et al., 2018c).
(2) idiotismos, (3) peticiones indirectas, (4)
ironı́a verbal, (5) atenuación, (6) metáforas,           5   Temas especı́ficos a discutir
(7) preguntas retóricas y (8) sı́miles.                       sobre la investigación
   Los resultados obtenidos han sido positi-
                                                           UMUTextStats, al igual que LIWC, tiene un
vos mejorando UMUTextStats a los modelos
                                                           sistema arbitrario de dimensiones. Para solu-
obtenidos en (del Pilar Salas-Zárate et al.,
                                                           cionar el problema, nos hemos puesto en con-
2017) y (Barbieri, Ronzano, y Saggion, 2015).
                                                           tacto con lingüı́sticas de la Universidad de
Este trabajo ha sido enviado para su publi-
                                                           Murcia, para asesorarnos en establecer una
cación y se encuentra ahora mismo en fase de
                                                           mejor taxonomı́a.
revisión.
                                                               Además, se está analizando cuando ciertas
4.2    Infodemiologı́a                                     expresiones, como ”Nueva York ”deben de ser
                                                           analizadas como una entidad única o cuan-
La infodemiologı́a es la ciencia que investiga             do las palabras que lo conforman deben de
el uso de información disponible en Internet              identificarse en otras categorı́as. En este sen-
con el fin de mejorar los servicios sanitarios.            tido, la palabra ”Nueva”no deberı́a de con-
En este sentido, existen dos grandes tipos de              tabilizar en otras categorı́as como adjetivos.
enfoque. Debido al impacto socio-económico                Sin embargo, si que hay casos donde las pa-
causado por las enfermedades infecciosas he-               labras si que deben de aparecer en distintas
mos realizado un conjunto de experimentos                  categorı́as. Para solucionarlo, se ha planteado
con la colaboración de la Universidad de Gua-             usar un sistema de reconocimiento de entida-
yaquil. En concreto, se recolectó y se clasificó         des nombradas para tratar estos elementos de
un corpus formado por tweets procedentes de                manera aislada.
Ecuador a partir de palabras clave de virus
                                                               Sobre la herramienta de UMUCorpusClas-
como el Zika o el Chikungunya. Para estos
                                                           sifier se pretende mejorar el sistema de tweets
corpus utilizamos la herramienta UMUCor-
                                                           duplicados. Durante los experimentos se han
pusClassifier (Ver sección 3.2) , para recolec-
                                                           detectado casos de tweets muy parecidos don-
tar el corpus y para realizar una clasificación
                                                           de sólo se ha variado alguna coma o sı́mbolo
manual. Para ello, contamos con 20 estudian-
                                                           de puntuación. Para esto, se han buscado di-
tes de la universidad de Guayaquil. que rea-
                                                           ferentes herramientas como la propuesta en
lizaron un total de 51.127 clasificaciones ma-
                                                           (Rieck y Wressnegger, 2016), pero no se han
nuales. Como los alumnos clasificaron varias
                                                           implantado todavı́a.
veces los mismos tweets existe cierto consenso
en cuanto a las opiniones, y pudimos descar-
tar los tweets que generaban más polémica.
                                                           Agradecimientos
Se han llevado ya varios experimentos previos              Este trabajo ha sido apoyado por la Agen-
que se han publicado en (Garcı́a-Dı́az et al.,             cia Estatal de Investigación (AEI) y el Fon-
2018a) y (Garcı́a-Dı́az et al., 2018b).                    do Europeo de Desarrollo Regional (FEDER)
                                                           a través del proyecto KBS4FIA (TIN2016-
4.3    Economı́a                                           76323-R)
En tercer lugar, se ha aplicado este estudio al
dominio de la economı́a. El objetivo de esta               Bibliografı́a
tarea era analizar mensajes de usuarios en re-             Baccianella, S., A. Esuli, y F. Sebastiani.
des sociales para determinar qué combinación               2010. Sentiwordnet 3.0: an enhanced le-
de caracterı́sticas lingüı́sticas podrı́a predecir          xical resource for sentiment analysis and
opiniones positivas y negativas con respecto                 opinion mining. En Lrec, volumen 10,
de la economı́a. Este estudio se llevado por                 páginas 2200–2204.
dos vı́as. En primer lugar, se realizó un análi-
sis preliminar con un corpus balanceado de                 Balahur, A. y M. Turchi. 2014. Comparati-
1.000 tweets positivos y 1.000 tweets negati-                ve experiments using supervised learning
vos. Estos tweets fueron clasificados manual-                and machine translation for multilingual
mente por personal del laboratorio. En este                  sentiment analysis. Computer Speech &
sentido, el corpus, no tiene tanta aceptación               Language, 28(1):56–75.
                                                      36
Barbieri, F., F. Ronzano, y H. Saggion.                    tant supervision. CS224N Project Report,
  2015. Is this tweet satirical? a compu-                  Stanford, 1(12):2009.
  tational approach for satire detection in
                                                        Liebrecht, C., F. Kunneman, y A. van
  spanish. Procesamiento del Lenguaje Na-
                                                           Den Bosch. 2013. The perfect solu-
  tural, 55:135–142.
                                                           tion for detecting sarcasm in tweets#
del Pilar Salas-Zárate, M., M. A. Paredes-                not. En Proceedings of the 4th Workshop
   Valverde, M. A. Rodriguez-Garcia,                       on Computational Approaches to Subjecti-
   R. Valencia-Garcı́a, y G. Alor-Hernández.              vity. New Brunswick, NJ: ACL.
   2017.    Automatic detection of satire
                                                        Martı́n-Valdivia, M.-T., E. Martı́nez-Cáma-
   in twitter: A psycholinguistic-based
                                                          ra, J.-M. Perea-Ortega, y L. A. UreñA-
   approach.     Knowledge-Based Systems,
                                                          López. 2013. Sentiment polarity detec-
   128:20–33.
                                                          tion in spanish reviews combining supervi-
Esuli, A. y F. Sebastiani. 2005. Determi-                 sed and unsupervised approaches. Expert
  ning the semantic orientation of terms th-              Systems with Applications, 40(10):3934–
  rough gloss classification. En Proceedings              3942.
  of the 14th ACM international conferen-
                                                        Ramı́rez-Esparza, N., J. W. Pennebaker,
  ce on Information and knowledge mana-
                                                          F. A. Garcı́a, R. Suriá Martı́nez, y others.
  gement, páginas 617–624. ACM.
                                                          2007. La psicologı́a del uso de las pala-
Garcı́a-Dı́az, J. A., Ó. Apolinario-Arzube,              bras: Un programa de computadora que
  J. Medina-Moreira, H. Luna-Aveiga,                      analiza textos en español. Revista mexi-
  K. Lagos-Ortiz, y R. Valencia-Garcı́a.                  cana de psicologı́a, 24(1):85–99.
  2018a.      Sentiment analysis on tweets              Rieck, K. y C. Wressnegger. 2016. Harry: A
  related to infectious diseases in south                  tool for measuring string similarity. The
  america. En Proceedings of the Euro                      Journal of Machine Learning Research,
  American Conference on Telematics and                    17(1):258–262.
  Information Systems, página 21. ACM.
                                                        Roberts, R. M. y R. J. Kreuz. 1994. Why do
Garcı́a-Dı́az, J. A., O. Apolinario-Arzube,               people use figurative language? Psycholo-
  J. Medina-Moreira, J. O. Salavarria-                    gical science, 5(3):159–163.
  Melo, K. Lagos-Ortiz, H. Luna-Aveiga, y
  R. Valencia-Garcı́a. 2018b. Opinion mi-               Strapparava, C., A. Valitutti, y others. 2004.
  ning for measuring the social perception                 Wordnet affect: an affective extension of
  of infectious diseases. an infodemiology                 wordnet. En Lrec, volumen 4, páginas
  approach. En International Conference                    1083–1086. Citeseer.
  on Technologies and Innovation, páginas              Tausczik, Y. R. y J. W. Pennebaker. 2010.
  229–239. Springer.                                      The psychological meaning of words: Liwc
Garcı́a-Dı́az, J. A., M. P. Salas-Zárate, M. L.          and computerized text analysis methods.
  Hernández-Alcaraz, R. Valencia-Garcı́a, y              Journal of language and social psychology,
  J. M. Gómez-Berbı́s. 2018c. Machine lear-              29(1):24–54.
  ning based sentiment analysis on spanish              Tumasjan, A., T. O. Sprenger, P. G. Sandner,
  financial tweets. En World Conference                   y I. M. Welpe. 2010. Predicting elections
  on Information Systems and Technologies,                with twitter: What 140 characters reveal
  páginas 305–311. Springer.                             about political sentiment. En Fourth in-
Gaston, J., M. Narayanan, G. Dozier, D. L.                ternational AAAI conference on weblogs
  Cothran, C. Arms-Chavez, M. Rossi,                      and social media.
  M. C. King, y J. Xu. 2018. Authorship at-
  tribution vs. adversarial authorship from
  a liwc and sentiment analysis perspecti-
  ve. En 2018 IEEE Symposium Series on
  Computational Intelligence (SSCI), pági-
  nas 920–927. IEEE.
Go, A., R. Bhayani, y L. Huang. 2009.
  Twitter sentiment classification using dis-
                                                   37