=Paper=
{{Paper
|id=Vol-2633/paper6
|storemode=property
|title=
Sistema de extracción de caracterı́sticas lingüı́sticas en español para tareas de Procesamiento del Lenguaje Natural
(Extracting Spanish Linguistic Features for Natural Language Processing tasks)
|pdfUrl=https://ceur-ws.org/Vol-2633/paper6.pdf
|volume=Vol-2633
|authors=José Antonio Garcı́a-Dı́az
}}
==
Sistema de extracción de caracterı́sticas lingüı́sticas en español para tareas de Procesamiento del Lenguaje Natural
(Extracting Spanish Linguistic Features for Natural Language Processing tasks)
==
Sistema de extracción de caracterı́sticas lingüı́sticas
en español para tareas de Procesamiento del
Lenguaje Natural
Extracting Spanish Linguistic Features for Natural Language
Processing tasks
José Antonio Garcı́a-Dı́az1
1
Universidad de Murcia. Facultad de Informática.
Departamento de Informática y Sistemas
joseantonio.garcia8@um.es
Resumen: El español es el tercer idioma más utilizado en Internet con, aproxima-
damente, 344 millones de usuarios; este hecho, unido al auge que supuso la Web
2.0. dando a los usuarios un rol principal en la creación de contenido, ha propiciado
que el Procesamiento del Lenguaje Natural (PLN) se haya convertido en una de
las tecnologı́as destacadas con aplicaciones en la traducción automática, en sistemas
conversacionales o en el desarrollo de filtros de correo no deseado. Sin embargo, en
cuanto a recursos disponibles, el PLN en español se encuentra todavı́a en una fase
temprana si lo comparamos con otros idiomas. Además, algunos de esos recursos
disponibles han sido desarrollados como traducciones de su equivalente en inglés,
por lo que pueden perder caracterı́sticas propias del español que no están presentes
en el idioma para el que se diseñó el recurso. Por lo tanto, el objetivo de esta tesis
doctoral es el desarrollo de un sistema de extracción de caracterı́sticas lingüı́sticas de
textos en español, con aplicaciones en diferentes campos del PLN, como la minerı́a
de opiniones, detección de plagios o análisis de legibilidad.
Palabras clave: Procesamiento del Lenguaje Natural, Minerı́a de Opiniones,
Aprendizaje supervisado, extracción de caracterı́sticas lingüı́sticas
Abstract: Spanish is one of the most popular languages on the Internet with ap-
proximately 344 million users; this fact, in conjunction with the rising of the Web
2.0. and the leading role of the users in the creation of content, has leaded Natural
Language Processing (NLP) to become one of the outstanding technologies, with ap-
plications in machine translation, conversational systems or spam filters. However,
some of the available resources are still at an early stage compared to other langua-
ges. In addition, some of the tools available are translations of their equivalent in
English, so they may lose characteristics of Spanish. Therefore, the objective of this
doctoral thesis is the development of a system of extraction of linguistic characteris-
tics of texts in Spanish, which has applications in different fields of the NLP, such
as opinion mining, plagiarism detection, or readability analysis.
Keywords: Natural Language Processing, Opinion Mining, Supervised Machine-
learning, Linguistic Feature Extraction
1 Introducción nibles para poder procesar esa información
de manera eficiente están diseñados para el
Cada dı́a se generan grandes volúmenes de
inglés. Por este motivo, la comunidad cientı́fi-
contenido en Internet. Dentro de la variedad
ca está haciendo verdaderos esfuerzos pa-
dialéctica que se existe en la red, el español
ra crear herramientas de Procesamiento del
tiene una posición relevante, siendo actual-
Lenguaje Natural, o PLN, para el lenguaje
mente el tercer idioma más utilizado en In-
español.
ternet, sólo por detrás del inglés y del chino
1 . Sin embargo, la mayorı́a de recursos dispo- Para que un ordenador sea capaz de ma-
nejar textos escritos en lenguaje natural hay
1
https://www.internetworldstats.com/stats7.htm que codificarlo de manera adecuada. Una es-
Lloret, E.; Saquete, E.; Martı́nez-Barco, P.; Sepúlveda-Torres, R. (eds.) Proceedings of the Doctoral Symposium of the
XXXV International Conference of the Spanish Society for Natural Language Processing (SEPLN 2019), p. 32–37
Bilbao, Spain, September 25th 2019. Copyright c 2019 his paper by its authors. Use permitted under Creative
Commons License Attribution 4.0 International (CC BY 4.0).
trategia consiste en representar un texto me- Esparza et al., 2007), donde se identificaron
diante un vector formado por el porcenta- una serie de puntos a mejorar: (1) problemas
je de palabras psico-linguisticamente relevan- de traducción entre el inglés y el español,
tes, con el objetivo de clasificar palabras que (2) el arbitrario diseño de las dimensiones,
indiquen qué dice el texto, y cómo lo dice. Es- (3) diferencias gramaticales no recogidas en-
tos vectores han probado ser efectivos a la ho- tre el español y el inglés, (4) conjugaciones
ra de clasificar documentos. Por citar algunos verbales insuficientes y, (5) la falta de estu-
ejemplos, se ha aplicado a estudios de autorı́a dios con fuentes españolas. Además, es im-
(Gaston et al., 2018) o la predicción de resul- portante destacar que LIWC es una herra-
tados electorales (Tumasjan et al., 2010). mienta comercial, lo que terminó de motivar
Aunque existen herramientas de extrac- el desarrollo de una herramienta libre para la
ción de caracterı́sticas lingüı́sticas en español, comunidad de PLN en español.
estas no recogen todas las caracterı́sticas re-
levantes del español debido, principalmente, 2.2 Minerı́a de Opiniones
a que son traducciones o adaptaciones de la El objetivo de la Minerı́a de Opiniones es cla-
versión en inglés. Con el ánimo de suplir esta sificar si la percepción subjetiva de los usua-
carencia, se pretende el diseño y la implanta- rios hacı́a un tema concreto es positiva, nega-
ción un sistema de extracción de caracterı́sti- tiva o neutra (Esuli y Sebastiani, 2005). En
cas lingüı́sticas especı́fico para el idioma es- función del nivel de profundidad del análisis
pañol con aplicaciones en (1) minerı́a de opi- deseado, podemos distinguir entre: (1) análi-
niones, (2) medición del nivel de vocabulario sis a nivel de documento, (2) análisis a nivel
de regiones concretas, (3) tests de legibilidad, de sentencia, o (3) análisis a nivel de aspecto.
(4) estilometrı́a y (5) detección de plagios. En el análisis a nivel de documento, el tex-
El resto del documento está divido en to es clasificado como un todo, devolviendo
los siguientes apartados. La sección 2 des- si la opinión general es positiva, negativa o
cribe LIWC, el estándar de facto de análisis neutra. En una clasificación a nivel de sen-
sintáctico ası́ como se citan trabajos relevan- tencia el texto se divide en frases y cada una
tes dentro de la Minerı́a de Opiniones apli- se clasifica de manera individual. Por último,
cando esta herramienta. La sección 3 detalla en la clasificación a nivel de aspecto, se tra-
la metodologı́a propuesta, haciendo especial ta de clasificar cada aspecto o caracterı́stica
hincapié en los prototipos que se están crean- detectada en el documento.
do. En la sección 4 se listan tres estudios so- La obtención de la subjetividad se pue-
bre diferentes dominios en los que se está eva- de realizar mediante (1) Orientación semánti-
luando el prototipo. Por último, la sección 5 ca y (2) Aprendizaje computacional. La
sugiere distintos temas de debate que se están orientación Semántica consiste en compa-
planteando durante la realización de esta te- rar los textos con lexicones compuestos por
sis doctoral. palabras que reflejan sentimientos, como
WordNet-Affect (Strapparava, Valitutti, y
2 Trabajo relacionado others, 2004) o SentiWordNet (Baccianella,
En la siguiente sección se describe LIWC, Esuli, y Sebastiani, 2010). Por otro lado, los
un estándar de facto para tareas de análi- métodos de aprendizaje computacional se ba-
sis lingüı́stico (Ver sección 2.1) ası́ como in- san en entrenar un modelo a partir de un con-
vestigaciones relacionadas con la Minerı́a de junto de instancias ya clasificadas. El modelo
Opiniones (ver sección 2.2) . resultante debe de ser capaz de replicar el
comportamiento humano.
2.1 LIWC Dentro de las técnicas de aprendizaje
LIWC (Tausczik y Pennebaker, 2010) es una computacional, se pueden extraer distintos ti-
herramienta para la extracción de carac- pos de caracterı́sticas. La técnica más básica
terı́sticas lingüı́sticas capaz de analizar un de los modelos de aprendizaje supervisado, es
conjunto de textos y generar un vector con decir, del aprendizaje a través de ejemplos,
los porcentajes de una serie de categorı́as es conocida como Bolsa de Palabras (Bag of
preestablecidas. Aunque fue originalmente Words) y consiste en relacionar la frecuencia
diseñada para el inglés, LIWC cuenta con de ciertas expresiones con las opiniones del
una versión adaptada al español. Este proce- conjunto de entrenamiento. Pese a su simpli-
so de traducción fue analizado en (Ramı́rez- cidad, el modelo de Bolsa de Palabras fun-
33
ciona bastante bien; sin embargo, presenta (Ramı́rez-Esparza et al., 2007).
ciertas desventajas. En primer lugar, porque UMUTextStats es extensible y permite de-
puede sobre-entrenar el modelo, haciéndolo finir dimensiones a partir de un conjunto de
demasiado especı́fico para el conjunto de en- dimensiones abstractas predefinidas, donde
trenamiento pero fallando con nuevas instan- destacamos:
cias. En segundo lugar, porque considera las
palabras de manera aislada sin recoger la re- Dimensiones de diccionario. Permite en
lación semántica entre el texto, perdiendo in- encontrar expresiones regulares que apa-
formación relevante para la clasificación. rezcan en un determinado catálogo de
Gran cantidad de estudios de minerı́a de términos. Esta dimensión también per-
opiniones están centrados exclusivamente en mite indicar contraejemplos. Mediante
documentos en inglés, quizás debido a la falta los contraejemplos es más fácil diseñar
de recursos en otros idiomas (Martı́n-Valdivia una expresión regular sencilla sobre un
et al., 2013). Además, un aspecto importan- término, y luego listar las excepciones,
te sobre el cual la subjetividad y el análisis como ocurre con el género gramatical.
de sentimientos requieren mayores esfuerzos Dimensiones basadas en expresiones re-
está relacionado con el análisis de textos mul- gulares. Permite, por ejemplo, especifi-
tilı́ngües. La anotación manual de recursos car expresiones regulares para detectar
es una tarea tediosa y costosa, por lo que expresiones entrecomilladas, lo que es in-
existen muy pocos corpus y diccionarios para dicativo del uso de citas textuales o pa-
el análisis del sentimiento. Para superar este labras que adquieren algún determinado
problema, los investigadores han propuesto tono especial.
métodos para adaptar los recursos existentes
y las herramientas para el análisis del sen- Dimensiones basadas en en tipografı́a.
timiento desarrollado para el idioma inglés Permite detectar el porcentaje de pala-
para crear recursos en otros idiomas. En es- bras escritas en mayúsculas, lo cuál pue-
te sentido, los lexicones y los corpus anota- de ser indicio de tono elevado de la voz,
dos se han transformado a nuevos lenguajes caracterı́stica interesante para la detec-
utilizando diccionarios bilingües, bootstrap- ción de violencia a través de Internet.
ping monolingüe y multilingüe o traducción
automática (Balahur y Turchi, 2014). Sin em- Además de estas dimensiones genéricas,
bargo, estos métodos dependen de la dispo- se han implementado dimensiones especı́ficas
nibilidad y la precisión de los motores de tra- como, por ejemplo, una dimensión para cap-
ducción automática. turar errores gramaticales a partir de la li-
brerı́a PSPell2 o dimensiones para la detec-
3 Descripción de la metodologı́a ción de verbos, a partir del POSTagger de
propuesta Stanford3 .
Una ventaja de UMUTextStats frente a
En la siguiente sección se describe el sistema otras aplicaciones es que permite operar si-
de extracción de caracterı́sticas lingüı́sticas multáneamente con distingas versiones del
en español (Ver sección 3.1) una herramienta mismo texto. Por lo tanto, algunas dimensio-
de clasificación de corpus en Twitter, para la nes pueden operar sobre una versión filtrada
obtención de corpus de evaluación de la he- que facilita la búsqueda de términos en el dic-
rramienta (Ver sección 3.2) y, por último, la cionario, mientras que la versión original se
interfaz gráfica de la aplicación (Ver sección puede utilizar para medir caracterı́sticas co-
3.3). mo el porcentaje de palabras en mayúsculas.
3.1 UMUTextStats 3.2 UMUCorpusClassifier
UMUTextStats es un sistema de extracción Con objeto de facilitar el diseño de experi-
de caracterı́sticas lingüı́sticas diseñado para mentos para verificar UMUTextSTats, se ha
el español. Al igual que LIWC, este sistema desarrollado también una herramienta de ex-
es capaz de extraer un vector formado por los tracción de tweets llamada UMUCorpusClas-
porcentajes de palabras y expresiones que en- sifier. Esta herramienta permite recolectar
cajan en una serie de caracterı́sticas lingüı́sti-
cas. Sin embargo, se está tratando de resolver 2
https://www.php.net/manual/en/book.pspell.php
las deficiencias que se encontraron en LIWC 3
https://nlp.stanford.edu/software/tagger.shtml
34
corpus de entrenamiento a partir de una ca- UMUTextStats en diferentes dominios: (1) el
dena de búsqueda y, opcionalmente, una lo- estudio de la sátira, (2) infodemiologı́a y (3)
calización geográfica. el análisis de opiniones sobre economı́a.
Los tweets obtenidos se pueden clasificar
de dos maneras. Por un lado, mediante su- 4.1 Sátira
pervisión distante (Go, Bhayani, y Huang, Además de divertida, la sátira es una he-
2009) estableciendo algún tipo de regla au- rramienta constructiva que permite a la so-
tomática. Por ejemplo, algunos estudios de ciedad detectar y sobreponerse a sus debili-
la búsqueda de tweets satı́ricos han parti- dades. Sin embargo, aunque algunos autores
do de la asumpción de que todos los tweets han comparado el periodismo satı́rico con las
con el hashtag #sarcasm son irónicos (Lie- noticias falsas, estas difieren en la intenciona-
brecht, Kunneman, y van Den Bosch, 2013). lidad. Mientras que la sátira pretende crear
Por otro lado, mediante clasificación manual, una versión de la realidad donde nadie espera
donde la calidad de la clasificación depende que sea real, las noticias falsas tienen la inten-
del número de usuarios que clasifican el mis- cionalidad de confundir, generar odio, prejui-
mo documento de manera independiente. De cio o decepción. Debido a la gran capacidad
esta manera, el sistema potencia cuáles son de difusión de las noticias hoy en dı́a, hemos
los documentos que tienen más consenso en- verificado la eficacia de UMUTextStats pa-
tre los usuarios descartando los que generen ra entrenar modelos capaces de distinguir en-
más controversia. Independiente del sistema tre noticias satı́ricas y noticias reales ya que,
de clasificación, cada corpus se permite el uso aunque la sátira no es real, no deberı́a de ser
de una escala diferente, aunque por defecto se considerada contenido pernicioso. Además, la
usa una configuración de cinco niveles: muy clasificación de la sátira puede ayudar a otras
positiva, positiva, neutra, negativa, muy ne- tareas del Procesamiento del Lenguaje Natu-
gativa y fuera del dominio. ral, como la Minerı́a de Opiniones, porque el
3.3 Interfaz de usuario significado implı́cito de textos satı́ricos difie-
re del texto explı́cito. Consecuentemente, la
La interfaz gráfica de UMUTextStats está in-
identificación de contenido satı́rico nos ayu-
tegrada con distintas fuentes de donde re-
darı́a a: (1) diferenciar entre contenido obje-
coger documentos. En primer lugar, se pue-
tivo y divertido, (2) filtrar noticias falsas sin
den obtener documentos directamente desde
perjudicar el contenido divertido, y (3) identi-
la API de Twitter. En segundo lugar, se pue-
ficar contenido que utiliza lenguaje figurado.
den subir documentos con los textos en dis-
tintos formatos, como CSV, ficheros de texto Siguiendo esta lı́nea de investigación, se
plano o ficheros comprimidos. En tercer lu- han extraı́do caracterı́sticas lingüı́sticas a
gar, se pueden comprobar artı́culos de la Wi- partir de varios corpus encontrados en la bi-
kipedia a partir de especificar el tı́tulo. Por bliografı́a, además de la recolección de un
último, se ha integrado una comunicación di- nuevo corpus balanceado formado por 10.000
recta con UMUCorpusClassifier. Los vectores tweets, escritos tanto en castellano y en es-
de caracterı́sticas generados se pueden expor- pañol de México. Para la clasificación de
tar en diferentes formatos como JSON, CSV, los tweets se ha seguido una estrategia de
HTML y ficheros ARFF para la suite WE- supervisión distante basando en la presun-
KA4 . ción de que los tweets son satı́ricos sólo si
Como elemento adicional, la interfaz per- provienen de un medio satı́rico, siguiendo
mite efectuar comparativas con otros mode- la misma idea que (del Pilar Salas-Zárate
los. Actualmente, está diseñado para compa- et al., 2017) y (Barbieri, Ronzano, y Sag-
rarse con un modelo de N-Gramas generado gion, 2015). Además, hemos podido compa-
a partir de secuencias de palabras o de carac- rar nuestro modelo con estos trabajos previos
teres. y con un modelo base formado por una Bolsa
de Palabras.
4 Metodologı́a y experimentos Además de las dimensiones genéricas, en
propuestos este experimento se crearon dos tipos de cate-
gorı́as más. Una categorı́a especı́fica para ex-
En la siguiente sección se describen los expe-
traer caracterı́sticas propias de Twitter, como
rimentos llevados a cabo para la validación de
el uso de menciones, hashtags o emoticonos, y
4
https://www.cs.waikato.ac.nz/ml/weka/ otra categorı́a especı́fica para capturar técni-
35
cas propias del lenguaje figurativo a partir como el otro corpus. Los resultados de este
de la taxonomı́a especificada en (Roberts y experimento se pueden consultar en (Garcı́a-
Kreuz, 1994) y que consta de (1) hipérboles, Dı́az et al., 2018c).
(2) idiotismos, (3) peticiones indirectas, (4)
ironı́a verbal, (5) atenuación, (6) metáforas, 5 Temas especı́ficos a discutir
(7) preguntas retóricas y (8) sı́miles. sobre la investigación
Los resultados obtenidos han sido positi-
UMUTextStats, al igual que LIWC, tiene un
vos mejorando UMUTextStats a los modelos
sistema arbitrario de dimensiones. Para solu-
obtenidos en (del Pilar Salas-Zárate et al.,
cionar el problema, nos hemos puesto en con-
2017) y (Barbieri, Ronzano, y Saggion, 2015).
tacto con lingüı́sticas de la Universidad de
Este trabajo ha sido enviado para su publi-
Murcia, para asesorarnos en establecer una
cación y se encuentra ahora mismo en fase de
mejor taxonomı́a.
revisión.
Además, se está analizando cuando ciertas
4.2 Infodemiologı́a expresiones, como ”Nueva York ”deben de ser
analizadas como una entidad única o cuan-
La infodemiologı́a es la ciencia que investiga do las palabras que lo conforman deben de
el uso de información disponible en Internet identificarse en otras categorı́as. En este sen-
con el fin de mejorar los servicios sanitarios. tido, la palabra ”Nueva”no deberı́a de con-
En este sentido, existen dos grandes tipos de tabilizar en otras categorı́as como adjetivos.
enfoque. Debido al impacto socio-económico Sin embargo, si que hay casos donde las pa-
causado por las enfermedades infecciosas he- labras si que deben de aparecer en distintas
mos realizado un conjunto de experimentos categorı́as. Para solucionarlo, se ha planteado
con la colaboración de la Universidad de Gua- usar un sistema de reconocimiento de entida-
yaquil. En concreto, se recolectó y se clasificó des nombradas para tratar estos elementos de
un corpus formado por tweets procedentes de manera aislada.
Ecuador a partir de palabras clave de virus
Sobre la herramienta de UMUCorpusClas-
como el Zika o el Chikungunya. Para estos
sifier se pretende mejorar el sistema de tweets
corpus utilizamos la herramienta UMUCor-
duplicados. Durante los experimentos se han
pusClassifier (Ver sección 3.2) , para recolec-
detectado casos de tweets muy parecidos don-
tar el corpus y para realizar una clasificación
de sólo se ha variado alguna coma o sı́mbolo
manual. Para ello, contamos con 20 estudian-
de puntuación. Para esto, se han buscado di-
tes de la universidad de Guayaquil. que rea-
ferentes herramientas como la propuesta en
lizaron un total de 51.127 clasificaciones ma-
(Rieck y Wressnegger, 2016), pero no se han
nuales. Como los alumnos clasificaron varias
implantado todavı́a.
veces los mismos tweets existe cierto consenso
en cuanto a las opiniones, y pudimos descar-
tar los tweets que generaban más polémica.
Agradecimientos
Se han llevado ya varios experimentos previos Este trabajo ha sido apoyado por la Agen-
que se han publicado en (Garcı́a-Dı́az et al., cia Estatal de Investigación (AEI) y el Fon-
2018a) y (Garcı́a-Dı́az et al., 2018b). do Europeo de Desarrollo Regional (FEDER)
a través del proyecto KBS4FIA (TIN2016-
4.3 Economı́a 76323-R)
En tercer lugar, se ha aplicado este estudio al
dominio de la economı́a. El objetivo de esta Bibliografı́a
tarea era analizar mensajes de usuarios en re- Baccianella, S., A. Esuli, y F. Sebastiani.
des sociales para determinar qué combinación 2010. Sentiwordnet 3.0: an enhanced le-
de caracterı́sticas lingüı́sticas podrı́a predecir xical resource for sentiment analysis and
opiniones positivas y negativas con respecto opinion mining. En Lrec, volumen 10,
de la economı́a. Este estudio se llevado por páginas 2200–2204.
dos vı́as. En primer lugar, se realizó un análi-
sis preliminar con un corpus balanceado de Balahur, A. y M. Turchi. 2014. Comparati-
1.000 tweets positivos y 1.000 tweets negati- ve experiments using supervised learning
vos. Estos tweets fueron clasificados manual- and machine translation for multilingual
mente por personal del laboratorio. En este sentiment analysis. Computer Speech &
sentido, el corpus, no tiene tanta aceptación Language, 28(1):56–75.
36
Barbieri, F., F. Ronzano, y H. Saggion. tant supervision. CS224N Project Report,
2015. Is this tweet satirical? a compu- Stanford, 1(12):2009.
tational approach for satire detection in
Liebrecht, C., F. Kunneman, y A. van
spanish. Procesamiento del Lenguaje Na-
Den Bosch. 2013. The perfect solu-
tural, 55:135–142.
tion for detecting sarcasm in tweets#
del Pilar Salas-Zárate, M., M. A. Paredes- not. En Proceedings of the 4th Workshop
Valverde, M. A. Rodriguez-Garcia, on Computational Approaches to Subjecti-
R. Valencia-Garcı́a, y G. Alor-Hernández. vity. New Brunswick, NJ: ACL.
2017. Automatic detection of satire
Martı́n-Valdivia, M.-T., E. Martı́nez-Cáma-
in twitter: A psycholinguistic-based
ra, J.-M. Perea-Ortega, y L. A. UreñA-
approach. Knowledge-Based Systems,
López. 2013. Sentiment polarity detec-
128:20–33.
tion in spanish reviews combining supervi-
Esuli, A. y F. Sebastiani. 2005. Determi- sed and unsupervised approaches. Expert
ning the semantic orientation of terms th- Systems with Applications, 40(10):3934–
rough gloss classification. En Proceedings 3942.
of the 14th ACM international conferen-
Ramı́rez-Esparza, N., J. W. Pennebaker,
ce on Information and knowledge mana-
F. A. Garcı́a, R. Suriá Martı́nez, y others.
gement, páginas 617–624. ACM.
2007. La psicologı́a del uso de las pala-
Garcı́a-Dı́az, J. A., Ó. Apolinario-Arzube, bras: Un programa de computadora que
J. Medina-Moreira, H. Luna-Aveiga, analiza textos en español. Revista mexi-
K. Lagos-Ortiz, y R. Valencia-Garcı́a. cana de psicologı́a, 24(1):85–99.
2018a. Sentiment analysis on tweets Rieck, K. y C. Wressnegger. 2016. Harry: A
related to infectious diseases in south tool for measuring string similarity. The
america. En Proceedings of the Euro Journal of Machine Learning Research,
American Conference on Telematics and 17(1):258–262.
Information Systems, página 21. ACM.
Roberts, R. M. y R. J. Kreuz. 1994. Why do
Garcı́a-Dı́az, J. A., O. Apolinario-Arzube, people use figurative language? Psycholo-
J. Medina-Moreira, J. O. Salavarria- gical science, 5(3):159–163.
Melo, K. Lagos-Ortiz, H. Luna-Aveiga, y
R. Valencia-Garcı́a. 2018b. Opinion mi- Strapparava, C., A. Valitutti, y others. 2004.
ning for measuring the social perception Wordnet affect: an affective extension of
of infectious diseases. an infodemiology wordnet. En Lrec, volumen 4, páginas
approach. En International Conference 1083–1086. Citeseer.
on Technologies and Innovation, páginas Tausczik, Y. R. y J. W. Pennebaker. 2010.
229–239. Springer. The psychological meaning of words: Liwc
Garcı́a-Dı́az, J. A., M. P. Salas-Zárate, M. L. and computerized text analysis methods.
Hernández-Alcaraz, R. Valencia-Garcı́a, y Journal of language and social psychology,
J. M. Gómez-Berbı́s. 2018c. Machine lear- 29(1):24–54.
ning based sentiment analysis on spanish Tumasjan, A., T. O. Sprenger, P. G. Sandner,
financial tweets. En World Conference y I. M. Welpe. 2010. Predicting elections
on Information Systems and Technologies, with twitter: What 140 characters reveal
páginas 305–311. Springer. about political sentiment. En Fourth in-
Gaston, J., M. Narayanan, G. Dozier, D. L. ternational AAAI conference on weblogs
Cothran, C. Arms-Chavez, M. Rossi, and social media.
M. C. King, y J. Xu. 2018. Authorship at-
tribution vs. adversarial authorship from
a liwc and sentiment analysis perspecti-
ve. En 2018 IEEE Symposium Series on
Computational Intelligence (SSCI), pági-
nas 920–927. IEEE.
Go, A., R. Bhayani, y L. Huang. 2009.
Twitter sentiment classification using dis-
37