Sistema de extracción de caracterı́sticas lingüı́sticas en español para tareas de Procesamiento del Lenguaje Natural Extracting Spanish Linguistic Features for Natural Language Processing tasks José Antonio Garcı́a-Dı́az1 1 Universidad de Murcia. Facultad de Informática. Departamento de Informática y Sistemas joseantonio.garcia8@um.es Resumen: El español es el tercer idioma más utilizado en Internet con, aproxima- damente, 344 millones de usuarios; este hecho, unido al auge que supuso la Web 2.0. dando a los usuarios un rol principal en la creación de contenido, ha propiciado que el Procesamiento del Lenguaje Natural (PLN) se haya convertido en una de las tecnologı́as destacadas con aplicaciones en la traducción automática, en sistemas conversacionales o en el desarrollo de filtros de correo no deseado. Sin embargo, en cuanto a recursos disponibles, el PLN en español se encuentra todavı́a en una fase temprana si lo comparamos con otros idiomas. Además, algunos de esos recursos disponibles han sido desarrollados como traducciones de su equivalente en inglés, por lo que pueden perder caracterı́sticas propias del español que no están presentes en el idioma para el que se diseñó el recurso. Por lo tanto, el objetivo de esta tesis doctoral es el desarrollo de un sistema de extracción de caracterı́sticas lingüı́sticas de textos en español, con aplicaciones en diferentes campos del PLN, como la minerı́a de opiniones, detección de plagios o análisis de legibilidad. Palabras clave: Procesamiento del Lenguaje Natural, Minerı́a de Opiniones, Aprendizaje supervisado, extracción de caracterı́sticas lingüı́sticas Abstract: Spanish is one of the most popular languages on the Internet with ap- proximately 344 million users; this fact, in conjunction with the rising of the Web 2.0. and the leading role of the users in the creation of content, has leaded Natural Language Processing (NLP) to become one of the outstanding technologies, with ap- plications in machine translation, conversational systems or spam filters. However, some of the available resources are still at an early stage compared to other langua- ges. In addition, some of the tools available are translations of their equivalent in English, so they may lose characteristics of Spanish. Therefore, the objective of this doctoral thesis is the development of a system of extraction of linguistic characteris- tics of texts in Spanish, which has applications in different fields of the NLP, such as opinion mining, plagiarism detection, or readability analysis. Keywords: Natural Language Processing, Opinion Mining, Supervised Machine- learning, Linguistic Feature Extraction 1 Introducción nibles para poder procesar esa información de manera eficiente están diseñados para el Cada dı́a se generan grandes volúmenes de inglés. Por este motivo, la comunidad cientı́fi- contenido en Internet. Dentro de la variedad ca está haciendo verdaderos esfuerzos pa- dialéctica que se existe en la red, el español ra crear herramientas de Procesamiento del tiene una posición relevante, siendo actual- Lenguaje Natural, o PLN, para el lenguaje mente el tercer idioma más utilizado en In- español. ternet, sólo por detrás del inglés y del chino 1 . Sin embargo, la mayorı́a de recursos dispo- Para que un ordenador sea capaz de ma- nejar textos escritos en lenguaje natural hay 1 https://www.internetworldstats.com/stats7.htm que codificarlo de manera adecuada. Una es- Lloret, E.; Saquete, E.; Martı́nez-Barco, P.; Sepúlveda-Torres, R. (eds.) Proceedings of the Doctoral Symposium of the XXXV International Conference of the Spanish Society for Natural Language Processing (SEPLN 2019), p. 32–37 Bilbao, Spain, September 25th 2019. Copyright c 2019 his paper by its authors. Use permitted under Creative Commons License Attribution 4.0 International (CC BY 4.0). trategia consiste en representar un texto me- Esparza et al., 2007), donde se identificaron diante un vector formado por el porcenta- una serie de puntos a mejorar: (1) problemas je de palabras psico-linguisticamente relevan- de traducción entre el inglés y el español, tes, con el objetivo de clasificar palabras que (2) el arbitrario diseño de las dimensiones, indiquen qué dice el texto, y cómo lo dice. Es- (3) diferencias gramaticales no recogidas en- tos vectores han probado ser efectivos a la ho- tre el español y el inglés, (4) conjugaciones ra de clasificar documentos. Por citar algunos verbales insuficientes y, (5) la falta de estu- ejemplos, se ha aplicado a estudios de autorı́a dios con fuentes españolas. Además, es im- (Gaston et al., 2018) o la predicción de resul- portante destacar que LIWC es una herra- tados electorales (Tumasjan et al., 2010). mienta comercial, lo que terminó de motivar Aunque existen herramientas de extrac- el desarrollo de una herramienta libre para la ción de caracterı́sticas lingüı́sticas en español, comunidad de PLN en español. estas no recogen todas las caracterı́sticas re- levantes del español debido, principalmente, 2.2 Minerı́a de Opiniones a que son traducciones o adaptaciones de la El objetivo de la Minerı́a de Opiniones es cla- versión en inglés. Con el ánimo de suplir esta sificar si la percepción subjetiva de los usua- carencia, se pretende el diseño y la implanta- rios hacı́a un tema concreto es positiva, nega- ción un sistema de extracción de caracterı́sti- tiva o neutra (Esuli y Sebastiani, 2005). En cas lingüı́sticas especı́fico para el idioma es- función del nivel de profundidad del análisis pañol con aplicaciones en (1) minerı́a de opi- deseado, podemos distinguir entre: (1) análi- niones, (2) medición del nivel de vocabulario sis a nivel de documento, (2) análisis a nivel de regiones concretas, (3) tests de legibilidad, de sentencia, o (3) análisis a nivel de aspecto. (4) estilometrı́a y (5) detección de plagios. En el análisis a nivel de documento, el tex- El resto del documento está divido en to es clasificado como un todo, devolviendo los siguientes apartados. La sección 2 des- si la opinión general es positiva, negativa o cribe LIWC, el estándar de facto de análisis neutra. En una clasificación a nivel de sen- sintáctico ası́ como se citan trabajos relevan- tencia el texto se divide en frases y cada una tes dentro de la Minerı́a de Opiniones apli- se clasifica de manera individual. Por último, cando esta herramienta. La sección 3 detalla en la clasificación a nivel de aspecto, se tra- la metodologı́a propuesta, haciendo especial ta de clasificar cada aspecto o caracterı́stica hincapié en los prototipos que se están crean- detectada en el documento. do. En la sección 4 se listan tres estudios so- La obtención de la subjetividad se pue- bre diferentes dominios en los que se está eva- de realizar mediante (1) Orientación semánti- luando el prototipo. Por último, la sección 5 ca y (2) Aprendizaje computacional. La sugiere distintos temas de debate que se están orientación Semántica consiste en compa- planteando durante la realización de esta te- rar los textos con lexicones compuestos por sis doctoral. palabras que reflejan sentimientos, como WordNet-Affect (Strapparava, Valitutti, y 2 Trabajo relacionado others, 2004) o SentiWordNet (Baccianella, En la siguiente sección se describe LIWC, Esuli, y Sebastiani, 2010). Por otro lado, los un estándar de facto para tareas de análi- métodos de aprendizaje computacional se ba- sis lingüı́stico (Ver sección 2.1) ası́ como in- san en entrenar un modelo a partir de un con- vestigaciones relacionadas con la Minerı́a de junto de instancias ya clasificadas. El modelo Opiniones (ver sección 2.2) . resultante debe de ser capaz de replicar el comportamiento humano. 2.1 LIWC Dentro de las técnicas de aprendizaje LIWC (Tausczik y Pennebaker, 2010) es una computacional, se pueden extraer distintos ti- herramienta para la extracción de carac- pos de caracterı́sticas. La técnica más básica terı́sticas lingüı́sticas capaz de analizar un de los modelos de aprendizaje supervisado, es conjunto de textos y generar un vector con decir, del aprendizaje a través de ejemplos, los porcentajes de una serie de categorı́as es conocida como Bolsa de Palabras (Bag of preestablecidas. Aunque fue originalmente Words) y consiste en relacionar la frecuencia diseñada para el inglés, LIWC cuenta con de ciertas expresiones con las opiniones del una versión adaptada al español. Este proce- conjunto de entrenamiento. Pese a su simpli- so de traducción fue analizado en (Ramı́rez- cidad, el modelo de Bolsa de Palabras fun- 33 ciona bastante bien; sin embargo, presenta (Ramı́rez-Esparza et al., 2007). ciertas desventajas. En primer lugar, porque UMUTextStats es extensible y permite de- puede sobre-entrenar el modelo, haciéndolo finir dimensiones a partir de un conjunto de demasiado especı́fico para el conjunto de en- dimensiones abstractas predefinidas, donde trenamiento pero fallando con nuevas instan- destacamos: cias. En segundo lugar, porque considera las palabras de manera aislada sin recoger la re- Dimensiones de diccionario. Permite en lación semántica entre el texto, perdiendo in- encontrar expresiones regulares que apa- formación relevante para la clasificación. rezcan en un determinado catálogo de Gran cantidad de estudios de minerı́a de términos. Esta dimensión también per- opiniones están centrados exclusivamente en mite indicar contraejemplos. Mediante documentos en inglés, quizás debido a la falta los contraejemplos es más fácil diseñar de recursos en otros idiomas (Martı́n-Valdivia una expresión regular sencilla sobre un et al., 2013). Además, un aspecto importan- término, y luego listar las excepciones, te sobre el cual la subjetividad y el análisis como ocurre con el género gramatical. de sentimientos requieren mayores esfuerzos Dimensiones basadas en expresiones re- está relacionado con el análisis de textos mul- gulares. Permite, por ejemplo, especifi- tilı́ngües. La anotación manual de recursos car expresiones regulares para detectar es una tarea tediosa y costosa, por lo que expresiones entrecomilladas, lo que es in- existen muy pocos corpus y diccionarios para dicativo del uso de citas textuales o pa- el análisis del sentimiento. Para superar este labras que adquieren algún determinado problema, los investigadores han propuesto tono especial. métodos para adaptar los recursos existentes y las herramientas para el análisis del sen- Dimensiones basadas en en tipografı́a. timiento desarrollado para el idioma inglés Permite detectar el porcentaje de pala- para crear recursos en otros idiomas. En es- bras escritas en mayúsculas, lo cuál pue- te sentido, los lexicones y los corpus anota- de ser indicio de tono elevado de la voz, dos se han transformado a nuevos lenguajes caracterı́stica interesante para la detec- utilizando diccionarios bilingües, bootstrap- ción de violencia a través de Internet. ping monolingüe y multilingüe o traducción automática (Balahur y Turchi, 2014). Sin em- Además de estas dimensiones genéricas, bargo, estos métodos dependen de la dispo- se han implementado dimensiones especı́ficas nibilidad y la precisión de los motores de tra- como, por ejemplo, una dimensión para cap- ducción automática. turar errores gramaticales a partir de la li- brerı́a PSPell2 o dimensiones para la detec- 3 Descripción de la metodologı́a ción de verbos, a partir del POSTagger de propuesta Stanford3 . Una ventaja de UMUTextStats frente a En la siguiente sección se describe el sistema otras aplicaciones es que permite operar si- de extracción de caracterı́sticas lingüı́sticas multáneamente con distingas versiones del en español (Ver sección 3.1) una herramienta mismo texto. Por lo tanto, algunas dimensio- de clasificación de corpus en Twitter, para la nes pueden operar sobre una versión filtrada obtención de corpus de evaluación de la he- que facilita la búsqueda de términos en el dic- rramienta (Ver sección 3.2) y, por último, la cionario, mientras que la versión original se interfaz gráfica de la aplicación (Ver sección puede utilizar para medir caracterı́sticas co- 3.3). mo el porcentaje de palabras en mayúsculas. 3.1 UMUTextStats 3.2 UMUCorpusClassifier UMUTextStats es un sistema de extracción Con objeto de facilitar el diseño de experi- de caracterı́sticas lingüı́sticas diseñado para mentos para verificar UMUTextSTats, se ha el español. Al igual que LIWC, este sistema desarrollado también una herramienta de ex- es capaz de extraer un vector formado por los tracción de tweets llamada UMUCorpusClas- porcentajes de palabras y expresiones que en- sifier. Esta herramienta permite recolectar cajan en una serie de caracterı́sticas lingüı́sti- cas. Sin embargo, se está tratando de resolver 2 https://www.php.net/manual/en/book.pspell.php las deficiencias que se encontraron en LIWC 3 https://nlp.stanford.edu/software/tagger.shtml 34 corpus de entrenamiento a partir de una ca- UMUTextStats en diferentes dominios: (1) el dena de búsqueda y, opcionalmente, una lo- estudio de la sátira, (2) infodemiologı́a y (3) calización geográfica. el análisis de opiniones sobre economı́a. Los tweets obtenidos se pueden clasificar de dos maneras. Por un lado, mediante su- 4.1 Sátira pervisión distante (Go, Bhayani, y Huang, Además de divertida, la sátira es una he- 2009) estableciendo algún tipo de regla au- rramienta constructiva que permite a la so- tomática. Por ejemplo, algunos estudios de ciedad detectar y sobreponerse a sus debili- la búsqueda de tweets satı́ricos han parti- dades. Sin embargo, aunque algunos autores do de la asumpción de que todos los tweets han comparado el periodismo satı́rico con las con el hashtag #sarcasm son irónicos (Lie- noticias falsas, estas difieren en la intenciona- brecht, Kunneman, y van Den Bosch, 2013). lidad. Mientras que la sátira pretende crear Por otro lado, mediante clasificación manual, una versión de la realidad donde nadie espera donde la calidad de la clasificación depende que sea real, las noticias falsas tienen la inten- del número de usuarios que clasifican el mis- cionalidad de confundir, generar odio, prejui- mo documento de manera independiente. De cio o decepción. Debido a la gran capacidad esta manera, el sistema potencia cuáles son de difusión de las noticias hoy en dı́a, hemos los documentos que tienen más consenso en- verificado la eficacia de UMUTextStats pa- tre los usuarios descartando los que generen ra entrenar modelos capaces de distinguir en- más controversia. Independiente del sistema tre noticias satı́ricas y noticias reales ya que, de clasificación, cada corpus se permite el uso aunque la sátira no es real, no deberı́a de ser de una escala diferente, aunque por defecto se considerada contenido pernicioso. Además, la usa una configuración de cinco niveles: muy clasificación de la sátira puede ayudar a otras positiva, positiva, neutra, negativa, muy ne- tareas del Procesamiento del Lenguaje Natu- gativa y fuera del dominio. ral, como la Minerı́a de Opiniones, porque el 3.3 Interfaz de usuario significado implı́cito de textos satı́ricos difie- re del texto explı́cito. Consecuentemente, la La interfaz gráfica de UMUTextStats está in- identificación de contenido satı́rico nos ayu- tegrada con distintas fuentes de donde re- darı́a a: (1) diferenciar entre contenido obje- coger documentos. En primer lugar, se pue- tivo y divertido, (2) filtrar noticias falsas sin den obtener documentos directamente desde perjudicar el contenido divertido, y (3) identi- la API de Twitter. En segundo lugar, se pue- ficar contenido que utiliza lenguaje figurado. den subir documentos con los textos en dis- tintos formatos, como CSV, ficheros de texto Siguiendo esta lı́nea de investigación, se plano o ficheros comprimidos. En tercer lu- han extraı́do caracterı́sticas lingüı́sticas a gar, se pueden comprobar artı́culos de la Wi- partir de varios corpus encontrados en la bi- kipedia a partir de especificar el tı́tulo. Por bliografı́a, además de la recolección de un último, se ha integrado una comunicación di- nuevo corpus balanceado formado por 10.000 recta con UMUCorpusClassifier. Los vectores tweets, escritos tanto en castellano y en es- de caracterı́sticas generados se pueden expor- pañol de México. Para la clasificación de tar en diferentes formatos como JSON, CSV, los tweets se ha seguido una estrategia de HTML y ficheros ARFF para la suite WE- supervisión distante basando en la presun- KA4 . ción de que los tweets son satı́ricos sólo si Como elemento adicional, la interfaz per- provienen de un medio satı́rico, siguiendo mite efectuar comparativas con otros mode- la misma idea que (del Pilar Salas-Zárate los. Actualmente, está diseñado para compa- et al., 2017) y (Barbieri, Ronzano, y Sag- rarse con un modelo de N-Gramas generado gion, 2015). Además, hemos podido compa- a partir de secuencias de palabras o de carac- rar nuestro modelo con estos trabajos previos teres. y con un modelo base formado por una Bolsa de Palabras. 4 Metodologı́a y experimentos Además de las dimensiones genéricas, en propuestos este experimento se crearon dos tipos de cate- gorı́as más. Una categorı́a especı́fica para ex- En la siguiente sección se describen los expe- traer caracterı́sticas propias de Twitter, como rimentos llevados a cabo para la validación de el uso de menciones, hashtags o emoticonos, y 4 https://www.cs.waikato.ac.nz/ml/weka/ otra categorı́a especı́fica para capturar técni- 35 cas propias del lenguaje figurativo a partir como el otro corpus. Los resultados de este de la taxonomı́a especificada en (Roberts y experimento se pueden consultar en (Garcı́a- Kreuz, 1994) y que consta de (1) hipérboles, Dı́az et al., 2018c). (2) idiotismos, (3) peticiones indirectas, (4) ironı́a verbal, (5) atenuación, (6) metáforas, 5 Temas especı́ficos a discutir (7) preguntas retóricas y (8) sı́miles. sobre la investigación Los resultados obtenidos han sido positi- UMUTextStats, al igual que LIWC, tiene un vos mejorando UMUTextStats a los modelos sistema arbitrario de dimensiones. Para solu- obtenidos en (del Pilar Salas-Zárate et al., cionar el problema, nos hemos puesto en con- 2017) y (Barbieri, Ronzano, y Saggion, 2015). tacto con lingüı́sticas de la Universidad de Este trabajo ha sido enviado para su publi- Murcia, para asesorarnos en establecer una cación y se encuentra ahora mismo en fase de mejor taxonomı́a. revisión. Además, se está analizando cuando ciertas 4.2 Infodemiologı́a expresiones, como ”Nueva York ”deben de ser analizadas como una entidad única o cuan- La infodemiologı́a es la ciencia que investiga do las palabras que lo conforman deben de el uso de información disponible en Internet identificarse en otras categorı́as. En este sen- con el fin de mejorar los servicios sanitarios. tido, la palabra ”Nueva”no deberı́a de con- En este sentido, existen dos grandes tipos de tabilizar en otras categorı́as como adjetivos. enfoque. Debido al impacto socio-económico Sin embargo, si que hay casos donde las pa- causado por las enfermedades infecciosas he- labras si que deben de aparecer en distintas mos realizado un conjunto de experimentos categorı́as. Para solucionarlo, se ha planteado con la colaboración de la Universidad de Gua- usar un sistema de reconocimiento de entida- yaquil. En concreto, se recolectó y se clasificó des nombradas para tratar estos elementos de un corpus formado por tweets procedentes de manera aislada. Ecuador a partir de palabras clave de virus Sobre la herramienta de UMUCorpusClas- como el Zika o el Chikungunya. Para estos sifier se pretende mejorar el sistema de tweets corpus utilizamos la herramienta UMUCor- duplicados. Durante los experimentos se han pusClassifier (Ver sección 3.2) , para recolec- detectado casos de tweets muy parecidos don- tar el corpus y para realizar una clasificación de sólo se ha variado alguna coma o sı́mbolo manual. Para ello, contamos con 20 estudian- de puntuación. Para esto, se han buscado di- tes de la universidad de Guayaquil. que rea- ferentes herramientas como la propuesta en lizaron un total de 51.127 clasificaciones ma- (Rieck y Wressnegger, 2016), pero no se han nuales. Como los alumnos clasificaron varias implantado todavı́a. veces los mismos tweets existe cierto consenso en cuanto a las opiniones, y pudimos descar- tar los tweets que generaban más polémica. Agradecimientos Se han llevado ya varios experimentos previos Este trabajo ha sido apoyado por la Agen- que se han publicado en (Garcı́a-Dı́az et al., cia Estatal de Investigación (AEI) y el Fon- 2018a) y (Garcı́a-Dı́az et al., 2018b). do Europeo de Desarrollo Regional (FEDER) a través del proyecto KBS4FIA (TIN2016- 4.3 Economı́a 76323-R) En tercer lugar, se ha aplicado este estudio al dominio de la economı́a. El objetivo de esta Bibliografı́a tarea era analizar mensajes de usuarios en re- Baccianella, S., A. Esuli, y F. Sebastiani. des sociales para determinar qué combinación 2010. Sentiwordnet 3.0: an enhanced le- de caracterı́sticas lingüı́sticas podrı́a predecir xical resource for sentiment analysis and opiniones positivas y negativas con respecto opinion mining. En Lrec, volumen 10, de la economı́a. Este estudio se llevado por páginas 2200–2204. dos vı́as. En primer lugar, se realizó un análi- sis preliminar con un corpus balanceado de Balahur, A. y M. Turchi. 2014. Comparati- 1.000 tweets positivos y 1.000 tweets negati- ve experiments using supervised learning vos. Estos tweets fueron clasificados manual- and machine translation for multilingual mente por personal del laboratorio. En este sentiment analysis. Computer Speech & sentido, el corpus, no tiene tanta aceptación Language, 28(1):56–75. 36 Barbieri, F., F. Ronzano, y H. Saggion. tant supervision. CS224N Project Report, 2015. Is this tweet satirical? a compu- Stanford, 1(12):2009. tational approach for satire detection in Liebrecht, C., F. Kunneman, y A. van spanish. Procesamiento del Lenguaje Na- Den Bosch. 2013. The perfect solu- tural, 55:135–142. tion for detecting sarcasm in tweets# del Pilar Salas-Zárate, M., M. A. Paredes- not. En Proceedings of the 4th Workshop Valverde, M. A. Rodriguez-Garcia, on Computational Approaches to Subjecti- R. Valencia-Garcı́a, y G. Alor-Hernández. vity. New Brunswick, NJ: ACL. 2017. Automatic detection of satire Martı́n-Valdivia, M.-T., E. Martı́nez-Cáma- in twitter: A psycholinguistic-based ra, J.-M. Perea-Ortega, y L. A. UreñA- approach. Knowledge-Based Systems, López. 2013. Sentiment polarity detec- 128:20–33. tion in spanish reviews combining supervi- Esuli, A. y F. Sebastiani. 2005. Determi- sed and unsupervised approaches. Expert ning the semantic orientation of terms th- Systems with Applications, 40(10):3934– rough gloss classification. En Proceedings 3942. of the 14th ACM international conferen- Ramı́rez-Esparza, N., J. W. Pennebaker, ce on Information and knowledge mana- F. A. Garcı́a, R. Suriá Martı́nez, y others. gement, páginas 617–624. ACM. 2007. La psicologı́a del uso de las pala- Garcı́a-Dı́az, J. A., Ó. Apolinario-Arzube, bras: Un programa de computadora que J. Medina-Moreira, H. Luna-Aveiga, analiza textos en español. Revista mexi- K. Lagos-Ortiz, y R. Valencia-Garcı́a. cana de psicologı́a, 24(1):85–99. 2018a. Sentiment analysis on tweets Rieck, K. y C. Wressnegger. 2016. Harry: A related to infectious diseases in south tool for measuring string similarity. The america. En Proceedings of the Euro Journal of Machine Learning Research, American Conference on Telematics and 17(1):258–262. Information Systems, página 21. ACM. Roberts, R. M. y R. J. Kreuz. 1994. Why do Garcı́a-Dı́az, J. A., O. Apolinario-Arzube, people use figurative language? Psycholo- J. Medina-Moreira, J. O. Salavarria- gical science, 5(3):159–163. Melo, K. Lagos-Ortiz, H. Luna-Aveiga, y R. Valencia-Garcı́a. 2018b. Opinion mi- Strapparava, C., A. Valitutti, y others. 2004. ning for measuring the social perception Wordnet affect: an affective extension of of infectious diseases. an infodemiology wordnet. En Lrec, volumen 4, páginas approach. En International Conference 1083–1086. Citeseer. on Technologies and Innovation, páginas Tausczik, Y. R. y J. W. Pennebaker. 2010. 229–239. Springer. The psychological meaning of words: Liwc Garcı́a-Dı́az, J. A., M. P. Salas-Zárate, M. L. and computerized text analysis methods. Hernández-Alcaraz, R. Valencia-Garcı́a, y Journal of language and social psychology, J. M. Gómez-Berbı́s. 2018c. Machine lear- 29(1):24–54. ning based sentiment analysis on spanish Tumasjan, A., T. O. Sprenger, P. G. Sandner, financial tweets. En World Conference y I. M. Welpe. 2010. Predicting elections on Information Systems and Technologies, with twitter: What 140 characters reveal páginas 305–311. Springer. about political sentiment. En Fourth in- Gaston, J., M. Narayanan, G. Dozier, D. L. ternational AAAI conference on weblogs Cothran, C. Arms-Chavez, M. Rossi, and social media. M. C. King, y J. Xu. 2018. Authorship at- tribution vs. adversarial authorship from a liwc and sentiment analysis perspecti- ve. En 2018 IEEE Symposium Series on Computational Intelligence (SSCI), pági- nas 920–927. IEEE. Go, A., R. Bhayani, y L. Huang. 2009. Twitter sentiment classification using dis- 37