Fiero: Asistente virtual para la captación de insultos Fiero: A virtual assistant for collecting insults Beatriz Botella Gil1 , Flor Miriam Plaza del Arco2 , Ana Belén Parras Portillo2 , Yoan Gutiérrez1 1 Instituto Universitario de Investigación Informática, Universidad de Alicante, España {beatriz.botella, ygutierrez}@dlsi.ua.es 2 Departamento de Informática, CEATIC, Universidad de Jaén, España {fmplaza, abparras}@ujaen.es Resumen: Fiero es un asistente virtual orientado a la recopilación de insultos, ex- presiones vulgares, comentarios ofensivos o cualquier forma de lenguaje no aceptable a través de la aplicación de mensajerı́a Telegram. A través de esta aplicación, los usuarios pueden tener una conversación real con Fiero donde se incita a que lo insul- temos de forma humorı́stica y sarcástica. Se ha puesto a disposición de la población obteniendo una gran variedad de improperios utilizados en español. La recopila- ción de estos insultos será fundamental para la creación de recursos lingüı́sticos que podrán ser posteriormente utilizados para ser integrados en sistemas computacio- nales con el fin de identificar comportamientos inapropiados en la Web como, por ejemplo, el ciberacoso o el discurso del odio en sus diferentes formas. Palabras clave: Aistente virtual, Bot, Lenguaje ofensivo, Telegram. Abstract: Fiero is a virtual assistant aimed at collecting insults, vulgar expressions, offensive comments or any form of unacceptable language across the messaging ap- plication Telegram. Users can chat with Fiero where it encourages them to insult in a humorous and sarcastic way. It has been made available to the Spanish population obtaining a wide variety of expletives used in Spanish. The collection of these in-sults will be essential for the creation of linguistic resources in Spanish. In addition, their integration in systems based on Human Language Technologies could help to identify social problems present on the Web such as cyberbullying or hate speech in its different manifestations. Keywords: Virtual Assistant, Bot, Offensive Language, Telegram. 1 Introducción y Motivación como refleja en las últimas estadı́sticas reali- Las TICS (Tecnologı́as de la Información y zada en 2020 (INE, 2020). la Comunicación) se han asentado en nuestra Al mismo tiempo, este problema también sociedad cambiando la forma de comunicar- implica a los gobiernos y las plataformas di- se entre las personas. Es una realidad que la gitales. Por ello, para combatir la difusión del era digital está aportando grandes beneficios lenguaje ofensivo en la Web, continuamente a la sociedad, pero también el aumento de las se están desarrollando leyes y polı́ticas de lu- interacciones sociales digitales y el anonima- cha contra la incitación al odio. Desde 2013, to, ha promovido la presencia de conductas y el Consejo Europeo ha promovido el movi- mensajes violentos en las Web. miento “No Hate Speech”, con el objetivo de En referente al ciberacoso, según la en- movilizar a los jóvenes para combatir el dis- cuesta (Sanjuán et al., 2019) realizada por curso de odio y defender los derechos huma- Save the children , el 40 % de los jóvenes han nos en Internet. En 2016, la Comisión Euro- sufrido este tipo de acoso y la recepción de pea llegó a un acuerdo con Facebook, Micro- estos mensajes violentos empezó a los 8 y 9 soft, Twitter y YouTube para crear un “Códi- años. Esta edad temprana se debe al acce- go de conducta sobre la lucha contra el dis- so en aumento que tienen los menores en Es- curso de odio ilegal en Internet”1 . Según un paña, en concreto, según el INE, la población 1 entre 16 y 24 años usa las TICS en un 99,8 % https://cutt.ly/Hj5EsAh Copyright © 2021 for this paper by its authors. Use permitted under Creative Commons License Attribution 4.0 International (CC BY 4.0). 29 informe español de 2019 sobre la evolución de la edad (mayor o menor de 18 años) y el los delitos de odio en España 2 , las amenazas, sexo (hombre o mujer) al iniciar la apli- los insultos y la discriminación se contabili- cación, con el objetivo de identificar los zan como los actos delictivos más repetidos, comentarios utilizados para la expresión siendo Internet (54,9 %) y las redes sociales del lenguaje ofensivo por diferentes sec- (17,2 %) los medios más utilizados para come- tores de la población. ter estas acciones. Este informe llevó al parla- Anonimización. Al tratarse de un pro- mento español a aprobar en 2020 un proyecto grama diseñado para comunicarse con de ley para evitar la propagación del odio en personas y recopilar un gran volumen de la red3 . datos, es necesario asegurar a los usua- El Procesamiento del Lenguaje Natural rios su privacidad para un uso seguro y (PLN) desempeña un papel fundamental en confiable de la aplicación. Por ello, Fiero la detección de este tipo de contenido en solo recopila su género y edad, garanti- la Web ya que permite desarrollar sistemas zando la preservación de la privacidad y computacionales que ayuden a procesar e in- el derecho a la protección de datos per- terpretar el lenguaje humano. Para entrenar sonales en todo momento. estos sistemas, es necesario disponer de recur- sos especı́ficos para la tarea objetivo, en es- Diálogo. Fiero establece los diálogos te caso, la identificación del lenguaje ofensivo apoyándose en una lista de preguntas- (Plaza-del Arco et al., 2019), (Plaza-Del-Arco respuestas en un único contexto de Dia- et al., 2020a). En los últimos años, la comuni- logFLow. Se trata de una herramienta de dad cientı́fica del PLN ha invertido conside- creación de chatbots capaz de entender rables esfuerzos en la creación de este tipo de el lenguaje natural y que provee infra- recursos (Zampieri et al., 2019), (Wiegand y estructura para recrear conversaciones y Siegel, 2018), (Plaza del Arco et al., 2020b). construir diálogos con el fin de inter- Sin embargo, la mayorı́a están disponibles pa- actuar con el usuario de manera fluida ra el inglés, lo que conlleva la necesidad de (Sabharwal y Agrawal, 2020). Los con- crear recursos lingüı́sticos en otros idiomas textos de Dialogflow son similares al con- cuya presencia es notable en la Web, como el texto del lenguaje natural. Las conversa- español. ción entre el usuario y Fiero consiste en En este artı́culo se presenta Fiero, un asis- los siguientes pasos: tente virtual que mantiene una conversación • El usuario escribe una entrada: el con el usuario animándolo a expresar impro- mensaje. perios a través de Telegram. Esta aplicación es popularmente conocida en el ambiente pro- • El agente (o módulo de compre- pio del uso de herramientas digitales por par- sión de lenguaje natural) extrae ca- te de la población. El diálogo recopilado ser- da uno de los parámetros de dicha virá para generar recursos lingüı́sticos que se entrada. En este paso es donde se le puedan usar en sistemas automáticos de in- solicita al usuario una serie de pre- teligencia artificial para combatir problemas guntas del tipo demográfico y a con- sociales como el ciberacoso o la propagación tinuación se le anima de forma hu- del discurso del odio. morı́stica y sarcástica para que es- criba insultos. 2 Fiero • El agente devuelve la respuesta 2.1 Caracterı́sticas (previamente programada) gracias a DialogFlow que se corresponde El asistente virtual Fiero se ha desarrollado con la entrada del usuario. teniendo en cuenta diferentes caracterı́sticas en base a su utilización por parte de los usua- 2.2 Arquitectura rios: El componente principal en la arquitectura Recopilación de datos demográficos de Fiero es un componente que actúa como del usuario. Se recopilan dos variables, controlador, u orquestador, de procesos me- diante el cual el flujo de información entre el 2 https://cutt.ly/ej5EgU7 usuario y la parte servidora de la aplicación. 3 https://cutt.ly/5j5Ejum A través de este componente: 30 Figura 1: Arquitectura de Fiero la parte servidora interactúa con la pla- taforma de Telegram. se construyen los diálogos. Para esto con- tamos con un diccionario de secuencia de diálogos afines con distintos tipos de pre- guntas. En este proceso técnicas simples de PLN se aplican para emparejar in- Figura 2: Interfaz de usuario de Fiero sultos de los usuarios con determinadas respuesta del sistema que utilizan jergas un total de 150.754 comentarios debido a la populares, logrando motivar al usuario a gran difusión y repercusión de Fiero en los insultar al bot. medios de comunicación de radio, prensa y televisión nacional. Finalmente, se obtiene un se almacena información proveniente del total de 164.467 comentarios en el periodo de usuario en el repositorio, los datos de- tiempo mencionado (2019-2021). mográficos y los comentarios provenien- Con respecto a las variables demográficas, tes del diálogo. se han recopilado el número de comentarios obtenidos por mujeres y hombres menores y Los módulos de la parte servidora utilizan mayores de 18 años (Tabla 2). Cabe destacar NodeJS4 como tecnologı́a de programación. que la población masculina mayor de 18 años 2.3 Interfaz de Usuario ha realizado una mayor interacción con Fiero recopilando un total de 95.513 comentarios. El usuario activamente puede mantener una La población más joven (<18) participa en conversación con Fiero a través de la interfaz menor medida, obteniendo un total de 17.037 intuitiva que ofrece Telegram. En la Figura comentarios en comparación con 147.430 co- 2.3 se muestra la simulación de un diálogo mentarios obtenidos por el sector mayor de real con Fiero. En primer lugar, se solicita la la población. edad y el sexo, una vez proporcionados es- tos datos, el asistente virtual ofrece el reto al Año #Comentarios usuario de enfadarlo a través de improperios. 2019 102 3 Estadı́sticas de Uso 2020 150.754 2021 13.611 Fiero está continuamente activo para interac- tuar con los usuarios a través de la aplicación Total 164.467 de mensajerı́a de Telegram. Se puso a dispo- sición de los usuarios en el mes de julio de Tabla 1: Número de comentarios obtenidos 2019 y hasta febrero de 2021 se han recopi- por año en Fiero lado una serie de estadı́sticas que recogen la utilización de Fiero por parte de la población. Con la intención de efectuar un análisis del La Tabla 1 muestra el número de comentarios lenguaje natural, se ha realizado un estudio obtenidos en dicho perı́odo de tiempo. Cabe para obtener el total de comentarios corres- destacar que durante el año 2020 hubo una pondientes a unigramas, bigramas, trigramas interacción notablemente mayor, obteniendo (donde ya el usuario ha utilizado expresio- nes), e incluso n-gramas, simulando una po- 4 https://nodejs.org/ sible conversación con el bot. Dichos datos 31 Sexo Edad #Comentarios nisterio de Economı́a y Competitividad del Gobierno de España, a través de los pro- >18 51.917 yectos LIVING-LANG (RTI2018-094653-B- Mujer <18 5.922 C21, RTI2018-094653-B-C22) , SIIA (PRO- >18 95.513 METEU/2018/089), e INTEGER (RTI2018- Hombre <18 11.115 094649-B-I00). Total 164.467 Bibliografı́a Tabla 2: Número de comentarios obtenidos INE. 2020. Encuesta sobre equipamiento y según sexo y edad en Fiero uso de tecnologı́as de información y comu- nicación en los hogares. se exponen en la Tabla 3. La mayor propor- Plaza-del Arco, F. M., M. D. Molina- ción (55,33 %) corresponde a unigramas y la González, M. T. Martı́n-Valdivia, y mayor parte de ellos se refieren a insultos a L. A. U. Lopez. 2019. SINAI at semeval- Fiero, seguido de los n-gramas (25,65 %) don- 2019 task 6: Incorporating lexicon know- de se observa un uso más rico del lenguaje al ledge into svm learning to identify and ca- entablar una conversación más real. tegorize offensive language in social media. páginas 735–738. N-grama #Comentarios Plaza-Del-Arco, F.-M., M. D. Molina- Unigramas 91.005 González, L. A. Ureña-López, y M. T. Bigramas 16.613 Martı́n-Valdivia. 2020a. Detecting Trigramas 14.649 misogyny and xenophobia in spanish N-gramas 42.200 tweets using language technologies. ACM Total 164.467 Transactions on Internet Technology (TOIT). Tabla 3: Número de comentarios distribuidos Plaza del Arco, F. M., C. Strapparava, L. A. en ngramas en Fiero Urena Lopez, y M. Martin. 2020b. EmoE- vent: A multilingual emotion corpus based on different events. En Proceedings of the 4 Conclusiones y Trabajo futuro 12th Language Resources and Evaluation En este artı́culo se presenta Fiero, un asisten- Conference. European Language Resour- te virtual accesible desde Telegram que simu- ces Association. la una conversación real con el usuario pa- Sabharwal, N. y A. Agrawal. 2020. Intro- ra recopilar insultos, expresiones vulgares o duction to Google Dialogflow. En Cogni- cualquier forma de comentario no aceptable. tive Virtual Assistants Using Google Dia- Esta herramienta se ha puesto a disposición logflow. Apress, páginas 13–54. de la población obteniendo una gran variedad de comentarios que recogen los improperios Sanjuán, C., A. S. Campo, C. del Moral, más utilizado en el registro español. El prin- M. Pereda, B. Irene, A. Montiel, J. Gre- cipal objetivo marcado como trabajo futuro co, N. M. Hombrado, P. Cabrera, y Óscar es recopilar estos improperios para la crea- Naranjo. 2019. Violencia viral. ción de recursos lingüı́sticos en esta lengua. Wiegand, M. y M. Siegel. 2018. Overview of Su integración en sistemas basados en TLH the germeval 2018 shared task on the iden- que permitirá el desarrollo de sistemas au- tification of offensive language. En Procee- tomáticos que ayudarán a identificar proble- dings of KONVENS 2018. mas sociales presentes hoy en dı́a en la Web Zampieri, M., S. Malmasi, P. Nakov, S. Ro- como el discurso del odio o el ciberacoso. senthal, N. Farra, y R. Kumar. 2019. Agradecimientos SemEval-2019 task 6: Identifying and ca- tegorizing offensive language in social me- Esta investigación ha sido parcialmente fi- dia (OffensEval). En Proceedings of the nanciada por la Universidad de Alican- 13th International Workshop on Semantic te, la Universidad de Jaén, el Ministe- Evaluation. Association for Computatio- rio de Ciencia, Innovación y Universida- nal Linguistics. des (Beca FPI-PRE2019-089310) y el Mi- 32