=Paper= {{Paper |id=Vol-2968/paper8 |storemode=property |title=Fiero: Asistente virtual para la captación de insultos |pdfUrl=https://ceur-ws.org/Vol-2968/paper8.pdf |volume=Vol-2968 |authors=Beatriz Botella Gil,Flor Miriam Plaza del Arco,Ana Belén Parras Portillo,Yoan Gutiérrez |dblpUrl=https://dblp.org/rec/conf/sepln/GilAPG21 }} ==Fiero: Asistente virtual para la captación de insultos== https://ceur-ws.org/Vol-2968/paper8.pdf
         Fiero: Asistente virtual para la captación de insultos
                      Fiero: A virtual assistant for collecting insults

                 Beatriz Botella Gil1 , Flor Miriam Plaza del Arco2 ,
                    Ana Belén Parras Portillo2 , Yoan Gutiérrez1
 1
   Instituto Universitario de Investigación Informática, Universidad de Alicante, España
                      {beatriz.botella, ygutierrez}@dlsi.ua.es
          2
            Departamento de Informática, CEATIC, Universidad de Jaén, España
                             {fmplaza, abparras}@ujaen.es

      Resumen: Fiero es un asistente virtual orientado a la recopilación de insultos, ex-
      presiones vulgares, comentarios ofensivos o cualquier forma de lenguaje no aceptable
      a través de la aplicación de mensajerı́a Telegram. A través de esta aplicación, los
      usuarios pueden tener una conversación real con Fiero donde se incita a que lo insul-
      temos de forma humorı́stica y sarcástica. Se ha puesto a disposición de la población
      obteniendo una gran variedad de improperios utilizados en español. La recopila-
      ción de estos insultos será fundamental para la creación de recursos lingüı́sticos que
      podrán ser posteriormente utilizados para ser integrados en sistemas computacio-
      nales con el fin de identificar comportamientos inapropiados en la Web como, por
      ejemplo, el ciberacoso o el discurso del odio en sus diferentes formas.
      Palabras clave: Aistente virtual, Bot, Lenguaje ofensivo, Telegram.
      Abstract: Fiero is a virtual assistant aimed at collecting insults, vulgar expressions,
      offensive comments or any form of unacceptable language across the messaging ap-
      plication Telegram. Users can chat with Fiero where it encourages them to insult in a
      humorous and sarcastic way. It has been made available to the Spanish population
      obtaining a wide variety of expletives used in Spanish. The collection of these in-sults
      will be essential for the creation of linguistic resources in Spanish. In addition, their
      integration in systems based on Human Language Technologies could help to identify
      social problems present on the Web such as cyberbullying or hate speech in its
      different manifestations.
      Keywords: Virtual Assistant, Bot, Offensive Language, Telegram.


1   Introducción y Motivación                                                      como refleja en las últimas estadı́sticas reali-
Las TICS (Tecnologı́as de la Información y                                          zada en 2020 (INE, 2020).
la Comunicación) se han asentado en nuestra                                            Al mismo tiempo, este problema también
sociedad cambiando la forma de comunicar-                                            implica a los gobiernos y las plataformas di-
se entre las personas. Es una realidad que la                                        gitales. Por ello, para combatir la difusión del
era digital está aportando grandes beneficios                                       lenguaje ofensivo en la Web, continuamente
a la sociedad, pero también el aumento de las                                       se están desarrollando leyes y polı́ticas de lu-
interacciones sociales digitales y el anonima-                                       cha contra la incitación al odio. Desde 2013,
to, ha promovido la presencia de conductas y                                         el Consejo Europeo ha promovido el movi-
mensajes violentos en las Web.                                                       miento “No Hate Speech”, con el objetivo de
    En referente al ciberacoso, según la en-                                        movilizar a los jóvenes para combatir el dis-
cuesta (Sanjuán et al., 2019) realizada por                                         curso de odio y defender los derechos huma-
Save the children , el 40 % de los jóvenes han                                      nos en Internet. En 2016, la Comisión Euro-
sufrido este tipo de acoso y la recepción de                                        pea llegó a un acuerdo con Facebook, Micro-
estos mensajes violentos empezó a los 8 y 9                                         soft, Twitter y YouTube para crear un “Códi-
años. Esta edad temprana se debe al acce-                                           go de conducta sobre la lucha contra el dis-
so en aumento que tienen los menores en Es-                                          curso de odio ilegal en Internet”1 . Según un
paña, en concreto, según el INE, la población
                                                                                          1
entre 16 y 24 años usa las TICS en un 99,8 %                                                 https://cutt.ly/Hj5EsAh

             Copyright © 2021 for this paper by its authors. Use permitted under Creative Commons License Attribution 4.0 International (CC BY 4.0).


                                                                             29
informe español de 2019 sobre la evolución de                la edad (mayor o menor de 18 años) y el
los delitos de odio en España 2 , las amenazas,               sexo (hombre o mujer) al iniciar la apli-
los insultos y la discriminación se contabili-                cación, con el objetivo de identificar los
zan como los actos delictivos más repetidos,                  comentarios utilizados para la expresión
siendo Internet (54,9 %) y las redes sociales                  del lenguaje ofensivo por diferentes sec-
(17,2 %) los medios más utilizados para come-                 tores de la población.
ter estas acciones. Este informe llevó al parla-
                                                               Anonimización. Al tratarse de un pro-
mento español a aprobar en 2020 un proyecto
                                                               grama diseñado para comunicarse con
de ley para evitar la propagación del odio en
                                                               personas y recopilar un gran volumen de
la red3 .
                                                               datos, es necesario asegurar a los usua-
    El Procesamiento del Lenguaje Natural
                                                               rios su privacidad para un uso seguro y
(PLN) desempeña un papel fundamental en
                                                               confiable de la aplicación. Por ello, Fiero
la detección de este tipo de contenido en
                                                               solo recopila su género y edad, garanti-
la Web ya que permite desarrollar sistemas
                                                               zando la preservación de la privacidad y
computacionales que ayuden a procesar e in-
                                                               el derecho a la protección de datos per-
terpretar el lenguaje humano. Para entrenar
                                                               sonales en todo momento.
estos sistemas, es necesario disponer de recur-
sos especı́ficos para la tarea objetivo, en es-                Diálogo. Fiero establece los diálogos
te caso, la identificación del lenguaje ofensivo              apoyándose en una lista de preguntas-
(Plaza-del Arco et al., 2019), (Plaza-Del-Arco                 respuestas en un único contexto de Dia-
et al., 2020a). En los últimos años, la comuni-              logFLow. Se trata de una herramienta de
dad cientı́fica del PLN ha invertido conside-                  creación de chatbots capaz de entender
rables esfuerzos en la creación de este tipo de               el lenguaje natural y que provee infra-
recursos (Zampieri et al., 2019), (Wiegand y                   estructura para recrear conversaciones y
Siegel, 2018), (Plaza del Arco et al., 2020b).                 construir diálogos con el fin de inter-
Sin embargo, la mayorı́a están disponibles pa-                actuar con el usuario de manera fluida
ra el inglés, lo que conlleva la necesidad de                 (Sabharwal y Agrawal, 2020). Los con-
crear recursos lingüı́sticos en otros idiomas                 textos de Dialogflow son similares al con-
cuya presencia es notable en la Web, como el                   texto del lenguaje natural. Las conversa-
español.                                                      ción entre el usuario y Fiero consiste en
    En este artı́culo se presenta Fiero, un asis-              los siguientes pasos:
tente virtual que mantiene una conversación
                                                                 • El usuario escribe una entrada: el
con el usuario animándolo a expresar impro-
                                                                   mensaje.
perios a través de Telegram. Esta aplicación
es popularmente conocida en el ambiente pro-                     • El agente (o módulo de compre-
pio del uso de herramientas digitales por par-                     sión de lenguaje natural) extrae ca-
te de la población. El diálogo recopilado ser-                   da uno de los parámetros de dicha
virá para generar recursos lingüı́sticos que se                  entrada. En este paso es donde se le
puedan usar en sistemas automáticos de in-                        solicita al usuario una serie de pre-
teligencia artificial para combatir problemas                      guntas del tipo demográfico y a con-
sociales como el ciberacoso o la propagación                      tinuación se le anima de forma hu-
del discurso del odio.                                             morı́stica y sarcástica para que es-
                                                                   criba insultos.
2       Fiero                                                    • El agente devuelve la respuesta
2.1       Caracterı́sticas                                         (previamente programada) gracias
                                                                   a DialogFlow que se corresponde
El asistente virtual Fiero se ha desarrollado                      con la entrada del usuario.
teniendo en cuenta diferentes caracterı́sticas
en base a su utilización por parte de los usua-         2.2     Arquitectura
rios:
                                                         El componente principal en la arquitectura
         Recopilación de datos demográficos            de Fiero es un componente que actúa como
         del usuario. Se recopilan dos variables,        controlador, u orquestador, de procesos me-
                                                         diante el cual el flujo de información entre el
    2
        https://cutt.ly/ej5EgU7                          usuario y la parte servidora de la aplicación.
    3
        https://cutt.ly/5j5Ejum                          A través de este componente:



                                                    30
           Figura 1: Arquitectura de Fiero

         la parte servidora interactúa con la pla-
         taforma de Telegram.
         se construyen los diálogos. Para esto con-
         tamos con un diccionario de secuencia de
         diálogos afines con distintos tipos de pre-
         guntas. En este proceso técnicas simples
         de PLN se aplican para emparejar in-                   Figura 2: Interfaz de usuario de Fiero
         sultos de los usuarios con determinadas
         respuesta del sistema que utilizan jergas           un total de 150.754 comentarios debido a la
         populares, logrando motivar al usuario a            gran difusión y repercusión de Fiero en los
         insultar al bot.                                    medios de comunicación de radio, prensa y
                                                             televisión nacional. Finalmente, se obtiene un
         se almacena información proveniente del            total de 164.467 comentarios en el periodo de
         usuario en el repositorio, los datos de-            tiempo mencionado (2019-2021).
         mográficos y los comentarios provenien-               Con respecto a las variables demográficas,
         tes del diálogo.                                   se han recopilado el número de comentarios
                                                             obtenidos por mujeres y hombres menores y
  Los módulos de la parte servidora utilizan
                                                             mayores de 18 años (Tabla 2). Cabe destacar
NodeJS4 como tecnologı́a de programación.
                                                             que la población masculina mayor de 18 años
2.3        Interfaz de Usuario                               ha realizado una mayor interacción con Fiero
                                                             recopilando un total de 95.513 comentarios.
El usuario activamente puede mantener una
                                                             La población más joven (<18) participa en
conversación con Fiero a través de la interfaz
                                                             menor medida, obteniendo un total de 17.037
intuitiva que ofrece Telegram. En la Figura
                                                             comentarios en comparación con 147.430 co-
2.3 se muestra la simulación de un diálogo
                                                             mentarios obtenidos por el sector mayor de
real con Fiero. En primer lugar, se solicita la
                                                             la población.
edad y el sexo, una vez proporcionados es-
tos datos, el asistente virtual ofrece el reto al                       Año    #Comentarios
usuario de enfadarlo a través de improperios.
                                                                        2019           102
3        Estadı́sticas de Uso                                           2020         150.754
                                                                        2021          13.611
Fiero está continuamente activo para interac-
tuar con los usuarios a través de la aplicación                       Total        164.467
de mensajerı́a de Telegram. Se puso a dispo-
sición de los usuarios en el mes de julio de                Tabla 1: Número de comentarios obtenidos
2019 y hasta febrero de 2021 se han recopi-                  por año en Fiero
lado una serie de estadı́sticas que recogen la
utilización de Fiero por parte de la población.               Con la intención de efectuar un análisis del
La Tabla 1 muestra el número de comentarios                 lenguaje natural, se ha realizado un estudio
obtenidos en dicho perı́odo de tiempo. Cabe                  para obtener el total de comentarios corres-
destacar que durante el año 2020 hubo una                   pondientes a unigramas, bigramas, trigramas
interacción notablemente mayor, obteniendo                  (donde ya el usuario ha utilizado expresio-
                                                             nes), e incluso n-gramas, simulando una po-
    4
        https://nodejs.org/                                  sible conversación con el bot. Dichos datos



                                                        31
    Sexo        Edad     #Comentarios                   nisterio de Economı́a y Competitividad del
                                                        Gobierno de España, a través de los pro-
                 >18          51.917                    yectos LIVING-LANG (RTI2018-094653-B-
    Mujer
                 <18           5.922                    C21, RTI2018-094653-B-C22) , SIIA (PRO-
                 >18          95.513                    METEU/2018/089), e INTEGER (RTI2018-
    Hombre
                 <18          11.115                    094649-B-I00).
    Total                     164.467
                                                        Bibliografı́a
Tabla 2: Número de comentarios obtenidos               INE. 2020. Encuesta sobre equipamiento y
según sexo y edad en Fiero                               uso de tecnologı́as de información y comu-
                                                          nicación en los hogares.
se exponen en la Tabla 3. La mayor propor-              Plaza-del Arco, F. M., M. D. Molina-
ción (55,33 %) corresponde a unigramas y la               González, M. T. Martı́n-Valdivia, y
mayor parte de ellos se refieren a insultos a              L. A. U. Lopez. 2019. SINAI at semeval-
Fiero, seguido de los n-gramas (25,65 %) don-              2019 task 6: Incorporating lexicon know-
de se observa un uso más rico del lenguaje al             ledge into svm learning to identify and ca-
entablar una conversación más real.                      tegorize offensive language in social media.
                                                           páginas 735–738.
       N-grama         #Comentarios
                                                        Plaza-Del-Arco, F.-M., M. D. Molina-
       Unigramas           91.005                          González, L. A. Ureña-López, y M. T.
       Bigramas            16.613                          Martı́n-Valdivia.   2020a.     Detecting
       Trigramas           14.649                          misogyny and xenophobia in spanish
       N-gramas            42.200                          tweets using language technologies. ACM
       Total               164.467                         Transactions on Internet Technology
                                                           (TOIT).
Tabla 3: Número de comentarios distribuidos            Plaza del Arco, F. M., C. Strapparava, L. A.
en ngramas en Fiero                                        Urena Lopez, y M. Martin. 2020b. EmoE-
                                                           vent: A multilingual emotion corpus based
                                                           on different events. En Proceedings of the
4   Conclusiones y Trabajo futuro                          12th Language Resources and Evaluation
En este artı́culo se presenta Fiero, un asisten-           Conference. European Language Resour-
te virtual accesible desde Telegram que simu-              ces Association.
la una conversación real con el usuario pa-            Sabharwal, N. y A. Agrawal. 2020. Intro-
ra recopilar insultos, expresiones vulgares o             duction to Google Dialogflow. En Cogni-
cualquier forma de comentario no aceptable.               tive Virtual Assistants Using Google Dia-
Esta herramienta se ha puesto a disposición              logflow. Apress, páginas 13–54.
de la población obteniendo una gran variedad
de comentarios que recogen los improperios              Sanjuán, C., A. S. Campo, C. del Moral,
más utilizado en el registro español. El prin-          M. Pereda, B. Irene, A. Montiel, J. Gre-
cipal objetivo marcado como trabajo futuro                co, N. M. Hombrado, P. Cabrera, y Óscar
es recopilar estos improperios para la crea-              Naranjo. 2019. Violencia viral.
ción de recursos lingüı́sticos en esta lengua.        Wiegand, M. y M. Siegel. 2018. Overview of
Su integración en sistemas basados en TLH                the germeval 2018 shared task on the iden-
que permitirá el desarrollo de sistemas au-              tification of offensive language. En Procee-
tomáticos que ayudarán a identificar proble-            dings of KONVENS 2018.
mas sociales presentes hoy en dı́a en la Web
                                                        Zampieri, M., S. Malmasi, P. Nakov, S. Ro-
como el discurso del odio o el ciberacoso.
                                                          senthal, N. Farra, y R. Kumar. 2019.
Agradecimientos                                           SemEval-2019 task 6: Identifying and ca-
                                                          tegorizing offensive language in social me-
Esta investigación ha sido parcialmente fi-              dia (OffensEval). En Proceedings of the
nanciada por la Universidad de Alican-                    13th International Workshop on Semantic
te, la Universidad de Jaén, el Ministe-                  Evaluation. Association for Computatio-
rio de Ciencia, Innovación y Universida-                 nal Linguistics.
des (Beca FPI-PRE2019-089310) y el Mi-



                                                   32