Modelo automático para la prevención del suicidio mediante la detección precoz de mensajes suicidas en redes sociales Automatic model for suicide prevention by means of early detection of suicide messages in social networks Saray Zafra Dpt. Leng. y Sist. Inf. Univ. de Alicante Apdo. de correos, 99 E-03080 Alicante saray.zafra@ua.es Resumen: Desgraciadamente, el número de suicidios en España parece haber aumentado en los últimos años. Constantemente nos llegan noticias de jóvenes y no tan jóvenes que han intentado suicidarse y que previamente habı́an mostrado conductas extrañas en los perfiles de sus redes sociales. Con la prevención como telón de fondo, es fundamental poder detectar dichos mensajes mediante técnicas de aprendizaje automático o Machine Learning por su utilidad contrastada en otras áreas de investigación. Sin embargo, las mismas requieren de un corpus equilibrado de calidad que cuente con el mayor número de muestras posible y ası́, poder aprender mediante ejemplos. Por ello, entendemos que el proceso de compilación de un corpus para la prevención del suicidio debe extenderse a todas las redes sociales posibles, con independencia de que estén ubicadas tanto en la Surface Web como en la Deep Web. Palabras clave: Suicidio, Redes Sociales, Aprendizaje Automático, Compilación, Corpus Equilibrado, Internet Superficial, Web Profunda Abstract: Unfortunately, the number of suicides in Spain is growing more and more. Constantly, news are published about young and not-so-young people who have attempted suicide but, previously, they have shown strange behaviours in their social networks profiles. With the aim of preventing, it is important to be capable of detecting messages by means of using Machine Learning techniques due to its utility observed in other researching areas. However, the previous task requires a balanced corpus with a lot of samples in order to learn by examples. That’s why the compilation process should be spread out to all of social networks based on Surface Web and Deep Web. Keywords: Suicide, Social Networks, Machine Learning, Compilation, Balanced Corpus, Surface Web, Deep Web 1 Motivación de la investigación re una previa reflexión por parte del sujeto Según los datos ofrecidos por la Organización (Dunlop, More, y Romer, 2011) y puede obe- Mundial de la Salud en su última nota des- decer a un sinfı́n de causas (Aranguren, 2009; criptiva (OMS, 2017), el suicidio sigue siendo Brea, 2013) cada cual más compleja y depen- la segunda causa de defunción entre los jóve- diente de una amplia gama de factores de pro- nes de 15 a 29 años. Además, a nivel mundial, tección y de riesgo que a su vez tienen su ori- el suicidio representa el 50 % de las muertes gen tanto en factores internos como externos. violentas en los hombres y el 71 % en las mu- Es por ello que las estrategias destinadas a su jeres (Navarro-Gómez, 2017). En el plano na- prevención deberian ser lo más variadas posi- cional, el suicidio representa la primera cau- bles (Mansilla, 2010) y centradas en aquellos sa de muerte por causas externas, con más ámbitos en los que más presentes estén dichas de 2.500 muertes en hombres frente a las casi manifestaciones, como por ejemplo, las Redes 1.000 muertes en mujeres (Instituto Nacional Sociales. de Estadı́stica, 2017). En una era marcada por los nativos di- El pensamiento de quitarse la vida requie- gitales (Prensky, 2010), las redes sociales se han convertido en un modo de comunicación pus (Pak y Paroubek, 2010). habitual entre los jóvenes de 14 y 24 años Compila posts de Twitter y los clasifica en el 91,3 % de los casos (Instituto Nacional en función de si presentan (i) Emocio- de Estadistica, 2014). En la actualidad, In- nes positivas (e.g. Felicidad, diversión, ternet es una de las herramientas más em- alegrı́a, plenitud, etc.), (ii) Emociones peladas para realizar gestiones habituales y Negativas (e.g. Tristeza, enfado, decep- consultar dudas de todo tipo, incluidas las ción, etc.) o son (iii) Textos Objetivos relacionadas con el suicidio (Alao, Yolles, y (e.g. Hechos fácticos o emociones con- Armenta, 1999; Trujano Ruiz, Dorantes Se- fusas que los investigadores no podı́an gura, y Tovilla Quesada, 2009; Moreno Gea clasificar en las categorı́as anteriores). y Blanco Sánchez, 2012; Arroyo Fernández y Bertomeu Ruiz, 2012). 2. The Cincinnati Children’s Hospital Me- dical Center Corpus (Pestian, Matykie- En la Deep Web o aquel entorno con moto- wicz, y Linn-Gust, 2012). res de búsqueda distintos de los convenciona- les cuya IP es imposible de rastrear, muchos Digitaliza y compila notas de suicido usuarios han encontrado un entorno ideal pa- real recogidas entre los años 1950 y 2012 ra la libre expresión de ideas relacionadas con por dos especialistas en el ámbito de la la temática del suicidio. prevención del suicidio: Edwin Shneid- Establecido el trinomio Redes sociales- man (considerado el padre de la Suici- Jóvenes-Suicidio, existe la necesidad de desa- diologı́a Moderna (Chávez-Hernández y rrollar una herramienta capaz de detectar el Leenaars, 2010)) y John Perstian. nivel de alerta de un mensaje suicida com- 3. The Genuine Suicide Notes Corpus pilado desde las redes sociales (tanto de la (Schoene y Dethlefs, 2016). Deep Web como de la Surface Web) con el La compilación de textos procede de fin de que el mismo sea derivado a los servi- artı́culos de revista, corpus existentes y cios correspondientes y ası́, poder prevenir el otros recursos académicos (Scheidman y suicidio. Farberow, 1957), clasificando cada mues- tra en dos categorı́as: (i) Caracterı́sticas 2 Antecedentes y trabajos Sentimentales (e.g. Miedo, culpa, espe- relacionados ranza, culpa, información, orgullo, amor, El suicidio es un fenómeno complejo. etc.) y (ii) Caracterı́sticas Lingüı́sticas Además, todavı́a representa un tabú en la (e.g. Items tales como la longitud de la época en la que vivimos (mención aparte re- nota, el tiempo verbal de las mismas, quiere la ausencia de datos “contrastados” etc.). por parte del INE 1 ). Las pocas aproximacio- 4. The Corpus of Palestian Suicide Bom- nes teóricas existentes (Morton et al., 1995; bers’ Farewell Letters (Cohen, 2016). Leenaars, 2010) aparte de las innumerables clasificaciones basadas en la primigenia ca- Recoge la compilación de notas de sui- tegorización realizada por Durkheim (Durk- cidio real de hombres bomba palesti- heim, 1897), también dificulta su estudio. nos desde el 2000 hasta el 2006 y ana- No obstante, en el campo de las TLH y liza: (i) La Temática más frecuente en mano a mano con la disciplina médica, sı́ se las notas suicidas (e.g. Empleo de meca- han realizado varios corpus relacionados con nismos cognitivos, sociedad, afecto, re- la temática. Estos se encuentran en inglés y ligión, etc.), (ii) Las palabras más fre- centran su ámbito de estudio en ambientes cuentes. Además realiza dos análisis: (i) controlados. Nosotros, por el contrario, que- Análisis computerizado de textos de los remos que una máquina aprenda a detectar el temas más frecuentes (e.g. 27 palabras “lenguaje suicida” sin que sepa si dicho tex- relacionadas con “MyMother”, 21 con to pertenece o no a un suicida previamente “MyFather”, etc.) y (ii) Análisis de con- identificado. Grosso modo, los corpus relacio- cordancia. nados son los siguientes: 5. The Mowery’s et al. Twitter Corpus (Mowery et al., 2016). 1. The Pak’s and Paroubek’s Twitter Cor- Los textos aquı́ compilados proceden de 1 https://elpais.com/2017/06/12/ciencia/ notas suicidas escritas en Twitter y el es- 1497291180_123865.html quema de anotación seguido se basa en los criterios de depresión establecidos en 3. Generar conciencia social acerca de que el DSM-V (American Psychiatric Asso- el suicidio es un problema real de salud ciation, 2013). pública (OMS, 2017) y que el desarrollo de herramientas preventivas es la clave En los ejemplos mostrados previamente, para reducir las cifras (800.000 personas podemos observar tres factores comunes que se quitan la vida cada año). marcan la diferencia entre dichos corpus y 4. Construir un corpus amplio y de calidad el que queremos desarrollar en este proyec- valorado mediante medidas objetivas co- to de investigación: (i) Ambiente controlado, mo el acuerdo mutuo para que pueda ser (ii) Conocimiento del historial clı́nico de mu- empleado en futuros sistemas de apren- chos de los sujetos que componen la muestra dizaje automático. y (iii) Compilación de notas de suicidio con- firmadas. 5. Garantizar el libre acceso al corpus, que Nuestro objetivo en este plan de investi- irá actualizándose periódicamente. gación es claro: Conseguir que una máqui- na aprenda acerca de un modo particular de 6. Asegurar el anonimato de los datos pre- expresión del lenguaje suicida en un entorno sentados en el corpus. concreto (como son las redes sociales) y que, 7. Evaluar la utilidad de este corpus sin la previa elaboración del perfil del usuario probándolo en sistemas de aprendizaje del que procede el mensaje o los mensajes, sea automático. posible establecer un nivel de alerta suficien- te como para derivar a los servicios que sean 4 Metodologı́a y experimentos necesarios. Somos conscientes de que supo- propuestos ne una tarea complicada, pero serı́a un gran avance en lo que a la prevención del suicidio El objetivo de la elaboración de un corpus se refiere. de mensajes suicidas basado en redes socia- les no es otro que poder crear una herramien- 3 Hipótesis y objetivos de ta preventiva. Dentro de las Tecnologı́as del Lenguaje Humano (TLH ) nosotros hemos se- investigación leccionado el Aprendizaje Automático (o Ma- Las hipótesis que guı́an el proceso de investi- chine Learning gación son las siguientes: Aportando a una máquina el mayor núme- ro de ejemplos posible y tras la compilación 1. Los textos extraı́dos de redes sociales de de mensajes suicidas extraı́dos de redes so- la Deep Web son diferentes a los obteni- ciales, es posible que la misma aprenda sobre dos desde la Surface Web. un particular modo de expresión de ideas sui- cidas 2 . Para ello, se requiere la elaboración 2. El anonimato que ofrece la Deep Web di- de los siguientes pasos: ficulta las labores de prevención y/o ac- tuación en el caso concreto. 1. Proceso de compilación 3. Un corpus de calidad debidamente ano- Desarrollo de un crawler capaz de reali- tado sobre mensajes suicidas puede me- zar una búsqueda automática de textos jorar los sistemas automáticos de detec- en redes sociales (tanto de la Deep Web ción de este tipo de mensajes. como Surface Web) de perfiles públicos y que no requieran el login. Entre los objetivos planteados en la inves- 2. Guı́a de anotación tigación encontramos los siguientes: Indicaciones sobre el perı́odo de entrena- 1. Desarrollar un crawler capaz de extraer miento y su duración, qué anotar, cómo información de Deep Web y Surface Web anotarlo, ası́ como una descripción deta- de manera automática. llada de las propiedades requeridas para cada texto además del programa con el 2. Crear un entorno web donde sea posible que se realizará dicha anotación (para lo realizar todas las tareas de anotación y gestión del proceso de anotación en ge- 2 https//qz.com/1001968/artificial-intelligence- neral. can-now-predict-suicide-with-remarkable-accuracy/ que se enviará a los anotadores el corres- - ¿Dificulta la Deep Web la tarea de de- pondiente plugin y documentos informa- rivar un mensaje a los servicios de sa- tivos). En el caso de que se consiga crear lud correspondientes en función del nivel un entorno web para dicho proceso, tam- de alerta previamente establecido para el bién se elaborará una guı́a de anotación mismo?. en la que se indique cuáles son los pa- sos a seguir para realizar el proceso de Agradecimientos anotación correctamente. Especial agradecimiento a las Ayudas Fun- 3. Fase de Anotación dación BBVA a equipos de investiga- ción cientı́fica por la financiación del pro- A medida que el proyecto se inicie, ca- yecto Análisis de Sentimientos Aplicado a la da anotador contará con muestras pro- Prevención del Suicidio en las Redes Sociales cedentes del crawler desarrollado que irá (ASAP ) y a Beatriz Botella Gil, Isabel Mo- anotando según las categorı́as especifica- reno Agulló y Marı́a de los Ángeles Herrero, das en la guı́a de anotación. compañeras del Departamento de Lenguajes 4. Gold-Standard o corpus consensuado y Sistemas Informáticos de la Universidad de Se realizarán reuniones periódicas para Alicante (DLSI ). analizar desacuerdos entre los anotado- res y ası́ poder establecer qué categorı́as Bibliografı́a son las más idóneas para cada propiedad. Alao, A. O., J. C. Yolles, y W. Armenta. Este proceso será documentado con el fin 1999. Cybersuicide: The Internet and sui- de observar cuáles han sido las dificulta- cide. American Journal of Psychiatry, des a lo largo del proceso de anotación 156(11):1836–1837. y, de ser necesario, proceder a realizar American Psychiatric Association. 2013. cambios en la guı́a de anotación. Diagnostic and Statistical Manual of Men- 5. Uso del corpus en sistemas de aprendi- tal Disorders, Fifth Edition. American zaje automático. Psychiatric Association, may. Para demostrar que el corpus puede ser Aranguren, M. 2009. Modelos teóricos de la una herramienta valiosa en la detección comprensión del suicidio. Universidad de del fenómeno suicida, se aplicará el cor- Buenos Aires. pus en varias etapas de construcción a Arroyo Fernández, A. y A. Bertomeu Ruiz. sistemas de aprendizaje automático pa- 2012. Métodos suicidas e Internet. ra poder estimar si el corpus puede ser 38(4):143–148. parte de una solución global a este pro- blema. Brea, J. M. 2013. En torno al suicidio. Cua- dernos de atención primaria, páginas 168– 5 Cuestiones de interés a tratar 172. durante el simposio Chávez-Hernández, A. M. y A. A. Leenaars. Por la envergadura que el fenómeno del sui- 2010. Edwin S Shneidman y la suicido- cidio representa, nos gustarı́a plantear las si- logı́a moderna. Salud Mental, 33(4):355– guientes cuestiones al auditorio: 360. - ¿Es posible la prevención del suici- Cohen, S. J. 2016. Mapping the minds of dio mediante la aplicación del Machine suicide Bombers using linguistic methods: Learning a los textos compilados de las The corpus of Palestinian suicide bom- redes sociales de ambos entornos? bers’ farewell letters (CoPSBFL). Studies in Conflict & Terrorism, 39(7-8):749–780, - ¿Existe realmente un particular modo de jul. expresión de las ideas relacionadas con el Dunlop, S. M., E. More, y D. Romer. 2011. suicidio en las Redes Sociales? Where do youth learn about suicides on - ¿Facilita el anonimato que se genera en the Internet, and what influence does la Deep Web la mayor difusión de con- this have on suicidal ideation? Jour- tenidos relacionados con las ideaciones nal of Child Psychology and Psychiatry, suicidas? 52(10):1073–1080, oct. Durkheim, É. 1897. El suicidio. Un estudio Schoene, A. M. y N. Dethlefs. 2016. Au- de sociologı́a. 2a edición. tomatic Identification of Suicide Notes from Linguistic and Sentiment Features. Instituto Nacional de Estadistica. 2014. En- (2010):128–133. cuesta sobre Equipamiento y Uso de Tec- nologı́as de Información y Comunicación Trujano Ruiz, P., J. Dorantes Segura, y en los Hogares. páginas 1–9. V. Tovilla Quesada. 2009. Violencia En Internet: Nuevas Vı́ctimas, Nuevos Retos. Instituto Nacional de Estadı́stica. 2017. Es- 15(1):7–19. paña en cifras. páginas 17–19. Leenaars, A. A. 2010. Edwin S. Shneidman on Suicide. Suicidology Online, 1:5–18. Mansilla, F. 2010. Suicidio y Prevención. Valldargents , 27 bajos, 2010 edición. Moreno Gea, P. y C. Blanco Sánchez. 2012. Suicidio e Internet. Medidas preventivas y de actuación. Moreno Gea P. Psiquia- tria.com, 16:1–12. Morton, M., R. W. Suicide, L. Threatening, B. New, y Y. Spring. 1995. The preven- tion of suicidal behaviors : An overview. 25(Spring):10–21. Mowery, D., H. A. Smith, T. Cheney, C. Bryan, y M. Conway. 2016. Iden- tifying Depression-Related Tweets from Twitter for Public Health Monitoring. Online Journal of Public Health Informa- tics, 8(1):2579. Navarro-Gómez, N. 2017. El suicidio en jóve- nes en España: cifras y posibles causas. Análisis de los últimos datos disponibles. Clı́nica y Salud, 28(1):25–31. OMS. 2017. Nota Descriptiva. Prevención del suicidio. Pak, A. y P. Paroubek. 2010. Twitter as a Corpus for Sentiment Analysis and Opi- nion Mining. In Proceedings of the Se- venth Conference on International Lan- guage Resources and Evaluation, páginas 1320–1326. Pestian, J. P., P. Matykiewicz, y M. Linn- Gust. 2012. What’s In a Note: Construc- tion of a Suicide Note Corpus. Biomedical informatics insights, 5:1–6. Prensky, M. 2010. Nativos e Inmigrantes Digitales. Cuadrenos SEK 2.o, (M-24433- 2010):21. Scheidman, E. y N. Farberow. 1957. Ckues to Suicide. Public Health Report, 71(No 2).