Evaluación automática y mejora de la prosodia en personas con sı́ndrome de Down mediante el uso de juegos serios Automatic evaluation and prosody improvement of people with Down syndrome based on serious games Mario Corrales-Astorgano Departamento de Informática, ECA-SIMM, Universidad de Valladolid mcorrales@infor.uva.es Resumen: El habla de las personas con sı́ndrome de Down presenta una serie de problemas relacionados con la sintaxis, la semántica, la fonologı́a o la pragmática. Más concretamente, la prosodia está también afectada, lo que puede producir proble- mas a esta población para su desarrollo personal y su integración social. Por ello, la práctica de esta competencia concreta es fundamental en la formación comunicativa de las personas con sı́ndrome de Down. En este trabajo presentamos la utilización de un videojuego educativo orientado a la mejora de las habilidades comunicativas, especialmente la prosodia. Para ello, es necesario analizar las particularidades de esta población con el objetivo de diseñar el videojuego acorde a estas particulari- dades. Además, se incluye en este proyecto el análisis de las grabaciones obtenidas durante las sesiones de juego, con el objetivo de caracterizar las voces de las personas con sı́ndrome de Down y con la idea de implementar una evaluación automática de dichas grabaciones. Palabras clave: Sı́ndrome de Down, prosodia, videojuegos educativos, juegos se- rios, caracterización del habla Abstract: The speech of people with Down syndrome presents multiple disorders affecting the different components of language (syntax, semantics, phonology and pragmatics). In particular, prosody is also affected, conditioning their personal de- velopment and their social integration. Due to these difficulties, prosody training is fundamental in their speech therapy. In this work, the use of a video game focused on improving the communication skills of people with Down syndrome is presented. It is necessary to analyze the specific characteristics of this population with the aim of developing a video game adapted to this population. Moreover, an analysis of the recordings recorded during the game sessions is included in this work. The main aim of this analysis is the characterization of Down syndrome speech and an automatic evaluation of these recordings. Keywords: Down syndrome, prosody, educational video games, serious games, speech characterization 1 Justificación de la lizado el habla de personas con discapacidad investigación propuesta intelectual utilizando un enfoque basado en la comparación entre diferentes corpus (Kent Algunas personas con discapacidad intelec- y Vorperian, 2013). La mayorı́a de los estu- tual (ID) tienen problemas en sus relacio- dios en el estado del arte han seguido un en- nes sociales debido a sus dificultades comu- foque basado en pruebas de percepción, no nicativas (Chapman, 1997; Cleland et al., en la medición y comparación de variables 2010; Martin et al., 2009). El habla en ge- acústicas extraı́das directamente de los au- neral (Kent y Vorperian, 2013) y la prosodia dio incluidos en un corpus. Existen dos razo- en particular (Stojanovik, 2011) están afecta- nes principales que explican la escasez de es- das, lo que produce problemas en el control tos trabajos: la falta de corpus especı́ficos de de algunas funciones comunicativas. Hay po- personas con discapacidad intelectual y la di- cos trabajos en la literatura que hayan ana- Lloret, E.; Saquete, E.; Martı́nez-Barco, P.; Moreno, I. (eds.) Proceedings of the Doctoral Symposium of the XXXIV International Conference of the Spanish Society for Natural Language Processing (SEPLN 2018), p. 55–59 Sevilla, Spain, September 19th 2018. Copyright c 2018 by the paper’s authors. Copying permitted for private and academic purposes. ficultad para analizar el habla de dichas per- acústicos y análisis perceptuales. En ambos sonas. Con respecto a la falta de corpus es- casos, es importante diferenciar entre adul- pecı́ficos, la grabación de las voces de las per- tos y niños, ya que las diferencias fisiológi- sonas con discapacidad intelectual en contex- cas pueden influir en los resultados obteni- tos controlados no es una tarea fácil debido a dos. Con respecto a los análisis acústicos del que estas personas presentan diferentes pro- habla, los estudios indican niveles más altos blemas cognitivos como problemas de memo- en la frecuencia fundamental (F0) en adul- ria a corto plazo o déficit de atención, entre tos con sı́ndrome de Down (Lee, Thorpe, y otros (Chapman, 1997). Verhoeven, 2009; Albertini et al., 2010) en En cuanto a las dificultades para analizar comparación con adultos sin ninguna disca- la alteración en el habla en personas con dis- pacidad. Además, los adultos con sı́ndrome capacidad intelectual, hay que tener en cuen- de Down presentan menores perturbaciones ta que este tipo de voz suele contener dis- en la frecuencia (jitter ) (Lee, Thorpe, y Ver- fluencias y otros problemas de producción del hoeven, 2009; Seifpanahi, Bakhtiar, y Salma- habla originados por problemas fisiológicos. lian, 2011). En relación con la energı́a, se han Como resultado, la calidad de la producción observado valores más bajos en adultos con fonética es baja, lo que limita el uso de sis- sı́ndrome de Down y menores perturbaciones temas de reconocimiento automático de voz, (shimmer ) (Albertini et al., 2010). Las perso- por lo que la segmentación automática es, nas con sı́ndrome de Down también presentan en muchos casos, inabordable (Feng et al., algunos problemas en la fluidez del habla, co- 2010). La prosodia opera a un nivel supra- mo el tartamudeo. Aunque los problemas de segmental (por ejemplo, a nivel de palabras fluidez no son una caracterı́stica universal en o frases), de manera que la extracción de las las personas con sı́ndrome de Down, se ha caracterı́sticas prosódicas es un proceso más demostrado que son un problema común en costoso. Por lo tanto, la posibilidad de anali- esta población (Van Borsel y Vandermeulen, zar las producciones prosódicas de los usua- 2008; Devenny y Silverman, 1990; Eggers y rios en tiempo real y el entrenamiento de sis- Van Eerdenbrugh, 2017). temas automáticos de identificación de pro- Por otro lado, también existen resultados blemas prosódicos proporcionan información en la literatura en relación con niños con útil para que los terapeutas que trabajan con sı́ndrome de Down en comparación con niños personas con discapacidad intelectual puedan sin discapacidad intelectual. Se han observa- ayudar a estas personas a mejorar sus com- do valores más bajos en la frecuencia funda- petencias lingüı́sticas. mental (Zampini et al., 2016), perturbacio- Por otro lado, el uso de juegos serios pa- nes en la frecuencia más altas (Moura et al., ra mejorar la motivación de los estudian- 2008) y perturbaciones en la energı́a más al- tes en educación está ampliamente estudiado tas (Moura et al., 2008). (McFarlane, Sparrowhawk, y Heald, 2002). Con respecto a los análisis perceptuales, Sin embargo, no existen apenas referencias algunos estudios catalogan la voz de los adul- sobre las ventajas de utilizarlas para mejo- tos con sı́ndrome de Down como ronca (Mo- rar la producción del habla y las habilida- ran y Gilbert, 1982). Además, también se han des prosódicas de las personas con sı́ndro- observado discrepancias entre los resultados me de Down (Kent y Vorperian, 2013). Aun- de los juicios perceptuales en comparación que existen algunas herramientas (Saz et al., con los análisis acústicos, concretamente en lo 2009), no son ampliamente utilizadas por relacionado con la frecuencia (Rodger, 2009). personas con sı́ndrome de Down, ya que se En relación con el uso de videojuegos en necesita un alto grado de motivación, por lo educación especial, existen numerosos estu- que no es válido para este tipo de usuarios, dios que demuestran la eficacia del uso de debido a los problemas cognitivos que presen- videojuegos para la rehabilitación y entrena- tan. miento de personas con discapacidad intelec- tual. Algunos ejemplos son la mejora en el 2 Antecedentes y trabajo tiempo de reacción (Standen et al., 2009), relacionado el entrenamiento en la toma de decisiones Para analizar los problemas en la prosodia de (Standen, Rees, y Brown, 2009) o el entrena- las personas con sı́ndrome de Down se han miento de las habilidades matemáticas (Sha- seguido principalmente dos enfoques: análisis fie et al., 2013). 56 3 Descripción de la investigación propuesta Se propone un trabajo de investigación orien- tado al desarrollo de un videojuego para la mejora de las habilidades comunicativas de personas con sı́ndrome de Down, especial- mente enfocado en la prosodia. Para ello, lo primero fue realizar un estudio de los prin- cipales problemas que presenta esta pobla- ción en relación con sus habilidades comuni- cativas y el desarrollo de actividades orien- tadas a mejorar estos aspectos. En paralelo, fue importante definir los escenarios donde Figura 1: Escenario del juego con una activi- estas actividades están incluidas, ası́ como la dad de producción historia en la que se desarrollan dichas ac- tividades. Además, fue necesario realizar un caracterizadas por un elemento interrogativo análisis conciso sobre como los problemas de al principio de la frase, empiezan con tonos las personas con sı́ndrome de Down podı́an altos asociados a la parte interrogativa y aca- afectar a su interacción con el videojuego. ban con una bajada hacia tonos bajos. Las El género elegido para implementar el vi- frases exclamativas son, normalmente, varia- deojuego es un aspecto clave. En este ca- ciones de las frases declarativas, por lo que la so, hemos utilizado el género de las aven- variación radica en aspectos como la energı́a, turas gráficas, ya que permite incluir dentro el volumen o la modulación del tono usado de una narrativa una serie de actividades di- por el hablante. Además, la combinación de señadas para mejorar las habilidades comu- diferentes frases con diferente modalidades nicativas. El videojuego incluye conversacio- permite la inclusión de inflexiones que indi- nes con personajes, uso de objetos y navega- can una segmentación en la producción oral. ción por diferentes escenarios. Los jugadores Dependiendo del contexto y de la velocidad tienen que usar el ratón del ordenador para de producción de la frase, estas inflexiones interactuar con los diferentes elementos del pueden corresponder a una pausa (silencio) escenario. La principal innovación de nuestra y a un fin de frase, o a una semi-pausa, que propuesta con respecto a otras desarrolladas implica un cambio de entonación dentro de la es que el jugador tiene que reproducir dife- misma frase. rentes frases durante el transcurso del juego y estas reproducciones son almacenadas, por 4 Metodologı́a y experimentos lo cual pueden ser analizadas posteriormente. Al lado del jugador, siempre es necesario un propuestos acompañante que evalúe en tiempo real si es- En el estado actual del trabajo de investiga- tas grabaciones son lo suficiente buenas como ción se han realizado dos experimentos cuyos para continuar con el juego o, por el contra- resultados han sido publicados. Por un lado, rio, el jugador tiene que repetir la actividad. para analizar la interacción entre el jugador y Esta persona también ejerce el rol de apoyo el videojuego, se realizaron una serie de tests al jugador en el caso que se quede bloquea- de usabilidad combinados con los datos sobre do o de motivador extra para que el jugador la sesión de juego que el propio videojuego al- continúe con el videojuego. macena automáticamente (González-Ferreras El videojuego incluye actividades que in- et al., 2017). Por otro lado, se realizó un estu- troducen frases de diferentes modalidades dio de las grabaciones obtenidas durante las (declarativas, interrogativas y exclamativas). sesiones de juego para evaluar las diferencias Normalmente, los patrones de entonación entre las grabaciones realizadas por personas varı́an dependiendo de la modalidad de la fra- con sı́ndrome de Down y las realizadas por se. Las frases declarativas normalmente aca- personas sin discapacidad intelectual. ban con una bajada hacia tonos bajos, mien- Con respecto al análisis de las grabaciones tras que las interrogativas acaban con una obtenidas en las diferentes sesiones de jue- subida hacia tonos altos. Por otro lado, las go, el objetivo es identificar las caracterı́sti- frases parcialmente interrogativas, que están cas acústicas que caracterizan el habla de las 57 personas con sı́ndrome de Down. Estas carac- jorando (feedback). terı́sticas están relacionadas con los dominios de la frecuencia, de la energı́a, temporal y es- 5 Cuestiones de investigación pectral. Para realizar este proceso, se llevaron Debido al momento concreto en el que se en- a cabo unas grabaciones de las mismas frases cuentra la investigación, a parte de discutir del juego, pero grabadas por personas sin dis- las metodologı́as y resultados obtenidos en los capacidad intelectual. Para ello, se extrajeron estudios presentados en la anterior sección, una serie de caracterı́sticas pertenecientes a las cuestiones a discutir podrı́an ir enfoca- cada dominio estudiado y se compararon es- das en como conseguir desarrollar el módulo tas caracterı́sticas entre las extraı́das de gra- de evaluación automática. Algunas cuestio- baciones realizadas por personas con sı́ndro- nes concretas podrı́an ser: me de Down y las extraı́das de grabaciones realizadas por personas sin discapacidad in- ¿Es posible correlar las evaluaciones de telectual. De esta comparación surgieron las las grabaciones realizadas por los profe- caracterı́sticas con mayor capacidad de dis- sores con las caracterı́sticas acústicas ex- criminación entre los dos grupos, utilizando traı́das de las mismas? para ello tests estadı́sticos. Además, se entre- ¿Son eficaces los clasificadores binarios naron tres clasificadores binarios utilizando para realizar esta tarea?. Y si es ası́, las caracterı́sticas significativamente diferen- ¿cómo mejorar los resultados de clasifi- tes y se realizó una comparación entre las ca- cación? racterı́sticas de los diferentes dominios para analizar cual era más relevante a la hora de ¿Es posible realizar este proceso en tiem- clasificar una voz como proveniente de una po real o serı́a mejor continuar utilizan- persona con sı́ndrome de Down. Finalmente, do al profesor como ayudante y utilizar se realizó un test perceptual utilizando gra- el módulo como evaluador complemen- baciones creadas utilizando un algoritmo de tario? transferencia de prosodia entre los grupos: la prosodia de las grabaciones de uno de los gru- Agradecimientos pos se transfirió a las grabaciones del otro Este trabajo es financiado parcialmente por grupo, y viceversa. Los resultados de este test el proyecto del Ministerio de Economı́a, In- mostraron la importancia de la entonación dustria y Competitividad con tı́tulo “IN- y el ritmo a la hora de identificar un habla CORPORACIÓN DE UN MÓDULO DE como atı́pica (Corrales-Astorgano, Escudero- PREDICCIÓN AUTOMÁTICA DE LA CA- Mancebo, y González-Ferreras, 2018). LIDAD DE LA COMUNICACIÓN ORAL El desarrollo de un módulo de evaluación DE PERSONAS CON SÍNDROME DE automática de las grabaciones realizas por los DOWN EN UN VIDEOJUEGO EDUCATI- jugadores se desarrollará en dos etapas. En VO”, clave TIN2017-88858-C2-1-R. una primera etapa se monitorizará el traba- jo de usuario y entrenador en las actividades Bibliografı́a de producción oral integradas en el videojue- Albertini, G., S. Bonassi, V. Dall’Armi, go. Para ello, se desarrollará una interfaz que I. Giachetti, S. Giaquinto, y M. Mignano. permita recoger no sólo las respuestas orales 2010. Spectral analysis of the voice in de los usuarios y las puntuaciones asignadas Down syndrome. Research in developmen- por el entrenador, sino también las reacciones tal disabilities, 31(5):995–1001. de este último en forma de ayuda, orienta- Chapman, R. S. 1997. Language deve- ción, etc. Una segunda etapa de análisis de las lopment in children and adolescents with muestras capturadas permitirá validar una Down syndrome. Mental Retardation and serie de informes de calidad que identifiquen Developmental Disabilities Research Re- cuáles son las variables acústico/prosódicas views, 3(4):307–312. más relevantes a la hora de determinar la ca- lidad de los turnos de los usuarios. Con dicha Cleland, J., S. Wood, W. Hardcastle, J. Wis- información, se entrenará un sistema de pre- hart, y C. Timmins. 2010. Relations- dicción automática de calidad que sea capaz hip between speech, oromotor, language de valorar la respuesta oral del usuario a la and cognitive abilities in children with vez que ofrecer información para seguir me- Down’s syndrome. International journal 58 of language & communication disorders, Moura, C. P., L. M. Cunha, H. Vilarinho, 45(1):83–95. M. J. Cunha, D. Freitas, M. Palha, S. M. Pueschel, y M. Pais-Clemente. 2008. Voi- Corrales-Astorgano, M., D. Escudero- ce parameters in children with Down syn- Mancebo, y C. González-Ferreras. 2018. drome. Journal of Voice, 22(1):34–42. Acoustic characterization and perceptual analysis of the relative importance of Rodger, R. 2009. Voice quality of chil- prosody in speech of people with Down dren and young people with Down’s Syn- syndrome. Speech Communication, 99:90– drome and its impact on listener judge- 100. ment. Ph.D. tesis, Queen Margaret Uni- versity. Devenny, D. y W. Silverman. 1990. Speech dysfluency and manual specialization in Saz, O., S. Yin, E. Lleida, R. Rose, C. Vaque- Down’s syndrome. Journal of Intellectual ro, y W. R. Rodrı́guez. 2009. Tools and Disability Research, 34(3):253–260. Technologies for Computer-Aided Speech and Language Therapy. Speech Commu- Eggers, K. y S. Van Eerdenbrugh. 2017. nication, 51(10):948–967. Speech disfluencies in children with Down Syndrome. Journal of Communication D- Seifpanahi, S., M. Bakhtiar, y T. Salmalian. isorders. 2011. Objective vocal parameters in Farsi- speaking adults with Down syndrome. Fo- Feng, J., J. Lazar, L. Kumin, y A. Ozok. lia Phoniatrica et Logopaedica, 63(2):72– 2010. Computer Usage by Children with 76. Down Syndrome: Challenges and Future Research. ACM Transactions on Accessi- Shafie, A., W. F. Wan Ahmad, N. Mohd, J. J. ble Computing, 2(3):13. Barnachea, M. F. Taha, y R. L. Yusuff. 2013. “SynMax”: A mathematics applica- González-Ferreras, C., D. Escudero- tion tool for down syndrome children. En Mancebo, M. Corrales-Astorgano, Advances in Visual Informatics. Springer, L. Aguilar-Cuevas, y V. Flores-Lucas. páginas 615–626. 2017. Engaging adolescents with Down syndrome in an educational video Standen, P., N. Anderton, R. Karsandas, game. International Journal of Human– S. Battersby, y D. Brown. 2009. An eva- Computer Interaction, páginas 1–20. luation of the use of a computer game in improving the choice reaction time of Kent, R. D. y H. K. Vorperian. 2013. Speech adults with intellectual disabilities. Jour- impairment in Down syndrome: a review. nal of Assistive Technologies, 3(4):4–11. Journal of Speech, Language, and Hearing Research, 56(1):178–210. Standen, P., F. Rees, y D. Brown. 2009. Ef- fect of playing computer games on decision Lee, M. T., J. Thorpe, y J. Verhoeven. 2009. making in people with intellectual disabi- Intonation and phonation in young adults lities. Journal of Assistive Technologies, with Down syndrome. Journal of Voice, 3(2):4–12. 23(1):82–87. Stojanovik, V. 2011. Prosodic deficits in Martin, G. E., J. Klusek, B. Estigarribia, y children with Down syndrome. Journal of J. E. Roberts. 2009. Language characte- Neurolinguistics, 24(2):145–155. ristics of individuals with Down syndrome. Van Borsel, J. y A. Vandermeulen. 2008. Topics in Language Disorders, 29(2):112. Cluttering in Down syndrome. Folia Pho- McFarlane, A., A. Sparrowhawk, y Y. Heald. niatrica et Logopaedica, 60(6):312–317. 2002. Report on the educational use of ga- Zampini, L., M. Fasolo, M. Spinelli, P. Zan- mes. TEEM (Teachers evaluating educa- chi, C. Suttora, y N. Salerni. 2016. Proso- tional multimedia), Cambridge. dic skills in children with Down syndrome Moran, M. J. y H. R. Gilbert. 1982. Se- and in typically developing children. In- lected acoustic characteristics and listener ternational Journal of Language & Com- judgments of the voice of Down syndrome munication Disorders, 51(1):74–83. adults. American journal of mental defi- ciency. 59