=Paper= {{Paper |id=Vol-2251/paper10 |storemode=property |title= Evaluación automática y mejora de la prosodia en personas con síndrome de down mediante el uso de juegos serios (Automatic evaluation and prosody improvement of people with down syndrome based on serious games) |pdfUrl=https://ceur-ws.org/Vol-2251/paper10.pdf |volume=Vol-2251 |authors=Mario Corrales-Astorgano }} == Evaluación automática y mejora de la prosodia en personas con síndrome de down mediante el uso de juegos serios (Automatic evaluation and prosody improvement of people with down syndrome based on serious games) == https://ceur-ws.org/Vol-2251/paper10.pdf
     Evaluación automática y mejora de la prosodia en
    personas con sı́ndrome de Down mediante el uso de
                        juegos serios
Automatic evaluation and prosody improvement of people with
          Down syndrome based on serious games
                              Mario Corrales-Astorgano
            Departamento de Informática, ECA-SIMM, Universidad de Valladolid
                                 mcorrales@infor.uva.es

       Resumen: El habla de las personas con sı́ndrome de Down presenta una serie de
       problemas relacionados con la sintaxis, la semántica, la fonologı́a o la pragmática.
       Más concretamente, la prosodia está también afectada, lo que puede producir proble-
       mas a esta población para su desarrollo personal y su integración social. Por ello, la
       práctica de esta competencia concreta es fundamental en la formación comunicativa
       de las personas con sı́ndrome de Down. En este trabajo presentamos la utilización
       de un videojuego educativo orientado a la mejora de las habilidades comunicativas,
       especialmente la prosodia. Para ello, es necesario analizar las particularidades de
       esta población con el objetivo de diseñar el videojuego acorde a estas particulari-
       dades. Además, se incluye en este proyecto el análisis de las grabaciones obtenidas
       durante las sesiones de juego, con el objetivo de caracterizar las voces de las personas
       con sı́ndrome de Down y con la idea de implementar una evaluación automática de
       dichas grabaciones.
       Palabras clave: Sı́ndrome de Down, prosodia, videojuegos educativos, juegos se-
       rios, caracterización del habla
       Abstract: The speech of people with Down syndrome presents multiple disorders
       affecting the different components of language (syntax, semantics, phonology and
       pragmatics). In particular, prosody is also affected, conditioning their personal de-
       velopment and their social integration. Due to these difficulties, prosody training is
       fundamental in their speech therapy. In this work, the use of a video game focused
       on improving the communication skills of people with Down syndrome is presented.
       It is necessary to analyze the specific characteristics of this population with the aim
       of developing a video game adapted to this population. Moreover, an analysis of the
       recordings recorded during the game sessions is included in this work. The main aim
       of this analysis is the characterization of Down syndrome speech and an automatic
       evaluation of these recordings.
       Keywords: Down syndrome, prosody, educational video games, serious games,
       speech characterization

1    Justificación de la                                      lizado el habla de personas con discapacidad
     investigación propuesta                                  intelectual utilizando un enfoque basado en
                                                               la comparación entre diferentes corpus (Kent
Algunas personas con discapacidad intelec-
                                                               y Vorperian, 2013). La mayorı́a de los estu-
tual (ID) tienen problemas en sus relacio-
                                                               dios en el estado del arte han seguido un en-
nes sociales debido a sus dificultades comu-
                                                               foque basado en pruebas de percepción, no
nicativas (Chapman, 1997; Cleland et al.,
                                                               en la medición y comparación de variables
2010; Martin et al., 2009). El habla en ge-
                                                               acústicas extraı́das directamente de los au-
neral (Kent y Vorperian, 2013) y la prosodia
                                                               dio incluidos en un corpus. Existen dos razo-
en particular (Stojanovik, 2011) están afecta-
                                                               nes principales que explican la escasez de es-
das, lo que produce problemas en el control
                                                               tos trabajos: la falta de corpus especı́ficos de
de algunas funciones comunicativas. Hay po-
                                                               personas con discapacidad intelectual y la di-
cos trabajos en la literatura que hayan ana-
Lloret, E.; Saquete, E.; Martı́nez-Barco, P.; Moreno, I. (eds.) Proceedings of the Doctoral Symposium of the XXXIV
International Conference of the Spanish Society for Natural Language Processing (SEPLN 2018), p. 55–59 Sevilla, Spain,
September 19th 2018. Copyright c 2018 by the paper’s authors. Copying permitted for private and academic purposes.
ficultad para analizar el habla de dichas per-            acústicos y análisis perceptuales. En ambos
sonas. Con respecto a la falta de corpus es-              casos, es importante diferenciar entre adul-
pecı́ficos, la grabación de las voces de las per-        tos y niños, ya que las diferencias fisiológi-
sonas con discapacidad intelectual en contex-             cas pueden influir en los resultados obteni-
tos controlados no es una tarea fácil debido a           dos. Con respecto a los análisis acústicos del
que estas personas presentan diferentes pro-              habla, los estudios indican niveles más altos
blemas cognitivos como problemas de memo-                 en la frecuencia fundamental (F0) en adul-
ria a corto plazo o déficit de atención, entre          tos con sı́ndrome de Down (Lee, Thorpe, y
otros (Chapman, 1997).                                    Verhoeven, 2009; Albertini et al., 2010) en
    En cuanto a las dificultades para analizar            comparación con adultos sin ninguna disca-
la alteración en el habla en personas con dis-           pacidad. Además, los adultos con sı́ndrome
capacidad intelectual, hay que tener en cuen-             de Down presentan menores perturbaciones
ta que este tipo de voz suele contener dis-               en la frecuencia (jitter ) (Lee, Thorpe, y Ver-
fluencias y otros problemas de producción del            hoeven, 2009; Seifpanahi, Bakhtiar, y Salma-
habla originados por problemas fisiológicos.             lian, 2011). En relación con la energı́a, se han
Como resultado, la calidad de la producción              observado valores más bajos en adultos con
fonética es baja, lo que limita el uso de sis-           sı́ndrome de Down y menores perturbaciones
temas de reconocimiento automático de voz,               (shimmer ) (Albertini et al., 2010). Las perso-
por lo que la segmentación automática es,               nas con sı́ndrome de Down también presentan
en muchos casos, inabordable (Feng et al.,                algunos problemas en la fluidez del habla, co-
2010). La prosodia opera a un nivel supra-                mo el tartamudeo. Aunque los problemas de
segmental (por ejemplo, a nivel de palabras               fluidez no son una caracterı́stica universal en
o frases), de manera que la extracción de las            las personas con sı́ndrome de Down, se ha
caracterı́sticas prosódicas es un proceso más           demostrado que son un problema común en
costoso. Por lo tanto, la posibilidad de anali-           esta población (Van Borsel y Vandermeulen,
zar las producciones prosódicas de los usua-             2008; Devenny y Silverman, 1990; Eggers y
rios en tiempo real y el entrenamiento de sis-            Van Eerdenbrugh, 2017).
temas automáticos de identificación de pro-                 Por otro lado, también existen resultados
blemas prosódicos proporcionan información              en la literatura en relación con niños con
útil para que los terapeutas que trabajan con            sı́ndrome de Down en comparación con niños
personas con discapacidad intelectual puedan              sin discapacidad intelectual. Se han observa-
ayudar a estas personas a mejorar sus com-                do valores más bajos en la frecuencia funda-
petencias lingüı́sticas.                                 mental (Zampini et al., 2016), perturbacio-
    Por otro lado, el uso de juegos serios pa-            nes en la frecuencia más altas (Moura et al.,
ra mejorar la motivación de los estudian-                2008) y perturbaciones en la energı́a más al-
tes en educación está ampliamente estudiado             tas (Moura et al., 2008).
(McFarlane, Sparrowhawk, y Heald, 2002).                      Con respecto a los análisis perceptuales,
Sin embargo, no existen apenas referencias                algunos estudios catalogan la voz de los adul-
sobre las ventajas de utilizarlas para mejo-              tos con sı́ndrome de Down como ronca (Mo-
rar la producción del habla y las habilida-              ran y Gilbert, 1982). Además, también se han
des prosódicas de las personas con sı́ndro-              observado discrepancias entre los resultados
me de Down (Kent y Vorperian, 2013). Aun-                 de los juicios perceptuales en comparación
que existen algunas herramientas (Saz et al.,             con los análisis acústicos, concretamente en lo
2009), no son ampliamente utilizadas por                  relacionado con la frecuencia (Rodger, 2009).
personas con sı́ndrome de Down, ya que se                     En relación con el uso de videojuegos en
necesita un alto grado de motivación, por lo             educación especial, existen numerosos estu-
que no es válido para este tipo de usuarios,             dios que demuestran la eficacia del uso de
debido a los problemas cognitivos que presen-             videojuegos para la rehabilitación y entrena-
tan.                                                      miento de personas con discapacidad intelec-
                                                          tual. Algunos ejemplos son la mejora en el
2   Antecedentes y trabajo                                tiempo de reacción (Standen et al., 2009),
    relacionado                                           el entrenamiento en la toma de decisiones
Para analizar los problemas en la prosodia de             (Standen, Rees, y Brown, 2009) o el entrena-
las personas con sı́ndrome de Down se han                 miento de las habilidades matemáticas (Sha-
seguido principalmente dos enfoques: análisis            fie et al., 2013).
                                                     56
3   Descripción de la investigación
    propuesta
Se propone un trabajo de investigación orien-
tado al desarrollo de un videojuego para la
mejora de las habilidades comunicativas de
personas con sı́ndrome de Down, especial-
mente enfocado en la prosodia. Para ello, lo
primero fue realizar un estudio de los prin-
cipales problemas que presenta esta pobla-
ción en relación con sus habilidades comuni-
cativas y el desarrollo de actividades orien-
tadas a mejorar estos aspectos. En paralelo,
fue importante definir los escenarios donde             Figura 1: Escenario del juego con una activi-
estas actividades están incluidas, ası́ como la        dad de producción
historia en la que se desarrollan dichas ac-
tividades. Además, fue necesario realizar un           caracterizadas por un elemento interrogativo
análisis conciso sobre como los problemas de           al principio de la frase, empiezan con tonos
las personas con sı́ndrome de Down podı́an              altos asociados a la parte interrogativa y aca-
afectar a su interacción con el videojuego.            ban con una bajada hacia tonos bajos. Las
    El género elegido para implementar el vi-          frases exclamativas son, normalmente, varia-
deojuego es un aspecto clave. En este ca-               ciones de las frases declarativas, por lo que la
so, hemos utilizado el género de las aven-             variación radica en aspectos como la energı́a,
turas gráficas, ya que permite incluir dentro          el volumen o la modulación del tono usado
de una narrativa una serie de actividades di-           por el hablante. Además, la combinación de
señadas para mejorar las habilidades comu-             diferentes frases con diferente modalidades
nicativas. El videojuego incluye conversacio-           permite la inclusión de inflexiones que indi-
nes con personajes, uso de objetos y navega-            can una segmentación en la producción oral.
ción por diferentes escenarios. Los jugadores          Dependiendo del contexto y de la velocidad
tienen que usar el ratón del ordenador para            de producción de la frase, estas inflexiones
interactuar con los diferentes elementos del            pueden corresponder a una pausa (silencio)
escenario. La principal innovación de nuestra          y a un fin de frase, o a una semi-pausa, que
propuesta con respecto a otras desarrolladas            implica un cambio de entonación dentro de la
es que el jugador tiene que reproducir dife-            misma frase.
rentes frases durante el transcurso del juego
y estas reproducciones son almacenadas, por             4   Metodologı́a y experimentos
lo cual pueden ser analizadas posteriormente.
Al lado del jugador, siempre es necesario un
                                                            propuestos
acompañante que evalúe en tiempo real si es-          En el estado actual del trabajo de investiga-
tas grabaciones son lo suficiente buenas como           ción se han realizado dos experimentos cuyos
para continuar con el juego o, por el contra-           resultados han sido publicados. Por un lado,
rio, el jugador tiene que repetir la actividad.         para analizar la interacción entre el jugador y
Esta persona también ejerce el rol de apoyo            el videojuego, se realizaron una serie de tests
al jugador en el caso que se quede bloquea-             de usabilidad combinados con los datos sobre
do o de motivador extra para que el jugador             la sesión de juego que el propio videojuego al-
continúe con el videojuego.                            macena automáticamente (González-Ferreras
    El videojuego incluye actividades que in-           et al., 2017). Por otro lado, se realizó un estu-
troducen frases de diferentes modalidades               dio de las grabaciones obtenidas durante las
(declarativas, interrogativas y exclamativas).          sesiones de juego para evaluar las diferencias
Normalmente, los patrones de entonación                entre las grabaciones realizadas por personas
varı́an dependiendo de la modalidad de la fra-          con sı́ndrome de Down y las realizadas por
se. Las frases declarativas normalmente aca-            personas sin discapacidad intelectual.
ban con una bajada hacia tonos bajos, mien-                 Con respecto al análisis de las grabaciones
tras que las interrogativas acaban con una              obtenidas en las diferentes sesiones de jue-
subida hacia tonos altos. Por otro lado, las            go, el objetivo es identificar las caracterı́sti-
frases parcialmente interrogativas, que están          cas acústicas que caracterizan el habla de las
                                                   57
personas con sı́ndrome de Down. Estas carac-             jorando (feedback).
terı́sticas están relacionadas con los dominios
de la frecuencia, de la energı́a, temporal y es-         5   Cuestiones de investigación
pectral. Para realizar este proceso, se llevaron         Debido al momento concreto en el que se en-
a cabo unas grabaciones de las mismas frases             cuentra la investigación, a parte de discutir
del juego, pero grabadas por personas sin dis-           las metodologı́as y resultados obtenidos en los
capacidad intelectual. Para ello, se extrajeron          estudios presentados en la anterior sección,
una serie de caracterı́sticas pertenecientes a           las cuestiones a discutir podrı́an ir enfoca-
cada dominio estudiado y se compararon es-               das en como conseguir desarrollar el módulo
tas caracterı́sticas entre las extraı́das de gra-        de evaluación automática. Algunas cuestio-
baciones realizadas por personas con sı́ndro-            nes concretas podrı́an ser:
me de Down y las extraı́das de grabaciones
realizadas por personas sin discapacidad in-                 ¿Es posible correlar las evaluaciones de
telectual. De esta comparación surgieron las                las grabaciones realizadas por los profe-
caracterı́sticas con mayor capacidad de dis-                 sores con las caracterı́sticas acústicas ex-
criminación entre los dos grupos, utilizando                traı́das de las mismas?
para ello tests estadı́sticos. Además, se entre-
                                                             ¿Son eficaces los clasificadores binarios
naron tres clasificadores binarios utilizando
                                                             para realizar esta tarea?. Y si es ası́,
las caracterı́sticas significativamente diferen-
                                                             ¿cómo mejorar los resultados de clasifi-
tes y se realizó una comparación entre las ca-
                                                             cación?
racterı́sticas de los diferentes dominios para
analizar cual era más relevante a la hora de                ¿Es posible realizar este proceso en tiem-
clasificar una voz como proveniente de una                   po real o serı́a mejor continuar utilizan-
persona con sı́ndrome de Down. Finalmente,                   do al profesor como ayudante y utilizar
se realizó un test perceptual utilizando gra-               el módulo como evaluador complemen-
baciones creadas utilizando un algoritmo de                  tario?
transferencia de prosodia entre los grupos: la
prosodia de las grabaciones de uno de los gru-           Agradecimientos
pos se transfirió a las grabaciones del otro            Este trabajo es financiado parcialmente por
grupo, y viceversa. Los resultados de este test          el proyecto del Ministerio de Economı́a, In-
mostraron la importancia de la entonación               dustria y Competitividad con tı́tulo “IN-
y el ritmo a la hora de identificar un habla             CORPORACIÓN DE UN MÓDULO DE
como atı́pica (Corrales-Astorgano, Escudero-             PREDICCIÓN AUTOMÁTICA DE LA CA-
Mancebo, y González-Ferreras, 2018).                    LIDAD DE LA COMUNICACIÓN ORAL
    El desarrollo de un módulo de evaluación           DE PERSONAS CON SÍNDROME DE
automática de las grabaciones realizas por los          DOWN EN UN VIDEOJUEGO EDUCATI-
jugadores se desarrollará en dos etapas. En             VO”, clave TIN2017-88858-C2-1-R.
una primera etapa se monitorizará el traba-
jo de usuario y entrenador en las actividades            Bibliografı́a
de producción oral integradas en el videojue-           Albertini, G., S. Bonassi, V. Dall’Armi,
go. Para ello, se desarrollará una interfaz que           I. Giachetti, S. Giaquinto, y M. Mignano.
permita recoger no sólo las respuestas orales             2010. Spectral analysis of the voice in
de los usuarios y las puntuaciones asignadas               Down syndrome. Research in developmen-
por el entrenador, sino también las reacciones            tal disabilities, 31(5):995–1001.
de este último en forma de ayuda, orienta-
                                                         Chapman, R. S. 1997. Language deve-
ción, etc. Una segunda etapa de análisis de las
                                                           lopment in children and adolescents with
muestras capturadas permitirá validar una
                                                           Down syndrome. Mental Retardation and
serie de informes de calidad que identifiquen
                                                           Developmental Disabilities Research Re-
cuáles son las variables acústico/prosódicas
                                                           views, 3(4):307–312.
más relevantes a la hora de determinar la ca-
lidad de los turnos de los usuarios. Con dicha           Cleland, J., S. Wood, W. Hardcastle, J. Wis-
información, se entrenará un sistema de pre-              hart, y C. Timmins. 2010. Relations-
dicción automática de calidad que sea capaz               hip between speech, oromotor, language
de valorar la respuesta oral del usuario a la               and cognitive abilities in children with
vez que ofrecer información para seguir me-                Down’s syndrome. International journal
                                                    58
   of language & communication disorders,             Moura, C. P., L. M. Cunha, H. Vilarinho,
   45(1):83–95.                                         M. J. Cunha, D. Freitas, M. Palha, S. M.
                                                        Pueschel, y M. Pais-Clemente. 2008. Voi-
Corrales-Astorgano, M., D. Escudero-
                                                        ce parameters in children with Down syn-
  Mancebo, y C. González-Ferreras. 2018.
                                                        drome. Journal of Voice, 22(1):34–42.
  Acoustic characterization and perceptual
  analysis of the relative importance of              Rodger, R. 2009. Voice quality of chil-
  prosody in speech of people with Down                 dren and young people with Down’s Syn-
  syndrome. Speech Communication, 99:90–                drome and its impact on listener judge-
  100.                                                  ment. Ph.D. tesis, Queen Margaret Uni-
                                                        versity.
Devenny, D. y W. Silverman. 1990. Speech
  dysfluency and manual specialization in             Saz, O., S. Yin, E. Lleida, R. Rose, C. Vaque-
  Down’s syndrome. Journal of Intellectual               ro, y W. R. Rodrı́guez. 2009. Tools and
  Disability Research, 34(3):253–260.                    Technologies for Computer-Aided Speech
                                                         and Language Therapy. Speech Commu-
Eggers, K. y S. Van Eerdenbrugh. 2017.                   nication, 51(10):948–967.
  Speech disfluencies in children with Down
  Syndrome. Journal of Communication D-               Seifpanahi, S., M. Bakhtiar, y T. Salmalian.
  isorders.                                              2011. Objective vocal parameters in Farsi-
                                                         speaking adults with Down syndrome. Fo-
Feng, J., J. Lazar, L. Kumin, y A. Ozok.                 lia Phoniatrica et Logopaedica, 63(2):72–
   2010. Computer Usage by Children with                 76.
   Down Syndrome: Challenges and Future
   Research. ACM Transactions on Accessi-             Shafie, A., W. F. Wan Ahmad, N. Mohd, J. J.
   ble Computing, 2(3):13.                              Barnachea, M. F. Taha, y R. L. Yusuff.
                                                        2013. “SynMax”: A mathematics applica-
González-Ferreras, C.,    D.    Escudero-              tion tool for down syndrome children. En
  Mancebo,       M.   Corrales-Astorgano,               Advances in Visual Informatics. Springer,
  L. Aguilar-Cuevas, y V. Flores-Lucas.                 páginas 615–626.
  2017. Engaging adolescents with Down
  syndrome in an educational video                    Standen, P., N. Anderton, R. Karsandas,
  game. International Journal of Human–                  S. Battersby, y D. Brown. 2009. An eva-
  Computer Interaction, páginas 1–20.                   luation of the use of a computer game
                                                         in improving the choice reaction time of
Kent, R. D. y H. K. Vorperian. 2013. Speech              adults with intellectual disabilities. Jour-
  impairment in Down syndrome: a review.                 nal of Assistive Technologies, 3(4):4–11.
  Journal of Speech, Language, and Hearing
  Research, 56(1):178–210.                            Standen, P., F. Rees, y D. Brown. 2009. Ef-
                                                         fect of playing computer games on decision
Lee, M. T., J. Thorpe, y J. Verhoeven. 2009.             making in people with intellectual disabi-
   Intonation and phonation in young adults              lities. Journal of Assistive Technologies,
   with Down syndrome. Journal of Voice,                 3(2):4–12.
   23(1):82–87.
                                                      Stojanovik, V. 2011. Prosodic deficits in
Martin, G. E., J. Klusek, B. Estigarribia, y             children with Down syndrome. Journal of
  J. E. Roberts. 2009. Language characte-                Neurolinguistics, 24(2):145–155.
  ristics of individuals with Down syndrome.
                                                      Van Borsel, J. y A. Vandermeulen. 2008.
  Topics in Language Disorders, 29(2):112.
                                                        Cluttering in Down syndrome. Folia Pho-
McFarlane, A., A. Sparrowhawk, y Y. Heald.              niatrica et Logopaedica, 60(6):312–317.
  2002. Report on the educational use of ga-          Zampini, L., M. Fasolo, M. Spinelli, P. Zan-
  mes. TEEM (Teachers evaluating educa-                 chi, C. Suttora, y N. Salerni. 2016. Proso-
  tional multimedia), Cambridge.                        dic skills in children with Down syndrome
Moran, M. J. y H. R. Gilbert. 1982. Se-                 and in typically developing children. In-
  lected acoustic characteristics and listener          ternational Journal of Language & Com-
  judgments of the voice of Down syndrome               munication Disorders, 51(1):74–83.
  adults. American journal of mental defi-
  ciency.
                                                 59