GAMES: Generación automática de metadato y contenido para medios y archivos en euskera GAMES: Automatic generation of metadata and multimedia content for media and archives in Basque Aitor Álvarez,1 Ander González-Docasal,12 Aitor Garcı́a Pablos,1 Elena Zotova,1 Montse Cuadros,1 Haritz Arzelus,1 Alaitz Artolazabal,3 Joxe Rojas,3 Josu Azpillaga,4 Iban Arantzabal5 1 Vicomtech Foundation, Basque Research and Technology Alliance (BRTA), Mikeletegi 57, 20009 Donostia-San Sebastián (España) 2 Universidad de Zaragoza, Pedro Cerbuna 12, 50009 Zaragoza (España) 3 Tokikom, Bilbao Lanekintza 10, 48004 Bilbao (España) 4 Codesyntax, Azitaingo Industrialdea 3, 20600 Eibar (España) 5 Goiena, Otalora Lizentziaduna 31, 20500 Arrasate-Mondragón (España) {aalvarez, agonzalezd, agarciap, ezotova, mcuadros, harzelus}@vicomtech.org {aartolazabal, jrojas}@tokikom.eus, jazpillaga@codesyntax.com, iarantzabal@goiena.eus Resumen: El ingente volumen de contenido multimedia obliga a los medios a con- tar con soluciones efectivas de metadatado que permitan su etiquetado y recupera- ción automática. En este contexto presentamos GAMES, una plataforma orientada al metadatado y generación de contenido en euskera. Además de la arquitectura, se describen los módulos tecnológicos y su evaluación sobre contenidos del dominio. Palabras clave: Metadato, recuperación de la información, aprendizaje profundo. Abstract: The increasing volume of multimedia content is pushing the media to seek for effective solutions for the automatic generation of metadata to facilitate the tagging, indexing and retrieval of contents. In this context, GAMES is presented as a platform focused to metadata and content generation in Basque. In addition to the main architecture, the technological modules and their evaluation are presented. Keywords: Metadata, information retrieval, deep learning. 1 Financiación y participantes en comunicación comarcal; (3) CodeSyntax5 , GAMES es un proyecto de Investigación y Desa- compañı́a experta en consultorı́a y servicios rrollo de carácter competitivo financiado por de Internet y TICs; y (4) Vicomtech6 , como el Gobierno Vasco1 a través de la convocato- centro de investigación aplicada experto en ria Hazitek de la Agencia Vasca de desarrollo tecnologı́as del habla y del lenguaje basadas 2 empresarial Spri . Su principal objetivo ha si- en Inteligencia Artificial (IA). do la implementación de la primera platafor- 2 Estado del arte y motivación ma de extracción automática de metadatos y generación de material audiovisual sobre con- El crecimiento imparable de contenido multi- tenidos en euskera en el sector de medios de media junto con los reciente avances en tec- comunicación vascos. nologı́as IA están impulsando a los archivos El proyecto ha tenido una duración de 33 y medios de comunicación a la incorporación meses (abril 2018 - diciembre 2020), y ha con- de soluciones que permitan una identificación tado con el siguiente consorcio: (1) Tokikom3 , y descripción eficientes de sus contenidos a red que gestiona un total de 66 medios locales través de metadatos. Sin embargo, el euske- en todos los soportes: papel, radio, televisión ra no está habitualmente soportado en estas y digital; (2) Goiena4 , empresa de servicios de soluciones y, de estar incluido, no alcanza la comunicación con un importante desarrollo calidad esperada sobre contenidos media. Co- mo solución más cercana cabe destacar GEP- 1 https://www.euskadi.eus/ SA (San Vicente, Saralegi, y Zubia, 2021), 2 https://www.spri.eus/es/ayudas/hazitek/ 3 5 https://tokikom.eus/ https://www.codesyntax.com/ 4 6 https://goiena.eus/ https://vicomtech.org/ Copyright © 2021 for this paper by its authors. Use permitted under Creative Commons License Attribution 4.0 International (CC BY 4.0). 19 una plataforma de seguimiento de medios es- critos en euskera y castellano que incorpora tecnologı́a IA de detección y clasificación de entidades nombradas (NERC), extracción de palabras clave, clasificación de temática y re- tos de la sociedad. Con el ánimo de cubrir este hueco en el mercado, nació el proyecto GAMES, una solu- ción para la generación automática de me- tadatos sobre contenidos multimedia (video, audio y texto) en euskera compuesta por 6 módulos tecnológicos IA. 3 Arquitectura general La plataforma GAMES se ha diseñado y de- sarrollado para ser un servicio back-end fácil- mente integrable en cualquier solución de ter- Figura 1: Arquitectura de GAMES. ceros, permitiendo ofrecer un servicio de me- tadatado en euskera no intrusivo en estas so- habla, construido sobre la herramienta Kal- luciones. Está fundamentada en arquitectura di (Povey et al., 2011), está compuesto por un REST7 y está compuesta por una capa de modelo acústico hı́brido DNN-HMM basado servicio basada en la solución Traefik8 , que en redes neuronales retardadas factorizadas ofrece un proxy inverso y balanceador de pe- configuradas como se describe en (Alvarez et ticiones. Este componente se comunica con al., 2021) para los sistemas en castellano. El las APIs de cada módulo tecnológico median- modelo acústico está entrenado con 645 ho- te servicios web basados en protocolo HTTP. ras compuestas por 482 horas del corpus de Estos servicios permiten recuperar el estado mintzai-ST (Etchegoyhen et al., 2021) del do- de cada proceso, obtener un resultado o lan- minio del Parlamento Vasco y 163 horas de zar a procesar una tarea en cualquier módulo contenidos televisivos transcritos a través de IA. Los resultados son devueltos en objetos la plataforma Idazle9 , una solución de Vicom- JSON (JavaScript Object Notation), dispo- tech para la subtitulación automática inte- niendo cada módulo tecnológico de su forma- grada en los flujos de trabajo de la televi- to especı́fico de resultado. Estos módulos IA sión pública vasca EiTB. El modelo de len- son fácilmente combinables para la genera- guaje corresponde a un 3-grama entrenado ción de pipelines tecnológicos y esta orques- con 27,7M de palabras compuestas principal- tación se realiza desde el cliente. En la Figura mente por las transcripciones y noticias web 1 se muestra la arquitectura de la solución. extraı́das de diarios digitales. La salida cruda del reconocedor es enri- 4 Principales módulos IA quecida con capitalización y signos de pun- Todos los módulos integrados en GAMES están tuación con un modelo Transformer entrena- basados en técnicas de Deep Learning y están do a partir del modelo BERTeus (Agerri et entrenados para procesar contenidos multi- al., 2020). Con las marcas de tiempo y pun- media (video, audio y texto) en euskera, tuaciones de confianza obtenidas por palabra, una lengua aglutinante con unas propiedades este módulo permite generar ficheros para in- lingüı́sticas singulares, una rica morfologı́a y dexación y búsqueda (XML, JSON), trans- un orden de palabras relativamente libre. cripción (TXT) o subtitulación (SRT, VTT). 4.1 Transcripción habla-texto 4.2 Sı́ntesis texto-habla Este módulo permite convertir a texto los Este módulo convierte en habla cualquier tex- contenidos de video y audio en euskera a to de entrada en euskera. En GAMES se en- través de tecnologı́a neuronal de transcrip- trenó un modelo de sı́ntesis neuronal basa- ción del habla. El motor de reconocimiento de do en la arquitectura Tacotron-2 (Wang et al., 2017) para convertir el texto de entra- 7 https://restfulapi.net/ 8 9 https://traefik.io/ https://www.idazle.eus/ 20 da en espectrogramas. Estos espectrogramas Tabla 2: Instancias anotadas de train y test, y son posteriormente transformados en onda resultados por categorı́a. acústica a través del vocoder de Nvidia ba- Categorı́a Train Test miP miR miF1 sado en el modelo neuronal generativo Wa- Sociedad 2694 630 0.776 0.805 0.790 veglow (Prenger, Valle, y Catanzaro, 2019). Deportes 1604 412 0.956 0.959 0.957 El modelo Tacotron-2 fue entrenado con un Cultura 1134 262 0.770 0.793 0.781 corpus de 20,37 horas de diferentes locuto- Polı́tica 514 134 0.843 0.767 0.803 Opinión 456 124 0.868 0.918 0.892 res en euskera, posteriormente ajustado (fine- Euskara 274 64 0.729 0.797 0.761 tuning) con las 3,44 horas de una sola locu- Economı́a 203 48 0.706 0.393 0.505 tora, utilizando como base un primer modelo Educación 202 15 0.706 0.500 0.585 entrenado con 21,25 horas en castellano. La Entorno 107 15 0.429 0.400 0.414 sı́ntesis del habla tiene dos aplicaciones prin- cipales en GAMES: la generación automática de medios del consorcio con la distribución pre- podcasts y video-noticias en euskera. sentada en la Tabla 2, en la que además se 4.3 NERC muestran los resultados de micro-Precision, Este módulo realiza la detección y clasifica- Recall y F1-score por categorı́a. Destaca la ción de entidades nombradas sobre un texto categorı́a de deportes, mientras se observa de entrada en euskera. Para ello se entrenó mayor confusión entre categorı́as semántica- un modelo de etiquetado secuencial basado mente próximas (e.g. sociedad y cultura). Las en BERTeus (Agerri et al., 2020) usando el puntuaciones más bajas las reciben las cate- conjunto de datos de Egunkaria y las par- gorı́as menos representadas en los datos de ticiones estándar de train y test presentado entrenamiento. en (Alegria et al., 2004). Este corpus distin- 4.5 Resumen abstractivo de textos gue las categorı́as de locativo (LOC), organiza- ción (ORG), persona (PER) y otros (OTH). Los Este módulo permite sintetizar de manera resultados de micro-Precision (miP), Recall abreviada un texto de entrada; una lı́nea tec- (miR) y F1-score (miF) obtenidos en el sub- nológica incipiente y que para el euskera su- conjunto de test se presentan en la Tabla 1. pone un reto mayor por la falta de datos de entrenamiento o de recursos lingüı́sticos especı́ficos. En GAMES se ha experimentado Tabla 1: Etiquetas anotadas y resultados en con un modelo Encoder-Decoder inicializa- train y test del módulo NERC. do con tres modelos pre-entrenados: IXAm- Categ. Train Test miP miR miF1 BERT (Agerri et al., 2020), RoBasquERTa LOC 1968 440 0.887 0.844 0.865 ORG 1937 394 0.816 0.816 0.816 (Suárez, Romary, y Sagot, 2020) y el mode- PER 1497 382 0.903 0.949 0.925 lo multilingüe mT5-small (Xue et al., 2020). OTH 294 53 0.367 0.367 0.367 Los modelos se entrenaron con un corpus de noticias en euskera de los medios del consor- Como puede observarse en la Tabla 1, los cio que consta de 73.773 documentos, selec- mejores resultados alcanzan un micro-F1 de cionando 2, 000 para validación y otros 2, 000 0.925 para la categorı́a PER, mientras que la para la evaluación final. Dada la inexistencia categorı́a OTH obtiene una mayor confusión, de un resumen literal, se asumió como resu- probablemente, por su baja representación en men el titular y la entradilla de cada noticia. las particiones y por ser una categorı́a anota- Los modelos han sido evaluados con la da con menor precisión. métrica ROUGE, donde ROUGE-N mide la superposición de n-gramas entre la referencia 4.4 Clasificación de noticias y la hipótesis, y ROUGE-L evalúa las subse- Este componente permite clasificar en cate- cuencias comunes más largas. Como se obser- gorı́as del ámbito periodı́stico las noticias en va en la Tabla 3 el modelo basado en IXAm- euskara. El módulo IA está igualmente basa- BERT muestra el mejor resultado, probable- do en un modelo Transformer, usando BER- mente por una representación más amplia del Teus (Agerri et al., 2020) como base (Devlin euskera en el modelo preentrenado. et al., 2018). El entrenamiento y evaluación del siste- 4.6 Generación de vı́deo-noticias ma se realizó sobre un corpus compilado en Este componente es un ejemplo de pipeline el dominio de las noticias provistas por los tecnológico en el que se integran diferentes 21 albayzı́n-rtve 2020 speech to text trans- Tabla 3: Resultados de los modelos de resu- cription challenge. En Proceedings of men automático sobre la partición de test. Model Rouge-1 Rouge-2 Rouge-L IberSPEECH2020. IXAmBERT 27.33 11.92 22.64 Devlin, J., M.-W. Chang, K. Lee, y K. Tou- RoBasquERTa 22.12 8.76 17.69 mT5-small 19.69 7.49 15.66 tanova. 2018. Bert: Pre-training of deep bidirectional transformers for lan- guage understanding. arXiv preprint ar- módulos de la solución, y su función es la Xiv:1810.04805. generación automática de video-noticias par- Etchegoyhen, T., H. Arzelus, H. Gete Ugar- tiendo del tı́tulo, noticia y una foto relacio- te, A. Alvarez, A. González-Docasal, y nada. La voz es generada con la sı́ntesis de E. Benites Fernandez. 2021. mintzai-st: habla, la noticia puede ser sumarizada para Corpus and baselines for basque-spanish generación de videos cortos y, además, se in- speech translation. En Proceedings of cluyen subtı́tulos sincronizados con el audio IberSPEECH2020. para sumar accesibilidad. Povey, D., A. Ghoshal, G. Boulianne, L. Bur- 5 Conclusiones get, O. Glembek, N. Goel, M. Hanne- En este trabajo se ha presentado el proyecto mann, P. Motlicek, Y. Qian, P. Schwarz, GAMES, una plataforma back-end para la ge- y others. 2011. The kaldi speech recog- neración automática de metadatos y conteni- nition toolkit. En IEEE 2011 workshop do audiovisual en euskara. Esta solución está on automatic speech recognition and un- integrada en los flujos de trabajo de las em- derstanding, numero CONF. IEEE Signal presas del consorcio y tendrá continuidad en Processing Society. un nuevo proyecto en el que se incorporarán Prenger, R., R. Valle, y B. Catanzaro. 2019. nuevos módulos tecnológicos como la traduc- Waveglow: A flow-based generative net- ción automática basada en el activo Itzuli10 , work for speech synthesis. En ICASSP biometrı́a vocal y análisis de imagen. 2019-2019 IEEE International Conferen- ce on Acoustics, Speech and Signal Proces- Agradecimientos sing (ICASSP), páginas 3617–3621. IEEE. Este trabajo contó con el apoyo del Depar- San Vicente, I., X. Saralegi, y N. Zubia. 2021. tamento de Desarrollo Económico, Sostenibi- GEPSA, a tool for monitoring social cha- lidad y Medio Ambiente del Gobierno Vas- llenges in digital press. En Proceedings co en el marco del proyecto GAMES (ZL- of the First Workshop on Language Tech- 2020/00074). nology for Equality, Diversity and Inclu- sion, páginas 46–50, Kyiv, Abril. Associa- Bibliografı́a tion for Computational Linguistics. Agerri, R., I. S. Vicente, J. A. Campos, Suárez, P. O., L. Romary, y B. Sagot. 2020. A. Barrena, X. Saralegi, A. Soroa, y A monolingual approach to contextualized E. Agirre. 2020. Give your text repre- word embeddings for mid-resource langua- sentation models some love: the case for ges. arXiv preprint arXiv:2006.06202. basque. arXiv preprint arXiv:2004.00033. Wang, Y., R. Skerry-Ryan, D. Stanton, Alegria, I., O. Arregi, I. Balza, N. Ezeiza, Y. Wu, R. J. Weiss, N. Jaitly, Z. Yang, I. Fernandez, y R. Urizar. 2004. Design Y. Xiao, Z. Chen, S. Bengio, y others. and development of a named entity recog- 2017. Tacotron: Towards end-to-end nizer for an agglutinative language. En speech synthesis. arXiv preprint ar- First International Joint Conference on Xiv:1703.10135. NLP (IJCNLP-04). Workshop on Named Entity Recognition. Xue, L., N. Constant, A. Roberts, M. Ka- le, R. Al-Rfou, A. Siddhant, A. Barua, y Alvarez, A., H. Arzelus, I. G. Torre, y C. Raffel. 2020. mT5: A massively mul- A. González-Docasal. 2021. The vicom- tilingual pre-trained text-to-text transfor- tech speech transcription systems for the mer. 10 https://itzuli.vicomtech.org/es/api/ 22