=Paper=
{{Paper
|id=Vol-3224/paper17
|storemode=property
|title=Transcripción de periódicos históricos: aproximación CLARA-HD (Transcription in historical newspapers: the CLARA-HD approach)
|pdfUrl=https://ceur-ws.org/Vol-3224/paper17.pdf
|volume=Vol-3224
|authors=Antonio Menta Garuz,Eva Sánchez-Salido,Ana García-Serrano
|dblpUrl=https://dblp.org/rec/conf/sepln/GaruzSG22
}}
==Transcripción de periódicos históricos: aproximación CLARA-HD (Transcription in historical newspapers: the CLARA-HD approach)==
Transcripción de periódicos históricos: aproximación CLARA-HD Transcription in historical newspapers: the CLARA-HD approach Antonio Menta, Eva Sánchez-Salido y Ana García-Serrano ETSI Informática, C/ Juan del Rosal 16, UNED, 28040 Madrid, Spain Resumen Analizar periódicos de los siglos XVIII, XIX y principios del XX exige cierta calidad de las fuentes digitalizadas y la utilización de recursos específicos de dominio o de la lengua. Cualquier aproximación utilizando las tecnologías actuales, se encuentra con que la mayoría de los modelos PLN disponibles para la transcripción o el reconocimiento de entidades están entrenados con textos en “lenguajes actuales”. Si además el reto consiste en extraer información de periódicos históricos en español, la complejidad aumenta, ya que la normalización del español es relativamente “moderna” y hay que intentar refinar los modelos de PLN o generar nuevos recursos. En esta presentación del corpus construido desde los textos disponibles en la Hemeroteca Digital de la BNE, Diario de Madrid (1788-1825), se mostrarán los pasos seguidos para su transcripción automática generando un modelo (99% de rendimiento) en el marco del proyecto CLARA-HD. Finalmente se incluyen unas conclusiones iniciales. English translation. The analysis of historical newspapers from the 18th, 19th, and early 20th centuries requires a certain quality of digitized sources and the use of specific domain or language resources. Any approach using current technologies finds that most of the NLP models available for transcription or entity recognition are trained with texts in "current languages". If, in addition, the challenge consists of extracting information from historical newspapers in Spanish, the complexity increases since the normalization of Spanish is relatively “modern” and it is necessary to try to refine the NLP models or generate new resources. In this demonstration for the corpus built from the BNE Digital Hemeroteca, Diario de Madrid (1788- 1825) the steps followed will be shown for its automatic transcription using a defined model (99% performance), within the framework of the CLARA-HD project. Finally, some initial conclusions are included. Palabras Clave 1 Transcripción de textos, modelos del lenguaje, recursos lingüísticos. 1. Introducción años se han realizado multitud de procesos de digitalización para la conservación de colecciones culturales tanto a nivel local como nacional y La utilización de técnicas de Procesamiento de europeo. Estos proyectos han generado millones Lenguaje Natural (PLN) en el tratamiento de de imágenes que necesitan ser tratadas para la documentos textuales, en concreto en el ámbito de transcripción del texto que contienen, ya sea de las Humanidades Digitales (HD), se ha convertido forma manual o mediante la aplicación de en una práctica referente en muchos de los procesos de reconocimiento óptico de caracteres, proyectos actuales [10]. En los últimos veinte SEPLN-PD 2022. Annual Conference of the Spanish Association for Natural Language Processing 2022: Projects and Demonstrations, September 21-23, 2022, A Coruña, Spain EMAIL: amenta@invi.uned.es (A. Menta-Garuz); evasan@lsi.uned.es (E. Sanchez-Salido); agarcia@lsi.uned.es (A. Garcia-Serrano) ORCID: 0000-0002-3172-2829 (A. Menta-Garuz); 0000-0001- 8665-3018 (E. Sanchez-Salido); 0000-0003-0975-7205 (A. Garcia-Serrano) © 2020 Copyright for this paper by its authors. Use permitted under Creative Commons License Attribution 4.0 International (CC BY 4.0). CEUR Workshop Proceedings (CEUR-WS.org) 70 conocido como OCR (del inglés Optical 2. Necesidad de corpus de textos Character Recognition). La elaboración de corpus históricos está sujeta históricos de calidad a múltiples factores, entre ellos su finalidad [9]. Por ejemplo, para el estudio de una lengua actual Las facilidades que ofrece la informática en general se pretende que el corpus sea propician la confección de corpus que presentan proporcional, es decir, que la cantidad de palabras el mismo texto en diversas modalidades de o de textos de cada muestra esté en proporción edición: facsímil (reproducción fotográfica del respecto a su distribución en el total de la original), paleográfica (transcripción sin población. Sin embargo, este requisito es difícil de correcciones ni interpretaciones), normalizada conseguir en corpus históricos, ya que a menudo (transcripción siguiendo la normativa ortográfica, no se conservan suficientes documentos léxica y sintáctica vigente), crítica (transcripción representativos de cada tipo, o incluso se que pretende reconstruir el texto original) o desconocen las proporciones en que deberían interpretativa (transcripción que sigue los aparecer. Por otra parte, la creación del corpus postulados de la edición paleográfica pero permite también depende del tipo de consulta que se desee corregir ciertos errores para poder explicar el realizar sobre los resultados que proporcione su sentido del texto). Ejemplos son el corpus análisis. En función de las posibilidades de burckhardtsource.org y el proyecto CHARTA 2. consulta, los corpus son etiquetados mediante En el estudio del impacto de la tarea de marcas declarativas que describen los elementos reconocimiento de entidades nombradas (NER, formales del texto (cursiva, tamaño de la fuente), por sus siglas en inglés) en el ámbito de las HD, elementos estructurales (capítulos, páginas) y en [11] se reflexiona sobre las posibilidades de elementos lingüísticos (entidades, cambios de utilizar NER y otros métodos de extracción de registro). información en textos no estructurados y La comunidad científica concienciada de la proponen ampliar el debate sobre la forma de dificultad de tratar documentos históricos, en los utilizar las tecnologías del PLN a la comunidad últimos años está realizando un esfuerzo en humanística. mejorar las herramientas disponibles para su Dentro de las HD, el estudio de las ediciones gestión, acceso y consulta [5]. Aquí es donde de periódicos históricos entre el siglo XVIII y entran en juego las técnicas de PLN. Estas son principios del siglo XX es un campo idóneo para capaces de extraer, procesar y relacionar la aplicar estas técnicas debido a la presencia de todo información que contienen los documentos para tipo de entidades en ellos y a su evolución su posterior utilización y que sirvan de ayuda a los temporal a lo largo de los años para recuperar, humanistas en sus reflexiones y análisis [6]. Si almacenar y consultar la herencia cultural además es necesario trabajar con imágenes y transmitida. Aun así, su uso directo presenta textos [1] los sistemas de soporte a la varios inconvenientes al utilizarlos en textos investigación o de apoyo al trabajo del profesional históricos. La mayoría de los modelos actuales se fundamentan en interfaces de interacción con la son modelos estadísticos que necesitan un información mas complejos [2]. conjunto de datos etiquetados para ser entrenados En esta presentación del corpus construido en el contexto que se quieren utilizar, y estos desde los textos disponibles en la Hemeroteca conjuntos escasean o no son públicos en las HD. Digital de la BNE, Diario de Madrid (1788- Esto repercute en otra dificultad añadida, que es la 1825)¡Error! Marcador no definido., se representación que deben tener los textos para ser justifica, en el apartado segundo, la necesidad de utilizados por las técnicas del PLN. construir corpus de suficiente calidad para el Desde hace años se ha impuesto la utilización análisis PLN previo al estudio de historiadores o de modelos vectoriales de baja dimensión para público en general, se muestran los pasos seguidos representar los textos, conocidos como word para su transcripción en el apartado tercero y embeddings. Para obtener estos modelos, en la finalmente se incluyen algunos comentarios sobre mayoría de las ocasiones es necesario realizar un este trabajo. entrenamiento en una gran cantidad de textos del contexto en el que se quieren utilizar para aprender las relaciones entre las palabras y conceptos. Para obtener una mejor representación 2 https://www.corpuscharta.es 71 final se suele realizar un pre-procesamiento de los registro se obtienen 500 créditos (unas 500 textos para eliminar información irrelevante páginas). La herramienta está bien documentada 4 (como código HTML y algunos metadatos). Una y cuenta con funcionalidades de acceso libre vez limpio el texto, se utiliza como entrada para desde el navegador 5 o la aplicación. generar los word embeddings, ya sean estáticos o Para la transcripción dispone de modelos contextuales como los modelos basados en basados en redes neuronales públicos y Transformers [12]. entrenados en distintos idiomas y grafías 6, lo que Últimamente, las redes neuronales basadas en facilita encontrar uno que se aproxime al de los modelos de lenguaje mejoran la detección de documentos a transcribir. De no ser así, la entidades, especialmente desde la publicación del herramienta permite entrenar uno propio y modelo BERT [4] en 2018, o los modelos de automatizar la transcripción de nuestros lenguajes basados en Transformers. En [7] se documentos. De hecho, ya disponemos de un realiza un estudio del impacto de la salida del modelo entrenado a partir de transcripciones OCR en el rendimiento de los modelos basados en manuales en el proyecto CLARA-HD. BERT en un problema de clasificación de Para ello, se comienza creando una colección extractos de libros que van desde finales del siglo y cargando los ficheros que contienen los textos XVIII a finales del siglo XX. En sus conclusiones en ella (Figura 1). mencionan una degradación de los resultados y recomiendan realizar un ajuste fino de los modelos en esta tipología de documentos con anterioridad a realizar la clasificación para hacerlos más robustos a los errores ortográficos. Además, el vocabulario utilizado en siglos pasados dista enormemente del usado hoy en día y es un reto y una motivación para hacer hincapié Figura 1. Carga de ficheros. en la utilización de los modelos de lenguaje Para poder transcribir los documentos hay que basados en redes neuronales. realizar manualmente el reconocimiento de su En definitiva, los intentos de análisis de estructura (o layout), diferenciando las regiones documentos históricos mediante tecnologías de en las que se encuentra el texto (Figura 2). El PLN actuales se encuentran con el problema de reconocimiento en general no es perfecto, por lo que la mayoría de los modelos disponibles están que en ocasiones habrá que corregir errores o entrenados con textos en “lenguas modernas”, y modificar manualmente. aumenta la complejidad al intentar extraer información de documentos históricos en español, ya que la normalización del español es relativamente “moderna” y hay que refinar los modelos de PLN o generar nuevos recursos. 3. Construcción del modelo de transcripción La dificultad para aplicar la tecnología actual de PLN en las HD es el origen de los datos, porque la mayoría de las fuentes están almacenadas en imágenes de mala calidad con tipografías antiguas que necesitan de un OCR específico. Transkribus 3 es una plataforma para la digitalización, el reconocimiento de texto, la transcripción y la búsqueda en documentos históricos. Es resultado de un proyecto europeo y de pago a partir de un cierto límite de uso. Con el 3 https://readcoop.eu/transkribus/ 5 https://transkribus.eu/lite/ 4 https://readcoop.eu/transkribus/howto/ 6 https://readcoop.eu/transkribus/public-models/ use-transkribus-in-10-steps/ 72 4. Comentarios finales Se ha presentado cómo construir un corpus con la herramienta Transkribus, entrenando un nuevo modelo de transcripción capaz de reconocer caracteres no vistos por el modelo base, alcanzando una precisión en el reconocimiento de caracteres nuevos del 99%. En este momento estamos trabajando con historiadores de la UNED interesados en el contenido del Diario de Madrid, para identificar tanto la terminología como los temas de interés para su investigación y evaluar cuánto es soportada por la tecnología PLN utilizada. Una vez identificados los tipos de entidades útiles para los historiadores, se seguirá con la extracción de las menciones de cada tipo, como las localizaciones, las profesiones o palabras complejas de entender. Figura2. Reconocimiento de la estructura. 5. Agradecimientos Una reconocidas las regiones se transcribe el Este trabajo parcialmente financiado por el texto, línea a línea manualmente o con la ayuda de proyecto coordinado CLARA-NLP 7 consta de un modelo público seleccionado. Es posible que tres subproyectos para dominios especializados en haya que editar la transcripción para corregir historia 8, biomedicina [3] y economía [8]. errores (Figura 3). Finalmente, un agradecimiento especial para la participación en este subproyecto de los estudiantes en prácticas V. Sánchez-Sánchez, R. Garcia-Sánchez y A. Rodriguez-Francés. Referencias [1] J. Benavent, X. Benavent, E. de Ves, R. Granados, A. García-Serrano, Experiences at ImageCLEF 2010 using CBIR and TBIR Mixing Information Approaches, M. Braschler, D.Harman, E. Pianta (Eds.) Figura 3. Transcripción manual. CLEF, CEUR Proc., V 1176. 2010. [2] J. Calle-Gómez, A. García-Serrano, P. Para automatizar este proceso se ha creado un Martínez, Intentional processing as a key for modelo propio de transcripción a partir de un rational behaviour through Natural conjunto de entrenamiento junto con una guía de Interaction, Interacting with Computers V 18 estilo, realizando los pasos mostrados N 6, pp:1419-1446, 2006. anteriormente: (1) subida de documentos a la [3] L. Campillos-Llanos, A. Terroba, S. Zakhir, herramienta, (2) reconocimiento manual de la A. Valverde, A. Capllonch, Building a estructura de todas las páginas de los documentos, comparable corpus and a benchmark for (3) transcripción de un cierto número de páginas Spanish medical text simplification, manualmente o con la ayuda de un modelo Procesamien. del Lenguaje Natural 69, 2022. público y (4) revisión manual final de las mismas, [4] J. Devlin, M.-W. Chang, K. Lee, K. para entrenar nuestro modelo de transcripción. Toutanova, BERT: Pre-training of Deep 7 www.clara-nlp.uned.es 8 (PID2020-116001RB-C31), (PID2020-116001RB-C32), (PID2020-116001RA-C33) 73 Bidirectional Transformers for Language Unders., arXiv preprint 1810.04805, 2018. [5] M. Ehrmann, M. Romanello, A. Flückiger, S. Clematide, Extended Overview of CLEF HIPE 2020: Named Entity Processing on Historical Newspapers, CLEF proc. 2020. [6] A. Garcia-Serrano, A. Menta-Garuz, La inteligencia artificial en las Humanidades Digitales: dos experiencias con corpus digitales, Revista de Humanidades Digitales, v.7, pp: 19-39, 2022. [7] M. Jiang, Y. Hu, G. Worthey, R. C. Dubnicek, T. Underwood, Impact of OCR Quality on BERT Embeddings in the Domain Classification of Book Excerpts, CHR 2021: Computational Humanities Research Conference, pp. 266–279, 2021. [8] A. Moreno-Sandoval, A. Gisbert, H. Montoro, Fint-esp: a corpus of financial reports in Spanish, Multiperspectives in Analysis and Corpus Design, Editorial Comares, pp. 89-102, 2020. [9] J. Torruella Casañas, Lingüística de corpus: Génesis y bases metodológicas de los corpus (históricos) para la investigación en lingüística, Peter Lang Ed., 2017. [10] M. Toscano, A. Rabadán, S. Ros, E. González-Blanco, Digital humanities in Spain: Historical perspective and current scenario. Profesional de la Información, 29(6), 2020. [11] S. van Hooland, M. de Wilde, R. Verborgh, T. Steiner, R. Van de Walle, Exploring entity recognition and disambiguation for cultural heritage collections, Digital Scholarship Humanities, V30, N2, 2015. [12] A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, A. N. Gomez, Ł. Kaiser, I. Polosukhin, Attention is all you need, Advances in neural information Processing Systems 30, 2017. 74