=Paper= {{Paper |id=Vol-3224/paper17 |storemode=property |title=Transcripción de periódicos históricos: aproximación CLARA-HD (Transcription in historical newspapers: the CLARA-HD approach) |pdfUrl=https://ceur-ws.org/Vol-3224/paper17.pdf |volume=Vol-3224 |authors=Antonio Menta Garuz,Eva Sánchez-Salido,Ana García-Serrano |dblpUrl=https://dblp.org/rec/conf/sepln/GaruzSG22 }} ==Transcripción de periódicos históricos: aproximación CLARA-HD (Transcription in historical newspapers: the CLARA-HD approach)== https://ceur-ws.org/Vol-3224/paper17.pdf
Transcripción de periódicos históricos: aproximación CLARA-HD
Transcription in historical newspapers: the CLARA-HD approach

Antonio Menta, Eva Sánchez-Salido y Ana García-Serrano
ETSI Informática, C/ Juan del Rosal 16, UNED, 28040 Madrid, Spain

                   Resumen
                   Analizar periódicos de los siglos XVIII, XIX y principios del XX exige cierta calidad de las
                   fuentes digitalizadas y la utilización de recursos específicos de dominio o de la lengua.
                   Cualquier aproximación utilizando las tecnologías actuales, se encuentra con que la mayoría de
                   los modelos PLN disponibles para la transcripción o el reconocimiento de entidades están
                   entrenados con textos en “lenguajes actuales”. Si además el reto consiste en extraer información
                   de periódicos históricos en español, la complejidad aumenta, ya que la normalización del
                   español es relativamente “moderna” y hay que intentar refinar los modelos de PLN o generar
                   nuevos recursos. En esta presentación del corpus construido desde los textos disponibles en la
                   Hemeroteca Digital de la BNE, Diario de Madrid (1788-1825), se mostrarán los pasos seguidos
                   para su transcripción automática generando un modelo (99% de rendimiento) en el marco del
                   proyecto CLARA-HD. Finalmente se incluyen unas conclusiones iniciales.

                   English translation. The analysis of historical newspapers from the 18th, 19th, and early 20th
                   centuries requires a certain quality of digitized sources and the use of specific domain or
                   language resources. Any approach using current technologies finds that most of the NLP models
                   available for transcription or entity recognition are trained with texts in "current languages". If,
                   in addition, the challenge consists of extracting information from historical newspapers in
                   Spanish, the complexity increases since the normalization of Spanish is relatively “modern”
                   and it is necessary to try to refine the NLP models or generate new resources. In this
                   demonstration for the corpus built from the BNE Digital Hemeroteca, Diario de Madrid (1788-
                   1825) the steps followed will be shown for its automatic transcription using a defined model
                   (99% performance), within the framework of the CLARA-HD project. Finally, some initial
                   conclusions are included.

                   Palabras Clave 1
                   Transcripción de textos, modelos del lenguaje, recursos lingüísticos.

1. Introducción                                                                                    años se han realizado multitud de procesos de
                                                                                                   digitalización para la conservación de colecciones
                                                                                                   culturales tanto a nivel local como nacional y
    La utilización de técnicas de Procesamiento de
                                                                                                   europeo. Estos proyectos han generado millones
Lenguaje Natural (PLN) en el tratamiento de
                                                                                                   de imágenes que necesitan ser tratadas para la
documentos textuales, en concreto en el ámbito de
                                                                                                   transcripción del texto que contienen, ya sea de
las Humanidades Digitales (HD), se ha convertido
                                                                                                   forma manual o mediante la aplicación de
en una práctica referente en muchos de los
                                                                                                   procesos de reconocimiento óptico de caracteres,
proyectos actuales [10]. En los últimos veinte


SEPLN-PD 2022. Annual Conference of the Spanish Association for
Natural Language Processing 2022: Projects and Demonstrations,
September 21-23, 2022, A Coruña, Spain
EMAIL:       amenta@invi.uned.es        (A.     Menta-Garuz);
evasan@lsi.uned.es (E. Sanchez-Salido); agarcia@lsi.uned.es (A.
Garcia-Serrano)
ORCID: 0000-0002-3172-2829 (A. Menta-Garuz); 0000-0001-
8665-3018 (E. Sanchez-Salido); 0000-0003-0975-7205 (A.
Garcia-Serrano)
               © 2020 Copyright for this paper by its authors. Use permitted under Creative
               Commons License Attribution 4.0 International (CC BY 4.0).

               CEUR Workshop Proceedings (CEUR-WS.org)




                                                                                              70
conocido como OCR (del inglés Optical                       2. Necesidad de corpus de textos
Character Recognition).
    La elaboración de corpus históricos está sujeta            históricos de calidad
a múltiples factores, entre ellos su finalidad [9].
Por ejemplo, para el estudio de una lengua actual               Las facilidades que ofrece la informática
en general se pretende que el corpus sea                    propician la confección de corpus que presentan
proporcional, es decir, que la cantidad de palabras         el mismo texto en diversas modalidades de
o de textos de cada muestra esté en proporción              edición: facsímil (reproducción fotográfica del
respecto a su distribución en el total de la                original), paleográfica        (transcripción sin
población. Sin embargo, este requisito es difícil de        correcciones ni interpretaciones), normalizada
conseguir en corpus históricos, ya que a menudo             (transcripción siguiendo la normativa ortográfica,
no se conservan suficientes documentos                      léxica y sintáctica vigente), crítica (transcripción
representativos de cada tipo, o incluso se                  que pretende reconstruir el texto original) o
desconocen las proporciones en que deberían                 interpretativa (transcripción que sigue los
aparecer. Por otra parte, la creación del corpus            postulados de la edición paleográfica pero permite
también depende del tipo de consulta que se desee           corregir ciertos errores para poder explicar el
realizar sobre los resultados que proporcione su            sentido del texto). Ejemplos son el corpus
análisis. En función de las posibilidades de                burckhardtsource.org y el proyecto CHARTA 2.
consulta, los corpus son etiquetados mediante                   En el estudio del impacto de la tarea de
marcas declarativas que describen los elementos             reconocimiento de entidades nombradas (NER,
formales del texto (cursiva, tamaño de la fuente),          por sus siglas en inglés) en el ámbito de las HD,
elementos estructurales (capítulos, páginas) y              en [11] se reflexiona sobre las posibilidades de
elementos lingüísticos (entidades, cambios de               utilizar NER y otros métodos de extracción de
registro).                                                  información en textos no estructurados y
    La comunidad científica concienciada de la              proponen ampliar el debate sobre la forma de
dificultad de tratar documentos históricos, en los          utilizar las tecnologías del PLN a la comunidad
últimos años está realizando un esfuerzo en                 humanística.
mejorar las herramientas disponibles para su                    Dentro de las HD, el estudio de las ediciones
gestión, acceso y consulta [5]. Aquí es donde               de periódicos históricos entre el siglo XVIII y
entran en juego las técnicas de PLN. Estas son              principios del siglo XX es un campo idóneo para
capaces de extraer, procesar y relacionar la                aplicar estas técnicas debido a la presencia de todo
información que contienen los documentos para               tipo de entidades en ellos y a su evolución
su posterior utilización y que sirvan de ayuda a los        temporal a lo largo de los años para recuperar,
humanistas en sus reflexiones y análisis [6]. Si            almacenar y consultar la herencia cultural
además es necesario trabajar con imágenes y                 transmitida. Aun así, su uso directo presenta
textos [1] los sistemas de soporte a la                     varios inconvenientes al utilizarlos en textos
investigación o de apoyo al trabajo del profesional         históricos. La mayoría de los modelos actuales
se fundamentan en interfaces de interacción con la          son modelos estadísticos que necesitan un
información mas complejos [2].                              conjunto de datos etiquetados para ser entrenados
    En esta presentación del corpus construido              en el contexto que se quieren utilizar, y estos
desde los textos disponibles en la Hemeroteca               conjuntos escasean o no son públicos en las HD.
Digital de la BNE, Diario de Madrid (1788-                  Esto repercute en otra dificultad añadida, que es la
1825)¡Error! Marcador no definido., se                      representación que deben tener los textos para ser
justifica, en el apartado segundo, la necesidad de          utilizados por las técnicas del PLN.
construir corpus de suficiente calidad para el                  Desde hace años se ha impuesto la utilización
análisis PLN previo al estudio de historiadores o           de modelos vectoriales de baja dimensión para
público en general, se muestran los pasos seguidos          representar los textos, conocidos como word
para su transcripción en el apartado tercero y              embeddings. Para obtener estos modelos, en la
finalmente se incluyen algunos comentarios sobre            mayoría de las ocasiones es necesario realizar un
este trabajo.                                               entrenamiento en una gran cantidad de textos del
                                                            contexto en el que se quieren utilizar para
                                                            aprender las relaciones entre las palabras y
                                                            conceptos. Para obtener una mejor representación

2
    https://www.corpuscharta.es




                                                       71
final se suele realizar un pre-procesamiento de los          registro se obtienen 500 créditos (unas 500
textos para eliminar información irrelevante                 páginas). La herramienta está bien documentada 4
(como código HTML y algunos metadatos). Una                  y cuenta con funcionalidades de acceso libre
vez limpio el texto, se utiliza como entrada para            desde el navegador 5 o la aplicación.
generar los word embeddings, ya sean estáticos o                Para la transcripción dispone de modelos
contextuales como los modelos basados en                     basados en redes neuronales públicos y
Transformers [12].                                           entrenados en distintos idiomas y grafías 6, lo que
    Últimamente, las redes neuronales basadas en             facilita encontrar uno que se aproxime al de los
modelos de lenguaje mejoran la detección de                  documentos a transcribir. De no ser así, la
entidades, especialmente desde la publicación del            herramienta permite entrenar uno propio y
modelo BERT [4] en 2018, o los modelos de                    automatizar la transcripción de nuestros
lenguajes basados en Transformers. En [7] se                 documentos. De hecho, ya disponemos de un
realiza un estudio del impacto de la salida del              modelo entrenado a partir de transcripciones
OCR en el rendimiento de los modelos basados en              manuales en el proyecto CLARA-HD.
BERT en un problema de clasificación de                         Para ello, se comienza creando una colección
extractos de libros que van desde finales del siglo          y cargando los ficheros que contienen los textos
XVIII a finales del siglo XX. En sus conclusiones            en ella (Figura 1).
mencionan una degradación de los resultados y
recomiendan realizar un ajuste fino de los
modelos en esta tipología de documentos con
anterioridad a realizar la clasificación para
hacerlos más robustos a los errores ortográficos.
Además, el vocabulario utilizado en siglos
pasados dista enormemente del usado hoy en día
y es un reto y una motivación para hacer hincapié            Figura 1. Carga de ficheros.
en la utilización de los modelos de lenguaje                     Para poder transcribir los documentos hay que
basados en redes neuronales.                                 realizar manualmente el reconocimiento de su
    En definitiva, los intentos de análisis de               estructura (o layout), diferenciando las regiones
documentos históricos mediante tecnologías de                en las que se encuentra el texto (Figura 2). El
PLN actuales se encuentran con el problema de                reconocimiento en general no es perfecto, por lo
que la mayoría de los modelos disponibles están              que en ocasiones habrá que corregir errores o
entrenados con textos en “lenguas modernas”, y               modificar manualmente.
aumenta la complejidad al intentar extraer
información de documentos históricos en español,
ya que la normalización del español es
relativamente “moderna” y hay que refinar los
modelos de PLN o generar nuevos recursos.

3. Construcción                  del      modelo   de
   transcripción

   La dificultad para aplicar la tecnología actual
de PLN en las HD es el origen de los datos, porque
la mayoría de las fuentes están almacenadas en
imágenes de mala calidad con tipografías antiguas
que necesitan de un OCR específico.
   Transkribus 3 es una plataforma para la
digitalización, el reconocimiento de texto, la
transcripción y la búsqueda en documentos
históricos. Es resultado de un proyecto europeo y
de pago a partir de un cierto límite de uso. Con el
3
 https://readcoop.eu/transkribus/                            5
                                                                 https://transkribus.eu/lite/
4
 https://readcoop.eu/transkribus/howto/                      6
                                                                 https://readcoop.eu/transkribus/public-models/
use-transkribus-in-10-steps/




                                                        72
                                                          4. Comentarios finales

                                                              Se ha presentado cómo construir un corpus con
                                                          la herramienta Transkribus, entrenando un nuevo
                                                          modelo de transcripción capaz de reconocer
                                                          caracteres no vistos por el modelo base,
                                                          alcanzando una precisión en el reconocimiento de
                                                          caracteres nuevos del 99%.
                                                              En este momento estamos trabajando con
                                                          historiadores de la UNED interesados en el
                                                          contenido del Diario de Madrid, para identificar
                                                          tanto la terminología como los temas de interés
                                                          para su investigación y evaluar cuánto es
                                                          soportada por la tecnología PLN utilizada. Una
                                                          vez identificados los tipos de entidades útiles para
                                                          los historiadores, se seguirá con la extracción de
                                                          las menciones de cada tipo, como las
                                                          localizaciones, las profesiones o palabras
                                                          complejas de entender.


Figura2. Reconocimiento de la estructura.                 5. Agradecimientos

   Una reconocidas las regiones se transcribe el              Este trabajo parcialmente financiado por el
texto, línea a línea manualmente o con la ayuda de        proyecto coordinado CLARA-NLP 7 consta de
un modelo público seleccionado. Es posible que            tres subproyectos para dominios especializados en
haya que editar la transcripción para corregir            historia 8, biomedicina [3] y economía [8].
errores (Figura 3).                                           Finalmente, un agradecimiento especial para la
                                                          participación en este subproyecto de los
                                                          estudiantes en prácticas V. Sánchez-Sánchez, R.
                                                          Garcia-Sánchez y A. Rodriguez-Francés.

                                                          Referencias

                                                          [1] J. Benavent, X. Benavent, E. de Ves, R.
                                                              Granados, A. García-Serrano, Experiences at
                                                              ImageCLEF 2010 using CBIR and TBIR
                                                              Mixing Information Approaches, M.
                                                              Braschler, D.Harman, E. Pianta         (Eds.)
Figura 3. Transcripción manual.                               CLEF, CEUR Proc., V 1176. 2010.
                                                          [2] J. Calle-Gómez, A. García-Serrano, P.
    Para automatizar este proceso se ha creado un             Martínez, Intentional processing as a key for
modelo propio de transcripción a partir de un                 rational    behaviour      through    Natural
conjunto de entrenamiento junto con una guía de               Interaction, Interacting with Computers V 18
estilo, realizando los pasos mostrados                        N 6, pp:1419-1446, 2006.
anteriormente: (1) subida de documentos a la              [3] L. Campillos-Llanos, A. Terroba, S. Zakhir,
herramienta, (2) reconocimiento manual de la                  A. Valverde, A. Capllonch, Building a
estructura de todas las páginas de los documentos,            comparable corpus and a benchmark for
(3) transcripción de un cierto número de páginas              Spanish medical text simplification,
manualmente o con la ayuda de un modelo                       Procesamien. del Lenguaje Natural 69, 2022.
público y (4) revisión manual final de las mismas,        [4] J. Devlin, M.-W. Chang, K. Lee, K.
para entrenar nuestro modelo de transcripción.                Toutanova, BERT: Pre-training of Deep
7
    www.clara-nlp.uned.es                                 8
                                                               (PID2020-116001RB-C31),   (PID2020-116001RB-C32),
                                                          (PID2020-116001RA-C33)




                                                     73
     Bidirectional Transformers for Language
     Unders., arXiv preprint 1810.04805, 2018.
[5] M. Ehrmann, M. Romanello, A. Flückiger, S.
     Clematide, Extended Overview of CLEF
     HIPE 2020: Named Entity Processing on
     Historical Newspapers, CLEF proc. 2020.
[6] A. Garcia-Serrano, A. Menta-Garuz, La
     inteligencia artificial en las Humanidades
     Digitales: dos experiencias con corpus
     digitales, Revista de Humanidades Digitales,
     v.7, pp: 19-39, 2022.
[7] M. Jiang, Y. Hu, G. Worthey, R. C.
     Dubnicek, T. Underwood, Impact of OCR
     Quality on BERT Embeddings in the
     Domain Classification of Book Excerpts,
     CHR 2021: Computational Humanities
     Research Conference, pp. 266–279, 2021.
[8] A. Moreno-Sandoval, A. Gisbert, H.
     Montoro, Fint-esp: a corpus of financial
     reports in Spanish, Multiperspectives in
     Analysis and Corpus Design, Editorial
     Comares, pp. 89-102, 2020.
[9] J. Torruella Casañas, Lingüística de corpus:
     Génesis y bases metodológicas de los corpus
     (históricos) para la investigación en
     lingüística, Peter Lang Ed., 2017.
[10] M. Toscano, A. Rabadán, S. Ros, E.
     González-Blanco, Digital humanities in
     Spain: Historical perspective and current
     scenario. Profesional de la Información,
     29(6), 2020.
[11] S. van Hooland, M. de Wilde, R. Verborgh,
     T. Steiner, R. Van de Walle, Exploring entity
     recognition and disambiguation for cultural
     heritage collections, Digital Scholarship
     Humanities, V30, N2, 2015.
[12] A. Vaswani, N. Shazeer, N. Parmar, J.
     Uszkoreit, L. Jones, A. N. Gomez, Ł. Kaiser,
     I. Polosukhin, Attention is all you
     need, Advances in neural information
     Processing Systems 30, 2017.




                                                     74