Un catalogo per la descrizione di risorse archeologiche

                      Nicola Aloia, Franca Debole, Carlo Meghini

           Istituto di Scienza e Tecnologie dell’Informazione del CNR, Pisa, Italia
         {nicola.aloia,franca.debole,carlo.meghino}@isti.cnr.it


       Abstract. This paper discusses the registry developed by the ARIADNE project
       for describing the archaeological resources that are made available by the
       partners of the project for the purposes of discovery, access and integration on a
       research infrastructure. These resources include: data, services and language
       resources, such as metadata formats, vocabularies and mappings. The registry is
       addressed to cultural institutions, private or public, which wish to describe their
       assets in order to make them known to e-infrastructures.


       Keywords: catalogue, registry, archaeological resources


1      Introduzione

Con il rapido progredire delle tecnologie informatiche e della comunicazione, si
assiste a una diffusione sempre più capillare di strumenti automatici a supporto del
lavoro del ricercatore. Le comunità scientifiche hanno tutte a disposizione un’ampia
gamma di software che, in applicazioni isolate o in servizi globalmente offerti, si
fanno carico di acquisire, gestire, elaborare e visualizzare dati di tutti i tipi per una
varietà di scopi. Questa ricchezza di offerta, potenzialmente positiva, rischia però di
diventare un ostacolo alla creazione di uno spazio comune della conoscenza: se colta
in contesti non comunicanti, essa può creare l’effetto opposto, cioè frammentazione
della conoscenza. Per evitare un esito tanto negativo, la comunità informatica propone
da tempo il ricorso alle infrastrutture informatiche, come tecnologia in grado di dare
supporto al lavoro dello scienziato mettendolo al tempo stesso al centro di una
comunità che condivide conoscenza, dati e strumenti, con ciò mettendo riparo alla
frammentazione esistente e prevenendo che se ne generi di nuova. Il progetto europeo
ARIADNE nasce in questo contesto, e si propone di creare un’infrastruttura a
supporto del lavoro del ricercatore in archeologia, rendendo disponibili i dati e i
servizi fin qui sviluppati nelle singole comunità nazionali o settoriali, e integrando tali
dati e servizi laddove possibile per creare una base di conoscenza condivisa e
universalmente accessibile.

   Nel contesto di ARIADNE, come pure in quello dei molti progetti paralleli
finanziati dalla Commissione Europea nel settore delle infrastrutture, assume
particolare rilevanza il catalogo (catalog), o registro (registry), delle risorse


                                                                                              26
dell’infrastruttura. Tale catalogo ha lo scopo di descrivere i dati e i servizi che
formano lo spazio informativo dell’infrastruttura, al fine di dare supporto a operazioni
fondamentali per l’accesso alla conoscenza, quali la scoperta (discovery) dei dati e dei
servizi, la loro visualizzazione in esplorazione navigazionale (browsing) e il loro
accesso.

   Il presente lavoro dà conto della struttura informativa del catalogo di ARIADNE,
presentando il modello dei dati sottostante, e di questo indicando le principali classi e
proprietà, e le rispettive tassonomie. Viene fatto anche un breve cenno
all’implementazione del modello che il progetto ARIADNE sta attualmente
realizzando, con il contributo di partner scientifici e tecnologici europei.


2      Il modello dei dati del catalogo di ARIADNE

Come accennato nell’introduzione, il progetto ARIADNE ha l’obiettivo di integrare le
varie infrastrutture di dati di ricerca archeologica esistenti, per fornire agli studiosi,
nella loro pratica di ricerca, potenti strumenti, tecnologicamente avanzati, ai fini della
fruizione dei dati e dei servizi che la comunità rende disponibili. Integrare la grande
quantità di dati e di strumenti tecnologici esistenti esige di scoprirne le caratteristiche:
a questo scopo nasce il catalogo di ARIADNE, che censisce e descrive quanto è
disponibile tra i partner del progetto, e più in generale dell’intera comunità degli
archeologi, per individuare, tramite raffinati meccanismi di ricerca, le risorse
candidate per l’integrazione. In questo paragrafo presentiamo il modello dei dati su
cui si basa il catalogo di ARIADNE. Tale modello, che noi chiamiamo ACDM
(ARIADNE Catalogue Data Model), descrive le risorse disponibili tra i vari partner
del progetto. In Fig. 1 è mostrato un diagramma UML semplificato di ACDM, che
comprende le sue classi e associazioni più rilevanti. La definizione del modello e
conseguentemente l’implementazione degli strumenti per il suo utilizzo sono state
oggetto di frequenti aggiornamenti e revisioni, in seguito ai nuovi requisiti e alle
conoscenze acquisite durante lo sviluppo del progetto stesso. Per una descrizione
dettagliata e aggiornata di ACDM si rimanda alla documentazione ufficiale presente
sul sito del progetto (www.ariadne-infrastructure.eu).


                                                                                               27
                                                                                                                                                                     1..*                   subject
                                                                                                                       ArchaeologicalResource                                                                                               0..*
                                                                                                                                                                                                                                                       skos:Concept
                                                                                                            0..*
                                                                                       …
                                                                          uto r/owner/
                                                                 t:contrib
  foaf:Agent             1       dct:pub               lisher/dc

         1   dc                                                 accessibleVia
               t:p
                    ub                                                               1                Service                                                                                                         LanguageResource
                      lis
                         he
                             r
                                                                                                                                                                                                                                                                                                              0..*
                                  0..*                           0..1


                                                                                                                                                                                                                                                                                                               from
                                                                                                                                                           dcat:Dataset


                                                                                                                                                                                                                                                                                                                        to
dcat:Distribution                                              Distribution          1..* dca
                                                                                                        t:dis
                                                                                                               tribu                                                                                                                                                                                           0..*
                                                                                                                    tion
                                                                                                                        1                                                                          Gazetteer                             Vocabulary                  MetadataSchema                          Mapping
                                  0..* hasItemMetadataStructure                                      1..*                                                                                                                                                                      1
                                                                                                                              DataResource


                                                                                                                                                                                                                                                                                hasElements
                                                                                                                                                                                                     1..*


                                                                                                                                                                                                                     dct:isPartOf


                                                                                                                                                                                                                                    dct:hasParts
                                                                                                                                 1..*


                                                                                                                                hasMetadataRecord
                                                                                                                                                                                      0..*                                                                                                                                                      1
                                                                                                                                                                                                                                                                             1..*


                                                                                                                                                                                                                                                                                                                                               hasVersion
                                           DataSet                           Database                                                                      GIS                 Collection                                                                                   MetadataElement
                                                                                                                                                                                                                                                   1..*                                                                      1


                                                                                                                                                                                                      dct:hasParts
                                                                                                                                                                                    dct:isPartOf
                                                                                                                                                                             0..*


                                                                                                                                                                                                                                                                                                                                 hasVersion
                                                                                  1..*                                                                                                                                                                                            1
                                         hasRecordStructure


                                                                                         hasSchema


                                                                                                                                                                                                                                                                                              hasAttribute
                                                        1..*


                                                                                                                                                                                                                                                    usesVocabulary
                                                                                                                                                                             0..*                                                                                                                                                             0..*
                                                                                  1                                                                                         TextualDocument                                                                                                                           0..*
                                                                                                                                              0..*
                                                                             DBSchema                                                                                                                                                                                                0..*                                        Version
                                                                                                                                                                                                                                                                             MetadataAttribute
                                        1                                                     conformsTo
                                                                                 1                                     1..*                                                                                                                         0..*
                                     DataFormat                                                                                                     MetadataRecord
                                                                                                                                                                                                                                                                        1   hasVersion                        1..*


                                                                                                        Fig. 1: Diagramma UML di ACDM

Come illustrato in Fig. 1, le risorse archeologiche in ARIADNE, modellate come
sottoclassi di ArchaeologicalResource, sono di tre tipi differenti:

                     Risorse dati, modellate con DataResource: rappresentano contenitori di dati
                     come dataset, databases, GIS e collezioni.

                     Risorse linguistiche, modellate con LanguageResource: comprendono
                     vocabolari, schemi di metadati, gazzeteer e definizioni di mapping tra schemi
                     di metadati.

                     Servizi, modellati con Service: le sue istanze rappresentano i vari servizi
                     disponibili presso i partners di ARIADNE.

DataResource, LanguageResource e Service sono classi astratte utili a definire
proprietà e associazioni comuni alle loro sottoclassi ed ereditano le associazioni
definite in ArchaeologicalResource.

Modellare in maniera esaustiva questi tipi di risorse è un compito complesso, per cui
abbiamo focalizzato la nostra attenzione sugli obiettivi del progetto, riutilizzando,
quanto più possibile, standard esistenti, consapevoli dei requisiti d’interoperabilità
con altre realtà presenti nell’area in cui s’inquadra il progetto ARIADNE. In
particolare per descrivere DataResource abbiamo esteso il vocabolario DCAT (Data
Catalog Vocabulary) [1], per LanguageResource abbiamo usato la definizione
ISO/IEC (AISO AiISI) 11179 “Specification and Standardization of Data Elements”
[2], per Service abbiamo esteso il vocabolario con cui Dbpedia descrive il software.


                                                                                                                                                                                                                                                                                                                                                            28
2.1    Il vocabolario DCAT

DCAT è un vocabolario RDF, pubblicato dal Government Linked Data Working
Group del W3C come raccomandazione per descrivere datasets e cataloghi sul Web,
al fine di consentire la loro reperibilità e utilizzo. Nelle dichiarazioni degli autori il
modello DCAT "è particolarmente adatto a rappresentare cataloghi di dati di varie
amministrazioni, come ad esempio Data.gov e data.gov.uk" ed è stato proposto come
uno strumento per la pubblicazione di datasets in modalità Open Data. Attualmente
vari datasets sono stati pubblicati secondo le specifiche DCAT e vari progetti europei
ne raccomandano ufficialmente l’adozione. L’adozione di DCAT in ARIADNE
perciò ci pone nella situazione ideale per pubblicare i dati del progetto anche come
Open Data.

DCAT utilizza un numero di classi e di relazioni provenienti da altri vocabolari ben
noti come foaf:Agent, skos:Concept, Dublin Core. Le principali classi del modello
sono dcat:Catalog che rappresenta una raccolta curata di metadati relativi ai dataset,
dcat:Dataset che rappresenta una collezione curata di dati e dcat:Distribution che
rappresenta la disponibilità dei vari dataset in differenti formati. In Fig. 2 è mostrato il
diagramma delle classi di DCAT.


                                   Fig. 2: Il modello DCAT


                                                                                               29
3      Le classi principali di ACDM

In questo paragrafo descriviamo brevemente alcuni dettagli delle principali classi di
ACDM.


3.1    ArchaeologicalResource

Questa classe definisce le proprietà comuni alle sue sottoclassi, in gran parte
utilizzando i termini del vocabolario DCAT cui si aggiungono proprietà per esprimere
le politiche di accesso e gli identificatori originali delle risorse.
ArchaeologicalResource ha come sottoclassi:
     •    DataResource
     •    LanguageResource
     •    Service
Le principali associazioni definite sono:
     • dct:publisher: associa un’istanza di ArchaeologicalResource con l’istanza
         della classe foaf:Agent relativa all’ente che ha reso pubblicamente
         disponibile la risorsa;
     • dct:creator: associa un’istanza di ArchaeologicalResource con l’istanza della
         classe foaf:Agent relativa al principale responsabile della creazione della
         risorsa;
     • owner: associa un’istanza di ArchaeologicalResource con l’istanza della
         classe foaf:Agent relativa al proprietario legale della risorsa;
     • legalResponsible: associa un’istanza di ArchaeologicalResource con
         l’istanza della classe foaf:Agent relativa al responsabile legale della risorsa;
     • scientificResponsible: associa un’istanza di ArchaeologicalResource con
         l’istanza della classe foaf:Agent relativa al responsabile scientifico della
         risorsa;
     • dct:subject associa un’istanza di ArchaeologicalResource con un soggetto
         presente in un determinato vocabolario, modellato con la classe
         skos:Concept.


3.2    DataResource

Questa classe specializza ArchaeologicalResource e descrive le risorse archeologiche
che sono contenitori di dati. È una classe astratta che definisce le proprietà e le
associazioni comuni alle sue sottoclassi (DataSet, Databases, GIS, Collection, vedi
Fig. 1). Tra le varie proprietà di DataResource, che principalmente usa i termini del
vocabolario DCAT, segnaliamo dct:temporal e dct:spatial, che forniscono
informazioni spazio temporali sulla risorsa. Le associazioni principali che hanno
questa classe come dominio sono:


                                                                                            30
      •    dct:isPartOf: nel caso la risorsa faccia parte di una collezione, questa
           proprietà associa la risorsa all’istanza di collezione cui appartiene;
      •    dcat:distribution: associa la risorsa con una o più istanze della classe
           Distribution (cioè con i vari formati accessibili della risorsa);
      •    hasItemMetadataStructure: associa la risorsa col formato dei metadati dei
           membri della risorsa (es. i metadati di ogni record di un dataset, o i metadati
           di ogni elemento di una collezione);
      •    hasMetadataRecord: associa la risorsa con i suoi metadati (es. i metadati che
           descrivono una collezione).

DataResource ha le seguenti sottoclassi:
Collection: definiamo una collezione archeologica come un’aggregazione di risorse,
dette elementi della collezione. Gli elementi di una collezione sono singoli oggetti (ad
esempio, immagini, testi, video, etc.) o istanze di DataResource, (cioè istanze delle
sue sottoclassi DataSet, Databases, GIS o Collection); per esempio, una collezione
può includere un documento di testo, un insieme di immagini, uno o più dataset e altre
collezioni. Per ragioni d’interoperabilità Collection è una sottoclasse di
dcmitype:Collection. La principale associazione che ha questa classe come dominio è
dct:hasParts, che associa un’istanza di collezione con le sue componenti.

Database: le istanze di questa classe sono un insieme di record omogeneamente
strutturati, gestiti tramite un sistema di gestione di database, come ad esempio
MySQL. La principale associazione di questa classe è hasSchema, che associa
un’istanza di database con la sua definizione strutturale rappresentata da un’istanza
della classe DBSchema.

Dataset: un dataset archeologico è definito come un insieme di record
omogeneamente strutturati, costituiti da campi che contengono valori. L’associazione
principale che ha questa classe come dominio è hasRecordStructure, che associa un
dataset con la sua definizione strutturale rappresentata da un’istanza della classe
DataFormat.

GIS: questa classe ha come istanze record di dati gestiti da un Geographical
Information Systems (GISs).


3.3       LanguageResource


Questa è la classe di tutte le risorse linguistiche descritte nel catalogo a fini di
riutilizzo o integrazione all'interno della comunità di ARIADNE. Un’istanza di
LanguageResource è una risorsa di natura linguistica, sia in linguaggio naturale (ad
esempio un gazzetter) o in un linguaggio formale (ad esempio un vocabolario o uno
schema di metadati). LanguageResource comprende anche definizioni di mapping,
intese come associazioni tra due espressioni di risorse linguistiche, definizioni che
possono essere di tipo formale o informale.


                                                                                             31
3.4       Service

Mentre per la descrizione dei Dataset è stato possibile adottare un vocabolario
standard (DCAT), per quanto riguarda la descrizione dei servizi da censire in
ARIADNE, la situazione è più complessa, poiché esistono diversi vocabolari, nessuno
dei quali si è affermato come standard. Sulla base di evidenze raccolte tramite i
rapporti del progetto, abbiamo classificato i servizi nelle seguenti categorie, che
riflettono il modo in cui un servizio è accessibile (Fig. 3):

      •    StandAloneService: servizi che possono essere scaricati e installati su una
           macchina.
      •    WebService: servizi accessibili sul Web tramite un’API.
      •    ServiceForHuman: servizi accessibili sul Web solo tramite una GUI.
      •    InstitutionalService: servizi offerti da istituzioni, il cui accesso deve essere
           negoziato attraverso un’interazione personale con i rappresentanti di questa
           istituzione.

In ACDM abbiamo introdotto la classe astratta Service che descrive le proprietà e le
associazioni comuni a tutti i servizi. Service è una sottoclasse di
ArchaeologicalResource, per cui eredita tutte le proprietà e le associazioni di questa
classe (Fig. 1).


                               Fig. 3 Digramma UML dei Servizi


4         Strumenti per la gestione del catalogo

Il modello dei dati descritti nei paragrafi precedenti è la base su cui è stato
implementato il servizio di Registro del progetto ARIADNE (da ora in avanti ci
riferiremo al servizio solamente col nome Registro). Il Registro è il componente
software, che utilizza una base di dati SQL, in cui sono memorizzati e resi disponibili
tutte le risorse del catalogo, consentendo agli utenti di creare/modificare record
attraverso un'API REST o attraverso una GUI Web. In Fig. 4 è mostrato il workflow


                                                                                              32
per l’acquisizione dei dati, realizzato tramite l’infrastruttura MoRe (Metadata &
Object Repository) fornita dai partner di ARIADNE presso il Digital Curation Unit di
Athena Research Centre (http://www.dcu.gr/).

                               Registry
                                 API


    Registry GUI


                                 MORe            Normalisation
                                Storage


                                                     Link
                              Schematron           Checking
                                 Rule
                               Validation


                                                  Enrichment
                                 ACDM
                                Schema
                               Validation
                                                                         Elastic
                                                    Purge                Search
                                                   Records
                               Mapping
      OAI-PMH

                                                   Publish               Virtuoso
                                                                        RDF Store
       EXCEL                    Harvest


        …..


                   Fig. 4 Workflow per l’acquisizione dei dati del registro.

Come mostrato in Fig. 4, i record sono memorizzati nell’infrastruttura MoRe, tramite
un’interfaccia grafica basata sul Web (Fig. 5), tramite chiamate alle API Rest di MoRe
o importati direttamente da file esterni e da server OAI-PMH. I record importati in
maniera batch sono sottoposti ad una fase di mapping dal modello esterno e validati
tramite l’XML Schema di ACDM. In una fase successiva, i record consolidati nello
storage di MoRe sono trasformati in RDF e memorizzati in un gestore di triple
(Virtuoso nel nostro caso); un’altra trasformazione consente di memorizzare i record
del catalogo in un sistema di Information Retrieval (Elastic Search nel nostro caso).
Prima di essere pubblicati in Virtuoso o in Elastic Search i record ACDM passano
attraverso le fasi di normalizzazione, link checking e enrichment.


                                                                                         33
                          Fig. 5 Interfaccia grafica basata sul Web


5      Conclusioni

Il catalogo di ARIADNE è in fase avanzata di sviluppo ed è attualmente popolato con
le descrizioni di decine di migliaia di risorse dati, fornite dalle più importanti
istituzioni archeologiche europee, che si sono offerte di collaborare alla fase di messa
a punto del catalogo stesso. Per la fine del progetto, il catalogo offrirà una base
informativa stabile, accessibile via web, e fornita delle operazioni di scoperta,
navigazione e accesso cui si è accennato sopra.

Da quel momento, il catalogo sarà messo a disposizione dell’intera comunità
scientifica dell’archeologia, che potrà utilizzarlo come punto unico di accesso al
patrimonio delle conoscenze del settore.


                                                                                           34
Ringraziamenti

Ringraziamo il progetto ARIADNE, finanziato dalla Commissione Europea
nell’ambito del Settimo Programma Quadro, contratto n. FP7-INFRASTRUCTURES-
2012-1-313193.


Riferimenti
1. DCAT http://www.w3.org/TR/vocab-dcat/
2. ISO 11179 Part1 Framework for the Specification and Standardization of Data Elements
   (2004)
3. MoRe (http://more.dcu.gr/).


                                                                                          35