Nove Anni di jTEI: What’s New? Federico Boschetti1,2 Gabriella Pardelli1 Giulia Venturi1 1 Istituto di Linguistica Computazionale “A. Zampolli”, CNR / Pisa 2 Digital and Public Humanities Center – Università Ca’ Foscari / Venezia {nome.cognome}@ilc.cnr.it Abstract di andare a identificare termini mono- e polirema- tici tipici del dominio, spia dell’orientamento te- English. This paper illustrates methods matico delle attività di ricerca della comunità TEI. and tools to study the development of re- Oggi lo studio delle comunità sta diventando in- search topics in the TEI community across fatti centrale per comprendere e interpretare per i the years. For this purpose, automatic vari domini la direzione scientifica nonché il ge- terminology extraction technologies were nere, gli stakeholder e le possibili connessioni tra exploited. comunità. Solo per fare un esempio, dalla lettura Italiano. Questo contributo illustra meto- degli indici dell’estrazione del jTEI Corpus, la co- di e strumenti per studiare il cambiamento munità scientifica che ruota intorno a TEI sembra diacronico degli interessi di ricerca della non voglia usare il sostantivo computer e l’agget- comunità TEI grazie all’uso di metodi di tivo computational, preferendo usare invece l’ag- estrazione automatica della terminologia gettivo digital combinato con una miriade di so- da corpora di dominio.1 stantivi (come ad es. editions, humanities, text, resources, age, archive, objects, facsimile, library, tools) in linea con gli usi della più ampia comunità 1 Introduzione delle Digital Humanities, ma non della Linguistica Computazionale. Questo contributo nasce dall’intento di studiare con metodi di distant reading jTEI: il Jour- 2 Background nal of the Text Encoding Initiative (https: //journals.openedition.org/jtei), Questo contributo prosegue sulla linea degli stu- perché è una rivista che rappresenta un ponte inte- di dedicati a riviste e comunità con interessi in- ressante fra la comunità delle Digital Humanities terdisciplinari di informatica e discipline linguisti- e la comunità della Linguistica Computazionale. che, storico-filologiche o letterarie. In particolare, Come indicato da Schreibman (2011), jTEI na- per lo studio dell’evoluzione terminologica nelle sce nel 2011 dopo tre anni di gestazione con l’in- Scienze Umane e Sociali si veda Tuzzi (2018); per tento di pubblicare selected papers dei convegni lo studio delle comunità della Linguistica Compu- annuali (i volumi 1-2, 4, 6, 8-10) e numeri mono- tazionale e delle Digital Humanities si veda Spru- tematici su argomenti di rilevanza per la comunità gnoli et al. (2019) e Pardelli et al. (2019); per lo TEI (il volume 3 dedicato alla linguistica e il vo- studio della comunità della Tecnologia della Lin- lume 5 dedicato alle infrastrutture). Schreibman gua e delle Risorse Linguistiche si vedano Mariani (2014) dichiara inoltre che il volume 7, il primo et al. (2014), Francopoulo et al. (2016), Soria et frutto di una open call, tocca “contemporary meta al. (2014), Bartolini et al. (2018) e Del gratta et concerns within the community”. al. (2018); per lo studio della comunità interna- Un tassello del settore delle Digital Humanities zionale di Grey Literature si veda Pardelli et al. viene rilevato in questo studio attraverso l’analisi (2017). diacronica di termini estratti dagli articoli pubbli- Le soluzioni sin ad oggi messe a punto nell’am- cati in jTEI dal 2011 al 2019. Lo scopo è quello bito dell’estrazione automatica di terminologia da 1 corpora di dominio sono molteplici e di diversa na- Copyright c 2019 for this paper by its authors. Use permitted under Creative Commons License Attribution 4.0 tura. Sebbene differiscano rispetto alle metriche International (CC BY 4.0). utilizzate, alcuni obiettivi sono condivisi e riguar- dano principalmente due aspetti legati alla diffi- Volume #Articoli #Parole Lungh. media 1 6 21,480 4,198 parole coltà di definire strategie per: i) risolvere il pro- 2 8 26,469 3,308 parole blema legato al fatto che il confine tra terminolo- 3 7 38,327 5,475 parole gia di dominio e lingua comune non sempre è cosı̀ 4 8 29,431 3,678 parole 5 7 24,921 3,560 parole netto (Cabré, 1999) e ii) delineare dei criteri co- 6 6 21,681 3,613 parole muni nella definizione di unità terminologica poli- 7 5 26,528 5,305 parole rematica (Ramisch, 2015), dal momento che esse 8 16 70,025 4,376 parole 9 6 23,897 3,982 parole rappresentano più della metà del vocabolario di un 10 6 31,992 5,332 parole madre-lingua (Jackendoff, 1997). La metodologia TOT. 75 314,751 proposta in questo contributo suggerisce una stra- tegia per superare entrambi tali aspetti problema- Tabella 1: Composizione del corpus e lunghezza tici. Come descritto in Bonin et al. (2010), la solu- media degli articoli. zione proposta si basa su di una originale combi- nazione di filtri linguistici e statistici che permet- tono di i) discriminare la terminologia di dominio sionato e il secondo basato sull’indicizzazione del- dalla lingua comune impiegando metriche statisti- lo stesso corpus tramite parole chiave fornite dagli che che pesano la rilevanza dei termini estratti al- autori come metadati degli articoli. l’interno del corpus di acquisizione (corpus di do- Il processo di estrazione terminologica non su- minio) rispetto ad un corpus di riferimento (corpus pervisionata è stato realizzato grazie a Text-to- rappresentativo della lingua comune, tipicamente Knowledge (T2K) (Dell’Orletta et al., 2014), piat- una collezione di articoli di giornale); ii) estrarre taforma di estrazione e organizzazione della co- unità polirematiche anche nei casi in cui la corri- noscenza da corpora multilingui di dominio basa- spondente testa lessicale non sia stata precedente- ta su tecnologie di Natural Language Processing mente individuata come unità monorematica spe- sviluppata da ILC-CNR e ampiamente validata in cifica del dominio. L’intuizione è di considerar- diversi contesti applicativi2 . T2K, costruito su di le come elementi ‘unici’ costituiti da sequenze di un’originale combinazione di sistemi a regole e al- categorie morfosintattiche (vedi Sezione 3.2). Ciò goritmi basati su metodi di apprendimento auto- permette di suggerire una risposta all’osservazione matico, consente di estrarre da una collezione di che “non sempre la settorialità di un LC [lessema testi linguisticamente annotati entità rilevanti an- complesso] è connessa con l’esistenza di accezioni che quando esse non sono presenti in una risor- speciali dei membri componenti, ma può derivare sa semantico-lessicale di dominio a disposizione. dal fatto che il LC assume in determinati conte- Ciò permette di far fronte e superare il tradizionale sti un significato globale speciale” (De Mauro and collo di bottiglia che si incontra in ogni compito di Voghera, 1996). analisi semantica del testo, quello cioè di rendere esplicito il collegamento tra la realizzazione lin- 3 Metodo guistica dell’informazione e la rappresentazione esplicita dell’informazione stessa. 3.1 Descrizione e preparazione del corpus Allo scopo pertanto di individuare ed estrarre Gli articoli della rivista sono reperibili online sia elementi informativi nuovi rispetto a quelli pre- in .pdf che in .xhtml e, per i numeri più recenti, senti nel repertorio delle parole chiave a dispo- anche in .xml (TEI-XML). Il corpus su cui si basa sizione, il corpus è stato linguisticamente anno- la nostra indagine parte dall’estrazione del plain tato a diversi livelli di analisi. A partire dal te- text dall’XHTML, una volta escluso il contenuto sto annotato a livello morfosintattico grazie al metatestuale e paratestuale. La Tabella 1 mostra la Parts-Of-Speech tagger descritto in Dell’Orletta composizione del corpus. (2009), sono state individuate le unità terminolo- giche candidate all’estrazione. La metodologia, 3.2 Estrazione terminologica descritta in Bonin et al. (2010), consente di in- Per studiare la variazione terminologica avvenu- dividuare potenziali unità monorematiche e po- ta nel corso degli anni di pubblicazione della rivi- lirematiche impiegando una combinazione di fil- sta abbiamo adottato due metodi complementari: tri linguistici e statistici configurabili rispetto agli il primo basato sull’indicizzazione del corpus tra- 2 mite la terminologia estratta in modo non supervi- http://www.italianlp.it/demo/t2k-text-to-knowledge/ obiettivi di ricerca. Allo scopo della nostra in- tervallo temporale osservato, è stato scelto il dagine, i filtri linguistici sono stati configurati Mann-Kendall trend test, disponibile nel pacchetto in modo da individuare all’interno del corpus di trend di R (https://bit.ly/30bWRkd). acquisizione: i) le potenziali unità monoremati- Considerando il numero esiguo di dati disponibi- che, sulla base della categoria morfo-sintattica as- li per ciascun termine (o parola chiave) si è scelta segnata (tipicamente ‘sostantivo’); ii) le poten- quindi una statistica non parametrica sufficiente- ziali unità polirematiche, sulla base di una serie mente affidabile anche con un numero di misura- di sequenze di categorie morfo-sintattiche rappre- zioni inferiori a dieci. Per motivi di omogeneità sentative di diversi tipi di modificazione nomina- dei dati, sono stati presi in considerazione soltanto le. Ad esempio, da una sequenza come ‘agget- i sette numeri della rivista riguardanti atti di conve- tivo+sostantivo’ sono individuate polirematiche gni presi in successione cronologica, come si può quali critical edition, lexical entry, cultural herita- vedere nelle Figure 3 e 4. I dati su cui si è ap- ge; da una sequenza ‘sostantivo+sostantivo’ sono plicato l’MK Test sono stati preparati in formato individuati potenziali termini quali TEI standard, tabellare sia per i termini estratti automaticamen- manuscript material, knowledge representation; te, sia per le parole chiave indicate dagli autori, per arrivare a sequenze più complesse come ‘so- disponendo su ciascuna riga un termine (o una pa- stantivo+preposizione+sostantivo’ sulla base del- rola chiave), su ciascuna colonna un numero del- la quale sono stati individuati termini quali string la rivista e in ciascuna cella la relativa frequenza of text, editions of letters o sequenze ‘sostan- percentuale. L’MK Test fornisce un valore posi- tivo+preposizione+aggettivo+sostantivo’ che per- tivo per trend crescenti e un valore negativo per mette di rintracciare un termine come DTABf for trend decrescenti. Per lo studio dei risultati sono printed texts, evaluation of digital scholarship stati presi in considerazione soltanto gli esiti con o ‘aggettivo+aggettivo+sostantivo’ realizzazione p-value<0.05. linguistica di un termine come historical finan- cial records. I filtri statistici, applicati alla lista di 4 Risultati termini candidati all’estrazione, consentono di or- 4.1 Studio dei profili degli autori dinare tali termini sulla base della loro rilevanza all’interno del corpus di acquisizione, attribuen- Dall’analisi dei trend terminologici i numeri della do loro un valore di significatività stabilita sul- rivista non dedicati ad atti dei convegni TEI (3, 5 e la base del C-NC Value (Frantzi and Ananiadou, 7) sono stati esclusi anche perché i profili degli au- 1999), una delle misure più utilizzate nei sistemi tori stessi hanno carattere di eccezione. Per il mo- di estrazione terminologica. nitoraggio, gli autori sono stati classificati in base In linea con gli obiettivi di ricerca del nostro alla loro presenza o meno in riviste o atti di con- studio, i termini cosı̀ estratti sono stati impiega- vegno di Linguistica Computazionale (con contri- ti dal modulo di indicizzazione di T2K per rin- buti o con menzioni in bibliografia). Come si può tracciare all’interno dell’intera collezione di arti- vedere in Fig. 1, il numero dedicato a TEI e lin- coli del jTEI i singoli contesti nei quali i termini guistica (3) e il numero aperto (7) hanno attrat- compaiono. Grazie a questo processo è stato pos- to un numero elevato di linguisti computaziona- sibile condurre l’indagine sulla variazione diacro- li. Sorprendentemente invece il numero dedicato nica dei termini nelle diverse annate della rivista, alle infrastrutture TEI (5) non ha avuto la stessa consentendo di studiare l’evoluzione di tendenze attrattiva. di ricerca e tematiche di studio. 4.2 Dati relativi ai termini estratti 3.3 Trattamento delle parole chiave I risultati discussi in quanto segue fanno riferimen- Sono state prese in considerazione le parole chiave to ai primi 500 termini circa mono- e poliremati- che gli autori stessi hanno indicato fra i metada- ci estratti, con una frequenza di occorrenza ≥3. ti. Sul totale degli articoli raccolti le parole chiave La Tabella 2 riporta un estratto della lista dei pri- distinte sono 259. mi 25 termini estratti dall’intero corpus, ordinati per rilevanza statistica e accompagnati dalla fre- 3.4 Mann-Kendall Trend Test quenza assoluta nel corpus. Per ogni termine, T2K Per esplorare le variazioni significative d’impie- permette di estrarre il lemma e la forma prototi- go dei termini e delle parole chiave nell’in- pica, cioè la variante linguistica più frequente del 100% Forma prototipica Lemma Frequenza TEI TEI 2597 text text 1261 75% element element 934 project project 485 user user 455 profilo document document 421 percentuale 50% no ling. comp. ling. comp. manuscript manuscript 396 XML XML 393 Open and forthcoming issues annotation annotation 292 25% TEI Guidelines TEI Guidelines 166 edition edition 253 tools tool 249 0% information information 248 1 2 3 4 5 6 7 8 9 10 11 12 13 content content 224 volumi language language 221 object object 219 Figura 1: Autori che non hanno pubblicazioni source source 214 in ambito di linguistica computazionale (no lc) e TEI P5 TEI P5 132 TEI Consortium TEI consortium 98 autori che ne hanno (lc) TEI documents TEI document 91 digital editions digital edition 89 TEI XML TEI XML 85 lemma all’interno della collezione documentale di TEI community TEI community 71 partenza. manuscript manuscript 54 description description Come introdotto nella Sezione 3.2, la fase di digital humanities digital humanity 53 indicizzazione ha permesso di calcolare la distri- buzione dei termini all’interno dei singoli articoli Tabella 2: I primi 25 termini estratti dall’intero mettendo in evidenza eventuali differenze nell’u- corpus. so di uno stesso termine. La Figura 2 mostra ad esempio come, sul totale di occorrenze di parole polirematiche estratte che contengono l’aggettivo digital, ogni volume sia caratterizzato da distribu- zioni percentuali diverse. Alcuni termini possono considerarsi poco specifici come digital age, di- gital form, digital resources, digital tools, digital projects, digital medium. Non pochi termini risul- tano essere tuttavia puntuali e peculiari del setto- re, tra questi sono stati estratti nell’arco tempora- le digital archive, digital critical editions, digital document, digital editions, digital Humanities, di- gital images, digital library, digital objects, digi- Figura 2: Distribuzione percentuale di termini tal scholarship, digital text. Il grafico permette di polirematici estratti che contengono l’aggettivo leggere la modulazione diacronica dei termini in- digital. trodotti dagli autori e riconoscibili nel settore delle Digital Humanities. Ad esempio, possiamo nota- so di individuare, fra le complessive 259, 32 pa- re come il termine Digital Humanities è il termine role chiave usate esclusivamente come metadati, che ha un significato più ampio e accoglie gli altri e quindi che non occorrono mai nel testo, come termini peculiari. Esso è pertanto sempre presente ad esempio bibliographical standards, collabora- nei dieci volumi anche se la frequenza di occor- tive workflow, TEI corpora e 227 impiegate invece renza risulta essere altalenante. Un momento di anche all’interno del testo (ad esempio forums). prosperità di questo termine risulta circoscritto al Un’assimetria degna di nota riguarda le sequen- volume 6 del 2013. ze aggettivo+sostantivo critical edition e scholar- ly edition (entrambe parole chiave) in composizio- 4.3 Distribuzione delle parole chiave nel testo ne con digital. Mentre infatti gli autori hanno in- Abbiamo verificato la distribuzione delle parole dicato nei metadati degli articoli digital scholarly chiave nel corpo degli articoli e ciò ci ha permes- edition come parola chiave autonoma, hanno tra- 0.8 lasciato invece digital critical edition, benché sia ● termine polirematico estratto da T2K e in alcuni ● 0.6 termini articoli cooccorra digital scholarly edition. ● ● ● research questions frequenza % ● ● ● case study 0.4 4.4 Risultati dell’MK Test ● open data ● ● literary texts ● Lo studio delle variazioni d’impiego dei termini 0.2 ● ● ● ● ● ● ● manuscript material humanities research ● ● ● al fine di identificare delle tendenze significative ● ● ● ● ● ● ● ● ha prodotto i seguenti risultati con trend crescen- 0.0 ● ● ● ● ● ● te: different types, @corresp attribute, open da- 2008/9 2011 2010 2012 2011 2013 2012 2013 2013 2014/5 2014 2016/7 2015 2016/9 1 2 4 6 8 9 10 ta, TEI Correspondence SIG, research questions, anno del convegno / anno di pubblicazione / volume work in progress, Berlin-Brandenburg Academy of Sciences, bibliographic references, TEI model, Figura 3: Trends dei termini TEI Simple, case study, TEI XML; e i seguen- 12 ti risultati con trend decrescente: author’s no- ● te, literary texts, manuscript material, TEI users, 9 humanities research, TEI-encoded documents. parole chiave frequenza % Se si escludono termini isolati oppure legati a ● sense 6 ● TEI Simple tecnologie specifiche o a particolari gruppi di ri- ● Unicode cerca, i dati sembrano far emergere una tendenza ● ● community 3 interessante. Come si può vedere in Fig. 3, au- ● ● ● ● ● ● ● ● menta l’impiego di termini condivisi con le altre 0 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● scienze con basi sperimentali, fra cui le scienze del 2008/9 2010 2011 2012 2013 2014 2015 2011 2012 2013 2013 2014/5 2016/7 2016/9 linguaggio di cui la Linguistica Computazionale fa 1 2 4 6 8 anno del convegno / anno di pubblicazione / volume 9 10 parte, come research questions, case study e open data, mentre diminuisce l’impiego di termini spe- Figura 4: Trends delle parole chiave cifici delle discipline umanistiche, come literary texts, manuscript material e humanities research. Infine, lo studio delle variazioni d’impiego sato non era concepibile. Il lavoro svolto rappre- significative delle parole chiave indicate come senta una prima esperienza di recupero informati- metadati dagli autori stessi (Fig. 4) mostra vo e di analisi per studiare il trend della comunità il crescente interesse verso il web semantico scientifica delle Digital Humanities attraverso una (sense è largamente impiegato in contesti re- rivista ad essa dedicata, il jTEI. Pensiamo altresı̀ lativi alla codifica di ontologie) e verso pro- che sia fondamentale ampliare le nostre fonti con getti volti a rendere TEI maggiormente usabi- altre tipologie di riferimento: come blog, forum, le come TEI Simple (https://tei-c.org/ atti di conferenze nazionali e internazionali e ri- 2014/09/10/tei-simple). Scende inve- viste. Nell’analisi uno sguardo sarà rivolto anche ce drasticamente l’impiego di parole chiave che agli autori per comprendere connessioni e estra- esprimono tecnologie o concetti ormai assodati e neità tra la linguistica computazionale e le Digital condivisi, come Unicode e community, parola que- Humanities. st’ultima comprensibilmente dominante nel primo numero della rivista. References 5 Conclusione R. Bartolini, S. Goggi, M. Monachini and G. Par- delli 2018. The LREC Workshops Map. Recuperare un campione del trend delle attività di In Proceedings of the Eleventh International ricerca di un particolare settore scientifico, come Conference on Language Resources and Eva- luation (LREC 201), ELRA, Paris, pp. 557- quelle delle Digital Humanities attraverso il jTEI, 562. https://aclweb.org/anthology/ può essere stimolante per comprendere gli ambi- papers/L/L18/L18-1088/ ti indagati dai vari autori nell’arco temporale di F. Bonin, F. Dell’Orletta, S. Montemagni and G. Ven- dieci anni. In particolare la disponibilità di cat- turi. 2010. A Contrastive Approach to Multi-word turare oggi, articoli open access crea opportunità Extraction from Domain-specific Corpora. Procee- per l’analisi di comunità scientifiche che nel pas- dings of 7th Edition of International Conference on Language Resources and Evaluation (LREC 2010), GL Communities: A Snapshot. In Eighteenth In- 17-23 May, Valletta, Malta. ternational Conference on Grey Literature: Levera- ging Diversity in Grey Literature, Washington, No- M. T. Cabré. 1999. The terminology. Theory, me- vember 28-29, 2016. Edited by Dominic Farace and thods and applications. John Benjamins Publishing Jerry Frantzen, TransAtlantic-Amsterdam, 18, pp. Company. 109-113. R. Del Gratta, S. Goggi, G. Pardelli and N. Cal- T. Pohlert. 2018. Non-Parametric Trend Tests and zolari 2018. LREMap, a Song of Resour- Change-Point Detection, CRAN. https://bit. ces and Evaluation. In Proceedings of the Ele- ly/30bWRkd, venth International Conference on Language Re- sources and Evaluation (LREC 2018). ELRA, Paris, C. Ramisch. 2015. Multiword expressions acquisi- pp. 1275-1281. https://www.aclweb.org/ tion: A generic and open framework. New York: anthology/L18-1203 Springer. F. Dell’Orletta. 2009. Ensemble system for Part-of- S. Schreibman. 2011. Editorial Introduction to the Fir- Speech tagging. Proceedings of Evalita’09, Evalua- st Issue. Journal of the Text Encoding Initiative, tion of NLP and Speech Tools for Italian , Reggio 1. http://journals.openedition.org/ Emilia, December. jtei/229 F. Dell’Orletta, G. Venturi, A. Cimino and S. Montema- S. Schreibman. 2014. Editorial Introduction to Issue 7 gni. 2014. T2K: a System for Automatically Extrac- of the Journal of the Text Encoding Initiative. Jour- ting and Organizing Knowledge from Texts. Pro- nal of the Text Encoding Initiative, 7. http:// ceedings of 9th Edition of International Conferen- journals.openedition.org/jtei/1046 ce on Language Resources and Evaluation (LREC C. Soria, N. Calzolari, M. Monachini, V. Quo- 2014), 26-31 May, Reykjavik, Iceland. chi, N. Bel, K. Choukri, M. Mariani, J. Odijk T. De Mauro and M. Voghera. 1996. Scala mobile. and S. Piperidis 2014. The language resour- Un punto di vista sui lessemi complessi. P. Benincà ce Strategic Agenda: the FLaReNet synthesis of et al. (eds.), Italiano e dialetti nel tempo. Saggi di community recommendations. Language Resour- grammatica per Giulio C. Lepschy, Roma, Bulzoni, ces and Evaluation, December 2014, 48 (4), pp. pp. 99-131. 753–775. https://link.springer.com/ article/10.1007/s10579-014-9279-y G. Francopoulo, J. Mariani and P. Paroubek 2016. R. Sprugnoli, G. Pardelli, F. Boschetti and R. Del A Study of Reuse and Plagiarism in LREC papers. Gratta. 2019. Un’Analisi Multidimensiona- In Proceedings of the Tenth International Conferen- le della Ricerca Italiana nel Campo delle Digi- ce on Language Resources and Evaluation (LREC tal Humanities e della Linguistica Computazio- 2016), ELRA, Paris, pp. 1890-1897. https:// nale Umanistica Digitale, ISSN 2532-8816, 5, www.aclweb.org/anthology/L16-1298 pp. 59-89. https://umanisticadigitale. K. Frantzi and S. Ananiadou. 1999. The C-value / unibo.it/article/view/8581 NC Value domain independent method for multi- A. Tuzzi. 2018. Tracing the Life Cycle of Ideas in word term extraction. Journal of Natural Language the Humanities and Social Sciences. New York: Processing, 6(3):145-179. Springer. R. Jackendoff. 1997. Twistin’ the night away. Language, 73, pp. 534-559. J. Mariani, P. Paroubek, G. Francopoulo and O. Hamon 2014. Rediscovering 15 Years of Di- scoveries in Language Resources and Evaluation: The LREC Anthology Analysis. In Procee- dings of the Ninth International Conference on Language Resources and Evaluation (LREC- 2014), ELRA, Paris, pp. 4632-4669. http: //www.lrec-conf.org/proceedings/ lrec2014/pdf/1228_Paper.pdf G. Pardelli, S. Goggi and F. Boschetti 2019. Strolling around the dawn of Digital Humanities. Book of Ab- stract for the 8th Annual Conference AIUCD 2019, pp. 261-264. G. Pardelli, S. Goggi, R. Bartolini, I. Russo and M. Monachini 2017. A Geographical Visualization of