=Paper=
{{Paper
|id=Vol-2481/paper7
|storemode=property
|title=Nove Anni di jTEI: What's New?
(Nine Years of jTEI: What's New?)
|pdfUrl=https://ceur-ws.org/Vol-2481/paper7.pdf
|volume=Vol-2481
|authors=Federico Boschetti,Gabriella Pardelli,Giulia Venturi
|dblpUrl=https://dblp.org/rec/conf/clic-it/BoschettiPV19
}}
==Nove Anni di jTEI: What's New?
(Nine Years of jTEI: What's New?)==
Nove Anni di jTEI: What’s New?
Federico Boschetti1,2 Gabriella Pardelli1 Giulia Venturi1
1 Istituto di Linguistica Computazionale “A. Zampolli”, CNR / Pisa
2 Digital and Public Humanities Center – Università Ca’ Foscari / Venezia
{nome.cognome}@ilc.cnr.it
Abstract di andare a identificare termini mono- e polirema-
tici tipici del dominio, spia dell’orientamento te-
English. This paper illustrates methods matico delle attività di ricerca della comunità TEI.
and tools to study the development of re- Oggi lo studio delle comunità sta diventando in-
search topics in the TEI community across fatti centrale per comprendere e interpretare per i
the years. For this purpose, automatic vari domini la direzione scientifica nonché il ge-
terminology extraction technologies were nere, gli stakeholder e le possibili connessioni tra
exploited. comunità. Solo per fare un esempio, dalla lettura
Italiano. Questo contributo illustra meto- degli indici dell’estrazione del jTEI Corpus, la co-
di e strumenti per studiare il cambiamento munità scientifica che ruota intorno a TEI sembra
diacronico degli interessi di ricerca della non voglia usare il sostantivo computer e l’agget-
comunità TEI grazie all’uso di metodi di tivo computational, preferendo usare invece l’ag-
estrazione automatica della terminologia gettivo digital combinato con una miriade di so-
da corpora di dominio.1 stantivi (come ad es. editions, humanities, text,
resources, age, archive, objects, facsimile, library,
tools) in linea con gli usi della più ampia comunità
1 Introduzione delle Digital Humanities, ma non della Linguistica
Computazionale.
Questo contributo nasce dall’intento di studiare
con metodi di distant reading jTEI: il Jour- 2 Background
nal of the Text Encoding Initiative (https:
//journals.openedition.org/jtei), Questo contributo prosegue sulla linea degli stu-
perché è una rivista che rappresenta un ponte inte- di dedicati a riviste e comunità con interessi in-
ressante fra la comunità delle Digital Humanities terdisciplinari di informatica e discipline linguisti-
e la comunità della Linguistica Computazionale. che, storico-filologiche o letterarie. In particolare,
Come indicato da Schreibman (2011), jTEI na- per lo studio dell’evoluzione terminologica nelle
sce nel 2011 dopo tre anni di gestazione con l’in- Scienze Umane e Sociali si veda Tuzzi (2018); per
tento di pubblicare selected papers dei convegni lo studio delle comunità della Linguistica Compu-
annuali (i volumi 1-2, 4, 6, 8-10) e numeri mono- tazionale e delle Digital Humanities si veda Spru-
tematici su argomenti di rilevanza per la comunità gnoli et al. (2019) e Pardelli et al. (2019); per lo
TEI (il volume 3 dedicato alla linguistica e il vo- studio della comunità della Tecnologia della Lin-
lume 5 dedicato alle infrastrutture). Schreibman gua e delle Risorse Linguistiche si vedano Mariani
(2014) dichiara inoltre che il volume 7, il primo et al. (2014), Francopoulo et al. (2016), Soria et
frutto di una open call, tocca “contemporary meta al. (2014), Bartolini et al. (2018) e Del gratta et
concerns within the community”. al. (2018); per lo studio della comunità interna-
Un tassello del settore delle Digital Humanities zionale di Grey Literature si veda Pardelli et al.
viene rilevato in questo studio attraverso l’analisi (2017).
diacronica di termini estratti dagli articoli pubbli- Le soluzioni sin ad oggi messe a punto nell’am-
cati in jTEI dal 2011 al 2019. Lo scopo è quello bito dell’estrazione automatica di terminologia da
1
corpora di dominio sono molteplici e di diversa na-
Copyright c 2019 for this paper by its authors. Use
permitted under Creative Commons License Attribution 4.0 tura. Sebbene differiscano rispetto alle metriche
International (CC BY 4.0). utilizzate, alcuni obiettivi sono condivisi e riguar-
dano principalmente due aspetti legati alla diffi- Volume #Articoli #Parole Lungh. media
1 6 21,480 4,198 parole
coltà di definire strategie per: i) risolvere il pro- 2 8 26,469 3,308 parole
blema legato al fatto che il confine tra terminolo- 3 7 38,327 5,475 parole
gia di dominio e lingua comune non sempre è cosı̀ 4 8 29,431 3,678 parole
5 7 24,921 3,560 parole
netto (Cabré, 1999) e ii) delineare dei criteri co- 6 6 21,681 3,613 parole
muni nella definizione di unità terminologica poli- 7 5 26,528 5,305 parole
rematica (Ramisch, 2015), dal momento che esse 8 16 70,025 4,376 parole
9 6 23,897 3,982 parole
rappresentano più della metà del vocabolario di un 10 6 31,992 5,332 parole
madre-lingua (Jackendoff, 1997). La metodologia TOT. 75 314,751
proposta in questo contributo suggerisce una stra-
tegia per superare entrambi tali aspetti problema- Tabella 1: Composizione del corpus e lunghezza
tici. Come descritto in Bonin et al. (2010), la solu- media degli articoli.
zione proposta si basa su di una originale combi-
nazione di filtri linguistici e statistici che permet-
tono di i) discriminare la terminologia di dominio sionato e il secondo basato sull’indicizzazione del-
dalla lingua comune impiegando metriche statisti- lo stesso corpus tramite parole chiave fornite dagli
che che pesano la rilevanza dei termini estratti al- autori come metadati degli articoli.
l’interno del corpus di acquisizione (corpus di do- Il processo di estrazione terminologica non su-
minio) rispetto ad un corpus di riferimento (corpus pervisionata è stato realizzato grazie a Text-to-
rappresentativo della lingua comune, tipicamente Knowledge (T2K) (Dell’Orletta et al., 2014), piat-
una collezione di articoli di giornale); ii) estrarre taforma di estrazione e organizzazione della co-
unità polirematiche anche nei casi in cui la corri- noscenza da corpora multilingui di dominio basa-
spondente testa lessicale non sia stata precedente- ta su tecnologie di Natural Language Processing
mente individuata come unità monorematica spe- sviluppata da ILC-CNR e ampiamente validata in
cifica del dominio. L’intuizione è di considerar- diversi contesti applicativi2 . T2K, costruito su di
le come elementi ‘unici’ costituiti da sequenze di un’originale combinazione di sistemi a regole e al-
categorie morfosintattiche (vedi Sezione 3.2). Ciò goritmi basati su metodi di apprendimento auto-
permette di suggerire una risposta all’osservazione matico, consente di estrarre da una collezione di
che “non sempre la settorialità di un LC [lessema testi linguisticamente annotati entità rilevanti an-
complesso] è connessa con l’esistenza di accezioni che quando esse non sono presenti in una risor-
speciali dei membri componenti, ma può derivare sa semantico-lessicale di dominio a disposizione.
dal fatto che il LC assume in determinati conte- Ciò permette di far fronte e superare il tradizionale
sti un significato globale speciale” (De Mauro and collo di bottiglia che si incontra in ogni compito di
Voghera, 1996). analisi semantica del testo, quello cioè di rendere
esplicito il collegamento tra la realizzazione lin-
3 Metodo guistica dell’informazione e la rappresentazione
esplicita dell’informazione stessa.
3.1 Descrizione e preparazione del corpus
Allo scopo pertanto di individuare ed estrarre
Gli articoli della rivista sono reperibili online sia elementi informativi nuovi rispetto a quelli pre-
in .pdf che in .xhtml e, per i numeri più recenti, senti nel repertorio delle parole chiave a dispo-
anche in .xml (TEI-XML). Il corpus su cui si basa sizione, il corpus è stato linguisticamente anno-
la nostra indagine parte dall’estrazione del plain tato a diversi livelli di analisi. A partire dal te-
text dall’XHTML, una volta escluso il contenuto sto annotato a livello morfosintattico grazie al
metatestuale e paratestuale. La Tabella 1 mostra la Parts-Of-Speech tagger descritto in Dell’Orletta
composizione del corpus. (2009), sono state individuate le unità terminolo-
giche candidate all’estrazione. La metodologia,
3.2 Estrazione terminologica
descritta in Bonin et al. (2010), consente di in-
Per studiare la variazione terminologica avvenu- dividuare potenziali unità monorematiche e po-
ta nel corso degli anni di pubblicazione della rivi- lirematiche impiegando una combinazione di fil-
sta abbiamo adottato due metodi complementari: tri linguistici e statistici configurabili rispetto agli
il primo basato sull’indicizzazione del corpus tra-
2
mite la terminologia estratta in modo non supervi- http://www.italianlp.it/demo/t2k-text-to-knowledge/
obiettivi di ricerca. Allo scopo della nostra in- tervallo temporale osservato, è stato scelto il
dagine, i filtri linguistici sono stati configurati Mann-Kendall trend test, disponibile nel pacchetto
in modo da individuare all’interno del corpus di trend di R (https://bit.ly/30bWRkd).
acquisizione: i) le potenziali unità monoremati- Considerando il numero esiguo di dati disponibi-
che, sulla base della categoria morfo-sintattica as- li per ciascun termine (o parola chiave) si è scelta
segnata (tipicamente ‘sostantivo’); ii) le poten- quindi una statistica non parametrica sufficiente-
ziali unità polirematiche, sulla base di una serie mente affidabile anche con un numero di misura-
di sequenze di categorie morfo-sintattiche rappre- zioni inferiori a dieci. Per motivi di omogeneità
sentative di diversi tipi di modificazione nomina- dei dati, sono stati presi in considerazione soltanto
le. Ad esempio, da una sequenza come ‘agget- i sette numeri della rivista riguardanti atti di conve-
tivo+sostantivo’ sono individuate polirematiche gni presi in successione cronologica, come si può
quali critical edition, lexical entry, cultural herita- vedere nelle Figure 3 e 4. I dati su cui si è ap-
ge; da una sequenza ‘sostantivo+sostantivo’ sono plicato l’MK Test sono stati preparati in formato
individuati potenziali termini quali TEI standard, tabellare sia per i termini estratti automaticamen-
manuscript material, knowledge representation; te, sia per le parole chiave indicate dagli autori,
per arrivare a sequenze più complesse come ‘so- disponendo su ciascuna riga un termine (o una pa-
stantivo+preposizione+sostantivo’ sulla base del- rola chiave), su ciascuna colonna un numero del-
la quale sono stati individuati termini quali string la rivista e in ciascuna cella la relativa frequenza
of text, editions of letters o sequenze ‘sostan- percentuale. L’MK Test fornisce un valore posi-
tivo+preposizione+aggettivo+sostantivo’ che per- tivo per trend crescenti e un valore negativo per
mette di rintracciare un termine come DTABf for trend decrescenti. Per lo studio dei risultati sono
printed texts, evaluation of digital scholarship stati presi in considerazione soltanto gli esiti con
o ‘aggettivo+aggettivo+sostantivo’ realizzazione p-value<0.05.
linguistica di un termine come historical finan-
cial records. I filtri statistici, applicati alla lista di 4 Risultati
termini candidati all’estrazione, consentono di or-
4.1 Studio dei profili degli autori
dinare tali termini sulla base della loro rilevanza
all’interno del corpus di acquisizione, attribuen- Dall’analisi dei trend terminologici i numeri della
do loro un valore di significatività stabilita sul- rivista non dedicati ad atti dei convegni TEI (3, 5 e
la base del C-NC Value (Frantzi and Ananiadou, 7) sono stati esclusi anche perché i profili degli au-
1999), una delle misure più utilizzate nei sistemi tori stessi hanno carattere di eccezione. Per il mo-
di estrazione terminologica. nitoraggio, gli autori sono stati classificati in base
In linea con gli obiettivi di ricerca del nostro alla loro presenza o meno in riviste o atti di con-
studio, i termini cosı̀ estratti sono stati impiega- vegno di Linguistica Computazionale (con contri-
ti dal modulo di indicizzazione di T2K per rin- buti o con menzioni in bibliografia). Come si può
tracciare all’interno dell’intera collezione di arti- vedere in Fig. 1, il numero dedicato a TEI e lin-
coli del jTEI i singoli contesti nei quali i termini guistica (3) e il numero aperto (7) hanno attrat-
compaiono. Grazie a questo processo è stato pos- to un numero elevato di linguisti computaziona-
sibile condurre l’indagine sulla variazione diacro- li. Sorprendentemente invece il numero dedicato
nica dei termini nelle diverse annate della rivista, alle infrastrutture TEI (5) non ha avuto la stessa
consentendo di studiare l’evoluzione di tendenze attrattiva.
di ricerca e tematiche di studio.
4.2 Dati relativi ai termini estratti
3.3 Trattamento delle parole chiave I risultati discussi in quanto segue fanno riferimen-
Sono state prese in considerazione le parole chiave to ai primi 500 termini circa mono- e poliremati-
che gli autori stessi hanno indicato fra i metada- ci estratti, con una frequenza di occorrenza ≥3.
ti. Sul totale degli articoli raccolti le parole chiave La Tabella 2 riporta un estratto della lista dei pri-
distinte sono 259. mi 25 termini estratti dall’intero corpus, ordinati
per rilevanza statistica e accompagnati dalla fre-
3.4 Mann-Kendall Trend Test quenza assoluta nel corpus. Per ogni termine, T2K
Per esplorare le variazioni significative d’impie- permette di estrarre il lemma e la forma prototi-
go dei termini e delle parole chiave nell’in- pica, cioè la variante linguistica più frequente del
100% Forma prototipica Lemma Frequenza
TEI TEI 2597
text text 1261
75%
element element 934
project project 485
user user 455
profilo
document document 421
percentuale
50% no ling. comp.
ling. comp. manuscript manuscript 396
XML XML 393
Open and forthcoming
issues
annotation annotation 292
25% TEI Guidelines TEI Guidelines 166
edition edition 253
tools tool 249
0%
information information 248
1 2 3 4 5 6 7 8 9 10 11 12 13 content content 224
volumi
language language 221
object object 219
Figura 1: Autori che non hanno pubblicazioni source source 214
in ambito di linguistica computazionale (no lc) e TEI P5 TEI P5 132
TEI Consortium TEI consortium 98
autori che ne hanno (lc) TEI documents TEI document 91
digital editions digital edition 89
TEI XML TEI XML 85
lemma all’interno della collezione documentale di TEI community TEI community 71
partenza. manuscript manuscript 54
description description
Come introdotto nella Sezione 3.2, la fase di digital humanities digital humanity 53
indicizzazione ha permesso di calcolare la distri-
buzione dei termini all’interno dei singoli articoli Tabella 2: I primi 25 termini estratti dall’intero
mettendo in evidenza eventuali differenze nell’u- corpus.
so di uno stesso termine. La Figura 2 mostra ad
esempio come, sul totale di occorrenze di parole
polirematiche estratte che contengono l’aggettivo
digital, ogni volume sia caratterizzato da distribu-
zioni percentuali diverse. Alcuni termini possono
considerarsi poco specifici come digital age, di-
gital form, digital resources, digital tools, digital
projects, digital medium. Non pochi termini risul-
tano essere tuttavia puntuali e peculiari del setto-
re, tra questi sono stati estratti nell’arco tempora-
le digital archive, digital critical editions, digital
document, digital editions, digital Humanities, di-
gital images, digital library, digital objects, digi- Figura 2: Distribuzione percentuale di termini
tal scholarship, digital text. Il grafico permette di polirematici estratti che contengono l’aggettivo
leggere la modulazione diacronica dei termini in- digital.
trodotti dagli autori e riconoscibili nel settore delle
Digital Humanities. Ad esempio, possiamo nota- so di individuare, fra le complessive 259, 32 pa-
re come il termine Digital Humanities è il termine role chiave usate esclusivamente come metadati,
che ha un significato più ampio e accoglie gli altri e quindi che non occorrono mai nel testo, come
termini peculiari. Esso è pertanto sempre presente ad esempio bibliographical standards, collabora-
nei dieci volumi anche se la frequenza di occor- tive workflow, TEI corpora e 227 impiegate invece
renza risulta essere altalenante. Un momento di anche all’interno del testo (ad esempio forums).
prosperità di questo termine risulta circoscritto al
Un’assimetria degna di nota riguarda le sequen-
volume 6 del 2013.
ze aggettivo+sostantivo critical edition e scholar-
ly edition (entrambe parole chiave) in composizio-
4.3 Distribuzione delle parole chiave nel testo
ne con digital. Mentre infatti gli autori hanno in-
Abbiamo verificato la distribuzione delle parole dicato nei metadati degli articoli digital scholarly
chiave nel corpo degli articoli e ciò ci ha permes- edition come parola chiave autonoma, hanno tra-
0.8
lasciato invece digital critical edition, benché sia ●
termine polirematico estratto da T2K e in alcuni ●
0.6 termini
articoli cooccorra digital scholarly edition. ●
●
● research questions
frequenza %
● ● ● case study
0.4
4.4 Risultati dell’MK Test ● open data
●
● literary texts
●
Lo studio delle variazioni d’impiego dei termini 0.2 ● ● ●
●
● ●
●
manuscript material
humanities research
● ● ●
al fine di identificare delle tendenze significative ●
●
●
●
●
●
●
●
ha prodotto i seguenti risultati con trend crescen- 0.0 ● ● ● ● ● ●
te: different types, @corresp attribute, open da- 2008/9
2011
2010
2012
2011
2013
2012
2013
2013
2014/5
2014
2016/7
2015
2016/9
1 2 4 6 8 9 10
ta, TEI Correspondence SIG, research questions, anno del convegno / anno di pubblicazione / volume
work in progress, Berlin-Brandenburg Academy
of Sciences, bibliographic references, TEI model, Figura 3: Trends dei termini
TEI Simple, case study, TEI XML; e i seguen-
12
ti risultati con trend decrescente: author’s no- ●
te, literary texts, manuscript material, TEI users,
9
humanities research, TEI-encoded documents. parole chiave
frequenza %
Se si escludono termini isolati oppure legati a ● sense
6 ● TEI Simple
tecnologie specifiche o a particolari gruppi di ri- ● Unicode
cerca, i dati sembrano far emergere una tendenza ●
● community
3
interessante. Come si può vedere in Fig. 3, au- ●
●
●
●
● ● ●
●
menta l’impiego di termini condivisi con le altre 0
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
scienze con basi sperimentali, fra cui le scienze del 2008/9 2010 2011 2012 2013 2014 2015
2011 2012 2013 2013 2014/5 2016/7 2016/9
linguaggio di cui la Linguistica Computazionale fa 1 2 4 6 8
anno del convegno / anno di pubblicazione / volume
9 10
parte, come research questions, case study e open
data, mentre diminuisce l’impiego di termini spe- Figura 4: Trends delle parole chiave
cifici delle discipline umanistiche, come literary
texts, manuscript material e humanities research.
Infine, lo studio delle variazioni d’impiego sato non era concepibile. Il lavoro svolto rappre-
significative delle parole chiave indicate come senta una prima esperienza di recupero informati-
metadati dagli autori stessi (Fig. 4) mostra vo e di analisi per studiare il trend della comunità
il crescente interesse verso il web semantico scientifica delle Digital Humanities attraverso una
(sense è largamente impiegato in contesti re- rivista ad essa dedicata, il jTEI. Pensiamo altresı̀
lativi alla codifica di ontologie) e verso pro- che sia fondamentale ampliare le nostre fonti con
getti volti a rendere TEI maggiormente usabi- altre tipologie di riferimento: come blog, forum,
le come TEI Simple (https://tei-c.org/ atti di conferenze nazionali e internazionali e ri-
2014/09/10/tei-simple). Scende inve- viste. Nell’analisi uno sguardo sarà rivolto anche
ce drasticamente l’impiego di parole chiave che agli autori per comprendere connessioni e estra-
esprimono tecnologie o concetti ormai assodati e neità tra la linguistica computazionale e le Digital
condivisi, come Unicode e community, parola que- Humanities.
st’ultima comprensibilmente dominante nel primo
numero della rivista.
References
5 Conclusione R. Bartolini, S. Goggi, M. Monachini and G. Par-
delli 2018. The LREC Workshops Map.
Recuperare un campione del trend delle attività di In Proceedings of the Eleventh International
ricerca di un particolare settore scientifico, come Conference on Language Resources and Eva-
luation (LREC 201), ELRA, Paris, pp. 557-
quelle delle Digital Humanities attraverso il jTEI, 562. https://aclweb.org/anthology/
può essere stimolante per comprendere gli ambi- papers/L/L18/L18-1088/
ti indagati dai vari autori nell’arco temporale di
F. Bonin, F. Dell’Orletta, S. Montemagni and G. Ven-
dieci anni. In particolare la disponibilità di cat- turi. 2010. A Contrastive Approach to Multi-word
turare oggi, articoli open access crea opportunità Extraction from Domain-specific Corpora. Procee-
per l’analisi di comunità scientifiche che nel pas- dings of 7th Edition of International Conference on
Language Resources and Evaluation (LREC 2010), GL Communities: A Snapshot. In Eighteenth In-
17-23 May, Valletta, Malta. ternational Conference on Grey Literature: Levera-
ging Diversity in Grey Literature, Washington, No-
M. T. Cabré. 1999. The terminology. Theory, me- vember 28-29, 2016. Edited by Dominic Farace and
thods and applications. John Benjamins Publishing Jerry Frantzen, TransAtlantic-Amsterdam, 18, pp.
Company. 109-113.
R. Del Gratta, S. Goggi, G. Pardelli and N. Cal- T. Pohlert. 2018. Non-Parametric Trend Tests and
zolari 2018. LREMap, a Song of Resour- Change-Point Detection, CRAN. https://bit.
ces and Evaluation. In Proceedings of the Ele- ly/30bWRkd,
venth International Conference on Language Re-
sources and Evaluation (LREC 2018). ELRA, Paris, C. Ramisch. 2015. Multiword expressions acquisi-
pp. 1275-1281. https://www.aclweb.org/ tion: A generic and open framework. New York:
anthology/L18-1203 Springer.
F. Dell’Orletta. 2009. Ensemble system for Part-of- S. Schreibman. 2011. Editorial Introduction to the Fir-
Speech tagging. Proceedings of Evalita’09, Evalua- st Issue. Journal of the Text Encoding Initiative,
tion of NLP and Speech Tools for Italian , Reggio 1. http://journals.openedition.org/
Emilia, December. jtei/229
F. Dell’Orletta, G. Venturi, A. Cimino and S. Montema- S. Schreibman. 2014. Editorial Introduction to Issue 7
gni. 2014. T2K: a System for Automatically Extrac- of the Journal of the Text Encoding Initiative. Jour-
ting and Organizing Knowledge from Texts. Pro- nal of the Text Encoding Initiative, 7. http://
ceedings of 9th Edition of International Conferen- journals.openedition.org/jtei/1046
ce on Language Resources and Evaluation (LREC
C. Soria, N. Calzolari, M. Monachini, V. Quo-
2014), 26-31 May, Reykjavik, Iceland.
chi, N. Bel, K. Choukri, M. Mariani, J. Odijk
T. De Mauro and M. Voghera. 1996. Scala mobile. and S. Piperidis 2014. The language resour-
Un punto di vista sui lessemi complessi. P. Benincà ce Strategic Agenda: the FLaReNet synthesis of
et al. (eds.), Italiano e dialetti nel tempo. Saggi di community recommendations. Language Resour-
grammatica per Giulio C. Lepschy, Roma, Bulzoni, ces and Evaluation, December 2014, 48 (4), pp.
pp. 99-131. 753–775. https://link.springer.com/
article/10.1007/s10579-014-9279-y
G. Francopoulo, J. Mariani and P. Paroubek 2016.
R. Sprugnoli, G. Pardelli, F. Boschetti and R. Del
A Study of Reuse and Plagiarism in LREC papers.
Gratta. 2019. Un’Analisi Multidimensiona-
In Proceedings of the Tenth International Conferen-
le della Ricerca Italiana nel Campo delle Digi-
ce on Language Resources and Evaluation (LREC
tal Humanities e della Linguistica Computazio-
2016), ELRA, Paris, pp. 1890-1897. https://
nale Umanistica Digitale, ISSN 2532-8816, 5,
www.aclweb.org/anthology/L16-1298
pp. 59-89. https://umanisticadigitale.
K. Frantzi and S. Ananiadou. 1999. The C-value / unibo.it/article/view/8581
NC Value domain independent method for multi- A. Tuzzi. 2018. Tracing the Life Cycle of Ideas in
word term extraction. Journal of Natural Language the Humanities and Social Sciences. New York:
Processing, 6(3):145-179. Springer.
R. Jackendoff. 1997. Twistin’ the night away.
Language, 73, pp. 534-559.
J. Mariani, P. Paroubek, G. Francopoulo and O.
Hamon 2014. Rediscovering 15 Years of Di-
scoveries in Language Resources and Evaluation:
The LREC Anthology Analysis. In Procee-
dings of the Ninth International Conference on
Language Resources and Evaluation (LREC-
2014), ELRA, Paris, pp. 4632-4669. http:
//www.lrec-conf.org/proceedings/
lrec2014/pdf/1228_Paper.pdf
G. Pardelli, S. Goggi and F. Boschetti 2019. Strolling
around the dawn of Digital Humanities. Book of Ab-
stract for the 8th Annual Conference AIUCD 2019,
pp. 261-264.
G. Pardelli, S. Goggi, R. Bartolini, I. Russo and M.
Monachini 2017. A Geographical Visualization of