=Paper= {{Paper |id=Vol-2481/paper7 |storemode=property |title=Nove Anni di jTEI: What's New? (Nine Years of jTEI: What's New?) |pdfUrl=https://ceur-ws.org/Vol-2481/paper7.pdf |volume=Vol-2481 |authors=Federico Boschetti,Gabriella Pardelli,Giulia Venturi |dblpUrl=https://dblp.org/rec/conf/clic-it/BoschettiPV19 }} ==Nove Anni di jTEI: What's New? (Nine Years of jTEI: What's New?)== https://ceur-ws.org/Vol-2481/paper7.pdf
                                 Nove Anni di jTEI: What’s New?

         Federico Boschetti1,2            Gabriella Pardelli1           Giulia Venturi1
                1 Istituto di Linguistica Computazionale “A. Zampolli”, CNR / Pisa
             2 Digital and Public Humanities Center – Università Ca’ Foscari / Venezia
                                 {nome.cognome}@ilc.cnr.it



                        Abstract                           di andare a identificare termini mono- e polirema-
                                                           tici tipici del dominio, spia dell’orientamento te-
        English. This paper illustrates methods            matico delle attività di ricerca della comunità TEI.
        and tools to study the development of re-          Oggi lo studio delle comunità sta diventando in-
        search topics in the TEI community across          fatti centrale per comprendere e interpretare per i
        the years. For this purpose, automatic             vari domini la direzione scientifica nonché il ge-
        terminology extraction technologies were           nere, gli stakeholder e le possibili connessioni tra
        exploited.                                         comunità. Solo per fare un esempio, dalla lettura
        Italiano. Questo contributo illustra meto-         degli indici dell’estrazione del jTEI Corpus, la co-
        di e strumenti per studiare il cambiamento         munità scientifica che ruota intorno a TEI sembra
        diacronico degli interessi di ricerca della        non voglia usare il sostantivo computer e l’agget-
        comunità TEI grazie all’uso di metodi di          tivo computational, preferendo usare invece l’ag-
        estrazione automatica della terminologia           gettivo digital combinato con una miriade di so-
        da corpora di dominio.1                            stantivi (come ad es. editions, humanities, text,
                                                           resources, age, archive, objects, facsimile, library,
                                                           tools) in linea con gli usi della più ampia comunità
1       Introduzione                                       delle Digital Humanities, ma non della Linguistica
                                                           Computazionale.
Questo contributo nasce dall’intento di studiare
con metodi di distant reading jTEI: il Jour-               2   Background
nal of the Text Encoding Initiative (https:
//journals.openedition.org/jtei),                          Questo contributo prosegue sulla linea degli stu-
perché è una rivista che rappresenta un ponte inte-      di dedicati a riviste e comunità con interessi in-
ressante fra la comunità delle Digital Humanities         terdisciplinari di informatica e discipline linguisti-
e la comunità della Linguistica Computazionale.           che, storico-filologiche o letterarie. In particolare,
   Come indicato da Schreibman (2011), jTEI na-            per lo studio dell’evoluzione terminologica nelle
sce nel 2011 dopo tre anni di gestazione con l’in-         Scienze Umane e Sociali si veda Tuzzi (2018); per
tento di pubblicare selected papers dei convegni           lo studio delle comunità della Linguistica Compu-
annuali (i volumi 1-2, 4, 6, 8-10) e numeri mono-          tazionale e delle Digital Humanities si veda Spru-
tematici su argomenti di rilevanza per la comunità        gnoli et al. (2019) e Pardelli et al. (2019); per lo
TEI (il volume 3 dedicato alla linguistica e il vo-        studio della comunità della Tecnologia della Lin-
lume 5 dedicato alle infrastrutture). Schreibman           gua e delle Risorse Linguistiche si vedano Mariani
(2014) dichiara inoltre che il volume 7, il primo          et al. (2014), Francopoulo et al. (2016), Soria et
frutto di una open call, tocca “contemporary meta          al. (2014), Bartolini et al. (2018) e Del gratta et
concerns within the community”.                            al. (2018); per lo studio della comunità interna-
   Un tassello del settore delle Digital Humanities        zionale di Grey Literature si veda Pardelli et al.
viene rilevato in questo studio attraverso l’analisi       (2017).
diacronica di termini estratti dagli articoli pubbli-         Le soluzioni sin ad oggi messe a punto nell’am-
cati in jTEI dal 2011 al 2019. Lo scopo è quello          bito dell’estrazione automatica di terminologia da
    1
                                                           corpora di dominio sono molteplici e di diversa na-
     Copyright c 2019 for this paper by its authors. Use
permitted under Creative Commons License Attribution 4.0   tura. Sebbene differiscano rispetto alle metriche
International (CC BY 4.0).                                 utilizzate, alcuni obiettivi sono condivisi e riguar-
dano principalmente due aspetti legati alla diffi-              Volume      #Articoli   #Parole     Lungh. media
                                                                1                  6     21,480       4,198 parole
coltà di definire strategie per: i) risolvere il pro-          2                  8     26,469       3,308 parole
blema legato al fatto che il confine tra terminolo-             3                  7     38,327       5,475 parole
gia di dominio e lingua comune non sempre è cosı̀              4                  8     29,431       3,678 parole
                                                                5                  7     24,921       3,560 parole
netto (Cabré, 1999) e ii) delineare dei criteri co-            6                  6     21,681       3,613 parole
muni nella definizione di unità terminologica poli-            7                  5     26,528       5,305 parole
rematica (Ramisch, 2015), dal momento che esse                  8                 16     70,025       4,376 parole
                                                                9                  6     23,897       3,982 parole
rappresentano più della metà del vocabolario di un            10                 6     31,992       5,332 parole
madre-lingua (Jackendoff, 1997). La metodologia                 TOT.              75    314,751
proposta in questo contributo suggerisce una stra-
tegia per superare entrambi tali aspetti problema-       Tabella 1: Composizione del corpus e lunghezza
tici. Come descritto in Bonin et al. (2010), la solu-    media degli articoli.
zione proposta si basa su di una originale combi-
nazione di filtri linguistici e statistici che permet-
tono di i) discriminare la terminologia di dominio       sionato e il secondo basato sull’indicizzazione del-
dalla lingua comune impiegando metriche statisti-        lo stesso corpus tramite parole chiave fornite dagli
che che pesano la rilevanza dei termini estratti al-     autori come metadati degli articoli.
l’interno del corpus di acquisizione (corpus di do-         Il processo di estrazione terminologica non su-
minio) rispetto ad un corpus di riferimento (corpus      pervisionata è stato realizzato grazie a Text-to-
rappresentativo della lingua comune, tipicamente         Knowledge (T2K) (Dell’Orletta et al., 2014), piat-
una collezione di articoli di giornale); ii) estrarre    taforma di estrazione e organizzazione della co-
unità polirematiche anche nei casi in cui la corri-     noscenza da corpora multilingui di dominio basa-
spondente testa lessicale non sia stata precedente-      ta su tecnologie di Natural Language Processing
mente individuata come unità monorematica spe-          sviluppata da ILC-CNR e ampiamente validata in
cifica del dominio. L’intuizione è di considerar-       diversi contesti applicativi2 . T2K, costruito su di
le come elementi ‘unici’ costituiti da sequenze di       un’originale combinazione di sistemi a regole e al-
categorie morfosintattiche (vedi Sezione 3.2). Ciò      goritmi basati su metodi di apprendimento auto-
permette di suggerire una risposta all’osservazione      matico, consente di estrarre da una collezione di
che “non sempre la settorialità di un LC [lessema       testi linguisticamente annotati entità rilevanti an-
complesso] è connessa con l’esistenza di accezioni      che quando esse non sono presenti in una risor-
speciali dei membri componenti, ma può derivare         sa semantico-lessicale di dominio a disposizione.
dal fatto che il LC assume in determinati conte-         Ciò permette di far fronte e superare il tradizionale
sti un significato globale speciale” (De Mauro and       collo di bottiglia che si incontra in ogni compito di
Voghera, 1996).                                          analisi semantica del testo, quello cioè di rendere
                                                         esplicito il collegamento tra la realizzazione lin-
3     Metodo                                             guistica dell’informazione e la rappresentazione
                                                         esplicita dell’informazione stessa.
3.1    Descrizione e preparazione del corpus
                                                            Allo scopo pertanto di individuare ed estrarre
Gli articoli della rivista sono reperibili online sia    elementi informativi nuovi rispetto a quelli pre-
in .pdf che in .xhtml e, per i numeri più recenti,      senti nel repertorio delle parole chiave a dispo-
anche in .xml (TEI-XML). Il corpus su cui si basa        sizione, il corpus è stato linguisticamente anno-
la nostra indagine parte dall’estrazione del plain       tato a diversi livelli di analisi. A partire dal te-
text dall’XHTML, una volta escluso il contenuto          sto annotato a livello morfosintattico grazie al
metatestuale e paratestuale. La Tabella 1 mostra la      Parts-Of-Speech tagger descritto in Dell’Orletta
composizione del corpus.                                 (2009), sono state individuate le unità terminolo-
                                                         giche candidate all’estrazione. La metodologia,
3.2    Estrazione terminologica
                                                         descritta in Bonin et al. (2010), consente di in-
Per studiare la variazione terminologica avvenu-         dividuare potenziali unità monorematiche e po-
ta nel corso degli anni di pubblicazione della rivi-     lirematiche impiegando una combinazione di fil-
sta abbiamo adottato due metodi complementari:           tri linguistici e statistici configurabili rispetto agli
il primo basato sull’indicizzazione del corpus tra-
                                                            2
mite la terminologia estratta in modo non supervi-              http://www.italianlp.it/demo/t2k-text-to-knowledge/
obiettivi di ricerca. Allo scopo della nostra in-            tervallo temporale osservato, è stato scelto il
dagine, i filtri linguistici sono stati configurati          Mann-Kendall trend test, disponibile nel pacchetto
in modo da individuare all’interno del corpus di             trend di R (https://bit.ly/30bWRkd).
acquisizione: i) le potenziali unità monoremati-            Considerando il numero esiguo di dati disponibi-
che, sulla base della categoria morfo-sintattica as-         li per ciascun termine (o parola chiave) si è scelta
segnata (tipicamente ‘sostantivo’); ii) le poten-            quindi una statistica non parametrica sufficiente-
ziali unità polirematiche, sulla base di una serie          mente affidabile anche con un numero di misura-
di sequenze di categorie morfo-sintattiche rappre-           zioni inferiori a dieci. Per motivi di omogeneità
sentative di diversi tipi di modificazione nomina-           dei dati, sono stati presi in considerazione soltanto
le. Ad esempio, da una sequenza come ‘agget-                 i sette numeri della rivista riguardanti atti di conve-
tivo+sostantivo’ sono individuate polirematiche              gni presi in successione cronologica, come si può
quali critical edition, lexical entry, cultural herita-      vedere nelle Figure 3 e 4. I dati su cui si è ap-
ge; da una sequenza ‘sostantivo+sostantivo’ sono             plicato l’MK Test sono stati preparati in formato
individuati potenziali termini quali TEI standard,           tabellare sia per i termini estratti automaticamen-
manuscript material, knowledge representation;               te, sia per le parole chiave indicate dagli autori,
per arrivare a sequenze più complesse come ‘so-             disponendo su ciascuna riga un termine (o una pa-
stantivo+preposizione+sostantivo’ sulla base del-            rola chiave), su ciascuna colonna un numero del-
la quale sono stati individuati termini quali string         la rivista e in ciascuna cella la relativa frequenza
of text, editions of letters o sequenze ‘sostan-             percentuale. L’MK Test fornisce un valore posi-
tivo+preposizione+aggettivo+sostantivo’ che per-             tivo per trend crescenti e un valore negativo per
mette di rintracciare un termine come DTABf for              trend decrescenti. Per lo studio dei risultati sono
printed texts, evaluation of digital scholarship             stati presi in considerazione soltanto gli esiti con
o ‘aggettivo+aggettivo+sostantivo’ realizzazione             p-value<0.05.
linguistica di un termine come historical finan-
cial records. I filtri statistici, applicati alla lista di   4     Risultati
termini candidati all’estrazione, consentono di or-
                                                             4.1    Studio dei profili degli autori
dinare tali termini sulla base della loro rilevanza
all’interno del corpus di acquisizione, attribuen-           Dall’analisi dei trend terminologici i numeri della
do loro un valore di significatività stabilita sul-         rivista non dedicati ad atti dei convegni TEI (3, 5 e
la base del C-NC Value (Frantzi and Ananiadou,               7) sono stati esclusi anche perché i profili degli au-
1999), una delle misure più utilizzate nei sistemi          tori stessi hanno carattere di eccezione. Per il mo-
di estrazione terminologica.                                 nitoraggio, gli autori sono stati classificati in base
   In linea con gli obiettivi di ricerca del nostro          alla loro presenza o meno in riviste o atti di con-
studio, i termini cosı̀ estratti sono stati impiega-         vegno di Linguistica Computazionale (con contri-
ti dal modulo di indicizzazione di T2K per rin-              buti o con menzioni in bibliografia). Come si può
tracciare all’interno dell’intera collezione di arti-        vedere in Fig. 1, il numero dedicato a TEI e lin-
coli del jTEI i singoli contesti nei quali i termini         guistica (3) e il numero aperto (7) hanno attrat-
compaiono. Grazie a questo processo è stato pos-            to un numero elevato di linguisti computaziona-
sibile condurre l’indagine sulla variazione diacro-          li. Sorprendentemente invece il numero dedicato
nica dei termini nelle diverse annate della rivista,         alle infrastrutture TEI (5) non ha avuto la stessa
consentendo di studiare l’evoluzione di tendenze             attrattiva.
di ricerca e tematiche di studio.
                                                             4.2    Dati relativi ai termini estratti
3.3   Trattamento delle parole chiave                        I risultati discussi in quanto segue fanno riferimen-
Sono state prese in considerazione le parole chiave          to ai primi 500 termini circa mono- e poliremati-
che gli autori stessi hanno indicato fra i metada-           ci estratti, con una frequenza di occorrenza ≥3.
ti. Sul totale degli articoli raccolti le parole chiave      La Tabella 2 riporta un estratto della lista dei pri-
distinte sono 259.                                           mi 25 termini estratti dall’intero corpus, ordinati
                                                             per rilevanza statistica e accompagnati dalla fre-
3.4   Mann-Kendall Trend Test                                quenza assoluta nel corpus. Per ogni termine, T2K
Per esplorare le variazioni significative d’impie-           permette di estrarre il lemma e la forma prototi-
go dei termini e delle parole chiave nell’in-                pica, cioè la variante linguistica più frequente del
              100%                                                                                                Forma prototipica     Lemma              Frequenza
                                                                                                                  TEI                   TEI                     2597
                                                                                                                  text                  text                    1261
              75%
                                                                                                                  element               element                  934
                                                                                                                  project               project                  485
                                                                                                                  user                  user                     455
                                                                                            profilo
                                                                                                                  document              document                 421
percentuale




              50%                                                                               no ling. comp.
                                                                                                ling. comp.       manuscript            manuscript               396
                                                                                                                  XML                   XML                      393
                                                                     Open and forthcoming
                                                                            issues
                                                                                                                  annotation            annotation               292
              25%                                                                                                 TEI Guidelines        TEI Guidelines           166
                                                                                                                  edition               edition                  253
                                                                                                                  tools                 tool                     249
               0%
                                                                                                                  information           information              248
                     1     2   3   4   5   6     7      8   9   10   11       12       13                         content               content                  224
                                               volumi
                                                                                                                  language              language                 221
                                                                                                                  object                object                   219
Figura 1: Autori che non hanno pubblicazioni                                                                      source                source                   214
in ambito di linguistica computazionale (no lc) e                                                                 TEI P5                TEI P5                   132
                                                                                                                  TEI Consortium        TEI consortium            98
autori che ne hanno (lc)                                                                                          TEI documents         TEI document              91
                                                                                                                  digital editions      digital edition           89
                                                                                                                  TEI XML               TEI XML                   85
lemma all’interno della collezione documentale di                                                                 TEI community         TEI community             71
partenza.                                                                                                         manuscript            manuscript                54
                                                                                                                  description           description
   Come introdotto nella Sezione 3.2, la fase di                                                                  digital humanities    digital humanity          53
indicizzazione ha permesso di calcolare la distri-
buzione dei termini all’interno dei singoli articoli                                                             Tabella 2: I primi 25 termini estratti dall’intero
mettendo in evidenza eventuali differenze nell’u-                                                                corpus.
so di uno stesso termine. La Figura 2 mostra ad
esempio come, sul totale di occorrenze di parole
polirematiche estratte che contengono l’aggettivo
digital, ogni volume sia caratterizzato da distribu-
zioni percentuali diverse. Alcuni termini possono
considerarsi poco specifici come digital age, di-
gital form, digital resources, digital tools, digital
projects, digital medium. Non pochi termini risul-
tano essere tuttavia puntuali e peculiari del setto-
re, tra questi sono stati estratti nell’arco tempora-
le digital archive, digital critical editions, digital
document, digital editions, digital Humanities, di-
gital images, digital library, digital objects, digi-                                                            Figura 2: Distribuzione percentuale di termini
tal scholarship, digital text. Il grafico permette di                                                            polirematici estratti che contengono l’aggettivo
leggere la modulazione diacronica dei termini in-                                                                digital.
trodotti dagli autori e riconoscibili nel settore delle
Digital Humanities. Ad esempio, possiamo nota-                                                                   so di individuare, fra le complessive 259, 32 pa-
re come il termine Digital Humanities è il termine                                                              role chiave usate esclusivamente come metadati,
che ha un significato più ampio e accoglie gli altri                                                            e quindi che non occorrono mai nel testo, come
termini peculiari. Esso è pertanto sempre presente                                                              ad esempio bibliographical standards, collabora-
nei dieci volumi anche se la frequenza di occor-                                                                 tive workflow, TEI corpora e 227 impiegate invece
renza risulta essere altalenante. Un momento di                                                                  anche all’interno del testo (ad esempio forums).
prosperità di questo termine risulta circoscritto al
                                                                                                                    Un’assimetria degna di nota riguarda le sequen-
volume 6 del 2013.
                                                                                                                 ze aggettivo+sostantivo critical edition e scholar-
                                                                                                                 ly edition (entrambe parole chiave) in composizio-
4.3                      Distribuzione delle parole chiave nel testo
                                                                                                                 ne con digital. Mentre infatti gli autori hanno in-
Abbiamo verificato la distribuzione delle parole                                                                 dicato nei metadati degli articoli digital scholarly
chiave nel corpo degli articoli e ciò ci ha permes-                                                             edition come parola chiave autonoma, hanno tra-
                                                                      0.8
lasciato invece digital critical edition, benché sia                                                                            ●




termine polirematico estratto da T2K e in alcuni                                                                                            ●
                                                                      0.6                                                                              termini
articoli cooccorra digital scholarly edition.                                           ●
                                                                                                                                            ●
                                                                                                                                                        ●   research questions




                                                        frequenza %
                                                                              ●                  ●                                                      ●   case study
                                                                      0.4
4.4    Risultati dell’MK Test                                                                                                                           ●   open data

                                                                                                                                            ●
                                                                                                                                                        ●   literary texts
                                                                                                                                 ●

Lo studio delle variazioni d’impiego dei termini                      0.2     ●                  ●        ●
                                                                                                                      ●
                                                                                                                                 ●                      ●


                                                                                                                                                        ●
                                                                                                                                                            manuscript material
                                                                                                                                                            humanities research
                                                                                        ●        ●        ●

al fine di identificare delle tendenze significative                          ●
                                                                                                          ●
                                                                                                          ●
                                                                                                                      ●

                                                                                                                      ●
                                                                                                                      ●
                                                                                                                      ●
                                                                                                                      ●

ha prodotto i seguenti risultati con trend crescen-                   0.0     ●         ●        ●        ●                      ●          ●




te: different types, @corresp attribute, open da-                           2008/9
                                                                             2011
                                                                                      2010
                                                                                      2012
                                                                                                2011
                                                                                                2013
                                                                                                         2012
                                                                                                         2013
                                                                                                                     2013
                                                                                                                    2014/5
                                                                                                                              2014
                                                                                                                             2016/7
                                                                                                                                         2015
                                                                                                                                        2016/9
                                                                              1         2         4        6           8       9          10
ta, TEI Correspondence SIG, research questions,                             anno del convegno / anno di pubblicazione / volume

work in progress, Berlin-Brandenburg Academy
of Sciences, bibliographic references, TEI model,                                      Figura 3: Trends dei termini
TEI Simple, case study, TEI XML; e i seguen-
                                                                      12
ti risultati con trend decrescente: author’s no-                              ●




te, literary texts, manuscript material, TEI users,
                                                                       9
humanities research, TEI-encoded documents.                                                                                                                      parole chiave




                                                        frequenza %
   Se si escludono termini isolati oppure legati a                                                                                                                ●   sense
                                                                       6                                                                                          ●   TEI Simple
tecnologie specifiche o a particolari gruppi di ri-                                                                                                               ●   Unicode

cerca, i dati sembrano far emergere una tendenza                                            ●
                                                                                                                                                                  ●   community
                                                                       3
interessante. Come si può vedere in Fig. 3, au-                                                     ●


                                                                                                     ●
                                                                                                                ●

                                                                                                                                        ●
                                                                                                                             ●          ●          ●
                                                                                                                                        ●

menta l’impiego di termini condivisi con le altre                      0
                                                                              ●
                                                                              ●
                                                                              ●
                                                                                            ●
                                                                                            ●
                                                                                            ●
                                                                                                     ●
                                                                                                     ●
                                                                                                                ●
                                                                                                                ●
                                                                                                                             ●
                                                                                                                             ●          ●
                                                                                                                                                   ●
                                                                                                                                                   ●
                                                                                                                                                   ●


scienze con basi sperimentali, fra cui le scienze del                       2008/9     2010       2011        2012         2013        2014       2015
                                                                             2011      2012       2013        2013        2014/5      2016/7     2016/9
linguaggio di cui la Linguistica Computazionale fa                            1          2          4          6             8
                                                                                  anno del convegno / anno di pubblicazione / volume
                                                                                                                                         9         10


parte, come research questions, case study e open
data, mentre diminuisce l’impiego di termini spe-                             Figura 4: Trends delle parole chiave
cifici delle discipline umanistiche, come literary
texts, manuscript material e humanities research.
   Infine, lo studio delle variazioni d’impiego         sato non era concepibile. Il lavoro svolto rappre-
significative delle parole chiave indicate come         senta una prima esperienza di recupero informati-
metadati dagli autori stessi (Fig. 4) mostra            vo e di analisi per studiare il trend della comunità
il crescente interesse verso il web semantico           scientifica delle Digital Humanities attraverso una
(sense è largamente impiegato in contesti re-          rivista ad essa dedicata, il jTEI. Pensiamo altresı̀
lativi alla codifica di ontologie) e verso pro-         che sia fondamentale ampliare le nostre fonti con
getti volti a rendere TEI maggiormente usabi-           altre tipologie di riferimento: come blog, forum,
le come TEI Simple (https://tei-c.org/                  atti di conferenze nazionali e internazionali e ri-
2014/09/10/tei-simple). Scende inve-                    viste. Nell’analisi uno sguardo sarà rivolto anche
ce drasticamente l’impiego di parole chiave che         agli autori per comprendere connessioni e estra-
esprimono tecnologie o concetti ormai assodati e        neità tra la linguistica computazionale e le Digital
condivisi, come Unicode e community, parola que-        Humanities.
st’ultima comprensibilmente dominante nel primo
numero della rivista.
                                                        References
5     Conclusione                                       R. Bartolini, S. Goggi, M. Monachini and G. Par-
                                                          delli     2018.   The LREC Workshops Map.
Recuperare un campione del trend delle attività di       In Proceedings of the Eleventh International
ricerca di un particolare settore scientifico, come       Conference on Language Resources and Eva-
                                                          luation (LREC 201), ELRA, Paris, pp. 557-
quelle delle Digital Humanities attraverso il jTEI,       562.     https://aclweb.org/anthology/
può essere stimolante per comprendere gli ambi-          papers/L/L18/L18-1088/
ti indagati dai vari autori nell’arco temporale di
                                                        F. Bonin, F. Dell’Orletta, S. Montemagni and G. Ven-
dieci anni. In particolare la disponibilità di cat-       turi. 2010. A Contrastive Approach to Multi-word
turare oggi, articoli open access crea opportunità        Extraction from Domain-specific Corpora. Procee-
per l’analisi di comunità scientifiche che nel pas-       dings of 7th Edition of International Conference on
  Language Resources and Evaluation (LREC 2010),              GL Communities: A Snapshot. In Eighteenth In-
  17-23 May, Valletta, Malta.                                 ternational Conference on Grey Literature: Levera-
                                                              ging Diversity in Grey Literature, Washington, No-
M. T. Cabré. 1999. The terminology. Theory, me-              vember 28-29, 2016. Edited by Dominic Farace and
  thods and applications. John Benjamins Publishing           Jerry Frantzen, TransAtlantic-Amsterdam, 18, pp.
  Company.                                                    109-113.
R. Del Gratta, S. Goggi, G. Pardelli and N. Cal-            T. Pohlert. 2018. Non-Parametric Trend Tests and
  zolari   2018.    LREMap, a Song of Resour-                  Change-Point Detection, CRAN. https://bit.
  ces and Evaluation. In Proceedings of the Ele-               ly/30bWRkd,
  venth International Conference on Language Re-
  sources and Evaluation (LREC 2018). ELRA, Paris,          C. Ramisch. 2015. Multiword expressions acquisi-
  pp. 1275-1281. https://www.aclweb.org/                      tion: A generic and open framework. New York:
  anthology/L18-1203                                          Springer.

F. Dell’Orletta. 2009. Ensemble system for Part-of-         S. Schreibman. 2011. Editorial Introduction to the Fir-
   Speech tagging. Proceedings of Evalita’09, Evalua-          st Issue. Journal of the Text Encoding Initiative,
   tion of NLP and Speech Tools for Italian , Reggio           1. http://journals.openedition.org/
   Emilia, December.                                           jtei/229

F. Dell’Orletta, G. Venturi, A. Cimino and S. Montema-      S. Schreibman. 2014. Editorial Introduction to Issue 7
   gni. 2014. T2K: a System for Automatically Extrac-          of the Journal of the Text Encoding Initiative. Jour-
   ting and Organizing Knowledge from Texts. Pro-              nal of the Text Encoding Initiative, 7. http://
   ceedings of 9th Edition of International Conferen-          journals.openedition.org/jtei/1046
   ce on Language Resources and Evaluation (LREC
                                                            C. Soria, N. Calzolari, M. Monachini, V. Quo-
   2014), 26-31 May, Reykjavik, Iceland.
                                                              chi, N. Bel, K. Choukri, M. Mariani, J. Odijk
T. De Mauro and M. Voghera. 1996. Scala mobile.               and S. Piperidis 2014. The language resour-
   Un punto di vista sui lessemi complessi. P. Benincà       ce Strategic Agenda: the FLaReNet synthesis of
   et al. (eds.), Italiano e dialetti nel tempo. Saggi di     community recommendations. Language Resour-
   grammatica per Giulio C. Lepschy, Roma, Bulzoni,           ces and Evaluation, December 2014, 48 (4), pp.
   pp. 99-131.                                                753–775. https://link.springer.com/
                                                              article/10.1007/s10579-014-9279-y
G. Francopoulo, J. Mariani and P. Paroubek 2016.
                                                            R. Sprugnoli, G. Pardelli, F. Boschetti and R. Del
  A Study of Reuse and Plagiarism in LREC papers.
                                                              Gratta.    2019.    Un’Analisi Multidimensiona-
  In Proceedings of the Tenth International Conferen-
                                                              le della Ricerca Italiana nel Campo delle Digi-
  ce on Language Resources and Evaluation (LREC
                                                              tal Humanities e della Linguistica Computazio-
  2016), ELRA, Paris, pp. 1890-1897. https://
                                                              nale Umanistica Digitale, ISSN 2532-8816, 5,
  www.aclweb.org/anthology/L16-1298
                                                              pp. 59-89. https://umanisticadigitale.
K. Frantzi and S. Ananiadou. 1999. The C-value /              unibo.it/article/view/8581
  NC Value domain independent method for multi-             A. Tuzzi. 2018. Tracing the Life Cycle of Ideas in
  word term extraction. Journal of Natural Language           the Humanities and Social Sciences. New York:
  Processing, 6(3):145-179.                                   Springer.
R. Jackendoff. 1997. Twistin’ the night away.
  Language, 73, pp. 534-559.

J. Mariani, P. Paroubek, G. Francopoulo and O.
   Hamon 2014. Rediscovering 15 Years of Di-
   scoveries in Language Resources and Evaluation:
   The LREC Anthology Analysis.        In Procee-
   dings of the Ninth International Conference on
   Language Resources and Evaluation (LREC-
   2014), ELRA, Paris, pp. 4632-4669.      http:
   //www.lrec-conf.org/proceedings/
   lrec2014/pdf/1228_Paper.pdf

G. Pardelli, S. Goggi and F. Boschetti 2019. Strolling
  around the dawn of Digital Humanities. Book of Ab-
  stract for the 8th Annual Conference AIUCD 2019,
  pp. 261-264.

G. Pardelli, S. Goggi, R. Bartolini, I. Russo and M.
  Monachini 2017. A Geographical Visualization of