<!DOCTYPE article PUBLIC "-//NLM//DTD JATS (Z39.96) Journal Archiving and Interchange DTD v1.0 20120330//EN" "JATS-archivearticle1.dtd">
<article xmlns:xlink="http://www.w3.org/1999/xlink">
  <front>
    <journal-meta />
    <article-meta>
      <title-group>
        <article-title>Nove Anni di jTEI: What's New?</article-title>
      </title-group>
      <contrib-group>
        <contrib contrib-type="author">
          <string-name>Federico Boschetti</string-name>
          <xref ref-type="aff" rid="aff0">0</xref>
        </contrib>
        <contrib contrib-type="author">
          <string-name>Gabriella Pardelli</string-name>
        </contrib>
        <contrib contrib-type="author">
          <string-name>Giulia Venturi</string-name>
        </contrib>
        <contrib contrib-type="author">
          <string-name>CNR / Pisa</string-name>
          <email>fnome.cognomeg@ilc.cnr.it</email>
        </contrib>
        <aff id="aff0">
          <label>0</label>
          <institution>Digital and Public Humanities Center - Universita` Ca' Foscari / Venezia</institution>
        </aff>
      </contrib-group>
      <abstract>
        <p>English. This paper illustrates methods and tools to study the development of research topics in the TEI community across the years. For this purpose, automatic terminology extraction technologies were exploited.</p>
      </abstract>
    </article-meta>
  </front>
  <body>
    <sec id="sec-1">
      <title>-</title>
      <p>Questo contributo nasce dall’intento di studiare
con metodi di distant reading jTEI: il
Journal of the Text Encoding Initiative (https:
//journals.openedition.org/jtei),
perche´ e` una rivista che rappresenta un ponte
interessante fra la comunita` delle Digital Humanities
e la comunita` della Linguistica Computazionale.</p>
      <p>
        Come indicato da
        <xref ref-type="bibr" rid="ref20">Schreibman (2011</xref>
        ), jTEI
na
        <xref ref-type="bibr" rid="ref20">sce nel 2011</xref>
        dopo tre anni di gestazione con
l’intento di pubblicare selected papers dei convegni
annuali (i volumi 1-2, 4, 6, 8-10) e numeri
monotematici su argomenti di rilevanza per la comunita`
TEI (il volume 3 dedicato alla linguistica e il
volume 5 dedicato alle infra
        <xref ref-type="bibr" rid="ref21">strutture). Schreibman
(2014</xref>
        ) dichiara inoltre che il volume 7, il primo
frutto di una open call, tocca “contemporary meta
concerns within the community”.
      </p>
      <p>
        Un tassello del settore delle Digital Humanities
viene rilevato in questo studio attraverso l’analisi
diacronica di termini estratti dagli articoli
pubblicati in jTEI dal 2011 al 2019. Lo scopo e` quello
1Copyri
        <xref ref-type="bibr" rid="ref14">ght c 2019</xref>
        for this paper by its authors. Use
permitted under Creative Commons License Attribution 4.0
International (CC BY 4.0).
di andare a identificare termini mono- e
polirematici tipici del dominio, spia dell’orientamento
tematico delle attivita` di ricerca della comunita` TEI.
Oggi lo studio delle comunita` sta diventando
infatti centrale per comprendere e interpretare per i
vari domini la direzione scientifica nonche´ il
genere, gli stakeholder e le possibili connessioni tra
comunita`. Solo per fare un esempio, dalla lettura
degli indici dell’estrazione del jTEI Corpus, la
comunita` scientifica che ruota intorno a TEI sembra
non voglia usare il sostantivo computer e
l’aggettivo computational, preferendo usare invece
l’aggettivo digital combinato con una miriade di
sostantivi (come ad es. editions, humanities, text,
resources, age, archive, objects, facsimile, library,
tools) in linea con gli usi della piu` ampia comunita`
delle Digital Humanities, ma non della Linguistica
Computazionale.
2
      </p>
    </sec>
    <sec id="sec-2">
      <title>Background</title>
      <p>
        Questo contributo prosegue sulla linea degli
studi dedicati a riviste e comunita` con interessi
interdisciplinari di informatica e discipline
linguistiche, storico-filologiche o letterarie. In particolare,
per lo studio dell’evoluzione terminologica nelle
Scienze Umane e Sociali si veda
        <xref ref-type="bibr" rid="ref18">Tuzzi (2018</xref>
        ); per
lo studio delle comunita` della Linguistica
Computazionale e delle Digital Humanities si veda
Spru
        <xref ref-type="bibr" rid="ref14">gnoli et al. (2019</xref>
        ) e Pa
        <xref ref-type="bibr" rid="ref23">rdelli et al. (2019</xref>
        ); per lo
studio della comunita` della Tecnologia della
Lingua e delle Risorse Linguistiche
        <xref ref-type="bibr" rid="ref21">si vedano Mariani
et al. (2014</xref>
        ), Francopoulo et al. (2016),
        <xref ref-type="bibr" rid="ref21">Soria et
al. (2014</xref>
        ), Ba
        <xref ref-type="bibr" rid="ref1 ref6">rtolini et al. (2018</xref>
        ) e Del g
        <xref ref-type="bibr" rid="ref1 ref6">ratta et
al. (2018</xref>
        ); per lo studio della comunita`
internazionale di Grey Literature si veda Pardelli et al.
(2017).
      </p>
      <p>
        Le soluzioni sin ad oggi messe a punto
nell’ambito dell’estrazione automatica di terminologia da
corpora di dominio sono molteplici e di diversa
natura. Sebbene differiscano rispetto alle metriche
utilizzate, alcuni obiettivi sono condivisi e
riguardano principalmente due aspetti legati alla
difficolta` di definire strategie per: i) risolvere il
problema legato al fatto che il confine tra
terminologia di dominio e lingua comune non sempre e` cos`ı
netto
        <xref ref-type="bibr" rid="ref5">(Cabre´, 1999)</xref>
        e ii) delineare dei criteri
comuni nella definizione di unita` terminologica
polirematica
        <xref ref-type="bibr" rid="ref19">(Ramisch, 2015)</xref>
        , dal momento che esse
rappresentano piu` della meta` del vocabolario di un
madre-lingua
        <xref ref-type="bibr" rid="ref12">(Jackendoff, 1997)</xref>
        . La metodologia
proposta in questo contributo suggerisce una
strategia per superare entrambi tali aspetti
problematici. Come descritto in Bonin et al. (2010), la
soluzione proposta si basa su di una originale
combinazione di filtri linguistici e statistici che
permettono di i) discriminare la terminologia di dominio
dalla lingua comune impiegando metriche
statistiche che pesano la rilevanza dei termini estratti
all’interno del corpus di acquisizione (corpus di
dominio) rispetto ad un corpus di riferimento (corpus
rappresentativo della lingua comune, tipicamente
una collezione di articoli di giornale); ii) estrarre
unita` polirematiche anche nei casi in cui la
corrispondente testa lessicale non sia stata
precedentemente individuata come unita` monorematica
specifica del dominio. L’intuizione e` di
considerarle come elementi ‘unici’ costituiti da sequenze di
categorie morfosintattiche (vedi Sezione 3.2). Cio`
permette di suggerire una risposta all’osservazione
che “non sempre la settorialita` di un LC [lessema
complesso] e` connessa con l’esistenza di accezioni
speciali dei membri componenti, ma puo` derivare
dal fatto che il LC assume in determinati
contesti un significato globale speciale”
        <xref ref-type="bibr" rid="ref9">(De Mauro and
Voghera, 1996)</xref>
        .
3
3.1
      </p>
    </sec>
    <sec id="sec-3">
      <title>Metodo</title>
      <sec id="sec-3-1">
        <title>Descrizione e preparazione del corpus</title>
        <p>Gli articoli della rivista sono reperibili online sia
in .pdf che in .xhtml e, per i numeri piu` recenti,
anche in .xml (TEI-XML). Il corpus su cui si basa
la nostra indagine parte dall’estrazione del plain
text dall’XHTML, una volta escluso il contenuto
metatestuale e paratestuale. La Tabella 1 mostra la
composizione del corpus.
3.2</p>
      </sec>
      <sec id="sec-3-2">
        <title>Estrazione terminologica</title>
        <p>Per studiare la variazione terminologica
avvenuta nel corso degli anni di pubblicazione della
rivista abbiamo adottato due metodi complementari:
il primo basato sull’indicizzazione del corpus
tramite la terminologia estratta in modo non
supervi</p>
        <p>Lungh. media
4,198 parole
3,308 parole
5,475 parole
3,678 parole
3,560 parole
3,613 parole
5,305 parole
4,376 parole
3,982 parole
5,332 parole
Tabella 1: Composizione del corpus e lunghezza
media degli articoli.
sionato e il secondo basato sull’indicizzazione
dello stesso corpus tramite parole chiave fornite dagli
autori come metadati degli articoli.</p>
        <p>
          Il processo di estrazione terminologica non
supervisionata e` stato realizzato grazie a
Text-toKnowledge (T2K)
          <xref ref-type="bibr" rid="ref8">(Dell’Orletta et al., 2014)</xref>
          ,
piattaforma di estrazione e organizzazione della
conoscenza da corpora multilingui di dominio
basata su tecnologie di Natural Language Processing
sviluppata da ILC-CNR e ampiamente validata in
diversi contesti applicativi2. T2K, costruito su di
un’originale combinazione di sistemi a regole e
algoritmi basati su metodi di apprendimento
automatico, consente di estrarre da una collezione di
testi linguisticamente annotati entita` rilevanti
anche quando esse non sono presenti in una
risorsa semantico-lessicale di dominio a disposizione.
Cio` permette di far fronte e superare il tradizionale
collo di bottiglia che si incontra in ogni compito di
analisi semantica del testo, quello cioe` di rendere
esplicito il collegamento tra la realizzazione
linguistica dell’informazione e la rappresentazione
esplicita dell’informazione stessa.
        </p>
        <p>
          Allo scopo pertanto di individuare ed estrarre
elementi informativi nuovi rispetto a quelli
presenti nel repertorio delle parole chiave a
disposizione, il corpus e` stato linguisticamente
annotato a diversi livelli di analisi. A partire dal
testo annotato a livello morfosintattico grazie al
Parts-Of-Speech tagger descritto in Dell’Orletta
(2009), sono state individuate le unita`
terminologiche candidate all’estrazione. La metodologia,
descritta in Bonin et al. (2010), consente di
individuare potenziali unita` monorematiche e
polirematiche impiegando una combinazione di
filtri linguistici e statistici configurabili rispetto agli
2http://www.italianlp.it/demo/t2k-text-to-knowledge/
obiettivi di ricerca. Allo scopo della nostra
indagine, i filtri linguistici sono stati configurati
in modo da individuare all’interno del corpus di
acquisizione: i) le potenziali unita`
monorematiche, sulla base della categoria morfo-sintattica
assegnata (tipicamente ‘sostantivo’); ii) le
potenziali unita` polirematiche, sulla base di una serie
di sequenze di categorie morfo-sintattiche
rappresentative di diversi tipi di modificazione
nominale. Ad esempio, da una sequenza come
‘aggettivo+sostantivo’ sono individuate polirematiche
quali critical edition, lexical entry, cultural
heritage; da una sequenza ‘sostantivo+sostantivo’ sono
individuati potenziali termini quali TEI standard,
manuscript material, knowledge representation;
per arrivare a sequenze piu` complesse come
‘sostantivo+preposizione+sostantivo’ sulla base
della quale sono stati individuati termini quali string
of text, editions of letters o sequenze
‘sostantivo+preposizione+aggettivo+sostantivo’ che
permette di rintracciare un termine come DTABf for
printed texts, evaluation of digital scholarship
o ‘aggettivo+aggettivo+sostantivo’ realizzazione
linguistica di un termine come historical
financial records. I filtri statistici, applicati alla lista di
termini candidati all’estrazione, consentono di
ordinare tali termini sulla base della loro rilevanza
all’interno del corpus di acquisizione,
attribuendo loro un valore di significativita` stabilita
sulla base del C-NC Value
          <xref ref-type="bibr" rid="ref11">(Frantzi and Ananiadou,
1999)</xref>
          , una delle misure piu` utilizzate nei sistemi
di estrazione terminologica.
        </p>
        <p>In linea con gli obiettivi di ricerca del nostro
studio, i termini cos`ı estratti sono stati
impiegati dal modulo di indicizzazione di T2K per
rintracciare all’interno dell’intera collezione di
articoli del jTEI i singoli contesti nei quali i termini
compaiono. Grazie a questo processo e` stato
possibile condurre l’indagine sulla variazione
diacronica dei termini nelle diverse annate della rivista,
consentendo di studiare l’evoluzione di tendenze
di ricerca e tematiche di studio.
3.3</p>
      </sec>
      <sec id="sec-3-3">
        <title>Trattamento delle parole chiave</title>
        <p>Sono state prese in considerazione le parole chiave
che gli autori stessi hanno indicato fra i
metadati. Sul totale degli articoli raccolti le parole chiave
distinte sono 259.
3.4</p>
      </sec>
      <sec id="sec-3-4">
        <title>Mann-Kendall Trend Test</title>
        <p>Per esplorare le variazioni significative
d’impiego dei termini e delle parole chiave
nell’intervallo temporale osservato, e` stato scelto il
Mann-Kendall trend test, disponibile nel pacchetto
trend di R (https://bit.ly/30bWRkd).
Considerando il numero esiguo di dati
disponibili per ciascun termine (o parola chiave) si e` scelta
quindi una statistica non parametrica
sufficientemente affidabile anche con un numero di
misurazioni inferiori a dieci. Per motivi di omogeneita`
dei dati, sono stati presi in considerazione soltanto
i sette numeri della rivista riguardanti atti di
convegni presi in successione cronologica, come si puo`
vedere nelle Figure 3 e 4. I dati su cui si e`
applicato l’MK Test sono stati preparati in formato
tabellare sia per i termini estratti
automaticamente, sia per le parole chiave indicate dagli autori,
disponendo su ciascuna riga un termine (o una
parola chiave), su ciascuna colonna un numero
della rivista e in ciascuna cella la relativa frequenza
percentuale. L’MK Test fornisce un valore
positivo per trend crescenti e un valore negativo per
trend decrescenti. Per lo studio dei risultati sono
stati presi in considerazione soltanto gli esiti con
p-value&lt;0.05.
4
4.1</p>
      </sec>
    </sec>
    <sec id="sec-4">
      <title>Risultati</title>
      <sec id="sec-4-1">
        <title>Studio dei profili degli autori</title>
        <p>Dall’analisi dei trend terminologici i numeri della
rivista non dedicati ad atti dei convegni TEI (3, 5 e
7) sono stati esclusi anche perche´ i profili degli
autori stessi hanno carattere di eccezione. Per il
monitoraggio, gli autori sono stati classificati in base
alla loro presenza o meno in riviste o atti di
convegno di Linguistica Computazionale (con
contributi o con menzioni in bibliografia). Come si puo`
vedere in Fig. 1, il numero dedicato a TEI e
linguistica (3) e il numero aperto (7) hanno
attratto un numero elevato di linguisti
computazionali. Sorprendentemente invece il numero dedicato
alle infrastrutture TEI (5) non ha avuto la stessa
attrattiva.
4.2</p>
      </sec>
      <sec id="sec-4-2">
        <title>Dati relativi ai termini estratti</title>
        <p>I risultati discussi in quanto segue fanno
riferimento ai primi 500 termini circa mono- e
polirematici estratti, con una frequenza di occorrenza 3.
La Tabella 2 riporta un estratto della lista dei
primi 25 termini estratti dall’intero corpus, ordinati
per rilevanza statistica e accompagnati dalla
frequenza assoluta nel corpus. Per ogni termine, T2K
permette di estrarre il lemma e la forma
prototipica, cioe` la variante linguistica piu` frequente del
Figura 1: Autori che non hanno pubblicazioni
in ambito di linguistica computazionale (no lc) e
autori che ne hanno (lc)
lemma all’interno della collezione documentale di
partenza.</p>
        <p>Come introdotto nella Sezione 3.2, la fase di
indicizzazione ha permesso di calcolare la
distribuzione dei termini all’interno dei singoli articoli
mettendo in evidenza eventuali differenze
nell’uso di uno stesso termine. La Figura 2 mostra ad
esempio come, sul totale di occorrenze di parole
polirematiche estratte che contengono l’aggettivo
digital, ogni volume sia caratterizzato da
distribuzioni percentuali diverse. Alcuni termini possono
considerarsi poco specifici come digital age,
digital form, digital resources, digital tools, digital
projects, digital medium. Non pochi termini
risultano essere tuttavia puntuali e peculiari del
settore, tra questi sono stati estratti nell’arco
temporale digital archive, digital critical editions, digital
document, digital editions, digital Humanities,
digital images, digital library, digital objects,
digital scholarship, digital text. Il grafico permette di
leggere la modulazione diacronica dei termini
introdotti dagli autori e riconoscibili nel settore delle
Digital Humanities. Ad esempio, possiamo
notare come il termine Digital Humanities e` il termine
che ha un significato piu` ampio e accoglie gli altri
termini peculiari. Esso e` pertanto sempre presente
nei dieci volumi anche se la frequenza di
occorrenza risulta essere altalenante. Un momento di
prosperita` di questo termine risulta circoscritto al
volume 6 del 2013.
4.3</p>
      </sec>
      <sec id="sec-4-3">
        <title>Distribuzione delle parole chiave nel testo</title>
        <p>Abbiamo verificato la distribuzione delle parole
chiave nel corpo degli articoli e cio` ci ha
permesTabella 2: I primi 25 termini estratti dall’intero
corpus.</p>
        <p>Figura 2: Distribuzione percentuale di termini
polirematici estratti che contengono l’aggettivo
digital.
so di individuare, fra le complessive 259, 32
parole chiave usate esclusivamente come metadati,
e quindi che non occorrono mai nel testo, come
ad esempio bibliographical standards,
collaborative workflow, TEI corpora e 227 impiegate invece
anche all’interno del testo (ad esempio forums).</p>
        <p>Un’assimetria degna di nota riguarda le
sequenze aggettivo+sostantivo critical edition e
scholarly edition (entrambe parole chiave) in
composizione con digital. Mentre infatti gli autori hanno
indicato nei metadati degli articoli digital scholarly
edition come parola chiave autonoma, hanno
tralasciato invece digital critical edition, benche´ sia
termine polirematico estratto da T2K e in alcuni
articoli cooccorra digital scholarly edition.
Lo studio delle variazioni d’impiego dei termini
al fine di identificare delle tendenze significative
ha prodotto i seguenti risultati con trend
crescente: different types, @corresp attribute, open
data, TEI Correspondence SIG, research questions,
work in progress, Berlin-Brandenburg Academy
of Sciences, bibliographic references, TEI model,
TEI Simple, case study, TEI XML; e i
seguenti risultati con trend decrescente: author’s
note, literary texts, manuscript material, TEI users,
humanities research, TEI-encoded documents.</p>
        <p>Se si escludono termini isolati oppure legati a
tecnologie specifiche o a particolari gruppi di
ricerca, i dati sembrano far emergere una tendenza
interessante. Come si puo` vedere in Fig. 3,
aumenta l’impiego di termini condivisi con le altre
scienze con basi sperimentali, fra cui le scienze del
linguaggio di cui la Linguistica Computazionale fa
parte, come research questions, case study e open
data, mentre diminuisce l’impiego di termini
specifici delle discipline umanistiche, come literary
texts, manuscript material e humanities research.</p>
        <p>
          Infine, lo studio delle variazioni d’impiego
significative delle parole chiave indicate come
metadati dagli autori stessi (Fig. 4) mostra
il crescente interesse verso il web semantico
(sense e` largamente impiegato in contesti
relativi alla codifica di ontologie) e verso
progetti volti a rendere TEI maggiormente
usabile come TEI
          <xref ref-type="bibr" rid="ref21">Simple (https://tei-c.org/
2014</xref>
          /09/10/tei-simple). Scende
invece drasticamente l’impiego di parole chiave che
esprimono tecnologie o concetti ormai assodati e
condivisi, come Unicode e community, parola
quest’ultima comprensibilmente dominante nel primo
numero della rivista.
5
        </p>
      </sec>
    </sec>
    <sec id="sec-5">
      <title>Conclusione</title>
      <p>Recuperare un campione del trend delle attivita` di
ricerca di un particolare settore scientifico, come
quelle delle Digital Humanities attraverso il jTEI,
puo` essere stimolante per comprendere gli
ambiti indagati dai vari autori nell’arco temporale di
dieci anni. In particolare la disponibilita` di
catturare oggi, articoli open access crea opportunita`
per l’analisi di comunita` scientifiche che nel
passato non era concepibile. Il lavoro svolto
rappresenta una prima esperienza di recupero
informativo e di analisi per studiare il trend della comunita`
scientifica delle Digital Humanities attraverso una
rivista ad essa dedicata, il jTEI. Pensiamo altres`ı
che sia fondamentale ampliare le nostre fonti con
altre tipologie di riferimento: come blog, forum,
atti di conferenze nazionali e internazionali e
riviste. Nell’analisi uno sguardo sara` rivolto anche
agli autori per comprendere connessioni e
estraneita` tra la linguistica computazionale e le Digital
Humanities.</p>
    </sec>
  </body>
  <back>
    <ref-list>
      <ref id="ref1">
        <mixed-citation>
          <string-name>
            <given-names>R.</given-names>
            <surname>Bartolini</surname>
          </string-name>
          ,
          <string-name>
            <given-names>S.</given-names>
            <surname>Goggi</surname>
          </string-name>
          ,
          <string-name>
            <given-names>M.</given-names>
            <surname>Monachini</surname>
          </string-name>
          and
          <string-name>
            <surname>G. Pardelli</surname>
          </string-name>
          <year>2018</year>
          .
          <article-title>The LREC Workshops Map</article-title>
          .
          <source>In Proceedings of the Eleventh International Conference on Language Resources and Evaluation (LREC 201)</source>
          , ELRA, Paris, pp.
          <fpage>557</fpage>
          -
          <lpage>562</lpage>
          . https://aclweb.org/anthology/ papers/L/L18/L18-1088/
        </mixed-citation>
      </ref>
      <ref id="ref2">
        <mixed-citation>
          <string-name>
            <given-names>F.</given-names>
            <surname>Bonin</surname>
          </string-name>
          ,
          <string-name>
            <given-names>F.</given-names>
            <surname>Dell'Orletta</surname>
          </string-name>
          ,
          <string-name>
            <given-names>S.</given-names>
            <surname>Montemagni</surname>
          </string-name>
          and
          <string-name>
            <given-names>G.</given-names>
            <surname>Venturi</surname>
          </string-name>
          .
          <year>2010</year>
          .
          <article-title>A Contrastive Approach to Multi-word Extraction from Domain-specific Corpora</article-title>
          .
          <source>Proceedings of 7th Edition</source>
          of International Conference on
        </mixed-citation>
      </ref>
      <ref id="ref3">
        <mixed-citation>
          <string-name>
            <given-names>Language</given-names>
            <surname>Resources</surname>
          </string-name>
          and
          <article-title>Evaluation (LREC</article-title>
          <year>2010</year>
          ),
        </mixed-citation>
      </ref>
      <ref id="ref4">
        <mixed-citation>17-23 May, Valletta, Malta.</mixed-citation>
      </ref>
      <ref id="ref5">
        <mixed-citation>
          <string-name>
            <surname>M. T</surname>
          </string-name>
          . Cabre´.
          <year>1999</year>
          .
          <article-title>The terminology</article-title>
          .
          <article-title>Theory, methods and applications</article-title>
          . John Benjamins Publishing Company.
        </mixed-citation>
      </ref>
      <ref id="ref6">
        <mixed-citation>
          <string-name>
            <given-names>R.</given-names>
            <surname>Del Gratta</surname>
          </string-name>
          ,
          <string-name>
            <given-names>S.</given-names>
            <surname>Goggi</surname>
          </string-name>
          ,
          <string-name>
            <given-names>G.</given-names>
            <surname>Pardelli</surname>
          </string-name>
          and
          <string-name>
            <surname>N. Calzolari</surname>
          </string-name>
          <year>2018</year>
          .
          <article-title>LREMap, a Song of Resources and Evaluation</article-title>
          .
          <source>In Proceedings of the Eleventh International Conference on Language Resources and Evaluation (LREC</source>
          <year>2018</year>
          ). ELRA, Paris, pp.
          <fpage>1275</fpage>
          -
          <lpage>1281</lpage>
          . https://www.aclweb.org/ anthology/L18-1203
        </mixed-citation>
      </ref>
      <ref id="ref7">
        <mixed-citation>
          <string-name>
            <given-names>F.</given-names>
            <surname>Dell'Orletta</surname>
          </string-name>
          .
          <year>2009</year>
          .
          <article-title>Ensemble system for Part-ofSpeech tagging</article-title>
          .
          <source>Proceedings of Evalita'09</source>
          ,
          <article-title>Evaluation of NLP and Speech Tools for Italian , Reggio Emilia</article-title>
          , December.
        </mixed-citation>
      </ref>
      <ref id="ref8">
        <mixed-citation>
          <string-name>
            <given-names>F.</given-names>
            <surname>Dell'Orletta</surname>
          </string-name>
          ,
          <string-name>
            <given-names>G.</given-names>
            <surname>Venturi</surname>
          </string-name>
          ,
          <string-name>
            <given-names>A.</given-names>
            <surname>Cimino</surname>
          </string-name>
          and
          <string-name>
            <given-names>S.</given-names>
            <surname>Montemagni</surname>
          </string-name>
          .
          <year>2014</year>
          .
          <article-title>T2K: a System for Automatically Extracting and Organizing Knowledge from Texts</article-title>
          .
          <source>Proceedings of 9th Edition of International Conference on Language Resources and Evaluation (LREC</source>
          <year>2014</year>
          ),
          <fpage>26</fpage>
          -31 May, Reykjavik, Iceland.
        </mixed-citation>
      </ref>
      <ref id="ref9">
        <mixed-citation>
          <string-name>
            <surname>T. De Mauro</surname>
            and
            <given-names>M.</given-names>
          </string-name>
          <string-name>
            <surname>Voghera</surname>
          </string-name>
          .
          <year>1996</year>
          .
          <article-title>Scala mobile. Un punto di vista sui lessemi complessi</article-title>
          . P. Beninca` et al. (eds.),
          <article-title>Italiano e dialetti nel tempo. Saggi di grammatica per Giulio C</article-title>
          . Lepschy, Roma, Bulzoni, pp.
          <fpage>99</fpage>
          -
          <lpage>131</lpage>
          .
        </mixed-citation>
      </ref>
      <ref id="ref10">
        <mixed-citation>
          <string-name>
            <given-names>G.</given-names>
            <surname>Francopoulo</surname>
          </string-name>
          ,
          <string-name>
            <given-names>J.</given-names>
            <surname>Mariani</surname>
          </string-name>
          and
          <string-name>
            <surname>P. Paroubek</surname>
          </string-name>
          <year>2016</year>
          .
          <article-title>A Study of Reuse and Plagiarism in LREC papers</article-title>
          .
          <source>In Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC</source>
          <year>2016</year>
          ), ELRA, Paris, pp.
          <fpage>1890</fpage>
          -
          <lpage>1897</lpage>
          . https:// www.aclweb.org/anthology/L16-1298
        </mixed-citation>
      </ref>
      <ref id="ref11">
        <mixed-citation>
          <string-name>
            <given-names>K.</given-names>
            <surname>Frantzi</surname>
          </string-name>
          and
          <string-name>
            <given-names>S.</given-names>
            <surname>Ananiadou</surname>
          </string-name>
          .
          <year>1999</year>
          .
          <article-title>The C-value / NC Value domain independent method for multiword term extraction</article-title>
          .
          <source>Journal of Natural Language Processing</source>
          ,
          <volume>6</volume>
          (
          <issue>3</issue>
          ):
          <fpage>145</fpage>
          -
          <lpage>179</lpage>
          .
        </mixed-citation>
      </ref>
      <ref id="ref12">
        <mixed-citation>
          <string-name>
            <given-names>R.</given-names>
            <surname>Jackendoff</surname>
          </string-name>
          .
          <year>1997</year>
          .
          <article-title>Twistin' the night away</article-title>
          .
          <source>Language</source>
          ,
          <volume>73</volume>
          , pp.
          <fpage>534</fpage>
          -
          <lpage>559</lpage>
          .
        </mixed-citation>
      </ref>
      <ref id="ref13">
        <mixed-citation>
          <string-name>
            <given-names>J.</given-names>
            <surname>Mariani</surname>
          </string-name>
          ,
          <string-name>
            <given-names>P.</given-names>
            <surname>Paroubek</surname>
          </string-name>
          ,
          <string-name>
            <given-names>G.</given-names>
            <surname>Francopoulo</surname>
          </string-name>
          and
          <string-name>
            <surname>O. Hamon</surname>
          </string-name>
          <year>2014</year>
          .
          <article-title>Rediscovering 15 Years of Discoveries in Language Resources and Evaluation: The LREC Anthology Analysis</article-title>
          .
          <source>In Proceedings of the Ninth International Conference on Language Resources and Evaluation (LREC2014)</source>
          , ELRA, Paris, pp.
          <fpage>4632</fpage>
          -
          <lpage>4669</lpage>
          . http: //www.lrec-conf.org/proceedings/ lrec2014/pdf/1228_Paper.pdf
        </mixed-citation>
      </ref>
      <ref id="ref14">
        <mixed-citation>
          <string-name>
            <given-names>G.</given-names>
            <surname>Pardelli</surname>
          </string-name>
          ,
          <string-name>
            <given-names>S.</given-names>
            <surname>Goggi</surname>
          </string-name>
          and
          <string-name>
            <surname>F. Boschetti</surname>
          </string-name>
          <year>2019</year>
          .
          <article-title>Strolling around the dawn of Digital Humanities</article-title>
          .
          <source>Book of Abstract for the 8th Annual Conference AIUCD</source>
          <year>2019</year>
          , pp.
          <fpage>261</fpage>
          -
          <lpage>264</lpage>
          .
        </mixed-citation>
      </ref>
      <ref id="ref15">
        <mixed-citation>
          <string-name>
            <given-names>G.</given-names>
            <surname>Pardelli</surname>
          </string-name>
          ,
          <string-name>
            <given-names>S.</given-names>
            <surname>Goggi</surname>
          </string-name>
          ,
          <string-name>
            <given-names>R.</given-names>
            <surname>Bartolini</surname>
          </string-name>
          ,
          <string-name>
            <given-names>I.</given-names>
            <surname>Russo</surname>
          </string-name>
          and
          <string-name>
            <surname>M. Monachini</surname>
          </string-name>
          <year>2017</year>
          .
          <article-title>A Geographical Visualization of</article-title>
        </mixed-citation>
      </ref>
      <ref id="ref16">
        <mixed-citation>
          <source>vember 28-29</source>
          ,
          <year>2016</year>
          . Edited by Dominic Farace and
        </mixed-citation>
      </ref>
      <ref id="ref17">
        <mixed-citation>
          <string-name>
            <given-names>Jerry</given-names>
            <surname>Frantzen</surname>
          </string-name>
          , TransAtlantic-Amsterdam,
          <volume>18</volume>
          , pp.
        </mixed-citation>
      </ref>
      <ref id="ref18">
        <mixed-citation>
          <string-name>
            <given-names>T.</given-names>
            <surname>Pohlert</surname>
          </string-name>
          .
          <year>2018</year>
          .
          <article-title>Non-Parametric Trend Tests</article-title>
          and
          <string-name>
            <surname>Change-Point</surname>
            <given-names>Detection</given-names>
          </string-name>
          , CRAN. https://bit. ly/30bWRkd,
        </mixed-citation>
      </ref>
      <ref id="ref19">
        <mixed-citation>
          <string-name>
            <given-names>C.</given-names>
            <surname>Ramisch</surname>
          </string-name>
          .
          <year>2015</year>
          .
          <article-title>Multiword expressions acquisition: A generic and open framework</article-title>
          . New York: Springer.
        </mixed-citation>
      </ref>
      <ref id="ref20">
        <mixed-citation>
          <string-name>
            <given-names>S.</given-names>
            <surname>Schreibman</surname>
          </string-name>
          .
          <year>2011</year>
          .
          <article-title>Editorial Introduction to the First Issue</article-title>
          .
          <source>Journal of the Text Encoding Initiative</source>
          ,
          <volume>1</volume>
          . http://journals.openedition.org/ jtei/229
        </mixed-citation>
      </ref>
      <ref id="ref21">
        <mixed-citation>
          <string-name>
            <given-names>S.</given-names>
            <surname>Schreibman</surname>
          </string-name>
          .
          <year>2014</year>
          .
          <article-title>Editorial Introduction to Issue 7 of the Journal of the Text Encoding Initiative</article-title>
          .
          <source>Journal of the Text Encoding Initiative</source>
          ,
          <volume>7</volume>
          . http:// journals.openedition.org/jtei/1046
        </mixed-citation>
      </ref>
      <ref id="ref22">
        <mixed-citation>
          <string-name>
            <given-names>C.</given-names>
            <surname>Soria</surname>
          </string-name>
          ,
          <string-name>
            <given-names>N.</given-names>
            <surname>Calzolari</surname>
          </string-name>
          ,
          <string-name>
            <given-names>M.</given-names>
            <surname>Monachini</surname>
          </string-name>
          ,
          <string-name>
            <given-names>V.</given-names>
            <surname>Quochi</surname>
          </string-name>
          ,
          <string-name>
            <given-names>N.</given-names>
            <surname>Bel</surname>
          </string-name>
          ,
          <string-name>
            <given-names>K.</given-names>
            <surname>Choukri</surname>
          </string-name>
          ,
          <string-name>
            <given-names>M.</given-names>
            <surname>Mariani</surname>
          </string-name>
          ,
          <string-name>
            <given-names>J.</given-names>
            <surname>Odijk</surname>
          </string-name>
          and
          <string-name>
            <surname>S. Piperidis</surname>
          </string-name>
          <year>2014</year>
          .
          <article-title>The language resource Strategic Agenda: the FLaReNet synthesis of community recommendations</article-title>
          .
          <source>Language Resources and Evaluation, December</source>
          <year>2014</year>
          ,
          <volume>48</volume>
          (
          <issue>4</issue>
          ), pp.
          <fpage>753</fpage>
          -
          <lpage>775</lpage>
          . https://link.springer.com/ article/10.1007/s10579-014-9279-y
        </mixed-citation>
      </ref>
      <ref id="ref23">
        <mixed-citation>
          <string-name>
            <given-names>R.</given-names>
            <surname>Sprugnoli</surname>
          </string-name>
          ,
          <string-name>
            <given-names>G.</given-names>
            <surname>Pardelli</surname>
          </string-name>
          ,
          <string-name>
            <given-names>F.</given-names>
            <surname>Boschetti</surname>
          </string-name>
          and
          <string-name>
            <given-names>R. Del</given-names>
            <surname>Gratta</surname>
          </string-name>
          .
          <year>2019</year>
          .
          <article-title>Un'Analisi Multidimensionale della Ricerca Italiana nel Campo delle Digital Humanities e della Linguistica Computazionale Umanistica Digitale</article-title>
          ,
          <source>ISSN 2532-8816</source>
          ,
          <issue>5</issue>
          , pp.
          <fpage>59</fpage>
          -
          <lpage>89</lpage>
          . https://umanisticadigitale. unibo.it/article/view/8581
        </mixed-citation>
      </ref>
      <ref id="ref24">
        <mixed-citation>
          <string-name>
            <given-names>A.</given-names>
            <surname>Tuzzi</surname>
          </string-name>
          .
          <year>2018</year>
          .
          <article-title>Tracing the Life Cycle of Ideas in the Humanities and Social Sciences</article-title>
          . New York: Springer.
        </mixed-citation>
      </ref>
    </ref-list>
  </back>
</article>