Trattamento automatico della lingua a supporto dell’editoria: primi esperimenti con il Devoto-Oli Junior Irene Dini1, Felice Dell’Orletta1, Fabio Ferri2, Biancamaria Gismondi2, Simonetta Montemagni1 1. Istituto di Linguistica Computazionale “A. Zampolli” – CNR 2. Mondadori Education {irene.dini,felice.dellorletta,simonetta.montemagni}@ilc.cnr.it {fabio.ferri,bianca.gismondi}@mondadori.it Abstract sono oggi mature per poter contribuire in modo significativo alle diverse fasi del processo English. The paper illustrates the results editoriale, permettendo - ad esempio - di of a first experiment in which Natural indicizzare su base semantica il contenuto Language Processing was used to support informativo di un testo, di monitorarne la the revision of a children’s dictionary, in complessità e l’efficacia comunicativa in particular for what concerns style and relazione alla tipologia dei destinatari, di guidare wording of definitions and the enrichment la sua eventuale riformulazione, di verificare of the list of lemmas. The results achieved l’eventuale presenza di plagi, oppure di fornire are promising and demonstrate the supporto alle fasi di controllo linguistico e potential of a synergy to be strengthened tipografico. in the publishing sector. In questo contributo, riportiamo i risultati di un primo e promettente esperimento condotto Italiano. L’articolo illustra i risultati di congiuntamente dalla Casa editrice Mondadori un esperimento all’interno del quale Education e dall’Istituto di Linguistica tecnologie di TAL sono state utilizzate a Computazionale del CNR, all’interno del quale supporto della redazione di un dizionario tecnologie di TAL sono state utilizzate a supporto per bambini, in particolare per quanto della progettazione della nuova edizione di un riguarda la formulazione delle definizioni dizionario per bambini: il Devoto-Oli Junior (DJ). e l’aggiornamento del lemmario. I In particolare, sono stati affrontati i temi del risultati raggiunti sono promettenti e controllo, della valutazione e della mostrano il potenziale di una sinergia da specializzazione del dizionario rispetto alla platea rafforzare nel settore dell’Editoria. dei destinatari, cercando di conciliare due prospettive apparentemente in contrasto, 1 Introduzione l’accessibilità dei contenuti da un lato e la loro informatività dall’altro. La consapevolezza delle potenzialità di metodi e tecniche di Intelligenza Artificiale (IA) nel settore 2 Il prodotto Dizionario dell’Editoria sta diffondendosi rapidamente. Il libro bianco su The Future Impact of Artificial Una Casa editrice ha con il proprio dizionario un Intelligence on the Publishing Industry (2019) rapporto complesso: opera di notevole impegno riporta i risultati di un’indagine internazionale redazionale ed economico; pubblicazione di dalla quale emerge che il 25% delle case editrici prestigio e, come usa dire, di brand positioning; intervistate ha già investito in applicazioni di prodotto con diffusione e profitti calanti. tecniche di IA all’interno di diversi settori, che Sperimentare — modi, tempi, target — spaziano dal marketing e la distribuzione alla sbagliando è un lusso che appartiene al passato; da produzione editoriale. qui l’esigenza di un approccio più certo, più All’interno dello scenario appena delineato, un rapido, senza sprechi: dunque, scientifico- ruolo centrale è svolto da metodi e tecniche per il tecnologico. E, come sarà descritto meglio sotto, Trattamento Automatico della Lingua (TAL), che il TAL avvantaggia una Redazione lessicografica Copyright ©️ 2021 for this paper by its authors. Use permitted under Creative Commons License Attribution 4.0 International (CC BY 4.0). nella costruzione del lemmario, anche in relazione dalla prima edizione, data alle stampe nel al target di mercato. 2012. Quale che sia l’impostazione lessicografica — positivista, storico-linguistica o dal sapore 3.1 La complessità del linguaggio valenziale —, la scelta del lemmario è, prima di La scrittura delle definizioni è un punto cruciale ogni cosa, una faccenda di marketing: non vi è e, in genere, molto caratterizzante di questo tipo dizionario oggi sul mercato che non sbandieri di opere. Fin dalla prima edizione quindi ci si è numero di voci o lemmi, di significati, di molto concentrati su questo aspetto. Definire le neologismi. parole, sia quelle comuni e “di base” sia quelle È facile comprendere che, al momento meno comuni, più specialistiche o elevate, con dell’acquisto, un lemmario sterminato sia altre parole semplici e accessibili a un’utenza con garanzia della capacità del dizionario stesso di competenze linguistiche in fase evolutiva richiede risolvere i nostri problemi (almeno quelli lessicali molte scelte e un piano di scrittura ben definito. e ortografici, s’intende). Eppure la seduzione di Dal punto di vista lessicale, in prima battuta, è un universo per ordine alfabetico si scontra con sembrato naturale cercare di definire le parole due ineluttabili problemi industriali: il numero di selezionate utilizzando soltanto le ca. 7.000 voci pagine e il costo. Un libro, inteso come oggetto del Vocabolario di Base (VdB) di Tullio De fisico, ha una sua ergonomicità e ci sono limiti Mauro. Tuttavia, questo metodo ha mostrato fisici oltre i quali le operazioni di rilegatura presto i suoi limiti, soprattutto quando si è trattato divengono insensate e la consultazione sgradita. di definire voci o significati tecnico-scientifici. Vi è poi un rapporto matematico diretto — come Inoltre, come è emerso nelle interviste effettuate ricordano incessantemente i Direttori su campioni significativi di insegnanti, i docenti commerciali — tra numero di pagine e costo: nel cercano in un dizionario uno strumento didattico mondo di Google e Wiktionary, il prezzo è un che in primo luogo consenta loro di aumentare le affare assai delicato, se non per gli acquirenti competenze lessicali degli alunni, oltre che istituzionali, certo per le famiglie. potenziare quelle già possedute. Una sfida particolare è poi un dizionario con Da qui la scelta di utilizzare nelle definizioni un target scolastico di riferimento: se infatti un qualche parola in più rispetto a quelle del VdB. vocabolario dell’uso ha ambizioni totalizzanti, un Coerentemente con questa decisione, ad esempio, vocabolario per la scuola è un’operazione nelle definizioni esclusivamente sinonimiche, ontologicamente editoriale in quanto si fonda tipiche degli aggettivi dove l’uso delle perifrasi sulla capacità di scegliere e ritagliare un mondo spesso complica e appesantisce la spiegazione del linguistico plausibile e utile. significato, sono state impiegate triplette di Operazione non così banale qualora si parole, organizzate in un climax che procede dalla consideri l’ambivalenza della lingua a cui gli parola semanticamente più vicina al lemma a studenti sono esposti: da un lato, lessico di base quella più lontana, ma anche da quella più comune che impiegano con maggior o minor proficiency; a quella più elevata. Purtroppo non sempre, però, dall’altro, lessico disciplinare tecnico e tecnico- i due criteri coincidono, per cui talvolta la parola scientifico di cui sono comprensibilmente ricchi i a più alta complessità lessicale è anche la prima, testi scolastici (onnisciente, antagonista, essendo quella più vicina di significato. esarcato, tettonica, fosfolipidico ecc.). E, come è Un altro esempio ci viene fornito dai demotici, facile immaginare, questa ambivalenza investirà una classe chiusa di lemmi per le cui definizioni sia la scelta delle voci sia la costruzione della in genere si approntano delle formule fisse. singola definizione. Proprio a causa della loro ripetitività, queste voci sono sembrate quelle giuste per azzardare l’uso di 3 La nuova edizione di un dizionario una parola non comune come nativo, inserita nella La progettazione della nuova edizione del DJ si è breve definizione formulare “Abitante, nativo concentrata su due questioni principali: di…”, contando anche sulla trasparenza del i. il linguaggio utilizzato nelle definizioni, la termine nativo, facilmente collegabile a nato. sua complessità ed effettiva accessibilità per Così, in lemmi come napoletano troviamo l’utenza a cui l’opera è destinata, ovvero definizioni brevi, come appunto “Abitante, nativo bambini in età compresa tra gli 8 e i 13 anni; di Napoli”, che introducono l’utente a una parola ii. il lemmario, la sua verifica e il suo nuova. aggiornamento a distanza di quasi dieci anni C’è poi il problema della complessità sintattica delle definizioni, che merita una riflessione preliminare. Le definizioni dei lemmi di un settoriali adatti a questa utenza per numero e dizionario obbediscono a regole precise (verbi livello di specializzazione è dunque il vero nodo definiti con verbi, sostantivi con sostantivi, da sciogliere. In occasione della prima edizione la aggettivi con aggettivi o perifrasi attributive, soluzione è stata trovata facendo lo spoglio dei ecc.): Inoltre, per ragioni di spazio, le frasi manuali delle varie materie della scuola definitorie sono spesso ellittiche; nel DJ i due casi secondaria di primo grado corredati da glossari, più frequenti di definizioni ellittiche sono: i) un metodo che richiede un considerevole “Abitante di Napoli”, dove il determinante è privo dispendio di risorse e non garantisce risultati di determinato; ii) nei verbi intransitivi, è spesso soddisfacenti. indispensabile specificare chi è il potenziale soggetto, utilizzando formule tipo “Di mezzo di 4 Il ruolo del TAL nella revisione del DJ trasporto, procedere”. Nella progettazione della nuova versione del DJ, Per quanto si sia cercato di evitare le formule sono state utilizzate tecniche avanzate di TAL a ellittiche più pesanti, è chiaro che la complessità supporto i) del controllo e possibile sintattica di queste frasi costituisce una delle riformulazione delle definizioni, e ii) della questioni più spinose da affrontare. revisione ed eventuale integrazione del lemmario. 3.2 Il lemmario Le analisi sono state condotte sull’intero corpus dei dati del dizionario in formato XML, per un I dizionari pensati per questo target sono in genere totale di più di 23.000 lemmi a cui sono associate costituiti da un numero di voci compreso tra un più di 41.000 definizioni. Come passo minimo di ca. 15.000, come il Dizionario Italiano preliminare, il corpus delle definizioni è stato di Base di Tullio De Mauro (DIB), e un massimo linguisticamente annotato con LinguA di ca. 23/25.000, come il DJ. Si tratta quindi di (Dell’Orletta, 2009; Attardi e Dell’Orletta, 2009; repertori lessicografici estremamente selettivi, Attardi et al., 2009). I livelli di annotazione alla risultato di scelte molto meditate. base delle elaborazioni che seguono sono quello Nel caso del DJ, si è partiti dalle ca. 7.000 voci morfo-sintattico e lemmatizzazione, e sintattico a del VdB, che includono 1.991 parole dipendenze. fondamentali, ca. 2.750 di alto uso e ulteriori 2.337 appartenenti al vocabolario ad alta 4.1 Analisi delle definizioni disponibilità. Grazie a questo primo nucleo, fin L’analisi delle definizioni ha riguardato due facce dalla prima edizione del DJ sono stati poi delle complessità linguistica, quella lessicale e lemmatizzati: quella sintattica. Attraverso questo tipo di analisi i. i derivati più comuni delle 7.000 parole non è stato possibile identificare quali definizioni compresi nel VdB, in modo da fornire agli contenessero termini e/o strutture sintattiche di studenti famiglie di voci il più possibile difficile comprensione. complete; La complessità lessicale della definizione è ii. molti sinonimi o contrari, utili per collocare stata calcolata in funzione della complessità ciascun lemma all’interno di una rete lessicale delle parole semanticamente piene che vi cognitiva di collegamenti che ne favorisca la ricorrono, sia nella forma in cui effettivamente reciproca comprensione e memorizzazione; compaiono, sia in relazione al lemma associato. iii. i termini non inclusi tra i lemmi del VdB, ma Numerosi sono i fattori che contribuiscono a necessari per definirli senza dover ricorrere a rendere un termine complesso, che spaziano dalla complicati giri di parole. Com’è noto, infatti, frequenza, al grado di ambiguità o di astrattezza, un dizionario è un sistema chiuso, per cui ogni alla lunghezza, per menzionarne solo alcuni (cfr. parola utilizzata per definire deve essere a sua Shardlow et al. (2021) per una rassegna delle volta definita all’interno dell’opera. caratteristiche connesse alla complessità Tuttavia, parole come sostantivo, transitivo o lessicale). Seguendo Rayner e Duffy (1986), in coordinata e sottrazione, non incluse nel VdB, questo esperimento ci siamo focalizzati sul fattore rischiavano di non rientrare nel corpus del DJ frequenza. anche seguendo gli altri criteri individuati. La complessità dei termini all’interno delle Termini specialistici e disciplinari “di base” come definizioni è stata calcolata in riferimento a un questi non potevano non essere presenti in un dizionario di frequenza organizzato in classi dizionario progettato per essere impiegato da costruito a partire dal corpus itWaC (Baroni et al., insegnanti della scuola primaria e della secondaria 2009), ad oggi il corpus più esteso esistente per di primo grado. L’individuazione dei termini l’italiano. La classe di frequenza di ciascun Primaria affiancato dalla cosiddetta termine è stata calcolata in base al corpus parascolastica e da libri di narrativa. utilizzando la seguente funzione: Se l’aggiornamento rispetto al NVdB ha riguardato il lessico comune, l’integrazione 𝑓𝑟𝑒𝑞(𝑀𝐹𝑇) rispetto al lemmario estratto dal corpus scolastico 𝐶𝐶𝑇 = ⌊𝑙𝑜𝑔2 ⌋ Mondadori ha invece comportato un 𝑓𝑟𝑒𝑞(𝐶𝑇) aggiornamento terminologico settoriale, dal dove MFT è il termine più frequente del corpus, momento che il corpus, basato sulla produzione CT è il termine considerato e freq è una funzione del II ciclo della Scuola Primaria, include libri di che associa ad un termine la sua frequenza lettura e sussidiari antropologici e scientifici. assoluta nel corpus (Richter et al., 2015). Le classi Nel caso della verifica interna (rispetto al di complessità sono state definite in relazione alle corpus delle definizioni) e quella esterna (rispetto forme e ai lemmi: sono 27 per i lemmi (da 0 a 26) al corpus scolastico Mondadori) sono stati e 26 per le forme (da 0 a 25). Partendo utilizzati lemmari costruiti in modo automatico a dall’assunto che termini di uso comune vengono partire dall’annotazione morfo-sintattica e dalla considerati semplici mentre termini utilizzati lemmatizzazione. Confrontando la lista dei lemmi raramente vengono considerati difficili, alla del dizionario e i lemmari di riferimento (VdB e classe 0 appartengono i termini (forme o lemmi) quelli costruiti automaticamente) è stato possibile più frequenti e quindi più comprensibili, mentre identificare i lemmi da valutare per l’eventuale alle classi 25 e 26 appartengono i termini inserimento nel nuovo DJ. Questo tipo di analisi (rispettivamente forme e lemmi) più rari e più ha portato a identificare più di 160 lemmi del difficili. NVdB che non facevano parte del lemmario del Oltre alla complessità lessicale, per ogni DJ, e circa 150 lemmi di parole che ricorrevano definizione è stato calcolato un punteggio di nel corpus delle definizioni ma non erano definiti. complessità sintattica, utilizzando READ-IT Più consistente è il numero di lemmi ricavati (Dell’Orletta et al., 2011), il primo strumento per dall’analisi del corpus scolastico Mondadori, che la valutazione della leggibilità di testi in italiano ovviamente richiede un’analisi attenta mirata a basato su TAL. READ-IT si basa su un’analisi discriminare la terminologia settoriale rilevante sofisticata delle strutture linguistiche sottostanti al per un dizionario per bambini. testo e articolata su diversi livelli di descrizione linguistica. Per calcolare la complessità sintattica 5 Elaborazioni: alcuni esempi READ-IT si basa su un ampio spettro di tratti 5.1 Complessità lessicale linguistici (in particolare morfo-sintattici e sintattici desunti a partire dall’annotazione Dopo aver associato le classi di complessità a tutte linguistica condotta preliminarmente). La le parole piene, a ogni definizione sono stati complessità è espressa con un valore compreso tra assegnati 4 diversi indicatori di Complessità 0 (semplice) e 1 (difficile). Lessicale (CL) riguardanti i) la CL dei termini più complessi che vi ricorrono, e ii) la media dei 4.2 Revisione del lemmario valori di CL di tutte le parole piene all’interno La revisione del lemmario del DJ è stata condotta della definizione. In entrambi i casi, il valore di attraverso una verifica interna volta a identificare CL è stato calcolato in relazione sia alla forma che se c’erano termini usati nelle definizioni il cui al lemma. lemma non era definito nel dizionario, e una La Tabella 1 esemplifica gli indicatori di CL verifica rispetto a risorse esterne. Come risorse associati ad alcune definizioni. I valori associati a esterne sono stati usati: Max CLf/l consentono di identificare definizioni in • il lemmario del Nuovo Vocabolario di Base di cui compaiono termini particolarmente difficili Tullio De Mauro (NVdB), pubblicato nel (CLf riguarda le forme e CLl i lemmi) di cui va 2016, oltre trent’anni dopo la prima versione valutata una possibile sostituzione con termini più (1980), con l’aggiunta di ca. 1.000 parole; semplici. D’altro canto, i valori associati a Media • il lemmario costruito automaticamente a CLf/l forniscono una misura globale della partire dall’analisi di un corpus di testi per complessità lessicale della singola definizione, bambini selezionati all’interno della calcolata come la media delle classi di produzione scolastica Mondadori, che complessità di tutte le parole piene della comprende l’intero curriculo della Scuola definizione. Le ultime due colonne della tabella esplicitano la forma/lemma corrispondente al valore Max CLf/l: è interessante notare come i “offendersi” e “risentirsi” appartengono alla valori di forma e lemma più difficili possano far classe di complessità 14, mentre “indispettirsi” riferimento a termini diversi (cfr. definizione del alla classe 20. Il sinonimo associato alla classe più lemma antipatia). alta di CL è stato quindi retrocesso in ultima Con questo tipo di analisi sono state posizione dopo quelli più usuali, rispettando il identificate le definizioni con un alto grado di CL climax previsto. che richiedevano una revisione. Per esempio, Ci sono poi casi in cui il lessicografo ha nella definizione di orda la parola “scalmanate”, ritenuto opportuno non intervenire per diversi con CL=19, è stata sostituita con la parola ordini di motivi. Ad esempio, perché la “agitate” (CL=14), rendendo così la definizione definizione conteneva tecnicismi non sostituibili, maggiormente comprensibile. Nel caso di una nonostante ad alto grado di difficoltà di definizione sinonimica come quella di comprensione, come nel caso della definizione di adombrarsi, è emerso che le classi associate a ovulazione riportata in tabella. Media Media Forma con Lemma con Termine Definizione Max CLf CLf Max CLl CLl max CLf max CLl Offendersi, indispettirsi, adombrarsi risentirsi. 20 9 16 8,2 indispettirsi indispettire Sentimento di avversione antipatia istintiva. 14 12,3 14 12,3 istintiva avversione Insieme di persone rumorose e orda scalmanate. 19 11,7 17 12,5 scalmanate scalmanato Uscita dall’ovario dell’ovulo ovulazione pronto per la fecondazione. 17 12 18 12,2 ovario ovario Tabella 1: Indicatori di complessità lessicale associati a ogni definizione La Tabella 2 riporta, per ciascuna categoria grammaticale, le medie dei 4 punteggi di CL 5.2 Complessità sintattica associati a ogni definizione. Congiunzioni e Grazie ai punteggi di READ-IT assegnati per il avverbi risultano essere le categorie grammaticali livello sintattico, è stato possibile individuare le cui definizioni sono complessivamente più costruzioni ricorrenti di difficile comprensione. In semplici. Nomi, verbi, aggettivi, pronomi, articoli questo studio preliminare, READ-IT è stato usato e interiezioni risultano invece caratterizzati da nella sua versione corrente, addestrata su testi di definizioni maggiormente complesse. tipo giornalistico, per cui i punteggi assegnati a definizioni vanno considerati come indicativi, ma Classe Max Media Max Media non specializzati rispetto alle peculiarità del grammaticale CLf CLf CLl CLl linguaggio delle definizioni. Nonostante ciò, è Aggettivo 12 8,4 11,9 8,5 stato possibile identificare definizioni contenenti Articolo 12,8 9,8 13 9,4 costruzioni complesse da valutare per Avverbio 10,3 8,2 10,5 8,5 un’eventuale riformulazione semplificata, ad es. quelle introdotte da sintagmi preposizionali che Congiunzione 9,9 7,6 10,2 8 ne circoscrivono il dominio o il significato. Per Interiezione 12,6 9,6 12,3 9,6 esempio, la definizione di andare “Di mezzo di Nome 12,7 9,3 12,6 9,3 trasporto, procedere” ha associato un indice di Preposizione 11 8,5 11,1 8,8 complessità sintattica (CS) di 0,36 che si è ridotto Pronome 13,1 8,1 13,2 8,3 significativamente trasformandola in “Detto di mezzo di trasporto, procedere” (CS=0,04). Un Verbo 12,4 9,4 11,6 8,9 altro esempio è costituito dalle definizioni dei Tabella 2: CL media per categoria demotici come canadese la cui definizione è grammaticale passata dalla forma ellittica “Del Canada” alla forma “Relativo al Canada”. 6 Conclusioni 2009 – Evaluation of NLP and Speech Tools for Italian 2009. Proceedings, vol. Poster and In un dizionario della lingua d’uso il parlante deve Workshop Proceedings of the 11th Conference of potersi rispecchiare, perché è the Italian Association for Artificial Intelligence contemporaneamente la fonte e il destinatario article n. 14. EVALITA 2009. December, Reggio dell’opera. Se questo è vero per qualsiasi Emilia, Italy 2009) dizionario, a maggior ragione lo è per quelli rivolti Marco Baroni, Silvia Bernardini, Adriano Ferraresi al mercato della Scuola Primaria, nei quali tutto and Eros Zanchetta. “The WaCky Wide Web: A deve essere a misura di bambino: le dimensioni collection of very large linguistically processed del volume e il prezzo, perché la Primaria è la web-crawled corpora”. Journal of Language scuola dell’obbligo per eccellenza, il livello di Resources and Evaluation 43(3), 209–226 (2009) complessità della lingua, che deve essere Felice Dell’Orletta, Simonetta Montemagni and Giulia proporzionato alle conoscenze e ai bisogni dei Venturi. “READ-IT: assessing readability of Italian bambini e dei loro insegnanti. Dal momento che texts with a view to text simplification”. In le esigenze sono tanto particolari, in un’opera Proceedings of the Second Workshop on Speech come il DJ, dunque, è fondamentale l’impiego di and Language Processing for Assistive tecniche di produzione che siano efficienti. Le Technologies (SLPAT ‘11), 30 July, Edimburgo, tecnologie TAL hanno risposto perfettamente a UK (2011) questa richiesta di efficientamento. La verifica del Felice Dell’Orletta. “Ensemble system for Part-of- lemmario esistente mediante lo spoglio di ampi Speech tagging”. In: Evaluation of NLP and Speech corpora mirati sul target, la classificazione della Tools for Italian, 2009. Proceedings Evalita 2009 complessità lessicale e sintattica delle definizioni Organizers, 2009. December, Reggio Emilia, Italy individuata attraverso l’impiego di uno strumento (2009) come READ-IT, l’individuazione delle nuove Tullio De Mauro (a cura di). Grande dizionario voci da inserire grazie all’uso incrociato di tutte italiano dell’uso (GRADIT). Torino: UTET (1999- queste tecniche hanno prodotto in tempi brevi 2000) risultati certi e attendibili. Soprattutto hanno Tullio De Mauro. Il Nuovo vocabolario di base della consentito al lessicografo di lavorare su obiettivi lingua italiana. Internazionale, disponibile circoscritti e gerarchizzati, conciliando la all’indirizzo https://dizionario.internazionale.it/ prospettiva dell’accessibilità con quella (2016) dell’informatività dell’opera. Il lavoro fianco a Giacomo Devoto, Gian Carlo Oli. Il Devoto-Oli junior. fianco di redattori e ricercatori, inoltre, ha aperto Il mio primo vocabolario di italiano. Mondadori nuovi ambiti di sperimentazione e di riflessione, Education, Le Monnier (2012) come la ricerca di nuovi modelli definitori, più Keith Rayner, Susan Duffy. “Lexical complexity and accessibili rispetto a quelli tradizionali. fixation times in reading: Effects of word frequency, Bruno Migliorini, ormai molti decenni fa, verb complexity, and lexical ambiguity”. Memory & chiudeva la sua nitida prosa sul vocabolario con Cognition, 14:191–201 (1986) un’affermazione sfiduciata: «sull’avvenire della lessicografia italiana non è possibile far presagi». Stefan Richter, Andrea Cimino, Felice Dell’Orletta and Giulia Venturi. “Tracking the Evolution of Written Oggi, grazie a esperimenti come questo, siamo in Language Competence: an NLP-based Approach”. grado di dire qualcosa di più: il TAL non potrà In Proceedings of the Second Italian Conference on non essere parte di questo avvenire. Computational Linguistics (CLiC-it), 3-4 December, Trento, Italy, pp. 236-240 (2015) Bibliografia Matthew Shardlow, Richard Evans, Marcos Zampieri. Giuseppe Attardi and Felice Dell’Orletta. “Reverse “Predicting Lexical Complexity in English Texts”. Revision and Linear Tree Combination for Manuscript, arXiv:2102.08773v1 [cs.CL] (2021) Dependency Parsing”. In: NAACL-HLT 2009 – White Paper on the Future Impact of Artificial North American Chapter of the Association for Intelligence on the Publishing Industry. Gould Computational Linguistics – In Proceedings of Finch and Frankfurt Book Fair, disponibile Human Language Technologies. Association for all’indirizzo Computational Linguistics. June Boulder, Colorado, https://www.buchmesse.de/files/media/pdf/WhiteP pp. 261 – 264 (2009) aperAIPublishingGouldFinch2019EN.pdf (2019) Giuseppe Attardi, Felice Dell’Orletta, Maria Simi and Joseph Turian. “Accurate Dependency Parsing with a Stacked Multilayer Perceptron”. In: EVALITA