Confronto tra diversi tipi di valutazione del miglioramento della chiarezza di testi amministrativi in lingua italiana Mariachiara Pascucci1,†, Mirko Tavosanis1,∗,† 1 Università di Pisa, Dipartimento di Filologia, letteratura e linguistica Abstract The paper presents a comparison of different types of evaluation of administrative texts in the Italian language on which a clarity improvement intervention was carried out. The clarity improvement was performed by human experts and ChatGPT. The evaluation was carried out in four different ways: by expert evaluators, used as a reference; by evaluators with good skills, subject to dedicated training; by generic evaluators recruited through a crowdsourcing platform; by ChatGPT. The results show that the closest match to the results of the evaluation by expert evaluators was reached, by a wide margin, by evaluators with good skills and dedicated training; the second best approach was reached by requesting evaluation from ChatGPT; the worst approach was reached by generic evaluators recruited through a crowdsourcing platform. Task features that may have influenced the outcome are also discussed. Keywords Text simplification, LLMs, ChatGPT, Italian, evaluation, crowdsourcing1 1. Introduzione criteri di ampio consenso per la valutazione dei prodotti [2]. La diffusione dei sistemi di intelligenza artificiale Naturalmente, molti metodi di valutazione attuali generativa ha portato a una grande richiesta di forniscono almeno un primo orientamento nella valutazione delle loro capacità. Il tipo di valutazione maggior parte dei casi. Per esempio, [3] ha mostrato che universalmente considerato più valido rimane in attraverso il crowdsourcing è possibile ottenere generale quello realizzato da esseri umani, che però in un’indicazione generica ma attendibile sul pratica può essere condotto in modi diversi e con miglioramento della chiarezza di testi in lingua inglese. risultati di valore molto diverso. Per alcune capacità, Tuttavia, gli studi sull’efficacia di simili pratiche sono inoltre, non esistono ancora quadri di valutazione ancora poco numerosi ed è senz’altro molto sentita la condivisi. Rientra senz’altro in quest’ultima categoria necessità di migliorare il livello attuale delle conoscenze. anche la valutazione del miglioramento complessivo Il presente contributo si inserisce in questo contesto della chiarezza dei testi in lingua italiana, oggetto in quanto mette a confronto diversi metodi per valutare dell’analisi qui descritta. Gli indici oggettivi esistenti per il miglioramento della chiarezza dei testi. Oggetto della l’analisi di testi, come il GULPEASE o la quantificazione valutazione sono stati testi piuttosto ampi, delle parole che rientrano nel Vocabolario di Base, rappresentativi dell’italiano amministrativo e resi più descrivono in effetti solo aspetti limitati di un qualunque chiari attraverso un intervento umano e attraverso la testo. Per la chiarezza in sé, mentre abbondano le riformulazione con ChatGPT (versione 3.5); il contesto, indicazioni su come scrivere in modo chiaro (una sintesi che ha visto la realizzazione di diverse attività di aggiornata è esposta in [1]), non sono mai stati codificati valutazione collegate, è descritto in dettaglio in [4]. CLiC-it 2024: Tenth Italian Conference on Computational Linguistics, mariachiara.pascucci@phd.unipi.it (M. Pascucci); Dec 04 — 06, 2024, Pisa, Italy mirko.tavosanis@unipi.it (M. Tavosanis). ∗ Corresponding author. 0009-0007-1934-8479 (M. Pascucci); 0000-0002-4730-3901 (M. † Il contributo degli autori è unitario. Tuttavia, si dichiara che sono Tavosanis) © 2024 Copyright for this paper by its authors. Use permitted under opera di Mariachiara Pascucci i paragrafi 2, 3, 4 e 7 e di Mirko Creative Commons License Attribution 4.0 International (CC BY 4.0). Tavosanis i paragrafi 1, 5, 6 e 8. CEUR ceur-ws.org Workshop ISSN 1613-0073 Proceedings Ai fini del presente contributo, la valutazione è stata potenziale di GPT-4, confrontando i risultati delle condotta in quattro modi diversi: da valutatori esperti, valutazioni del modello con quelle di esperti umani per i usati come riferimento; da valutatori con buone processi di semplificazione. competenze, oggetto di una formazione dedicata; da valutatori generici reclutati attraverso una piattaforma 3. Testi originali e di crowdsourcing; da parte di ChatGPT. In tutti i casi, è riformulazioni stata usata la stessa serie di indicazioni per la valutazione. I risultati sono stati analizzati in [4] per le La valutazione cui si fa riferimento nel presente informazioni che forniscono riguardo alla capacità di contributo è stata eseguita in rapporto a un’attività di sistemi come ChatGPT di migliorare efficacemente la miglioramento della chiarezza di testi amministrativi chiarezza dei testi. In questa sede si mostrerà invece, in regolativi in lingua italiana. Questo tipo di attività modo più specifico, la differenza nei giudizi in rapporto corrisponde a una richiesta diffusa a livello sociale e su ai quattro modi di valutazione. cui esiste ampia bibliografia specifica (per esempio: [12]). Tuttavia, anche in questo caso non esistono criteri 2. Lavori correlati condivisi per la valutazione di testi esistenti; non è quindi possibile, per esempio, rifarsi a scale condivise Anche se il miglioramento della chiarezza è un obiettivo per descrivere la chiarezza di un testo amministrativo. centrale in vari campi di ricerca linguistica applicata, la Sulla situazione generale dei criteri per la chiarezza e sui valutazione dell’efficacia dei processi di miglioramento dettagli del caso esaminato si rimanda di nuovo a [1] e rimane, come si è detto, una questione aperta. Tale stato [4]; le informazioni fornite qui di seguito saranno quindi di cose si riflette nell’eterogeneità delle soluzioni solo quelle strettamente necessarie per l’inquadramento adottate nei diversi studi realizzati in questo ambito. dell’esperienza svolta. Come evidenziato in [2], infatti, non esiste un quadro Per l’attività descritta qui di seguito sono state scelte teorico condiviso per valutare l’efficacia delle casualmente 8 sezioni ragionevolmente autonome e riformulazioni in termini di chiarezza né, in senso più autoconsistenti di testi amministrativi più ampi, per una ampio, per la valutazione complessiva della qualità dei lunghezza approssimativa di 2000 caratteri a sezione. I testi generati. In una rassegna sistematica, [5] sottolinea testi sono stati poi rielaborati chiedendo a ChatGPT di che le operazioni di valutazione dei testi generati migliorarne la chiarezza. I due prompt usati per la possono avvalersi di diversi approcci: valutazioni versione definitiva del lavoro sono riportati umane, metriche quantitative o sistemi di valutazione nell’Appendice A. automatica e semiautomatica. Il giudizio umano è In aggiunta al miglioramento della chiarezza da adoperato, per esempio, in lavori come [6] e in studi che parte ChatGPT, uno degli autori (Mariachiara Pascucci) hanno adottato un approccio comparativo, come [7], che ha condotto un intervento umano, usato come termine propone un confronto tra valutazione umana e metriche di confronto, per il miglioramento della chiarezza. automatiche per valutare l’efficacia dei processi di Inoltre, nel campione sono stati inseriti, con minimi semplificazione. La letteratura di riferimento sembra in ritocchi, alcuni esempi classici di miglioramento della effetti convergere verso l’idea che la valutazione umana chiarezza, ripresi da [13]. dei testi generati rimanga in generale la più adeguata, come evidenziato da diversi lavori, tra cui [8] e [2]. Non 4. Interventi di riformulazione mancano tuttavia studi che usano metriche automatiche e indici di leggibilità per la valutazione degli output, Per quanto riguarda la riformulazione manuale dei testi, come [9]. gli interventi hanno interessato vari tratti linguistici (a Riguardo all’impiego del crowdsourcing, un livello lessicale, morfosintattico e testuale) approccio interessante è quello di lavori come il già comunemente associati alla complessità dei testi citato [3] e il più recente [10], in cui sono messe a istituzionali. Il quadro di riferimento è quello presentato confronto diverse modalità di valutazione, incluse in [14]. metriche automatiche, giudizi di esperti e un test di L'analisi delle riformulazioni generate da ChatGPT comprensione che ha coinvolto partecipanti selezionati mostra che il modello ha operato in modo paragonabile in modo casuale e senza preparazione specifica per lo a quello umano, intervenendo contemporaneamente su svolgimento del compito. In ambito italiano, [11] ha più tratti e su più livelli linguistici. ChatGPT sembra esplorato l’uso del crowdsourcing per la valutazione comunque essersi concentrato sulla semplificazione del della complessità frasale. lessico, spesso piuttosto spinta, e sulla riduzione della L’applicazione dei modelli GPT alla valutazione lunghezza delle frasi. Di seguito, si riporta un esempio automatica della chiarezza testuale è stata ancora poco che consente di confrontare la versione originale con i indagata, ma non mancano gli esperimenti interessanti. due diversi tipi di riformulazione. Degno di nota è il già citato [7], che ha esaminato il Originale (ENERG-2) testi sono poi stati sottoposti senza indicazioni sulla provenienza o sull’origine delle riformulazioni. Le spese per “Servizi esterni” sono rappresentate dalle spese che il Beneficiario/Soggetto Attuatore sostiene a 6.1. Valutatori esperti favore di erogatori esterni di servizi, i quali si assumono Una prima valutazione del lavoro è stata compiuta dai determinati compiti che sono necessari per il due autori. Mirko Tavosanis è un ricercatore attivo da raggiungimento degli obiettivi progettuali e che il oltre 25 anni nel settore della chiarezza comunicativa; ha Beneficiario/Soggetto Attuatore non è in grado di pubblicato in proposito un manuale scritto in svolgere in proprio. collaborazione [16] e contributi divulgativi e scientifici dedicati alla valutazione dei testi generati. Mariachiara Riformulazione manuale Pascucci è dottoranda presso la Scuola di Dottorato in Italianistica dell’Università di Pisa con una ricerca sul Le spese per “Servizi esterni” sono le spese che il miglioramento della chiarezza nella comunicazione Beneficiario/Soggetto Attuatore sostiene a favore di amministrativa. erogatori esterni di servizi. Tali erogatori svolgono In una prima fase, i due valutatori hanno lavorato in compiti specifici, necessari per il raggiungimento degli modo indipendente. I punteggi da loro assegnati sono obiettivi del progetto, che il Beneficiario/Soggetto stati poi confrontati per produrre una valutazione Attuatore non è in grado di svolgere in proprio. condivisa, che è stata usata come punto di riferimento. Riformulazione automatica (Prompt 2) 6.2. Valutatori formati appositamente Le spese per 'Servizi esterni' sono i soldi che una persona Il gruppo è stato composto da studenti frequentanti del o un'organizzazione spende per ottenere aiuto da altri corso di Linguistica italiana II del corso di laurea fornitori di servizi. Questi fornitori svolgono compiti magistrale in Informatica umanistica dell’Università di importanti per raggiungere gli obiettivi di un progetto, Pisa. Il corso di laurea richiede alle matricole il possesso compiti che la persona o l'organizzazione che riceve di almeno 12 CFU in discipline linguistiche all’ingresso; l'aiuto non può fare da sola. diversi studenti hanno poi competenze più avanzate (Generated by AI tool ChatGPT-3.5) negli studi linguistici. Tutti i valutatori hanno quindi operato mentre 5. Griglia di valutazione e seguivano un corso annuale sulla valutazione dei testi generati. La sezione conclusiva del corso è stata dedicata valutatori alla valutazione del miglioramento della chiarezza, con Il primo passo per l’attività è stata la creazione di una l’inclusione di basi teoriche, la descrizione dei tratti griglia di valutazione basata sulla bibliografia esistente e linguistici tipicamente coinvolti e una formazione sull’esame diretto delle capacità del sistema. La griglia è specifica sulla valutazione. Al termine del corso si è stata messa a punto attraverso una serie di verifiche svolta un’attività di armonizzazione delle valutazioni in intermedie ed è stata corredata da istruzioni applicative presenza (90 minuti), in cui le valutazioni assegnate a ricavate dalla pratica, con discussione di esempi specifici testi simili a quelli poi presi in esame sono state discusse e indicazioni per la gestione di casi dubbi. La versione e revisionate in modo da arrivare a una valutazione definitiva della griglia e delle istruzioni, usata per tutte quanto più possibile condivisa. le attività descritte qui di seguito, è riportata L’attività finale di valutazione è stata svolta in nell’Appendice B. presenza, in aula, con testi presentati su carta e una durata di 90 minuti. I valutatori sono stati divisi in due 6. Modalità della valutazione gruppi, denominati A (7 valutatori) e B (6 valutatori); ogni gruppo doveva valutare 8 testi riformulati, 4 dei La valutazione è stata condotta in quattro modi diversi, quali prodotti da ChatGPT e 4 da intervento umano, presentati qui di seguito. accompagnati dagli originali; i testi erano alternati nei Il quadro concettuale usato è quello descritto in [15]. due gruppi, in modo che nel complesso venissero Come punto di riferimento sono quindi stati usati i valutati tutti gli 8 testi prodotti da ChatGPT e tutti gli 8 giudizi di valutatori esperti. Tuttavia, ogni attività di prodotti da intervento umano. Non tutti i valutatori valutazione è stata condotta separatamente, senza che hanno completato l’attività, in particolare per gli ultimi chi la conduceva avesse a disposizione i punteggi testi di ogni gruppo. assegnati nelle altre attività. Ai valutatori descritti di seguito – con l’eccezione dei valutatori esperti, responsabili anche della preparazione del campione – i 6.3. Crowdsourcing 7. Risultati della valutazione I testi sono stati valutati anche mediante crowdsourcing, Va notato che in tutti e quattro i modi la valutazione ha utilizzando la piattaforma Prolific. classificato le rielaborazioni come di alto livello. I voti L'uso di metodi di crowdsourcing per la ricerca assegnati ai singoli aspetti da valutare non scendono in linguistica è ben documentato, come descritto in [17]. In effetti quasi mai sotto il 3 e rimangono quasi sempre particolare, sistemi di crowdsourcing sono stati applicati nella fascia del 4 e del 5. Le differenze tra i singoli anche al campo della complessità linguistica e del valutatori umani e ChatGPT sono quindi piuttosto miglioramento della chiarezza in lavori come [3], [11] e contenute. La sintesi dei risultati completi è presentata [18]. nell’Appendice C. Per questo lavoro, la selezione dei partecipanti è Una discussione dei risultati in rapporto alle stata realizzata avviando due studi distinti per ottenere prestazioni del sistema viene presentata in [3] e [4]. Qui due gruppi differenziati di valutatori. I criteri di verranno invece prese in considerazione solo le selezione includevano la padronanza della lingua differenze nei risultati tra i quattro modi di valutazione. italiana e il livello di istruzione; sono stati infatti Occorre quindi innanzitutto confrontare le medie reclutati solo partecipanti in possesso di un diploma di complessive della valutazione (Tabella 1). laurea. Per replicare le condizioni della valutazione in aula, Tabella 1 è stato reclutato lo stesso numero di partecipanti, Medie complessive e indicazione dello scostamento suddivisi in Gruppo A (7 valutatori) e Gruppo B (6 assoluto rispetto al valore fornito dagli esperti. valutatori). Gruppo A Gruppo B scostamento scostamento Il tempo a disposizione per completare l'attività era identico a quello della valutazione in aula, ovvero 90 minuti, ma il tempo impiegato in media dai partecipanti per lo svolgimento del compito è stato di 35 minuti. I gruppi di testi distribuiti ai partecipanti su Prolific corrispondevano, per ordine e tipologie di Esperti 4,40 4,66 rielaborazione, a quelli utilizzati nella valutazione in Valutatori 4,51 0,11 4,58 0,08 aula. Prolific ha reindirizzato i partecipanti selezionati a formati un modulo Google. Nella scheda iniziale del modulo Crowdsourcing 4,23 0,17 3,90 0,76 sono state fornite le indicazioni per l’assegnazione dei GPT 4,92 0,52 4,86 0,20 punteggi, identiche a quelle fornite per la valutazione in aula. Ogni scheda successiva del modulo conteneva il testo originale e la versione revisionata, con l'istruzione Tra i vari modi di valutazione ci sono dunque differenze di assegnare un punteggio da 1 a 5 per ciascuno dei rilevanti nei risultati. Usando come riferimento i giudizi parametri specificati. dei valutatori esperti, il maggior avvicinamento si ha con i giudizi dei valutatori formati. GPT fornisce punteggi 6.4. Valutazione con ChatGPT sistematicamente più alti (in pratica, tutti 5 con pochi 4), mentre il crowdsourcing fornisce valutazioni L’attività di valutazione è stata condotta anche con sistematicamente più basse. Calcolando lo scostamento ChatGPT (versione 3.5), proponendo come prompt al complessivo, inteso come somma dei valori assoluti delle sistema le stesse istruzioni fornite ai valutatori umani. differenze, il risultato migliore si ha con i valutatori ChatGPT è stato impiegato in modalità zero-shot: per lo formati, con 0,19, seguiti a buona distanza da ChatGPT svolgimento del compito non sono dunque stati forniti con 0,76 e dal crowdsourcing con 0,93. al modello esempi di valutazioni già realizzate. Le Le medie complessive nascondono però una versioni originali e quelle rielaborate di ciascun testo differenza tra gli aspetti. Come è stato notato dai sono state presentate a ChatGPT separatamente in valutatori esperti, è possibile assegnare i punteggi per gli diverse finestre di dialogo, senza specificare l'origine aspetti 1, 2 e 5 in modo relativamente oggettivo, della revisione, analogamente a quanto fatto con i appoggiandosi a valutazioni quantitative, mentre per gli valutatori umani. Pur non avendo ricevuto indicazioni aspetti 3 e 4 è frequente l’incertezza di assegnazione tra specifiche a tal proposito, ChatGPT ha fornito, per ogni il punteggio 4 e il punteggio 5. Sembra quindi utile parametro, una motivazione dettagliata del punteggio valutare separatamente gli aspetti 1, 2 e 5 (Tabella 2). assegnato, facendo ampio riferimento ai criteri di valutazione forniti. Tabella 2 La conclusione è senz’altro condivisibile: per questo tipo Medie degli aspetti 1, 2 e 5 e indicazione dello di attività, semplicemente, i criteri devono ancora essere scostamento assoluto rispetto al valore fornito dagli messi a punto in modo soddisfacente. Tuttavia, sembra esperti. evidente la distanza tra l’accordo che si può raggiungere con valutatori formati appositamente invece che con il Gruppo A Gruppo B scostamento scostamento semplice crowdsourcing. 7.2. Esame di un caso specifico I motivi per le differenze tra le diverse valutazioni sono naturalmente molto difficili da ricostruire. Tuttavia, in Esperti 4,42 4,76 almeno alcuni casi è possibile notare che i valutatori Valutatori 4,58 0,16 4,54 0,18 hanno fornito valutazioni difficili da giustificare formati oggettivamente, in rapporto probabile con la Crowdsourcing 4,32 0,10 4,02 0,74 complessità del compito. GPT 4,92 0,50 4,92 0,16 Per esempio, nel caso del testo con codice CASS-4, inserito nel gruppo A, il crowdsourcing ha fornito una Anche in questo caso, calcolando lo scostamento valutazione di 4,71 per l’aspetto di “conservazione delle complessivo, il risultato migliore si ha comunque con i informazioni”. Su sette valutatori, infatti, 4 hanno valutatori formati, con 0,34, seguiti da ChatGPT con 0,66 fornito il punteggio 5, che corrisponde al giudizio “la e dal crowdsourcing con 0,84. La classifica quindi non riformulazione è sostanzialmente corretta e completa”; 3 cambia, anche se è notevole che su questa selezione di invece hanno fornito un punteggio di livello 4, che aspetti lo scostamento minore rispetto agli esperti si corrisponde al giudizio “la riformulazione altera ottenga con il crowdsourcing nel gruppo A e con l’originale, ma solo in modo marginale (per esempio, se ChatGPT nel gruppo B. viene descritta una procedura, le discrepanze possono portare distorsioni marginali nella procedura; rientrano 7.1. Accordo tra valutatori in questa categoria anche le leggere ma ripetute distorsioni del significato di partenza, anche quando Per quanto riguarda la robustezza della valutazione sia sono prive di effetti pratici)”. I valutatori esperti hanno nel caso dei valutatori formati appositamente sia nel caso del crowdsourcing, l’accordo tra i valutatori invece assegnato al testo il giudizio 3: “la riformulazione altera l’originale in modo significativo (per esempio, se individuali non ha raggiunto i livelli considerati viene descritta una procedura, anche se la maggior parte sufficienti secondo il calcolo dell’alpha di Krippendorff dei contenuti è corretta, seguire le indicazioni potrebbe ([19]). L’accordo complessivo tra i valutatori formati provocare qualche errore nello svolgimento della procedura)”. appositamente per il gruppo A è stato in effetti di 0,288; Quest’ultima valutazione è stata dovuta, in aggiunta per il gruppo B, di 0,270. Il livello massimo di accordo è a cambiamenti minori, al modo in cui sono state stato raggiunto dal gruppo A nella valutazione riformulate due frasi. dell’aspetto di “conservazione delle informazioni”, che ha raggiunto il valore di 0,502. L’accordo complessivo tra Frase 1 – originale: [Il Consiglio Circoscrizionale] i valutatori reclutati per crowdsourcing è stato invece di 0,181 per il gruppo A e di 0,141 per il gruppo B. Anche risolve, per motivi espressi in narrativa, di fissare i in questo caso, il livello massimo di accordo è stato seguenti criteri al fine di consentire all'ufficio Tecnico raggiunto dal gruppo A nella valutazione dell’aspetto di circ.le di essere autorizzato ad installare direttamente “conservazione delle informazioni”, che però ha ovvero di autorizzare i cittadini ad installare barriere metalliche senza dover sottoporre le richieste al parere raggiunto solo il valore di 0,241. della Commissione circ.le Traffico Secondo lo schema di interpretazione dell’alpha di Krippendorff, i valori inferiori a 0,670 sono Frase 1 - riformulazione: Il Consiglio Circoscrizionale, in indicative of poor agreement among raters. Data with a virtù delle ragioni esposte, decide di stabilire i seguenti Krippendorff's Alpha below this threshold are often criteri per consentire all'Ufficio Tecnico circoscrizionale deemed unreliable for drawing triangulated conclusions. di autorizzare direttamente l'installazione dei It suggests that the raters are not applying the coding parapedonali o di concedere ai cittadini l'autorizzazione per farlo senza dover ricorrere al parere della scheme consistently or that the scheme itself may be Commissione circoscrizionale del Traffico. flawed [19]. (Generated by AI tool ChatGPT-3.5) Nel testo riformulato non si chiarisce che l’Ufficio autori nella riscrittura di alcuni testi: anche se le Tecnico può installare direttamente i parapedonali, ma caratteristiche della valutazione rendono a nostro si parla solo di “autorizzare” l’installazione. giudizio molto limitato il rischio di alterazioni, si prevede di modificare il protocollo per future attività Frase 2 – originale: i parapedonali dovranno essere dello stesso genere, delegando tutte le riscritture a terze installati lungo i marciapiedi in corrispondenza delle parti. Per la valutazione dei testi generati da ChatGPT Ambasciate che, in genere per motivi di sicurezza, ne può essere inoltre utile far valutare i testi a un sistema fanno richiesta. diverso – e, in generale, ampliare e ripetere le valutazioni è naturalmente indispensabile per validarne Frase 2 – riformulazione: Sarà richiesto l'installazione di i risultati. parapedonali lungo i marciapiedi in corrispondenza Di sicuro, però, i risultati invitano a prestare delle Ambasciate, su richiesta di queste ultime per attenzione ai limiti di pratiche oggi diffuse come il ragioni di sicurezza. crowdsourcing, che sul compito in esame hanno (Generated by AI tool ChatGPT-3.5) mostrato un notevole scostamento rispetto alla valutazione di esperti. Inoltre, se la valutazione rapida ed Nel testo riformulato, al di là dell’errore grammaticale (e economica fornita da sistemi come ChatGPT dovesse semantico) in “Sarà richiesto l’installazione”, viene essere regolarmente confermata come più vicina alla inserita una limitazione inesistente nell’originale: le valutazione di esperti rispetto al crowdsourcing, le installazioni possono implicitamente essere accettate motivazioni per il crowdsourcing stesso solo nel caso che dietro alla richiesta vi siano “ragioni di scomparirebbero. sicurezza”. Quella che nell’originale era solo una spiegazione diventa quindi una condizione necessaria. Ringraziamenti In questo caso, i valutatori esperti confermano l’attribuzione del giudizio 3, che però non è stato Ringraziamo per la collaborazione Claudia Gigliotti. espresso da nessun valutatore del crowdsourcing (nella Diversi aspetti dell’analisi dei dati sono stati discussi con valutazione da parte di esperti, il testo è stato valutato Angela Ferrari. La responsabilità delle affermazioni solo da 2 valutatori, che hanno comunque assegnato il rimane naturalmente agli autori. giudizio 5). Note 8. Conclusioni [1] G. Fiorentino, V. Ganfi. “Parametri per I risultati dei diversi modi di valutazione potrebbero a semplificare l’italiano istituzionale: revisione della prima vista essere interpretati come una svalutazione del letteratura.” Italiano LinguaDue 16.1, pages 220- crowdsourcing, rispetto al quale la semplice richiesta a 237, 2024, doi:10.54103/2037-3597/23835 ChatGPT è in grado di fornire risultati di qualità più alta. [2] M. Tavosanis, “Valutare la qualità dei testi generati Tuttavia, è chiaro che le caratteristiche dell’attività in lingua italiana.” AI-Linguistica 1.1 (2024), pages svolta rendono consigliabile non trarre conclusioni 1-24. troppo generalizzate. [3] W. S. Lasecki, R. Luz, J. P. Bigham, Measuring text Innanzitutto, invita alla cautela il fatto che la simplification with the crowd, in: Proceedings of valutazione dipenda con ogni evenienza dalla scala the 12th Web for All Conference W4A 15, 2015. usata. In un contesto in cui si sa che il voto può essere doi:10.1145/2745555.2746658. solo 4 o 5, in fin dei conti, la semplice assegnazione [4] M. Tavosanis, Valutare la riformulazione casuale del punteggio darebbe 4,5 sia al gruppo A sia al automatica, in: Amministrazione attiva, Firenze, gruppo B, scostandosi dal giudizio degli esperti con 0,26 Cesati (in stampa). per la valutazione complessiva e 0,34 per gli aspetti 1, 2 [5] A. Celikyilmaz, E. Clark, J. Gao, Evaluation of Text e 5, valori molto vicini a quelli forniti dai valutatori Generation: A Survey, 2020, arXiv:2006.14799. formati. [6] R. Tariq et al., Assessing ChatGPT for Text In queste circostanze, sembra innanzitutto utile Summarization, Simplification and Extraction creare griglie di valutazione più specifiche e mirate. Le Tasks, 2023 IEEE 11th International Conference on alte prestazioni dei sistemi attuali, del resto, rendono Healthcare Informatics (ICHI), Houston, TX, USA, senz’altro meno utili che in passato scale 1-5 in cui il 2023, pp. 746-749, 2023, doi: punteggio 1 deve essere assegnato a un “testo 10.1109/ICHI57859.2023.00136. completamente incomprensibile” e il punteggio 5 a un [7] A. Sottana, B. Liang, K. Zou, Z. Yuan, Evaluation “testo perfettamente comprensibile”. Metrics in the Era of GPT-4: Reliably Evaluating Vanno inoltre tenuti presenti alcuni limiti Large Language Models on Sequence to Sequence dell’analisi. Uno tra questi è il coinvolgimento degli Tasks. 2023, arXiv:2310.13800. [8] C. van der Lee, A. Gatt, E. van Miltenburg, S. Coefficient. MethodsX, 12, 102545, 2024, doi: Wubben, E. Krahmer, Best practices for the human https://doi.org/10.1016/j.mex.2023.102545 evaluation of automatically generated text. In Proceedings of the 12th International Conference on Natural Language Generation, pages 355–368, Tokyo, Japan, Association for Computational Linguistics, 2019. [9] D. Nozza, G. Attanasio, Is It Really That Simple? Prompting Language Models for Automatic Text Simplification in Italian. CLiC-it 2023: 9th Italian Conference on Computational Linguistics, Nov 30 — Dec 02, 2023, Venice, Italy, 2023. [10] N. van Raaij, D. Kolkman, K. Podoynitsyna, Clearer Governmental Communication: Text Simplification with ChatGPT Evaluated by Quantitative and Qualitative Research. In Proceedings of the Workshop on DeTermIt! Evaluating Text Difficulty in a Multilingual Context @ LREC-COLING 2024, pages 152–178, Torino, Italia. ELRA and ICCL, 2024. [11] D. Brunato, L. De Mattei, F. Dell’Orletta, B. Iavarone, G. Venturi, Is this sentence difficult? do you agree? In Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing, pages 2690–2699, Brussels, Belgium Association for Computational Linguistics, 2018. [12] M. Cortelazzo, Il linguaggio amministrativo: principi e pratiche di modernizzazione, Carocci, Roma, 2021. [13] S. Cassese (a cura di), Codice di stile delle comunicazioni scritti ad uso delle amministrazioni pubbliche, Istituto poligrafico e zecca dello Stato, Roma, 1994. [14] E. Piemontese, Capire e farsi capire. Teorie e tecniche della scrittura controllata. Napoli: Tecnodid, 1996. [15] K. Krippendorff, Content Analysis: An Introduction to Its Methodology, 4th edition, SAGE Publications, Los Angeles, 2019. [16] M. Gasperetti, M. Tavosanis, Comunicare, Apogeo, Milano, 2004. [17] R. Munro, S. Bethard, V. Kuperman, V.T. Lai, R. Melnick, C. Potts, T. Schnoebelen e H. Tily. Crowdsourcing and language studies: The new generation of linguistic data. In Proceedings of the Workshop on Creating Speech and Language Data with Amazons Mechanical Turk, pages 122–130, 2010. [18] O. De Clercq, V. Hoste, B. Desmet e P. Van Oosten. Using the crowd for readability prediction, Natural Language Engineering, pages 1–33, 2013. [19] G. Marzi, M. Balzano, D. Marchiori, K-Alpha Calculator—Krippendorff's Alpha, 2024. Calculator: A User-Friendly Tool for Computing Krippendorff's Alpha Inter-Rater Reliability A. Prompt usati Quindi per esempio dovranno essere considerate buone, dal punto di vista della correttezza delle Prompt 1: Puoi semplificare la forma linguistica del informazioni, riformulazioni come questa: seguente testo amministrativo-burocratico pur Originale: Approvazione, con Decreto del mantenendo tutti i dettagli del contenuto? Voglio che il Ministero del Lavoro e delle Politiche Sociali n. 15 del 29 testo prodotto sia dettagliato e lungo tanto quanto il gennaio 2024, della “Nota Metodologica per l’adozione testo da semplificare che è qui tra virgolette “[...]” di UCS (Unità di Costo Standard).” Riformulato: Approvazione della “Nota Prompt 2: Rendi più chiaro il seguente testo inserito tra Metodologica per l'adozione di UCS (Unità di Costo virgolette, estratto da linee guida ministeriali, in modo Standard)” con un decreto ministeriale del gennaio 2024. che sia facilmente comprensibile per un pubblico Anche l’omissione di informazioni (purché non diversificato, inclusi individui con conoscenze limitate rilevanti alla comprensione di quanto rimane) deve dell’argomento e un livello medio di istruzione. essere considerata ininfluente: anche l’eliminazione di Concentrati sull'utilizzo di un linguaggio chiaro e informazioni deve essere considerata una scelta conciso senza compromettere l'accuratezza delle redazionale. L’entità dell’omissione viene valutata informazioni. Assicurati che siano preservati i dettagli invece nell’aspetto 5. chiave riguardanti la procedura descritta. Punta a Quindi per esempio dovranno essere considerate migliorare l'accessibilità e la leggibilità mantenendo il buone, dal punto di vista della correttezza delle contenuto e il significato essenziali del documento. informazioni, riformulazioni come queste: Preserva la coesione del testo. Mantieni bilanciata la Originale: l’introduzione dell’equivalenza alla lunghezza del testo. “[...]” partecipazione ai PUC, ai fini della definizione degli impegni nell’ambito dei patti per l'inclusione sociale, B. Griglia di valutazione e della partecipazione, definita d’intesa con il Comune, ad istruzioni attività di volontariato presso enti del Terzo settore e a titolarità degli stessi, da svolgere nel Comune di 1. La correttezza delle informazioni fornite residenza nei medesimi ambiti di intervento previsti per 1: la riformulazione non ha nessun rapporto con i PUC; l’originale o altera l’originale (per omissione, Riformulato: l’introduzione dell'equivalenza tra deformazione o aggiunta) al punto di essere partecipazione ai PUC e ad attività di volontariato per i incomprensibile patti per l'inclusione sociale. 2: la riformulazione altera l’originale in modo grave Un buon modo per controllare può essere: dare brevi (per esempio, se viene descritta una procedura, il testo titoli ai singoli capoversi, per sintetizzare l’argomento, e riformulato non permette di eseguirla correttamente) valutare la correttezza un capoverso alla volta. 3: la riformulazione altera l’originale in modo significativo (per esempio, se viene descritta una 2. La correttezza linguistica del testo procedura, anche se la maggior parte dei contenuti è Nella prospettiva di un lettore italiano medio corretta, seguire le indicazioni potrebbe provocare (madrelingua, con diploma di scuola superiore come qualche errore nello svolgimento della procedura) titolo di studio più alto), dal punto di vista formale il 4: la riformulazione altera l’originale, ma solo in testo risulta: modo marginale (per esempio, se viene descritta una 1: difficile da ricondurre alla norma procedura, le discrepanze possono portare distorsioni 2: con quattro o più errori morfosintattici marginali nella procedura; rientrano in questa categoria (indipendentemente dalla loro estensione) anche le leggere ma ripetute distorsioni del significato di 3: con non più di tre errori morfosintattici e/o molti partenza, anche quando sono prive di effetti pratici) usi insoliti di collocazioni, o simili 5: la riformulazione è sostanzialmente corretta e 4: con non più di due errori morfosintattici, possibili completa anche a esseri umani, e/o non più di due usi insoliti delle collocazioni, o simili aspetti discutibili dal punto di vista Precisazioni importanti formale L’omissione, totale o parziale, dei riferimenti a leggi, 5: corretta, con incertezze minime che potrebbero regolamenti e simili deve essere considerata essere trovate anche in un testo professionale umano ininfluente (a meno che non sia necessaria per spiegare Precisazioni importanti una parte del testo: per esempio, il fatto che le modifiche La valutazione di questo aspetto non deve riguardare sono richieste da una legge appena approvata): questa va il registro linguistico. In altri termini, la scelta di usare considerata come una scelta redazionale presa a monte. un tono più o meno formale, incluso l’impiego di forestierismi, viene considerata una scelta redazionale. Per esempio, in un testo potranno essere accettabili sia Anche per questo aspetto, come per l’aspetto 1, “fare” sia “eseguire”, senza assegnare una preferenza l’omissione o il mantenimento dei riferimenti a leggi, all’una scelta o all’altra – a parità di correttezza. regolamenti e simili devono essere considerati La valutazione non deve riguardare nemmeno la ininfluenti: ai fini della valutazione di questo aspetto, si comprensibilità delle parole o delle espressioni, che suppone che i riferimenti compaiano se sono utili ai fini è valutata separatamente nell’aspetto 3. Per esempio, a della comunicazione e non compaiano se sono inutili ai livello di correttezza linguistica possono essere fini della comunicazione. Lo stesso vale per l’omissione accettabili sia “download” sia “scaricamento”, anche se di informazioni, che viene valutata nell’aspetto 5. una parola è più comprensibile dell’altra. L’accettabilità di incertezze “minime” è collegata al 5. La conservazione delle informazioni fatto che anche lettori L1 colti possono avere idee 1: il testo elimina più del 75% delle informazioni diverse sull’accettabilità o meno di alcune parole e dell’originale costruzioni. Di qui anche l’importanza di mettersi nella 2: il testo elimina tra il 75% e il 50% delle prospettiva di un lettore italiano “medio”. informazioni dell’originale 3: il testo elimina tra il 50% e il 25% delle 3. La chiarezza complessiva del testo informazioni dell’originale Per un lettore italiano medio (madrelingua, con diploma 4: il testo elimina una parte delle informazioni di scuola superiore come titolo di studio più alto), il testo dell’originale inferiore al 25% riformulato è verosimilmente: 5: il testo mantiene tutte le informazioni 1: incomprensibile dell’originale 2: quasi del tutto incomprensibile 3: in buona parte comprensibile, ma con uno o più Precisazioni importanti elementi significativi poco comprensibili La valutazione deve essere una stima quantitativa. Non 4: in buona parte comprensibile, con piccole deve tener quindi conto dell’importanza delle incertezze (per esempio, sul significato esatto di una informazioni eliminate, ma solo della loro quantità. Si parola) può tenere come riferimento la lunghezza delle 5: perfettamente comprensibile espressioni che presentano le informazioni eliminate. Un buon modo per valutare la conservazione delle Precisazioni importanti informazioni può essere: sottolineare nell’originale le Questo aspetto deve essere valutato senza tenere conto parole o le espressioni o le frasi che non hanno riscontro della completezza o della correttezza oggettiva nel testo riformulato e fare una stima della percentuale delle informazioni, ma solo della loro coerenza interna complessiva. e della loro presentazione. Inoltre, deve essere valutato senza basarsi sulla brevità o meno del testo (di cui, in Importante! In caso di dubbio sull’aspetto cui sede di valutazione complessiva, si tiene conto in base assegnare un errore o una deviazione, la correttezza alla lunghezza in parole e in caratteri dell’originale e delle informazioni (aspetto 1) deve essere privilegiata della riformulazione). rispetto alla correttezza linguistica (aspetto 2) e alla Anche per questo aspetto, come per l’aspetto 1, chiarezza complessiva (aspetto 3). In pratica, l’errore l’omissione o il mantenimento dei riferimenti a leggi, andrà contato come errore di correttezza, senza influire regolamenti e simili devono essere considerati sulla valutazione degli altri aspetti. ininfluenti: ai fini della valutazione di questo aspetto, si Per esempio, un’espressione come “Se il Beneficiario suppone che i riferimenti compaiano se sono utili ai fini non è lo stesso dell’esecutore dell’azione” (al posto di della comunicazione e non compaiano se sono inutili ai “Qualora il Beneficiario non coincida con il Soggetto fini della comunicazione. Lo stesso vale per l’omissione Attuatore”) dovrebbe essere valutata come errore nella di informazioni, che viene valutata nell’aspetto 5. correttezza, indipendentemente dai dubbi che possono venire (a seconda dei contesti) per quanto riguarda la 4. Il livello di miglioramento rispetto all’originale correttezza linguistica o la chiarezza. 1: il testo è molto meno chiaro dell’originale 2: il testo è sensibilmente meno chiaro dell’originale 3: il testo è tanto chiaro quanto l’originale 4: il testo è sensibilmente più chiaro dell’originale 5: il testo è molto più chiaro dell’originale Precisazioni importanti C. Risultati complessivi Testo Apposita Crowdso mente urcing ChatGPT Aspetti Esperti PRIN-4 Correttezza delle informazioni 5,00 4,83 4,50 5,00 Revisione umana Correttezza linguistica 5,00 4,67 4,67 4,00 Chiarezza complessiva del testo 4,00 5,00 4,50 4,00 Livello di miglioramento 4,00 4,67 3,83 4,00 Conservazione delle informazioni 5,00 4,83 4,17 5,00 PRIN-4 Correttezza delle informazioni 5,00 5,00 4,57 5,00 ChatGPT Correttezza linguistica 5,00 5,00 4,86 5,00 Chiarezza complessiva del testo 4,00 4,57 4,71 5,00 Livello di miglioramento 4,00 3,57 3,86 5,00 Conservazione delle informazioni 5,00 5,00 4,43 5,00 FP-4 Correttezza delle informazioni 5,00 4,43 3,71 5,00 Revisione umana Correttezza linguistica 5,00 4,86 4,43 5,00 Chiarezza complessiva del testo 5,00 4,71 3,86 5,00 Livello di miglioramento 5,00 4,14 3,14 5,00 Conservazione delle informazioni 4,00 4,43 3,29 5,00 FP-4 Correttezza delle informazioni 4,00 3,83 3,33 5,00 ChatGPT Correttezza linguistica 5,00 4,67 3,83 5,00 Chiarezza complessiva del testo 5,00 4,83 3,83 5,00 Livello di miglioramento 4,00 4,50 3,33 5,00 Conservazione delle informazioni 4,00 3,67 3,33 5,00 PONTI-1 Correttezza delle informazioni 4,00 4,86 4,57 5,00 Revisione umana Correttezza linguistica 5,00 4,71 4,57 5,00 Chiarezza complessiva del testo 4,00 4,57 4,43 5,00 Livello di miglioramento 5,00 4,57 4,00 5,00 Conservazione delle informazioni 3,00 3,43 3,71 5,00 PONTI-1 Correttezza delle informazioni 4,00 4,50 4,50 5,00 ChatGPT Correttezza linguistica 5,00 4,50 4,67 5,00 Chiarezza complessiva del testo 5,00 4,83 4,33 5,00 Livello di miglioramento 4,00 4,33 3,00 5,00 Conservazione delle informazioni 4,00 4,33 4,33 5,00 CASS-1 Correttezza delle informazioni 5,00 2,83 3,33 5,00 Revisione umana Correttezza linguistica 5,00 4,83 4,00 5,00 Chiarezza complessiva del testo 5,00 5,00 4,17 5,00 Livello di miglioramento 5,00 4,33 3,83 5,00 Conservazione delle informazioni 5,00 4,67 3,50 5,00 CASS-1 Correttezza delle informazioni 5,00 3,86 4,71 5,00 ChatGPT Correttezza linguistica 5,00 4,00 4,57 5,00 Chiarezza complessiva del testo 5,00 4,00 5,00 5,00 Livello di miglioramento 4,00 3,86 5,00 5,00 Conservazione delle informazioni 5,00 4,14 4,71 5,00 Testo Crowdso Apposita mente urcing ChatGPT Aspetti Esperti MOB-1 Correttezza delle informazioni 4,00 4,57 4,29 5,00 Revisione umana Correttezza linguistica 5,00 5,00 4,57 5,00 Chiarezza complessiva del testo 4,00 4,57 4,29 5,00 Livello di miglioramento 4,00 4,43 3,57 5,00 Conservazione delle informazioni 4,00 4,00 4,14 5,00 MOB-1 Correttezza delle informazioni 5,00 4,67 4,00 5,00 ChatGPT Correttezza linguistica 5,00 5,00 4,33 5,00 Chiarezza complessiva del testo 5,00 4,83 4,17 5,00 Livello di miglioramento 4,00 4,50 3,33 5,00 Conservazione delle informazioni 5,00 4,83 3,67 5,00 ENERG-2 Correttezza delle informazioni 5,00 3,67 4,33 5,00 Revisione umana Correttezza linguistica 5,00 4,17 4,50 5,00 Chiarezza complessiva del testo 5,00 3,83 4,50 5,00 Livello di miglioramento 4,00 3,83 4,17 5,00 Conservazione delle informazioni 5,00 4,00 4,17 5.00 Correttezza delle informazioni 3,00 3,57 4,29 5,00 ENERG-2 Correttezza linguistica 4,00 4,00 4,43 5,00 ChatGPT Chiarezza complessiva del testo 5,00 4,00 4,14 5,00 Livello di miglioramento 4,00 3,29 4,00 5,00 Conservazione delle informazioni 4,00 4,00 4,29 5,00 PRIN-5 Correttezza delle informazioni 5,00 4,57 4,14 4,00 Revisione umana Correttezza linguistica 5,00 4,71 4,71 5,00 Chiarezza complessiva del testo 4,00 4,86 4,29 5,00 Livello di miglioramento 4,00 4,00 3,57 5,00 Conservazione delle informazioni 3,00 3,57 3,29 5,00 PRIN-5 Correttezza delle informazioni 5,00 4,00 4,17 5,00 ChatGPT Correttezza linguistica 5,00 3,83 4,50 5,00 Chiarezza complessiva del testo 5,00 3,83 3,50 5,00 Livello di miglioramento 4,00 3,33 2,33 5,00 Conservazione delle informazioni 5,00 4,00 3,83 5,00 CASS-4 Correttezza delle informazioni 3,00 3,00 4,00 4,00 Revisione umana Correttezza linguistica 5,00 3,33 3,67 5,00 Chiarezza complessiva del testo 4,00 3,33 3,67 5,00 Livello di miglioramento 5,00 3,00 3,17 4,00 Conservazione delle informazioni 5,00 3,00 3,17 5,00 CASS-4 Correttezza delle informazioni 3,00 2,14 4,57 4,00 ChatGPT Correttezza linguistica 5,00 2,00 4,57 5,00 Chiarezza complessiva del testo 5,00 2,14 4,14 5,00 Livello di miglioramento 4,00 1,71 3,43 4,00 Conservazione delle informazioni 5,00 2,00 4,29 5,00