Confronto tra diversi tipi di valutazione del
                                miglioramento della chiarezza di testi amministrativi
                                in lingua italiana
                                Mariachiara Pascucci1,†, Mirko Tavosanis1,∗,†
                                1
                                    Università di Pisa, Dipartimento di Filologia, letteratura e linguistica


                                                     Abstract
                                                     The paper presents a comparison of different types of evaluation of administrative texts in the Italian
                                                     language on which a clarity improvement intervention was carried out. The clarity improvement was
                                                     performed by human experts and ChatGPT. The evaluation was carried out in four different ways:
                                                     by expert evaluators, used as a reference; by evaluators with good skills, subject to dedicated training;
                                                     by generic evaluators recruited through a crowdsourcing platform; by ChatGPT. The results show
                                                     that the closest match to the results of the evaluation by expert evaluators was reached, by a wide
                                                     margin, by evaluators with good skills and dedicated training; the second best approach was reached
                                                     by requesting evaluation from ChatGPT; the worst approach was reached by generic evaluators
                                                     recruited through a crowdsourcing platform. Task features that may have influenced the outcome
                                                     are also discussed.

                                                     Keywords
                                                     Text simplification, LLMs, ChatGPT, Italian, evaluation, crowdsourcing1


                                      1. Introduzione                                                     criteri di ampio consenso per la valutazione dei prodotti
                                                                                                          [2].
                                La diffusione dei sistemi di intelligenza artificiale                          Naturalmente, molti metodi di valutazione attuali
                                generativa ha portato a una grande richiesta di                           forniscono almeno un primo orientamento nella
                                valutazione delle loro capacità. Il tipo di valutazione                   maggior parte dei casi. Per esempio, [3] ha mostrato che
                                universalmente considerato più valido rimane in                           attraverso il crowdsourcing è possibile ottenere
                                generale quello realizzato da esseri umani, che però in                   un’indicazione      generica       ma     attendibile    sul
                                pratica può essere condotto in modi diversi e con                         miglioramento della chiarezza di testi in lingua inglese.
                                risultati di valore molto diverso. Per alcune capacità,                   Tuttavia, gli studi sull’efficacia di simili pratiche sono
                                inoltre, non esistono ancora quadri di valutazione                        ancora poco numerosi ed è senz’altro molto sentita la
                                condivisi. Rientra senz’altro in quest’ultima categoria                   necessità di migliorare il livello attuale delle conoscenze.
                                anche la valutazione del miglioramento complessivo                             Il presente contributo si inserisce in questo contesto
                                della chiarezza dei testi in lingua italiana, oggetto                     in quanto mette a confronto diversi metodi per valutare
                                dell’analisi qui descritta. Gli indici oggettivi esistenti per            il miglioramento della chiarezza dei testi. Oggetto della
                                l’analisi di testi, come il GULPEASE o la quantificazione                 valutazione sono stati testi piuttosto ampi,
                                delle parole che rientrano nel Vocabolario di Base,                       rappresentativi dell’italiano amministrativo e resi più
                                descrivono in effetti solo aspetti limitati di un qualunque               chiari attraverso un intervento umano e attraverso la
                                testo. Per la chiarezza in sé, mentre abbondano le                        riformulazione con ChatGPT (versione 3.5); il contesto,
                                indicazioni su come scrivere in modo chiaro (una sintesi                  che ha visto la realizzazione di diverse attività di
                                aggiornata è esposta in [1]), non sono mai stati codificati               valutazione collegate, è descritto in dettaglio in [4].


                                CLiC-it 2024: Tenth Italian Conference on Computational Linguistics,           mariachiara.pascucci@phd.unipi.it (M. Pascucci);
                                Dec 04 — 06, 2024, Pisa, Italy                                               mirko.tavosanis@unipi.it (M. Tavosanis).
                                ∗
                                  Corresponding author.                                                        0009-0007-1934-8479 (M. Pascucci); 0000-0002-4730-3901 (M.
                                †
                                  Il contributo degli autori è unitario. Tuttavia, si dichiara che sono      Tavosanis)
                                                                                                                           © 2024 Copyright for this paper by its authors. Use permitted under
                                opera di Mariachiara Pascucci i paragrafi 2, 3, 4 e 7 e di Mirko                           Creative Commons License Attribution 4.0 International (CC BY 4.0).
                                Tavosanis i paragrafi 1, 5, 6 e 8.


CEUR
                  ceur-ws.org
Workshop      ISSN 1613-0073
Proceedings
    Ai fini del presente contributo, la valutazione è stata    potenziale di GPT-4, confrontando i risultati delle
condotta in quattro modi diversi: da valutatori esperti,       valutazioni del modello con quelle di esperti umani per i
usati come riferimento; da valutatori con buone                processi di semplificazione.
competenze, oggetto di una formazione dedicata; da
valutatori generici reclutati attraverso una piattaforma           3. Testi originali e
di crowdsourcing; da parte di ChatGPT. In tutti i casi, è
                                                                       riformulazioni
stata usata la stessa serie di indicazioni per la
valutazione. I risultati sono stati analizzati in [4] per le   La valutazione cui si fa riferimento nel presente
informazioni che forniscono riguardo alla capacità di          contributo è stata eseguita in rapporto a un’attività di
sistemi come ChatGPT di migliorare efficacemente la            miglioramento della chiarezza di testi amministrativi
chiarezza dei testi. In questa sede si mostrerà invece, in     regolativi in lingua italiana. Questo tipo di attività
modo più specifico, la differenza nei giudizi in rapporto      corrisponde a una richiesta diffusa a livello sociale e su
ai quattro modi di valutazione.                                cui esiste ampia bibliografia specifica (per esempio:
                                                               [12]). Tuttavia, anche in questo caso non esistono criteri
    2. Lavori correlati                                        condivisi per la valutazione di testi esistenti; non è
                                                               quindi possibile, per esempio, rifarsi a scale condivise
Anche se il miglioramento della chiarezza è un obiettivo       per descrivere la chiarezza di un testo amministrativo.
centrale in vari campi di ricerca linguistica applicata, la    Sulla situazione generale dei criteri per la chiarezza e sui
valutazione dell’efficacia dei processi di miglioramento       dettagli del caso esaminato si rimanda di nuovo a [1] e
rimane, come si è detto, una questione aperta. Tale stato      [4]; le informazioni fornite qui di seguito saranno quindi
di cose si riflette nell’eterogeneità delle soluzioni          solo quelle strettamente necessarie per l’inquadramento
adottate nei diversi studi realizzati in questo ambito.        dell’esperienza svolta.
Come evidenziato in [2], infatti, non esiste un quadro              Per l’attività descritta qui di seguito sono state scelte
teorico condiviso per valutare l’efficacia delle               casualmente 8 sezioni ragionevolmente autonome e
riformulazioni in termini di chiarezza né, in senso più        autoconsistenti di testi amministrativi più ampi, per una
ampio, per la valutazione complessiva della qualità dei        lunghezza approssimativa di 2000 caratteri a sezione. I
testi generati. In una rassegna sistematica, [5] sottolinea    testi sono stati poi rielaborati chiedendo a ChatGPT di
che le operazioni di valutazione dei testi generati            migliorarne la chiarezza. I due prompt usati per la
possono avvalersi di diversi approcci: valutazioni             versione definitiva del lavoro sono riportati
umane, metriche quantitative o sistemi di valutazione          nell’Appendice A.
automatica e semiautomatica. Il giudizio umano è                    In aggiunta al miglioramento della chiarezza da
adoperato, per esempio, in lavori come [6] e in studi che      parte ChatGPT, uno degli autori (Mariachiara Pascucci)
hanno adottato un approccio comparativo, come [7], che         ha condotto un intervento umano, usato come termine
propone un confronto tra valutazione umana e metriche          di confronto, per il miglioramento della chiarezza.
automatiche per valutare l’efficacia dei processi di           Inoltre, nel campione sono stati inseriti, con minimi
semplificazione. La letteratura di riferimento sembra in       ritocchi, alcuni esempi classici di miglioramento della
effetti convergere verso l’idea che la valutazione umana       chiarezza, ripresi da [13].
dei testi generati rimanga in generale la più adeguata,
come evidenziato da diversi lavori, tra cui [8] e [2]. Non
                                                                   4. Interventi di riformulazione
mancano tuttavia studi che usano metriche automatiche
e indici di leggibilità per la valutazione degli output,       Per quanto riguarda la riformulazione manuale dei testi,
come [9].                                                      gli interventi hanno interessato vari tratti linguistici (a
    Riguardo all’impiego del crowdsourcing, un                 livello    lessicale,     morfosintattico    e     testuale)
approccio interessante è quello di lavori come il già          comunemente associati alla complessità dei testi
citato [3] e il più recente [10], in cui sono messe a          istituzionali. Il quadro di riferimento è quello presentato
confronto diverse modalità di valutazione, incluse             in [14].
metriche automatiche, giudizi di esperti e un test di               L'analisi delle riformulazioni generate da ChatGPT
comprensione che ha coinvolto partecipanti selezionati         mostra che il modello ha operato in modo paragonabile
in modo casuale e senza preparazione specifica per lo          a quello umano, intervenendo contemporaneamente su
svolgimento del compito. In ambito italiano, [11] ha           più tratti e su più livelli linguistici. ChatGPT sembra
esplorato l’uso del crowdsourcing per la valutazione           comunque essersi concentrato sulla semplificazione del
della complessità frasale.                                     lessico, spesso piuttosto spinta, e sulla riduzione della
    L’applicazione dei modelli GPT alla valutazione            lunghezza delle frasi. Di seguito, si riporta un esempio
automatica della chiarezza testuale è stata ancora poco        che consente di confrontare la versione originale con i
indagata, ma non mancano gli esperimenti interessanti.         due diversi tipi di riformulazione.
Degno di nota è il già citato [7], che ha esaminato il
Originale (ENERG-2)                                            testi sono poi stati sottoposti senza indicazioni sulla
                                                               provenienza o sull’origine delle riformulazioni.
Le spese per “Servizi esterni” sono rappresentate dalle
spese che il Beneficiario/Soggetto Attuatore sostiene a        6.1. Valutatori esperti
favore di erogatori esterni di servizi, i quali si assumono
                                                               Una prima valutazione del lavoro è stata compiuta dai
determinati compiti che sono necessari per il
                                                               due autori. Mirko Tavosanis è un ricercatore attivo da
raggiungimento degli obiettivi progettuali e che il
                                                               oltre 25 anni nel settore della chiarezza comunicativa; ha
Beneficiario/Soggetto Attuatore non è in grado di
                                                               pubblicato in proposito un manuale scritto in
svolgere in proprio.
                                                               collaborazione [16] e contributi divulgativi e scientifici
                                                               dedicati alla valutazione dei testi generati. Mariachiara
Riformulazione manuale
                                                               Pascucci è dottoranda presso la Scuola di Dottorato in
                                                               Italianistica dell’Università di Pisa con una ricerca sul
Le spese per “Servizi esterni” sono le spese che il
                                                               miglioramento della chiarezza nella comunicazione
Beneficiario/Soggetto Attuatore sostiene a favore di
                                                               amministrativa.
erogatori esterni di servizi. Tali erogatori svolgono
                                                                    In una prima fase, i due valutatori hanno lavorato in
compiti specifici, necessari per il raggiungimento degli
                                                               modo indipendente. I punteggi da loro assegnati sono
obiettivi del progetto, che il Beneficiario/Soggetto
                                                               stati poi confrontati per produrre una valutazione
Attuatore non è in grado di svolgere in proprio.
                                                               condivisa, che è stata usata come punto di riferimento.
Riformulazione automatica (Prompt 2)                           6.2. Valutatori formati appositamente
Le spese per 'Servizi esterni' sono i soldi che una persona    Il gruppo è stato composto da studenti frequentanti del
o un'organizzazione spende per ottenere aiuto da altri         corso di Linguistica italiana II del corso di laurea
fornitori di servizi. Questi fornitori svolgono compiti        magistrale in Informatica umanistica dell’Università di
importanti per raggiungere gli obiettivi di un progetto,       Pisa. Il corso di laurea richiede alle matricole il possesso
compiti che la persona o l'organizzazione che riceve           di almeno 12 CFU in discipline linguistiche all’ingresso;
l'aiuto non può fare da sola.                                  diversi studenti hanno poi competenze più avanzate
(Generated by AI tool ChatGPT-3.5)                             negli studi linguistici.
                                                                    Tutti i valutatori hanno quindi operato mentre
    5. Griglia di valutazione e                                seguivano un corso annuale sulla valutazione dei testi
                                                               generati. La sezione conclusiva del corso è stata dedicata
       valutatori                                              alla valutazione del miglioramento della chiarezza, con
Il primo passo per l’attività è stata la creazione di una      l’inclusione di basi teoriche, la descrizione dei tratti
griglia di valutazione basata sulla bibliografia esistente e   linguistici tipicamente coinvolti e una formazione
sull’esame diretto delle capacità del sistema. La griglia è    specifica sulla valutazione. Al termine del corso si è
stata messa a punto attraverso una serie di verifiche          svolta un’attività di armonizzazione delle valutazioni in
intermedie ed è stata corredata da istruzioni applicative      presenza (90 minuti), in cui le valutazioni assegnate a
ricavate dalla pratica, con discussione di esempi specifici    testi simili a quelli poi presi in esame sono state discusse
e indicazioni per la gestione di casi dubbi. La versione       e revisionate in modo da arrivare a una valutazione
definitiva della griglia e delle istruzioni, usata per tutte   quanto più possibile condivisa.
le attività descritte qui di seguito, è riportata                   L’attività finale di valutazione è stata svolta in
nell’Appendice B.                                              presenza, in aula, con testi presentati su carta e una
                                                               durata di 90 minuti. I valutatori sono stati divisi in due
    6. Modalità della valutazione                              gruppi, denominati A (7 valutatori) e B (6 valutatori);
                                                               ogni gruppo doveva valutare 8 testi riformulati, 4 dei
La valutazione è stata condotta in quattro modi diversi,       quali prodotti da ChatGPT e 4 da intervento umano,
presentati qui di seguito.                                     accompagnati dagli originali; i testi erano alternati nei
    Il quadro concettuale usato è quello descritto in [15].    due gruppi, in modo che nel complesso venissero
Come punto di riferimento sono quindi stati usati i            valutati tutti gli 8 testi prodotti da ChatGPT e tutti gli 8
giudizi di valutatori esperti. Tuttavia, ogni attività di      prodotti da intervento umano. Non tutti i valutatori
valutazione è stata condotta separatamente, senza che          hanno completato l’attività, in particolare per gli ultimi
chi la conduceva avesse a disposizione i punteggi              testi di ogni gruppo.
assegnati nelle altre attività. Ai valutatori descritti di
seguito – con l’eccezione dei valutatori esperti,
responsabili anche della preparazione del campione – i
6.3. Crowdsourcing                                                 7. Risultati della valutazione
I testi sono stati valutati anche mediante crowdsourcing,      Va notato che in tutti e quattro i modi la valutazione ha
utilizzando la piattaforma Prolific.                           classificato le rielaborazioni come di alto livello. I voti
     L'uso di metodi di crowdsourcing per la ricerca           assegnati ai singoli aspetti da valutare non scendono in
linguistica è ben documentato, come descritto in [17]. In      effetti quasi mai sotto il 3 e rimangono quasi sempre
particolare, sistemi di crowdsourcing sono stati applicati     nella fascia del 4 e del 5. Le differenze tra i singoli
anche al campo della complessità linguistica e del             valutatori umani e ChatGPT sono quindi piuttosto
miglioramento della chiarezza in lavori come [3], [11] e       contenute. La sintesi dei risultati completi è presentata
[18].                                                          nell’Appendice C.
     Per questo lavoro, la selezione dei partecipanti è            Una discussione dei risultati in rapporto alle
stata realizzata avviando due studi distinti per ottenere      prestazioni del sistema viene presentata in [3] e [4]. Qui
due gruppi differenziati di valutatori. I criteri di           verranno invece prese in considerazione solo le
selezione includevano la padronanza della lingua               differenze nei risultati tra i quattro modi di valutazione.
italiana e il livello di istruzione; sono stati infatti        Occorre quindi innanzitutto confrontare le medie
reclutati solo partecipanti in possesso di un diploma di       complessive della valutazione (Tabella 1).
laurea.
     Per replicare le condizioni della valutazione in aula,        Tabella 1
è stato reclutato lo stesso numero di partecipanti,                Medie complessive e indicazione dello scostamento
suddivisi in Gruppo A (7 valutatori) e Gruppo B (6             assoluto rispetto al valore fornito dagli esperti.
valutatori).


                                                                                    Gruppo A


                                                                                                                    Gruppo B
                                                                                                      scostamento


                                                                                                                                      scostamento
     Il tempo a disposizione per completare l'attività era
identico a quello della valutazione in aula, ovvero 90
minuti, ma il tempo impiegato in media dai partecipanti
per lo svolgimento del compito è stato di 35 minuti. I
gruppi di testi distribuiti ai partecipanti su Prolific
corrispondevano, per ordine e tipologie di
                                                                Esperti                        4,40                            4,66
rielaborazione, a quelli utilizzati nella valutazione in
                                                                Valutatori                     4,51   0,11                     4,58       0,08
aula. Prolific ha reindirizzato i partecipanti selezionati a
                                                                formati
un modulo Google. Nella scheda iniziale del modulo
                                                                Crowdsourcing                  4,23   0,17                     3,90       0,76
sono state fornite le indicazioni per l’assegnazione dei
                                                                GPT                            4,92   0,52                     4,86       0,20
punteggi, identiche a quelle fornite per la valutazione in
aula. Ogni scheda successiva del modulo conteneva il
testo originale e la versione revisionata, con l'istruzione    Tra i vari modi di valutazione ci sono dunque differenze
di assegnare un punteggio da 1 a 5 per ciascuno dei            rilevanti nei risultati. Usando come riferimento i giudizi
parametri specificati.                                         dei valutatori esperti, il maggior avvicinamento si ha con
                                                               i giudizi dei valutatori formati. GPT fornisce punteggi
6.4. Valutazione con ChatGPT                                   sistematicamente più alti (in pratica, tutti 5 con pochi 4),
                                                               mentre il crowdsourcing fornisce valutazioni
L’attività di valutazione è stata condotta anche con           sistematicamente più basse. Calcolando lo scostamento
ChatGPT (versione 3.5), proponendo come prompt al              complessivo, inteso come somma dei valori assoluti delle
sistema le stesse istruzioni fornite ai valutatori umani.      differenze, il risultato migliore si ha con i valutatori
ChatGPT è stato impiegato in modalità zero-shot: per lo        formati, con 0,19, seguiti a buona distanza da ChatGPT
svolgimento del compito non sono dunque stati forniti          con 0,76 e dal crowdsourcing con 0,93.
al modello esempi di valutazioni già realizzate. Le                Le medie complessive nascondono però una
versioni originali e quelle rielaborate di ciascun testo       differenza tra gli aspetti. Come è stato notato dai
sono state presentate a ChatGPT separatamente in               valutatori esperti, è possibile assegnare i punteggi per gli
diverse finestre di dialogo, senza specificare l'origine       aspetti 1, 2 e 5 in modo relativamente oggettivo,
della revisione, analogamente a quanto fatto con i             appoggiandosi a valutazioni quantitative, mentre per gli
valutatori umani. Pur non avendo ricevuto indicazioni          aspetti 3 e 4 è frequente l’incertezza di assegnazione tra
specifiche a tal proposito, ChatGPT ha fornito, per ogni       il punteggio 4 e il punteggio 5. Sembra quindi utile
parametro, una motivazione dettagliata del punteggio           valutare separatamente gli aspetti 1, 2 e 5 (Tabella 2).
assegnato, facendo ampio riferimento ai criteri di
valutazione forniti.
    Tabella 2                                                                        La conclusione è senz’altro condivisibile: per questo tipo
    Medie degli aspetti 1, 2 e 5 e indicazione dello                                 di attività, semplicemente, i criteri devono ancora essere
scostamento assoluto rispetto al valore fornito dagli                                messi a punto in modo soddisfacente. Tuttavia, sembra
esperti.                                                                             evidente la distanza tra l’accordo che si può raggiungere
                                                                                     con valutatori formati appositamente invece che con il


                     Gruppo A


                                                     Gruppo B
                                       scostamento


                                                                       scostamento
                                                                                     semplice crowdsourcing.

                                                                                     7.2. Esame di un caso specifico
                                                                                     I motivi per le differenze tra le diverse valutazioni sono
                                                                                     naturalmente molto difficili da ricostruire. Tuttavia, in
 Esperti                        4,42                            4,76                 almeno alcuni casi è possibile notare che i valutatori
 Valutatori                     4,58   0,16                     4,54       0,18      hanno fornito valutazioni difficili da giustificare
 formati                                                                             oggettivamente, in rapporto probabile con la
 Crowdsourcing                  4,32   0,10                     4,02       0,74      complessità del compito.
 GPT                            4,92   0,50                     4,92       0,16           Per esempio, nel caso del testo con codice CASS-4,
                                                                                     inserito nel gruppo A, il crowdsourcing ha fornito una
Anche in questo caso, calcolando lo scostamento                                      valutazione di 4,71 per l’aspetto di “conservazione delle
complessivo, il risultato migliore si ha comunque con i                              informazioni”. Su sette valutatori, infatti, 4 hanno
valutatori formati, con 0,34, seguiti da ChatGPT con 0,66                            fornito il punteggio 5, che corrisponde al giudizio “la
e dal crowdsourcing con 0,84. La classifica quindi non                               riformulazione è sostanzialmente corretta e completa”; 3
cambia, anche se è notevole che su questa selezione di                               invece hanno fornito un punteggio di livello 4, che
aspetti lo scostamento minore rispetto agli esperti si                               corrisponde al giudizio “la riformulazione altera
ottenga con il crowdsourcing nel gruppo A e con                                      l’originale, ma solo in modo marginale (per esempio, se
ChatGPT nel gruppo B.                                                                viene descritta una procedura, le discrepanze possono
                                                                                     portare distorsioni marginali nella procedura; rientrano
7.1. Accordo tra valutatori                                                          in questa categoria anche le leggere ma ripetute
                                                                                     distorsioni del significato di partenza, anche quando
Per quanto riguarda la robustezza della valutazione sia
                                                                                     sono prive di effetti pratici)”. I valutatori esperti hanno
nel caso dei valutatori formati appositamente sia nel
caso del crowdsourcing, l’accordo tra i valutatori                                   invece assegnato al testo il giudizio 3: “la riformulazione
                                                                                     altera l’originale in modo significativo (per esempio, se
individuali non ha raggiunto i livelli considerati
                                                                                     viene descritta una procedura, anche se la maggior parte
sufficienti secondo il calcolo dell’alpha di Krippendorff
                                                                                     dei contenuti è corretta, seguire le indicazioni potrebbe
([19]).
    L’accordo complessivo tra i valutatori formati                                   provocare qualche errore nello svolgimento della
                                                                                     procedura)”.
appositamente per il gruppo A è stato in effetti di 0,288;
                                                                                          Quest’ultima valutazione è stata dovuta, in aggiunta
per il gruppo B, di 0,270. Il livello massimo di accordo è
                                                                                     a cambiamenti minori, al modo in cui sono state
stato raggiunto dal gruppo A nella valutazione
                                                                                     riformulate due frasi.
dell’aspetto di “conservazione delle informazioni”, che
ha raggiunto il valore di 0,502. L’accordo complessivo tra
                                                                                     Frase 1 – originale: [Il Consiglio Circoscrizionale]
i valutatori reclutati per crowdsourcing è stato invece di
0,181 per il gruppo A e di 0,141 per il gruppo B. Anche                              risolve, per motivi espressi in narrativa, di fissare i
in questo caso, il livello massimo di accordo è stato                                seguenti criteri al fine di consentire all'ufficio Tecnico
raggiunto dal gruppo A nella valutazione dell’aspetto di                             circ.le di essere autorizzato ad installare direttamente
“conservazione delle informazioni”, che però ha                                      ovvero di autorizzare i cittadini ad installare barriere
                                                                                     metalliche senza dover sottoporre le richieste al parere
raggiunto solo il valore di 0,241.
                                                                                     della Commissione circ.le Traffico
    Secondo lo schema di interpretazione dell’alpha di
Krippendorff, i valori inferiori a 0,670 sono
                                                                                     Frase 1 - riformulazione: Il Consiglio Circoscrizionale, in
indicative of poor agreement among raters. Data with a                               virtù delle ragioni esposte, decide di stabilire i seguenti
Krippendorff's Alpha below this threshold are often                                  criteri per consentire all'Ufficio Tecnico circoscrizionale
deemed unreliable for drawing triangulated conclusions.                              di autorizzare direttamente l'installazione dei
It suggests that the raters are not applying the coding                              parapedonali o di concedere ai cittadini l'autorizzazione
                                                                                     per farlo senza dover ricorrere al parere della
scheme consistently or that the scheme itself may be
                                                                                     Commissione circoscrizionale del Traffico.
flawed [19].
                                                                                     (Generated by AI tool ChatGPT-3.5)
Nel testo riformulato non si chiarisce che l’Ufficio           autori nella riscrittura di alcuni testi: anche se le
Tecnico può installare direttamente i parapedonali, ma         caratteristiche della valutazione rendono a nostro
si parla solo di “autorizzare” l’installazione.                giudizio molto limitato il rischio di alterazioni, si
                                                               prevede di modificare il protocollo per future attività
Frase 2 – originale: i parapedonali dovranno essere            dello stesso genere, delegando tutte le riscritture a terze
installati lungo i marciapiedi in corrispondenza delle         parti. Per la valutazione dei testi generati da ChatGPT
Ambasciate che, in genere per motivi di sicurezza, ne          può essere inoltre utile far valutare i testi a un sistema
fanno richiesta.                                               diverso – e, in generale, ampliare e ripetere le
                                                               valutazioni è naturalmente indispensabile per validarne
Frase 2 – riformulazione: Sarà richiesto l'installazione di    i risultati.
parapedonali lungo i marciapiedi in corrispondenza                  Di sicuro, però, i risultati invitano a prestare
delle Ambasciate, su richiesta di queste ultime per            attenzione ai limiti di pratiche oggi diffuse come il
ragioni di sicurezza.                                          crowdsourcing, che sul compito in esame hanno
(Generated by AI tool ChatGPT-3.5)                             mostrato un notevole scostamento rispetto alla
                                                               valutazione di esperti. Inoltre, se la valutazione rapida ed
Nel testo riformulato, al di là dell’errore grammaticale (e    economica fornita da sistemi come ChatGPT dovesse
semantico) in “Sarà richiesto l’installazione”, viene          essere regolarmente confermata come più vicina alla
inserita una limitazione inesistente nell’originale: le        valutazione di esperti rispetto al crowdsourcing, le
installazioni possono implicitamente essere accettate          motivazioni      per      il     crowdsourcing        stesso
solo nel caso che dietro alla richiesta vi siano “ragioni di   scomparirebbero.
sicurezza”. Quella che nell’originale era solo una
spiegazione diventa quindi una condizione necessaria.          Ringraziamenti
     In questo caso, i valutatori esperti confermano
l’attribuzione del giudizio 3, che però non è stato            Ringraziamo per la collaborazione Claudia Gigliotti.
espresso da nessun valutatore del crowdsourcing (nella         Diversi aspetti dell’analisi dei dati sono stati discussi con
valutazione da parte di esperti, il testo è stato valutato     Angela Ferrari. La responsabilità delle affermazioni
solo da 2 valutatori, che hanno comunque assegnato il          rimane naturalmente agli autori.
giudizio 5).
                                                               Note
    8. Conclusioni                                             [1]   G. Fiorentino, V. Ganfi. “Parametri per
I risultati dei diversi modi di valutazione potrebbero a             semplificare l’italiano istituzionale: revisione della
prima vista essere interpretati come una svalutazione del            letteratura.” Italiano LinguaDue 16.1, pages 220-
crowdsourcing, rispetto al quale la semplice richiesta a             237, 2024, doi:10.54103/2037-3597/23835
ChatGPT è in grado di fornire risultati di qualità più alta.   [2]   M. Tavosanis, “Valutare la qualità dei testi generati
Tuttavia, è chiaro che le caratteristiche dell’attività              in lingua italiana.” AI-Linguistica 1.1 (2024), pages
svolta rendono consigliabile non trarre conclusioni                  1-24.
troppo generalizzate.                                          [3]   W. S. Lasecki, R. Luz, J. P. Bigham, Measuring text
     Innanzitutto, invita alla cautela il fatto che la               simplification with the crowd, in: Proceedings of
valutazione dipenda con ogni evenienza dalla scala                   the 12th Web for All Conference W4A 15, 2015.
usata. In un contesto in cui si sa che il voto può essere            doi:10.1145/2745555.2746658.
solo 4 o 5, in fin dei conti, la semplice assegnazione         [4]   M. Tavosanis, Valutare la riformulazione
casuale del punteggio darebbe 4,5 sia al gruppo A sia al             automatica, in: Amministrazione attiva, Firenze,
gruppo B, scostandosi dal giudizio degli esperti con 0,26            Cesati (in stampa).
per la valutazione complessiva e 0,34 per gli aspetti 1, 2     [5]   A. Celikyilmaz, E. Clark, J. Gao, Evaluation of Text
e 5, valori molto vicini a quelli forniti dai valutatori             Generation: A Survey, 2020, arXiv:2006.14799.
formati.                                                       [6]   R. Tariq et al., Assessing ChatGPT for Text
     In queste circostanze, sembra innanzitutto utile                Summarization, Simplification and Extraction
creare griglie di valutazione più specifiche e mirate. Le            Tasks, 2023 IEEE 11th International Conference on
alte prestazioni dei sistemi attuali, del resto, rendono             Healthcare Informatics (ICHI), Houston, TX, USA,
senz’altro meno utili che in passato scale 1-5 in cui il             2023,       pp.       746-749,        2023,       doi:
punteggio 1 deve essere assegnato a un “testo                        10.1109/ICHI57859.2023.00136.
completamente incomprensibile” e il punteggio 5 a un           [7]   A. Sottana, B. Liang, K. Zou, Z. Yuan, Evaluation
“testo perfettamente comprensibile”.                                 Metrics in the Era of GPT-4: Reliably Evaluating
     Vanno inoltre tenuti presenti alcuni limiti                     Large Language Models on Sequence to Sequence
dell’analisi. Uno tra questi è il coinvolgimento degli               Tasks. 2023, arXiv:2310.13800.
[8]    C. van der Lee, A. Gatt, E. van Miltenburg, S.         Coefficient. MethodsX, 12, 102545, 2024, doi:
       Wubben, E. Krahmer, Best practices for the human       https://doi.org/10.1016/j.mex.2023.102545
       evaluation of automatically generated text. In
       Proceedings of the 12th International Conference
       on Natural Language Generation, pages 355–368,
       Tokyo, Japan, Association for Computational
       Linguistics, 2019.
[9]    D. Nozza, G. Attanasio, Is It Really That Simple?
       Prompting Language Models for Automatic Text
       Simplification in Italian. CLiC-it 2023: 9th Italian
       Conference on Computational Linguistics, Nov 30
       — Dec 02, 2023, Venice, Italy, 2023.
[10]   N. van Raaij, D. Kolkman, K. Podoynitsyna,
       Clearer Governmental Communication: Text
       Simplification with ChatGPT Evaluated by
       Quantitative and Qualitative Research. In
       Proceedings of the Workshop on DeTermIt!
       Evaluating Text Difficulty in a Multilingual
       Context @ LREC-COLING 2024, pages 152–178,
       Torino, Italia. ELRA and ICCL, 2024.
[11]   D. Brunato, L. De Mattei, F. Dell’Orletta, B.
       Iavarone, G. Venturi, Is this sentence difficult? do
       you agree? In Proceedings of the 2018 Conference
       on Empirical Methods in Natural Language
       Processing, pages 2690–2699, Brussels, Belgium
       Association for Computational Linguistics, 2018.
[12]   M. Cortelazzo, Il linguaggio amministrativo:
       principi e pratiche di modernizzazione, Carocci,
       Roma, 2021.
[13]   S. Cassese (a cura di), Codice di stile delle
       comunicazioni scritti ad uso delle amministrazioni
       pubbliche, Istituto poligrafico e zecca dello Stato,
       Roma, 1994.
[14]   E. Piemontese, Capire e farsi capire. Teorie e
       tecniche della scrittura controllata. Napoli:
       Tecnodid, 1996.
[15]   K. Krippendorff, Content Analysis: An
       Introduction to Its Methodology, 4th edition,
       SAGE Publications, Los Angeles, 2019.
[16]   M. Gasperetti, M. Tavosanis, Comunicare, Apogeo,
       Milano, 2004.
[17]   R. Munro, S. Bethard, V. Kuperman, V.T. Lai, R.
       Melnick, C. Potts, T. Schnoebelen e H. Tily.
       Crowdsourcing and language studies: The new
       generation of linguistic data. In Proceedings of the
       Workshop on Creating Speech and Language Data
       with Amazons Mechanical Turk, pages 122–130,
       2010.
[18]   O. De Clercq, V. Hoste, B. Desmet e P. Van Oosten.
       Using the crowd for readability prediction, Natural
       Language Engineering, pages 1–33, 2013.
[19]   G. Marzi, M. Balzano, D. Marchiori, K-Alpha
       Calculator—Krippendorff's          Alpha,      2024.
       Calculator: A User-Friendly Tool for Computing
       Krippendorff's Alpha Inter-Rater Reliability
A. Prompt usati                                                    Quindi per esempio dovranno essere considerate
                                                              buone, dal punto di vista della correttezza delle
Prompt 1: Puoi semplificare la forma linguistica del          informazioni, riformulazioni come questa:
seguente testo amministrativo-burocratico pur                      Originale: Approvazione, con Decreto del
mantenendo tutti i dettagli del contenuto? Voglio che il      Ministero del Lavoro e delle Politiche Sociali n. 15 del 29
testo prodotto sia dettagliato e lungo tanto quanto il        gennaio 2024, della “Nota Metodologica per l’adozione
testo da semplificare che è qui tra virgolette “[...]”        di UCS (Unità di Costo Standard).”
                                                                   Riformulato:        Approvazione        della    “Nota
Prompt 2: Rendi più chiaro il seguente testo inserito tra     Metodologica per l'adozione di UCS (Unità di Costo
virgolette, estratto da linee guida ministeriali, in modo     Standard)” con un decreto ministeriale del gennaio 2024.
che sia facilmente comprensibile per un pubblico                   Anche l’omissione di informazioni (purché non
diversificato, inclusi individui con conoscenze limitate      rilevanti alla comprensione di quanto rimane) deve
dell’argomento e un livello medio di istruzione.              essere considerata ininfluente: anche l’eliminazione di
Concentrati sull'utilizzo di un linguaggio chiaro e           informazioni deve essere considerata una scelta
conciso senza compromettere l'accuratezza delle               redazionale. L’entità dell’omissione viene valutata
informazioni. Assicurati che siano preservati i dettagli      invece nell’aspetto 5.
chiave riguardanti la procedura descritta. Punta a                 Quindi per esempio dovranno essere considerate
migliorare l'accessibilità e la leggibilità mantenendo il     buone, dal punto di vista della correttezza delle
contenuto e il significato essenziali del documento.          informazioni, riformulazioni come queste:
Preserva la coesione del testo. Mantieni bilanciata la             Originale: l’introduzione dell’equivalenza alla
lunghezza del testo. “[...]”                                  partecipazione ai PUC, ai fini della definizione degli
                                                              impegni nell’ambito dei patti per l'inclusione sociale,
B. Griglia di valutazione e                                   della partecipazione, definita d’intesa con il Comune, ad
   istruzioni                                                 attività di volontariato presso enti del Terzo settore e a
                                                              titolarità degli stessi, da svolgere nel Comune di
1. La correttezza delle informazioni fornite                  residenza nei medesimi ambiti di intervento previsti per
     1: la riformulazione non ha nessun rapporto con          i PUC;
l’originale o altera l’originale (per omissione,                   Riformulato: l’introduzione dell'equivalenza tra
deformazione o aggiunta) al punto di essere                   partecipazione ai PUC e ad attività di volontariato per i
incomprensibile                                               patti per l'inclusione sociale.
     2: la riformulazione altera l’originale in modo grave         Un buon modo per controllare può essere: dare brevi
(per esempio, se viene descritta una procedura, il testo      titoli ai singoli capoversi, per sintetizzare l’argomento, e
riformulato non permette di eseguirla correttamente)          valutare la correttezza un capoverso alla volta.
     3: la riformulazione altera l’originale in modo
significativo (per esempio, se viene descritta una            2. La correttezza linguistica del testo
procedura, anche se la maggior parte dei contenuti è          Nella prospettiva di un lettore italiano medio
corretta, seguire le indicazioni potrebbe provocare           (madrelingua, con diploma di scuola superiore come
qualche errore nello svolgimento della procedura)             titolo di studio più alto), dal punto di vista formale il
     4: la riformulazione altera l’originale, ma solo in      testo risulta:
modo marginale (per esempio, se viene descritta una                1: difficile da ricondurre alla norma
procedura, le discrepanze possono portare distorsioni              2: con quattro o più errori morfosintattici
marginali nella procedura; rientrano in questa categoria      (indipendentemente dalla loro estensione)
anche le leggere ma ripetute distorsioni del significato di        3: con non più di tre errori morfosintattici e/o molti
partenza, anche quando sono prive di effetti pratici)         usi insoliti di collocazioni, o simili
     5: la riformulazione è sostanzialmente corretta e             4: con non più di due errori morfosintattici, possibili
completa                                                      anche a esseri umani, e/o non più di due usi insoliti delle
                                                              collocazioni, o simili aspetti discutibili dal punto di vista
Precisazioni importanti                                       formale
L’omissione, totale o parziale, dei riferimenti a leggi,           5: corretta, con incertezze minime che potrebbero
regolamenti e simili deve essere considerata                  essere trovate anche in un testo professionale umano
ininfluente (a meno che non sia necessaria per spiegare       Precisazioni importanti
una parte del testo: per esempio, il fatto che le modifiche   La valutazione di questo aspetto non deve riguardare
sono richieste da una legge appena approvata): questa va      il registro linguistico. In altri termini, la scelta di usare
considerata come una scelta redazionale presa a monte.        un tono più o meno formale, incluso l’impiego di
                                                              forestierismi, viene considerata una scelta redazionale.
Per esempio, in un testo potranno essere accettabili sia        Anche per questo aspetto, come per l’aspetto 1,
“fare” sia “eseguire”, senza assegnare una preferenza           l’omissione o il mantenimento dei riferimenti a leggi,
all’una scelta o all’altra – a parità di correttezza.           regolamenti e simili devono essere considerati
     La valutazione non deve riguardare nemmeno la              ininfluenti: ai fini della valutazione di questo aspetto, si
comprensibilità delle parole o delle espressioni, che           suppone che i riferimenti compaiano se sono utili ai fini
è valutata separatamente nell’aspetto 3. Per esempio, a         della comunicazione e non compaiano se sono inutili ai
livello di correttezza linguistica possono essere               fini della comunicazione. Lo stesso vale per l’omissione
accettabili sia “download” sia “scaricamento”, anche se         di informazioni, che viene valutata nell’aspetto 5.
una parola è più comprensibile dell’altra.
     L’accettabilità di incertezze “minime” è collegata al      5. La conservazione delle informazioni
fatto che anche lettori L1 colti possono avere idee                 1: il testo elimina più del 75% delle informazioni
diverse sull’accettabilità o meno di alcune parole e            dell’originale
costruzioni. Di qui anche l’importanza di mettersi nella            2: il testo elimina tra il 75% e il 50% delle
prospettiva di un lettore italiano “medio”.                     informazioni dell’originale
                                                                    3: il testo elimina tra il 50% e il 25% delle
3. La chiarezza complessiva del testo                           informazioni dell’originale
Per un lettore italiano medio (madrelingua, con diploma             4: il testo elimina una parte delle informazioni
di scuola superiore come titolo di studio più alto), il testo   dell’originale inferiore al 25%
riformulato è verosimilmente:                                       5: il testo mantiene tutte le informazioni
    1: incomprensibile                                          dell’originale
    2: quasi del tutto incomprensibile
    3: in buona parte comprensibile, ma con uno o più           Precisazioni importanti
elementi significativi poco comprensibili                       La valutazione deve essere una stima quantitativa. Non
    4: in buona parte comprensibile, con piccole                deve tener quindi conto dell’importanza delle
incertezze (per esempio, sul significato esatto di una          informazioni eliminate, ma solo della loro quantità. Si
parola)                                                         può tenere come riferimento la lunghezza delle
    5: perfettamente comprensibile                              espressioni che presentano le informazioni eliminate.
                                                                    Un buon modo per valutare la conservazione delle
Precisazioni importanti                                         informazioni può essere: sottolineare nell’originale le
Questo aspetto deve essere valutato senza tenere conto          parole o le espressioni o le frasi che non hanno riscontro
della completezza o della correttezza oggettiva                 nel testo riformulato e fare una stima della percentuale
delle informazioni, ma solo della loro coerenza interna         complessiva.
e della loro presentazione. Inoltre, deve essere valutato
senza basarsi sulla brevità o meno del testo (di cui, in        Importante! In caso di dubbio sull’aspetto cui
sede di valutazione complessiva, si tiene conto in base         assegnare un errore o una deviazione, la correttezza
alla lunghezza in parole e in caratteri dell’originale e        delle informazioni (aspetto 1) deve essere privilegiata
della riformulazione).                                          rispetto alla correttezza linguistica (aspetto 2) e alla
     Anche per questo aspetto, come per l’aspetto 1,            chiarezza complessiva (aspetto 3). In pratica, l’errore
l’omissione o il mantenimento dei riferimenti a leggi,          andrà contato come errore di correttezza, senza influire
regolamenti e simili devono essere considerati                  sulla valutazione degli altri aspetti.
ininfluenti: ai fini della valutazione di questo aspetto, si    Per esempio, un’espressione come “Se il Beneficiario
suppone che i riferimenti compaiano se sono utili ai fini       non è lo stesso dell’esecutore dell’azione” (al posto di
della comunicazione e non compaiano se sono inutili ai          “Qualora il Beneficiario non coincida con il Soggetto
fini della comunicazione. Lo stesso vale per l’omissione        Attuatore”) dovrebbe essere valutata come errore nella
di informazioni, che viene valutata nell’aspetto 5.             correttezza, indipendentemente dai dubbi che possono
                                                                venire (a seconda dei contesti) per quanto riguarda la
4. Il livello di miglioramento rispetto all’originale           correttezza linguistica o la chiarezza.
     1: il testo è molto meno chiaro dell’originale
     2: il testo è sensibilmente meno chiaro dell’originale
     3: il testo è tanto chiaro quanto l’originale
     4: il testo è sensibilmente più chiaro dell’originale
     5: il testo è molto più chiaro dell’originale


Precisazioni importanti
C. Risultati complessivi
Testo


                                                                      Apposita


                                                                                        Crowdso
                                                                        mente


                                                                                          urcing


                                                                                                          ChatGPT
                  Aspetti


                                                     Esperti
PRIN-4            Correttezza delle informazioni               5,00              4,83              4,50             5,00
Revisione umana
                  Correttezza linguistica                      5,00              4,67              4,67             4,00
                  Chiarezza complessiva del testo              4,00              5,00              4,50             4,00
                  Livello di miglioramento                     4,00              4,67              3,83             4,00
                  Conservazione delle informazioni             5,00              4,83              4,17             5,00
PRIN-4            Correttezza delle informazioni               5,00              5,00              4,57             5,00
ChatGPT           Correttezza linguistica                      5,00              5,00              4,86             5,00
                  Chiarezza complessiva del testo              4,00              4,57              4,71             5,00
                  Livello di miglioramento                     4,00              3,57              3,86             5,00
                  Conservazione delle informazioni             5,00              5,00              4,43             5,00
FP-4              Correttezza delle informazioni               5,00              4,43              3,71             5,00
Revisione umana   Correttezza linguistica                      5,00              4,86              4,43             5,00
                  Chiarezza complessiva del testo              5,00              4,71              3,86             5,00
                  Livello di miglioramento                     5,00              4,14              3,14             5,00
                  Conservazione delle informazioni             4,00              4,43              3,29             5,00
FP-4              Correttezza delle informazioni               4,00              3,83              3,33             5,00
ChatGPT           Correttezza linguistica                      5,00              4,67              3,83             5,00
                  Chiarezza complessiva del testo              5,00              4,83              3,83             5,00
                  Livello di miglioramento                     4,00              4,50              3,33             5,00
                  Conservazione delle informazioni             4,00              3,67              3,33             5,00
PONTI-1           Correttezza delle informazioni               4,00              4,86              4,57             5,00
Revisione umana   Correttezza linguistica                      5,00              4,71              4,57             5,00
                  Chiarezza complessiva del testo              4,00              4,57              4,43             5,00
                  Livello di miglioramento                     5,00              4,57              4,00             5,00
                  Conservazione delle informazioni             3,00              3,43              3,71             5,00
PONTI-1           Correttezza delle informazioni               4,00              4,50              4,50             5,00
ChatGPT           Correttezza linguistica                      5,00              4,50              4,67             5,00
                  Chiarezza complessiva del testo              5,00              4,83              4,33             5,00
                  Livello di miglioramento                     4,00              4,33              3,00             5,00
                  Conservazione delle informazioni             4,00              4,33              4,33             5,00
CASS-1            Correttezza delle informazioni               5,00              2,83              3,33             5,00
Revisione umana   Correttezza linguistica                      5,00              4,83              4,00             5,00
                  Chiarezza complessiva del testo              5,00              5,00              4,17             5,00
                  Livello di miglioramento                     5,00              4,33              3,83             5,00
                  Conservazione delle informazioni             5,00              4,67              3,50             5,00
CASS-1            Correttezza delle informazioni               5,00              3,86              4,71             5,00
ChatGPT           Correttezza linguistica                      5,00              4,00              4,57             5,00
                  Chiarezza complessiva del testo              5,00              4,00              5,00             5,00
                  Livello di miglioramento                     4,00              3,86              5,00             5,00
                  Conservazione delle informazioni             5,00              4,14              4,71             5,00
Testo


                                                                                  Crowdso
                                                                Apposita
                                                                  mente


                                                                                    urcing


                                                                                               ChatGPT
                  Aspetti


                                                     Esperti
MOB-1             Correttezza delle informazioni         4,00              4,57         4,29             5,00
Revisione umana   Correttezza linguistica                5,00              5,00         4,57             5,00
                  Chiarezza complessiva del testo        4,00              4,57         4,29             5,00
                  Livello di miglioramento               4,00              4,43         3,57             5,00
                  Conservazione delle informazioni       4,00              4,00         4,14             5,00
MOB-1             Correttezza delle informazioni         5,00              4,67         4,00             5,00
ChatGPT           Correttezza linguistica                5,00              5,00         4,33             5,00
                  Chiarezza complessiva del testo        5,00              4,83         4,17             5,00
                  Livello di miglioramento               4,00              4,50         3,33             5,00
                  Conservazione delle informazioni       5,00              4,83         3,67             5,00
ENERG-2           Correttezza delle informazioni         5,00              3,67         4,33             5,00
Revisione umana
                  Correttezza linguistica                5,00              4,17         4,50             5,00
                  Chiarezza complessiva del testo        5,00              3,83         4,50             5,00
                  Livello di miglioramento               4,00              3,83         4,17             5,00
                  Conservazione delle informazioni       5,00              4,00         4,17             5.00
                  Correttezza delle informazioni         3,00              3,57         4,29             5,00
ENERG-2           Correttezza linguistica                4,00              4,00         4,43             5,00
ChatGPT           Chiarezza complessiva del testo        5,00              4,00         4,14             5,00
                  Livello di miglioramento               4,00              3,29         4,00             5,00
                  Conservazione delle informazioni       4,00              4,00         4,29             5,00
PRIN-5            Correttezza delle informazioni         5,00              4,57         4,14             4,00
Revisione umana   Correttezza linguistica                5,00              4,71         4,71             5,00
                  Chiarezza complessiva del testo        4,00              4,86         4,29             5,00
                  Livello di miglioramento               4,00              4,00         3,57             5,00
                  Conservazione delle informazioni       3,00              3,57         3,29             5,00
PRIN-5            Correttezza delle informazioni         5,00              4,00         4,17             5,00
ChatGPT           Correttezza linguistica                5,00              3,83         4,50             5,00
                  Chiarezza complessiva del testo        5,00              3,83         3,50             5,00
                  Livello di miglioramento               4,00              3,33         2,33             5,00
                  Conservazione delle informazioni       5,00              4,00         3,83             5,00
CASS-4            Correttezza delle informazioni         3,00              3,00         4,00             4,00
Revisione umana   Correttezza linguistica                5,00              3,33         3,67             5,00
                  Chiarezza complessiva del testo        4,00              3,33         3,67             5,00
                  Livello di miglioramento               5,00              3,00         3,17             4,00
                  Conservazione delle informazioni       5,00              3,00         3,17             5,00
CASS-4            Correttezza delle informazioni         3,00              2,14         4,57             4,00
ChatGPT           Correttezza linguistica                5,00              2,00         4,57             5,00
                  Chiarezza complessiva del testo        5,00              2,14         4,14             5,00
                  Livello di miglioramento               4,00              1,71         3,43             4,00
                  Conservazione delle informazioni       5,00              2,00         4,29             5,00