=Paper=
{{Paper
|id=Vol-3878/81_main_long
|storemode=property
|title=Confronto tra Diversi Tipi di Valutazione del Miglioramento della Chiarezza di Testi Amministrativi in Lingua Italiana
|pdfUrl=https://ceur-ws.org/Vol-3878/81_main_long.pdf
|volume=Vol-3878
|authors=Mariachiara Pascucci,Mirko Tavosanis
|dblpUrl=https://dblp.org/rec/conf/clic-it/PascucciT24
}}
==Confronto tra Diversi Tipi di Valutazione del Miglioramento della Chiarezza di Testi Amministrativi in Lingua Italiana==
Confronto tra diversi tipi di valutazione del
miglioramento della chiarezza di testi amministrativi
in lingua italiana
Mariachiara Pascucci1,†, Mirko Tavosanis1,∗,†
1
Università di Pisa, Dipartimento di Filologia, letteratura e linguistica
Abstract
The paper presents a comparison of different types of evaluation of administrative texts in the Italian
language on which a clarity improvement intervention was carried out. The clarity improvement was
performed by human experts and ChatGPT. The evaluation was carried out in four different ways:
by expert evaluators, used as a reference; by evaluators with good skills, subject to dedicated training;
by generic evaluators recruited through a crowdsourcing platform; by ChatGPT. The results show
that the closest match to the results of the evaluation by expert evaluators was reached, by a wide
margin, by evaluators with good skills and dedicated training; the second best approach was reached
by requesting evaluation from ChatGPT; the worst approach was reached by generic evaluators
recruited through a crowdsourcing platform. Task features that may have influenced the outcome
are also discussed.
Keywords
Text simplification, LLMs, ChatGPT, Italian, evaluation, crowdsourcing1
1. Introduzione criteri di ampio consenso per la valutazione dei prodotti
[2].
La diffusione dei sistemi di intelligenza artificiale Naturalmente, molti metodi di valutazione attuali
generativa ha portato a una grande richiesta di forniscono almeno un primo orientamento nella
valutazione delle loro capacità. Il tipo di valutazione maggior parte dei casi. Per esempio, [3] ha mostrato che
universalmente considerato più valido rimane in attraverso il crowdsourcing è possibile ottenere
generale quello realizzato da esseri umani, che però in un’indicazione generica ma attendibile sul
pratica può essere condotto in modi diversi e con miglioramento della chiarezza di testi in lingua inglese.
risultati di valore molto diverso. Per alcune capacità, Tuttavia, gli studi sull’efficacia di simili pratiche sono
inoltre, non esistono ancora quadri di valutazione ancora poco numerosi ed è senz’altro molto sentita la
condivisi. Rientra senz’altro in quest’ultima categoria necessità di migliorare il livello attuale delle conoscenze.
anche la valutazione del miglioramento complessivo Il presente contributo si inserisce in questo contesto
della chiarezza dei testi in lingua italiana, oggetto in quanto mette a confronto diversi metodi per valutare
dell’analisi qui descritta. Gli indici oggettivi esistenti per il miglioramento della chiarezza dei testi. Oggetto della
l’analisi di testi, come il GULPEASE o la quantificazione valutazione sono stati testi piuttosto ampi,
delle parole che rientrano nel Vocabolario di Base, rappresentativi dell’italiano amministrativo e resi più
descrivono in effetti solo aspetti limitati di un qualunque chiari attraverso un intervento umano e attraverso la
testo. Per la chiarezza in sé, mentre abbondano le riformulazione con ChatGPT (versione 3.5); il contesto,
indicazioni su come scrivere in modo chiaro (una sintesi che ha visto la realizzazione di diverse attività di
aggiornata è esposta in [1]), non sono mai stati codificati valutazione collegate, è descritto in dettaglio in [4].
CLiC-it 2024: Tenth Italian Conference on Computational Linguistics, mariachiara.pascucci@phd.unipi.it (M. Pascucci);
Dec 04 — 06, 2024, Pisa, Italy mirko.tavosanis@unipi.it (M. Tavosanis).
∗
Corresponding author. 0009-0007-1934-8479 (M. Pascucci); 0000-0002-4730-3901 (M.
†
Il contributo degli autori è unitario. Tuttavia, si dichiara che sono Tavosanis)
© 2024 Copyright for this paper by its authors. Use permitted under
opera di Mariachiara Pascucci i paragrafi 2, 3, 4 e 7 e di Mirko Creative Commons License Attribution 4.0 International (CC BY 4.0).
Tavosanis i paragrafi 1, 5, 6 e 8.
CEUR
ceur-ws.org
Workshop ISSN 1613-0073
Proceedings
Ai fini del presente contributo, la valutazione è stata potenziale di GPT-4, confrontando i risultati delle
condotta in quattro modi diversi: da valutatori esperti, valutazioni del modello con quelle di esperti umani per i
usati come riferimento; da valutatori con buone processi di semplificazione.
competenze, oggetto di una formazione dedicata; da
valutatori generici reclutati attraverso una piattaforma 3. Testi originali e
di crowdsourcing; da parte di ChatGPT. In tutti i casi, è
riformulazioni
stata usata la stessa serie di indicazioni per la
valutazione. I risultati sono stati analizzati in [4] per le La valutazione cui si fa riferimento nel presente
informazioni che forniscono riguardo alla capacità di contributo è stata eseguita in rapporto a un’attività di
sistemi come ChatGPT di migliorare efficacemente la miglioramento della chiarezza di testi amministrativi
chiarezza dei testi. In questa sede si mostrerà invece, in regolativi in lingua italiana. Questo tipo di attività
modo più specifico, la differenza nei giudizi in rapporto corrisponde a una richiesta diffusa a livello sociale e su
ai quattro modi di valutazione. cui esiste ampia bibliografia specifica (per esempio:
[12]). Tuttavia, anche in questo caso non esistono criteri
2. Lavori correlati condivisi per la valutazione di testi esistenti; non è
quindi possibile, per esempio, rifarsi a scale condivise
Anche se il miglioramento della chiarezza è un obiettivo per descrivere la chiarezza di un testo amministrativo.
centrale in vari campi di ricerca linguistica applicata, la Sulla situazione generale dei criteri per la chiarezza e sui
valutazione dell’efficacia dei processi di miglioramento dettagli del caso esaminato si rimanda di nuovo a [1] e
rimane, come si è detto, una questione aperta. Tale stato [4]; le informazioni fornite qui di seguito saranno quindi
di cose si riflette nell’eterogeneità delle soluzioni solo quelle strettamente necessarie per l’inquadramento
adottate nei diversi studi realizzati in questo ambito. dell’esperienza svolta.
Come evidenziato in [2], infatti, non esiste un quadro Per l’attività descritta qui di seguito sono state scelte
teorico condiviso per valutare l’efficacia delle casualmente 8 sezioni ragionevolmente autonome e
riformulazioni in termini di chiarezza né, in senso più autoconsistenti di testi amministrativi più ampi, per una
ampio, per la valutazione complessiva della qualità dei lunghezza approssimativa di 2000 caratteri a sezione. I
testi generati. In una rassegna sistematica, [5] sottolinea testi sono stati poi rielaborati chiedendo a ChatGPT di
che le operazioni di valutazione dei testi generati migliorarne la chiarezza. I due prompt usati per la
possono avvalersi di diversi approcci: valutazioni versione definitiva del lavoro sono riportati
umane, metriche quantitative o sistemi di valutazione nell’Appendice A.
automatica e semiautomatica. Il giudizio umano è In aggiunta al miglioramento della chiarezza da
adoperato, per esempio, in lavori come [6] e in studi che parte ChatGPT, uno degli autori (Mariachiara Pascucci)
hanno adottato un approccio comparativo, come [7], che ha condotto un intervento umano, usato come termine
propone un confronto tra valutazione umana e metriche di confronto, per il miglioramento della chiarezza.
automatiche per valutare l’efficacia dei processi di Inoltre, nel campione sono stati inseriti, con minimi
semplificazione. La letteratura di riferimento sembra in ritocchi, alcuni esempi classici di miglioramento della
effetti convergere verso l’idea che la valutazione umana chiarezza, ripresi da [13].
dei testi generati rimanga in generale la più adeguata,
come evidenziato da diversi lavori, tra cui [8] e [2]. Non
4. Interventi di riformulazione
mancano tuttavia studi che usano metriche automatiche
e indici di leggibilità per la valutazione degli output, Per quanto riguarda la riformulazione manuale dei testi,
come [9]. gli interventi hanno interessato vari tratti linguistici (a
Riguardo all’impiego del crowdsourcing, un livello lessicale, morfosintattico e testuale)
approccio interessante è quello di lavori come il già comunemente associati alla complessità dei testi
citato [3] e il più recente [10], in cui sono messe a istituzionali. Il quadro di riferimento è quello presentato
confronto diverse modalità di valutazione, incluse in [14].
metriche automatiche, giudizi di esperti e un test di L'analisi delle riformulazioni generate da ChatGPT
comprensione che ha coinvolto partecipanti selezionati mostra che il modello ha operato in modo paragonabile
in modo casuale e senza preparazione specifica per lo a quello umano, intervenendo contemporaneamente su
svolgimento del compito. In ambito italiano, [11] ha più tratti e su più livelli linguistici. ChatGPT sembra
esplorato l’uso del crowdsourcing per la valutazione comunque essersi concentrato sulla semplificazione del
della complessità frasale. lessico, spesso piuttosto spinta, e sulla riduzione della
L’applicazione dei modelli GPT alla valutazione lunghezza delle frasi. Di seguito, si riporta un esempio
automatica della chiarezza testuale è stata ancora poco che consente di confrontare la versione originale con i
indagata, ma non mancano gli esperimenti interessanti. due diversi tipi di riformulazione.
Degno di nota è il già citato [7], che ha esaminato il
Originale (ENERG-2) testi sono poi stati sottoposti senza indicazioni sulla
provenienza o sull’origine delle riformulazioni.
Le spese per “Servizi esterni” sono rappresentate dalle
spese che il Beneficiario/Soggetto Attuatore sostiene a 6.1. Valutatori esperti
favore di erogatori esterni di servizi, i quali si assumono
Una prima valutazione del lavoro è stata compiuta dai
determinati compiti che sono necessari per il
due autori. Mirko Tavosanis è un ricercatore attivo da
raggiungimento degli obiettivi progettuali e che il
oltre 25 anni nel settore della chiarezza comunicativa; ha
Beneficiario/Soggetto Attuatore non è in grado di
pubblicato in proposito un manuale scritto in
svolgere in proprio.
collaborazione [16] e contributi divulgativi e scientifici
dedicati alla valutazione dei testi generati. Mariachiara
Riformulazione manuale
Pascucci è dottoranda presso la Scuola di Dottorato in
Italianistica dell’Università di Pisa con una ricerca sul
Le spese per “Servizi esterni” sono le spese che il
miglioramento della chiarezza nella comunicazione
Beneficiario/Soggetto Attuatore sostiene a favore di
amministrativa.
erogatori esterni di servizi. Tali erogatori svolgono
In una prima fase, i due valutatori hanno lavorato in
compiti specifici, necessari per il raggiungimento degli
modo indipendente. I punteggi da loro assegnati sono
obiettivi del progetto, che il Beneficiario/Soggetto
stati poi confrontati per produrre una valutazione
Attuatore non è in grado di svolgere in proprio.
condivisa, che è stata usata come punto di riferimento.
Riformulazione automatica (Prompt 2) 6.2. Valutatori formati appositamente
Le spese per 'Servizi esterni' sono i soldi che una persona Il gruppo è stato composto da studenti frequentanti del
o un'organizzazione spende per ottenere aiuto da altri corso di Linguistica italiana II del corso di laurea
fornitori di servizi. Questi fornitori svolgono compiti magistrale in Informatica umanistica dell’Università di
importanti per raggiungere gli obiettivi di un progetto, Pisa. Il corso di laurea richiede alle matricole il possesso
compiti che la persona o l'organizzazione che riceve di almeno 12 CFU in discipline linguistiche all’ingresso;
l'aiuto non può fare da sola. diversi studenti hanno poi competenze più avanzate
(Generated by AI tool ChatGPT-3.5) negli studi linguistici.
Tutti i valutatori hanno quindi operato mentre
5. Griglia di valutazione e seguivano un corso annuale sulla valutazione dei testi
generati. La sezione conclusiva del corso è stata dedicata
valutatori alla valutazione del miglioramento della chiarezza, con
Il primo passo per l’attività è stata la creazione di una l’inclusione di basi teoriche, la descrizione dei tratti
griglia di valutazione basata sulla bibliografia esistente e linguistici tipicamente coinvolti e una formazione
sull’esame diretto delle capacità del sistema. La griglia è specifica sulla valutazione. Al termine del corso si è
stata messa a punto attraverso una serie di verifiche svolta un’attività di armonizzazione delle valutazioni in
intermedie ed è stata corredata da istruzioni applicative presenza (90 minuti), in cui le valutazioni assegnate a
ricavate dalla pratica, con discussione di esempi specifici testi simili a quelli poi presi in esame sono state discusse
e indicazioni per la gestione di casi dubbi. La versione e revisionate in modo da arrivare a una valutazione
definitiva della griglia e delle istruzioni, usata per tutte quanto più possibile condivisa.
le attività descritte qui di seguito, è riportata L’attività finale di valutazione è stata svolta in
nell’Appendice B. presenza, in aula, con testi presentati su carta e una
durata di 90 minuti. I valutatori sono stati divisi in due
6. Modalità della valutazione gruppi, denominati A (7 valutatori) e B (6 valutatori);
ogni gruppo doveva valutare 8 testi riformulati, 4 dei
La valutazione è stata condotta in quattro modi diversi, quali prodotti da ChatGPT e 4 da intervento umano,
presentati qui di seguito. accompagnati dagli originali; i testi erano alternati nei
Il quadro concettuale usato è quello descritto in [15]. due gruppi, in modo che nel complesso venissero
Come punto di riferimento sono quindi stati usati i valutati tutti gli 8 testi prodotti da ChatGPT e tutti gli 8
giudizi di valutatori esperti. Tuttavia, ogni attività di prodotti da intervento umano. Non tutti i valutatori
valutazione è stata condotta separatamente, senza che hanno completato l’attività, in particolare per gli ultimi
chi la conduceva avesse a disposizione i punteggi testi di ogni gruppo.
assegnati nelle altre attività. Ai valutatori descritti di
seguito – con l’eccezione dei valutatori esperti,
responsabili anche della preparazione del campione – i
6.3. Crowdsourcing 7. Risultati della valutazione
I testi sono stati valutati anche mediante crowdsourcing, Va notato che in tutti e quattro i modi la valutazione ha
utilizzando la piattaforma Prolific. classificato le rielaborazioni come di alto livello. I voti
L'uso di metodi di crowdsourcing per la ricerca assegnati ai singoli aspetti da valutare non scendono in
linguistica è ben documentato, come descritto in [17]. In effetti quasi mai sotto il 3 e rimangono quasi sempre
particolare, sistemi di crowdsourcing sono stati applicati nella fascia del 4 e del 5. Le differenze tra i singoli
anche al campo della complessità linguistica e del valutatori umani e ChatGPT sono quindi piuttosto
miglioramento della chiarezza in lavori come [3], [11] e contenute. La sintesi dei risultati completi è presentata
[18]. nell’Appendice C.
Per questo lavoro, la selezione dei partecipanti è Una discussione dei risultati in rapporto alle
stata realizzata avviando due studi distinti per ottenere prestazioni del sistema viene presentata in [3] e [4]. Qui
due gruppi differenziati di valutatori. I criteri di verranno invece prese in considerazione solo le
selezione includevano la padronanza della lingua differenze nei risultati tra i quattro modi di valutazione.
italiana e il livello di istruzione; sono stati infatti Occorre quindi innanzitutto confrontare le medie
reclutati solo partecipanti in possesso di un diploma di complessive della valutazione (Tabella 1).
laurea.
Per replicare le condizioni della valutazione in aula, Tabella 1
è stato reclutato lo stesso numero di partecipanti, Medie complessive e indicazione dello scostamento
suddivisi in Gruppo A (7 valutatori) e Gruppo B (6 assoluto rispetto al valore fornito dagli esperti.
valutatori).
Gruppo A
Gruppo B
scostamento
scostamento
Il tempo a disposizione per completare l'attività era
identico a quello della valutazione in aula, ovvero 90
minuti, ma il tempo impiegato in media dai partecipanti
per lo svolgimento del compito è stato di 35 minuti. I
gruppi di testi distribuiti ai partecipanti su Prolific
corrispondevano, per ordine e tipologie di
Esperti 4,40 4,66
rielaborazione, a quelli utilizzati nella valutazione in
Valutatori 4,51 0,11 4,58 0,08
aula. Prolific ha reindirizzato i partecipanti selezionati a
formati
un modulo Google. Nella scheda iniziale del modulo
Crowdsourcing 4,23 0,17 3,90 0,76
sono state fornite le indicazioni per l’assegnazione dei
GPT 4,92 0,52 4,86 0,20
punteggi, identiche a quelle fornite per la valutazione in
aula. Ogni scheda successiva del modulo conteneva il
testo originale e la versione revisionata, con l'istruzione Tra i vari modi di valutazione ci sono dunque differenze
di assegnare un punteggio da 1 a 5 per ciascuno dei rilevanti nei risultati. Usando come riferimento i giudizi
parametri specificati. dei valutatori esperti, il maggior avvicinamento si ha con
i giudizi dei valutatori formati. GPT fornisce punteggi
6.4. Valutazione con ChatGPT sistematicamente più alti (in pratica, tutti 5 con pochi 4),
mentre il crowdsourcing fornisce valutazioni
L’attività di valutazione è stata condotta anche con sistematicamente più basse. Calcolando lo scostamento
ChatGPT (versione 3.5), proponendo come prompt al complessivo, inteso come somma dei valori assoluti delle
sistema le stesse istruzioni fornite ai valutatori umani. differenze, il risultato migliore si ha con i valutatori
ChatGPT è stato impiegato in modalità zero-shot: per lo formati, con 0,19, seguiti a buona distanza da ChatGPT
svolgimento del compito non sono dunque stati forniti con 0,76 e dal crowdsourcing con 0,93.
al modello esempi di valutazioni già realizzate. Le Le medie complessive nascondono però una
versioni originali e quelle rielaborate di ciascun testo differenza tra gli aspetti. Come è stato notato dai
sono state presentate a ChatGPT separatamente in valutatori esperti, è possibile assegnare i punteggi per gli
diverse finestre di dialogo, senza specificare l'origine aspetti 1, 2 e 5 in modo relativamente oggettivo,
della revisione, analogamente a quanto fatto con i appoggiandosi a valutazioni quantitative, mentre per gli
valutatori umani. Pur non avendo ricevuto indicazioni aspetti 3 e 4 è frequente l’incertezza di assegnazione tra
specifiche a tal proposito, ChatGPT ha fornito, per ogni il punteggio 4 e il punteggio 5. Sembra quindi utile
parametro, una motivazione dettagliata del punteggio valutare separatamente gli aspetti 1, 2 e 5 (Tabella 2).
assegnato, facendo ampio riferimento ai criteri di
valutazione forniti.
Tabella 2 La conclusione è senz’altro condivisibile: per questo tipo
Medie degli aspetti 1, 2 e 5 e indicazione dello di attività, semplicemente, i criteri devono ancora essere
scostamento assoluto rispetto al valore fornito dagli messi a punto in modo soddisfacente. Tuttavia, sembra
esperti. evidente la distanza tra l’accordo che si può raggiungere
con valutatori formati appositamente invece che con il
Gruppo A
Gruppo B
scostamento
scostamento
semplice crowdsourcing.
7.2. Esame di un caso specifico
I motivi per le differenze tra le diverse valutazioni sono
naturalmente molto difficili da ricostruire. Tuttavia, in
Esperti 4,42 4,76 almeno alcuni casi è possibile notare che i valutatori
Valutatori 4,58 0,16 4,54 0,18 hanno fornito valutazioni difficili da giustificare
formati oggettivamente, in rapporto probabile con la
Crowdsourcing 4,32 0,10 4,02 0,74 complessità del compito.
GPT 4,92 0,50 4,92 0,16 Per esempio, nel caso del testo con codice CASS-4,
inserito nel gruppo A, il crowdsourcing ha fornito una
Anche in questo caso, calcolando lo scostamento valutazione di 4,71 per l’aspetto di “conservazione delle
complessivo, il risultato migliore si ha comunque con i informazioni”. Su sette valutatori, infatti, 4 hanno
valutatori formati, con 0,34, seguiti da ChatGPT con 0,66 fornito il punteggio 5, che corrisponde al giudizio “la
e dal crowdsourcing con 0,84. La classifica quindi non riformulazione è sostanzialmente corretta e completa”; 3
cambia, anche se è notevole che su questa selezione di invece hanno fornito un punteggio di livello 4, che
aspetti lo scostamento minore rispetto agli esperti si corrisponde al giudizio “la riformulazione altera
ottenga con il crowdsourcing nel gruppo A e con l’originale, ma solo in modo marginale (per esempio, se
ChatGPT nel gruppo B. viene descritta una procedura, le discrepanze possono
portare distorsioni marginali nella procedura; rientrano
7.1. Accordo tra valutatori in questa categoria anche le leggere ma ripetute
distorsioni del significato di partenza, anche quando
Per quanto riguarda la robustezza della valutazione sia
sono prive di effetti pratici)”. I valutatori esperti hanno
nel caso dei valutatori formati appositamente sia nel
caso del crowdsourcing, l’accordo tra i valutatori invece assegnato al testo il giudizio 3: “la riformulazione
altera l’originale in modo significativo (per esempio, se
individuali non ha raggiunto i livelli considerati
viene descritta una procedura, anche se la maggior parte
sufficienti secondo il calcolo dell’alpha di Krippendorff
dei contenuti è corretta, seguire le indicazioni potrebbe
([19]).
L’accordo complessivo tra i valutatori formati provocare qualche errore nello svolgimento della
procedura)”.
appositamente per il gruppo A è stato in effetti di 0,288;
Quest’ultima valutazione è stata dovuta, in aggiunta
per il gruppo B, di 0,270. Il livello massimo di accordo è
a cambiamenti minori, al modo in cui sono state
stato raggiunto dal gruppo A nella valutazione
riformulate due frasi.
dell’aspetto di “conservazione delle informazioni”, che
ha raggiunto il valore di 0,502. L’accordo complessivo tra
Frase 1 – originale: [Il Consiglio Circoscrizionale]
i valutatori reclutati per crowdsourcing è stato invece di
0,181 per il gruppo A e di 0,141 per il gruppo B. Anche risolve, per motivi espressi in narrativa, di fissare i
in questo caso, il livello massimo di accordo è stato seguenti criteri al fine di consentire all'ufficio Tecnico
raggiunto dal gruppo A nella valutazione dell’aspetto di circ.le di essere autorizzato ad installare direttamente
“conservazione delle informazioni”, che però ha ovvero di autorizzare i cittadini ad installare barriere
metalliche senza dover sottoporre le richieste al parere
raggiunto solo il valore di 0,241.
della Commissione circ.le Traffico
Secondo lo schema di interpretazione dell’alpha di
Krippendorff, i valori inferiori a 0,670 sono
Frase 1 - riformulazione: Il Consiglio Circoscrizionale, in
indicative of poor agreement among raters. Data with a virtù delle ragioni esposte, decide di stabilire i seguenti
Krippendorff's Alpha below this threshold are often criteri per consentire all'Ufficio Tecnico circoscrizionale
deemed unreliable for drawing triangulated conclusions. di autorizzare direttamente l'installazione dei
It suggests that the raters are not applying the coding parapedonali o di concedere ai cittadini l'autorizzazione
per farlo senza dover ricorrere al parere della
scheme consistently or that the scheme itself may be
Commissione circoscrizionale del Traffico.
flawed [19].
(Generated by AI tool ChatGPT-3.5)
Nel testo riformulato non si chiarisce che l’Ufficio autori nella riscrittura di alcuni testi: anche se le
Tecnico può installare direttamente i parapedonali, ma caratteristiche della valutazione rendono a nostro
si parla solo di “autorizzare” l’installazione. giudizio molto limitato il rischio di alterazioni, si
prevede di modificare il protocollo per future attività
Frase 2 – originale: i parapedonali dovranno essere dello stesso genere, delegando tutte le riscritture a terze
installati lungo i marciapiedi in corrispondenza delle parti. Per la valutazione dei testi generati da ChatGPT
Ambasciate che, in genere per motivi di sicurezza, ne può essere inoltre utile far valutare i testi a un sistema
fanno richiesta. diverso – e, in generale, ampliare e ripetere le
valutazioni è naturalmente indispensabile per validarne
Frase 2 – riformulazione: Sarà richiesto l'installazione di i risultati.
parapedonali lungo i marciapiedi in corrispondenza Di sicuro, però, i risultati invitano a prestare
delle Ambasciate, su richiesta di queste ultime per attenzione ai limiti di pratiche oggi diffuse come il
ragioni di sicurezza. crowdsourcing, che sul compito in esame hanno
(Generated by AI tool ChatGPT-3.5) mostrato un notevole scostamento rispetto alla
valutazione di esperti. Inoltre, se la valutazione rapida ed
Nel testo riformulato, al di là dell’errore grammaticale (e economica fornita da sistemi come ChatGPT dovesse
semantico) in “Sarà richiesto l’installazione”, viene essere regolarmente confermata come più vicina alla
inserita una limitazione inesistente nell’originale: le valutazione di esperti rispetto al crowdsourcing, le
installazioni possono implicitamente essere accettate motivazioni per il crowdsourcing stesso
solo nel caso che dietro alla richiesta vi siano “ragioni di scomparirebbero.
sicurezza”. Quella che nell’originale era solo una
spiegazione diventa quindi una condizione necessaria. Ringraziamenti
In questo caso, i valutatori esperti confermano
l’attribuzione del giudizio 3, che però non è stato Ringraziamo per la collaborazione Claudia Gigliotti.
espresso da nessun valutatore del crowdsourcing (nella Diversi aspetti dell’analisi dei dati sono stati discussi con
valutazione da parte di esperti, il testo è stato valutato Angela Ferrari. La responsabilità delle affermazioni
solo da 2 valutatori, che hanno comunque assegnato il rimane naturalmente agli autori.
giudizio 5).
Note
8. Conclusioni [1] G. Fiorentino, V. Ganfi. “Parametri per
I risultati dei diversi modi di valutazione potrebbero a semplificare l’italiano istituzionale: revisione della
prima vista essere interpretati come una svalutazione del letteratura.” Italiano LinguaDue 16.1, pages 220-
crowdsourcing, rispetto al quale la semplice richiesta a 237, 2024, doi:10.54103/2037-3597/23835
ChatGPT è in grado di fornire risultati di qualità più alta. [2] M. Tavosanis, “Valutare la qualità dei testi generati
Tuttavia, è chiaro che le caratteristiche dell’attività in lingua italiana.” AI-Linguistica 1.1 (2024), pages
svolta rendono consigliabile non trarre conclusioni 1-24.
troppo generalizzate. [3] W. S. Lasecki, R. Luz, J. P. Bigham, Measuring text
Innanzitutto, invita alla cautela il fatto che la simplification with the crowd, in: Proceedings of
valutazione dipenda con ogni evenienza dalla scala the 12th Web for All Conference W4A 15, 2015.
usata. In un contesto in cui si sa che il voto può essere doi:10.1145/2745555.2746658.
solo 4 o 5, in fin dei conti, la semplice assegnazione [4] M. Tavosanis, Valutare la riformulazione
casuale del punteggio darebbe 4,5 sia al gruppo A sia al automatica, in: Amministrazione attiva, Firenze,
gruppo B, scostandosi dal giudizio degli esperti con 0,26 Cesati (in stampa).
per la valutazione complessiva e 0,34 per gli aspetti 1, 2 [5] A. Celikyilmaz, E. Clark, J. Gao, Evaluation of Text
e 5, valori molto vicini a quelli forniti dai valutatori Generation: A Survey, 2020, arXiv:2006.14799.
formati. [6] R. Tariq et al., Assessing ChatGPT for Text
In queste circostanze, sembra innanzitutto utile Summarization, Simplification and Extraction
creare griglie di valutazione più specifiche e mirate. Le Tasks, 2023 IEEE 11th International Conference on
alte prestazioni dei sistemi attuali, del resto, rendono Healthcare Informatics (ICHI), Houston, TX, USA,
senz’altro meno utili che in passato scale 1-5 in cui il 2023, pp. 746-749, 2023, doi:
punteggio 1 deve essere assegnato a un “testo 10.1109/ICHI57859.2023.00136.
completamente incomprensibile” e il punteggio 5 a un [7] A. Sottana, B. Liang, K. Zou, Z. Yuan, Evaluation
“testo perfettamente comprensibile”. Metrics in the Era of GPT-4: Reliably Evaluating
Vanno inoltre tenuti presenti alcuni limiti Large Language Models on Sequence to Sequence
dell’analisi. Uno tra questi è il coinvolgimento degli Tasks. 2023, arXiv:2310.13800.
[8] C. van der Lee, A. Gatt, E. van Miltenburg, S. Coefficient. MethodsX, 12, 102545, 2024, doi:
Wubben, E. Krahmer, Best practices for the human https://doi.org/10.1016/j.mex.2023.102545
evaluation of automatically generated text. In
Proceedings of the 12th International Conference
on Natural Language Generation, pages 355–368,
Tokyo, Japan, Association for Computational
Linguistics, 2019.
[9] D. Nozza, G. Attanasio, Is It Really That Simple?
Prompting Language Models for Automatic Text
Simplification in Italian. CLiC-it 2023: 9th Italian
Conference on Computational Linguistics, Nov 30
— Dec 02, 2023, Venice, Italy, 2023.
[10] N. van Raaij, D. Kolkman, K. Podoynitsyna,
Clearer Governmental Communication: Text
Simplification with ChatGPT Evaluated by
Quantitative and Qualitative Research. In
Proceedings of the Workshop on DeTermIt!
Evaluating Text Difficulty in a Multilingual
Context @ LREC-COLING 2024, pages 152–178,
Torino, Italia. ELRA and ICCL, 2024.
[11] D. Brunato, L. De Mattei, F. Dell’Orletta, B.
Iavarone, G. Venturi, Is this sentence difficult? do
you agree? In Proceedings of the 2018 Conference
on Empirical Methods in Natural Language
Processing, pages 2690–2699, Brussels, Belgium
Association for Computational Linguistics, 2018.
[12] M. Cortelazzo, Il linguaggio amministrativo:
principi e pratiche di modernizzazione, Carocci,
Roma, 2021.
[13] S. Cassese (a cura di), Codice di stile delle
comunicazioni scritti ad uso delle amministrazioni
pubbliche, Istituto poligrafico e zecca dello Stato,
Roma, 1994.
[14] E. Piemontese, Capire e farsi capire. Teorie e
tecniche della scrittura controllata. Napoli:
Tecnodid, 1996.
[15] K. Krippendorff, Content Analysis: An
Introduction to Its Methodology, 4th edition,
SAGE Publications, Los Angeles, 2019.
[16] M. Gasperetti, M. Tavosanis, Comunicare, Apogeo,
Milano, 2004.
[17] R. Munro, S. Bethard, V. Kuperman, V.T. Lai, R.
Melnick, C. Potts, T. Schnoebelen e H. Tily.
Crowdsourcing and language studies: The new
generation of linguistic data. In Proceedings of the
Workshop on Creating Speech and Language Data
with Amazons Mechanical Turk, pages 122–130,
2010.
[18] O. De Clercq, V. Hoste, B. Desmet e P. Van Oosten.
Using the crowd for readability prediction, Natural
Language Engineering, pages 1–33, 2013.
[19] G. Marzi, M. Balzano, D. Marchiori, K-Alpha
Calculator—Krippendorff's Alpha, 2024.
Calculator: A User-Friendly Tool for Computing
Krippendorff's Alpha Inter-Rater Reliability
A. Prompt usati Quindi per esempio dovranno essere considerate
buone, dal punto di vista della correttezza delle
Prompt 1: Puoi semplificare la forma linguistica del informazioni, riformulazioni come questa:
seguente testo amministrativo-burocratico pur Originale: Approvazione, con Decreto del
mantenendo tutti i dettagli del contenuto? Voglio che il Ministero del Lavoro e delle Politiche Sociali n. 15 del 29
testo prodotto sia dettagliato e lungo tanto quanto il gennaio 2024, della “Nota Metodologica per l’adozione
testo da semplificare che è qui tra virgolette “[...]” di UCS (Unità di Costo Standard).”
Riformulato: Approvazione della “Nota
Prompt 2: Rendi più chiaro il seguente testo inserito tra Metodologica per l'adozione di UCS (Unità di Costo
virgolette, estratto da linee guida ministeriali, in modo Standard)” con un decreto ministeriale del gennaio 2024.
che sia facilmente comprensibile per un pubblico Anche l’omissione di informazioni (purché non
diversificato, inclusi individui con conoscenze limitate rilevanti alla comprensione di quanto rimane) deve
dell’argomento e un livello medio di istruzione. essere considerata ininfluente: anche l’eliminazione di
Concentrati sull'utilizzo di un linguaggio chiaro e informazioni deve essere considerata una scelta
conciso senza compromettere l'accuratezza delle redazionale. L’entità dell’omissione viene valutata
informazioni. Assicurati che siano preservati i dettagli invece nell’aspetto 5.
chiave riguardanti la procedura descritta. Punta a Quindi per esempio dovranno essere considerate
migliorare l'accessibilità e la leggibilità mantenendo il buone, dal punto di vista della correttezza delle
contenuto e il significato essenziali del documento. informazioni, riformulazioni come queste:
Preserva la coesione del testo. Mantieni bilanciata la Originale: l’introduzione dell’equivalenza alla
lunghezza del testo. “[...]” partecipazione ai PUC, ai fini della definizione degli
impegni nell’ambito dei patti per l'inclusione sociale,
B. Griglia di valutazione e della partecipazione, definita d’intesa con il Comune, ad
istruzioni attività di volontariato presso enti del Terzo settore e a
titolarità degli stessi, da svolgere nel Comune di
1. La correttezza delle informazioni fornite residenza nei medesimi ambiti di intervento previsti per
1: la riformulazione non ha nessun rapporto con i PUC;
l’originale o altera l’originale (per omissione, Riformulato: l’introduzione dell'equivalenza tra
deformazione o aggiunta) al punto di essere partecipazione ai PUC e ad attività di volontariato per i
incomprensibile patti per l'inclusione sociale.
2: la riformulazione altera l’originale in modo grave Un buon modo per controllare può essere: dare brevi
(per esempio, se viene descritta una procedura, il testo titoli ai singoli capoversi, per sintetizzare l’argomento, e
riformulato non permette di eseguirla correttamente) valutare la correttezza un capoverso alla volta.
3: la riformulazione altera l’originale in modo
significativo (per esempio, se viene descritta una 2. La correttezza linguistica del testo
procedura, anche se la maggior parte dei contenuti è Nella prospettiva di un lettore italiano medio
corretta, seguire le indicazioni potrebbe provocare (madrelingua, con diploma di scuola superiore come
qualche errore nello svolgimento della procedura) titolo di studio più alto), dal punto di vista formale il
4: la riformulazione altera l’originale, ma solo in testo risulta:
modo marginale (per esempio, se viene descritta una 1: difficile da ricondurre alla norma
procedura, le discrepanze possono portare distorsioni 2: con quattro o più errori morfosintattici
marginali nella procedura; rientrano in questa categoria (indipendentemente dalla loro estensione)
anche le leggere ma ripetute distorsioni del significato di 3: con non più di tre errori morfosintattici e/o molti
partenza, anche quando sono prive di effetti pratici) usi insoliti di collocazioni, o simili
5: la riformulazione è sostanzialmente corretta e 4: con non più di due errori morfosintattici, possibili
completa anche a esseri umani, e/o non più di due usi insoliti delle
collocazioni, o simili aspetti discutibili dal punto di vista
Precisazioni importanti formale
L’omissione, totale o parziale, dei riferimenti a leggi, 5: corretta, con incertezze minime che potrebbero
regolamenti e simili deve essere considerata essere trovate anche in un testo professionale umano
ininfluente (a meno che non sia necessaria per spiegare Precisazioni importanti
una parte del testo: per esempio, il fatto che le modifiche La valutazione di questo aspetto non deve riguardare
sono richieste da una legge appena approvata): questa va il registro linguistico. In altri termini, la scelta di usare
considerata come una scelta redazionale presa a monte. un tono più o meno formale, incluso l’impiego di
forestierismi, viene considerata una scelta redazionale.
Per esempio, in un testo potranno essere accettabili sia Anche per questo aspetto, come per l’aspetto 1,
“fare” sia “eseguire”, senza assegnare una preferenza l’omissione o il mantenimento dei riferimenti a leggi,
all’una scelta o all’altra – a parità di correttezza. regolamenti e simili devono essere considerati
La valutazione non deve riguardare nemmeno la ininfluenti: ai fini della valutazione di questo aspetto, si
comprensibilità delle parole o delle espressioni, che suppone che i riferimenti compaiano se sono utili ai fini
è valutata separatamente nell’aspetto 3. Per esempio, a della comunicazione e non compaiano se sono inutili ai
livello di correttezza linguistica possono essere fini della comunicazione. Lo stesso vale per l’omissione
accettabili sia “download” sia “scaricamento”, anche se di informazioni, che viene valutata nell’aspetto 5.
una parola è più comprensibile dell’altra.
L’accettabilità di incertezze “minime” è collegata al 5. La conservazione delle informazioni
fatto che anche lettori L1 colti possono avere idee 1: il testo elimina più del 75% delle informazioni
diverse sull’accettabilità o meno di alcune parole e dell’originale
costruzioni. Di qui anche l’importanza di mettersi nella 2: il testo elimina tra il 75% e il 50% delle
prospettiva di un lettore italiano “medio”. informazioni dell’originale
3: il testo elimina tra il 50% e il 25% delle
3. La chiarezza complessiva del testo informazioni dell’originale
Per un lettore italiano medio (madrelingua, con diploma 4: il testo elimina una parte delle informazioni
di scuola superiore come titolo di studio più alto), il testo dell’originale inferiore al 25%
riformulato è verosimilmente: 5: il testo mantiene tutte le informazioni
1: incomprensibile dell’originale
2: quasi del tutto incomprensibile
3: in buona parte comprensibile, ma con uno o più Precisazioni importanti
elementi significativi poco comprensibili La valutazione deve essere una stima quantitativa. Non
4: in buona parte comprensibile, con piccole deve tener quindi conto dell’importanza delle
incertezze (per esempio, sul significato esatto di una informazioni eliminate, ma solo della loro quantità. Si
parola) può tenere come riferimento la lunghezza delle
5: perfettamente comprensibile espressioni che presentano le informazioni eliminate.
Un buon modo per valutare la conservazione delle
Precisazioni importanti informazioni può essere: sottolineare nell’originale le
Questo aspetto deve essere valutato senza tenere conto parole o le espressioni o le frasi che non hanno riscontro
della completezza o della correttezza oggettiva nel testo riformulato e fare una stima della percentuale
delle informazioni, ma solo della loro coerenza interna complessiva.
e della loro presentazione. Inoltre, deve essere valutato
senza basarsi sulla brevità o meno del testo (di cui, in Importante! In caso di dubbio sull’aspetto cui
sede di valutazione complessiva, si tiene conto in base assegnare un errore o una deviazione, la correttezza
alla lunghezza in parole e in caratteri dell’originale e delle informazioni (aspetto 1) deve essere privilegiata
della riformulazione). rispetto alla correttezza linguistica (aspetto 2) e alla
Anche per questo aspetto, come per l’aspetto 1, chiarezza complessiva (aspetto 3). In pratica, l’errore
l’omissione o il mantenimento dei riferimenti a leggi, andrà contato come errore di correttezza, senza influire
regolamenti e simili devono essere considerati sulla valutazione degli altri aspetti.
ininfluenti: ai fini della valutazione di questo aspetto, si Per esempio, un’espressione come “Se il Beneficiario
suppone che i riferimenti compaiano se sono utili ai fini non è lo stesso dell’esecutore dell’azione” (al posto di
della comunicazione e non compaiano se sono inutili ai “Qualora il Beneficiario non coincida con il Soggetto
fini della comunicazione. Lo stesso vale per l’omissione Attuatore”) dovrebbe essere valutata come errore nella
di informazioni, che viene valutata nell’aspetto 5. correttezza, indipendentemente dai dubbi che possono
venire (a seconda dei contesti) per quanto riguarda la
4. Il livello di miglioramento rispetto all’originale correttezza linguistica o la chiarezza.
1: il testo è molto meno chiaro dell’originale
2: il testo è sensibilmente meno chiaro dell’originale
3: il testo è tanto chiaro quanto l’originale
4: il testo è sensibilmente più chiaro dell’originale
5: il testo è molto più chiaro dell’originale
Precisazioni importanti
C. Risultati complessivi
Testo
Apposita
Crowdso
mente
urcing
ChatGPT
Aspetti
Esperti
PRIN-4 Correttezza delle informazioni 5,00 4,83 4,50 5,00
Revisione umana
Correttezza linguistica 5,00 4,67 4,67 4,00
Chiarezza complessiva del testo 4,00 5,00 4,50 4,00
Livello di miglioramento 4,00 4,67 3,83 4,00
Conservazione delle informazioni 5,00 4,83 4,17 5,00
PRIN-4 Correttezza delle informazioni 5,00 5,00 4,57 5,00
ChatGPT Correttezza linguistica 5,00 5,00 4,86 5,00
Chiarezza complessiva del testo 4,00 4,57 4,71 5,00
Livello di miglioramento 4,00 3,57 3,86 5,00
Conservazione delle informazioni 5,00 5,00 4,43 5,00
FP-4 Correttezza delle informazioni 5,00 4,43 3,71 5,00
Revisione umana Correttezza linguistica 5,00 4,86 4,43 5,00
Chiarezza complessiva del testo 5,00 4,71 3,86 5,00
Livello di miglioramento 5,00 4,14 3,14 5,00
Conservazione delle informazioni 4,00 4,43 3,29 5,00
FP-4 Correttezza delle informazioni 4,00 3,83 3,33 5,00
ChatGPT Correttezza linguistica 5,00 4,67 3,83 5,00
Chiarezza complessiva del testo 5,00 4,83 3,83 5,00
Livello di miglioramento 4,00 4,50 3,33 5,00
Conservazione delle informazioni 4,00 3,67 3,33 5,00
PONTI-1 Correttezza delle informazioni 4,00 4,86 4,57 5,00
Revisione umana Correttezza linguistica 5,00 4,71 4,57 5,00
Chiarezza complessiva del testo 4,00 4,57 4,43 5,00
Livello di miglioramento 5,00 4,57 4,00 5,00
Conservazione delle informazioni 3,00 3,43 3,71 5,00
PONTI-1 Correttezza delle informazioni 4,00 4,50 4,50 5,00
ChatGPT Correttezza linguistica 5,00 4,50 4,67 5,00
Chiarezza complessiva del testo 5,00 4,83 4,33 5,00
Livello di miglioramento 4,00 4,33 3,00 5,00
Conservazione delle informazioni 4,00 4,33 4,33 5,00
CASS-1 Correttezza delle informazioni 5,00 2,83 3,33 5,00
Revisione umana Correttezza linguistica 5,00 4,83 4,00 5,00
Chiarezza complessiva del testo 5,00 5,00 4,17 5,00
Livello di miglioramento 5,00 4,33 3,83 5,00
Conservazione delle informazioni 5,00 4,67 3,50 5,00
CASS-1 Correttezza delle informazioni 5,00 3,86 4,71 5,00
ChatGPT Correttezza linguistica 5,00 4,00 4,57 5,00
Chiarezza complessiva del testo 5,00 4,00 5,00 5,00
Livello di miglioramento 4,00 3,86 5,00 5,00
Conservazione delle informazioni 5,00 4,14 4,71 5,00
Testo
Crowdso
Apposita
mente
urcing
ChatGPT
Aspetti
Esperti
MOB-1 Correttezza delle informazioni 4,00 4,57 4,29 5,00
Revisione umana Correttezza linguistica 5,00 5,00 4,57 5,00
Chiarezza complessiva del testo 4,00 4,57 4,29 5,00
Livello di miglioramento 4,00 4,43 3,57 5,00
Conservazione delle informazioni 4,00 4,00 4,14 5,00
MOB-1 Correttezza delle informazioni 5,00 4,67 4,00 5,00
ChatGPT Correttezza linguistica 5,00 5,00 4,33 5,00
Chiarezza complessiva del testo 5,00 4,83 4,17 5,00
Livello di miglioramento 4,00 4,50 3,33 5,00
Conservazione delle informazioni 5,00 4,83 3,67 5,00
ENERG-2 Correttezza delle informazioni 5,00 3,67 4,33 5,00
Revisione umana
Correttezza linguistica 5,00 4,17 4,50 5,00
Chiarezza complessiva del testo 5,00 3,83 4,50 5,00
Livello di miglioramento 4,00 3,83 4,17 5,00
Conservazione delle informazioni 5,00 4,00 4,17 5.00
Correttezza delle informazioni 3,00 3,57 4,29 5,00
ENERG-2 Correttezza linguistica 4,00 4,00 4,43 5,00
ChatGPT Chiarezza complessiva del testo 5,00 4,00 4,14 5,00
Livello di miglioramento 4,00 3,29 4,00 5,00
Conservazione delle informazioni 4,00 4,00 4,29 5,00
PRIN-5 Correttezza delle informazioni 5,00 4,57 4,14 4,00
Revisione umana Correttezza linguistica 5,00 4,71 4,71 5,00
Chiarezza complessiva del testo 4,00 4,86 4,29 5,00
Livello di miglioramento 4,00 4,00 3,57 5,00
Conservazione delle informazioni 3,00 3,57 3,29 5,00
PRIN-5 Correttezza delle informazioni 5,00 4,00 4,17 5,00
ChatGPT Correttezza linguistica 5,00 3,83 4,50 5,00
Chiarezza complessiva del testo 5,00 3,83 3,50 5,00
Livello di miglioramento 4,00 3,33 2,33 5,00
Conservazione delle informazioni 5,00 4,00 3,83 5,00
CASS-4 Correttezza delle informazioni 3,00 3,00 4,00 4,00
Revisione umana Correttezza linguistica 5,00 3,33 3,67 5,00
Chiarezza complessiva del testo 4,00 3,33 3,67 5,00
Livello di miglioramento 5,00 3,00 3,17 4,00
Conservazione delle informazioni 5,00 3,00 3,17 5,00
CASS-4 Correttezza delle informazioni 3,00 2,14 4,57 4,00
ChatGPT Correttezza linguistica 5,00 2,00 4,57 5,00
Chiarezza complessiva del testo 5,00 2,14 4,14 5,00
Livello di miglioramento 4,00 1,71 3,43 4,00
Conservazione delle informazioni 5,00 2,00 4,29 5,00