<!DOCTYPE article PUBLIC "-//NLM//DTD JATS (Z39.96) Journal Archiving and Interchange DTD v1.0 20120330//EN" "JATS-archivearticle1.dtd">
<article xmlns:xlink="http://www.w3.org/1999/xlink">
  <front>
    <journal-meta>
      <journal-title-group>
        <journal-title>Coefficient. MethodsX</journal-title>
      </journal-title-group>
    </journal-meta>
    <article-meta>
      <title-group>
        <article-title>Confronto tra diversi tipi di valutazione del miglioramento della chiarezza di testi amministrativi in lingua italiana</article-title>
      </title-group>
      <contrib-group>
        <contrib contrib-type="author">
          <string-name>Mariachiara Pascucci</string-name>
          <email>mariachiara.pascucci@phd.unipi.it</email>
          <xref ref-type="aff" rid="aff0">0</xref>
        </contrib>
        <contrib contrib-type="author">
          <string-name>Mirko Tavosanis</string-name>
          <email>mirko.tavosanis@unipi.it</email>
          <xref ref-type="aff" rid="aff0">0</xref>
        </contrib>
        <aff id="aff0">
          <label>0</label>
          <institution>Università di Pisa</institution>
          ,
          <addr-line>Dipartimento di Filologia, letteratura e linguistica</addr-line>
        </aff>
      </contrib-group>
      <pub-date>
        <year>2024</year>
      </pub-date>
      <volume>12</volume>
      <issue>102545</issue>
      <abstract>
        <p>The paper presents a comparison of different types of evaluation of administrative texts in the Italian language on which a clarity improvement intervention was carried out. The clarity improvement was performed by human experts and ChatGPT. The evaluation was carried out in four different ways: by expert evaluators, used as a reference; by evaluators with good skills, subject to dedicated training; by generic evaluators recruited through a crowdsourcing platform; by ChatGPT. The results show that the closest match to the results of the evaluation by expert evaluators was reached, by a wide margin, by evaluators with good skills and dedicated training; the second best approach was reached by requesting evaluation from ChatGPT; the worst approach was reached by generic evaluators recruited through a crowdsourcing platform. Task features that may have influenced the outcome are also discussed.</p>
      </abstract>
      <kwd-group>
        <kwd>eol&gt;Text simplification</kwd>
        <kwd>LLMs</kwd>
        <kwd>ChatGPT</kwd>
        <kwd>Italian</kwd>
        <kwd>evaluation</kwd>
        <kwd>crowdsourcing1</kwd>
      </kwd-group>
    </article-meta>
  </front>
  <body>
    <sec id="sec-1">
      <title>1. Introduzione</title>
      <p>La diffusione dei sistemi di intelligenza artificiale
generativa ha portato a una grande richiesta di
valutazione delle loro capacità. Il tipo di valutazione
universalmente considerato più valido rimane in
generale quello realizzato da esseri umani, che però in
pratica può essere condotto in modi diversi e con
risultati di valore molto diverso. Per alcune capacità,
inoltre, non esistono ancora quadri di valutazione
condivisi. Rientra senz’altro in quest’ultima categoria
anche la valutazione del miglioramento complessivo
della chiarezza dei testi in lingua italiana, oggetto
dell’analisi qui descritta. Gli indici oggettivi esistenti per
l’analisi di testi, come il GULPEASE o la quantificazione
delle parole che rientrano nel Vocabolario di Base,
descrivono in effetti solo aspetti limitati di un qualunque
testo. Per la chiarezza in sé, mentre abbondano le
indicazioni su come scrivere in modo chiaro (una sintesi
aggiornata è esposta in [1]), non sono mai stati codificati
criteri di ampio consenso per la valutazione dei prodotti
[2].</p>
      <p>Naturalmente, molti metodi di valutazione attuali
forniscono almeno un primo orientamento nella
maggior parte dei casi. Per esempio, [3] ha mostrato che
attraverso il crowdsourcing è possibile ottenere
un’indicazione generica ma attendibile sul
miglioramento della chiarezza di testi in lingua inglese.
Tuttavia, gli studi sull’efficacia di simili pratiche sono
ancora poco numerosi ed è senz’altro molto sentita la
necessità di migliorare il livello attuale delle conoscenze.</p>
      <p>Il presente contributo si inserisce in questo contesto
in quanto mette a confronto diversi metodi per valutare
il miglioramento della chiarezza dei testi. Oggetto della
valutazione sono stati testi piuttosto ampi,
rappresentativi dell’italiano amministrativo e resi più
chiari attraverso un intervento umano e attraverso la
riformulazione con ChatGPT (versione 3.5); il contesto,
che ha visto la realizzazione di diverse attività di
valutazione collegate, è descritto in dettaglio in [4].
© 2024 Copyright for this paper by its authors. Use permitted under
Creative Commons License Attribution 4.0 International (CC BY 4.0).</p>
      <p>Ai fini del presente contributo, la valutazione è stata
condotta in quattro modi diversi: da valutatori esperti,
usati come riferimento; da valutatori con buone
competenze, oggetto di una formazione dedicata; da
valutatori generici reclutati attraverso una piattaforma
di crowdsourcing; da parte di ChatGPT. In tutti i casi, è
stata usata la stessa serie di indicazioni per la
valutazione. I risultati sono stati analizzati in [4] per le
informazioni che forniscono riguardo alla capacità di
sistemi come ChatGPT di migliorare efficacemente la
chiarezza dei testi. In questa sede si mostrerà invece, in
modo più specifico, la differenza nei giudizi in rapporto
ai quattro modi di valutazione.</p>
    </sec>
    <sec id="sec-2">
      <title>2. Lavori correlati</title>
      <p>
        Anche se il miglioramento della chiarezza è un obiettivo
centrale in vari campi di ricerca linguistica applicata, la
valutazione dell’efficacia dei processi di miglioramento
rimane, come si è detto, una questione aperta. Tale stato
di cose si riflette nell’eterogeneità delle soluzioni
adottate nei diversi studi realizzati in questo ambito.
Come evidenziato in [2], infatti, non esiste un quadro
teorico condiviso per valutare l’efficacia delle
riformulazioni in termini di chiarezza né, in senso più
ampio, per la valutazione complessiva della qualità dei
testi generati. In una rassegna sistematica, [5] sottolinea
che le operazioni di valutazione dei testi generati
possono avvalersi di diversi approcci: valutazioni
umane, metriche quantitative o sistemi di valutazione
automatica e semiautomatica. Il giudizio umano è
adoperato, per esempio, in lavori come [6] e in studi che
hanno adottato un approccio comparativo, come [7], che
propone un confronto tra valutazione umana e metriche
automatiche per valutare l’efficacia dei processi di
semplificazione. La letteratura di riferimento sembra in
effetti convergere verso l’idea che la valutazione umana
dei testi generati rimanga in generale la più adeguata,
come evidenziato da diversi lavori, tra cui [
        <xref ref-type="bibr" rid="ref1">8</xref>
        ] e [2]. Non
mancano tuttavia studi che usano metriche automatiche
e indici di leggibilità per la valutazione degli output,
come [
        <xref ref-type="bibr" rid="ref2">9</xref>
        ].
      </p>
      <p>
        Riguardo all’impiego del crowdsourcing, un
approccio interessante è quello di lavori come il già
citato [3] e il più recente [
        <xref ref-type="bibr" rid="ref3">10</xref>
        ], in cui sono messe a
confronto diverse modalità di valutazione, incluse
metriche automatiche, giudizi di esperti e un test di
comprensione che ha coinvolto partecipanti selezionati
in modo casuale e senza preparazione specifica per lo
svolgimento del compito. In ambito italiano, [
        <xref ref-type="bibr" rid="ref4">11</xref>
        ] ha
esplorato l’uso del crowdsourcing per la valutazione
della complessità frasale.
      </p>
      <p>L’applicazione dei modelli GPT alla valutazione
automatica della chiarezza testuale è stata ancora poco
indagata, ma non mancano gli esperimenti interessanti.
Degno di nota è il già citato [7], che ha esaminato il
potenziale di GPT-4, confrontando i risultati delle
valutazioni del modello con quelle di esperti umani per i
processi di semplificazione.</p>
    </sec>
    <sec id="sec-3">
      <title>3. Testi originali e riformulazioni</title>
      <p>
        La valutazione cui si fa riferimento nel presente
contributo è stata eseguita in rapporto a un’attività di
miglioramento della chiarezza di testi amministrativi
regolativi in lingua italiana. Questo tipo di attività
corrisponde a una richiesta diffusa a livello sociale e su
cui esiste ampia bibliografia specifica (per esempio:
[
        <xref ref-type="bibr" rid="ref5">12</xref>
        ]). Tuttavia, anche in questo caso non esistono criteri
condivisi per la valutazione di testi esistenti; non è
quindi possibile, per esempio, rifarsi a scale condivise
per descrivere la chiarezza di un testo amministrativo.
Sulla situazione generale dei criteri per la chiarezza e sui
dettagli del caso esaminato si rimanda di nuovo a [1] e
[4]; le informazioni fornite qui di seguito saranno quindi
solo quelle strettamente necessarie per l’inquadramento
dell’esperienza svolta.
      </p>
      <p>Per l’attività descritta qui di seguito sono state scelte
casualmente 8 sezioni ragionevolmente autonome e
autoconsistenti di testi amministrativi più ampi, per una
lunghezza approssimativa di 2000 caratteri a sezione. I
testi sono stati poi rielaborati chiedendo a ChatGPT di
migliorarne la chiarezza. I due prompt usati per la
versione definitiva del lavoro sono riportati
nell’Appendice A.</p>
      <p>
        In aggiunta al miglioramento della chiarezza da
parte ChatGPT, uno degli autori (Mariachiara Pascucci)
ha condotto un intervento umano, usato come termine
di confronto, per il miglioramento della chiarezza.
Inoltre, nel campione sono stati inseriti, con minimi
ritocchi, alcuni esempi classici di miglioramento della
chiarezza, ripresi da [
        <xref ref-type="bibr" rid="ref6">13</xref>
        ].
      </p>
    </sec>
    <sec id="sec-4">
      <title>4. Interventi di riformulazione</title>
      <p>
        Per quanto riguarda la riformulazione manuale dei testi,
gli interventi hanno interessato vari tratti linguistici (a
livello lessicale, morfosintattico e testuale)
comunemente associati alla complessità dei testi
istituzionali. Il quadro di riferimento è quello presentato
in [
        <xref ref-type="bibr" rid="ref7">14</xref>
        ].
      </p>
      <p>L'analisi delle riformulazioni generate da ChatGPT
mostra che il modello ha operato in modo paragonabile
a quello umano, intervenendo contemporaneamente su
più tratti e su più livelli linguistici. ChatGPT sembra
comunque essersi concentrato sulla semplificazione del
lessico, spesso piuttosto spinta, e sulla riduzione della
lunghezza delle frasi. Di seguito, si riporta un esempio
che consente di confrontare la versione originale con i
due diversi tipi di riformulazione.</p>
      <sec id="sec-4-1">
        <title>Originale (ENERG-2)</title>
        <p>Le spese per “Servizi esterni” sono rappresentate dalle
spese che il Beneficiario/Soggetto Attuatore sostiene a
favore di erogatori esterni di servizi, i quali si assumono
determinati compiti che sono necessari per il
raggiungimento degli obiettivi progettuali e che il
Beneficiario/Soggetto Attuatore non è in grado di
svolgere in proprio.</p>
      </sec>
      <sec id="sec-4-2">
        <title>Riformulazione manuale</title>
        <p>Le spese per “Servizi esterni” sono le spese che il
Beneficiario/Soggetto Attuatore sostiene a favore di
erogatori esterni di servizi. Tali erogatori svolgono
compiti specifici, necessari per il raggiungimento degli
obiettivi del progetto, che il Beneficiario/Soggetto
Attuatore non è in grado di svolgere in proprio.</p>
      </sec>
      <sec id="sec-4-3">
        <title>Riformulazione automatica (Prompt 2)</title>
        <p>Le spese per 'Servizi esterni' sono i soldi che una persona
o un'organizzazione spende per ottenere aiuto da altri
fornitori di servizi. Questi fornitori svolgono compiti
importanti per raggiungere gli obiettivi di un progetto,
compiti che la persona o l'organizzazione che riceve
l'aiuto non può fare da sola.
(Generated by AI tool ChatGPT-3.5)</p>
      </sec>
    </sec>
    <sec id="sec-5">
      <title>5. Griglia di valutazione e valutatori</title>
      <p>Il primo passo per l’attività è stata la creazione di una
griglia di valutazione basata sulla bibliografia esistente e
sull’esame diretto delle capacità del sistema. La griglia è
stata messa a punto attraverso una serie di verifiche
intermedie ed è stata corredata da istruzioni applicative
ricavate dalla pratica, con discussione di esempi specifici
e indicazioni per la gestione di casi dubbi. La versione
definitiva della griglia e delle istruzioni, usata per tutte
le attività descritte qui di seguito, è riportata
nell’Appendice B.</p>
    </sec>
    <sec id="sec-6">
      <title>6. Modalità della valutazione</title>
      <p>La valutazione è stata condotta in quattro modi diversi,
presentati qui di seguito.</p>
      <p>
        Il quadro concettuale usato è quello descritto in [
        <xref ref-type="bibr" rid="ref8">15</xref>
        ].
Come punto di riferimento sono quindi stati usati i
giudizi di valutatori esperti. Tuttavia, ogni attività di
valutazione è stata condotta separatamente, senza che
chi la conduceva avesse a disposizione i punteggi
assegnati nelle altre attività. Ai valutatori descritti di
seguito – con l’eccezione dei valutatori esperti,
responsabili anche della preparazione del campione – i
testi sono poi stati sottoposti senza indicazioni sulla
provenienza o sull’origine delle riformulazioni.
      </p>
      <sec id="sec-6-1">
        <title>6.1. Valutatori esperti</title>
        <p>
          Una prima valutazione del lavoro è stata compiuta dai
due autori. Mirko Tavosanis è un ricercatore attivo da
oltre 25 anni nel settore della chiarezza comunicativa; ha
pubblicato in proposito un manuale scritto in
collaborazione [
          <xref ref-type="bibr" rid="ref9">16</xref>
          ] e contributi divulgativi e scientifici
dedicati alla valutazione dei testi generati. Mariachiara
Pascucci è dottoranda presso la Scuola di Dottorato in
Italianistica dell’Università di Pisa con una ricerca sul
miglioramento della chiarezza nella comunicazione
amministrativa.
        </p>
        <p>In una prima fase, i due valutatori hanno lavorato in
modo indipendente. I punteggi da loro assegnati sono
stati poi confrontati per produrre una valutazione
condivisa, che è stata usata come punto di riferimento.</p>
      </sec>
      <sec id="sec-6-2">
        <title>6.2. Valutatori formati appositamente</title>
        <p>Il gruppo è stato composto da studenti frequentanti del
corso di Linguistica italiana II del corso di laurea
magistrale in Informatica umanistica dell’Università di
Pisa. Il corso di laurea richiede alle matricole il possesso
di almeno 12 CFU in discipline linguistiche all’ingresso;
diversi studenti hanno poi competenze più avanzate
negli studi linguistici.</p>
        <p>Tutti i valutatori hanno quindi operato mentre
seguivano un corso annuale sulla valutazione dei testi
generati. La sezione conclusiva del corso è stata dedicata
alla valutazione del miglioramento della chiarezza, con
l’inclusione di basi teoriche, la descrizione dei tratti
linguistici tipicamente coinvolti e una formazione
specifica sulla valutazione. Al termine del corso si è
svolta un’attività di armonizzazione delle valutazioni in
presenza (90 minuti), in cui le valutazioni assegnate a
testi simili a quelli poi presi in esame sono state discusse
e revisionate in modo da arrivare a una valutazione
quanto più possibile condivisa.</p>
        <p>L’attività finale di valutazione è stata svolta in
presenza, in aula, con testi presentati su carta e una
durata di 90 minuti. I valutatori sono stati divisi in due
gruppi, denominati A (7 valutatori) e B (6 valutatori);
ogni gruppo doveva valutare 8 testi riformulati, 4 dei
quali prodotti da ChatGPT e 4 da intervento umano,
accompagnati dagli originali; i testi erano alternati nei
due gruppi, in modo che nel complesso venissero
valutati tutti gli 8 testi prodotti da ChatGPT e tutti gli 8
prodotti da intervento umano. Non tutti i valutatori
hanno completato l’attività, in particolare per gli ultimi
testi di ogni gruppo.</p>
      </sec>
      <sec id="sec-6-3">
        <title>6.3. Crowdsourcing</title>
        <p>I testi sono stati valutati anche mediante crowdsourcing,
utilizzando la piattaforma Prolific.</p>
        <p>
          L'uso di metodi di crowdsourcing per la ricerca
linguistica è ben documentato, come descritto in [
          <xref ref-type="bibr" rid="ref10">17</xref>
          ]. In
particolare, sistemi di crowdsourcing sono stati applicati
anche al campo della complessità linguistica e del
miglioramento della chiarezza in lavori come [3], [
          <xref ref-type="bibr" rid="ref4">11</xref>
          ] e
[
          <xref ref-type="bibr" rid="ref11">18</xref>
          ].
        </p>
        <p>Per questo lavoro, la selezione dei partecipanti è
stata realizzata avviando due studi distinti per ottenere
due gruppi differenziati di valutatori. I criteri di
selezione includevano la padronanza della lingua
italiana e il livello di istruzione; sono stati infatti
reclutati solo partecipanti in possesso di un diploma di
laurea.</p>
        <p>Per replicare le condizioni della valutazione in aula,
è stato reclutato lo stesso numero di partecipanti,
suddivisi in Gruppo A (7 valutatori) e Gruppo B (6
valutatori).</p>
        <p>Il tempo a disposizione per completare l'attività era
identico a quello della valutazione in aula, ovvero 90
minuti, ma il tempo impiegato in media dai partecipanti
per lo svolgimento del compito è stato di 35 minuti. I
gruppi di testi distribuiti ai partecipanti su Prolific
corrispondevano, per ordine e tipologie di
rielaborazione, a quelli utilizzati nella valutazione in
aula. Prolific ha reindirizzato i partecipanti selezionati a
un modulo Google. Nella scheda iniziale del modulo
sono state fornite le indicazioni per l’assegnazione dei
punteggi, identiche a quelle fornite per la valutazione in
aula. Ogni scheda successiva del modulo conteneva il
testo originale e la versione revisionata, con l'istruzione
di assegnare un punteggio da 1 a 5 per ciascuno dei
parametri specificati.</p>
      </sec>
      <sec id="sec-6-4">
        <title>6.4. Valutazione con ChatGPT</title>
        <p>L’attività di valutazione è stata condotta anche con
ChatGPT (versione 3.5), proponendo come prompt al
sistema le stesse istruzioni fornite ai valutatori umani.
ChatGPT è stato impiegato in modalità zero-shot: per lo
svolgimento del compito non sono dunque stati forniti
al modello esempi di valutazioni già realizzate. Le
versioni originali e quelle rielaborate di ciascun testo
sono state presentate a ChatGPT separatamente in
diverse finestre di dialogo, senza specificare l'origine
della revisione, analogamente a quanto fatto con i
valutatori umani. Pur non avendo ricevuto indicazioni
specifiche a tal proposito, ChatGPT ha fornito, per ogni
parametro, una motivazione dettagliata del punteggio
assegnato, facendo ampio riferimento ai criteri di
valutazione forniti.</p>
      </sec>
    </sec>
    <sec id="sec-7">
      <title>7. Risultati della valutazione</title>
      <p>Va notato che in tutti e quattro i modi la valutazione ha
classificato le rielaborazioni come di alto livello. I voti
assegnati ai singoli aspetti da valutare non scendono in
effetti quasi mai sotto il 3 e rimangono quasi sempre
nella fascia del 4 e del 5. Le differenze tra i singoli
valutatori umani e ChatGPT sono quindi piuttosto
contenute. La sintesi dei risultati completi è presentata
nell’Appendice C.</p>
      <p>Una discussione dei risultati in rapporto alle
prestazioni del sistema viene presentata in [3] e [4]. Qui
verranno invece prese in considerazione solo le
differenze nei risultati tra i quattro modi di valutazione.
Occorre quindi innanzitutto confrontare le medie
complessive della valutazione (Tabella 1).</p>
      <p>Tabella 1</p>
      <p>Medie complessive e indicazione dello scostamento
assoluto rispetto al valore fornito dagli esperti.</p>
      <p>Esperti
Valutatori
formati
Crowdsourcing
GPT
0,11
0,17
0,52
Tra i vari modi di valutazione ci sono dunque differenze
rilevanti nei risultati. Usando come riferimento i giudizi
dei valutatori esperti, il maggior avvicinamento si ha con
i giudizi dei valutatori formati. GPT fornisce punteggi
sistematicamente più alti (in pratica, tutti 5 con pochi 4),
mentre il crowdsourcing fornisce valutazioni
sistematicamente più basse. Calcolando lo scostamento
complessivo, inteso come somma dei valori assoluti delle
differenze, il risultato migliore si ha con i valutatori
formati, con 0,19, seguiti a buona distanza da ChatGPT
con 0,76 e dal crowdsourcing con 0,93.</p>
      <p>Le medie complessive nascondono però una
differenza tra gli aspetti. Come è stato notato dai
valutatori esperti, è possibile assegnare i punteggi per gli
aspetti 1, 2 e 5 in modo relativamente oggettivo,
appoggiandosi a valutazioni quantitative, mentre per gli
aspetti 3 e 4 è frequente l’incertezza di assegnazione tra
il punteggio 4 e il punteggio 5. Sembra quindi utile
valutare separatamente gli aspetti 1, 2 e 5 (Tabella 2).
Tabella 2</p>
      <p>Medie degli aspetti 1, 2 e 5 e indicazione dello
scostamento assoluto rispetto al valore fornito dagli
esperti.
0,18
Anche in questo caso, calcolando lo scostamento
complessivo, il risultato migliore si ha comunque con i
valutatori formati, con 0,34, seguiti da ChatGPT con 0,66
e dal crowdsourcing con 0,84. La classifica quindi non
cambia, anche se è notevole che su questa selezione di
aspetti lo scostamento minore rispetto agli esperti si
ottenga con il crowdsourcing nel gruppo A e con
ChatGPT nel gruppo B.</p>
      <sec id="sec-7-1">
        <title>7.1. Accordo tra valutatori</title>
        <p>
          Per quanto riguarda la robustezza della valutazione sia
nel caso dei valutatori formati appositamente sia nel
caso del crowdsourcing, l’accordo tra i valutatori
individuali non ha raggiunto i livelli considerati
sufficienti secondo il calcolo dell’alpha di Krippendorff
([
          <xref ref-type="bibr" rid="ref12">19</xref>
          ]).
        </p>
        <p>L’accordo complessivo tra i valutatori formati
appositamente per il gruppo A è stato in effetti di 0,288;
per il gruppo B, di 0,270. Il livello massimo di accordo è
stato raggiunto dal gruppo A nella valutazione
dell’aspetto di “conservazione delle informazioni”, che
ha raggiunto il valore di 0,502. L’accordo complessivo tra
i valutatori reclutati per crowdsourcing è stato invece di
0,181 per il gruppo A e di 0,141 per il gruppo B. Anche
in questo caso, il livello massimo di accordo è stato
raggiunto dal gruppo A nella valutazione dell’aspetto di
“conservazione delle informazioni”, che però ha
raggiunto solo il valore di 0,241.</p>
        <p>
          Secondo lo schema di interpretazione dell’alpha di
Krippendorff, i valori inferiori a 0,670 sono
indicative of poor agreement among raters. Data with a
Krippendorff's Alpha below this threshold are often
deemed unreliable for drawing triangulated conclusions.
It suggests that the raters are not applying the coding
scheme consistently or that the scheme itself may be
flawed [
          <xref ref-type="bibr" rid="ref12">19</xref>
          ].
        </p>
        <p>La conclusione è senz’altro condivisibile: per questo tipo
di attività, semplicemente, i criteri devono ancora essere
messi a punto in modo soddisfacente. Tuttavia, sembra
evidente la distanza tra l’accordo che si può raggiungere
con valutatori formati appositamente invece che con il
semplice crowdsourcing.</p>
      </sec>
      <sec id="sec-7-2">
        <title>7.2. Esame di un caso specifico</title>
        <p>I motivi per le differenze tra le diverse valutazioni sono
naturalmente molto difficili da ricostruire. Tuttavia, in
almeno alcuni casi è possibile notare che i valutatori
hanno fornito valutazioni difficili da giustificare
oggettivamente, in rapporto probabile con la
complessità del compito.</p>
        <p>Per esempio, nel caso del testo con codice CASS-4,
inserito nel gruppo A, il crowdsourcing ha fornito una
valutazione di 4,71 per l’aspetto di “conservazione delle
informazioni”. Su sette valutatori, infatti, 4 hanno
fornito il punteggio 5, che corrisponde al giudizio “la
riformulazione è sostanzialmente corretta e completa”; 3
invece hanno fornito un punteggio di livello 4, che
corrisponde al giudizio “la riformulazione altera
l’originale, ma solo in modo marginale (per esempio, se
viene descritta una procedura, le discrepanze possono
portare distorsioni marginali nella procedura; rientrano
in questa categoria anche le leggere ma ripetute
distorsioni del significato di partenza, anche quando
sono prive di effetti pratici)”. I valutatori esperti hanno
invece assegnato al testo il giudizio 3: “la riformulazione
altera l’originale in modo significativo (per esempio, se
viene descritta una procedura, anche se la maggior parte
dei contenuti è corretta, seguire le indicazioni potrebbe
provocare qualche errore nello svolgimento della
procedura)”.</p>
        <p>Quest’ultima valutazione è stata dovuta, in aggiunta
a cambiamenti minori, al modo in cui sono state
riformulate due frasi.</p>
        <p>Frase 1 – originale: [Il Consiglio Circoscrizionale]
risolve, per motivi espressi in narrativa, di fissare i
seguenti criteri al fine di consentire all'ufficio Tecnico
circ.le di essere autorizzato ad installare direttamente
ovvero di autorizzare i cittadini ad installare barriere
metalliche senza dover sottoporre le richieste al parere
della Commissione circ.le Traffico
Frase 1 - riformulazione: Il Consiglio Circoscrizionale, in
virtù delle ragioni esposte, decide di stabilire i seguenti
criteri per consentire all'Ufficio Tecnico circoscrizionale
di autorizzare direttamente l'installazione dei
parapedonali o di concedere ai cittadini l'autorizzazione
per farlo senza dover ricorrere al parere della
Commissione circoscrizionale del Traffico.
(Generated by AI tool ChatGPT-3.5)
Nel testo riformulato non si chiarisce che l’Ufficio
Tecnico può installare direttamente i parapedonali, ma
si parla solo di “autorizzare” l’installazione.</p>
        <p>Frase 2 – originale: i parapedonali dovranno essere
installati lungo i marciapiedi in corrispondenza delle
Ambasciate che, in genere per motivi di sicurezza, ne
fanno richiesta.</p>
        <p>Frase 2 – riformulazione: Sarà richiesto l'installazione di
parapedonali lungo i marciapiedi in corrispondenza
delle Ambasciate, su richiesta di queste ultime per
ragioni di sicurezza.
(Generated by AI tool ChatGPT-3.5)
Nel testo riformulato, al di là dell’errore grammaticale (e
semantico) in “Sarà richiesto l’installazione”, viene
inserita una limitazione inesistente nell’originale: le
installazioni possono implicitamente essere accettate
solo nel caso che dietro alla richiesta vi siano “ragioni di
sicurezza”. Quella che nell’originale era solo una
spiegazione diventa quindi una condizione necessaria.</p>
        <p>In questo caso, i valutatori esperti confermano
l’attribuzione del giudizio 3, che però non è stato
espresso da nessun valutatore del crowdsourcing (nella
valutazione da parte di esperti, il testo è stato valutato
solo da 2 valutatori, che hanno comunque assegnato il
giudizio 5).</p>
      </sec>
    </sec>
    <sec id="sec-8">
      <title>8. Conclusioni</title>
      <p>I risultati dei diversi modi di valutazione potrebbero a
prima vista essere interpretati come una svalutazione del
crowdsourcing, rispetto al quale la semplice richiesta a
ChatGPT è in grado di fornire risultati di qualità più alta.
Tuttavia, è chiaro che le caratteristiche dell’attività
svolta rendono consigliabile non trarre conclusioni
troppo generalizzate.</p>
      <p>Innanzitutto, invita alla cautela il fatto che la
valutazione dipenda con ogni evenienza dalla scala
usata. In un contesto in cui si sa che il voto può essere
solo 4 o 5, in fin dei conti, la semplice assegnazione
casuale del punteggio darebbe 4,5 sia al gruppo A sia al
gruppo B, scostandosi dal giudizio degli esperti con 0,26
per la valutazione complessiva e 0,34 per gli aspetti 1, 2
e 5, valori molto vicini a quelli forniti dai valutatori
formati.</p>
      <p>In queste circostanze, sembra innanzitutto utile
creare griglie di valutazione più specifiche e mirate. Le
alte prestazioni dei sistemi attuali, del resto, rendono
senz’altro meno utili che in passato scale 1-5 in cui il
punteggio 1 deve essere assegnato a un “testo
completamente incomprensibile” e il punteggio 5 a un
“testo perfettamente comprensibile”.</p>
      <p>Vanno inoltre tenuti presenti alcuni limiti
dell’analisi. Uno tra questi è il coinvolgimento degli
autori nella riscrittura di alcuni testi: anche se le
caratteristiche della valutazione rendono a nostro
giudizio molto limitato il rischio di alterazioni, si
prevede di modificare il protocollo per future attività
dello stesso genere, delegando tutte le riscritture a terze
parti. Per la valutazione dei testi generati da ChatGPT
può essere inoltre utile far valutare i testi a un sistema
diverso – e, in generale, ampliare e ripetere le
valutazioni è naturalmente indispensabile per validarne
i risultati.</p>
      <p>Di sicuro, però, i risultati invitano a prestare
attenzione ai limiti di pratiche oggi diffuse come il
crowdsourcing, che sul compito in esame hanno
mostrato un notevole scostamento rispetto alla
valutazione di esperti. Inoltre, se la valutazione rapida ed
economica fornita da sistemi come ChatGPT dovesse
essere regolarmente confermata come più vicina alla
valutazione di esperti rispetto al crowdsourcing, le
motivazioni per il crowdsourcing stesso
scomparirebbero.</p>
    </sec>
    <sec id="sec-9">
      <title>Ringraziamenti</title>
      <p>Ringraziamo per la collaborazione Claudia Gigliotti.
Diversi aspetti dell’analisi dei dati sono stati discussi con
Angela Ferrari. La responsabilità delle affermazioni
rimane naturalmente agli autori.</p>
      <p>G. Fiorentino, V. Ganfi. “Parametri per
semplificare l’italiano istituzionale: revisione della
letteratura.” Italiano LinguaDue 16.1, pages
220237, 2024, doi:10.54103/2037-3597/23835
M. Tavosanis, “Valutare la qualità dei testi generati
in lingua italiana.” AI-Linguistica 1.1 (2024), pages
1-24.</p>
      <p>W. S. Lasecki, R. Luz, J. P. Bigham, Measuring text
simplification with the crowd, in: Proceedings of
the 12th Web for All Conference W4A 15, 2015.
doi:10.1145/2745555.2746658.</p>
      <p>M. Tavosanis, Valutare la riformulazione
automatica, in: Amministrazione attiva, Firenze,
Cesati (in stampa).</p>
      <p>A. Celikyilmaz, E. Clark, J. Gao, Evaluation of Text
Generation: A Survey, 2020, arXiv:2006.14799.
R. Tariq et al., Assessing ChatGPT for Text
Summarization, Simplification and Extraction
Tasks, 2023 IEEE 11th International Conference on
Healthcare Informatics (ICHI), Houston, TX, USA,
2023, pp. 746-749, 2023, doi:
10.1109/ICHI57859.2023.00136.</p>
      <p>A. Sottana, B. Liang, K. Zou, Z. Yuan, Evaluation
Metrics in the Era of GPT-4: Reliably Evaluating
Large Language Models on Sequence to Sequence
Tasks. 2023, arXiv:2310.13800.</p>
      <p>Note
[1]
[2]
[3]
[4]
[5]
[6]
[7]</p>
    </sec>
    <sec id="sec-10">
      <title>A. Prompt usati</title>
      <p>Prompt 1: Puoi semplificare la forma linguistica del
seguente testo amministrativo-burocratico pur
mantenendo tutti i dettagli del contenuto? Voglio che il
testo prodotto sia dettagliato e lungo tanto quanto il
testo da semplificare che è qui tra virgolette “[...]”
Prompt 2: Rendi più chiaro il seguente testo inserito tra
virgolette, estratto da linee guida ministeriali, in modo
che sia facilmente comprensibile per un pubblico
diversificato, inclusi individui con conoscenze limitate
dell’argomento e un livello medio di istruzione.
Concentrati sull'utilizzo di un linguaggio chiaro e
conciso senza compromettere l'accuratezza delle
informazioni. Assicurati che siano preservati i dettagli
chiave riguardanti la procedura descritta. Punta a
migliorare l'accessibilità e la leggibilità mantenendo il
contenuto e il significato essenziali del documento.
Preserva la coesione del testo. Mantieni bilanciata la
lunghezza del testo. “[...]”
B. Griglia di valutazione e</p>
      <p>istruzioni
1. La correttezza delle informazioni fornite
1: la riformulazione non ha nessun rapporto con
l’originale o altera l’originale (per omissione,
deformazione o aggiunta) al punto di essere
incomprensibile</p>
      <p>2: la riformulazione altera l’originale in modo grave
(per esempio, se viene descritta una procedura, il testo
riformulato non permette di eseguirla correttamente)
3: la riformulazione altera l’originale in modo
significativo (per esempio, se viene descritta una
procedura, anche se la maggior parte dei contenuti è
corretta, seguire le indicazioni potrebbe provocare
qualche errore nello svolgimento della procedura)
4: la riformulazione altera l’originale, ma solo in
modo marginale (per esempio, se viene descritta una
procedura, le discrepanze possono portare distorsioni
marginali nella procedura; rientrano in questa categoria
anche le leggere ma ripetute distorsioni del significato di
partenza, anche quando sono prive di effetti pratici)
5: la riformulazione è sostanzialmente corretta e
completa
Precisazioni importanti
L’omissione, totale o parziale, dei riferimenti a leggi,
regolamenti e simili deve essere considerata
ininfluente (a meno che non sia necessaria per spiegare
una parte del testo: per esempio, il fatto che le modifiche
sono richieste da una legge appena approvata): questa va
considerata come una scelta redazionale presa a monte.</p>
      <p>Quindi per esempio dovranno essere considerate
buone, dal punto di vista della correttezza delle
informazioni, riformulazioni come questa:</p>
      <p>Originale: Approvazione, con Decreto del
Ministero del Lavoro e delle Politiche Sociali n. 15 del 29
gennaio 2024, della “Nota Metodologica per l’adozione
di UCS (Unità di Costo Standard).”</p>
      <p>Riformulato: Approvazione della “Nota
Metodologica per l'adozione di UCS (Unità di Costo
Standard)” con un decreto ministeriale del gennaio 2024.</p>
      <p>Anche l’omissione di informazioni (purché non
rilevanti alla comprensione di quanto rimane) deve
essere considerata ininfluente: anche l’eliminazione di
informazioni deve essere considerata una scelta
redazionale. L’entità dell’omissione viene valutata
invece nell’aspetto 5.</p>
      <p>Quindi per esempio dovranno essere considerate
buone, dal punto di vista della correttezza delle
informazioni, riformulazioni come queste:</p>
      <p>Originale: l’introduzione dell’equivalenza alla
partecipazione ai PUC, ai fini della definizione degli
impegni nell’ambito dei patti per l'inclusione sociale,
della partecipazione, definita d’intesa con il Comune, ad
attività di volontariato presso enti del Terzo settore e a
titolarità degli stessi, da svolgere nel Comune di
residenza nei medesimi ambiti di intervento previsti per
i PUC;</p>
      <p>Riformulato: l’introduzione dell'equivalenza tra
partecipazione ai PUC e ad attività di volontariato per i
patti per l'inclusione sociale.</p>
      <p>Un buon modo per controllare può essere: dare brevi
titoli ai singoli capoversi, per sintetizzare l’argomento, e
valutare la correttezza un capoverso alla volta.
2. La correttezza linguistica del testo
Nella prospettiva di un lettore italiano medio
(madrelingua, con diploma di scuola superiore come
titolo di studio più alto), dal punto di vista formale il
testo risulta:
1: difficile da ricondurre alla norma
2: con quattro o più errori morfosintattici
(indipendentemente dalla loro estensione)</p>
      <p>3: con non più di tre errori morfosintattici e/o molti
usi insoliti di collocazioni, o simili</p>
      <p>4: con non più di due errori morfosintattici, possibili
anche a esseri umani, e/o non più di due usi insoliti delle
collocazioni, o simili aspetti discutibili dal punto di vista
formale</p>
      <p>5: corretta, con incertezze minime che potrebbero
essere trovate anche in un testo professionale umano
Precisazioni importanti
La valutazione di questo aspetto non deve riguardare
il registro linguistico. In altri termini, la scelta di usare
un tono più o meno formale, incluso l’impiego di
forestierismi, viene considerata una scelta redazionale.
Per esempio, in un testo potranno essere accettabili sia
“fare” sia “eseguire”, senza assegnare una preferenza
all’una scelta o all’altra – a parità di correttezza.</p>
      <p>La valutazione non deve riguardare nemmeno la
comprensibilità delle parole o delle espressioni, che
è valutata separatamente nell’aspetto 3. Per esempio, a
livello di correttezza linguistica possono essere
accettabili sia “download” sia “scaricamento”, anche se
una parola è più comprensibile dell’altra.</p>
      <p>L’accettabilità di incertezze “minime” è collegata al
fatto che anche lettori L1 colti possono avere idee
diverse sull’accettabilità o meno di alcune parole e
costruzioni. Di qui anche l’importanza di mettersi nella
prospettiva di un lettore italiano “medio”.
3. La chiarezza complessiva del testo
Per un lettore italiano medio (madrelingua, con diploma
di scuola superiore come titolo di studio più alto), il testo
riformulato è verosimilmente:
1: incomprensibile
2: quasi del tutto incomprensibile
3: in buona parte comprensibile, ma con uno o più
elementi significativi poco comprensibili</p>
      <p>4: in buona parte comprensibile, con piccole
incertezze (per esempio, sul significato esatto di una
parola)</p>
      <p>5: perfettamente comprensibile
Precisazioni importanti
Questo aspetto deve essere valutato senza tenere conto
della completezza o della correttezza oggettiva
delle informazioni, ma solo della loro coerenza interna
e della loro presentazione. Inoltre, deve essere valutato
senza basarsi sulla brevità o meno del testo (di cui, in
sede di valutazione complessiva, si tiene conto in base
alla lunghezza in parole e in caratteri dell’originale e
della riformulazione).</p>
      <p>Anche per questo aspetto, come per l’aspetto 1,
l’omissione o il mantenimento dei riferimenti a leggi,
regolamenti e simili devono essere considerati
ininfluenti: ai fini della valutazione di questo aspetto, si
suppone che i riferimenti compaiano se sono utili ai fini
della comunicazione e non compaiano se sono inutili ai
fini della comunicazione. Lo stesso vale per l’omissione
di informazioni, che viene valutata nell’aspetto 5.
4. Il livello di miglioramento rispetto all’originale
1: il testo è molto meno chiaro dell’originale
2: il testo è sensibilmente meno chiaro dell’originale
3: il testo è tanto chiaro quanto l’originale
4: il testo è sensibilmente più chiaro dell’originale
5: il testo è molto più chiaro dell’originale
Precisazioni importanti
Anche per questo aspetto, come per l’aspetto 1,
l’omissione o il mantenimento dei riferimenti a leggi,
regolamenti e simili devono essere considerati
ininfluenti: ai fini della valutazione di questo aspetto, si
suppone che i riferimenti compaiano se sono utili ai fini
della comunicazione e non compaiano se sono inutili ai
fini della comunicazione. Lo stesso vale per l’omissione
di informazioni, che viene valutata nell’aspetto 5.
5. La conservazione delle informazioni</p>
      <p>1: il testo elimina più del 75% delle informazioni
dell’originale</p>
      <p>2: il testo elimina tra il 75% e il 50% delle
informazioni dell’originale</p>
      <p>3: il testo elimina tra il 50% e il 25% delle
informazioni dell’originale</p>
      <p>4: il testo elimina una parte delle informazioni
dell’originale inferiore al 25%</p>
      <p>5: il testo mantiene tutte le informazioni
dell’originale
Precisazioni importanti
La valutazione deve essere una stima quantitativa. Non
deve tener quindi conto dell’importanza delle
informazioni eliminate, ma solo della loro quantità. Si
può tenere come riferimento la lunghezza delle
espressioni che presentano le informazioni eliminate.</p>
      <p>Un buon modo per valutare la conservazione delle
informazioni può essere: sottolineare nell’originale le
parole o le espressioni o le frasi che non hanno riscontro
nel testo riformulato e fare una stima della percentuale
complessiva.</p>
      <p>Importante! In caso di dubbio sull’aspetto cui
assegnare un errore o una deviazione, la correttezza
delle informazioni (aspetto 1) deve essere privilegiata
rispetto alla correttezza linguistica (aspetto 2) e alla
chiarezza complessiva (aspetto 3). In pratica, l’errore
andrà contato come errore di correttezza, senza influire
sulla valutazione degli altri aspetti.</p>
      <p>Per esempio, un’espressione come “Se il Beneficiario
non è lo stesso dell’esecutore dell’azione” (al posto di
“Qualora il Beneficiario non coincida con il Soggetto
Attuatore”) dovrebbe essere valutata come errore nella
correttezza, indipendentemente dai dubbi che possono
venire (a seconda dei contesti) per quanto riguarda la
correttezza linguistica o la chiarezza.</p>
    </sec>
    <sec id="sec-11">
      <title>C. Risultati complessivi</title>
      <p>MOB-1
Revisione umana
MOB-1
ChatGPT</p>
      <sec id="sec-11-1">
        <title>ENERG-2 Revisione umana</title>
      </sec>
      <sec id="sec-11-2">
        <title>ENERG-2 ChatGPT</title>
      </sec>
      <sec id="sec-11-3">
        <title>PRIN-5 Revisione umana</title>
      </sec>
      <sec id="sec-11-4">
        <title>PRIN-5 ChatGPT</title>
      </sec>
      <sec id="sec-11-5">
        <title>CASS-4 Revisione umana</title>
      </sec>
      <sec id="sec-11-6">
        <title>CASS-4</title>
        <p>ChatGPT</p>
      </sec>
      <sec id="sec-11-7">
        <title>Correttezza delle informazioni</title>
        <p>Correttezza linguistica
Chiarezza complessiva del testo
Livello di miglioramento
Conservazione delle informazioni
Correttezza delle informazioni</p>
      </sec>
      <sec id="sec-11-8">
        <title>Correttezza linguistica</title>
        <p>Chiarezza complessiva del testo
Livello di miglioramento
Conservazione delle informazioni
Correttezza delle informazioni</p>
      </sec>
      <sec id="sec-11-9">
        <title>Correttezza linguistica</title>
        <p>Chiarezza complessiva del testo
Livello di miglioramento
Conservazione delle informazioni
Correttezza delle informazioni</p>
      </sec>
      <sec id="sec-11-10">
        <title>Correttezza linguistica</title>
        <p>Chiarezza complessiva del testo
Livello di miglioramento
Conservazione delle informazioni
Correttezza delle informazioni
Correttezza linguistica
Chiarezza complessiva del testo
Livello di miglioramento
Conservazione delle informazioni
Correttezza delle informazioni</p>
      </sec>
      <sec id="sec-11-11">
        <title>Correttezza linguistica</title>
        <p>Chiarezza complessiva del testo
Livello di miglioramento
Conservazione delle informazioni
Correttezza delle informazioni</p>
      </sec>
      <sec id="sec-11-12">
        <title>Correttezza linguistica</title>
        <p>Chiarezza complessiva del testo
Livello di miglioramento
Conservazione delle informazioni
Correttezza delle informazioni
4,00
5,00
4,00
4,00
4,00
5,00
5,00
5,00
4,00
5,00
5,00
5,00
5,00
4,00
5,00
3,00
4,00
5,00
4,00
4,00
5,00
5,00
4,00
4,00
3,00
5,00
5,00
5,00
4,00
5,00
3,00
5,00
4,00
5,00
5,00
3,00
2,00
2,14
1,71
2,00
4,29
4,57
4,29
3,57
4,14
4,00
4,33
4,17
3,33
3,67
4,33
4,50
4,50
4,17
4,17
4,29
4,43
4,14
4,00
4,29
4,14
4,71
4,29
3,57
3,29
4,17
4,50
3,50
2,33
3,83
4,00
3,67
3,67
3,17
3,17
4,57</p>
      </sec>
    </sec>
  </body>
  <back>
    <ref-list>
      <ref id="ref1">
        <mixed-citation>
          [8]
          <string-name>
            <given-names>C. van der</given-names>
            <surname>Lee</surname>
          </string-name>
          ,
          <string-name>
            <given-names>A.</given-names>
            <surname>Gatt</surname>
          </string-name>
          , E. van Miltenburg,
          <string-name>
            <given-names>S.</given-names>
            <surname>Wubben</surname>
          </string-name>
          , E. Krahmer,
          <article-title>Best practices for the human evaluation of automatically generated text</article-title>
          .
          <source>In Proceedings of the 12th International Conference on Natural Language Generation</source>
          , pages
          <fpage>355</fpage>
          -
          <lpage>368</lpage>
          , Tokyo, Japan, Association for Computational Linguistics,
          <year>2019</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref2">
        <mixed-citation>
          [9]
          <string-name>
            <given-names>D.</given-names>
            <surname>Nozza</surname>
          </string-name>
          , G. Attanasio, Is It Really That Simple?
          <article-title>Prompting Language Models for Automatic Text Simplification in Italian</article-title>
          .
          <source>CLiC-it 2023: 9th Italian Conference on Computational Linguistics, Nov 30 - Dec 02</source>
          ,
          <year>2023</year>
          , Venice, Italy,
          <year>2023</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref3">
        <mixed-citation>
          [10]
          <string-name>
            <surname>N. van Raaij</surname>
          </string-name>
          ,
          <string-name>
            <given-names>D.</given-names>
            <surname>Kolkman</surname>
          </string-name>
          ,
          <string-name>
            <given-names>K.</given-names>
            <surname>Podoynitsyna</surname>
          </string-name>
          , Clearer Governmental Communication:
          <article-title>Text Simplification with ChatGPT Evaluated by Quantitative and Qualitative Research</article-title>
          .
          <source>In Proceedings of the Workshop on DeTermIt! Evaluating Text Difficulty in a Multilingual Context @ LREC-COLING</source>
          <year>2024</year>
          , pages
          <fpage>152</fpage>
          -
          <lpage>178</lpage>
          , Torino, Italia.
          <source>ELRA and ICCL</source>
          ,
          <year>2024</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref4">
        <mixed-citation>
          [11]
          <string-name>
            <given-names>D.</given-names>
            <surname>Brunato</surname>
          </string-name>
          , L. De Mattei,
          <string-name>
            <given-names>F.</given-names>
            <surname>Dell'Orletta</surname>
          </string-name>
          ,
          <string-name>
            <given-names>B.</given-names>
            <surname>Iavarone</surname>
          </string-name>
          , G. Venturi,
          <article-title>Is this sentence difficult? do you agree</article-title>
          ?
          <source>In Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing</source>
          , pages
          <fpage>2690</fpage>
          -
          <lpage>2699</lpage>
          , Brussels, Belgium Association for Computational Linguistics,
          <year>2018</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref5">
        <mixed-citation>
          [12]
          <string-name>
            <given-names>M.</given-names>
            <surname>Cortelazzo</surname>
          </string-name>
          ,
          <article-title>Il linguaggio amministrativo: principi e pratiche di modernizzazione</article-title>
          , Carocci, Roma,
          <year>2021</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref6">
        <mixed-citation>
          [13]
          <string-name>
            <surname>S.</surname>
          </string-name>
          <article-title>Cassese (a cura di), Codice di stile delle comunicazioni scritti ad uso delle amministrazioni pubbliche</article-title>
          ,
          <source>Istituto poligrafico e zecca dello Stato</source>
          , Roma,
          <year>1994</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref7">
        <mixed-citation>
          [14]
          <string-name>
            <given-names>E.</given-names>
            <surname>Piemontese</surname>
          </string-name>
          ,
          <article-title>Capire e farsi capire. Teorie e tecniche della scrittura controllata</article-title>
          .
          <source>Napoli: Tecnodid</source>
          ,
          <year>1996</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref8">
        <mixed-citation>
          [15]
          <string-name>
            <given-names>K.</given-names>
            <surname>Krippendorff</surname>
          </string-name>
          ,
          <article-title>Content Analysis: An Introduction to Its Methodology, 4th edition</article-title>
          , SAGE Publications, Los Angeles,
          <year>2019</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref9">
        <mixed-citation>
          [16]
          <string-name>
            <given-names>M.</given-names>
            <surname>Gasperetti</surname>
          </string-name>
          ,
          <string-name>
            <given-names>M.</given-names>
            <surname>Tavosanis</surname>
          </string-name>
          , Comunicare, Apogeo, Milano,
          <year>2004</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref10">
        <mixed-citation>
          [17]
          <string-name>
            <given-names>R.</given-names>
            <surname>Munro</surname>
          </string-name>
          ,
          <string-name>
            <given-names>S.</given-names>
            <surname>Bethard</surname>
          </string-name>
          ,
          <string-name>
            <given-names>V.</given-names>
            <surname>Kuperman</surname>
          </string-name>
          ,
          <string-name>
            <given-names>V.T.</given-names>
            <surname>Lai</surname>
          </string-name>
          ,
          <string-name>
            <given-names>R.</given-names>
            <surname>Melnick</surname>
          </string-name>
          ,
          <string-name>
            <given-names>C.</given-names>
            <surname>Potts</surname>
          </string-name>
          , T. Schnoebelen e
          <string-name>
            <given-names>H.</given-names>
            <surname>Tily</surname>
          </string-name>
          .
          <article-title>Crowdsourcing and language studies: The new generation of linguistic data</article-title>
          .
          <source>In Proceedings of the Workshop on Creating Speech and Language Data with Amazons Mechanical Turk</source>
          , pages
          <fpage>122</fpage>
          -
          <lpage>130</lpage>
          ,
          <year>2010</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref11">
        <mixed-citation>
          [18]
          <string-name>
            <surname>O. De Clercq</surname>
            ,
            <given-names>V.</given-names>
          </string-name>
          <string-name>
            <surname>Hoste</surname>
            ,
            <given-names>B. Desmet e P. Van Oosten. Using</given-names>
          </string-name>
          <article-title>the crowd for readability prediction</article-title>
          ,
          <source>Natural Language Engineering</source>
          , pages
          <fpage>1</fpage>
          -
          <lpage>33</lpage>
          ,
          <year>2013</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref12">
        <mixed-citation>
          [19]
          <string-name>
            <given-names>G.</given-names>
            <surname>Marzi</surname>
          </string-name>
          ,
          <string-name>
            <given-names>M.</given-names>
            <surname>Balzano</surname>
          </string-name>
          ,
          <string-name>
            <given-names>D.</given-names>
            <surname>Marchiori</surname>
          </string-name>
          ,
          <string-name>
            <surname>K-Alpha Calculator-Krippendorff's Alpha</surname>
          </string-name>
          ,
          <year>2024</year>
          .
          <article-title>Calculator: A User-Friendly Tool for Computing Krippendorff's Alpha Inter-Rater Reliability</article-title>
        </mixed-citation>
      </ref>
    </ref-list>
  </back>
</article>