<!DOCTYPE article PUBLIC "-//NLM//DTD JATS (Z39.96) Journal Archiving and Interchange DTD v1.0 20120330//EN" "JATS-archivearticle1.dtd">
<article xmlns:xlink="http://www.w3.org/1999/xlink">
  <front>
    <journal-meta />
    <article-meta>
      <title-group>
        <article-title>Verso la Valutazione Automatizzata dell'Italiano L2: ETET tra LLM e Tecnologie Vocali</article-title>
      </title-group>
      <contrib-group>
        <contrib contrib-type="author">
          <string-name>Anna Vignoli</string-name>
          <xref ref-type="aff" rid="aff1">1</xref>
          <xref ref-type="aff" rid="aff3">3</xref>
          <xref ref-type="aff" rid="aff4">4</xref>
        </contrib>
        <contrib contrib-type="author">
          <string-name>Claudia Roberta Combei</string-name>
          <xref ref-type="aff" rid="aff1">1</xref>
          <xref ref-type="aff" rid="aff3">3</xref>
          <xref ref-type="aff" rid="aff5">5</xref>
        </contrib>
        <contrib contrib-type="author">
          <string-name>e Francesco Zappulla</string-name>
          <xref ref-type="aff" rid="aff1">1</xref>
          <xref ref-type="aff" rid="aff2">2</xref>
          <xref ref-type="aff" rid="aff3">3</xref>
        </contrib>
        <aff id="aff0">
          <label>0</label>
          <institution>4 C. R. Combei, A. Vignoli</institution>
          ,
          <addr-line>e F. Zappulla</addr-line>
        </aff>
        <aff id="aff1">
          <label>1</label>
          <institution>CLiC-it 2025: Eleventh Italian Conference on Computational Linguistics</institution>
        </aff>
        <aff id="aff2">
          <label>2</label>
          <institution>ETET S.r.l.</institution>
          ,
          <addr-line>Piazza Pinelli 1/7, 16124 Genova</addr-line>
          ,
          <country country="IT">Italia</country>
        </aff>
        <aff id="aff3">
          <label>3</label>
          <institution>L'articolo è il risultato della collaborazione tra i tre autori: i paragrafi</institution>
        </aff>
        <aff id="aff4">
          <label>4</label>
          <institution>Università degli Studi di Pavia</institution>
          ,
          <addr-line>Corso Strada Nuova 65, 27100 Pavia</addr-line>
          ,
          <country country="IT">Italia</country>
        </aff>
        <aff id="aff5">
          <label>5</label>
          <institution>Università degli Studi di Roma Tor Vergata</institution>
          ,
          <addr-line>Via Columbia 1, 00133 Roma</addr-line>
          ,
          <country country="IT">Italia</country>
        </aff>
      </contrib-group>
      <pub-date>
        <year>2025</year>
      </pub-date>
      <abstract>
        <p>This paper presents ETET, a web-based application for the automated assessment of L2 proficiency. The main contribution of this work lies in its focus on Italian - a language for which no comparable tools currently exist. Another novelty is the departure from traditional assessment models. In fact, the theoretical framework is grounded in CEFR and Processability Theory, allowing an assessment that reflects the natural developmental sequences of the learners' interlanguage. ETET is not intended to replace human raters, but rather to serve as a complementary tool, since it ensures rapid scoring. Additionally, it has customizable and diversified test formats and items, making it a resource suitable for educational contexts, certification, and selection purposes.</p>
      </abstract>
      <kwd-group>
        <kwd>eol&gt;valutazione linguistica</kwd>
        <kwd>italiano L2</kwd>
        <kwd>CALA</kwd>
        <kwd>CALT</kwd>
        <kwd>ICALL 1</kwd>
      </kwd-group>
    </article-meta>
  </front>
  <body>
    <sec id="sec-1">
      <title>1. Introduzione</title>
      <p>
        L’inserimento delle nuove tecnologie nell’insegnamento
e nell’apprendimento delle lingue seconde (L2)
rappresenta ormai una pratica consolidata. Molti studi
hanno evidenziato come il Technology-Enhanced
Language Learning (TELL) [
        <xref ref-type="bibr" rid="ref1">1</xref>
        ] abbia trasformato il
rapporto tra insegnanti e apprendenti e le modalità con
cui questi ultimi affrontano il processo di
apprendimento linguistico [
        <xref ref-type="bibr" rid="ref2">2</xref>
        ]. I cambiamenti portati dal
TELL riguardano la progettazione della didattica, la
gestione delle lezioni e la valutazione delle competenze
acquisite [
        <xref ref-type="bibr" rid="ref3">3</xref>
        ]. Alcuni studi sostengono, inoltre, che il
TELL rende l’apprendimento più flessibile e favorisce
una maggiore autonomia dell’apprendente durante il
percorso formativo [
        <xref ref-type="bibr" rid="ref4">4</xref>
        ].
      </p>
      <p>
        L’uso delle nuove tecnologie ha portato a
cambiamenti non solo a livello didattico e metodologico,
ma anche a livello terminologico; infatti, sono emersi
concetti nuovi, quali Computer/Mobile-Assisted
Language Learning [
        <xref ref-type="bibr" rid="ref3">3</xref>
        ], [
        <xref ref-type="bibr" rid="ref5">5</xref>
        ], Digital Language Learning
[
        <xref ref-type="bibr" rid="ref6">6</xref>
        ], Computer-Assisted Language Testing/Assessment
(CALT/CALA) [
        <xref ref-type="bibr" rid="ref7">7</xref>
        ], [
        <xref ref-type="bibr" rid="ref8">8</xref>
        ] e, più recentemente, Intelligent
Computer-Assisted Language Learning (ICALL) [
        <xref ref-type="bibr" rid="ref9">9</xref>
        ].
      </p>
      <p>
        L’interesse verso l’ICALL è confermato anche dalla
creazione di un gruppo di interesse (SIG ICALL)
all’interno del Computer Assisted Language Instruction
Consortium (CALICO), per favorire lo sviluppo di
strumenti didattici basati sull’intelligenza artificiale (IA)
e su tecnologie di trattamento automatico del linguaggio
(NLP), tra cui Large Language Model (LLM),
riconoscimento vocale (Automatic Speech Recognition,
ASR) e sintesi vocale (Text-to-Speech, TTS). Alcuni studi
recenti hanno mostrato, infatti, che l’IA può essere usata
con discreto successo sia nella generazione dei quesiti
per i test di lingua [
        <xref ref-type="bibr" rid="ref10">10</xref>
        ] sia nella valutazione
automatizzata delle competenze linguistiche scritte [
        <xref ref-type="bibr" rid="ref11">11</xref>
        ],
e orali [
        <xref ref-type="bibr" rid="ref12">12</xref>
        ]. L’impiego delle tecnologie NLP e IA nella
valutazione linguistica sta ricevendo un’attenzione
crescente anche nel contesto italiano. A testimonianza di
ciò, il recente volume di Cinganotto e Montanucci [
        <xref ref-type="bibr" rid="ref13">13</xref>
        ]
sull’IA per l’educazione linguistica dedica un intero
capitolo agli approcci automatizzati di quello che le due
autrici definiscono language testing.
      </p>
      <p>Il nostro lavoro va nella stessa direzione e presenta
ETET2, una web-app commerciale progettata per
valutare in maniera automatizzata le competenze
linguistiche in una L2. Sebbene ETET sia una
piattaforma multilingue – attualmente disponibile per
l’inglese e per l’italiano – il presente studio si concentra
esclusivamente sul modulo dedicato all’italiano L2.</p>
      <p>L’articolo è strutturato come segue: il paragrafo 2
illustra le motivazioni e gli obiettivi della ricerca; il
paragrafo 3 delinea il quadro teorico di riferimento; il
paragrafo 4 è dedicato alla descrizione di ETET, sia dal
punto di vista tecnico sia per quanto riguarda la
progettazione dei quesiti, le modalità di assegnazione dei
punteggi e la validazione; infine, il paragrafo 5 presenta
le prospettive future e alcune considerazioni conclusive.</p>
    </sec>
    <sec id="sec-2">
      <title>2. Motivazioni e Obiettivi</title>
      <p>
        Per quanto a nostra conoscenza, ETET rappresenta il
primo strumento per la valutazione completamente
automatizzata delle competenze linguistiche in italiano
L2, una lingua parlata da circa 3.287.300 parlanti
nonnativi, secondo Ethnologue3. Questo numero riflette la
presenza di numerose comunità di parlanti di origine
italiana di seconda o terza generazione all’estero (i
cosiddetti heritage speakers) [
        <xref ref-type="bibr" rid="ref14">14</xref>
        ], così come l’ampia rete
di promozione linguistica e culturale coordinata dal
Ministero degli Affari Esteri, composta da 88 Istituti
Italiani di Cultura, 8 istituti statali omnicomprensivi, 43
scuole italiane paritarie, 7 sezioni italiane presso scuole
europee, 79 sezioni italiane presso scuole straniere
internazionali, 2 scuole non paritarie, 422 comitati della
Società Dante Alighieri, attivi in tutto il mondo4. In
questi contesti culturali, spesso frequentati da
apprendenti e da parlanti di italiano L2, emerge
l’esigenza di strumenti affidabili per la valutazione delle
competenze linguistiche, sia a fini didattici che
certificativi.
      </p>
      <p>
        Infatti, negli ultimi anni, la domanda di strumenti
per la valutazione delle competenze linguistiche in
italiano ha registrato un aumento, anche in risposta a
specifici interventi normativi [
        <xref ref-type="bibr" rid="ref15">15</xref>
        ], [
        <xref ref-type="bibr" rid="ref16">16</xref>
        ]. Ad esempio,
l’art. 14, comma 1, lett. a-bis), del D.L. 4 ottobre 2018, n.
113 (c.d. Decreto Sicurezza, in vigore dal 5 ottobre 2018),
convertito, con modificazioni, dalla legge 1 dicembre
2018, n. 136, ha inserito l’art. 9.1 nella legge n. 91/1992,
subordinando la concessione della cittadinanza italiana
al possesso di un’adeguata conoscenza della lingua
italiana, non inferiore al livello B1 del Quadro comune
europeo di riferimento per la conoscenza delle lingue
2 Sito web ETET: https://www.talketet.com/ (accesso 06/06/2025).
3 Informazioni dettagliate disponibili qui:
http://ethnologue.com/language/ita/ (accesso 06/06/2025).
4 Informazioni dettagliate disponibili qui:
https://www.esteri.it/it/diplomazia-culturale-e-diplomaziascientifica/cultura/promozionelinguaitaliana/ (accesso 06/06/2025).
(QCER). Per ottenere una certificazione linguistica di
italiano L2 di livello B1 del QCER, i richiedenti devono
superare uno degli esami di lingua riconosciuti (ad es.,
CELI 2, CILS B1, ecc.)5. Sono previsti alcuni casi di
esonero per chi possiede un titolo di studio conseguito
in Italia o per i titolari di permesso di soggiorno UE di
lungo periodo, i quali devono comunque aver superato
in precedenza un esame di lingua italiana di livello A2.
      </p>
      <p>
        Analogamente, gli studenti universitari provenienti
da paesi non appartenenti all’Unione Europea sono
tenuti a superare una prova linguistica per accertare il
livello B2 del QCER se intendono immatricolarsi a corsi
erogati in lingua italiana [
        <xref ref-type="bibr" rid="ref17">17</xref>
        ].
      </p>
      <p>
        In ambito lavorativo, la valutazione delle
competenze linguistiche di italiano riveste un ruolo
importante nei settori del Business Process Outsourcing
(BPO), compresi i call center delocalizzati, dove lavorano
numerosi parlanti L2 [
        <xref ref-type="bibr" rid="ref18">18</xref>
        ]. In questi casi, la qualità del
servizio offerto dalle aziende BPO dipende anche dalla
competenza linguistica dei candidati.
      </p>
      <p>La presenza di tutte queste situazioni sociali,
culturali, didattiche e professionali in cui è richiesta una
certificazione delle competenze linguistiche in italiano
L2, insieme ai tempi di attesa spesso lunghi per sostenere
i relativi esami, evidenzia la necessità di costruire
strumenti di valutazione che siano più accessibili, rapidi
e facilmente distribuibili su larga scala. In questo
contesto, ETET si propone come strumento di supporto
alla valutazione tradizionale, con l’obiettivo di fornire
stime automatiche della competenza linguistica in
italiano L2 che siano affidabili, immediate e coerenti con
i livelli del QCER. Lungi dal voler sostituire la
valutazione umana, ETET mira a supportarla, offrendo
una soluzione utile in contesti ad alta richiesta o come
complemento ai percorsi didattici e certificativi (ad es.,
situazioni in cui è richiesto il risultato in tempo reale,
placement test, prove intermedie, simulazioni,
esercitazioni, ecc.).</p>
    </sec>
    <sec id="sec-3">
      <title>3. Quadro Teorico</title>
      <p>Dall’analisi dei documenti scientifici prodotti dagli enti
certificatori dell’italiano come L2 emerge una
discrepanza significativa tra le modalità di valutazione
adottate nei test ufficiali e quanto descritto nella
letteratura sull’acquisizione di una L2, in particolare in
riferimento alle fasi di sviluppo dell’interlingua. Tale
incongruenza si traduce in una potenziale discontinuità
tra i livelli di competenza linguistica effettivamente
raggiunti dagli apprendenti e quelli formalmente
5 Informazioni dettagliate disponibili qui:
https://www.normattiva.it/urires/N2Ls?urn:nir:stato:decreto.legge:2018-10-04;113~art14 (accesso
06/06/2025).
certificati. Ne deriva la necessità di elaborare strumenti
di valutazione fondati su un inquadramento teorico
solido e coerente, in grado di giustificare e sostenere i
criteri adottati nella misurazione della competenza
linguistica.</p>
      <p>
        Il framework teorico di riferimento per il nostro
lavoro è rappresentato dal QCER, standard europeo per
la valutazione delle competenze linguistiche promosso
dal Consiglio d’Europa. Gli obiettivi principali del QCER
sono quelli di promuovere la diffusione del
plurilinguismo in Europa, fornire strumenti comuni a
chi opera nell’ambito dell’educazione linguistica e della
valutazione linguistica e favorire il riconoscimento e
l’equiparazione dei titoli e dei certificati linguistici [
        <xref ref-type="bibr" rid="ref19">19</xref>
        ].
Essendo concepito come strumento valido per tutte le
lingue d’Europa (ma è sempre più usato anche nel resto
del mondo), il QCER non si delinea come uno strumento
prescrittivo, bensì propone una descrizione qualitativa
delle competenze linguistiche che caratterizzano ogni
livello [
        <xref ref-type="bibr" rid="ref19">19</xref>
        ].
      </p>
      <p>
        Dopo aver fornito un’impalcatura generale, i singoli
stati hanno sentito la necessità di trasporre gli indicatori
del QCER nei contesti specifici delle varie lingue. Da
questa esigenza sono nate pubblicazioni come [
        <xref ref-type="bibr" rid="ref20">20</xref>
        ], per
l’italiano, con l’obiettivo di identificare descrittori
linguistici specifici per ogni livello di competenza.
Accanto all’iniziativa italiana sono sorti progetti anche
per l’inglese, lo spagnolo, il francese e il tedesco.
      </p>
      <p>
        Il quadro teorico su cui si fonda ETET è quindi il
risultato delle indicazioni generali contenute nel QCER,
nella sua trasposizione specifica teorizzata per l’italiano
[
        <xref ref-type="bibr" rid="ref19">19</xref>
        ], [
        <xref ref-type="bibr" rid="ref20">20</xref>
        ] e dal confronto e dalla disamina dei documenti
scientifici prodotti dagli enti certificatori di italiano
come L2. È stato inoltre valutato di affiancare questa
cornice teorica alla teoria psicolinguistica della
Processabilità (Processability Theory, PT) – in
particolare per quanto riguarda gli aspetti
morfosintattici della lingua – la quale si propone di
spiegare le sequenze evolutive che si verificano
all’interno di una L2. L’allineamento tra questi due
approcci consente di definire un sistema valutativo
capace di rilevare non solo il livello raggiunto, ma anche
la plausibilità evolutiva delle competenze espresse.
      </p>
      <p>
        La PT [
        <xref ref-type="bibr" rid="ref21">21</xref>
        ], teorizzata nel 1998 da Manfred
Pienemann, sostiene che esiste un insieme universale e
gerarchicamente ordinato di procedure di elaborazione
dell’output che vengono acquisite nel tempo e che non
sono influenzate dalla L1 [
        <xref ref-type="bibr" rid="ref22">22</xref>
        ], [
        <xref ref-type="bibr" rid="ref23">23</xref>
        ]. Tali procedure si
presentano in ordine gerarchico implicazionale, ovvero,
la procedura di un livello più basso è un prerequisito
necessario per il funzionamento della procedura del
livello successivo [
        <xref ref-type="bibr" rid="ref21">21</xref>
        ]. Le procedure sono attivate nel
seguente ordine: procedura lemmatica, procedura
categoriale, procedura sintagmatica, procedura frasale,
procedura subordinante.
      </p>
      <p>Il primo livello di acquisizione è rappresentato dalla
procedura lemmatica che prevede un apprendimento di
tipo formulaico. In questa fase vengono identificati
elementi lessicali singoli e invariabili, senza far ricorso a
processi cognitivi specifici se non a quello della memoria
lessicale che porta all’acquisizione di chunk e type (ad
es., ciao). Successivamente si passa al secondo livello,
ovvero alla procedura categoriale, in cui l’apprendente
inizia a distinguere le categorie lessicali e grammaticali
(ad es., nome, verbo, ecc.) degli elementi che ha già
imparato e a produrre alcune marche morfologiche.
Tuttavia, non vi è ancora comunicazione tra i vari
elementi della frase. Il terzo livello è quello della
procedura sintagmatica che si divide in due sottolivelli:
l’accordo entro il sintagma nominale e l’accordo entro il
sintagma verbale. Il primo sottolivello prevede una
forma iniziale di accordo all’interno del sintagma,
ovvero, l’apprendente riconosce la testa del sintagma e
inizia a marcare i tratti grammaticali al suo interno. Nel
secondo sottolivello, l’apprendente incomincia a
costruire sintagmi verbali sempre più complessi.
Raggiunto il quarto livello, ovvero quello della
procedura frasale, lo scambio di informazioni avviene tra
sintagmi diversi. Infine, la procedura subordinante
rappresenta l’ultimo livello, cioè dove avviene lo
scambio di informazioni tra frase principale e frase
subordinate.</p>
      <p>La validità universale del framework proposto
dall’unione del QCER e della PT si dimostra
particolarmente adatta per il progetto di ETET, il cui
l’obiettivo a lungo termine è quello di riuscire a coprire
e valutare in maniera congruente e scientificamente
motivata un numero sempre maggiore di lingue. In
effetti, la progettazione teorica di ETET si basa
sull’integrazione di due prospettive teoriche
complementari: da un lato il QCER e le sue attuazioni
più pratiche, che offrono una cornice descrittiva per la
valutazione delle competenze linguistiche, dall’altro la
PT, che fornisce un modello psicolinguistico per
comprendere le tappe evolutive dell’interlingua.
L’unione di questi due approcci consente di costruire un
sistema di valutazione che tenga conto sia del livello di
competenza manifestato, sia della sua coerenza,
seguendo le naturali traiettorie di acquisizione
dell’interlingua.</p>
    </sec>
    <sec id="sec-4">
      <title>4. Descrizione ETET</title>
      <p>
        La web-app ETET è stata progettata per offrire una
valutazione automatizzata delle competenze linguistiche
scritte e orali, sia attraverso domande chiuse che aperte.
Le competenze valutate riguardano la produzione e
l’interazione orale, l’ascolto, la comprensione del testo,
la produzione scritta e la grammatica. Per quanto
riguarda la produzione orale, il sistema valuta anche
l’intelligibilità e la pronuncia [
        <xref ref-type="bibr" rid="ref24">24</xref>
        ]. ETET restituisce
punteggi su scala 0–100, pesati in base alla difficoltà e
alla tipologia della domanda; i punteggi sono mappati
sui livelli del QCER sia a livello globale sia a livello della
singola abilità valutata.
      </p>
      <sec id="sec-4-1">
        <title>4.1. Caratteristiche Tecniche</title>
        <p>
          La piattaforma integra algoritmi di feedback in tempo
reale, LLM e tecnologie di ASR, prendendo spunto da
lavori recenti nell’ambito dell’Automated Essay Scoring
(AES) [
          <xref ref-type="bibr" rid="ref11">11</xref>
          ] e dell’Automated Speaking Assessment (ASA)
[
          <xref ref-type="bibr" rid="ref25">25</xref>
          ].
        </p>
        <p>Dal punto di vista dell’architettura, l’applicativo
ETET utilizza un ambiente Linux (Debian). Il back-end è
realizzato in Ruby on Rails 8, mentre l’interfaccia di
gestione (back-office) è realizzata in Vue.js. Il modulo
front-end per l’utente finale si basa anch’esso su Vue.js.
L’autenticazione avviene tramite e-mail e password e la
sessione viene verificata tramite token JWT.</p>
        <p>Il sistema ASR è basato su AzureAI6, che sfrutta il
modello Whisper di OpenAI7. Gli input vocali vengono
acquisiti tramite browser in formato .ogg o .wav (canale
mono) e non vengono normalizzati. I parametri di
decodifica non sono attualmente configurabili.</p>
        <p>Le domande aperte sono valutate tramite il GPT-4o
di OpenAI8, un modello accessibile via API, con prompt
personalizzati per ciascun tipo di test e domanda. La
valutazione è asincrona, avviene in background e viene
restituita solo al termine del test.</p>
        <p>Tutti i dati relativi agli esami, come ad esempio, i
testi e i file audio delle risposte prodotti dagli utenti,
sono salvati in un database PostgreSQL, ospitato in
cloud sull’infrastruttura Azure, in conformità con il
GDPR. I dischi sono criptati con chiavi gestite dalla
piattaforma e viene applicata una policy di snapshot
periodico per garantire la sicurezza e la conservazione
dei dati.</p>
      </sec>
      <sec id="sec-4-2">
        <title>4.2. Test e Domande</title>
        <p>
          La web-app ETET permette di creare diverse tipologie di
test a seconda delle necessità dei singoli esaminatori. Il
punto di partenza per la realizzazione di un test è la
definizione di quale sia l’obiettivo della valutazione, il
che implica caratteristiche specifiche in termini di
contenuto e tempistiche di somministrazione [
          <xref ref-type="bibr" rid="ref26">26</xref>
          ]. I test
possono essere costruiti per testare tutte e quattro le
abilità linguistiche fondamentali (lettura, ascolto,
scrittura e parlato) oppure possono essere personalizzati
per andare ad indagare le abilità linguistiche che
maggiormente interessano all’esaminatore.
        </p>
        <p>La procedura di creazione di un test è un processo
incrementale: per ciascuna abilità fondamentale viene
creato un questionario che si compone di domande
scelte da un database predisposto da esperti interni e
selezionate in modo da coprire tutti gli aspetti che si
vogliono indagare inerentemente a quella competenza
linguistica. L’insieme dei questionari andrà a costituire
la forma complessiva dell’esame (v. Figura 1).</p>
        <sec id="sec-4-2-1">
          <title>Figura 1: Lato back-office di ETET.</title>
          <p>A prescindere dalle tipologie di domande prescelte,
ciascun questionario viene costruito inserendo item con
un determinato bilanciamento di complessità attesa. In
particolare, ogni domanda è caratterizzata da un livello
di difficoltà associato ai livelli proposti dal QCER. In ogni
questionario si trovano il 10% di domande del livello A1
e del livello C2 mentre tutti gli altri livelli (A2, B1, B2,
C1) sono uniformemente rappresentati da un 20% di
domande.</p>
          <p>Una caratteristica di ETET è la possibilità di
impostare il numero di domande e la durata del test in
base alle esigenze dell’utente o alle specificità del
contesto didattico e valutativo. Ciascuna domanda viene
identificata a partire da una serie di caratteristiche che
ne descrivono tipologia e complessità. Queste vengono
dunque catalogate secondo i seguenti parametri: abilità
linguistica testata – attraverso un’etichetta identificativa
(lettura, ascolto, scrittura e parlato); lingua del test (in
questo caso, l’italiano); livello di difficoltà secondo il
QCER (A1, A2, B1, B2, C1, C2); oggetto epistemico
indagato (ad es., articoli determinativi, forma passiva
ecc.).</p>
          <p>I quesiti possono essere, inoltre, divisi in due
macrocategorie: domande a risposta chiusa e domande a
risposta aperta, distinte in base al tipo di produzione
richiesta all’utente e alla modalità di valutazione. In
entrambi i casi, i soggetti dispongono di un tempo
6 Informazioni dettagliate disponibili qui:
https://azure.microsoft.com/en-us/solutions/ai (accesso 06/06/2025).
7 Informazioni dettagliate disponibili qui:
https://openai.com/index/whisper/ (accesso 06/06/2025).
limitato, misurato in secondi, per formulare e inserire la
propria risposta.</p>
          <p>Le domande a risposta chiusa (v. Figura 2)
presuppongono generalmente una sola risposta esatta o
un numero limitato e comunque predefinito di risposte
possibili. Fanno parte di questa tipologia di domande:
• Domande a scelta multipla, dove ad una
domanda vengono associate più risposte
possibili, di cui una soltanto è corretta e le altre
svolgono la funzione di distrattori.
• Domande a completamento, in cui viene
presentata una frase caratterizzata da uno o
più spazi vuoti in cui l’utente deve inserire una
o più parole. In questa tipologia di domande,
nella fase di creazione, è stata prestata molta
attenzione ad inserire, laddove necessario,
tutti i possibili sinonimi che possono essere
indicati dalla persona testata.
• Dettato, nel quale la persona testata deve
scrivere ciò che riesce a comprendere
dall’audio presente nella domanda.
• Ricostruzione di una frase, in cui l’utente sente
un audio in cui sono contenuti vari pezzi di
frase presentati in ordine sparso e li deve
ricostruire correttamente.
autentico, essendo necessaria una produzione da parte
dell’utente.</p>
          <p>Le domande aperte (v. Figura 3) prevedono
un’elaborazione linguistica attiva e autonoma da parte
del candidato e riguardano le abilità di scrittura e di
parlato. Queste domande permettono di valutare
competenze complesse e integrative. Fanno parte della
tipologia di domande aperte:
•
•
•
•</p>
          <p>Componimenti brevi, che prevedono la
scrittura di un breve testo su argomenti vari e
con differenti variazioni diafasiche.</p>
          <p>Descrizioni di immagini, ovvero viene dato
come input un’immagine e il soggetto deve
fornirne una descrizione dettagliata dello
stimolo.</p>
          <p>Esposizione del proprio punto di vista, tramite la
scrittura di un testo che evidenzi la propria
posizione su un tema (ad es., cambiamento
climatico).</p>
          <p>Riassunto, la persona testata deve produrre un
riassunto del testo che ha appena letto o
dell’audio che ha appena sentito.</p>
          <p>Figura 2: Alcuni esempi di domande a risposta chiusa.
Nella costruzione dei test si è cercato di inserire il minor
numero possibile di domande a scelta multipla per
diminuire la possibilità che l’utente indovini la risposta.
Si è cercato invece, laddove possibile, di sostituire questa
tipologia con le domande a completamento, le quali
permettono inoltre di ottenere un input linguistico più
Figura 3: Alcuni esempi di domande a risposta aperta.
Nelle domande aperte di scrittura viene richiesta come
risposta un minimo di 50 parole, mentre in quelle di
parlato sono richiesti almeno 20 secondi di registrazione
audio in tempo reale.</p>
          <p>
            La presenza di entrambe le tipologie di domanda è
giustificata dall’esigenza di ottenere una valutazione più
completa e bilanciata della competenza linguistica (v.
Figura 4). Infatti, come osservano nella letteratura [
            <xref ref-type="bibr" rid="ref27">27</xref>
            ],
una valutazione linguistica efficace dovrebbe integrare
quesiti che misurano sia la conoscenza linguistica
formale sia la capacità di utilizzare efficacemente tale
conoscenza in contesti reali. Questa definizione è in
linea con la teorizzazione del QCER [
            <xref ref-type="bibr" rid="ref28">28</xref>
            ] che vede le
competenze linguistiche dei parlanti di una L2 come
orientate all’azione, intendendo gli apprendenti come
agenti sociali. Attraverso la lingua, i parlanti devono
essere in grado di interagire efficacemente e comunicare
in vari contesti sociali, culturali e professionali.
          </p>
        </sec>
        <sec id="sec-4-2-2">
          <title>Figura 4: Impostazione domande.</title>
          <p>Partendo da questo assunto, si è delineata la necessità di
proporre compiti, domande, materiale multimediale (ad
es., registrazioni audio, immagini) e testi che
l’informante potesse incontrare nell’uso reale della
lingua e nelle più varie situazioni comunicative.</p>
          <p>A ciascuna domanda è associato un peso (1, 2, 3
punti) che rappresenta il punteggio che si può ottenere
rispondendo correttamente. Domande con maggior
necessità di rielaborazione e sforzo cognitivo da parte
del soggetto avranno pesi maggiori. Domande a risposta
chiusa, come ad esempio, quelle a risposta multipla o di
completamento, avranno un peso di 1 punto, dettati o
ricostruzioni di frasi 2 punti mentre produzioni orali o
elaborati scritti 3 punti.</p>
          <p>
            Le domande a risposta chiusa prevedono una
valutazione booleana del tipo corretto/errato. Per la
produzione scritta e parlata, invece, la valutazione è
affidata ad un LLM in grado di generare punteggi di AES
e ASA (v. paragrafo 4.1). Il primo valuta la correttezza
grammaticale, la scelta lessicale, la coerenza e l’adesione
al tema, la comprensione, la coesione testuale e il
contenuto della risposta fornita dall’utente. Il punteggio
dato in centesimi dal modello si ripartisce nel seguente
modo tra 5 parametri: structure and grammar = 20%,
content and argumentation = 30%, vocabulary = 20%,
comprehension and adherence to the topic = 20% e
pragmatics and cohesion = 10%. Diversi studi hanno
evidenziato come i sistemi AES mostrino un’elevata
concordanza con i giudizi di valutatori umani esperti
[
            <xref ref-type="bibr" rid="ref29">29</xref>
            ], [
            <xref ref-type="bibr" rid="ref30">30</xref>
            ].
          </p>
          <p>
            Il modello ASA – dopo aver prodotto una
trascrizione fedele dell’audio registrato in tempo reale
dall’utente – usa come metriche di valutazione il
paradigma Complexity Accuracy Fluency (CAF) [
            <xref ref-type="bibr" rid="ref24">24</xref>
            ],
analizzando la produzione orale del parlante, attraverso
4 parametri: fluency, accuracy, completeness,
pronunciation. I valori relativi a questi 4 parametri
rappresentano il 5% del punteggio finale nelle domande
di produzione orale. Il restante 95% è rappresentato dalle
valutazioni relative ai parametri discussi prima,
redistribuiti come segue: structure and grammar = 20%,
content and argumentation = 25%, vocabulary = 20%,
comprehension and adherence to the topic = 20% e
pragmatics and cohesion = 10%. La letteratura [
            <xref ref-type="bibr" rid="ref31">31</xref>
            ]
sostiene che le tecnologie ASA mostrano numerosi
vantaggi rispetto alla valutazione orale tradizionale, tra
cui una maggiore efficienza e rapidità nei processi di
somministrazione del test e di elaborazione dei risultati,
ma anche una riduzione dell’incidenza di bias umani,
con conseguente incremento della coerenza dei punteggi
assegnati.
          </p>
          <p>Una volta che l’utente completa il test, il sistema
calcola i punteggi per ciascuna domanda, come descritto
sopra, e riporta il voto finale ottenuto in ciascuna
sezione. Il voto è calcolato come rapporto tra i punti
ottenuti e i punti totali ottenibili relativi a quell’abilità
linguistica (v. formula (1)).</p>
          <p>! =
"#$$!,! %
$&amp;$,!
(1)
(2)
Il punteggio finale del test, invece, si ottiene come media
dei punteggi ottenuti per ciascuna abilità linguistica, in
modo da uniformarne l’importanza (v. formula (2), dove
n è il numero di abilità testate).</p>
          <p>"!'#() =
∑!'*+ ! %

Per allineare l’output del test con quello degli enti
certificatori, il punteggio in percentuale ottenuto viene
mappato sulle fasce stabilite dal QCER. Oltre al
punteggio in percentuale, l’utente finale otterrà, quindi,
un voto espresso come livello QCER (da A1 a C2) per
ciascuna competenza testata e un voto finale per lo
svolgimento complessivo del test (v. Figura 5).</p>
        </sec>
        <sec id="sec-4-2-3">
          <title>Figura 5: Esempio di feedback.</title>
          <p>Al termine della prova, la piattaforma prevede la
produzione automatica di un feedback descrittivo
personalizzato il quale, tramite le tecnologie generative,
restituisce un’analisi complessiva della performance
dell’utente. Allo strumento vengono forniti i risultati
ottenuti nel test e le risposte alle domande a
composizione libera di scrittura e di parlato. Questi dati
vengono analizzati e il feedback che viene prodotto
evidenzia sia i punti di forza della competenza
linguistica della persona testata sia le aree in cui si sono
riscontrate maggiori difficoltà, fornendo anche spunti e
consigli per un miglioramento delle abilità testate.</p>
        </sec>
      </sec>
      <sec id="sec-4-3">
        <title>4.3. Validazione</title>
        <p>
          Come evidenziato nel paragrafo 1, negli ultimi anni, i
LLM hanno mostrato un potenziale crescente
nell’ambito della valutazione automatica delle
competenze linguistiche nelle L2. In particolare, i LLM si
confermano strumenti promettenti, soprattutto in
contesti didattici e valutativi a basso rischio. Tuttavia,
nella letteratura recente sono stati riscontrati alcuni
limiti legati alla capacità dei LLM di cogliere aspetti
discorsivi complessi, alla variabilità delle loro
prestazioni nel tempo e alla presenza di bias inferenziali,
socioculturali e sociodemografici [
          <xref ref-type="bibr" rid="ref32">32</xref>
          ], [
          <xref ref-type="bibr" rid="ref33">33</xref>
          ]. Considerata
la mancanza di un consenso nella letteratura circa la
validità e l’affidabilità dei LLM come strumenti di
valutazione linguistica, e alla luce dell’assenza di
protocolli standardizzati e condivisi per la loro
validazione, si è ritenuto opportuno intraprendere un
primo tentativo di validazione dello strumento ETET per
l’italiano L2.
        </p>
        <p>Per verificare la validità del modello e la coerenza
nell’assegnazione dei punteggi, sono state condotte
alcune sessioni di prova su risposte a domande aperte.
Sono state selezionate 3 domande di produzione scritta
(PS1, PS2, PS3) e 3 di produzione orale (PO1, PO2, PO3)
e per ciascuna domanda è stata formulata una risposta.
Ogni risposta è stata valutata dal sistema per 10
iterazioni consecutive, mantenendo, quindi, invariato
l’input, al fine di osservare la stabilità dei punteggi
assegnati a parità di contenuto. Per ciascuna iterazione
sono stati registrati i punteggi relativi a tutti i parametri
considerati. Le domande di produzione orale sono state
testate sia su un parlante di genere maschile (PO1m,
PO2m, PO3m) sia su una parlante di genere femminile
(PO1f, PO2f, PO3f), allo scopo di verificare l’eventuale
presenza di bias di genere nei punteggi assegnati dal
modello. Successivamente sono stati calcolati il valore
medio e la deviazione standard per ciascun parametro di
valutazione associato a ogni domanda: X1 = structure
and grammar, X2 = content and argumentation, X3 =
vocabulary, X4 = comprehension and adherence to the
topic, X5 = pragmatics and cohesion, X6 = fluency, X7 =
accuracy, X8 = completeness, X9 = pronunciation. Come
discusso nel paragrafo 4.2, per la valutazione della
produzione scritta (PS1, PS2, PS3) sono stati considerati
i primi 5 parametri, mentre per la produzione orale (PO1,
PO2, PO3) tutti e 9 i parametri.</p>
        <p>La coerenza dei punteggi è stata valutata attraverso
il coefficiente di variazione (CV), ottenuto dal rapporto
percentuale tra deviazione standard e valore medio, che
descrive la dispersione relativa per ogni oggetto
indagato (v. formula (3)).</p>
        <p>=


%
(3)
Coefficienti di variazione alti sono sintomatici di
un’elevata dispersione nei dati, dunque, una limitata
coerenza del modello nel giudicare i diversi parametri;
viceversa, coefficienti di variazione bassi sono indicativi
di una ridotta dispersione relativa. La Tabella 1 mostra i
coefficienti di variazione per ciascun tipo di domanda
aperta.</p>
        <p>È possibile notare come tutte le misurazioni, ad
eccezione del parametro X1 nella seconda domanda di
produzione orale (con voce femminile), si trovino al di
sotto del limite del 10%, fissato come soglia di
accettabilità dei risultati (v. Tabella 1). Ne consegue una
buona coerenza da parte del modello nell’assegnazione
dei punteggi nella nostra sessione di valutazione.</p>
        <p>Inoltre, l’esperimento di validazione ha evidenziato
che il genere non sembra avere un ruolo rilevante nei
valori ottenuti. Si può quindi ipotizzare che il modello
sia indifferente a questa variabile, oppure che il genere,
andando a sommarsi ad una serie di altri fattori, come il
tono di voce, la distanza dal microfono, o la velocità di
eloquio, non assuma un’importanza determinante nel
calcolo dei punteggi. Questo esito risulterebbe coerente
con l’obiettivo di costruire uno strumento robusto e non
soggetto a bias algoritmici.</p>
        <p>Tabella 1
Valori CV per ciascun tipo di domanda</p>
        <sec id="sec-4-3-1">
          <title>Tipo X1</title>
          <p>PS1 4,9%
PS2 5,1%
PS3 2,5%
PO1f 2,5%
PO2f 10,6%
PO3f 4,1%
PO1m 6,7%
PO2m 7,8%
PO3m 7,4%
X2
3,8%
3,8%
2,8%
3,2%
4,0%
4,1%
4,0%
2,7%
3,9%
X3
3,9%
4,4%
3,6%
7,0%
8,1%
5,6%
5,9%
6,5%
5,5%
X4
6,5%
4,1%
2,7%
3,9%
4,6%
3,9%
2,3%
3,4%
2,8%
X5
2,6%
2,6%
3,9%
4,8%
8,8%
2,8%
6,0%
4,9%
6,0%
X6-9
\
\
\
0,0%
0,0%
0,0%
0,0%
0,0%
0,0%</p>
        </sec>
      </sec>
    </sec>
    <sec id="sec-5">
      <title>5. Conclusioni e Sviluppi Futuri</title>
      <p>Il presente studio ha illustrato la progettazione e lo
sviluppo di ETET, una web-app commerciale per la
valutazione automatizzata delle competenze linguistiche
nelle L2. In particolare, la portata innovativa della
ricerca è rappresentata dal fatto che la lingua presa in
esame sia l’italiano, lingua per la quale – almeno nella
conoscenza degli autori – non esistono strumenti di
questo tipo. Ulteriore novità è rappresentata dalla scelta
di non seguire le modalità di valutazione “tradizionali”,
ma di sviluppare un quadro teorico – fondato sui
descrittori del QCER e sulla PT – che tenesse
effettivamente in considerazione l’uso pratico della
lingua e le sequenze evolutive naturali dell’interlingua
degli individui.</p>
      <p>La piattaforma non si propone di sostituire i
valutatori umani, ma nasce dalla volontà di essere uno
strumento di supporto. ETET, grazie alle tecnologie
impiegate, consente infatti un’elevata efficienza nella
somministrazione delle prove e grande rapidità nella
loro valutazione; allo stesso tempo, la possibilità di
personalizzare i test, la varietà delle domande proposte
e il feedback personalizzato lo renderebbero uno
strumento adatto sia a contesti didattici sia a fini
certificativi e pre-selettivi (ad es., in ambito lavorativo o
universitario). Infine, l’utilizzo di tecnologie AES e ASA
permette di ridurre l’incidenza di bias umani e allo stesso
tempo di incrementare coerenza e affidabilità
nell’assegnazione dei punteggi.</p>
      <p>Finora, gli sforzi della nostra ricerca si sono
concentrati prevalentemente sullo sviluppo e
sull’implementazione della piattaforma ETET per
l’italiano. Per questo motivo, non è stata ancora condotta
una valutazione strutturata e sistematica dello
strumento su un campione di parlanti non nativi di
italiano. Oltre alla validazione descritta nel paragrafo
4.3, le uniche ulteriori osservazioni preliminari sono
state raccolte da un numero molto ristretto di persone,
coinvolte in un test esplorativo della durata di circa
mezz’ora. Questo test aveva l’obiettivo di ottenere i
primi riscontri sul funzionamento generale della
webapp.</p>
      <p>Tra le prospettive future del lavoro è prevista la
realizzazione di uno studio pilota, attualmente in fase di
progettazione nell’ambito di una tesi magistrale,
finalizzato a una valutazione più approfondita e
sistematica dello strumento. Il protocollo sperimentale
relativo alla fase di valutazione di ETET prevederà la
somministrazione del test a un campione di 50
informanti con diversi livelli di competenza linguistica
in italiano L2. I dati raccolti dallo studio pilota saranno
usati per definire un benchmark di riferimento, mediante
il confronto con un gold standard elaborato da esperti
valutatori dell’italiano L2, con le autovalutazioni fornite
dagli stessi 50 partecipanti e con i dati raccolti da un
gruppo di controllo costituito da 5 parlanti nativi di
italiano.</p>
      <p>Parallelamente, verrà condotta un’analisi qualitativa
dei feedback ricevuti dagli informanti sull’usabilità della
piattaforma ETET.</p>
    </sec>
    <sec id="sec-6">
      <title>Ringraziamenti</title>
      <p>Gli autori desiderano esprimere la loro gratitudine a
Maurizio Olivieri, a Enrico Reboscio e all’intero gruppo
di sviluppo di DotVocal Innovation per il prezioso
supporto tecnico fornito.
During the preparation of this work, the author(s) used ChatGPT (OpenAI) in order to: Paraphrase
and reword. After using these tool(s)/service(s), the author(s) reviewed and edited the content as
needed and take(s) full responsibility for the publication’s content.</p>
    </sec>
  </body>
  <back>
    <ref-list>
      <ref id="ref1">
        <mixed-citation>
          [1]
          <string-name>
            <given-names>S. C.</given-names>
            <surname>Yang</surname>
          </string-name>
          ,
          <string-name>
            <given-names>Y. J.</given-names>
            <surname>Chen</surname>
          </string-name>
          ,
          <article-title>Technology-enhanced language learning: A case study</article-title>
          ,
          <source>Computers in Human Behavior 23.1</source>
          (
          <year>2007</year>
          )
          <fpage>860</fpage>
          -
          <lpage>879</lpage>
          . doi:
          <volume>10</volume>
          .1016/j.chb.
          <year>2006</year>
          .
          <volume>02</volume>
          .015.
        </mixed-citation>
      </ref>
      <ref id="ref2">
        <mixed-citation>
          [2]
          <string-name>
            <given-names>A.</given-names>
            <surname>Walker</surname>
          </string-name>
          ,
          <string-name>
            <given-names>G.</given-names>
            <surname>White</surname>
          </string-name>
          ,
          <source>Technology Enhanced Language Learning: Connecting Theory and Practice</source>
          , Oxford University Press, Oxford, UK,
          <year>2013</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref3">
        <mixed-citation>
          [3]
          <string-name>
            <given-names>G.</given-names>
            <surname>Stockwell</surname>
          </string-name>
          ,
          <string-name>
            <surname>Computer-Assisted Language</surname>
            <given-names>Learning</given-names>
          </string-name>
          , Cambridge University Press, Cambridge, UK,
          <year>2018</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref4">
        <mixed-citation>
          [4]
          <string-name>
            <given-names>J. M.</given-names>
            <surname>Howard</surname>
          </string-name>
          ,
          <string-name>
            <given-names>A.</given-names>
            <surname>Scott</surname>
          </string-name>
          ,
          <article-title>Any time, any place, flexible pace: Technology-enhanced language learning in a teacher education programme</article-title>
          ,
          <source>Australian Journal of Teacher Education 42.6</source>
          (
          <year>2017</year>
          )
          <fpage>51</fpage>
          -
          <lpage>68</lpage>
          . doi:
          <volume>10</volume>
          .14221/ajte.2017v42n6.
          <fpage>4</fpage>
        </mixed-citation>
      </ref>
      <ref id="ref5">
        <mixed-citation>
          [5]
          <string-name>
            <given-names>J.</given-names>
            <surname>Burston</surname>
          </string-name>
          ,
          <string-name>
            <surname>MALL:</surname>
          </string-name>
          <article-title>The pedagogical challenges</article-title>
          ,
          <source>Computer Assisted Language Learning 27.4</source>
          (
          <year>2014</year>
          )
          <fpage>344</fpage>
          -
          <lpage>357</lpage>
          . doi:
          <volume>10</volume>
          .1080/09588221.
          <year>2014</year>
          .
          <volume>914539</volume>
          .
        </mixed-citation>
      </ref>
      <ref id="ref6">
        <mixed-citation>
          [6]
          <string-name>
            <given-names>P.</given-names>
            <surname>Li</surname>
          </string-name>
          ,
          <string-name>
            <given-names>Y. J.</given-names>
            <surname>Lan</surname>
          </string-name>
          ,
          <article-title>Digital language learning (DLL): Insights from behavior, cognition, and the brain</article-title>
          ,
          <source>Bilingualism: Language and Cognition 25.3</source>
          (
          <year>2022</year>
          )
          <fpage>361</fpage>
          -
          <lpage>378</lpage>
          . doi:
          <volume>10</volume>
          .1017/S1366728921000353.
        </mixed-citation>
      </ref>
      <ref id="ref7">
        <mixed-citation>
          [7]
          <string-name>
            <given-names>R.</given-names>
            <surname>Suvorov</surname>
          </string-name>
          ,
          <string-name>
            <given-names>V.</given-names>
            <surname>Hegelheimer</surname>
          </string-name>
          , Computer‐Assisted Language Testing, in: A. J.
          <string-name>
            <surname>Kunnan</surname>
          </string-name>
          (Ed.), The Companion to Language Assessment, Wiley, Hoboken, New Jersey, USA,
          <year>2014</year>
          , pp.
          <fpage>594</fpage>
          -
          <lpage>613</lpage>
          .
        </mixed-citation>
      </ref>
      <ref id="ref8">
        <mixed-citation>
          [8]
          <string-name>
            <given-names>P. M.</given-names>
            <surname>Winke</surname>
          </string-name>
          ,
          <string-name>
            <given-names>D. R.</given-names>
            <surname>Isbell</surname>
          </string-name>
          , Computer-Assisted Language Assessment, in: S. Thorne, S. May (Eds.), Language, Education and Technology, Springer, Cham, Switzerland,
          <year>2017</year>
          , pp.
          <fpage>1</fpage>
          -
          <lpage>13</lpage>
          . doi:
          <volume>10</volume>
          .1007/978-3-
          <fpage>319</fpage>
          -02328-1_
          <fpage>25</fpage>
          -
          <lpage>1</lpage>
          .
        </mixed-citation>
      </ref>
      <ref id="ref9">
        <mixed-citation>
          [9]
          <string-name>
            <given-names>T.</given-names>
            <surname>Heift</surname>
          </string-name>
          ,
          <article-title>Intelligent Computer Assisted Language Learning</article-title>
          , in: H.
          <string-name>
            <surname>Mohebbi</surname>
            ,
            <given-names>C.</given-names>
          </string-name>
          Coombe (Eds.),
          <source>Research Questions in Language Education and Applied Linguistics</source>
          , Springer, Cham, Switzerland,
          <year>2021</year>
          , pp.
          <fpage>655</fpage>
          -
          <lpage>658</lpage>
          . doi:
          <volume>10</volume>
          .1007/978-3-
          <fpage>030</fpage>
          -79143- 8_
          <fpage>114</fpage>
          .
        </mixed-citation>
      </ref>
      <ref id="ref10">
        <mixed-citation>
          [10]
          <string-name>
            <given-names>N.</given-names>
            <surname>Donati</surname>
          </string-name>
          ,
          <string-name>
            <given-names>M.</given-names>
            <surname>Periani</surname>
          </string-name>
          ,
          <string-name>
            <given-names>P.</given-names>
            <surname>Di Natale</surname>
          </string-name>
          , G. Savino,
          <string-name>
            <given-names>P.</given-names>
            <surname>Torroni</surname>
          </string-name>
          ,
          <article-title>Generation and evaluation of English grammar multiple-choice cloze exercises</article-title>
          , in: F.
          <string-name>
            <surname>Dell'Orletta</surname>
            ,
            <given-names>A.</given-names>
          </string-name>
          <string-name>
            <surname>Lenci</surname>
            ,
            <given-names>S.</given-names>
          </string-name>
          <string-name>
            <surname>Montemagni</surname>
          </string-name>
          , R. Sprugnoli (Eds.),
          <source>Proceedings of the Tenth Italian Conference on Computational Linguistics</source>
          (CLiC-it
          <year>2024</year>
          ), Pisa, Italy,
          <year>2024</year>
          , pp.
          <fpage>325</fpage>
          -
          <lpage>334</lpage>
          .
        </mixed-citation>
      </ref>
      <ref id="ref11">
        <mixed-citation>
          [11]
          <string-name>
            <given-names>F.</given-names>
            <surname>Yavuz</surname>
          </string-name>
          , Ö. Çelik,
          <string-name>
            <given-names>G.</given-names>
            <surname>Yavaş</surname>
          </string-name>
          <string-name>
            <surname>Çelik</surname>
          </string-name>
          ,
          <article-title>Utilizing large language models for EFL essay grading: An examination of reliability and validity in rubricbased assessments</article-title>
          ,
          <source>British Journal of Educational Technology 56.1</source>
          (
          <year>2025</year>
          )
          <fpage>150</fpage>
          -
          <lpage>166</lpage>
          . doi:
          <volume>10</volume>
          .1111/bjet.13494.
        </mixed-citation>
      </ref>
      <ref id="ref12">
        <mixed-citation>
          [12]
          <string-name>
            <given-names>K.</given-names>
            <surname>Nebhi</surname>
          </string-name>
          , G. Szaszák,
          <article-title>Automatic assessment of spoken English proficiency based on multimodal and multitask transformers</article-title>
          , in: R. Mitkov, G. Angelova (Eds.),
          <source>Proceedings of the 14th International Conference on Recent Advances in Natural Language Processing</source>
          , INCOMA Ltd.,
          <string-name>
            <surname>Shoumen</surname>
          </string-name>
          , Bulgaria,
          <year>2023</year>
          , pp.
          <fpage>769</fpage>
          -
          <lpage>776</lpage>
          .
        </mixed-citation>
      </ref>
      <ref id="ref13">
        <mixed-citation>
          [13]
          <string-name>
            <given-names>L.</given-names>
            <surname>Cinganotto</surname>
          </string-name>
          , G. Montanucci,
          <article-title>Intelligenza Artificiale per l'educazione linguistica</article-title>
          ,
          <source>UTET Università, Torino</source>
          ,
          <year>2025</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref14">
        <mixed-citation>
          [14]
          <string-name>
            <given-names>I.</given-names>
            <surname>Caloi</surname>
          </string-name>
          ,
          <string-name>
            <given-names>J.</given-names>
            <surname>Torregrossa</surname>
          </string-name>
          ,
          <article-title>Home and school language practices and their effects on heritage language acquisition: A view from heritage Italians in Germany, Languages 6</article-title>
          .1 (
          <year>2021</year>
          ). doi:
          <volume>10</volume>
          .3390/languages6010050.
        </mixed-citation>
      </ref>
      <ref id="ref15">
        <mixed-citation>
          [15]
          <string-name>
            <given-names>L.</given-names>
            <surname>Cinganotto</surname>
          </string-name>
          ,
          <article-title>Language testing online: Sperimentazioni sulla lingua italiana</article-title>
          ,
          <source>Italiano LinguaDue 16.1</source>
          (
          <year>2024</year>
          )
          <fpage>292</fpage>
          -
          <lpage>310</lpage>
          . doi:
          <volume>10</volume>
          .54103/2037- 3597/23842.
        </mixed-citation>
      </ref>
      <ref id="ref16">
        <mixed-citation>
          [16]
          <string-name>
            <given-names>M.</given-names>
            <surname>Mezzadri</surname>
          </string-name>
          ,
          <string-name>
            <given-names>P.</given-names>
            <surname>Vecchio</surname>
          </string-name>
          ,
          <article-title>Accessibilità e inclusività nella certificazione linguistica: Uno studio di caso nell'italiano L2</article-title>
          ,
          <source>Italiano LinguaDue 15.2</source>
          (
          <year>2023</year>
          )
          <fpage>304</fpage>
          -
          <lpage>327</lpage>
          . doi:
          <volume>10</volume>
          .54103/2037-3597/21952.
        </mixed-citation>
      </ref>
      <ref id="ref17">
        <mixed-citation>
          [17]
          <string-name>
            <given-names>B.</given-names>
            <surname>Samu</surname>
          </string-name>
          , S. Scaglione,
          <article-title>Il requisito della conoscenza della lingua italiana e la sua certificazione</article-title>
          , in: M.
          <string-name>
            <surname>Benvenuti</surname>
          </string-name>
          , P. Morozzo della Rocca (Eds.),
          <article-title>Università e studenti stranieri. Un'analisi giuridica dell'accesso all'istruzione superiore in Italia da parte dei cittadini di Paesi terzi</article-title>
          , Editoriale Scientifica, Napoli,
          <year>2024</year>
          , pp.
          <fpage>159</fpage>
          -
          <lpage>174</lpage>
          .
        </mixed-citation>
      </ref>
      <ref id="ref18">
        <mixed-citation>
          [18]
          <string-name>
            <given-names>C. R.</given-names>
            <surname>Combei</surname>
          </string-name>
          ,
          <article-title>Speaking Italian with a Twist: A Corpus Study of Perceived Foreign Accent</article-title>
          , Franco Angeli, Milano,
          <year>2023</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref19">
        <mixed-citation>
          [19]
          <article-title>Consiglio d'Europa, Quadro Comune Europeo di Riferimento per le Lingue: Apprendimento, Insegnamento</article-title>
          , Valutazione, Consiglio d'Europa, Strasburgo, Francia,
          <year>2001</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref20">
        <mixed-citation>
          [20]
          <string-name>
            <given-names>B.</given-names>
            <surname>Spinelli</surname>
          </string-name>
          ,
          <string-name>
            <given-names>F.</given-names>
            <surname>Parizzi</surname>
          </string-name>
          ,
          <article-title>Profilo della lingua italiana</article-title>
          .
          <source>Livelli di riferimento del QCER A1</source>
          ,
          <article-title>A2, B1, B2</article-title>
          , La Nuova Italia/RCS Libri, Firenze,
          <year>2010</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref21">
        <mixed-citation>
          [21]
          <string-name>
            <given-names>M.</given-names>
            <surname>Pienemann</surname>
          </string-name>
          ,
          <article-title>Language processing and second language development: Processability Theory</article-title>
          , John Benjamins, Amsterdam, Netherlands,
          <year>1998</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref22">
        <mixed-citation>
          [22]
          <string-name>
            <given-names>B.</given-names>
            <surname>Van Patten</surname>
          </string-name>
          ,
          <string-name>
            <given-names>M.</given-names>
            <surname>Smith</surname>
          </string-name>
          ,
          <string-name>
            <given-names>A. G.</given-names>
            <surname>Benati</surname>
          </string-name>
          , Key Questions in
          <source>Second Language Acquisition: An Introduction</source>
          , Cambridge University Press, Cambridge, UK,
          <year>2019</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref23">
        <mixed-citation>
          [23]
          <string-name>
            <given-names>B.</given-names>
            <surname>VanPatten</surname>
          </string-name>
          , G. D.
          <string-name>
            <surname>Keating</surname>
            ,
            <given-names>S.</given-names>
          </string-name>
          <string-name>
            <surname>Wulff</surname>
          </string-name>
          , Theories in Second Language Acquisition: An Introduction, Routledge, London, UK,
          <year>2020</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref24">
        <mixed-citation>
          [24]
          <string-name>
            <given-names>T.</given-names>
            <surname>Chau</surname>
          </string-name>
          ,
          <string-name>
            <given-names>A.</given-names>
            <surname>Huensch</surname>
          </string-name>
          ,
          <article-title>The relationships among L2 fluency, intelligibility, comprehensibility, and accentedness: A meta-analysis</article-title>
          ,
          <source>Studies in Second Language Acquisition 47.1</source>
          (
          <year>2025</year>
          )
          <fpage>282</fpage>
          -
          <lpage>307</lpage>
          . doi:
          <volume>10</volume>
          .1017/S0272263125000014.
        </mixed-citation>
      </ref>
      <ref id="ref25">
        <mixed-citation>
          [25]
          <string-name>
            <given-names>K.</given-names>
            <surname>Zechner</surname>
          </string-name>
          ,
          <string-name>
            <given-names>K.</given-names>
            <surname>Evanini</surname>
          </string-name>
          , Automated Speaking Assessment:
          <article-title>Using Language Technologies to Score Spontaneous Speech</article-title>
          , 1st. ed.,
          <string-name>
            <surname>Routledge</surname>
          </string-name>
          , Abingdon, UK,
          <year>2019</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref26">
        <mixed-citation>
          [26]
          <string-name>
            <given-names>M.</given-names>
            <surname>Vedovelli</surname>
          </string-name>
          ,
          <article-title>Manuale della certificazione dell'italiano L2</article-title>
          ,
          <string-name>
            <surname>Carrocci</surname>
            <given-names>Editore</given-names>
          </string-name>
          , Roma,
          <year>2005</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref27">
        <mixed-citation>
          [27]
          <string-name>
            <given-names>L. F.</given-names>
            <surname>Bachman</surname>
          </string-name>
          ,
          <string-name>
            <given-names>A.</given-names>
            <surname>Palmer</surname>
          </string-name>
          , Language Testing in Practice, Oxford University Press, Oxford, UK,
          <year>1996</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref28">
        <mixed-citation>
          [28]
          <string-name>
            <given-names>P.</given-names>
            <surname>Deane</surname>
          </string-name>
          ,
          <article-title>On the relation between automated essay scoring and modern views of the writing construct</article-title>
          ,
          <source>Assessing Writing 18.1</source>
          (
          <issue>2013</issue>
          )
          <fpage>7</fpage>
          -
          <lpage>24</lpage>
          . doi:
          <volume>10</volume>
          .1016/j.asw.
          <year>2012</year>
          .
          <volume>10</volume>
          .002.
        </mixed-citation>
      </ref>
      <ref id="ref29">
        <mixed-citation>
          [29]
          <string-name>
            <given-names>B.</given-names>
            <surname>Bridgeman</surname>
          </string-name>
          ,
          <string-name>
            <given-names>C.</given-names>
            <surname>Trapani</surname>
          </string-name>
          ,
          <string-name>
            <given-names>Y.</given-names>
            <surname>Attali</surname>
          </string-name>
          ,
          <article-title>Comparison of human and machine scoring of essays: Differences by gender, ethnicity, and country</article-title>
          ,
          <source>Applied Measurement in Education 25.1</source>
          (
          <year>2012</year>
          )
          <fpage>27</fpage>
          -
          <lpage>40</lpage>
          . doi:
          <volume>10</volume>
          .1080/08957347.
          <year>2012</year>
          .
          <volume>635502</volume>
          .
        </mixed-citation>
      </ref>
      <ref id="ref30">
        <mixed-citation>
          [30]
          <string-name>
            <given-names>A.</given-names>
            <surname>Housen</surname>
          </string-name>
          ,
          <string-name>
            <given-names>F.</given-names>
            <surname>Kuiken</surname>
          </string-name>
          ,
          <string-name>
            <given-names>I. Vedder</given-names>
            , Complexity, accuracy and fluency, in: A.
            <surname>Housen</surname>
          </string-name>
          ,
          <string-name>
            <given-names>F.</given-names>
            <surname>Kuiken</surname>
          </string-name>
          , I. Vedder (Eds.).
          <article-title>Dimensions of L2 Performance and Proficiency: Complexity, Accuracy and</article-title>
          Fluency in
          <string-name>
            <surname>SLA</surname>
          </string-name>
          , John Benjamins, Amsterdam, Netherlands,
          <year>2012</year>
          , pp.
          <fpage>1</fpage>
          -
          <lpage>20</lpage>
          . doi:
          <volume>10</volume>
          .1075/lllt.32.
          <year>01hou</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref31">
        <mixed-citation>
          [31]
          <string-name>
            <given-names>N.</given-names>
            <surname>Khabbazbashi</surname>
          </string-name>
          ,
          <string-name>
            <given-names>J.</given-names>
            <surname>Xu</surname>
          </string-name>
          ,
          <string-name>
            <given-names>E. D.</given-names>
            <surname>Galaczi</surname>
          </string-name>
          ,
          <source>Opening the Black Box: Exploring Automated Speaking Evaluation</source>
          , in: B.
          <string-name>
            <surname>Lanteigne</surname>
            ,
            <given-names>C.</given-names>
          </string-name>
          <string-name>
            <surname>Coombe</surname>
          </string-name>
          , J. D. Brown (Eds.),
          <source>Challenges in Language Testing Around the World</source>
          , Springer, Singapore,
          <year>2021</year>
          , pp.
          <fpage>333</fpage>
          -
          <lpage>343</lpage>
          .
        </mixed-citation>
      </ref>
      <ref id="ref32">
        <mixed-citation>
          [32]
          <string-name>
            <given-names>A.</given-names>
            <surname>Arronte Alvarez</surname>
          </string-name>
          ,
          <string-name>
            <given-names>N. Xie</given-names>
            <surname>Fincham</surname>
          </string-name>
          ,
          <source>Automated L2 Proficiency Scoring: Weak Supervision, Large Language Models, and Statistical Guarantees</source>
          , in: E.
          <string-name>
            <surname>Kochmar</surname>
            ,
            <given-names>B.</given-names>
          </string-name>
          <string-name>
            <surname>Alhafni</surname>
            ,
            <given-names>M.</given-names>
          </string-name>
          <string-name>
            <surname>Bexte</surname>
            ,
            <given-names>J.</given-names>
          </string-name>
          <string-name>
            <surname>Burstein</surname>
            ,
            <given-names>A.</given-names>
          </string-name>
          <string-name>
            <surname>Horbach</surname>
            ,
            <given-names>R.</given-names>
          </string-name>
          <string-name>
            <surname>Laarmann-Quante</surname>
            ,
            <given-names>A.</given-names>
          </string-name>
          <string-name>
            <surname>Tack</surname>
            ,
            <given-names>V.</given-names>
          </string-name>
          <string-name>
            <surname>Yaneva</surname>
            ,
            <given-names>Z.</given-names>
          </string-name>
          Yuan (Eds.),
          <source>Proceedings of the 20th Workshop on Innovative Use of NLP for Building Educational Applications (BEA</source>
          <year>2025</year>
          ),
          <article-title>Association for Computational Linguistics</article-title>
          , Vienna,
          <year>Austria 2025</year>
          , pp.
          <fpage>384</fpage>
          -
          <lpage>397</lpage>
          .
        </mixed-citation>
      </ref>
      <ref id="ref33">
        <mixed-citation>
          [33]
          <string-name>
            <given-names>A.</given-names>
            <surname>Pack</surname>
          </string-name>
          ,
          <string-name>
            <given-names>A.</given-names>
            <surname>Barrett</surname>
          </string-name>
          ,
          <string-name>
            <given-names>J.</given-names>
            <surname>Escalante</surname>
          </string-name>
          ,
          <article-title>Large language models and automated essay scoring of English language learner writing: Insights into validity and reliability</article-title>
          ,
          <source>Computers and Education: Artificial Intelligence</source>
          <volume>6</volume>
          (
          <year>2024</year>
          )
          <article-title>100234</article-title>
          . doi:
          <volume>10</volume>
          .1016/j.caeai.
          <year>2024</year>
          .
          <volume>100234</volume>
          .
        </mixed-citation>
      </ref>
    </ref-list>
  </back>
</article>