<!DOCTYPE article PUBLIC "-//NLM//DTD JATS (Z39.96) Journal Archiving and Interchange DTD v1.0 20120330//EN" "JATS-archivearticle1.dtd">
<article xmlns:xlink="http://www.w3.org/1999/xlink">
  <front>
    <journal-meta />
    <article-meta>
      <title-group>
        <article-title>Valutazione umana di Google Traduttore e DeepL per le traduzioni di testi giornalistici dall'inglese verso l'italiano</article-title>
      </title-group>
      <contrib-group>
        <contrib contrib-type="author">
          <string-name>Mirko Tavosanis Dipartimento di Filologia</string-name>
          <email>mirko.tavosanis@unipi.it</email>
          <xref ref-type="aff" rid="aff0">0</xref>
        </contrib>
        <contrib contrib-type="author">
          <string-name>letteratura e linguistica</string-name>
          <xref ref-type="aff" rid="aff0">0</xref>
        </contrib>
        <aff id="aff0">
          <label>0</label>
          <institution>Università di Pisa Via Santa Maria 36 - 56126 Pisa PI</institution>
        </aff>
      </contrib-group>
      <abstract>
        <p />
      </abstract>
    </article-meta>
  </front>
  <body>
    <sec id="sec-1">
      <title>-</title>
      <p>Il contributo presenta una valutazione
delle prestazioni di Google Traduttore e di
DeepL attraverso le interfacce web
disponibili al pubblico. Per la valutazione è
stato usato un campione di 100 frasi tratto
da testi giornalistici in lingua inglese
tradotti in italiano. Le traduzioni prodotte
sono state valutate da esseri umani e i
risultati della valutazione sono stati
confrontati con il calcolo del punteggio
BLEU. La valutazione umana dei sistemi
automatici ha mostrato livelli di qualità
vicini a quelli della traduzione umana,
mentre il punteggio BLEU non ha mostrato
una stretta corrispondenza con la
valutazione umana.
The paper describes an assessment of the
performance of Google Translator and
DeepL when the systems are used through
their public web interfaces. The
assessment was carried on a sample of 100
sentences from English-language journalistic
texts translated into Italian. The
translation outputs were evaluated by humans
and the results of the evaluation were
compared with the calculation of the
BLEU score. Human evaluation of
machine translation has shown quality levels
very close to those of human translation,
while the BLEU score has not shown a
strict connection with human evaluation.
1</p>
    </sec>
    <sec id="sec-2">
      <title>Introduzione</title>
      <p>
        I sistemi di traduzione automatica stanno
assumendo un ruolo sempre più importante nella vita
quotidiana, da soli o integrati in altre pratiche
        <xref ref-type="bibr" rid="ref4">(Bersani Berselli 2011)</xref>
        . La loro diffusione
potrebbe anche produrre innovazioni strutturali e
trasformare in profondità alcuni settori lavorativi, a
cominciare dall’insegnamento delle lingue
straniere
        <xref ref-type="bibr" rid="ref14 ref18">(Ostler 2010; Tavosanis 2018)</xref>
        .
      </p>
      <p>
        Tuttavia, la valutazione delle effettive
prestazioni di questi sistemi rimane un problema
complesso sia dal punto di vista teorico sia dal punto
di vista pratico. Inoltre, la difficoltà di valutazione
è considerata da tempo uno dei vincoli principali
anche per lo sviluppo dei sistemi di traduzione
(
        <xref ref-type="bibr" rid="ref16">Pieraccini 2012</xref>
        , p. 275;
        <xref ref-type="bibr" rid="ref11">Hajič 2008</xref>
        , p. 85).
      </p>
      <p>
        Per la valutazione sono state sviluppate
numerose metriche di tipo automatico o
semiautomatico; la più usata in tempi recenti è stata BLEU
        <xref ref-type="bibr" rid="ref15">(Papinieni e altri, 2002)</xref>
        . Il lavoro sulle metriche è
costante e, in particolare, alla valutazione delle
metriche è dedicato uno degli degli shared tasks
delle conferenze WMT
        <xref ref-type="bibr" rid="ref9">(i risultati della più
recente sono presentati in Fourth Conference on
Machine Translation 2019, pp. 494-525)</xref>
        .
      </p>
      <p>Tuttavia, nel corso degli ultimi anni è diventato
evidente che le metriche più usate non sono in
realtà in grado di descrivere adeguatamente le
differenze e i miglioramenti di prestazioni dei
sistemi più recenti di traduzione automatica, e in
particolare di quelli basati su reti neurali. Il
problema può essere descritto in generale come
problema di scarsa correlazione tra le metriche e il
giudizio umano. Usare come punto di riferimento
il giudizio umano sembra d’altra parte del tutto
corretto dal punto di vista metodologico:
l’obiettivo dei sistemi di traduzione è principalmente
quello di fornire traduzioni che gli esseri umani
considerino di buon livello.</p>
      <p>
        In particolare, la non perfetta correlazione tra
BLEU e il giudizio umano è stata notata da tempo
        <xref ref-type="bibr" rid="ref8">(per esempio: Callison-Burch, Osborne e Koehn
2006)</xref>
        e diversi valutatori hanno ribadito la
necessità di considerare la valutazione umana come
primaria
        <xref ref-type="bibr" rid="ref7">(Callison-Burch e altri 2008, p. 72)</xref>
        . La
situazione è stata probabilmente resa meno evidente
anche dall’abitudine frequente di valutare sistemi
diversi confrontando le prestazioni tra di loro e
non su una scala assoluta; tuttavia, questa prassi
non è mai stata l’unica e i sistemi presentati nella
principale campagna di valutazione sulla
traduzione automatica, i task WMT, sono valutati solo
con giudizi assoluti, non con giudizi relativi.
      </p>
      <p>
        Il problema si è mostrato con particolare
evidenza negli ultimi anni, in seguito alla rapida
introduzione dei sistemi di traduzione basati su reti
neurali. BLEU, come i sistemi di traduzione
statistica (PB-SMT), basa il proprio funzionamento
sugli n-grammi. Si ritiene però che questo
meccanismo mostri un “inherent bias” contro i sistemi
che adottano meccanismi di traduzione non basati
su n-grammi, quali appunto i sistemi basati su reti
neurali
        <xref ref-type="bibr" rid="ref21">(Way 2018, p. 170)</xref>
        .
      </p>
      <p>
        Diverse verifiche hanno mostrato che in pratica
BLEU sottovaluta fortemente i risultati dei
sistemi di traduzione a reti neurali
        <xref ref-type="bibr" rid="ref1 ref1 ref12 ref12 ref13 ref13 ref17 ref17 ref18 ref18 ref19 ref19 ref2 ref2">(Bentivogli e altri
2018a; Shterionov e altri 2018)</xref>
        . Naturalmente, la
validità di queste verifiche può essere relativizzata
alle caratteristiche di specifici campioni. Tuttavia,
i dati oggi disponibili giustificano l’idea che
BLEU non possa essere usato come indicatore
generale di qualità di questi sistemi.
      </p>
      <p>
        In questo contesto non mancano dichiarazioni
in cui si rivendica il raggiungimento della “parità”
tra traduzione automatica e traduzione umana per
alcuni sistemi commerciali
        <xref ref-type="bibr" rid="ref1 ref12 ref13 ref17 ref18 ref19 ref2">(Hassan e altri 2018)</xref>
        .
Le verifiche indipendenti non hanno però al
momento confermato questi risultati; al contrario,
hanno evidenziato differenze significative
        <xref ref-type="bibr" rid="ref1 ref12 ref13 ref17 ref18 ref19 ref2">(Toral
e altri 2018)</xref>
        .
      </p>
      <p>Dichiarazioni del genere mostrano comunque
l’utilità di una valutazione esterna delle
prestazioni dei sistemi più usati. Anche il presente
contributo concorre a questa attività, documentando
lo stato delle cose per prodotti di ampia diffusione
e in un contesto d’uso reale per una lingua su cui
le valutazioni sono state finora piuttosto ridotte.
Alcuni testi generati con traduzione automatica
sono stati quindi sottoposti a valutazione umana,
assieme a prodotti di traduttori umani, con
l’obiettivo di:
1. fornire una valutazione umana delle
prestazioni (assolute e non relative) di due diversi
sistemi
2. confrontare i risultati della valutazione
umana con quelli della valutazione ottenuta
attraverso BLEU
2</p>
    </sec>
    <sec id="sec-3">
      <title>Il contesto della traduzione</title>
      <p>Le verifiche descritte di seguito sono state
compiute usando due sistemi liberamente accessibili
al pubblico e spesso indicati come i migliori nel
loro genere: Google Traduttore e DeepL.</p>
      <p>I due sistemi non sono forse i più utilizzati su
scala mondiale. Si può pensare che Google
Traduttore sia il sistema più comunemente usato, ma
in assenza di indicazioni ufficiali è possibile che
questo primato vada in realtà assegnato al sistema
di traduzione automatica di Facebook.</p>
      <p>
        DeepL non solo è sicuramente meno noto di
Google Traduttore, ma è probabilmente meno
usato anche di un quarto sistema di traduzione,
Microsoft Translator. Tuttavia, DeepL è
frequentemente segnalato come uno dei migliori prodotti
della sua categoria e nelle valutazioni con BLEU
ha ottenuto negli ultimi anni punteggi spesso
superiori a quelli di Google Traduttore
        <xref ref-type="bibr" rid="ref1 ref12 ref13 ref17 ref18 ref19 ref2">(Heiss e
Soffritti 2018)</xref>
        .
3
      </p>
    </sec>
    <sec id="sec-4">
      <title>Google Traduttore</title>
      <p>Le origini di Google Traduttore risalgono al
2003, quando il servizio venne lanciato con il
nome di Google Translate. In seguito il servizio è
stato rinominato, per l’italiano, come Google
Traduttore.</p>
      <p>
        Alle origini, il sistema si basava su prodotti
SYSTRAN. Già nel 2006 Google iniziò comunque a
usare un sistema di traduzione statistica
sviluppato in proprio, GSMT (Google Statistical
Machine Translation). Caratteristica di questo
sistema è l’uso dell’inglese come lingua ponte, per
cui le traduzioni tra lingue diverse dall’inglese
vengono fatte passando comunque da una
versione in lingua inglese e poi ritradotte – con un
peggioramento significativo della qualità rispetto
alle traduzioni dirette da e verso l’inglese
        <xref ref-type="bibr" rid="ref18">(una
sintesi delle fasi di sviluppo è presentata in Tavosanis
2018, pp. 95-96)</xref>
        . Le lingue coperte sono
aumentate rapidamente e, anche se nell’ultimo anno non
ne sono state aggiunte di nuove, nel luglio del
2019 risultavano in tutto 103 (la lista completa è
disponibile sul sito https://translate.google.com/),
traducibili reciprocamente per un totale di poco
più di 10.000 diverse combinazioni.
      </p>
      <p>
        Nel frattempo, Google ha sviluppato il prodotto
inserendovi caratteristiche di intelligenza
artificiale basate sull’apprendimento automatico e
sulle reti neurali. Il 15 novembre 2016 è stato
quindi annunciato il passaggio di una parte dei
servizi di Google Traduttore dal sistema GSMT a
quello GNMT (Google Neural Machine
Translation). Rispetto al precedente, GNMT ha il
vantaggio di tradurre, secondo gli sviluppatori, frase
intere e non spezzoni di frase, curando in particolare
la coesione grammaticale, che nei sistemi
precedenti non sempre veniva rispettata
        <xref ref-type="bibr" rid="ref20">(Turovsky
2016)</xref>
        . Nel marzo 2017, il sistema GNMT era già
disponibile per traduzioni tra otto lingue: inglese,
cinese, francese, tedesco, giapponese, coreano,
portoghese, spagnolo e turco. Nell’aprile dello
stesso anno è stato esteso ad altre lingue europee,
tra cui l’italiano
        <xref ref-type="bibr" rid="ref10">(Google 2017)</xref>
        .
4
      </p>
    </sec>
    <sec id="sec-5">
      <title>DeepL</title>
      <p>Realizzato dall’azienda tedesca DeepL GmbH, il
sistema di traduzione DeepL è stato reso
disponibile al pubblico nell’agosto del 2017 (sito:
https://www.deepl.com/). Rispetto a Google,
copre un numero relativamente ridotto di lingue,
tutte di origine indoeuropea: italiano, inglese,
tedesco, francese, spagnolo, portoghese, olandese,
polacco e russo. Dal punto di vista tecnico,
l’azienda ha dichiarato che il sistema di
traduzione si basa su reti neurali, ma non ha fornito
altre informazioni.
5</p>
    </sec>
    <sec id="sec-6">
      <title>Procedura di valutazione</title>
      <p>Per la valutazione del lavoro è stato usato un
corpus di articoli di quotidiani e periodici. Tale scelta
è stata fatta in base a diversi fattori:
•
•</p>
      <sec id="sec-6-1">
        <title>Importanza, in quanto l’italiano giornalistico è centrale nell’architettura dell’italiano contemporaneo (Bonomi 2002, Berruto 2012)</title>
        <p>Verosimiglianza, in quanto la
traduzione di articoli di questo tipo è un
impiego realistico dei sistemi descritti,
nella loro versione rivolta all’utente
generico e resa disponibile attraverso
un’interfaccia web
•
•</p>
      </sec>
      <sec id="sec-6-2">
        <title>Disponibilità, in quanto è facile otte</title>
        <p>nere ragionevoli quantitativi di articoli
in doppia versione, originali e tradotti
Praticità, in quanto le traduzioni degli
articoli spesso hanno una
corrispondenza 1:1 tra le frasi del testo originale
e quelle del testo tradotto.</p>
        <p>
          Il lavoro è stato condotto su un campione di 100
frasi, valutate separatamente (da valutatori
diversi) per l’adeguatezza (adequacy) e per la
fluenza (fluency). Anche se i risultati delle
verifiche WMT hanno confermato la maggior rilevanza
dell’adeguatezza
          <xref ref-type="bibr" rid="ref1 ref12 ref13 ref17 ref18 ref19 ref2">(Bentivogli e altri 2018b: 62)</xref>
          , le
due valutazioni diverse sono state conservate per
verificare l’esistenza di differenze nei prodotti
commerciali. Va comunque notato che dal punto
di vista dell’adeguatezza, nonostante sia
teoricamente possibile che una frase tradotta con sistemi
a reti neurali non abbia nulla a che fare
contenutisticamente con il testo di partenza, nella pratica
non si è prodotto nessun caso di questo genere.
        </p>
        <p>Le scale utilizzate sono state:
Adeguatezza
1.
2.
3.
4.
5.
1.
2.
3.
4.
5.</p>
      </sec>
      <sec id="sec-6-3">
        <title>Fluenza</title>
        <p>Il contenuto informativo dell’originale è
stato completamente alterato
È stata trasmessa una parte del contenuto
informativo, ma non la più importante
Circa metà del contenuto informativo è
stata trasmessa
La parte più importante del contenuto
informativo originale è stata trasmessa
Il contenuto informativo è stato tradotto
completamente</p>
      </sec>
      <sec id="sec-6-4">
        <title>Impossibile da ricondurre alla norma</title>
        <p>Con più di due errori morfosintattici
Con non più di due errori morfosintattici
e/o molti usi insoliti di collocazioni
Con non più di un errore morfosintattico
e/o un uso insolito di collocazioni</p>
        <p>Del tutto corretta
All’interno del campione sono state inserite
casualmente frasi provenienti da un corpus di 15
articoli di quotidiani e periodici, scelti casualmente
sulla base della disponibilità online sia del testo
originale sia di una traduzione in lingua italiana.
In alcuni casi, le traduzioni umane prese in esame
sono opera di volontari ma sono comunque di
buon livello qualitativo. I testi originali in inglese
sono stati ripuliti e sottoposti alle interfacce web
di Google Traduttore e DeepL. Poiché queste
interfacce, nella versione liberamente accessibile,
accettano testi di una lunghezza massima di 5000
caratteri, i testi più lunghi sono stati scomposti in
blocchi di lunghezza inferiore, rispettando i
confini di frase (e spesso di capoverso). I blocchi
stessi sono stati poi sottoposti individualmente ai
sistemi.</p>
        <p>Al termine della procedura, per ogni articolo
erano quindi disponibili:</p>
      </sec>
      <sec id="sec-6-5">
        <title>1. Il testo originale in lingua inglese 2. La traduzione umana 3. La traduzione prodotta da Google 4. La traduzione prodotta da DeepL</title>
        <p>
          Le frasi da esaminare sono state selezionate in
modo causale. Sono poi state sottoposte ai
valutatori in ordine casuale e senza indicazioni sulla loro
origine: i valutatori non avevano quindi elementi
esterni per decidere se l’origine di una singola
frase era un traduttore umano, DeepL o Google.
Nella valutazione per adeguatezza le frasi erano
accompagnate dal testo originale in lingua
inglese, secondo l’orientamento DA-src
          <xref ref-type="bibr" rid="ref1 ref12 ref13 ref17 ref18 ref19 ref2">(Bentivogli
e altri 2018b: 62)</xref>
          , mentre nella valutazione per
fluenza era disponibile solo il testo italiano. La
valutazione è stata eseguita su carta, in condizioni
controllate, per un tempo medio di un’ora per ogni
campione.
        </p>
        <p>I valutatori sono stati complessivamente 14: 6
hanno valutato l’adeguatezza, 8 la fluenza. La
valutazione della fluenza è stata condotta su un
campione più esteso di 147 frasi, per rendere la
lunghezza dell’attività paragonabile a quella della
valutazione dell’adeguatezza. Ai fini della
valutazione sono state tuttavia usate solo le 100 frasi
coincidenti con frasi valutate per adeguatezza.</p>
        <p>Il gruppo dei valutatori era interamente formato
da studenti del corso di laurea magistrale in
Informatica umanistica dell’Università di Pisa. Tutti i
valutatori avevano l’italiano come lingua madre e
disponevano di una conoscenza della lingua
inglese di livello B2 o superiore. Nessuno di loro
aveva esperienza di attività redazionale o di
revisione di traduzioni e nessuno è stato coinvolto
nella fase di scelta e preparazione degli articoli.</p>
        <p>Per migliorare l’omogeneità del risultato, una
settimana prima della valutazione vera e propria è
stata fatta una sessione di prova con i valutatori
interessati. In questa sessione sono state valutate
frasi diverse da quelle esaminate in seguito. I
punteggi assegnati sono stati discussi sulla base dei
testi, cercando di arrivare quanto più possibile alla
condivisione di parametri per il lavoro effettivo.
6</p>
      </sec>
    </sec>
    <sec id="sec-7">
      <title>Esito della valutazione</title>
      <p>Nel giudizio finale la varianza dei giudizi è stata
piuttosto ridotta. Le medie della varianza
calcolata su ogni singola frase sono state infatti:</p>
      <sec id="sec-7-1">
        <title>Google DeepL Umano Totale</title>
        <p>Tabella 1: Varianza media nei giudizi per frasi.
Per quanto riguarda la fluenza, la varianza
massima (0,1728) si è avuta nei giudizi per questa
traduzione, con sei punteggi 4 e due punteggi 3:</p>
        <p>Originale: As Rahme served a frugal dish of
rice in vine leaves, her son unspooled a familiar
Palestinian narrative.</p>
        <p>Traduzione DeepL: Mentre Rahme serviva un
frugale piatto di riso in foglie di vite, suo figlio ha
sboccato un racconto familiare palestinese.
Più consistente è stata la varianza massima per
l’adeguatezza, con due frasi che hanno ottenuto il
livello di 1,9592:</p>
        <p>Originale: And though people can be induced
to use social media addictively, while ordering
Deliveroo night after night, pausing only to take
an Uber to the pub, wedding addiction remains a
rarity.</p>
        <p>Traduzione Google: E anche se le persone
possono essere indotte a usare i social media in modo
assopito, mentre ordinano Deliveroo notte dopo
notte, facendo una pausa solo per portare un Uber
al pub, la dipendenza da matrimonio rimane una
rarità.</p>
        <p>Originale: And now the Trump administration,
having failed to repeal the ACA when
Republicans controlled Congress, is suing to have the
whole thing declared unconstitutional in court –
because what could be a better way to start off the
2020 campaign than taking insurance away from
20 million Americans?</p>
        <p>Traduzione umana: E ora l’amministrazione
Trump, non essendo riuscita ad abrogare l’ACA
quando i repubblicani controllavano il Congresso,
sta facendo causa per far dichiarare l’intera cosa
incostituzionale in tribunale - perché quale modo
migliore di togliere l’assicurazione a 20 milioni di
americani per iniziare la campagna del 2020?
non mancano i casi di frasi tradotte in modo molto
insoddisfacente, come questa (valutazione media
1,43):
Le frasi oggetto di valutazione sono state poi
riassemblate in tre diversi documenti, a seconda
dell’origine, ed è stato calcolato il punteggio
BLEU per i prodotti della traduzione automatica,
confrontati con la traduzione umana. La
valutazione risultante è stata:
e
r
o
t
t
u
d
a
r</p>
        <p>T</p>
      </sec>
      <sec id="sec-7-2">
        <title>Google</title>
        <p>DeepL
Umano
i
s
a
r
f
.</p>
        <p>N</p>
        <p>Tabella 2: Valutazione complessiva delle
traduzioni.</p>
        <p>Per la fluenza, va notato che il punteggio 5 è stato
assegnato all’unanimità solo a pochissime frasi.
Tuttavia, alcune frasi sia di Google sia di DeepL
hanno ottenuto questo punteggio massimo, cosa
che viceversa non è successa per le traduzioni
umane. Questo giudizio è stato assegnato
soprattutto a frasi brevi, ma non solo a esse. Per
esempio, sono state valutate 5 queste traduzioni:</p>
        <p>Originale: Which is weird, because the truth is
that everyone’s judging everyone else’s
relationships all the time.</p>
        <p>Traduzione DeepL: Il che è strano, perché la
verità è che tutti giudicano sempre le relazioni
altrui.</p>
        <p>Originale: In an attempt to avert this awful fate,
the American Medical Association launched what
it called Operation Coffee Cup, a pioneering
attempt at viral marketing.</p>
        <p>Traduzione Google: Nel tentativo di
scongiurare questo terribile destino, l’American Medical
Association lanciò quella che chiamò Operation
Coffee Cup, un tentativo pionieristico di
marketing virale.
7</p>
      </sec>
    </sec>
    <sec id="sec-8">
      <title>Esame dei risultati</title>
      <p>In risposta alle domande presentate nel paragrafo
1 è innanzitutto notevole l’alto livello raggiunto
da entrambi i sistemi. Nessuno dei due può essere
considerato all’altezza della traduzione umana, e
Originale: If you are used to the
boil-themwhole, admire, tug-leaf-by-leaf,
scape-with-bottom-teeth school of artichoke preparation and
eating, it comes as a shock when you first see
Romans deal, in typically direct style, with their
favourite vegetable.</p>
      <p>Traduzione Google: Se sei abituato a bollire
tutto, ammira, rimorchia la foglia per pianta,
scolpisci i denti di fondo con la preparazione e il
consumo di carciofo, diventa un vero shock quando
vedi per la prima volta i romani, in genere stile
diretto, con il loro vegetale preferito.</p>
      <p>Tuttavia, nel complesso, colpisce che per esempio
per l’adeguatezza la distanza relativa tra la
traduzione umana e DeepL sia pari solo al 6,5%. Il
dislivello per quanto riguarda la fluenza è maggiore,
ma rimane comunque molto contenuto.</p>
      <p>I dati confermano inoltre la superiorità delle
prestazioni di DeepL già segnalata da diverse
fonti, anche se la differenza con Google è molto
contenuta. Il margine relativo di vantaggio di
DeepL è infatti solo del 3,5% per l’adeguatezza e
dell’1% per la fluenza.</p>
      <p>Va notato che la differenza nella composizione
del campione potrebbe spiegare parte dei risultati;
all’interno di eventuali prove future sarebbe
sicuramente opportuno sottoporre alla valutazione
campioni omogenei. Tuttavia, per esempio, la
lunghezza media delle frasi, che influenza in negativo
la qualità della traduzione automatica, non solo è
molto simile nei due campioni, ma è superiore nel
caso del sistema che ha ottenuto la valutazione più
alta. Il campione usato per DeepL ha infatti una
lunghezza media di 25,79 token per frase, mentre
in quello usato per Google il valore equivalente è
di 25,03.</p>
      <p>Per quanto riguarda BLEU, la correlazione con
la valutazione umana risulta davvero debole. Il
ridotto scarto tra Google e DeepL nella valutazione
umana diventa infatti una differenza relativa del
22% con BLEU.</p>
      <p>
        Soprattutto, però, è notevole la differenza
rispetto ai punteggi BLEU per la traduzione umana
spesso indicati in bibliografia
        <xref ref-type="bibr" rid="ref15">(Papinieni e altri
2002)</xref>
        , che si aggirano attorno a 0,6. Per DeepL
questo corrisponderebbe a una differenza relativa
del 45,8%, difficile da considerare rappresentativa
della differenza tra i risultati su una scala di
giudizio assoluta.
      </p>
      <p>
        Va inoltre notato che negli ultimi anni i
punteggi BLEU di sistemi come Google o Microsoft
Translator si sono spesso collocati tra 0,2 e 0,4
        <xref ref-type="bibr" rid="ref18">(Tavosanis 2018)</xref>
        . In questo contesto, se il
punteggio di DeepL è piuttosto elevato, quello di Google
si avvicina alla media.
8
      </p>
    </sec>
    <sec id="sec-9">
      <title>Conclusioni e sviluppi futuri</title>
      <p>Il lavoro descritto qui rappresenta una delle prime
concretizzazioni di un progetto più ampio,
dedicato a studiare le possibilità di inserimento
strutturale dei traduttori automatici nella pratica
didattica delle lingue partendo dall’analisi delle
prestazioni e della possibilità di integrare facilmente i
prodotti nel percorso di un traduttore in
formazione. Nel giro di pochi mesi dovrebbero essere
quindi disponibili valutazioni più estese. Per la
traduzione italiana, queste valutazioni potrebbero
essere di particolare interesse, considerando non
solo la rapidità dei miglioramenti recenti ma
anche il fatto che l’italiano è stato relativamente
poco rappresentato nelle analisi condotte finora.</p>
      <p>
        Per gli sviluppi futuri, l’aver preso in esame un
unico genere testuale, per quanto variato, è un
limite evidente dell’analisi
        <xref ref-type="bibr" rid="ref6">(Burchardt e altri 2017:
159-160)</xref>
        : l’estensione della valutazione a
tipologie diverse rispetto all’articolo di quotidiano o
periodico potrebbe facilmente portare a risultati
molto diversi da quelli descritti qui. L’inclusione
di altri generi testuali rappresenta quindi
senz’altro il requisito più importante nella progettazione
di un lavoro di valutazione su scala più estesa. In
quest’ottica, sembra particolarmente interessante
l’estensione del lavoro a testi specialistici.
      </p>
    </sec>
  </body>
  <back>
    <ref-list>
      <ref id="ref1">
        <mixed-citation>
          <string-name>
            <surname>Bentivogli</surname>
          </string-name>
          , Luisa, e altri (
          <year>2018a</year>
          ).
          <article-title>Neural versus phrase-based mt quality: An in-depth analysis on english-german and english-french</article-title>
          .
          <source>In Computer Speech &amp; Language</source>
          , 49, pp.
          <fpage>52</fpage>
          -
          <lpage>70</lpage>
          .
        </mixed-citation>
      </ref>
      <ref id="ref2">
        <mixed-citation>
          <string-name>
            <surname>Bentivogli</surname>
          </string-name>
          , Luisa, e altri (
          <year>2018b</year>
          ).
          <article-title>Machine Translation Human Evaluation: an investigation of evaluation based on Post-Editing and its relation with Direct Assessment</article-title>
          .
          <source>In Proceedings of the 15th International Workshop on Spoken Language Translation</source>
          , Iwslt, pp.
          <fpage>62</fpage>
          -
          <lpage>69</lpage>
          .
        </mixed-citation>
      </ref>
      <ref id="ref3">
        <mixed-citation>
          <string-name>
            <surname>Berruto</surname>
          </string-name>
          ,
          <string-name>
            <surname>Gaetano</surname>
          </string-name>
          (
          <year>2012</year>
          ).
          <article-title>Sociolinguistica dell'italiano contemporaneo</article-title>
          .
          <source>Nuova edizione</source>
          . Roma: Carocci.
        </mixed-citation>
      </ref>
      <ref id="ref4">
        <mixed-citation>
          <string-name>
            <given-names>Bersani</given-names>
            <surname>Berselli</surname>
          </string-name>
          ,
          <source>Gabriele (a cura di</source>
          ,
          <year>2011</year>
          ),
          <article-title>Usare la traduzione automatica</article-title>
          . Bologna: CLUEB.
        </mixed-citation>
      </ref>
      <ref id="ref5">
        <mixed-citation>
          <string-name>
            <surname>Bonomi</surname>
          </string-name>
          ,
          <string-name>
            <surname>Ilaria</surname>
          </string-name>
          (
          <year>2002</year>
          ).
          <article-title>L'italiano giornalistico. Dall'inizio del '900 ai quotidiani online</article-title>
          .
          <source>Firenze: Cesati.</source>
        </mixed-citation>
      </ref>
      <ref id="ref6">
        <mixed-citation>
          <string-name>
            <surname>Burchardt</surname>
          </string-name>
          , Aljoscha, e altri (
          <year>2017</year>
          ).
          <article-title>A Linguistic Evaluation of Rule-Based, Phrase-Based, and Neural MT Engines</article-title>
          .
          <source>In The Prague Bulletin of Mathematical Linguistics</source>
          ,
          <volume>108</volume>
          , pp.
          <fpage>159</fpage>
          -
          <lpage>70</lpage>
          .
        </mixed-citation>
      </ref>
      <ref id="ref7">
        <mixed-citation>
          <string-name>
            <surname>Callison-Burch</surname>
          </string-name>
          , Chris, e altri (
          <year>2008</year>
          ).
          <article-title>Further metaevaluation of machine translation</article-title>
          .
          <source>In Proceedings of the third workshop on statistical machine translation</source>
          ,
          <source>Association for Computational Linguistics</source>
          , pp.
          <fpage>70</fpage>
          -
          <lpage>106</lpage>
          .
        </mixed-citation>
      </ref>
      <ref id="ref8">
        <mixed-citation>
          <string-name>
            <surname>Callison-Burch</surname>
          </string-name>
          , Chris, Miles Osborne e Philipp Koehn (
          <year>2006</year>
          ).
          <article-title>Re-evaluation the role of BLEU in machine translation research</article-title>
          .
          <source>In 11th Conference of the European Chapter of the Association for Computational Linguistics, Association for Computational Linguistics</source>
          , pp.
          <fpage>249</fpage>
          -
          <lpage>256</lpage>
          .
        </mixed-citation>
      </ref>
      <ref id="ref9">
        <mixed-citation>
          <source>Fourth Conference on Machine Translation</source>
          (
          <year>2019</year>
          ),
          <source>Proceedings of the Conference</source>
          , Volume
          <volume>2</volume>
          :
          <string-name>
            <given-names>Shared</given-names>
            <surname>Task</surname>
          </string-name>
          <string-name>
            <given-names>Papers</given-names>
            , Day 1,
            <surname>Stroudsburg</surname>
          </string-name>
          , ACL &lt;http://www.statmt.org/wmt19/pdf/53/WMT2019-2.pdf&gt;.
        </mixed-citation>
      </ref>
      <ref id="ref10">
        <mixed-citation>
          <string-name>
            <surname>Google</surname>
          </string-name>
          (
          <year>2017</year>
          ).
          <article-title>Translation API Language Support</article-title>
          . Sito Google &lt;https://cloud.google.com/translate/docs/languages&gt;.
        </mixed-citation>
      </ref>
      <ref id="ref11">
        <mixed-citation>
          <string-name>
            <surname>Hajič</surname>
          </string-name>
          ,
          <string-name>
            <surname>Jan</surname>
          </string-name>
          (
          <year>2008</year>
          ).
          <article-title>Linguistics Meets the Exact Sciences</article-title>
          .
          <article-title>In A companion to digital humanities, a cura di Susan Schreibman</article-title>
          , Ray Siemens e John Unsworth, Hoboken, John Wiley &amp; Sons, pp.
          <fpage>79</fpage>
          -
          <lpage>87</lpage>
          .
        </mixed-citation>
      </ref>
      <ref id="ref12">
        <mixed-citation>
          <string-name>
            <surname>Hassan</surname>
          </string-name>
          , Hany, e altri (
          <year>2018</year>
          ).
          <article-title>Achieving human parity on automatic Chinese to English news translation</article-title>
          . arXiv preprint arXiv:
          <year>1803</year>
          .
          <volume>05567</volume>
          (
          <year>2018</year>
          ).
        </mixed-citation>
      </ref>
      <ref id="ref13">
        <mixed-citation>
          <string-name>
            <surname>Heiss</surname>
          </string-name>
          , Christine e Marcello Soffritti (
          <year>2018</year>
          ).
          <article-title>DeepL Traduttore e didattica della traduzione dall'italiano in tedesco-alcune valutazioni preliminari. In Translation and Interpreting for Language Learners (TAIL). Lessons in honour of Guy Aston, Anna Ciliberti, Daniela Zorzi, a cura di Laurie Anderson</article-title>
          , Laura Gavioli e Federico Zanettin, Milano, AItLA, pp.
          <fpage>241</fpage>
          -
          <lpage>258</lpage>
          .
        </mixed-citation>
      </ref>
      <ref id="ref14">
        <mixed-citation>
          <string-name>
            <surname>Ostler</surname>
          </string-name>
          ,
          <string-name>
            <surname>Nicholas</surname>
          </string-name>
          (
          <year>2010</year>
          ).
          <article-title>The Last Lingua Franca</article-title>
          .
          <article-title>English until the Return of Babel</article-title>
          . Londra: Allen Lane.
        </mixed-citation>
      </ref>
      <ref id="ref15">
        <mixed-citation>
          <string-name>
            <surname>Papinieni</surname>
          </string-name>
          , Kishore, e altri (
          <year>2002</year>
          ).
          <article-title>BLEU: A Method for Automatic Evaluation of Machine Translation</article-title>
          . In ACL-2002:
          <article-title>40th Annual Meeting of the Association for Computational Linguistics</article-title>
          ,
          <string-name>
            <surname>ACL</surname>
          </string-name>
          , Stroudsburg, pp.
          <fpage>311</fpage>
          -
          <lpage>8</lpage>
          .
        </mixed-citation>
      </ref>
      <ref id="ref16">
        <mixed-citation>
          <string-name>
            <surname>Pieraccini</surname>
          </string-name>
          ,
          <string-name>
            <surname>Roberto</surname>
          </string-name>
          (
          <year>2012</year>
          ).
          <article-title>The Voice in the Machine</article-title>
          .
          <source>Building Computers that Understand Speech</source>
          . Boston: MIT Press.
        </mixed-citation>
      </ref>
      <ref id="ref17">
        <mixed-citation>
          <string-name>
            <surname>Shterionov</surname>
          </string-name>
          , Dimitar, e altri (
          <year>2018</year>
          ).
          <article-title>Human versus automatic quality evaluation of NMT and PBSMT</article-title>
          .
          <source>In Machine Translation</source>
          ,
          <volume>32</volume>
          ,
          <issue>3</issue>
          , pp.
          <fpage>217</fpage>
          -
          <lpage>235</lpage>
          .
        </mixed-citation>
      </ref>
      <ref id="ref18">
        <mixed-citation>
          <string-name>
            <surname>Tavosanis</surname>
          </string-name>
          ,
          <string-name>
            <surname>Mirko</surname>
          </string-name>
          (
          <year>2018</year>
          ).
          <article-title>Lingue e intelligenza artificiale</article-title>
          . Roma: Carocci.
        </mixed-citation>
      </ref>
      <ref id="ref19">
        <mixed-citation>
          <string-name>
            <surname>Toral</surname>
          </string-name>
          , Antonio, e altri (
          <year>2018</year>
          ).
          <article-title>Attaining the unattainable? Reassessing claims of human parity in neural machine translation</article-title>
          .
          <source>arXiv preprint arXiv:1808</source>
          .10432.
        </mixed-citation>
      </ref>
      <ref id="ref20">
        <mixed-citation>
          <string-name>
            <surname>Turovsky</surname>
          </string-name>
          ,
          <string-name>
            <surname>Barak</surname>
          </string-name>
          (
          <year>2016</year>
          ).
          <article-title>Found in translation: More accurate, fluent sentences in Google Translate</article-title>
          . Google Blog &lt;https://www.blog.google/products/translate/found-translation
          <article-title>-more-accurate-fluent-sentences-google-translate/&gt;.</article-title>
        </mixed-citation>
      </ref>
      <ref id="ref21">
        <mixed-citation>
          <string-name>
            <surname>Way</surname>
          </string-name>
          ,
          <string-name>
            <surname>Andy</surname>
          </string-name>
          (
          <year>2018</year>
          ).
          <article-title>Quality expectations of machine translation</article-title>
          .
          <source>In Translation Quality Assessment</source>
          , Springer, Cham, pp.
          <fpage>159</fpage>
          -
          <lpage>178</lpage>
          .
        </mixed-citation>
      </ref>
    </ref-list>
  </back>
</article>