<!DOCTYPE article PUBLIC "-//NLM//DTD JATS (Z39.96) Journal Archiving and Interchange DTD v1.0 20120330//EN" "JATS-archivearticle1.dtd">
<article xmlns:xlink="http://www.w3.org/1999/xlink">
  <front>
    <journal-meta />
    <article-meta>
      <title-group>
        <article-title>Valutazione umana di DeepL a livello di frase per le traduzioni di testi specialistici dall'inglese verso l'italiano</article-title>
      </title-group>
      <contrib-group>
        <contrib contrib-type="author">
          <string-name>letteratura e linguistica</string-name>
          <xref ref-type="aff" rid="aff0">0</xref>
        </contrib>
        <aff id="aff0">
          <label>0</label>
          <institution>Università di Pisa Via Santa Maria 36 - 56126 Pisa PI</institution>
        </aff>
      </contrib-group>
      <abstract>
        <p />
      </abstract>
    </article-meta>
  </front>
  <body>
    <sec id="sec-1">
      <title>-</title>
      <p>Il contributo presenta una valutazione
delle prestazioni di DeepL nella
traduzione di testi specialistici dall’inglese
all’italiano. La valutazione è stata
condotta a livello di frase, su un campione di
108 frasi tratte da testi relativi ad
ambiente, energia, biomedicina e discipline
del farmaco, e le traduzioni prodotte sono
state valutate da traduttori in formazione
dotati di competenze disciplinari. La
traduzione di DeepL ha ottenuto una
valutazione statisticamente pari a quella della
traduzione umana per quanto riguarda
l’adeguatezza e leggermente inferiore per
quanto riguarda la scorrevolezza. La
traduzione automatica dei testi ha inoltre
ricevuto un punteggio superiore a quello
ottenuto, con modalità simili, dalla
traduzione automatica di testi giornalistici.
The paper presents an evaluation of the
performance of DeepL in the translation
of specialized texts from English to
Italian. The evaluation was carried out at
sentence level, on a sample of 108 sentences
1 Copyright © 2020 for this paper by its authors. Use
permitted under Creative Commons License
Attribution 4.0 International (CC BY 4.0).</p>
      <p>Il testo è stato concepito unitariamente dagli autori, ma
ai fini della ripartizione del lavoro si dichiara che sono
opera di Sirio Papa i paragrafi 4, 7 e 8 e di Mirko
Tavosanis i restanti paragrafi.
taken from texts relating to the
environment, energy, bio-medicine and drug
science, and the translations produced were
evaluated by translators in training, with
disciplinary skills. The translation by
DeepL was statistically rated at the same
level of human translation in terms of
adequacy and slightly lower in terms of
fluency. Machine translation of the texts also
received a higher score than that obtained
in another analysis, carried out in a similar
way, by machine translation of
journalistic texts.
1</p>
    </sec>
    <sec id="sec-2">
      <title>Introduzione</title>
      <p>La valutazione delle effettive prestazioni dei
sistemi di traduzione automatica continua a essere
un problema complesso sia dal punto di vista
teorico sia dal punto di vista pratico.</p>
      <p>
        Dal punto di vista pratico, è oggi evidente che
le metriche di valutazione più usate dopo il
Duemila, e in particolare BLEU, non sono in realtà in
grado di descrivere adeguatamente le differenze e
i miglioramenti di prestazioni dei sistemi oggi in
uso, e in particolare di quelli basati su reti neurali
        <xref ref-type="bibr" rid="ref13 ref13 ref14 ref14 ref15 ref16 ref16 ref2 ref2 ref3 ref3 ref6 ref6 ref8 ref8 ref9 ref9">(Bentivogli e altri 2018a; Shterionov e altri 2018;
Tavosanis 2019)</xref>
        . Metriche proposte più di
recente, come BERTScore, devono ancora essere
valutate a fondo e sembrano comunque fornire
risultati molto simili a quelli di BLEU
        <xref ref-type="bibr" rid="ref12 ref17 ref7">(Zhang e altri
2020)</xref>
        . Si è quindi ritenuto metodologicamente
Per la collaborazione generosamente prestata, si
ringraziano le professoresse Silvia Barra e Isabella Blum e
gli studenti del Master online in Traduzione
specialistica inglese &gt; italiano realizzato dalle università di
Genova e Pisa ed erogato dal Consorzio ICoN.
opportuno non usarle per questa valutazione,
nemmeno come termine di confronto.
      </p>
      <p>
        L’unico tipo di valutazione soddisfacente, a
oggi, resta quindi quello condotto da valutatori
umani. Non tutti i tipi di valutazione umana sono
ugualmente soddisfacenti e affidabili. Le
valutazioni condotte attraverso crowdsourcing da
individui di cui non sono note le competenze
assegnano per esempio alla traduzione automatica,
sistematicamente, punteggi più alti rispetto a quelli
assegnati da persone con provata competenza
nella valutazione di traduzioni
        <xref ref-type="bibr" rid="ref11 ref12 ref17 ref4 ref5 ref7">(Castilho e altri
2017a; Läubli e altri 2020: 658)</xref>
        .
      </p>
      <p>
        In questo contesto non mancano dichiarazioni
in cui si rivendica il raggiungimento della “parità”
tra traduzione automatica e traduzione umana per
alcuni sistemi commerciali
        <xref ref-type="bibr" rid="ref13 ref14 ref16 ref2 ref3 ref6 ref8 ref9">(Hassan e altri 2018)</xref>
        .
Le verifiche indipendenti in alcuni casi hanno
confermato questi risultati, ma in altri hanno
evidenziato differenze significative
        <xref ref-type="bibr" rid="ref13 ref14 ref16 ref2 ref3 ref6 ref8 ref9">(Toral e altri
2018)</xref>
        . Questa incertezza è poi in buona parte
riconducibile alle circostanze della valutazione, che
possono essere molto diverse tra di loro.
      </p>
      <p>
        Il presente contributo punta a fornire ulteriori
risultati inserendosi nel percorso di ricerca
descritto in
        <xref ref-type="bibr" rid="ref15">Tavosanis (2019)</xref>
        , rispetto al quale
rinforza il metodo di indagine e varia la tipologia
testuale di riferimento. In
        <xref ref-type="bibr" rid="ref15">Tavosanis (2019)</xref>
        le
valutazioni sono state eseguite su testi giornalistici;
nel presente contributo sono stati invece scelti
testi specialistici. La valutazione punta in primo
luogo a valutare la qualità delle traduzioni
specialistiche in sé e in secondo luogo a vedere se i
punteggi assegnati alle traduzioni specialistiche sono
superiori o inferiori a quelli assegnati alle
traduzioni di testi giornalistici. La traduzione
automatica viene infatti normalmente usata su testi
appartenenti a generi molto diversi, e valutare un unico
genere è senz’altro molto limitante.
        <xref ref-type="bibr" rid="ref11 ref4 ref5">(Burchardt e
altri 2017: 159-160)</xref>
        .
      </p>
      <p>
        In particolare, date le sensibili differenze
linguistiche tra i testi specialistici e i testi non
specialistici, sembra verosimile che la stessa
tecnologia di traduzione possa produrre risultati molto
diversi nei due casi. Assicurare la qualità di
traduzioni di testi provenienti da domini diversi è stato
quindi considerato un problema fin dalla prima
diffusione dei sistemi basati su reti neurali. Koehn
e Knowles (2017: 29), per esempio, notando che
“in different domains, words have different
translations and meaning is expressed in different
styles”, presentano il domain mismatch come prima
“sfida” per questi sistemi: nelle loro valutazioni,
in questi contesti la NMT otteneva risultati
inferiori a quelli dei sistemi SMT. Sembra inoltre
diffusa l’idea che un sistema di traduzione a reti
neurali generalista produca risultati di bassa qualità se
applicato a testi specialistici
        <xref ref-type="bibr" rid="ref12 ref17 ref7">(Chu e Wang 2020:
413)</xref>
        . La domain adaptation è quindi un
importante settore di sviluppo per la NMT
        <xref ref-type="bibr" rid="ref13 ref14 ref16 ref2 ref3 ref6 ref8 ref9">(Chu e Wang
2018)</xref>
        . Sono però rare, e quasi assenti per
l’italiano, le valutazioni condotte con valutatori
umani.
2
      </p>
    </sec>
    <sec id="sec-3">
      <title>Il sistema valutato</title>
      <p>
        Le verifiche descritte di seguito sono state
compiute usando le traduzioni generate dal sistema
DeepL, che è frequentemente segnalato come uno
dei migliori prodotti della sua categoria. In
particolare, nelle valutazioni comparative DeepL ha
ottenuto negli ultimi anni punteggi spesso
superiori a quelli di Google Traduttore
        <xref ref-type="bibr" rid="ref13 ref14 ref14 ref15 ref16 ref2 ref3 ref6 ref8 ref9">(Heiss e
Soffritti 2018; Tavosanis 2018; Tavosanis 2019)</xref>
        .
      </p>
      <p>Realizzato dall’azienda tedesca DeepL GmbH,
DeepL è stato reso disponibile al pubblico
nell’agosto del 2017 (sito:
https://www.deepl.com/). Nell’ottobre 2020, il
sistema copre un numero relativamente ridotto di
lingue: undici in tutto, principalmente
indoeuropee (italiano, inglese, tedesco, francese, spagnolo,
portoghese, olandese, polacco e russo), con
l’aggiunta di giapponese e cinese. Dal punto di vista
tecnico, l’azienda ha dichiarato che il sistema di
traduzione si basa su reti neurali, ma non ha
fornito informazioni più specifiche.</p>
      <p>Per quanto riguarda il rapporto con i domini,
l’azienda non fornisce nessuna indicazione
specifica. Si può quindi ipotizzare che il sistema sia
generalista e non specializzato.
3</p>
    </sec>
    <sec id="sec-4">
      <title>Composizione del corpus</title>
      <p>Per la valutazione del lavoro è stato usato un
corpus di testi specialistici di vario genere, composto
da testi selezionati casualmente da due docenti del
Master online in Traduzione specialistica inglese
&gt; italiano erogato congiuntamente dalle
Università di Genova e Pisa e gestito dal Consorzio ICoN
(http://www.traduzione.icon-master.it/).</p>
      <p>I testi sono stati scelti dalle docenti di due dei
domini trattati dal Master: Ambiente ed energia
(professoressa Silvia Barra) e Biomedicina e
discipline del farmaco (professoressa Isabella
Blum). In tutti i casi dovevano essere disponibili
sia il testo originale sia una traduzione
professionale in lingua italiana realizzata da esseri umani.
Le tipologie testuali sono state selezionate in
modo da renderle rappresentative dell’ampia
gamma di testi specialistici effettivamente trattati
nel Master: manuali, articoli scientifici, brevetti,
schede di sicurezza. La definizione di “testo
specialistico” è naturalmente piuttosto arbitraria, e
comprende diverse tipologie testuali e diversi
generi testuali. Tuttavia, è sembrato perfettamente
adeguato agli scopi della valutazione riprendere i
tipi di testo usati nella formazione dei traduttori
umani professionali, senza distinzioni ulteriori.
4</p>
    </sec>
    <sec id="sec-5">
      <title>Formazione del campione</title>
      <p>Il campione da esaminare è stato costruito
innanzitutto sottoponendo a DeepL, nella loro
interezza, i testi selezionati; la traduzione è stata
eseguita nel giugno del 2020. Dagli stessi testi sono
poi state selezionate casualmente 108 frasi, 40
provenienti dal dominio Ambiente ed energia e 68
dal dominio Biomedicina e discipline del
farmaco; la distribuzione per dominio è
proporzionale alla consistenza del rispettivo corpus. Si è
ritenuto che non fosse possibile indicare a priori
uno dei due domini come più difficile da tradurre
rispetto all’altro e che quindi non fosse necessario
bilanciare la composizione. Nella selezione sono
state evitate le frasi ripetute e quelle nominali o
disposte in tabella o in elenco.</p>
      <p>
        La dimensione del campione è ridotta rispetto a
quello di campagne di valutazione recenti come
Intento, che ha preso in esame 500 “segmenti” per
numerose coppie di lingue e numerosi domini
        <xref ref-type="bibr" rid="ref10">(Intento 2020)</xref>
        . Tuttavia, Intento ha valutato le frasi
usando il sistema automatico BERTScore,
menzionato al § 1, senza ricorrere a valutatori umani.
La dimensione del campione usato qui è invece
simile a quelle dei campioni usati in altre
esperienze con valutatori umani, condotte per esempio
con 150 frasi
        <xref ref-type="bibr" rid="ref13 ref14 ref16 ref2 ref3 ref6 ref8 ref9">(Hassan e altri 2018)</xref>
        , 299 frasi
        <xref ref-type="bibr" rid="ref12 ref17 ref7">(Läubli e altri 2020: 657)</xref>
        , 104 frasi
        <xref ref-type="bibr" rid="ref12 ref17 ref7">(Läubli e altri
2020: 658-659)</xref>
        , e così via.
      </p>
      <p>Le dimensioni complessive del campione sono
state di 2.826 token (1664 per Biomedicina e 1162
per Ambiente). La lunghezza media è quindi di
poco superiore ai 26 token per frase e la mediana
si attesta a 22 token. La frase più breve è lunga 9
token, mentre quella più lunga 91, ma rappresenta
chiaramente un outlier dato che il 75% delle frasi
ha una lunghezza entro i 33 token.</p>
      <p>Per ogni frase selezionata sono stati raccolti:</p>
      <sec id="sec-5-1">
        <title>1. La frase originale in inglese</title>
        <p>2. La corrispondente traduzione in italiano
realizzata da un traduttore umano
3. La corrispondente traduzione in italiano
realizzata da DeepL
Le 108 frasi tradotte da DeepL sono state divise in
due gruppi di 54, denominati gruppo A e gruppo
B. All’interno di ogni gruppo sono state poi
inserite le altre 54 frasi nella versione realizzata da
traduttori umani. Ognuna delle 108 frasi tradotte da
DeepL e da esseri umani è stata poi valutata sia
per l’adeguatezza (adequacy) sia per la
scorrevolezza (fluency) da ogni valutatore del gruppo a cui
era stata associata. Questo ha permesso di ottenere
una valutazione di tutte le 108 frasi tradotte da
esseri umani e di tutte le 108 frasi tradotte da DeepL.</p>
        <p>
          Durante la valutazione, le frasi state sottoposte
ai valutatori umani in ordine casuale e senza
indicazioni sulla loro origine: i valutatori non avevano
quindi elementi esterni per decidere se l’origine di
una singola frase era un traduttore umano o
DeepL. Nella valutazione per adeguatezza le frasi
erano accompagnate dal testo originale in lingua
inglese, secondo l’orientamento DA-src
          <xref ref-type="bibr" rid="ref13 ref14 ref16 ref2 ref3 ref6 ref8 ref9">(Bentivogli e altri 2018b: 62)</xref>
          , mentre nella valutazione per
scorrevolezza era disponibile solo il testo italiano.
La valutazione è stata eseguita online, usando il
sistema KantanLQR 2 , per un tempo medio di
un’ora per ogni campione.
5
        </p>
      </sec>
    </sec>
    <sec id="sec-6">
      <title>Criteri di valutazione</title>
      <p>
        Anche se i risultati delle verifiche sulla traduzione
automatica condotte in rapporto ai convegni
WMT hanno confermato la maggior rilevanza
dell’adeguatezza rispetto alla fluenza
        <xref ref-type="bibr" rid="ref13 ref14 ref16 ref2 ref3 ref6 ref8 ref9">(Bentivogli
e altri 2018b: 62)</xref>
        , le due diverse valutazioni sono
state conservate per verificare l’esistenza di
differenze tra di loro. Va comunque notato che,
nonostante sia teoricamente possibile che una frase
tradotta con sistemi a reti neurali si allontani molto
dal senso testo di partenza, nella pratica non si è
prodotto nessun caso di questo genere.
      </p>
      <p>Per l’adeguatezza è stata usata una scala di
valori basata su criteri relativi:
1.
3.
4.</p>
      <p>Il contenuto informativo dell’originale è
stato completamente alterato
È stata trasmessa una parte del contenuto
informativo, ma non la più importante
Circa metà del contenuto informativo è
stata trasmessa
La parte più importante del contenuto
informativo originale è stata trasmessa
2 KantanLQR è un sistema che fornisce strumenti
automatizzati per valutazione e l’analisi di segmenti
linguistici. Il sistema è implementato sulla piattaforma di
KantanMT (&lt;https://kantanmt.com/&gt;), ma può essere
utilizzato indipendentemente da essa, su qualsiasi
corpus organizzato e diviso in singole frasi.</p>
      <p>Il contenuto informativo è stato tradotto
completamente
Per la scorrevolezza, sulla base del livello medio
di traduzione visto in altre verifiche, la scala è
invece stata basata su criteri in parte assoluti:
Impossibile da ricondurre alla norma
Con più di due errori morfosintattici
Con non più di due errori morfosintattici
e/o molti usi insoliti di collocazioni
Con non più di un errore morfosintattico
e/o un uso insolito di collocazioni</p>
      <p>Del tutto corretta
6</p>
    </sec>
    <sec id="sec-7">
      <title>Composizione del gruppo dei valutatori</title>
      <p>Il gruppo dei valutatori è stato interamente
composto da studenti del Master online in Traduzione
specialistica inglese &gt; italiano citato al § 3. La
maggior parte dei valutatori, all’interno del
Master, aveva approfondito l’uno o l’altro dei domini
presi in esame, o entrambi. Tutti avevano
comunque l’italiano come lingua madre e disponevano
di una conoscenza della lingua inglese valutabile
tra C1 e C2. Nessuno di loro è stato coinvolto nella
fase di scelta e preparazione degli articoli.</p>
      <p>La scelta di valutatori specializzati è
conseguenza di due idee di base: innanzitutto, solo le
persone dotate di conoscenze disciplinari sono i
destinatari normali di testi specialistici; inoltre,
solo le persone dotate di conoscenze disciplinari
possono valutare con cognizione di causa un testo
specialistico. Per esempio, valutare anche solo la
correttezza grammaticale di frasi come questa
sembra possibile solo a chi sa se nell’italiano
specialistico sono o no accettabili sintagmi come in
aperto e parole come farmacocinetica:
“È stato condotto uno studio a dose singola in
aperto per valutare la farmacocinetica di una dose
ridotta di sitagliptin (50 mg) in pazienti con vari
gradi di compromissione renale cronica rispetto a
soggetti sani di controllo.”
Per migliorare l’omogeneità del risultato, alcuni
mesi prima della valutazione vera e propria è stata
fatta una sessione di addestramento con i
valutatori interessati. In questa sessione sono state
valutate numerose frasi (diverse da quelle esaminate
in seguito), e i punteggi assegnati sono stati
discussi collettivamente, cercando di arrivare a
parametri di valutazione quanto più possibile
condivisi</p>
      <p>I valutatori sono stati complessivamente 15: 7
per il gruppo A, 8 per il gruppo B. Il numero è
quindi superiore a quello usato in valutazioni
umane simili, come quelle descritte in Hassan e
altri (2018) e Läubli e altri (2020).
7</p>
    </sec>
    <sec id="sec-8">
      <title>Esito generale della valutazione</title>
      <p>I risultati della valutazione sono riportati in
Tabella 1.</p>
      <p>e s
ro rpu
t
tu o
d c</p>
      <p>o
raT ttso</p>
      <p>e</p>
      <sec id="sec-8-1">
        <title>Umano</title>
        <p>complessivo
Biomedicina
Ambiente</p>
      </sec>
      <sec id="sec-8-2">
        <title>DeepL</title>
        <p>complessivo</p>
        <p>Biomedicina
Ambiente
a
z
z
e
t
a
u
g
e
d
a
a
i
d
e</p>
        <p>M
4,29
4,38
4,15
4,31
4,36
4,24
a
z
z
e
l
o
v
e
r
r
o
c
s
a
i
d
e</p>
        <p>M
4,17
4,41
3,78
4,09
4,06
4,14
a
z
z
e
t
a
u
g
e
d
a
σ
0,43
0,36
0,49
0,45
0,48
0,39
a
z
z
e
l
o
v
e
r
r
o
c
s
σ
0,60
0,38
0,68
0,56
0,59
0,51
Tabella 1: Risultati della valutazione.</p>
        <p>La variazione nei giudizi è, in generale, piuttosto
limitata. Per quanto riguarda l’adeguatezza della
traduzione umana, la deviazione standard è stata
di 0,43 e 39 frasi su 108 hanno ottenuto un
punteggio maggiore di 4,50. Solamente 2 frasi hanno
ottenuto un punteggio minore o uguale a 3. Le
traduzioni di DeepL hanno ottenuto una deviazione
standard di 0,45; 40 frasi hanno ottenuto un
punteggio maggiore di 4,50, e solo una un punteggio
minore o uguale a 3.</p>
        <p>La deviazione standard collegata alla
scorrevolezza è stata più alta, ma comunque contenuta:
0,60 per la traduzione umana, 0,56 per la
traduzione di DeepL. Per la scorrevolezza, va notato,
inoltre, che il punteggio 5 è stato assegnato
all’unanimità solo a pochissime frasi e il
punteggio minimo ottenuto (2,00 in entrambe le
traduzioni) è più basso di quello dell’adeguatezza (2,75
per entrambe le traduzioni). Tuttavia, 26
traduzioni di DeepL hanno ottenuto un punteggio
medio superiore a 4,5, contro 32 traduzioni umane.</p>
        <p>Complessivamente, la traduzione automatica
ha ricevuto un punteggio migliore della
traduzione umana per quanto riguarda l’adeguatezza, e
inferiore per quanto riguarda la scorrevolezza. I
dati sono stati, inoltre, sottoposti ad un t-test per
verificare la significatività delle differenze. I
risultati presentano un p value di 0,762 per
l’adeguatezza e un p value di 0,313 per la
scorrevolezza. I valori dei p value fanno concludere che,
con il 95% di confidenza statistica, non è possibile
affermare che i risultati dell’adeguatezza ottenuti
da DeepL siano effettivamente migliori dei
risultati ottenuti dalla traduzione umana, o viceversa
(p value &gt; 0,05). Al contrario, i risultati della
scorrevolezza ottenuti dalla traduzione umana
possono dirsi significativamente migliori rispetto ai
risultati ottenuti dalla traduzione automatica (p
value &lt; 0,05).
8</p>
      </sec>
    </sec>
    <sec id="sec-9">
      <title>Valutazioni particolari</title>
      <p>Per l’adeguatezza, solo una frase tradotta da
DeepL ha ottenuto un risultato minore o uguale a
3:
Originale: “After discontinuation of short-term
and long-term treatment with pregabalin
withdrawal symptoms have been observed in some
patients”.</p>
      <p>Traduzione: “Dopo l'interruzione del trattamento
a breve e a lungo termine con sintomi di astinenza
da pregabalin sono stati osservati in alcuni
pazienti”.</p>
      <p>Lo stesso è avvenuto per due frasi tradotte da
traduttori umani:
Originale: “Ampersand’s leadership knew that to
keep the product from being cost prohibitive, it’d
have to create a model that was sustainable for the
people who needed the electric mototaxis the
most: the motars”.</p>
      <p>Traduzione: “I dirigenti di Ampersand sapevano
che evitare che il prodotto avesse un costo
proibitivo avrebbe creato un modello sostenibile per
coloro che avevano bisogno più degli altri del
mototaxi elettrico: i motars”.</p>
      <p>Originale: “This information is based on our
current knowledge and is intended to describe the
product for the purposes of health, safety and
environmental requirements only.”
“Queste informazioni sono basate sulle nostre
conoscenze attuali e sono intese descrivere il
prodotto per il solo scopo dei requisiti di salute,
sicurezza e ambientali.”
Il punteggio pieno è stato assegnato a 3 frasi
tradotte da DeepL:
Originale: “This medicinal product does not
require any special storage conditions”.</p>
      <p>Traduzione: “Questo medicinale non richiede
particolari condizioni di conservazione”.</p>
      <p>Originale: “The other ingredients are: lactose
monohydrate, maize starch, talc, gelatine, titanium
dioxide (E171), sodium laurilsulphate, anhydrous
colloidal silica, black ink, (which contains shellac,
black iron oxide (E172), propylene glycol,
potassium hydroxide) and water”.</p>
      <p>Traduzione: “Gli altri ingredienti sono: lattosio
monoidrato, amido di mais, talco, gelatina,
biossido di titanio (E171), laurilsolfato di sodio, silice
colloidale anidra, inchiostro nero, (che contiene
gommalacca, ossido di ferro nero (E172), glicole
propilenico, idrossido di potassio) e acqua”.
Originale: “Animal data do not suggest an effect
of treatment with sitagliptin on male and female
fertility”.</p>
      <p>Traduzione: “I dati relativi agli animali non
suggeriscono un effetto del trattamento con
sitagliptina sulla fertilità maschile e femminile”.
Lo stesso punteggio è stato assegnato a una sola
frase tradotta da un essere umano:
Originale: “Pregabalin should be discontinued
immediately if symptoms of angioedema, such as
facial, perioral, or upper airway swelling occur”.
Traduzione: “Il trattamento con pregabalin deve
essere immediatamente interrotto in presenza di
sintomi di angioedema come gonfiore del viso,
gonfiore periorale o gonfiore delle vie respiratorie
superiori”.</p>
      <p>Per la scorrevolezza, nessuna frase ha ottenuto un
punteggio pieno, né per la traduzione umana né
per quella automatica. Sono state più frequenti,
invece, le frasi che hanno ottenuto un punteggio
minore o uguale a 3. Nel caso delle traduzioni di
DeepL sono state quattro, tra cui per esempio
questa:
“L'analisi del ricovero in ospedale per
insufficienza cardiaca è stata adattata per una storia di
insufficienza cardiaca al basale”.</p>
      <p>Le traduzioni umane ad avere ottenuto un
punteggio di scorrevolezza minore o uguale a 3 sono
state invece cinque, tra cui per esempio questa:
“Modulo di cella solare comprendente un insieme
di pre-laminazione per cella solare, in cui
l’insieme è come elencato in qualsiasi rivendicazione
da 1 a 11.”
9</p>
    </sec>
    <sec id="sec-10">
      <title>Confronto con il testo giornalistico</title>
      <p>
        In
        <xref ref-type="bibr" rid="ref15">Tavosanis (2019)</xref>
        la valutazione umana delle
traduzioni di testi giornalistici, condotta con gli
stessi criteri di valutazione e con un numero di
valutatori comparabile, aveva fornito i risultati
riportati nella Tabella 2.
      </p>
      <p>e
r
o
t
t
u
d
a
r</p>
      <p>T</p>
      <sec id="sec-10-1">
        <title>Google</title>
        <p>DeepL
Umano
i
s
a
r
f
.</p>
        <p>
          N
Tabella 2: Valutazione complessiva delle
traduzioni di testi giornalistici in
          <xref ref-type="bibr" rid="ref15">Tavosanis (2019)</xref>
          .
Confrontando questi risultati con quelli presentati
nella Tabella 1, la differenza principale consiste
nel peggioramento del punteggio assegnato alla
traduzione umana. Se si presuppone che la qualità
della traduzione umana sia stabile da una
rilevazione all’altra e da un tipo di testo all’altro, questo
peggioramento potrebbe essere attribuito a una
maggiore severità dei revisori in quanto esperti di
dominio (possibilità anticipata nel § 5).
Intuitivamente, esistono però numerose altre spiegazioni
possibili, in isolamento o in combinazione: per
esempio, che il testo specialistico sia più adatto a
questo tipo di traduzione automatica rispetto al
testo giornalistico, o che sia più difficile da gestire
per i traduttori umani. Allo stato attuale delle
conoscenze non ci sono fattori che spingano a
preferire una spiegazione rispetto a un’altra.
        </p>
      </sec>
    </sec>
    <sec id="sec-11">
      <title>Conclusioni e sviluppi futuri</title>
      <p>
        I risultati ottenuti con questa prova supportano
l’ipotesi che anche per l’italiano, perlomeno per
alcune tipologie testuali e a livello di frase, la
traduzione automatica abbia raggiunto un livello
qualitativo statisticamente pari a quello della
traduzione umana per quanto riguarda l’adeguatezza
e leggermente inferiore per quanto riguarda la
scorrevolezza. Sono quindi coerenti con diversi
altri risultati recenti, presentati per altre lingue
        <xref ref-type="bibr" rid="ref12 ref17 ref7">(Läubli e altri 2020: 660)</xref>
        ; va però ricordato che
l’italiano non è stato incluso negli importanti task
di WMT 2019
        <xref ref-type="bibr" rid="ref1">(Barrault e altri 2019)</xref>
        .
      </p>
      <p>Inoltre, i risultati ottenuti non supportano
l’ipotesi che la NMT di sistemi di uso generale ottenga
risultati inferiori quando viene applicata a testi
specialistici rispetto a quando viene applicata a
testi non specialistici.</p>
      <p>L’analisi ha naturalmente diversi limiti: per
esempio, il campione valutato è relativamente
ristretto, le oscillazioni nel giudizio dei valutatori
non possono essere confrontate con una media
professionale sperimentata e i domini specialistici
presi in considerazione sono solo due. Tuttavia,
l’estensione e il miglioramento di queste pratiche
sembrano a oggi l’unico modo per valutare
correttamente le capacità della traduzione automatica in
italiano.</p>
      <p>
        Per quanto riguarda gli sviluppi futuri, la
necessità di una valutazione realistica sembra rendere
indispensabile il passaggio dalla valutazione di
singole frasi a quella di testi interi. La qualità della
traduzione automatica a livello di testo risulta
infatti, in diversi casi, sensibilmente peggiore
rispetto a quella a livello di frase
        <xref ref-type="bibr" rid="ref12 ref17 ref7">(Läubli e altri
2020: 660)</xref>
        . La mancanza di sistemi strutturali per
garantire la coerenza a livello di testo nella
traduzione a reti neurali fa pensare che il fenomeno sia
strutturale; per verificare queste ipotesi sono però
necessarie valutazioni dedicate.
      </p>
      <p>Al tempo stesso, il confronto con la valutazione
dei testi giornalistici suggerisce l’idea che i
risultati possano variare in modo sensibile da un
genere testuale all’altro, e che almeno in alcuni casi
possano essere migliori rispetto a quelli che si
ottengono con testi non specialistici. La variabilità
collegata al genere non è contemplata nella
peraltro dettagliatissima sintesi di Läubli e altri (2020),
ma sembra indispensabile prenderla
strutturalmente in considerazione per rendere più solide
tutte le valutazioni future.</p>
    </sec>
  </body>
  <back>
    <ref-list>
      <ref id="ref1">
        <mixed-citation>
          <string-name>
            <surname>Barrault</surname>
          </string-name>
          , Loïc, e altri (
          <year>2019</year>
          ).
          <source>Findings of the 2019 Conference on machine translation (WMT</source>
          <year>2019</year>
          ).
          <source>In Proceedings of the WMT</source>
          ,
          <article-title>Firenze, Association for computational linguistics</article-title>
          , pp.
          <fpage>1</fpage>
          -
          <lpage>61</lpage>
          .
        </mixed-citation>
      </ref>
      <ref id="ref2">
        <mixed-citation>
          <string-name>
            <surname>Bentivogli</surname>
          </string-name>
          , Luisa, e altri (
          <year>2018a</year>
          ).
          <article-title>Neural versus phrase-based MT quality: an in-depth analysis on English-German and English-French</article-title>
          .
          <source>In Computer speech &amp; language, 49</source>
          , pp.
          <fpage>52</fpage>
          -
          <lpage>70</lpage>
          .
        </mixed-citation>
      </ref>
      <ref id="ref3">
        <mixed-citation>
          <string-name>
            <surname>Bentivogli</surname>
          </string-name>
          , Luisa, e altri (
          <year>2018b</year>
          ).
          <article-title>Machine translation human evaluation: an investigation of evaluation based on post-editing and its relation with direct assessment</article-title>
          .
          <source>In Proceedings of the 15th international workshop on spoken language translation</source>
          ,
          <source>Iwslt</source>
          , pp.
          <fpage>62</fpage>
          -
          <lpage>69</lpage>
          .
        </mixed-citation>
      </ref>
      <ref id="ref4">
        <mixed-citation>
          <string-name>
            <surname>Burchardt</surname>
          </string-name>
          , Aljoscha, e altri (
          <year>2017</year>
          ).
          <article-title>A linguistic evaluation of rule-based, phrase-based, and neural MT engines</article-title>
          .
          <source>In The Prague bulletin of mathematical linguistics</source>
          ,
          <volume>108</volume>
          , pp.
          <fpage>159</fpage>
          -
          <lpage>70</lpage>
          .
        </mixed-citation>
      </ref>
      <ref id="ref5">
        <mixed-citation>
          <string-name>
            <surname>Castilho</surname>
          </string-name>
          , Sheila, e altri (
          <year>2017</year>
          ).
          <article-title>Crowdsourcing for NMT evaluation: professional translators versus the crowd</article-title>
          .
          <source>In Proceedings of translating and the computer</source>
          ,
          <volume>39</volume>
          , pp.
          <fpage>1</fpage>
          -
          <lpage>22</lpage>
          .
        </mixed-citation>
      </ref>
      <ref id="ref6">
        <mixed-citation>
          <string-name>
            <surname>Chu</surname>
          </string-name>
          , Chenhui e Rui Wang (
          <year>2018</year>
          ).
          <article-title>A survey of domain adaptation for machine translation</article-title>
          .
          <source>In Proceedings of the 27th international conference on computational linguistics</source>
          ,
          <source>Association for computational linguistics</source>
          , pp.
          <fpage>1304</fpage>
          -
          <lpage>1319</lpage>
          .
        </mixed-citation>
      </ref>
      <ref id="ref7">
        <mixed-citation>
          <string-name>
            <surname>Chu</surname>
          </string-name>
          , Chenhui e Rui Wang (
          <year>2020</year>
          ).
          <article-title>A survey of domain adaptation for machine translation</article-title>
          .
          <source>In Journal of information processing</source>
          ,
          <volume>28</volume>
          , pp.
          <fpage>413</fpage>
          -
          <lpage>426</lpage>
          .
        </mixed-citation>
      </ref>
      <ref id="ref8">
        <mixed-citation>
          <string-name>
            <surname>Hassan</surname>
          </string-name>
          , Hany, e altri (
          <year>2018</year>
          ).
          <article-title>Achieving human parity on automatic Chinese to English news translation</article-title>
          . arXiv preprint arXiv:
          <year>1803</year>
          .
          <volume>05567</volume>
          (
          <year>2018</year>
          ).
        </mixed-citation>
      </ref>
      <ref id="ref9">
        <mixed-citation>
          <string-name>
            <surname>Heiss</surname>
          </string-name>
          , Christine e Marcello Soffritti (
          <year>2018</year>
          ).
          <article-title>DeepL Traduttore e didattica della traduzione dall'italiano in tedesco-alcune valutazioni preliminari. In Translation and Interpreting for Language Learners (TAIL). Lessons in honour of Guy Aston, Anna Ciliberti, Daniela Zorzi, a cura di Laurie Anderson</article-title>
          , Laura Gavioli e Federico Zanettin, Milano, AItLA, pp.
          <fpage>241</fpage>
          -
          <lpage>258</lpage>
          .
        </mixed-citation>
      </ref>
      <ref id="ref10">
        <mixed-citation>
          <string-name>
            <surname>Intento</surname>
          </string-name>
          (
          <year>2020</year>
          ).
          <article-title>Independent multi-domain evaluation of commercial machine translation engines</article-title>
          . Intento, Inc.
        </mixed-citation>
      </ref>
      <ref id="ref11">
        <mixed-citation>
          <string-name>
            <surname>Koehn</surname>
          </string-name>
          , Philipp e Rebecca Knowles (
          <year>2017</year>
          ).
          <article-title>Six Challenges for Neural Machine Translation</article-title>
          .
          <source>In First Workshop on Neural Machine Translation, Association for Computational Linguistics</source>
          , pp.
          <fpage>28</fpage>
          -
          <lpage>39</lpage>
          .
        </mixed-citation>
      </ref>
      <ref id="ref12">
        <mixed-citation>
          <string-name>
            <surname>Läubli</surname>
          </string-name>
          , Samuel, e altri. (
          <year>2020</year>
          ).
          <article-title>A set of recommendations for assessing human-machine parity in language translation</article-title>
          .
          <source>In Journal of artificial intelligence research</source>
          ,
          <volume>67</volume>
          , pp.
          <fpage>653</fpage>
          -
          <lpage>672</lpage>
          .
        </mixed-citation>
      </ref>
      <ref id="ref13">
        <mixed-citation>
          <string-name>
            <surname>Shterionov</surname>
          </string-name>
          , Dimitar, e altri (
          <year>2018</year>
          ).
          <article-title>Human versus automatic quality evaluation of NMT and PBSMT</article-title>
          .
          <source>In Machine Translation</source>
          ,
          <volume>32</volume>
          ,
          <issue>3</issue>
          , pp.
          <fpage>217</fpage>
          -
          <lpage>235</lpage>
          .
        </mixed-citation>
      </ref>
      <ref id="ref14">
        <mixed-citation>
          <string-name>
            <surname>Tavosanis</surname>
          </string-name>
          ,
          <string-name>
            <surname>Mirko</surname>
          </string-name>
          (
          <year>2018</year>
          ).
          <article-title>Lingue e intelligenza artificiale</article-title>
          . Roma: Carocci.
        </mixed-citation>
      </ref>
      <ref id="ref15">
        <mixed-citation>
          <string-name>
            <surname>Tavosanis</surname>
          </string-name>
          ,
          <string-name>
            <surname>Mirko</surname>
          </string-name>
          (
          <year>2019</year>
          ).
          <article-title>Valutazione umana di Google Traduttore e DeepL per le traduzioni di testi giornalistici dall'inglese verso l'italiano</article-title>
          .
          <source>In CLiCit 2019 - Proceedings of the Sixth Italian Conference on Computational Linguistics</source>
          ,
          <article-title>a cura di Raffaella Bernardi, Roberto Navigli e Giovanni Semeraro</article-title>
          , CEUR Workshop Proceedings, Aachen University, pp.
          <fpage>1</fpage>
          -
          <lpage>7</lpage>
          .
        </mixed-citation>
      </ref>
      <ref id="ref16">
        <mixed-citation>
          <string-name>
            <surname>Toral</surname>
          </string-name>
          , Antonio, e altri (
          <year>2018</year>
          ).
          <article-title>Attaining the unattainable? Reassessing claims of human parity in neural machine translation</article-title>
          .
          <source>arXiv preprint arXiv:1808</source>
          .10432.
        </mixed-citation>
      </ref>
      <ref id="ref17">
        <mixed-citation>
          <string-name>
            <surname>Zhang</surname>
          </string-name>
          , Tianyi, e altri (
          <year>2020</year>
          ).
          <article-title>BERTScore: evaluating text generation with Bert</article-title>
          . arXiv preprint arXiv:
          <year>1904</year>
          .09675.
        </mixed-citation>
      </ref>
    </ref-list>
  </back>
</article>