=Paper= {{Paper |id=Vol-2253/paper28 |storemode=property |title=Inter-Annotator Agreement in linguistica: una rassegna critica |pdfUrl=https://ceur-ws.org/Vol-2253/paper28.pdf |volume=Vol-2253 |authors=Gloria Gagliardi |dblpUrl=https://dblp.org/rec/conf/clic-it/Gagliardi18 }} ==Inter-Annotator Agreement in linguistica: una rassegna critica== https://ceur-ws.org/Vol-2253/paper28.pdf
        Inter-Annotator Agreement in linguistica: una rassegna critica
                                              Gloria Gagliardi
                                     FICLIT – Università di Bologna, Italy
                                     gloria.gagliardi2@unibo.it


                        Abstract                           siderabili “attendibili” se due o più annotatori
                                                           sono in accordo nell’individuare un fenomeno
    Italiano. I coefficienti di Inter-Annotator            linguistico oppure nell’assegnare una categoria
    Agreement sono ampiamente utilizzati in Lingui-        all’item in analisi. In tale prospettiva, la reliabili-
    stica Computazionale e NLP per valutare il livel-      ty si configura perciò come prerequisito per di-
    lo di “affidabilità” delle annotazioni linguistiche.   mostrare la validità di uno schema di codifica, e
    L’articolo propone una breve revisione della let-
                                                           un ampio consenso tra gli annotatori viene assun-
    teratura scientifica sull’argomento.
                                                           to a garanzia della precisione intrinseca del pro-
    English. Agreement indexes are widely used in          cesso di annotazione (Warrens, 2010).
    Computational Linguistics and NLP to assess the          “The main reason for the analysis of annotation
    reliability of annotation tasks. The paper aims at       quality is to obtain a measure of the ‘trustwor-
    reviewing the literature on the topic, illustrating      thiness’ of annotations. […] Only if we can trust
    chance-corrected coefficients and their interpre-        that annotations are provided in a consistent
    tation.                                                  and reproducible manner, can we be sure that
                                                             conclusions drawn from such data are likewise
1      Introduzione                                          reliable and that the subsequent usage of anno-
                                                             tations is not negatively influenced by inconsist-
La costruzione di risorse linguistiche, e più in             encies and errors in the data. Inter-annotator
generale l’annotazione di dati, implicano la for-            (or inter-coder) agreement has become the qua-
mulazione di giudizi soggettivi. La necessità di             si-standard procedure for testing the accuracy
stabilire fino a che punto tali giudizi siano affi-          of manual annotations.”
dabili e riproducibili ha assunto crescente impor-                                 (Bayerl & Paul, 2011: 700)
tanza, fino a rendere le procedure di validazione          In ambito computazionale l’I.A.A. è usato come
prassi consolidata. Ciò è avvenuto in linguistica          veicolo per passare dal materiale annotato ad un
computazionale (LC) con più di 30 anni di ritar-           gold standard, ovvero un insieme di dati suffi-
do rispetto alla psicometria: già nel 1960 Cohen,          cientemente noise-free che serva per training e
in un celebre articolo, scriveva infatti:                  testing di sistemi automatici. Di prassi i coeffi-
     “Because the categorizing of the units is a con-      cienti di agreement vengono usati per assicurare
     sequence of some complex judgment process             la bontà della procedura di annotazione e del ma-
     performed by a ‘two-legged meter’ [...], it be-       teriale annotato: un alto livello di I.A.A. fa sì che
     comes important to determine the extent to            il fenomeno sia considerato consistente e siste-
     which these judgments are reproducible, i.e., re-     matico, e che la risorsa validata sia idonea per
     liable.”
                                                           addestrare un sistema automatico che svolga il
                                  (Cohen, 1960: 37)
                                                           medesimo compito del linguista.
È convinzione abbastanza diffusa che un alto               In realtà, l’idea che l’I.A.A. possa indicare in
livello di Inter-Annotator Agreement (da ora in            senso assoluto la qualità del dataset come risorsa
poi: I.A.A.) tra gli annotatori sia indice della           di riferimento è fallace: due osservatori possono,
bontà e della riproducibilità di un paradigma di           pur sbagliando entrambi, essere in perfetto ac-
annotazione. Come sottolinea Di Eugenio:                   cordo nel valutare un evento:
     “This raises the question of how to evaluate the        “However, it is important to keep in mind that
     ‘goodness’ of a coding scheme. One way of do-           achieving good agreement cannot ensure validi-
     ing so is to assess its reliability, namely, to as-     ty: two observers of the same event may well
     sess whether different coders can reach a satis-        share the same prejudice while still being objec-
     fying level of agreement with each other when           tively wrong.”
     they use the coding manual on the same data.”                            (Artstein & Poesio, 2008: 557)
                               (Di Eugenio, 2000: 441)
                                                           È inoltre opportuno considerare che l’agreement
L’assunto di base è dunque che i dati siano con-           raggiunto abitualmente dagli annotatori varia in
relazione al livello di esperienza: l’I.A.A. in                                  rater 1
gruppi omogenei è comparabile a prescindere dai                                  c1 c2 c3 tot
livelli di esperienza, ma si abbassa qualora ven-                          c1 9        2    0    11
gano formati gruppi misti di esperti e non esperti:                 rater c2 0         6    0    6
                                                                       2   c3 1        0    2    3
    “Implicit in discussions of inter-annotator
                                                                           tot 10 8         2    20
    agreement is that coders not only agree on
    which unit belongs to which category, but that if         Tab. 1: Esempio di tabella di contingenza
    they agree these decisions are also correct with
                                                        2.1      Agreement senza correzione del caso
    respect to the phenomenon under scrutiny [...].
    In our study, this assumption left us with a di-    L’indice più rudimentale è quello percentuale,
    lemma. Our data showed that experts and non-        detto anche “Index of crude agreement”
    experts could achieve comparable levels of          (Goodman & Kruskal, 1954) o “Observed
    agreement, whereas the average agreement for        Agreement” (Ao): la misura corrisponde, banal-
    mixed groups was significantly lower. In other
                                                        mente, al rapporto tra il numero di item su cui i
    words, experts and novices were equally relia-
    ble, yet did not agree with each other.”            rater sono d’accordo ed il numero totale di item.
                           (Bayerl & Paul, 2011: 721)   Nell’esempio proposto in tab.1, Ao ha un valore
                                                        di 0.85.
Non tutti i task di annotazione linguistica sono           La misura non solo non tiene in considerazio-
valutabili secondo le stesse procedure; dal punto       ne il ruolo che potrebbe giocare il caso, per cui i
di vista qualitativo, si possono individuare alme-      rater potrebbero trovarsi in accordo “tirando ad
no due tipologie generali (Mathet, Widlöcher, A.        indovinare”, ma deve fare i conti con un feno-
& Métivier, 2015):                                      meno già notato in Scott (1955) e Artstein &
  • “individuazione di unità” o “unitizing”             Poesio (2008): dati due diversi schemi di codifi-
     (Krippendorff, 1980), in cui l’annotatore,         ca per lo stesso task, quello con il minor numero
     dato un testo scritto o parlato, deve identifi-    di categorie registrerebbe una più alta percentua-
     care posizione e confine degli elementi lin-       le di I.A.A. Il valore è fortemente influenzato
     guistici (es. identificazione di unità prosodi-    anche dal problema della “prevalenza”, ovvero la
     che o gestuali, topic segmentation);               maggior concentrazione di item in una delle ca-
  • “categorizzazione”: l’annotatore deve attri-        tegorie: come avremo modo di discutere in §
     buire un tag a oggetti linguistici pre-            2.2.1, una simile distribuzione influenza in nega-
     identificati (es. PoS Tagging, Word Sense          tivo la possibilità di raggiungere alti livelli di
     Disambiguation).                                   I.A.A., indipendentemente dalla grandezza del
Il paper si propone di presentare una breve rasse-      campione.
gna critica delle metriche utilizzate in questa se-
                                                        2.2      Misure “kappa”
conda tipologia di task, in particolare ponendo
attenzione al calcolo dei coefficienti e alla loro      Il livello di I.A.A. nell’espressione di giudizi
interpretazione.                                        categoriali deve perciò necessariamente essere
                                                        esplicitato nei termini di eccedenza rispetto
2     I coefficient di agreement                        all’accordo ottenibile casualmente, pena la man-
                                                        canza di effettiva informatività. In ambito psi-
Adottando la notazione proposta da Artstein &
                                                        cometrico sono stati introdotti numerosi coeffi-
Poesio (2008), ogni studio di I.A.A per i task di
                                                        cienti statistici in grado di correggere tale aspet-
categorizzazione deve prevedere:
                                                        to: questi indici, a cui si farà riferimento con il
  • un insieme di item {i | i ∈ I};                     nome di “misure kappa”, si fondano su tre as-
  • un insieme di categorie assegnabili agli item       sunti (Soeken & Prescott, 1986):
      {c | c ∈ C};                                        • gli item soggetti a valutazione sono indipen-
  • un insieme di annotatori, che assegnano cia-             denti l’uno dall’altro;
      scun item ad una categoria {r | r ∈ R}.             • i rater che giudicano gli item operano in au-
Verrà convenzionalmente indicato con A                       tonomia ed in modo completamente indi-
l’agreement e con D il disagreement. Allo scopo              pendente;
di illustrare le modalità di calcolo dei coefficien-      • le categorie usate sono mutualmente esclu-
ti, è stato creato ad hoc un esempio fittizio: la            sive ed esaustive.
situazione immaginata prevede che due annotato-
ri assegnino 20 item a 3 categorie.
2.2.1    2 rater                                             che ogni rater assegni un item alla categoria c è
                                                             dunque 1/c.
Il caso base è rappresentato dai coefficienti per la
valutazione dei giudizi prodotti da due soli rater,                                ! !                    ! !       !
                                                                  4) 𝐴!! =     !∈! ! ∙ ! = 𝑐 ∙                  =
                                                                                                          !         !
indice noto ai più come “k di Cohen”. Prima di
passare alla presentazione della misura è però               Nell’esempio di tab.1 A!! =0.333 e S=0.775.
necessaria una piccola premessa terminologica. Il            L’assunto dell’uniformità è un prerequisito
celebre articolo di Carletta (1996), a cui va il me-         estremamente vincolante: per tale ragione non
rito    di     aver    stabilito   la    valutazione         risultano, ad oggi, studi di I.A.A. in LC in cui sia
dell’agreement come standard de facto in LC, ha              stato impiegato questo coefficiente. In aggiunta,
introdotto una piccola inconsistenza in letteratura          come è stato notato da Scott (1955: 322-323) e
(Artstein & Poesio, 2008): la studiosa, nel sugge-           riportato da Artstein & Poesio (2008: 561), il
rire l’utilizzo di un coefficiente definito “kappa”,         valore dell’indice può essere aumentato sempli-
fa infatti riferimento non all’originale k proposta          cemente inserendo nello schema di codifica cate-
in Cohen (1960), ma ad una misura molto simile,              gorie vuote.
introdotta cinque anni prima da Scott. La que-               Il coefficiente π (Scott, 1955), noto anche col
stione non si esaurisce in un mero problema ter-             nome di K di Siegel & Castellan (1988), assume
minologico: esistono infatti tre indici che, pur             che se l’attribuzione degli item alle categorie
condividendo la medesima formula, sono fondati               avviene in modo casuale, la distribuzione sarà
su ipotesi diverse riguardo la distribuzione degli           uguale per entrambi gli annotatori. 𝑃 𝑐 𝑟! corri-
item nelle categorie, ovvero S di Bennett et al.,            sponderà perciò al rapporto tra il numero totale di
π di Scott e k di Cohen. Le differenti ipotesi               assegnazioni alla categoria c da parte di entrambi
soggiacenti comportano diverse modalità di cal-              i rater , nc , e il numero totale di assegnazioni
colo e quindi risultati non coincidenti, seppure in          compiute, 2i.
misura minima. La formula di base è la seguente:                                         !! !
                       !! !!!
                                                                    5) 𝐴!! =      !∈!    !!
     1) 𝑆, 𝜋, 𝑘 =   
                       !!  !!
                                                             Nel caso in oggetto, A!! = 0.414 e π=0.744.
dove Ae è l’agreement dovuto al caso (“Expected              k (Cohen, 1960) prevede infine una distribuzione
Agreement by chance”); Ao− Ae stima perciò                   degli item nelle categorie distinta ed unica per
l’agreement effettivamente raggiunto al di sopra             ciascun annotatore, rappresentata nelle frequenze
della soglia della casualità, mentre 1 − Ae misura           marginali della tabella di contingenza.
quanto accordo eccedente il caso è ottenibile.                                          !! !
                                                                                          !
Mentre Ao è estremamente semplice da calcolare                      6) 𝑃 𝑐 𝑟! =   
                                                                                         !
(§ 2.1) e ha lo stesso valore nelle tre misure, Ae                  7) 𝐴!! =            !!! !
                                                                                                ∙
                                                                                                    !!! !
                                                                                  !∈!
richiede invece un modello del comportamento                                              !           !

degli annotatori. Tutti i coefficienti assumono              Nell’esempio oggetto di discussione, pertanto,
l’indipendenza dei due annotatori che valutano               A!! =0.41 e k=0.764.
gli item: la probabilità che due rater (r1 ed r2)            La corretta scelta dell’indice non può prescindere
siano d’accordo su una determinata categoria c è             dalla considerazione che i coefficienti sono for-
dunque data dal prodotto della probabilità che               temente influenzati da disomogeneità nella di-
ciascun rater assegni un item a quella categoria,            stribuzione dei dati (Feinstein & Cicchetti, 1990;
ovvero:                                                      Cicchetti & Feinstein 1990; Di Eugenio & Glass,
     2) 𝑃 𝑐 𝑟1 ∙ 𝑃 𝑐 𝑟2                                      2004; Artstein & Poesio, 2008), classificabili in
                                  

                                                             due tipologie principali: la già ricordata “preva-
Ae è dato dalla sommatoria di tale probabilità               lenza” (tab. 2) e il “bias”, cioè il grado con cui
congiunta per tutte le categorie dello schema di             gli annotatori sono in accordo/disaccordo nelle
codifica.                                                    loro valutazioni complessive, ossia le loro “ten-
     3) 𝐴!! = 𝐴!! = 𝐴!! =            !∈! 𝑃 𝑐 𝑟!   ∙ 𝑃 𝑐 𝑟!   denze” nell’esprimere giudizi (tab. 3 e 4).
La differenza tra S, π e k risiede negli assunti che                                rater 1
sono alla base del calcolo di 𝑃 𝑐 𝑟! .                                              c1 c2 c3 tot
S (Bennett et al., 1954) assume che                                            c1 18 0         1    19
un’annotazione totalmente casuale determini una                        rater c2 0         0    0    0
distribuzione uniforme degli item nelle categorie,                       2     c3 1       0    0    1
ovvero che tutte le categorie dello schema di co-                              tot 19 0        1    20
difica siano ugualmente probabili; la probabilità              Tab. 2: Distribuzione affetta da prevalenza.
                       rater 1                          2.2.2     Possibili estensioni
                       c1 c2 c3 tot                     Sono state proposte moltissime generalizzazioni
                  c1 4      1   1     6                 dei coefficienti presentati, per assicurare maggio-
          rater c2 1        3   3     7                 re flessibilità ed adattabilità agli specifici task:1
            2     c3 1      2   4     7                 tra le più note vi è la “weighted kappa” (Cohen,
                  tot 6     6   8     20
                                                        1968), k(w), indice che consente di esprimere del-
   Tab. 3: Distribuzioni marginali simili.              le gradazioni di disaccordo mediante una tabella
                      rater 1
                                                        di “pesi” di valore compresi tra 0 e 1 (“weighting
                      c1 c2 c3 tot                      scheme”), come nell’esempio:
                c1 4        3    1    8                                     c1 c2 c3
         rater c2 0         3    0    3                                c1    1    0 0.5
            2   c3 1        4    4    9                                c2    0    1 0.5
                tot 5       10 5      20                               c3 0.5 0.5 1
   Tab. 4: Esempio di bias, evidente dalle distri-          Tab.4: Esempio di weighting scheme
   buzioni marginali dissimili (“skewed”).
                                                        Ao(w) e Ae(w) vengono calcolati in modo affine
Nell’esempio di tab. 2, la forte prevalenza in fa-
                                                        alla k di Cohen (1960), moltiplicando però, in
vore della categoria c1 fa sì che A!! = A!! = 0.905.    aggiunta, ogni cella della tabella di contingenza
Di conseguenza, nonostante Ao sia molto alto            per il corrispettivo peso.
(0.9), π = k = -0.053, al di sotto della soglia della                        !!(!) !!!(!)
pura casualità.                                               8) 𝑘(!) =   
                                                                              !!  !!(!)
Si confrontino quindi i dati delle tabelle 3 e 4:
sebbene entrambe registrino un Ao di 0.55, nel          Se applicata ai dati di Tab.1, k(w) = 0.774.
caso in cui le distribuzioni marginali siano molto      Sono stati inoltre introdotti indici in grado di
simili (tab.3) A!! = 0.335, A!! = 0.336, π = 0.322, k   quantificare l’I.A.A. tra tre o più annotatori: in
= 0.323; l’effetto di bias (tab.4), invece, affligge    primis la cosiddetta k di Fleiss (1971), che esten-
la k di Cohen, in ragione delle modalità di calco-      de l’indice π di Scott (“multi-π ”), ed il coeffi-
                                                        ciente presentato in Davies & Fleiss (1982) che
lo di 𝑃 𝑐 𝑟! : A!! = 0.334, A!! = 0.287, π = 0.326, k
                                                        generalizza la k di Cohen (“multi-k”);2 ma so-
= 0.368. La differenza tra π e k è empiricamente
                                                        prattutto il coefficiente α di Krippendorff
minima: A!! ≥ A!! , perciò π ≤ k. I due coefficienti
                                                        (1980), che esprime l’I.A.A. in termini di disa-
assumono lo stesso valore nel caso (limite) in cui
                                                        greement, osservato (Do) e dovuto al caso (De):
le distribuzioni marginali dei due rater siano
                                                                                          !
identiche, come in tab. 2.                                        9)         𝛼 = 1 −    !
                                                                                          !!
A fronte di ciò, laddove non sia possibile effet-
tuare uno studio che coinvolga più di due rater,        La formula, pur essendo stata derivata dalla mi-
sembrerebbe pertanto da preferire il coefficiente       sura della varianza, non fa esplicito riferimento
π di Scott, in grado di generalizzare il compor-        alle medie dei campioni e può pertanto essere
tamento dei singoli annotatori. In letteratura sono     generalizzata ad una moltitudine di schemi di
state fatte varie proposte riguardo la modalità di      codifica in cui le categorie non siano interpreta-
presentazione dei risultati dell’I.A.A per due an-      bili come valori numerici; come per la weighted
notatori: allo stato dell’arte sembrerebbe preferi-     kappa si possono inoltre attribuire pesi alle di-
bile adottare la soluzione suggerita da Byrt et al.     1
                                                          Alcune estensioni delle misure “kappa”, troppo complesse
(1993) e adottata da Di Eugenio & Glass (2004),         per essere descritte esaurientemente in questa sede, consen-
ovvero presentare congiuntamente diversi coeffi-        tono ad esempio di valutare l’I.A.A nel caso in cui i rater
cienti:                                                 effettuino osservazioni multiple, e non necessariamente di
                                                        ugual numero, oppure di gestire gli schemi di annotazione
    • k, che in linea di principio meglio si adatta
                                                        che prevedono la possibilità di attribuire più di una classifi-
        alla valutazione di annotazioni che coin-       cazione agli item (Kraemer, 1980).
        volgono dati linguistici, e rende conto di      2
                                                          Le modalità di calcolo sono affini ai coefficienti già de-
        eventuali tendenze dei rater;                   scritti. Per i dettagli si rinvia perciò a Fleiss (1971), Davies
                                                        & Fleiss (1982) e all’ottima sintesi di Artstein & Poesio
    • π, immune all’effetto di bias;
                                                        (2008) e Artstein (2017). Si noti che Ao non potrà essere
    • una terza misura, 2Ao-1, in grado di neu-         definito come “percentuale di item su cui c’è accordo”,
        tralizzare l’effetto di prevalenza (Byrt et     visto che con altissima probabilità ci saranno nei dati item
        al., 1993).                                     su cui alcuni rater saranno d’accordo e altri no: la soluzione
                                                        proposta in letteratura a partire da Fleiss (1971) è di misura-
                                                        re l’I.A.A. “pairwise”, ovvero “a coppie”.
verse tipologie di disagreement, utilizzando                    accordo, se due set di giudizi differiscono siste-
weighting scheme oppure introducendo nel cal-                   maticamente.
colo delle metriche, ad esempio l’indice statistico             La ragione di tali fraintendimenti deve probabil-
MASI (Passonneau, 2006; Dorr et al., 2010).3 α                  mente essere rintracciata nell’uso sostanzialmen-
è equivalente a multi-π per campioni numerosi,                  te sinonimico dei termini “reliability” e “agree-
ma è in grado, non imponendo un numero mini-                    ment” (Stemler, 2004); come puntualizzato da
mo di item, di mitigare gli effetti statistici di da-           Krippendorff (2004), in realtà:
taset a bassa numerosità campionaria; inoltre,                      “To be clear, agreement is what we measure;
consentendo la gestione di dataset incompleti, è                    reliability is what we wish to infer from it.”
utilizzabile (o addirittura preferibile) nel caso in                                        (Krippendorff, 2004: 413)
cui l’annotazione si svolga in maniera collabora-               Le correlazioni statistiche possono senza dubbio
tiva e distribuita, ad esempio su piattaforme di                costituire un’informazione interessante nella va-
crowdsourcing.                                                  lutazione globale dell’affidabilità di un dataset, a
                                                                patto però che tale nozione sia tenuta distinta
3     Reliability: agreement o correlazione?                    dall’I.A.A. in senso stretto.
In letteratura, in particolare in ambito clinico
(Bishop & Baird, 2001; Van Noord & Prevatt,                     4     La valutazione dei coefficienti
2002; Massa et al., 2008; Gudmundsson & Gre-                    La valutazione dei valori assunti dai coefficienti
tarsson, 2009), non è infrequente che, nella stima              chance-corrected rappresenta, ad oggi, un aspet-
dell’I.A.A, vengano preferiti o affiancati alle mi-             to critico: gli indici possono assumere valori
sure presentate la statistica χ2 oppure gli indici              compresi tra -1 e 1, dove k = 1 corrisponde ad un
statistici di correlazione (coefficiente R di Pear-             I.A.A. perfetto, k = 0 ad un I.A.A. completamen-
son in primis, ma anche i non parametrici ρ di                  te casuale e k = -1 ad un perfetto disaccordo.
Spearman e τ di Kendall).                                       Non è però soddisfacente sapere che k abbia un
Come già notato da Cohen (1960), l’utilizzo del                 valore superiore alla totale casualità, ma occorre
χ2 è una prassi da considerarsi scorretta, poiché               assicurarsi, piuttosto, che gli annotatori non si
la statistica, applicata alla tavola di contingenza,            discostino troppo dall’agreement assoluto (Co-
misura casualità e grado di associazione tra i set              hen, 1960; Krippendorff, 1980).
di giudizi, non l’agreement (Banerjee et al.,                   A prescindere dal mero valore numerico, va rile-
1999).                                                          vato come i vari studiosi che hanno tentato di
    “[...] Many investigators have computed χ2 over             indicare delle soglie di riferimento abbiano sotto-
    the table for use as a test of the hypothesis of            lineato l’arbitrarietà delle loro proposte: in primis
    chance agreement, and some have gone on to                  Landis & Koch (1977), a cui si deve la più nota
    compute the contingency coefficient (C) as a                griglia per l’interpretazione dei coefficienti:
    measure of degree of agreement. [...] It is readi-
    ly demonstrable that the use of χ2 (and therefore               Kappa Statistic      Strength of Agreement
    the C which is based on it) for the evaluation of                     < 0.0                   Poor
    agreement is indefensible. When applied to a                      0.00 - 0.20                 Slight
    contingency table, χ2 tests the null hypothesis                   0.21 - 0.40                  Fair
    with regard to association, not agreement.                        0.41 – 0.60               Moderate
                                   (Cohen, 1960: 38)                  0.61 – 0.80              Substantial
                                                                       0.81- 1.00             Almost Perfect
Altrettanto scorretta dal punto di vista metodolo-
gico è l’applicazione di coefficienti di correla-                   Tab. 5: Griglia per l’interpretazione delle misure k
zione inter-/intra- classe, che ugualmente non                      (Landis & Koch, 1977).
quantificano l’I.A.A. ma la forza di associazione               Così anche Krippendorff, la cui proposta di rifiu-
tra gruppi di valori (Bland & Altman, 1986;                     tare valori di k inferiori a 0.67, accettare quelli
Kottner et al., 2011; Stolarova et al., 2014). Si               superiori a 0.8 e considerare incerti quelli com-
noti inoltre che, dal punto di vista empirico,                  presi nel range costituisce uno dei principali
un’ottima correlazione tra annotazioni può essere               punti di riferimento in letteratura sull’argomento.
raggiunta anche in caso di completa mancanza di
                                                                    “Except for perfect agreement, there are no
                                                                    magical numbers, however.”
                                                                                        (Krippendorff, 2004: 324)
3
  MASI è basato sul coefficiente di Jaccard (1908) e quindi
stabilisce la somiglianza/diversità tra insiemi campionari in
                                                                Va infine rilevato come il disagreement non sia
termini di distanza.                                            necessariamente indice di bassa qualità
dell’annotazione, scarso training degli annota-          Bland, M. J. & Altman, D. (1986). Statistical methods
tori o di guideline mal definite (Aroyo & Welty,           for assessing agreement between two methods of
2015), soprattutto nei task di natura semantica;           clinical measurement. Lancet, 327:307–310.
ed anche che, per aumentare l’affidabilità del           Byrt, T., Bishop, J. & Carlin, J. B. (1993). Bias, prev-
dataset annotato, non debba necessariamente                alence and kappa. Journal of Clinical Epidemiolo-
essere evitato o eliminato: in LC la sua presenza          gy, 46(5):423–9.
può infatti essere sfruttata esplicitamente, per         Carletta, J. (1996). Assessing agreement on classifica-
migliorare le performance di sistemi automatici            tion tasks: the kappa statistic. Computational Lin-
(come ad esempio in Chklovski & Mihalcea,                  guistics, 22(2):249–254.
2003; Plank, Hovy & Søgaard, 2014).
                                                         Chklovski, T. & Mihalcea, R. (2003). Exploiting
                                                           Agreement and Disagreement of Human Annota-
5    Conclusioni                                           tors for Word Sense Disambiguation. In: Procee-
Come suggerito nei paragrafi iniziali, un alto li-         dings of the Conference on Recent Advances in
vello di I.A.A. non costituisce un risultato in sé,        Natural Language Processing (RANLP 2003).
ma soltanto uno fra gli indicatori della reale affi-     Cicchetti, D.V. & Feinstein, A.R. (1990). High
dabilità dell’annotazione sottoposta a validazio-          Agreement but low Kappa: II. Resolving the para-
ne. È perciò auspicabile che un sempre maggior             doxes. Journal of Clinical Epidemiology, 43:551–
numero di dati sull’I.A.A. nei diversi task di an-         558.
notazione sia condiviso dai ricercatori, in modo         Cohen, J. (1960). A Coefficient of Agreement for
da facilitare l'emergere per confronto dei valori          Nominal Scales. Educational and Psychological
di riferimento.                                            Measurement, 20(1):37.
                                                         Cohen, J. (1968). Weighted kappa: Nominal scale
                                                           agreement with provision for scaled disagreement
Bibliografia                                               or partial credit. Psychological Bulletin, 70(4):213–
Aroyo, L. & Welty, C. (2015). Truth Is a Lie: Crowd        220.
  Truth and the Seven Myths of Human Annotation.         Davies, M. & Fleiss, J. L. (1982). Measuring Agree-
  AI Magazine, 36 (1):15–24.                               ment for Multinomial Data. Biometrics,
Artstein, R. (2017). Inter-annotator Agreement. In:        38(4):1047–1051.
  Ide, N. & Pustejovsky, J. (eds.), Handbook of Lin-     Di Eugenio, B. (2000). On the usage of Kappa to
  guistic Annotation. Springer, Dordrecht, pp. 297–        evaluate agreement on coding tasks. In: Calzolari
  314.                                                     N. et al. (eds): Proceedings of the Second Interna-
Artstein, R. & Poesio, M. (2008). Inter-Coder Agree-       tional Conference on Language Resources and
  ment for Computational Linguistics. Computation-         Evaluation (LREC 2000), ELRA - European Lan-
  al Linguistics, 34(4):555–596.                           guage Resources Association, Paris, pp. 441–444.

Bayerl, P. S. & Paul, K. I. (2011). What determines      Di Eugenio, B. & Glass, M. (2004). The Kappa statis-
  Inter-Coder Agreement in manual annotations? A            tic: a second look. Computational Linguistics,
  meta-analytic investigation. Computational Lin-           30(1):95–101.
  guistics, 37(4):699–725.                               Dorr, B.J., Passonneau, R.J., Farwell, D., Green, R.,
Banerjee, M., Capozzoli, M., McSweeney, L. & Sin-          Habash, N., Helmreich, S., Hovy, E., Levin, L.,
  ha, D. (1999). Beyond Kappa: A Review of Inter-          Miller, K. J., Mitamura, T., Rambow, O. & Sid-
  rater Agreement Measures. The Canadian Journal           dharthan, A. (2010). Interlingual annotation of par-
  of Statistics / La Revue Canadienne de Statistique,      allel text corpora: A new framework for annotation
  27(1):3–23.                                              and evaluation. Journal of Natural Language En-
                                                           gineering, 16(3):197–243.
Bennett, Alpert, R. & Goldstein, A. (1954). Commu-
  nications through limited response questioning.        Feinstein, A.R. & Cicchetti, D.V. (1990). High
  Public Opinion Quarterly, 18:303–308.                    agreement but low kappa: I. The problems of two
                                                           paradoxes. Journal of Clinical Epidemiology,
Bishop, D.V. & Baird, G. (2001). Parent and teacher        43:543–549.
  report of pragmatic aspects of communication: use
  of the children’s communication checklist in a clin-   Fleiss, J. L. (1971). Measuring nominal scale agree-
  ical setting. Developmental medicine and child            ment among many raters. Psychological Bulletin,
  neurology, 43:809–818.                                    76(5):378–382.
                                                         Goodman, L. A. & Kruskal, W. H. (1954). Measures
                                                           of association for cross classifications. Journal of
  the American Statistical Association, 49(268):          Soeken, K.L. & Prescott, P.A. (1986). Issues in the
  732–764.                                                  use of kappa to estimate reliability. Medical Care,
                                                            24(8):733–41.
Gudmundsson, E. & Gretarsson, S. J. (2009). Com-
  parison of mothers’ and fathers’ ratings of their       Stemler, S.E. (2004). A Comparison of Consensus,
  children’s verbal and motor development. Nordic            Consistency, and Measurement Approaches to Es-
  Psycholgy, 61:14–25.                                       timating Interrater Reliability. Practical Assess-
                                                             ment, Research & Evaluation, 9:66–78.
Jaccard, P. (1908). Nouvelles recherches sur la distri-
   bution florale. Bulletin de la Société Vaudoise des    Stolarova, M., Wolf, C., Rinker, T. & Brielmann, A.
   Sciences Naturelles, 44:223–270.                          (2014). How to assess and compare inter-rater reli-
                                                             ability, agreement and correlation of ratings: an ex-
Kottner, J., Audige, L., Brorson, S., Donner, A.,
                                                             emplary analysis of mother-father and parent-
  Gajewski, B.J., Hróbjartsson, A., Roberts, C.,
                                                             teacher expressive vocabulary rating pairs. Fron-
  Shoukri, M. & Streiner, D.L. (2011). Guidelines
                                                             tiers in psychology, 5, 509.
  for reporting reliability and agreement studies
  (GRRAS) were proposed. International journal of         Van Noord, R.G. & Prevatt, F.F. (2002). Rater
  nursing studies, 48:661–671.                              agreement on IQ and achievement tests: effect on
                                                            evaluations of learning disabilities. Journal of
Kraemer, H. C. (1980). Extension of the kappa coeffi-
                                                            School Psychology, 40(2):167–176.
  cient. Biometrics, 36(2):207–16.
                                                          Warrens, M. J. (2010). Inequalities between multi-
Krippendorff, K. (1980). Content Analysis: an intro-
                                                           rater kappas. Advances in Data Analysis and Clas-
  duction to its Methodology. Sage Publications,
                                                           sification, 4(4):271–286.
  Thousand Oaks, CA.
Krippendorff, K. (2004). Reliability in content analy-
  sis: Some common misconceptions and recom-
  mendations. Human Communication Research,
  30(3):411–433.
Landis, J. R. & Koch, G. G. (1977). The Measure-
  ment of Observer Agreement for Categorical Data.
  Biometrics, 33(1):159–174.
Massa, J., Gomes, H., Tartter, V., Wolfson, V. &
  Halperin, J.M. (2008). Concordance rates between
  parent and teacher clinical evaluation of language
  fundamentals observational rating scale. Interna-
  tional Journal of Language & Communication
  Disorders, 43:99–110.
Mathet, J., Widlöcher, A. & Métivier, J. (2015). The
  Unified and Holistic Method Gamma (γ) for Inter-
  Annotator Agreement Measure and Alignment.
  Computational Linguistics, 41(3):437–479.
Passonneau, R. (2006). Measuring agreement on set-
  valued items (MASI) for semantic and pragmatic
  annotation. In: Proceedings of the fifth Interna-
  tional Conference on Language Resources and
  Evaluation (LREC 2006). ELRA European Lan-
  guage Resources Association, Paris.
Plank, B., Hovy, D. & Søgaard, A. (2014). Learning
   part-of-speech taggers with inter-annotator agree-
   ment loss. In: Proceedings of the 14th Conference
   of the European Chapter of the Association for
   Computational Linguistics, pp. 742–751.
Scott, W.A. (1955). Reliability of Content Analysis:
  The Case of Nominal Scale Coding. Public Opin-
  ion Quarterly, 19(3):321–325.
Siegel, S. & Castellan, J. (1988). Nonparametric sta-
   tistics for the behavioral sciences. McGraw-Hill,
   Boston, MA.