=Paper=
{{Paper
|id=Vol-2253/paper28
|storemode=property
|title=Inter-Annotator Agreement in linguistica: una rassegna critica
|pdfUrl=https://ceur-ws.org/Vol-2253/paper28.pdf
|volume=Vol-2253
|authors=Gloria Gagliardi
|dblpUrl=https://dblp.org/rec/conf/clic-it/Gagliardi18
}}
==Inter-Annotator Agreement in linguistica: una rassegna critica==
Inter-Annotator Agreement in linguistica: una rassegna critica Gloria Gagliardi FICLIT – Università di Bologna, Italy gloria.gagliardi2@unibo.it Abstract siderabili “attendibili” se due o più annotatori sono in accordo nell’individuare un fenomeno Italiano. I coefficienti di Inter-Annotator linguistico oppure nell’assegnare una categoria Agreement sono ampiamente utilizzati in Lingui- all’item in analisi. In tale prospettiva, la reliabili- stica Computazionale e NLP per valutare il livel- ty si configura perciò come prerequisito per di- lo di “affidabilità” delle annotazioni linguistiche. mostrare la validità di uno schema di codifica, e L’articolo propone una breve revisione della let- un ampio consenso tra gli annotatori viene assun- teratura scientifica sull’argomento. to a garanzia della precisione intrinseca del pro- English. Agreement indexes are widely used in cesso di annotazione (Warrens, 2010). Computational Linguistics and NLP to assess the “The main reason for the analysis of annotation reliability of annotation tasks. The paper aims at quality is to obtain a measure of the ‘trustwor- reviewing the literature on the topic, illustrating thiness’ of annotations. […] Only if we can trust chance-corrected coefficients and their interpre- that annotations are provided in a consistent tation. and reproducible manner, can we be sure that conclusions drawn from such data are likewise 1 Introduzione reliable and that the subsequent usage of anno- tations is not negatively influenced by inconsist- La costruzione di risorse linguistiche, e più in encies and errors in the data. Inter-annotator generale l’annotazione di dati, implicano la for- (or inter-coder) agreement has become the qua- mulazione di giudizi soggettivi. La necessità di si-standard procedure for testing the accuracy stabilire fino a che punto tali giudizi siano affi- of manual annotations.” dabili e riproducibili ha assunto crescente impor- (Bayerl & Paul, 2011: 700) tanza, fino a rendere le procedure di validazione In ambito computazionale l’I.A.A. è usato come prassi consolidata. Ciò è avvenuto in linguistica veicolo per passare dal materiale annotato ad un computazionale (LC) con più di 30 anni di ritar- gold standard, ovvero un insieme di dati suffi- do rispetto alla psicometria: già nel 1960 Cohen, cientemente noise-free che serva per training e in un celebre articolo, scriveva infatti: testing di sistemi automatici. Di prassi i coeffi- “Because the categorizing of the units is a con- cienti di agreement vengono usati per assicurare sequence of some complex judgment process la bontà della procedura di annotazione e del ma- performed by a ‘two-legged meter’ [...], it be- teriale annotato: un alto livello di I.A.A. fa sì che comes important to determine the extent to il fenomeno sia considerato consistente e siste- which these judgments are reproducible, i.e., re- matico, e che la risorsa validata sia idonea per liable.” addestrare un sistema automatico che svolga il (Cohen, 1960: 37) medesimo compito del linguista. È convinzione abbastanza diffusa che un alto In realtà, l’idea che l’I.A.A. possa indicare in livello di Inter-Annotator Agreement (da ora in senso assoluto la qualità del dataset come risorsa poi: I.A.A.) tra gli annotatori sia indice della di riferimento è fallace: due osservatori possono, bontà e della riproducibilità di un paradigma di pur sbagliando entrambi, essere in perfetto ac- annotazione. Come sottolinea Di Eugenio: cordo nel valutare un evento: “This raises the question of how to evaluate the “However, it is important to keep in mind that ‘goodness’ of a coding scheme. One way of do- achieving good agreement cannot ensure validi- ing so is to assess its reliability, namely, to as- ty: two observers of the same event may well sess whether different coders can reach a satis- share the same prejudice while still being objec- fying level of agreement with each other when tively wrong.” they use the coding manual on the same data.” (Artstein & Poesio, 2008: 557) (Di Eugenio, 2000: 441) È inoltre opportuno considerare che l’agreement L’assunto di base è dunque che i dati siano con- raggiunto abitualmente dagli annotatori varia in relazione al livello di esperienza: l’I.A.A. in rater 1 gruppi omogenei è comparabile a prescindere dai c1 c2 c3 tot livelli di esperienza, ma si abbassa qualora ven- c1 9 2 0 11 gano formati gruppi misti di esperti e non esperti: rater c2 0 6 0 6 2 c3 1 0 2 3 “Implicit in discussions of inter-annotator tot 10 8 2 20 agreement is that coders not only agree on which unit belongs to which category, but that if Tab. 1: Esempio di tabella di contingenza they agree these decisions are also correct with 2.1 Agreement senza correzione del caso respect to the phenomenon under scrutiny [...]. In our study, this assumption left us with a di- L’indice più rudimentale è quello percentuale, lemma. Our data showed that experts and non- detto anche “Index of crude agreement” experts could achieve comparable levels of (Goodman & Kruskal, 1954) o “Observed agreement, whereas the average agreement for Agreement” (Ao): la misura corrisponde, banal- mixed groups was significantly lower. In other mente, al rapporto tra il numero di item su cui i words, experts and novices were equally relia- ble, yet did not agree with each other.” rater sono d’accordo ed il numero totale di item. (Bayerl & Paul, 2011: 721) Nell’esempio proposto in tab.1, Ao ha un valore di 0.85. Non tutti i task di annotazione linguistica sono La misura non solo non tiene in considerazio- valutabili secondo le stesse procedure; dal punto ne il ruolo che potrebbe giocare il caso, per cui i di vista qualitativo, si possono individuare alme- rater potrebbero trovarsi in accordo “tirando ad no due tipologie generali (Mathet, Widlöcher, A. indovinare”, ma deve fare i conti con un feno- & Métivier, 2015): meno già notato in Scott (1955) e Artstein & • “individuazione di unità” o “unitizing” Poesio (2008): dati due diversi schemi di codifi- (Krippendorff, 1980), in cui l’annotatore, ca per lo stesso task, quello con il minor numero dato un testo scritto o parlato, deve identifi- di categorie registrerebbe una più alta percentua- care posizione e confine degli elementi lin- le di I.A.A. Il valore è fortemente influenzato guistici (es. identificazione di unità prosodi- anche dal problema della “prevalenza”, ovvero la che o gestuali, topic segmentation); maggior concentrazione di item in una delle ca- • “categorizzazione”: l’annotatore deve attri- tegorie: come avremo modo di discutere in § buire un tag a oggetti linguistici pre- 2.2.1, una simile distribuzione influenza in nega- identificati (es. PoS Tagging, Word Sense tivo la possibilità di raggiungere alti livelli di Disambiguation). I.A.A., indipendentemente dalla grandezza del Il paper si propone di presentare una breve rasse- campione. gna critica delle metriche utilizzate in questa se- 2.2 Misure “kappa” conda tipologia di task, in particolare ponendo attenzione al calcolo dei coefficienti e alla loro Il livello di I.A.A. nell’espressione di giudizi interpretazione. categoriali deve perciò necessariamente essere esplicitato nei termini di eccedenza rispetto 2 I coefficient di agreement all’accordo ottenibile casualmente, pena la man- canza di effettiva informatività. In ambito psi- Adottando la notazione proposta da Artstein & cometrico sono stati introdotti numerosi coeffi- Poesio (2008), ogni studio di I.A.A per i task di cienti statistici in grado di correggere tale aspet- categorizzazione deve prevedere: to: questi indici, a cui si farà riferimento con il • un insieme di item {i | i ∈ I}; nome di “misure kappa”, si fondano su tre as- • un insieme di categorie assegnabili agli item sunti (Soeken & Prescott, 1986): {c | c ∈ C}; • gli item soggetti a valutazione sono indipen- • un insieme di annotatori, che assegnano cia- denti l’uno dall’altro; scun item ad una categoria {r | r ∈ R}. • i rater che giudicano gli item operano in au- Verrà convenzionalmente indicato con A tonomia ed in modo completamente indi- l’agreement e con D il disagreement. Allo scopo pendente; di illustrare le modalità di calcolo dei coefficien- • le categorie usate sono mutualmente esclu- ti, è stato creato ad hoc un esempio fittizio: la sive ed esaustive. situazione immaginata prevede che due annotato- ri assegnino 20 item a 3 categorie. 2.2.1 2 rater che ogni rater assegni un item alla categoria c è dunque 1/c. Il caso base è rappresentato dai coefficienti per la valutazione dei giudizi prodotti da due soli rater, ! ! ! ! ! 4) 𝐴!! = !∈! ! ∙ ! = 𝑐 ∙ = ! ! indice noto ai più come “k di Cohen”. Prima di passare alla presentazione della misura è però Nell’esempio di tab.1 A!! =0.333 e S=0.775. necessaria una piccola premessa terminologica. Il L’assunto dell’uniformità è un prerequisito celebre articolo di Carletta (1996), a cui va il me- estremamente vincolante: per tale ragione non rito di aver stabilito la valutazione risultano, ad oggi, studi di I.A.A. in LC in cui sia dell’agreement come standard de facto in LC, ha stato impiegato questo coefficiente. In aggiunta, introdotto una piccola inconsistenza in letteratura come è stato notato da Scott (1955: 322-323) e (Artstein & Poesio, 2008): la studiosa, nel sugge- riportato da Artstein & Poesio (2008: 561), il rire l’utilizzo di un coefficiente definito “kappa”, valore dell’indice può essere aumentato sempli- fa infatti riferimento non all’originale k proposta cemente inserendo nello schema di codifica cate- in Cohen (1960), ma ad una misura molto simile, gorie vuote. introdotta cinque anni prima da Scott. La que- Il coefficiente π (Scott, 1955), noto anche col stione non si esaurisce in un mero problema ter- nome di K di Siegel & Castellan (1988), assume minologico: esistono infatti tre indici che, pur che se l’attribuzione degli item alle categorie condividendo la medesima formula, sono fondati avviene in modo casuale, la distribuzione sarà su ipotesi diverse riguardo la distribuzione degli uguale per entrambi gli annotatori. 𝑃 𝑐 𝑟! corri- item nelle categorie, ovvero S di Bennett et al., sponderà perciò al rapporto tra il numero totale di π di Scott e k di Cohen. Le differenti ipotesi assegnazioni alla categoria c da parte di entrambi soggiacenti comportano diverse modalità di cal- i rater , nc , e il numero totale di assegnazioni colo e quindi risultati non coincidenti, seppure in compiute, 2i. misura minima. La formula di base è la seguente: !! ! !! !!! 5) 𝐴!! = !∈! !! 1) 𝑆, 𝜋, 𝑘 = !! !! Nel caso in oggetto, A!! = 0.414 e π=0.744. dove Ae è l’agreement dovuto al caso (“Expected k (Cohen, 1960) prevede infine una distribuzione Agreement by chance”); Ao− Ae stima perciò degli item nelle categorie distinta ed unica per l’agreement effettivamente raggiunto al di sopra ciascun annotatore, rappresentata nelle frequenze della soglia della casualità, mentre 1 − Ae misura marginali della tabella di contingenza. quanto accordo eccedente il caso è ottenibile. !! ! ! Mentre Ao è estremamente semplice da calcolare 6) 𝑃 𝑐 𝑟! = ! (§ 2.1) e ha lo stesso valore nelle tre misure, Ae 7) 𝐴!! = !!! ! ∙ !!! ! !∈! richiede invece un modello del comportamento ! ! degli annotatori. Tutti i coefficienti assumono Nell’esempio oggetto di discussione, pertanto, l’indipendenza dei due annotatori che valutano A!! =0.41 e k=0.764. gli item: la probabilità che due rater (r1 ed r2) La corretta scelta dell’indice non può prescindere siano d’accordo su una determinata categoria c è dalla considerazione che i coefficienti sono for- dunque data dal prodotto della probabilità che temente influenzati da disomogeneità nella di- ciascun rater assegni un item a quella categoria, stribuzione dei dati (Feinstein & Cicchetti, 1990; ovvero: Cicchetti & Feinstein 1990; Di Eugenio & Glass, 2) 𝑃 𝑐 𝑟1 ∙ 𝑃 𝑐 𝑟2 2004; Artstein & Poesio, 2008), classificabili in due tipologie principali: la già ricordata “preva- Ae è dato dalla sommatoria di tale probabilità lenza” (tab. 2) e il “bias”, cioè il grado con cui congiunta per tutte le categorie dello schema di gli annotatori sono in accordo/disaccordo nelle codifica. loro valutazioni complessive, ossia le loro “ten- 3) 𝐴!! = 𝐴!! = 𝐴!! = !∈! 𝑃 𝑐 𝑟! ∙ 𝑃 𝑐 𝑟! denze” nell’esprimere giudizi (tab. 3 e 4). La differenza tra S, π e k risiede negli assunti che rater 1 sono alla base del calcolo di 𝑃 𝑐 𝑟! . c1 c2 c3 tot S (Bennett et al., 1954) assume che c1 18 0 1 19 un’annotazione totalmente casuale determini una rater c2 0 0 0 0 distribuzione uniforme degli item nelle categorie, 2 c3 1 0 0 1 ovvero che tutte le categorie dello schema di co- tot 19 0 1 20 difica siano ugualmente probabili; la probabilità Tab. 2: Distribuzione affetta da prevalenza. rater 1 2.2.2 Possibili estensioni c1 c2 c3 tot Sono state proposte moltissime generalizzazioni c1 4 1 1 6 dei coefficienti presentati, per assicurare maggio- rater c2 1 3 3 7 re flessibilità ed adattabilità agli specifici task:1 2 c3 1 2 4 7 tra le più note vi è la “weighted kappa” (Cohen, tot 6 6 8 20 1968), k(w), indice che consente di esprimere del- Tab. 3: Distribuzioni marginali simili. le gradazioni di disaccordo mediante una tabella rater 1 di “pesi” di valore compresi tra 0 e 1 (“weighting c1 c2 c3 tot scheme”), come nell’esempio: c1 4 3 1 8 c1 c2 c3 rater c2 0 3 0 3 c1 1 0 0.5 2 c3 1 4 4 9 c2 0 1 0.5 tot 5 10 5 20 c3 0.5 0.5 1 Tab. 4: Esempio di bias, evidente dalle distri- Tab.4: Esempio di weighting scheme buzioni marginali dissimili (“skewed”). Ao(w) e Ae(w) vengono calcolati in modo affine Nell’esempio di tab. 2, la forte prevalenza in fa- alla k di Cohen (1960), moltiplicando però, in vore della categoria c1 fa sì che A!! = A!! = 0.905. aggiunta, ogni cella della tabella di contingenza Di conseguenza, nonostante Ao sia molto alto per il corrispettivo peso. (0.9), π = k = -0.053, al di sotto della soglia della !!(!) !!!(!) pura casualità. 8) 𝑘(!) = !! !!(!) Si confrontino quindi i dati delle tabelle 3 e 4: sebbene entrambe registrino un Ao di 0.55, nel Se applicata ai dati di Tab.1, k(w) = 0.774. caso in cui le distribuzioni marginali siano molto Sono stati inoltre introdotti indici in grado di simili (tab.3) A!! = 0.335, A!! = 0.336, π = 0.322, k quantificare l’I.A.A. tra tre o più annotatori: in = 0.323; l’effetto di bias (tab.4), invece, affligge primis la cosiddetta k di Fleiss (1971), che esten- la k di Cohen, in ragione delle modalità di calco- de l’indice π di Scott (“multi-π ”), ed il coeffi- ciente presentato in Davies & Fleiss (1982) che lo di 𝑃 𝑐 𝑟! : A!! = 0.334, A!! = 0.287, π = 0.326, k generalizza la k di Cohen (“multi-k”);2 ma so- = 0.368. La differenza tra π e k è empiricamente prattutto il coefficiente α di Krippendorff minima: A!! ≥ A!! , perciò π ≤ k. I due coefficienti (1980), che esprime l’I.A.A. in termini di disa- assumono lo stesso valore nel caso (limite) in cui greement, osservato (Do) e dovuto al caso (De): le distribuzioni marginali dei due rater siano ! identiche, come in tab. 2. 9) 𝛼 = 1 − ! !! A fronte di ciò, laddove non sia possibile effet- tuare uno studio che coinvolga più di due rater, La formula, pur essendo stata derivata dalla mi- sembrerebbe pertanto da preferire il coefficiente sura della varianza, non fa esplicito riferimento π di Scott, in grado di generalizzare il compor- alle medie dei campioni e può pertanto essere tamento dei singoli annotatori. In letteratura sono generalizzata ad una moltitudine di schemi di state fatte varie proposte riguardo la modalità di codifica in cui le categorie non siano interpreta- presentazione dei risultati dell’I.A.A per due an- bili come valori numerici; come per la weighted notatori: allo stato dell’arte sembrerebbe preferi- kappa si possono inoltre attribuire pesi alle di- bile adottare la soluzione suggerita da Byrt et al. 1 Alcune estensioni delle misure “kappa”, troppo complesse (1993) e adottata da Di Eugenio & Glass (2004), per essere descritte esaurientemente in questa sede, consen- ovvero presentare congiuntamente diversi coeffi- tono ad esempio di valutare l’I.A.A nel caso in cui i rater cienti: effettuino osservazioni multiple, e non necessariamente di ugual numero, oppure di gestire gli schemi di annotazione • k, che in linea di principio meglio si adatta che prevedono la possibilità di attribuire più di una classifi- alla valutazione di annotazioni che coin- cazione agli item (Kraemer, 1980). volgono dati linguistici, e rende conto di 2 Le modalità di calcolo sono affini ai coefficienti già de- eventuali tendenze dei rater; scritti. Per i dettagli si rinvia perciò a Fleiss (1971), Davies & Fleiss (1982) e all’ottima sintesi di Artstein & Poesio • π, immune all’effetto di bias; (2008) e Artstein (2017). Si noti che Ao non potrà essere • una terza misura, 2Ao-1, in grado di neu- definito come “percentuale di item su cui c’è accordo”, tralizzare l’effetto di prevalenza (Byrt et visto che con altissima probabilità ci saranno nei dati item al., 1993). su cui alcuni rater saranno d’accordo e altri no: la soluzione proposta in letteratura a partire da Fleiss (1971) è di misura- re l’I.A.A. “pairwise”, ovvero “a coppie”. verse tipologie di disagreement, utilizzando accordo, se due set di giudizi differiscono siste- weighting scheme oppure introducendo nel cal- maticamente. colo delle metriche, ad esempio l’indice statistico La ragione di tali fraintendimenti deve probabil- MASI (Passonneau, 2006; Dorr et al., 2010).3 α mente essere rintracciata nell’uso sostanzialmen- è equivalente a multi-π per campioni numerosi, te sinonimico dei termini “reliability” e “agree- ma è in grado, non imponendo un numero mini- ment” (Stemler, 2004); come puntualizzato da mo di item, di mitigare gli effetti statistici di da- Krippendorff (2004), in realtà: taset a bassa numerosità campionaria; inoltre, “To be clear, agreement is what we measure; consentendo la gestione di dataset incompleti, è reliability is what we wish to infer from it.” utilizzabile (o addirittura preferibile) nel caso in (Krippendorff, 2004: 413) cui l’annotazione si svolga in maniera collabora- Le correlazioni statistiche possono senza dubbio tiva e distribuita, ad esempio su piattaforme di costituire un’informazione interessante nella va- crowdsourcing. lutazione globale dell’affidabilità di un dataset, a patto però che tale nozione sia tenuta distinta 3 Reliability: agreement o correlazione? dall’I.A.A. in senso stretto. In letteratura, in particolare in ambito clinico (Bishop & Baird, 2001; Van Noord & Prevatt, 4 La valutazione dei coefficienti 2002; Massa et al., 2008; Gudmundsson & Gre- La valutazione dei valori assunti dai coefficienti tarsson, 2009), non è infrequente che, nella stima chance-corrected rappresenta, ad oggi, un aspet- dell’I.A.A, vengano preferiti o affiancati alle mi- to critico: gli indici possono assumere valori sure presentate la statistica χ2 oppure gli indici compresi tra -1 e 1, dove k = 1 corrisponde ad un statistici di correlazione (coefficiente R di Pear- I.A.A. perfetto, k = 0 ad un I.A.A. completamen- son in primis, ma anche i non parametrici ρ di te casuale e k = -1 ad un perfetto disaccordo. Spearman e τ di Kendall). Non è però soddisfacente sapere che k abbia un Come già notato da Cohen (1960), l’utilizzo del valore superiore alla totale casualità, ma occorre χ2 è una prassi da considerarsi scorretta, poiché assicurarsi, piuttosto, che gli annotatori non si la statistica, applicata alla tavola di contingenza, discostino troppo dall’agreement assoluto (Co- misura casualità e grado di associazione tra i set hen, 1960; Krippendorff, 1980). di giudizi, non l’agreement (Banerjee et al., A prescindere dal mero valore numerico, va rile- 1999). vato come i vari studiosi che hanno tentato di “[...] Many investigators have computed χ2 over indicare delle soglie di riferimento abbiano sotto- the table for use as a test of the hypothesis of lineato l’arbitrarietà delle loro proposte: in primis chance agreement, and some have gone on to Landis & Koch (1977), a cui si deve la più nota compute the contingency coefficient (C) as a griglia per l’interpretazione dei coefficienti: measure of degree of agreement. [...] It is readi- ly demonstrable that the use of χ2 (and therefore Kappa Statistic Strength of Agreement the C which is based on it) for the evaluation of < 0.0 Poor agreement is indefensible. When applied to a 0.00 - 0.20 Slight contingency table, χ2 tests the null hypothesis 0.21 - 0.40 Fair with regard to association, not agreement. 0.41 – 0.60 Moderate (Cohen, 1960: 38) 0.61 – 0.80 Substantial 0.81- 1.00 Almost Perfect Altrettanto scorretta dal punto di vista metodolo- gico è l’applicazione di coefficienti di correla- Tab. 5: Griglia per l’interpretazione delle misure k zione inter-/intra- classe, che ugualmente non (Landis & Koch, 1977). quantificano l’I.A.A. ma la forza di associazione Così anche Krippendorff, la cui proposta di rifiu- tra gruppi di valori (Bland & Altman, 1986; tare valori di k inferiori a 0.67, accettare quelli Kottner et al., 2011; Stolarova et al., 2014). Si superiori a 0.8 e considerare incerti quelli com- noti inoltre che, dal punto di vista empirico, presi nel range costituisce uno dei principali un’ottima correlazione tra annotazioni può essere punti di riferimento in letteratura sull’argomento. raggiunta anche in caso di completa mancanza di “Except for perfect agreement, there are no magical numbers, however.” (Krippendorff, 2004: 324) 3 MASI è basato sul coefficiente di Jaccard (1908) e quindi stabilisce la somiglianza/diversità tra insiemi campionari in Va infine rilevato come il disagreement non sia termini di distanza. necessariamente indice di bassa qualità dell’annotazione, scarso training degli annota- Bland, M. J. & Altman, D. (1986). Statistical methods tori o di guideline mal definite (Aroyo & Welty, for assessing agreement between two methods of 2015), soprattutto nei task di natura semantica; clinical measurement. Lancet, 327:307–310. ed anche che, per aumentare l’affidabilità del Byrt, T., Bishop, J. & Carlin, J. B. (1993). Bias, prev- dataset annotato, non debba necessariamente alence and kappa. Journal of Clinical Epidemiolo- essere evitato o eliminato: in LC la sua presenza gy, 46(5):423–9. può infatti essere sfruttata esplicitamente, per Carletta, J. (1996). Assessing agreement on classifica- migliorare le performance di sistemi automatici tion tasks: the kappa statistic. Computational Lin- (come ad esempio in Chklovski & Mihalcea, guistics, 22(2):249–254. 2003; Plank, Hovy & Søgaard, 2014). Chklovski, T. & Mihalcea, R. (2003). Exploiting Agreement and Disagreement of Human Annota- 5 Conclusioni tors for Word Sense Disambiguation. In: Procee- Come suggerito nei paragrafi iniziali, un alto li- dings of the Conference on Recent Advances in vello di I.A.A. non costituisce un risultato in sé, Natural Language Processing (RANLP 2003). ma soltanto uno fra gli indicatori della reale affi- Cicchetti, D.V. & Feinstein, A.R. (1990). High dabilità dell’annotazione sottoposta a validazio- Agreement but low Kappa: II. Resolving the para- ne. È perciò auspicabile che un sempre maggior doxes. Journal of Clinical Epidemiology, 43:551– numero di dati sull’I.A.A. nei diversi task di an- 558. notazione sia condiviso dai ricercatori, in modo Cohen, J. (1960). A Coefficient of Agreement for da facilitare l'emergere per confronto dei valori Nominal Scales. Educational and Psychological di riferimento. Measurement, 20(1):37. Cohen, J. (1968). Weighted kappa: Nominal scale agreement with provision for scaled disagreement Bibliografia or partial credit. Psychological Bulletin, 70(4):213– Aroyo, L. & Welty, C. (2015). Truth Is a Lie: Crowd 220. Truth and the Seven Myths of Human Annotation. Davies, M. & Fleiss, J. L. (1982). Measuring Agree- AI Magazine, 36 (1):15–24. ment for Multinomial Data. Biometrics, Artstein, R. (2017). Inter-annotator Agreement. In: 38(4):1047–1051. Ide, N. & Pustejovsky, J. (eds.), Handbook of Lin- Di Eugenio, B. (2000). On the usage of Kappa to guistic Annotation. Springer, Dordrecht, pp. 297– evaluate agreement on coding tasks. In: Calzolari 314. N. et al. (eds): Proceedings of the Second Interna- Artstein, R. & Poesio, M. (2008). Inter-Coder Agree- tional Conference on Language Resources and ment for Computational Linguistics. Computation- Evaluation (LREC 2000), ELRA - European Lan- al Linguistics, 34(4):555–596. guage Resources Association, Paris, pp. 441–444. Bayerl, P. S. & Paul, K. I. (2011). What determines Di Eugenio, B. & Glass, M. (2004). The Kappa statis- Inter-Coder Agreement in manual annotations? A tic: a second look. Computational Linguistics, meta-analytic investigation. Computational Lin- 30(1):95–101. guistics, 37(4):699–725. Dorr, B.J., Passonneau, R.J., Farwell, D., Green, R., Banerjee, M., Capozzoli, M., McSweeney, L. & Sin- Habash, N., Helmreich, S., Hovy, E., Levin, L., ha, D. (1999). Beyond Kappa: A Review of Inter- Miller, K. J., Mitamura, T., Rambow, O. & Sid- rater Agreement Measures. The Canadian Journal dharthan, A. (2010). Interlingual annotation of par- of Statistics / La Revue Canadienne de Statistique, allel text corpora: A new framework for annotation 27(1):3–23. and evaluation. Journal of Natural Language En- gineering, 16(3):197–243. Bennett, Alpert, R. & Goldstein, A. (1954). Commu- nications through limited response questioning. Feinstein, A.R. & Cicchetti, D.V. (1990). High Public Opinion Quarterly, 18:303–308. agreement but low kappa: I. The problems of two paradoxes. Journal of Clinical Epidemiology, Bishop, D.V. & Baird, G. (2001). Parent and teacher 43:543–549. report of pragmatic aspects of communication: use of the children’s communication checklist in a clin- Fleiss, J. L. (1971). Measuring nominal scale agree- ical setting. Developmental medicine and child ment among many raters. Psychological Bulletin, neurology, 43:809–818. 76(5):378–382. Goodman, L. A. & Kruskal, W. H. (1954). Measures of association for cross classifications. Journal of the American Statistical Association, 49(268): Soeken, K.L. & Prescott, P.A. (1986). Issues in the 732–764. use of kappa to estimate reliability. Medical Care, 24(8):733–41. Gudmundsson, E. & Gretarsson, S. J. (2009). Com- parison of mothers’ and fathers’ ratings of their Stemler, S.E. (2004). A Comparison of Consensus, children’s verbal and motor development. Nordic Consistency, and Measurement Approaches to Es- Psycholgy, 61:14–25. timating Interrater Reliability. Practical Assess- ment, Research & Evaluation, 9:66–78. Jaccard, P. (1908). Nouvelles recherches sur la distri- bution florale. Bulletin de la Société Vaudoise des Stolarova, M., Wolf, C., Rinker, T. & Brielmann, A. Sciences Naturelles, 44:223–270. (2014). How to assess and compare inter-rater reli- ability, agreement and correlation of ratings: an ex- Kottner, J., Audige, L., Brorson, S., Donner, A., emplary analysis of mother-father and parent- Gajewski, B.J., Hróbjartsson, A., Roberts, C., teacher expressive vocabulary rating pairs. Fron- Shoukri, M. & Streiner, D.L. (2011). Guidelines tiers in psychology, 5, 509. for reporting reliability and agreement studies (GRRAS) were proposed. International journal of Van Noord, R.G. & Prevatt, F.F. (2002). Rater nursing studies, 48:661–671. agreement on IQ and achievement tests: effect on evaluations of learning disabilities. Journal of Kraemer, H. C. (1980). Extension of the kappa coeffi- School Psychology, 40(2):167–176. cient. Biometrics, 36(2):207–16. Warrens, M. J. (2010). Inequalities between multi- Krippendorff, K. (1980). Content Analysis: an intro- rater kappas. Advances in Data Analysis and Clas- duction to its Methodology. Sage Publications, sification, 4(4):271–286. Thousand Oaks, CA. Krippendorff, K. (2004). Reliability in content analy- sis: Some common misconceptions and recom- mendations. Human Communication Research, 30(3):411–433. Landis, J. R. & Koch, G. G. (1977). The Measure- ment of Observer Agreement for Categorical Data. Biometrics, 33(1):159–174. Massa, J., Gomes, H., Tartter, V., Wolfson, V. & Halperin, J.M. (2008). Concordance rates between parent and teacher clinical evaluation of language fundamentals observational rating scale. Interna- tional Journal of Language & Communication Disorders, 43:99–110. Mathet, J., Widlöcher, A. & Métivier, J. (2015). The Unified and Holistic Method Gamma (γ) for Inter- Annotator Agreement Measure and Alignment. Computational Linguistics, 41(3):437–479. Passonneau, R. (2006). Measuring agreement on set- valued items (MASI) for semantic and pragmatic annotation. In: Proceedings of the fifth Interna- tional Conference on Language Resources and Evaluation (LREC 2006). ELRA European Lan- guage Resources Association, Paris. Plank, B., Hovy, D. & Søgaard, A. (2014). Learning part-of-speech taggers with inter-annotator agree- ment loss. In: Proceedings of the 14th Conference of the European Chapter of the Association for Computational Linguistics, pp. 742–751. Scott, W.A. (1955). Reliability of Content Analysis: The Case of Nominal Scale Coding. Public Opin- ion Quarterly, 19(3):321–325. Siegel, S. & Castellan, J. (1988). Nonparametric sta- tistics for the behavioral sciences. McGraw-Hill, Boston, MA.