-

Вероятностные модели и методы оценки качества эталонных массивов текстов при классификации

г. Москва vvg_

@mail.ru

2009

127 136

В работе рассматриваются вероятностные модели ошибок экспертов при формировании эталонных массивов текстов, а также методы их вычисления. В рамках данных моделей находятся взаимосвязи между истинными и наблюдаемыми показателями качества, определяются размеры тестовых выборок и максимальные значения показателей качества. Приводятся примеры вычисления ошибок на материалах дорожек РОМИП.

При оценке качества классификации обычно производится сравнение результатов автоматической классификации с результатами ручной классификации, выполненной экспертами. При этом предполагается, что в эталонной ручной классификации ошибки отсутствуют. Однако на практике эксперты при оценивании документов также совершают ошибки, которые могут быть вызваны различными причинами: невнимательностью, случайными опечатками, неоднозначностью наименования рубрик, низкой квалификацией экспертов в рассматриваемой предметной области, большим количеством рубрик и др. В результате получаемые оценки качества являются искаженными и даже для полностью правильной классификации показатели качества могут отличаться от своих максимальных значений.

Развитие специальных сервисов в сети Интернет, которые обеспечивают привлечение к работе по формированию эталонных массивов текстов большого количества анонимных пользователей, дополнительно повышают актуальность исследований в области оценки качества получаемых таким образом массивов.

Оценку качества эталонных массивов проводить в следующих двух ситуациях.

1. Эталонный массив подготовлен ранее неизвестными экспертами – в данном случае у документа имеется только одна оценка, полученная неизвестным экспертом, и нет возможности управления работой экспертов.

2. Эталонный массив формируется известными экспертами – в данном случае для каждого документа имеется фиксированное число оценок, выполненных известными экспертами, и можно управлять процессом оценки документов.

В современной литературе основное внимание уделяется второй ситуации и оценка качества эталонного массива часто сводится к простой оценке степени согласованности мнений экспертов.

Для оценки согласованности мнений экспертов разработано много различных коэффициентов и показателей. При этом наибольшее распространение получили методы [ 1 ],[ 3 ],[ 5 ],[ 14 ], основанные на использовании различных вариантов статистики , которая имеет следующий вид: =

0 − , − где 0 - базовая статистика, оценивающая согласованность мнений экспертов, - оценка значения 0 в случае выполнения случайной классификации объектов, - оценка максимально возможного значения 0.

Для проверки гипотезы о наличии статистически значимого отклонения меры согласованности от нулевого значения требуется знание распределения . На практике такое распределение удается аналитически описать только для простейших случаев. По этой причине для проверки соответствующих гипотез обычно используют бутстреп метод [ 9 ]. В некоторых работах [ 2 ] предлагают использовать следующие неформальные оценки значений . Если < 0.4, то считается, что мнения не согласованы, если 0.4 ≤ < 0.75, то считается, что мнения слабо согласованы, и, если > 0.8, то мнения сильно согласованы. Однако такой подход является не совсем корректным, так как с ростом числа объектов статистически значимыми являются и меньшие отклонения от 0. Основным же недостатком данных методов является то, что значения статистики напрямую не связаны со значениями показателей качества классификации.

Отдельные вопросы прямого влияния ошибок 2.1 Общее описание вероятностных моделей можно векторов: Для анализа

влияния ошибок в эталонном массиве на показатели качества классификации будем считать, который может что быть имеется объект

(текст) , одновременно отнесен к нескольким классам из множества Ω = { 1, … , }. Результаты классификации отдельного объекта представить с помощью следующих 0 = ( 10, … , 0), 0 ∈ {0,1} – ненаблюдаемый истинный вектор эталонной классификации объекта ; экспертный объекта ̂ 0 = (̂ 10, … , ̂ 0), ̂ 0 ∈ {0,1} – наблюдаемый (данный вектор может отличаться от истинного вектора из-за наличия ошибок); вектор

оцениваемой 1 = ( 11, … , 1), 1 ∈ {0,1} классификации объекта отличаться от истинного вектора), –

наблюдаемый (автоматической) (данный вектор может где 0, ̂ 0, 1 = 1, если объект относится к классу , и 0

, ̂ 0, 1 = 0, в противном случае, = 1, … , . Соответственно результаты классификации классам 1 , … ,

, объектов 1, … , , которые помощью следующих матриц размера × : могут быть

представлены с распределены по 0 = 0 × – ненаблюдаемая истинная матрица эталонной классификации, в которой нет ошибок; вектор эталонной классификации классификации.

̂ 0 = ̂ 0 1 = 1 × × оценивается, = 1, … . , . могут

быть вероятностей: эталонной классификации, в которой есть ошибки; автоматической классификации, качество которой где 0, ̂ 0 , 1 = 1, если объект относится к классу , и , 1 = 0, в противном случае, = 1, … , , – наблюдаемая экспертная матрица – наблюдаемая матрица Основные показатели качества классификации представлены в виде следующих – истинное и наблюдаемое значение точности; – истинное и наблюдаемое значение полноты; сокращения записи будем записывать без индекса . Например, элементы 0, ̂ 0, 1 будем записывать – 0, ̂0, 1 . экспертов: Рассмотрим следующие модели ошибок - модель независимых ошибок – предполагается, что ошибки носят случайный характер и не зависят от значений истинного вектора эталонной классификации;

- модель условных ошибок – предполагается, что ошибки, значений совершаемые

экспертом, истинного вектора зависят

от эталонной 2.2 Модель независимых ошибок экспертов В рамках данной модели взаимосвязь истинной и , 1 = (1−2 ) 0 0+ 1 (1−2 ) 0+ , где 1 ≥ 1

1 1 1+ − 1 0 = (21−2 ) 1+(− ), 1 = 2 1+(1−2 ) 1+ 0 0. █ 1+ 0(1−2 )+ Таким образом, с использованием выражений, приведенных в утверждении 1, можно зная уровень ошибок экспертов восстанавливать истинные значения показателей качества классификации по наблюдаемым экспертным показателям.

Заметим, что при = 1 экспертные оценки 2 показателей качества становятся не связанными с истинными значениями показателей качества, так как в данном случае 1 = 1/2, 1 = 1/2, 1 = 1, что не позволяет восстанавливать значения истинных показателей качества.

С использованием приведенных соотношений можно оценить диапазон изменения показателей качества при изменении уровня ошибок экспертов.

Следствие 1. При фиксированном значении ϵ ∈ (0,1) получаем, что E1 ∈ (ϵ, 1 − ϵ), P1 ∈ (ϵ, 1 − ϵ), R1 ∈ (1−2ϵϵπ)1π0+ϵ , 1 − (1ϵ−12−ϵ)ππ10+ϵ .

На следующих рисунках приведены значения наблюдаемых показателей качества при фиксированных значениях истинных показателях качества и различных значениях ошибки.

Как можно заметить из приведенного рисунка даже при небольших значениях вероятности ошибки эксперта истинные и наблюдаемые значения полноты могут существенно отличаться. 0.20 0.02 0.04 0.06 0.08 0.1 0.12 0.14 0.16 0.18 0.2

ε, π1=0.2 Рис. 3. График зависимости оценки истинной Fмеры 0 от вероятности ошибки эксперта при различных фиксированных значениях наблюдаемой F-меры 1и фиксированных значениях 1 = = 0.2 Как можно заметить из приведенного рисунка ошибка эксперта оказывает относительно меньшее влияние на значения F-меры, чем на значения полноты, но наблюдаемые значения все равно могут заметно отличаться. 2.3 Модель условных ошибок экспертов В рамках данной модели предполагается, что вероятность ошибки эксперта зависит от того относится документ к рубрике или нет. Взаимосвязь истинной и экспертной классификации можно представить в виде следующего соотношения: ̂ 0 = 0(1 − 1) + (1 − 0) 2, где 1 ∼ ( ) – независимая случайная величина, которая определяет ошибки первого рода, 2 ∼ ( ) – независимая случайная величина, которая определяет ошибки второго рода. ошибке второго рода. 3 Оценка размеров эталонных массивов текстов 3.1 Оценка размеров эталонных массивов в рамках модели независимых ошибок Для оценки размеров эталонных массивов текстов рассмотрим влияние, оказываемое ошибками экспертов на дисперсию выборочных которые вычисляются следующим образом. оценок ошибки 1, точности 1 и полноты 1, 1 =1 1 =

(̃ 0 ≠ 1), 1 = 1 = ∑ =1 , 1=1 (̂ 0 = 1)

∑=1 ( 1 = 1) ∑ =1 , ̂0=1 (̂ 0 = 1) ∑=1 (̂ 0 = 1) = = ∑=1 ̂ 0 1 ∑=1 1 ,

∑=1 ̂ 0 1 ∑=1 ̂ 0 , 1 = 1, 1 = 1,

1 = 1 1(1 − 1), 1 = 1(1 − 1) 1, Труды 15-й Всероссийской научной конференции «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» — RCDL-2013, Ярославль, Россия, 14-17 октября 2013 г. где ( ) ∈ {0,1} – индикаторная функция, 0 = данные ∑=1 ̂ 0, 1 = ∑=1 1.

где

1 0 = 0 = 1− , 1−2 1− , 1−2 0 = 1− − 1 ,

0, 0 = 1 0(1 − 0), 0 = 0(1 − 0) 1, 0 = 0(1 − 0) 0, Заметим, что если бы имелась возможность напрямую подсчитать статистики для истинных значений показателей качества, то их дисперсии были бы равны следующим величинам:

Отсюда получаем, что справедливо следующее

Следствие 1.

Для

(1−2 )2 + 1 – увеличение размера выборки для сохранения точности оценивания 0, 0( − ) 1−2 1 + 1 − 1 (− )2

0 = 0(1 − 0) +

где 1

1 4 Оценка вероятностей ошибок 4.1 Общее описание подхода

Для возможности практического использования выявленных зависимостей между истинными и наблюдаемыми значениями показателей качества классификации необходимо знать значения вероятностей ошибок экспертов. Однако их оценка является достаточно сложной задачей по следующим причинам:

1. Истинные матрицы эталонных классификаций являются неизвестными, что не позволяет вычислить ошибки экспертов напрямую;

2. В большинстве случаев доступной является только одна

матрица экспертной классификации, что не позволяет оценивать качество работы одних экспертов по отношению к другим экспертам. , – число кластеров (число документов с повторной оценкой экспертами). можно

Ψ = – число 1 , … ,

, где ∈ {0,1}.

Пусть, как и ранее, зафиксирован некоторый класс , = 1, … , . Тогда каждому кластеру , = 1, … , , можно поставить в соответствие 0 ∈ {0,1} – истинный признак относимости к классу и , и 0, в противном случае. Тогда для = 1, … , ( = 1) = 1 = ⋯ = = (1 − ) + . Из приведенного утверждения следует, что 1, … , . Это свойство позволяет для нахождения 2 2 ∗ = − 1 1 результатов экспертной классификации.

- число единиц в векторе Отсюда получаем выражение для нахождения (

( 1, 10, … , , 0, , )| 1, . . , , , ) =

∑=1 ( + − 2 ) Для задания начальных значений параметров и можно положить равной небольшому числу больше 0, например, = 0.01, а = 1. В качестве критерия завершения работы алгоритма можно использовать два условия: число итераций равно 2

– положительное целое число, разница между новым и старым значениями меньше Δ ∈ (0,1).

Теперь можно описать ЕМ-алгоритм оценивания вектора экспертных классификаций. справедливы следующие равенства:

= 0(1 − 1 ) + (1 − 0) 2 , 1 , 2 ∈ {0,1} – независимые , математического правдоподобия: Отсюда получаем выражение для нахождения ожидания равно

Для задания начальных значений параметров , и можно положить = = 0.01, а = 1. В качестве критерия завершения работы алгоритма можно использовать два условия: число итераций 2 – положительное целое число, разница вектора экспертных классификаций. 0.01, ( ) = 12, = ∑= 1 , = 1, … , . следующего выражения: апостериорные вероятности ∑=1 1 −

∑=1 1 − ( ) ( ) , , 1 =1 ( ).

4. Критерий завершения = + 1.

Если ( )|, (+1 ) − ( ) > < Δ , то работы. или 3-х бальной шкале, 5 бальной шкале. В следующей таблице приведены

оценки вероятностей ошибок практике величины ошибок могут быть достаточно большими и существенно отличаться для различных классов. Знание вероятностей ошибок позволяет получить оценки истинных значений показателей качества классификации, оценить объем исходных данных, необходимых для получения требуемой точности оценивания показателей качества. Пример оценивания условных ошибок экспертов в рамках дорожки по классификации тональности оценок пользователей РОМИП2012. Для иллюстрации оценивания вероятностей ошибок рассмотрим опять массив с оценками книг, который был сформирован в рамках РОМИП-2012.

В результате оценивания ошибок экспертов первого и второго рода представлены в форме гистограмм распределения значения ошибок по рубрикам на следующих двух рисунках (такая форма выбрана из-за большого числа рубрик). 200 кри б уро150 л с и Ч 100 50 = 0.63.

Сравнение полученных максимальных значений показателей качества с теми, которые были достигнуты участниками дорожки (максимальное значение точности – 35%, максимальное значение полноты было равно 45%), объясняет получение участниками низких значений показателей качества. истинные значения классификации по оценкам значений - вычислять максимально возможные значения показателей качества классификации при данном уровне ошибок экспертов;

- оценивать величину дисперсии показателей качества и определять размер тестовых выборок, необходимый для обеспечения требуемой точности их оценивания, в зависимости от уровня ошибок экспертов;

- определять рубрики, которые требуют более внимательного оценивания.

Предложенный подход к оценке вероятностей ошибок экспертов является достаточно общим и его можно обобщить и для случая оценивания матриц условных вероятностей, рассматриваемых в работах [ 4 ] и [ 8 ]. Литература

[1] Cohen

A coefficient of agreement for nominal scales // Educ . Psychol. Measurement . - 1960: Vol. 20 . - p. 37 - 46 .

[2] Eye

, Mun

E. Y.

Analyzing Rater Agreement: Manifest Variable

Methods

: Taylor and Francis, 2006 . - 190 p.

[3] Fleiss

J. L.

Measuring nominal scale agreement among many raters // Psychological Bulletin . - 1971: Vol. 76 . - p. 378 - 382 .

[4] Gulin

, Kuralenok

, Pavlov D. Winning

The Transfer Learnin Track of Yahoo!'s Learning To Rank Challenge with YetiRank //

Journal of Machine Learning Research , Vol. 14 , 2011 . - p. 63 - 76 .

[5] Gwet

K. L.

Handbook of Inter-Rater Reliability: The Definitive Guide to Measuring the Extent of Agreement Among Multiple Raters: Advanced Analytics , LLC , 2010 . - 294 p.

[6] Lam

C. P.

, Stork

D. G.

Evaluating classifiers by means of test data with noisy labels //

Proceedings of the International Joint Conference on Artificial Intelligence , AAAI Press, 2003 . - p. 513 - 518 .

[7] Lewis

D. D.

, Sebastiani F. Report on the Workshop on Operational Text Classification systems (OTC -01) // SIGIR Forum. - 2001 . - 2 : Vol. 35 . - p. 8 - 11 .

[8] Metricov

, Pavlu

, Aslam

J. A

. Impact of Assessor Disagreement on Ranking Performance // SIGIR' 12 . - Portland, Oregon, USA, 2012 . - p. 1091 - 1092 .

[9] Reichenheim

M. E.

Confidence intervals for the kappa statistic // The Stata Journal . - 2004: Vol. 4 . - p. 421 - 428 .

[10] Scholer

, Turpin

, Sanderson

. Quantifying Test Collection Quality Based on the Consistency of Relevance Judgements // SIGIR'11 , Beijing, China, 2011 . - p. 1063 - 1072 .

[11] Sebastiani

Machine learning in

automated text categorization // ACM Comput. Surv. - 2002 . - 1 : Vol. 34 . - p. 1 - 47 .

[12] Webber

, Oard

D. W.

, Scholer F. Assessor Error in Stratified Evaluation // CIKM'10, Toronto, Ontario, 2010 . - p. 539 - 548 .

[13] Агеев

М. С.

, Добров

. В., Лукашевич

. В. Поддержка системы автоматического рубрицирования для сложных задач классификации текстов // Труды 6-ой Всероссийской научной конференции - RCDL2004 , 2004 . - 10 c.

[14] Заславский

А. А.

, Пригарина

. А. Оценка согласованности субъективных классификаций при заданных классах // Социология. - 1994: Vol. 3 - 4 . - c. 84 - 109 .