Повышение качества классификации текстов путем модификации обучающего множества © А.Ю. Колесов Ярославский Государственный Университет им. П.Г. Демидова, Ярославль kolesov.ay@ya.ru значение каждого из которых означает, насколько Аннотация соответствующий ему биомедицинский термин Автоматическую классификацию текстов характеризует данный документ. часто используют для структурирования больших объемов данных. В этой работе 2.2 Предобработка данных предложен новый метод повышения качества классификации путем Данные представляют из себя матрицу документ модификации обучающего множества. — вес атрибута. Веса атрибутов предоставлены Метод опробован на общедоступной организаторами JRS'12. Для проведения коллекции текстов, где один документ экспериментов мы нормировали строки матрицы по может относится к нескольким классам. норме l2. 1 Введение 2.3 Метрики качества классификации Рассмотрим задачу классификации, когда Пусть N — количество тестовых документов. имеется много рубрик, один документ может TrueTopicsi — множество верных (отмеченных относится к одной или нескольким рубрикам (multi- экспертом) меток рубрик для i-ого документа. label задача). В работе [1] представлены методы PredTopicsi — множество меток рубрик, повышения качества классификации в условиях которые выдает классификатор для i-ого документа. неполноты обучающего множества. Это условие Определим следующие метрики качества означает, что для некоторых объектов из обучения классификации, подсчитываемые для i-ого могут быть не проставлены некоторые метки документа: классов (рубрик). В этой работе мы, во-первых, смоделируем ∣TrueTopicsi∩PredTopics i∣ ситуацию неполноты меток на хорошо размеченной Precisioni= ∣PredTopicsi∣ коллекции биомедицинских исследовательских статей, представленной на конкурсе JRS'12 [2] и ∣TrueTopicsi∩PredTopicsi∣ доступной на сайте конкурса. Тем самым еще раз Recalli= ∣TrueTopicsi∣ покажем, что методы из статьи [1] хорошо работают. Во-вторых, исходя из результатов Precision ⋅Recall i i экспериментов, предложим метод повышения Fscorei =2⋅ Precision i+ Recall i качества классификации для multi-label задач без предположения неполноты данных (т. е. для хорошо Для каждой метрики будем рассчитывать размеченных данных). усредненные метрики: 2 Материалы и методы N ∑ Metric i 2.1 Данные JRS'12 AvgMetric = i =1 Коллекция данных JRS'12 представляет из себя N набор из 20000 биомедицинских статей, доступных на PubMed Central [3]. Каждая из статей была Подставляя вместо Metric i соответствующую размечена экспертами Pubmed в области определенную выше метрику (например, биомедицины по MeSH (Medical Subject Headings) [4 Fscorei ), получаем ее усреднение по тесту. ]. Каждый документ имеет 25640 атрибутов, 2.4 Эксперименты Труды 14-й Всероссийской научной конференции Установки экспериментов классификации точно «Электронные библиотеки: перспективные методы и такие же как в работе [1]. Здесь приведены результа- технологии, электронные коллекции» — RCDL-2012, Переславль-Залесский, Россия, 15-18 октября 2012 г. ты только с использованием модификации обучаю- 338 Таблица 1 Значения метрик классификации Доля Параметры w-kNN До модификации обучающего множества После модификации обучающего множества удаленных меток Optimal k Optimal T precision recall F-score precision recall F-score 0- - 0,444 0,6377 0,5235 - - - 0,1 5 0,1 0,46 0,5742 0,5108 0,5151 0,577 0,5443 0,2 15 0,1 0,3679 0,5239 0,4322 0,508 0,5702 0,5373 0,4 15 0,05 0,3204 0,4455 0,3727 0,4788 0,5741 0,5222 0,6 35 0,05 0,1469 0,338 0,2048 0,5387 0,4559 0,4939 . щего множества на основе метода k-взвешенных 4 Выводы ближайших соседей (w-kNN). Применение предложенного метода повышения Опишем, как мы моделировали неполноту меток качества классификации позволило улучшить в обучении. Для этого задается доля удаляемых результаты по F-мере с 52,35% до 54,43%, т. е. В меток. Затем случайным образом отбирается относительном выражении на 4%. Отметим, что заданное количество меток, но так, чтобы ни один значение 54,43% превосходит лучший результат документ не остался без меток и ни одна рубрика не участников конкурса JRS'12 (53,579%). осталась без документов. Затем проводится обучение/классификация на полученном обучаю- Также мы подтвердили результаты работы [1] щем множестве и на его модификации. путем моделирования на хорошо размеченной коллекции данных. 3 Результаты Описанный в работе эффект требует дополнительного изучения. Требуется определить В Таблице 1 представлены результаты правило для вычисления, какую долю меток экспериментов. В ячейке первого столбца указана удалять. Работает ли этот метод на multi-class доля удаленных меток при моделировании. задачах? Это дело дальнейшей работы. Например, 0,2 — означает, что 20% исходных меток (т. е. пар документ-рубрика были удалены из Литература обучающего множества). Во втором и третьем столбце указаны подобранные (см. [1]) оптимальные [1] Колесов А.Ю. Методы классификации в усло- значения для алгоритма w-kNN, где k — количество виях противоречивого обучающего множества. используемых ближайших соседей, T — порог Труды 13-й Всероссийской научной конферен- принадлежности рубрики документу. В следующих ции «Электронные библиотеки: перспективные столбцах содержатся значения метрик до и после методы и технологии, электронные коллекции» модификации обучающего множества. — RCDL-2011. Воронеж: 2011, с. 140-146. Как и ожидалось при удалении меток результаты [2] JRS 2012 Data Mining Competition: Topical Clas- по F-мере ухудшаются (чем больше меток удаляем, sification of Biomedical Research Papers. Http:// тем хуже качество классификации). После модифи- tunedit.org/challenge/JRS12Contest/JRS12Contest кации обучающего множества F-мера значительно [3] Home - PubMed – NCBI. увеличивается. Более того, для значений доли http://www.ncbi.nlm.nih.gov/pubmed удаленных меток 0,1 и 0,2 усредненная F-мера [4] Medical Subject Headings - Home Page. превосходит усредненную F-меру при классифика- http://www.nlm.nih.gov/mesh/ ции по исходному обучающему множеству. Таким образом, метод, предлагаемый для Improvement of text classification улучшения качества классификации, заключается в performance by modifying the training set следующем. Удаляем случайным образом неболь- шое количество меток из обучающего множества. Anton Kolesov Применяем метод модификации обучающего Automatic data classification methods are множества (из работы [1]). Обучаемся на модифици- frequently employed for structuring large amounts of рованном обучающем множестве. data. In this paper, we propose a new method to increase the performance of classification of data by modifying the training set. The method is tested on publicly available multi-label collection of texts. 339