-

Спектральные характеристики в задачах обработки текстовой информации

AltertraderResearch Ltd.

info@altertrader.com

0 0 Ilya Zyabrev , Oleg Pozharkov, Irina Pozharkova

191 194

Данная статья посвящена описанию спектрального подхода в задачах обработки текстовой информации и, в частности, для решения задач информационного поиска. Проведено сравнение спектральной модели (Spectral Language Model - SLM) с популярными вероятностными моделями, такими как BM25 и DFR. Также представлена аппроксимированная спектральная модель, которая позволяет избавиться от главного недостатка SLM - громоздкой частотной базы.

1. Описание спектральной модели SLM В задачах обработки текстовой информации важнейшей проблемой является «взвешивание» лексических единиц. На текущий момент наиболее популярной и широко используемой для этих целей метрикой является IDF (Inverse Document Frequency) и различные функции от нее. Один из основных недостатков данной оценки – ее независимость от частоты слова внутри документа. Частично данная проблема решается использованием TF*IDF, где TF - относительная частота слова внутри оцениваемого документа, но при этом частота слова в других документах не учитывается. В [3] были предложены характеристики, основанные на распределении частот слова по всей коллекции, которые, в частности, позволили повысить качество решения поисковых задач. Наиболее эффективной с этой точки зрения оказалась характеристика, основанная на нормализованной частоте леммы слова.

Поэтому в дальнейшем данная метрика была взята в качестве базовой для спектральной языковой модели – SLM:

M SF (L, nTF(L, d )) ) , ( 1 ) SLM (L, d ) = log( Где: Труды 13й Всероссийской научной конференции «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» - RCDL’2011, Воронеж, Россия, 2011. TF(L,d) - внутренняя частота леммы L в документе d; len(d) – длина документа d; SF(L,v) – спектральная частота слова, число документов коллекции, в которых слово L имеет нормализованную частоту, равную v.

На основе коллекций документов КМ.ru-2007 и BY.web-2007 для лемм всех слов были построены частотные базы, которые в дальнейшем использовались для исследования свойств спектральных характеристик, а также для их сравнения с другими частотными метриками.

Подчеркнем основные свойства спектральной модели, которые были выявлены на основе исследований.

1. Характеристика основана на эмпирических вероятностных распределениях слов по документам коллекции, а не на теоретических, как во многих других вероятностных подходах к взвешиванию слов, например в DFR [1].

2. Вес слова определяется уникальным для каждого слова спектром, в отличие от большинства других характеристик, в которых разные слова при одинаковых значениях TF и DF характеристик равнозначны.

3. Немонотонность изменения значений частотного спектра с ростом нормализованной частоты.

Так как для методов информационного поиска, составляющих одну из важнейших областей обработки текстовой информации, существуют доступные массивы данных (коллекции документов и таблицы релевантностей), позволяющие объективно оценить и сравнить различные технологии, то основные исследования спектральных характеристик были сосредоточены именно в области поисковых технологий. 2. Сравнение SLM с другими вероятностными моделями

В [4] на поисковой дорожке РОМИП-2010 было проведено сравнение двух поисковых методов: алгоритма на основе BM25 [2], показавшего лучшие результаты на предыдущем семинаре [5] и его модификации, путем замены BM25 на SLM. В результате, практически по всем оценкам качества, ответы SLM-алгоритма оказались лучше BM25-алгоритма. Т.е. простая замена BM25 на SLM в ранжирующем алгоритме дала прирост качества решения задачи информационного поиска. Однако, в сравнении, проведенном на РОМИП-2010, модели BM25 и SLM использовались лишь в виде отдельных факторов, вычисленных по различным структурным элементам документов. Поэтому, для того чтобы сравнить модели без учета влияния других параметров, было проведено дополнительное исследование моделей на основе таблиц релевантностей РОМИП за 2007– 2010 гг.

Для каждой сравниваемой модели (DFR, BM25, SLM) было использовано по 2 ранжирующих алгоритма:

– оценка релевантности документа определяется только по исследуемой модели

R1(q, d ) = ∑ M doc (q, d ) , ( 2 )

L∈q где q – запрос, d – оцениваемый документ. – оценка релевантности документа определяется по различным структурным элементам документа R2(q, d ) = kdoc M doc (q, d ) + +ktitleM title (q, d ) + kbeginM begin (q, d ) , ( 3 ) где kdoc, ktitle, kbegin – коэффициенты, полученные на основе машинного обучения. Обучение проводилось независимо для каждой модели на основе таблиц релевантностей.

– Mdoc(q, d) – вклад всего документа в оценку его релевантности; – Mtitle(q, d) – вклад заголовка документа; – Mbegin(q, d) – вклад начальной части документа; – для SLM: M (q, d ) = ∑ SLM (L, d ) ;

L∈q – для BM25: M (q, d ) = ∑ BM 25(L, d ) ;

L∈q – для DFR: M (q, d ) = ∑ DFR(L, d) .

L∈q Полученные по каждому алгоритму ответы на запросы оценивались по таблицам релевантностей. Результаты оценок представлены в табл. 1–2. Таблица 1 Результаты сравнения алгоритмов R1

R-precision Evaluation\Systems Average precision Bpref Bpref-10

0,835 0,330 0,282 0,961 0,366 1,451 SLM 0,296 0,748 0,858 0,588 0,576 0,58 0,357 0,597 0,435 1,406 0,524 2,026 Таблица 2 Результаты сравнения алгоритмов R2 Как видно из таблиц, по обоим алгоритмам лучшие результаты по всем оценкам получила спектральная модель. В среднем оценки SLM выше на 10% по сравнению с BM25 и на 13% по сравнению с DFR, что считается существенной разницей. На рис. 1 представлен график TREC для ответов по алгоритму R1.

Рисунок 1. График TREC ответов по алгоритму

R1.

Из графика также видно, что точность результатов поиска при одинаковых значениях полноты у алгоритма на основе SLM выше, по сравнению с DFR и BM25. шее. Для того, чтобы оценить, насколько использование аппроксимации ухудшает качество решения поисковых задач, было проведено исследование, аналогичное сравнительному анализу SLM с другими вероятностными моделями. Результаты оценок представлены в таблицах 3–4. Таблица 3 Результаты сравнения алгоритмов R1

Evaluation\Systems

Таблица 4 Результаты сравнения алгоритмов R2 Evaluation\Systems 3. Аппроксимированная SLM

В целом полученные результаты позволяют говорить о том, что спектральная модель, по крайней мере на русскоязычных документах, дает более качественное решение поисковых задач по сравнению с другими методами. Однако спектральная модель обладает существенным недостатком – очень большой размер частотной базы. Если в большинстве вероятностных моделей на каждое слово в частотную базу заносится не более двух параметров, то здесь их число существенно больше. Один из способов уменьшения базы - выбор большего шага частотной дискретизации. Однако данный метод не решает полностью проблему размера частотной базы, т.к. уже при шаге больше 0,01, что соответствует разбиению области значений на 100 интервалов, наблюдается снижение качества решения задач на основе SLM.

Проведенные исследования показали, что спектры слов можно аппроксимировать с минимальными потерями качества решения поисковых задач функцией от 3 аргументов aSF(nTF,a,b) где a и b – параметры, которые определяются для каждого слова на основе метода наименьших квадратов. При этом сохраняется свойство уникальности спектра слов, а размер частотной базы существенно сокращается: на каждое слово необходимо хранить по 2 параметра.

Лучший результат из исследованных нами функций показала степенная: aSF(nTF, a,b) = a ⋅ nTFb . ( 4 ) Соответствующая ей аппроксимированная SLM (aSLM) с переходом к другим константам имеет вид: aSLM (nTF , a, b) = a + b ⋅ log(nTF ) . ( 5 ) На основе метода наименьших квадратов для каждого слова были получены и занесены в базу значения параметров. На рисунке 2 изображены графики базовой SLM и аппроксимированной для местоимения «Я».

Рисунок. 2. Графики базовой SLM и аппроксимированной SLM местоимения «Я».

Как видно, визуально приближение исходной спектральной модели функцией ( 5 ) довольно хороSLM 0,256 0,595 0,685 0,522 0,51 0,514 0,53 0,32 0,282 0,961 0,366 1,451 SLM 0,296 0,748 0,858 0,588 0,576 0,58 0,357 0,597 0,435 1,406 0,524 2,026 aSLM 0,258 0,606 0,715 0,539 0,522 0,526 0,535 0,321 0,284 1,003 0,367 1,514 aSLM 0,311 0,779 0,893 0,619 0,602 0,608 0,371 0,626 0,448 1,451 0,545 2,087

Average precision Bpref Bpref-10 Precision(1) Precision(10) Precision(5) Reciprocal Rank R-precision

Из таблиц видно, что aSLM по обоим алгоритмам улучшает качество решения поисковых задач: по алгоритму R1 в среднем на 1%, по алгоритму R2 в среднем на 5%. Таким образом, использование аппроксимированной модели на основе функции ( 5 ) не только не ухудшает качество решения поисковой задачи, но и незначительно его улучшает. При этом объем частотной базы сокращается на два порядка. Литература and DFR, is provided. Also the approximate spectral model is presented.

4. Заключение Проведенные исследования показали, что спек- тральная языковая модель позволяет более качест- венно решать поисковые задачи по сравнению с обычными вероятностными моделями, которые не учитывают особенности распределения различных слов по документам коллекции. Единственным су- щественным недостатком SLM относительно боль- шинства параметрических моделей является огром- ный размер частотной базы. Однако, использование аппроксимирующих функций для спектров слов позволяет свести модель к двухпараметрической, уменьшая число хранимых параметров для каждой леммы до 2. Сравнительный анализ aSLM и исход- ной SLM показал, что качество решения поисковых задач при использовании функции (5) улучшается . Таким образом, спектральные характеристики являются хорошей альтернативой различным час- тотным метрикам, используемым в задачах обра- ботки текстовой информации и, в частности, их применение в поисковых алгоритмах позволяет уве- личить качество поиска по сравнению с широко распространенными вероятностными методами (BM25 , DFR).

[1] Amati , G. Probabilistic models of information retrieval based on measuring the divergence from randomness / G. Amati and C. J. Van Rijsbergen , The Information Retrieval Group , 20 ( 4 ): 357 - 389 , 2002 .

[2] Robertson

, Walker

, Hancock-Beaulieu

, Gatford

Okapi at TREC-3 . In Proceedings of the Third Text Retrieval Conference . 1994 .

[3] Зябрев

И.Н.

, Пожарков

.В. Метод контекстно- зависимого аннотирования документов на основе спектральных оценок лексем . Труды ROMIP 2009 . Санкт-Петербург: НУ ЦСИ . 2009 , с 167- 174 .

[5] Сафронов

А.В.

HeadHunter на РОМИП-2009 . Труды ROMIP 2009 . Санкт-Петербург: НУ ЦСИ:с 63-70 , 2009 .