<!DOCTYPE article PUBLIC "-//NLM//DTD JATS (Z39.96) Journal Archiving and Interchange DTD v1.0 20120330//EN" "JATS-archivearticle1.dtd">
<article xmlns:xlink="http://www.w3.org/1999/xlink">
  <front>
    <journal-meta />
    <article-meta>
      <title-group>
        <article-title>Спектральные характеристики в задачах обработки текстовой информации</article-title>
      </title-group>
      <contrib-group>
        <contrib contrib-type="author">
          <string-name>AltertraderResearch Ltd.</string-name>
          <xref ref-type="aff" rid="aff0">0</xref>
        </contrib>
        <contrib contrib-type="author">
          <string-name>info@altertrader.com</string-name>
          <xref ref-type="aff" rid="aff0">0</xref>
        </contrib>
        <aff id="aff0">
          <label>0</label>
          <institution>Ilya Zyabrev</institution>
          ,
          <addr-line>Oleg Pozharkov, Irina Pozharkova</addr-line>
        </aff>
      </contrib-group>
      <fpage>191</fpage>
      <lpage>194</lpage>
      <abstract>
        <p>Данная статья посвящена описанию спектрального подхода в задачах обработки текстовой информации и, в частности, для решения задач информационного поиска. Проведено сравнение спектральной модели (Spectral Language Model - SLM) с популярными вероятностными моделями, такими как BM25 и DFR. Также представлена аппроксимированная спектральная модель, которая позволяет избавиться от главного недостатка SLM - громоздкой частотной базы.</p>
      </abstract>
    </article-meta>
  </front>
  <body>
    <sec id="sec-1">
      <title>-</title>
      <p>1. Описание спектральной модели SLM
В задачах обработки текстовой информации
важнейшей проблемой является «взвешивание»
лексических единиц. На текущий момент наиболее
популярной и широко используемой для этих целей
метрикой является IDF (Inverse Document
Frequency) и различные функции от нее. Один из
основных недостатков данной оценки – ее
независимость от частоты слова внутри документа. Частично
данная проблема решается использованием TF*IDF,
где TF - относительная частота слова внутри
оцениваемого документа, но при этом частота слова в
других документах не учитывается. В [3] были
предложены характеристики, основанные на
распределении частот слова по всей коллекции,
которые, в частности, позволили повысить качество
решения поисковых задач. Наиболее эффективной с
этой точки зрения оказалась характеристика,
основанная на нормализованной частоте леммы слова.</p>
      <p>Поэтому в дальнейшем данная метрика была
взята в качестве базовой для спектральной языковой
модели – SLM:</p>
      <p>
        M
SF (L, nTF(L, d ))
) ,
(
        <xref ref-type="bibr" rid="ref2">1</xref>
        )
SLM (L, d ) = log(
Где:
Труды 13й Всероссийской научной конференции
«Электронные библиотеки: перспективные методы и
технологии, электронные коллекции» - RCDL’2011,
Воронеж, Россия, 2011.
TF(L,d) - внутренняя частота леммы L в документе
d;
len(d) – длина документа d;
SF(L,v) – спектральная частота слова, число
документов коллекции, в которых слово L имеет
нормализованную частоту, равную v.
      </p>
      <p>На основе коллекций документов КМ.ru-2007 и
BY.web-2007 для лемм всех слов были построены
частотные базы, которые в дальнейшем
использовались для исследования свойств спектральных
характеристик, а также для их сравнения с другими
частотными метриками.</p>
      <p>Подчеркнем основные свойства спектральной
модели, которые были выявлены на основе
исследований.</p>
      <p>1. Характеристика основана на эмпирических
вероятностных распределениях слов по документам
коллекции, а не на теоретических, как во многих
других вероятностных подходах к взвешиванию
слов, например в DFR [1].</p>
      <p>2. Вес слова определяется уникальным для
каждого слова спектром, в отличие от большинства
других характеристик, в которых разные слова при
одинаковых значениях TF и DF характеристик
равнозначны.</p>
      <p>3. Немонотонность изменения значений
частотного спектра с ростом нормализованной частоты.</p>
      <p>Так как для методов информационного поиска,
составляющих одну из важнейших областей
обработки текстовой информации, существуют
доступные массивы данных (коллекции документов и
таблицы релевантностей), позволяющие объективно
оценить и сравнить различные технологии, то
основные исследования спектральных характеристик
были сосредоточены именно в области поисковых
технологий.
2. Сравнение SLM с другими
вероятностными моделями</p>
      <p>В [4] на поисковой дорожке РОМИП-2010 было
проведено сравнение двух поисковых методов:
алгоритма на основе BM25 [2], показавшего лучшие
результаты на предыдущем семинаре [5] и его
модификации, путем замены BM25 на SLM. В
результате, практически по всем оценкам качества, ответы
SLM-алгоритма оказались лучше BM25-алгоритма.
Т.е. простая замена BM25 на SLM в ранжирующем
алгоритме дала прирост качества решения задачи
информационного поиска. Однако, в сравнении,
проведенном на РОМИП-2010, модели BM25 и SLM
использовались лишь в виде отдельных факторов,
вычисленных по различным структурным
элементам документов. Поэтому, для того чтобы сравнить
модели без учета влияния других параметров, было
проведено дополнительное исследование моделей
на основе таблиц релевантностей РОМИП за 2007–
2010 гг.</p>
      <p>Для каждой сравниваемой модели (DFR, BM25,
SLM) было использовано по 2 ранжирующих
алгоритма:</p>
      <p>– оценка релевантности документа определяется
только по исследуемой модели</p>
      <p>
        R1(q, d ) = ∑ M doc (q, d ) , (
        <xref ref-type="bibr" rid="ref3">2</xref>
        )
      </p>
      <p>
        L∈q
где q – запрос, d – оцениваемый документ.
– оценка релевантности документа определяется
по различным структурным элементам документа
R2(q, d ) = kdoc M doc (q, d ) +
+ktitleM title (q, d ) + kbeginM begin (q, d )
,
(
        <xref ref-type="bibr" rid="ref4">3</xref>
        )
где kdoc, ktitle, kbegin – коэффициенты, полученные на
основе машинного обучения. Обучение
проводилось независимо для каждой модели на основе
таблиц релевантностей.
      </p>
      <p>– Mdoc(q, d) – вклад всего документа в оценку его
релевантности;
– Mtitle(q, d) – вклад заголовка документа;
– Mbegin(q, d) – вклад начальной части документа;
– для SLM: M (q, d ) = ∑ SLM (L, d ) ;</p>
      <p>L∈q
– для BM25: M (q, d ) = ∑ BM 25(L, d ) ;</p>
      <p>L∈q
– для DFR: M (q, d ) = ∑ DFR(L, d) .</p>
      <p>L∈q
Полученные по каждому алгоритму ответы на
запросы оценивались по таблицам релевантностей.
Результаты оценок представлены в табл. 1–2.
Таблица 1
Результаты сравнения алгоритмов R1</p>
    </sec>
    <sec id="sec-2">
      <title>R-precision</title>
    </sec>
    <sec id="sec-3">
      <title>Evaluation\Systems Average precision Bpref Bpref-10</title>
      <p>0,835
0,330
0,282
0,961
0,366
1,451
SLM
0,296
0,748
0,858
0,588
0,576
0,58
0,357
0,597
0,435
1,406
0,524
2,026
Таблица 2
Результаты сравнения алгоритмов R2
Как видно из таблиц, по обоим алгоритмам
лучшие результаты по всем оценкам получила
спектральная модель. В среднем оценки SLM выше на
10% по сравнению с BM25 и на 13% по сравнению с
DFR, что считается существенной разницей. На рис.
1 представлен график TREC для ответов по
алгоритму R1.</p>
      <p>Рисунок 1. График TREC ответов по алгоритму</p>
      <p>R1.</p>
      <p>Из графика также видно, что точность
результатов поиска при одинаковых значениях полноты у
алгоритма на основе SLM выше, по сравнению с
DFR и BM25.
шее. Для того, чтобы оценить, насколько
использование аппроксимации ухудшает качество решения
поисковых задач, было проведено исследование,
аналогичное сравнительному анализу SLM с
другими вероятностными моделями. Результаты оценок
представлены в таблицах 3–4.
Таблица 3
Результаты сравнения алгоритмов R1</p>
    </sec>
    <sec id="sec-4">
      <title>Evaluation\Systems</title>
      <p>Таблица 4
Результаты сравнения алгоритмов R2
Evaluation\Systems
3. Аппроксимированная SLM</p>
      <p>В целом полученные результаты позволяют
говорить о том, что спектральная модель, по крайней
мере на русскоязычных документах, дает более
качественное решение поисковых задач по сравнению
с другими методами. Однако спектральная модель
обладает существенным недостатком – очень
большой размер частотной базы. Если в большинстве
вероятностных моделей на каждое слово в
частотную базу заносится не более двух параметров, то
здесь их число существенно больше. Один из
способов уменьшения базы - выбор большего шага
частотной дискретизации. Однако данный метод не
решает полностью проблему размера частотной
базы, т.к. уже при шаге больше 0,01, что
соответствует разбиению области значений на 100
интервалов, наблюдается снижение качества решения задач
на основе SLM.</p>
      <p>Проведенные исследования показали, что
спектры слов можно аппроксимировать с
минимальными потерями качества решения поисковых задач
функцией от 3 аргументов aSF(nTF,a,b) где a и b –
параметры, которые определяются для каждого
слова на основе метода наименьших квадратов. При
этом сохраняется свойство уникальности спектра
слов, а размер частотной базы существенно
сокращается: на каждое слово необходимо хранить по 2
параметра.</p>
      <p>
        Лучший результат из исследованных нами
функций показала степенная:
aSF(nTF, a,b) = a ⋅ nTFb . (
        <xref ref-type="bibr" rid="ref1">4</xref>
        )
Соответствующая ей аппроксимированная SLM
(aSLM) с переходом к другим константам имеет
вид:
aSLM (nTF , a, b) = a + b ⋅ log(nTF ) . (
        <xref ref-type="bibr" rid="ref5">5</xref>
        )
На основе метода наименьших квадратов для
каждого слова были получены и занесены в базу
значения параметров. На рисунке 2 изображены
графики базовой SLM и аппроксимированной для
местоимения «Я».
      </p>
      <p>Рисунок. 2. Графики базовой SLM и
аппроксимированной SLM местоимения «Я».</p>
      <p>
        Как видно, визуально приближение исходной
спектральной модели функцией (
        <xref ref-type="bibr" rid="ref5">5</xref>
        ) довольно
хороSLM
0,256
0,595
0,685
0,522
0,51
0,514
0,53
0,32
0,282
0,961
0,366
1,451
SLM
0,296
0,748
0,858
0,588
0,576
0,58
0,357
0,597
0,435
1,406
0,524
2,026
aSLM
0,258
0,606
0,715
0,539
0,522
0,526
0,535
0,321
0,284
1,003
0,367
1,514
aSLM
0,311
0,779
0,893
0,619
0,602
0,608
0,371
0,626
0,448
1,451
0,545
2,087
      </p>
    </sec>
    <sec id="sec-5">
      <title>Average precision</title>
    </sec>
    <sec id="sec-6">
      <title>Bpref</title>
    </sec>
    <sec id="sec-7">
      <title>Bpref-10</title>
    </sec>
    <sec id="sec-8">
      <title>Precision(1)</title>
    </sec>
    <sec id="sec-9">
      <title>Precision(10)</title>
    </sec>
    <sec id="sec-10">
      <title>Precision(5)</title>
    </sec>
    <sec id="sec-11">
      <title>Reciprocal Rank</title>
    </sec>
    <sec id="sec-12">
      <title>R-precision</title>
      <p>
        Из таблиц видно, что aSLM по обоим
алгоритмам улучшает качество решения поисковых задач:
по алгоритму R1 в среднем на 1%, по алгоритму R2
в среднем на 5%. Таким образом, использование
аппроксимированной модели на основе функции (
        <xref ref-type="bibr" rid="ref5">5</xref>
        )
не только не ухудшает качество решения поисковой
задачи, но и незначительно его улучшает. При этом
объем частотной базы сокращается на два порядка.
Литература
and DFR, is provided. Also the approximate spectral
model is presented.
      </p>
    </sec>
  </body>
  <back>
    <ref-list>
      <ref id="ref1">
        <mixed-citation>
          4.
          <string-name>
            <surname>Заключение</surname>
          </string-name>
          <article-title>Проведенные исследования показали, что спек- тральная языковая модель позволяет более качест- венно решать поисковые задачи по сравнению с обычными вероятностными моделями, которые не учитывают особенности распределения различных слов по документам коллекции. Единственным су- щественным недостатком SLM относительно боль- шинства параметрических моделей является огром- ный размер частотной базы. Однако, использование аппроксимирующих функций для спектров слов позволяет свести модель к двухпараметрической, уменьшая число хранимых параметров для каждой леммы до 2. Сравнительный анализ aSLM и исход- ной SLM показал, что качество решения поисковых задач при использовании функции (5) улучшается</article-title>
          .
          <article-title>Таким образом, спектральные характеристики являются хорошей альтернативой различным час- тотным метрикам, используемым в задачах обра- ботки текстовой информации и, в частности, их применение в поисковых алгоритмах позволяет уве- личить качество поиска по сравнению с широко распространенными вероятностными методами (BM25</article-title>
          , DFR).
        </mixed-citation>
      </ref>
      <ref id="ref2">
        <mixed-citation>
          [1]
          <string-name>
            <surname>Amati</surname>
            ,
            <given-names>G.</given-names>
          </string-name>
          <article-title>Probabilistic models of information retrieval based on measuring the divergence</article-title>
          from randomness / G. Amati and
          <string-name>
            <surname>C. J. Van Rijsbergen</surname>
          </string-name>
          ,
          <source>The Information Retrieval Group</source>
          ,
          <volume>20</volume>
          (
          <issue>4</issue>
          ):
          <fpage>357</fpage>
          -
          <lpage>389</lpage>
          ,
          <year>2002</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref3">
        <mixed-citation>
          [2]
          <string-name>
            <surname>Robertson</surname>
            <given-names>S.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Walker</surname>
            <given-names>S.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Hancock-Beaulieu</surname>
            <given-names>M.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Gatford</surname>
            <given-names>M.</given-names>
          </string-name>
          <article-title>Okapi at TREC-3</article-title>
          .
          <source>In Proceedings of the Third Text Retrieval Conference</source>
          .
          <year>1994</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref4">
        <mixed-citation>
          [3]
          <string-name>
            <surname>Зябрев</surname>
            <given-names>И.Н.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Пожарков</surname>
            <given-names>О</given-names>
          </string-name>
          .В.
          <article-title>Метод контекстно- зависимого аннотирования документов на основе спектральных оценок лексем</article-title>
          .
          <source>Труды ROMIP</source>
          <year>2009</year>
          .
          <article-title>Санкт-Петербург: НУ ЦСИ</article-title>
          .
          <year>2009</year>
          , с 167-
          <fpage>174</fpage>
          .
        </mixed-citation>
      </ref>
      <ref id="ref5">
        <mixed-citation>
          [5]
          <string-name>
            <surname>Сафронов</surname>
            <given-names>А.В.</given-names>
          </string-name>
          <article-title>HeadHunter на РОМИП-2009</article-title>
          .
          <article-title>Труды ROMIP 2009</article-title>
          .
          <article-title>Санкт-Петербург:</article-title>
          <source>НУ ЦСИ:с 63-70</source>
          ,
          <year>2009</year>
          .
        </mixed-citation>
      </ref>
    </ref-list>
  </back>
</article>