<!DOCTYPE article PUBLIC "-//NLM//DTD JATS (Z39.96) Journal Archiving and Interchange DTD v1.0 20120330//EN" "JATS-archivearticle1.dtd">
<article xmlns:xlink="http://www.w3.org/1999/xlink">
  <front>
    <journal-meta />
    <article-meta>
      <title-group>
        <article-title>Оценка эффективности метода параллельной реализации процесса кластеризации электронных документов на основе алгоритма FRiS-Cluster</article-title>
      </title-group>
      <fpage>184</fpage>
      <lpage>190</lpage>
      <abstract>
        <p>В работе представлен вариант параллельного выполнения некоторых этапов кластеризации документов с использование алгоритма FRiS-Cluster. Приведены количественные оценки времени выполнения процесса, наглядно демонстрирующие преимущества внедрения параллельной реализации на различных этапах обработки: при предварительном анализе документов, включающем вычисление мер схожести, а также частично при выполнении непосредственно процесса кластеризации.</p>
      </abstract>
    </article-meta>
  </front>
  <body>
    <sec id="sec-1">
      <title>-</title>
      <p>1. Введение</p>
      <p>Интенсивный рост объема генерируемой
информации, представленной в электронном виде, в
том числе и научных документов, делает
актуальным решение задачи кластеризации
документов, т.е. разбиения множества документов
на заранее неизвестное количество подмножеств
различных тематик. При вовлечении в процесс
нового документа необходимо выполнить его
отнесение к одной из существующих групп, либо
создать новую, где добавляемый документ будет
являться центроидом. Добавление нового документа
не является задачей с большой вычислительной
сложностью при известных метриках, на основе
которых выполняется расчет меры сходства
документа с документами из групп известных
тематик. Но данный способ вовлечения документов
имеет свои недостатки: нельзя бесконечно долго
добавлять новые элементы без учета параметров
всех документов, имеющихся в разделяемой
выборке. При полной рекластеризации имеющихся
документов удается избежать ложного отнесения
нового материала к уже сформированной группе,
схожей с документом характеристикой, которая,
вполне возможно, имеет довольно низкий
приоритет. С другой стороны, периодическое
выполнение процесса разбиения на кластеры
является задачей, сложность которой возрастает с
ростом количества обрабатываемых документов.</p>
      <p>В настоящее время большой интерес
представляет использование в процессе решения
задач кластеризации вычислительных систем,
состоящих из множества вычислительных узлов.
Но, очевидно, при использовании таких систем
необходимо иметь версии алгоритмов, которые
могут эффективно работать на системах с
параллельной архитектурой.</p>
      <p>Принцип многопроцессорной обработки, как
способ повышения общей эффективности можно
описать следующим образом: распределить
вычислительный процесс на N вычислительных
узлов, осуществляющих отдельные фрагменты
вычислительного алгоритма. Хорошо
распараллеливаемыми являются вычислительные
задачи с многократно повторяемыми вычислениями
при вариациях некоторых начальных условий для
каждого цикла вычислений. При этом желательно,
чтобы в таких задачах параметры последующих
циклов вычислений имели бы минимально
выраженную зависимость от результатов
предыдущих циклов.</p>
      <p>Алгоритмы, которые используются в настоящее
время для задач кластеризации и категоризации
документов, являются последовательными и
используют имеющиеся вычислительные ресурсы
далеко не в полную мощность. В них присутствуют
следующие ограничения, не позволяющие
выполнять процесс обработки данных в несколько
вычислительных потоков. Во-первых, строгая
последовательность выполняемых операций и
обязательное завершение предыдущего логического
этапа обработки до начала последующего.
Вовторых, все вычисления производятся на основе
данных, полученных при анализе всего массива
обрабатываемых документов, что, в свою очередь,
довольно сильно усложняет реализацию, а также
повышает накладные расходы, связанные с
передачей информации между узлами системы.
2. Цели и задачи</p>
      <p>Цель работы заключается в создании
математического обеспечения и на его основе
вычислительного комплекса, обеспечивающего
решение задачи кластеризации входящего
множества документов при помощи алгоритма
FRiS-Cluster, на основе функции конкурентного
сходства. Процесс разбиения должен быть разбит на
этапы, которые будут эффективно выполняться
параллельно на N вычислительных узлах системы.</p>
      <p>Основные задачи работы можно сформулировать
следующим образом:</p>
      <p>1. Реализация варианта алгоритма кластеризации
FRiS-Cluster с возможностью его выполнения
параллельно на некотором количестве
вычислительных узлов.</p>
      <p>2. Оценка эффективности реализации,
показывающая, в какой мере данный метод дает
прирост производительности, т.е. уменьшение
времени выполнения процесса, в зависимости от
добавляемого количества вычислительных узлов.</p>
      <p>3. Тестирование методики на множестве
научных статей, находящихся в рамках узкой
специализированной тематики.</p>
      <p>4. Создание интерфейса для работы с
предложенным комплексом в интерактивном
режиме, что обеспечит решение практических
задач, а также позволит выполнять дальнейшие
исследования на реальной выборке большого
объема при оценивании как качества процесса
разделения на кластеры, так и скорости выполнения
данного процесса.
3. Алгоритм кластеризации</p>
      <p>
        В качестве алгоритма, на основе которого
выполняется разработка параллельной реализации
методики кластеризации документов выбран
алгоритм FRiS-Cluster, автором которого является
Н.Г.Загоруйко В основе данного алгоритма
находится функция конкурентного сходства или
FRiS-функция – мера сходства двух объектов,
вычисляемая относительно некоторого иного
объекта [
        <xref ref-type="bibr" rid="ref1">1, 2</xref>
        ].
      </p>
      <p>FRiS-функция, в отличие от других
существующих мер сходства, позволяет не просто
оценивать понятия «далеко» или «близко», «похож»
или «не похож», но и давать количественную
оценку схожести. Такой подход дает возможность
учитывать большее число факторов при
классификации. Исследования показали, что
FRiSфункция хорошо имитирует человеческий механизм
восприятия сходства и различия. Это позволяет
использовать ее как базовый элемент для различных
типов задач, включая задачи кластеризации
документов.</p>
      <p>Методику кластеризации можно описать
следующим образом. Если расстояния от объекта Z
до двух ближайших объектов a и b равны Ra и Rb ,
то сходство Z с объектом a равно
F(a) = (Rb − Ra)/(Ra + Rb). Значения F меняются в
пределах от +1 до −1. Если контрольный объект Z
совпадает с объектом a, то Ra = 0 и F(a) = 1, а
F(b) = −1. При расстояниях Ra = Rb значения
F(a) = F(b) = 0, что указывает на границу между
образами. При использовании алгоритма
FRiSCluster на его первых шагах все N объектов
заданного множества A принадлежат одному
кластеру.</p>
      <p>В связи с этим вводится конкурирующее
множество из виртуальных объектов, отстоящих от
каждого объекта множества на расстояние R*.
Произвольный объект Mi множества A назначается
центром первого кластера, оцениваются расстояния
Rj до него от всех остальных объектов Mj и
определяются значения функции</p>
      <p>F(i) = (R* − Rj )/(R* + Rj).</p>
      <p>
        Вычисляется сумма значений функций сходства
Fs всех объектов первого кластера со своим
центром. Затем в качестве центра второго кластера
выбирается объект, набравший наибольшее
значение Fs в конкуренции с центром первого
кластера. Процесс увеличения числа кластеров k
останавливается, когда достигается первый
локальный максимум функции Fs(k), либо
достигнуто максимальное количество кластеров,
которое задается исходным параметром [
        <xref ref-type="bibr" rid="ref1">1, 2</xref>
        ].
4. Вычисление меры сходства
      </p>
      <p>В качестве шкал для определения меры сходства
между двумя документами можно использовать
атрибуты библиографического описания данных
документов (метаданные): авторы, издание,
аннотация, предопределенные ключевые слова. Но
даже такие структурированные документы, как
научные статьи, не всегда имеют определенный
набор метаданных [3]. Наиболее точно отражают
тематику материала такие характеристики, как
ключевые слова и ключевые выражения,
полученные из основного текста документа. Это
влечет за собой проблемы, связанные с
морфологическим анализом содержания документа
для определения списка ключевых одиночных слов
и составных многословных ключевых выражений,
наиболее точно описывающих действительную
тематику документа. Причем данный анализ должен
производиться без априорного знания тематики
материала и, соответственно, без использования
предметных тезаурусов и словарей словоформ для
них.</p>
      <p>Ввиду того, что в русском языке имена
существительные и прилагательные при склонении
изменяют свою форму, разработка эффективного
алгоритма автоматизации извлечения ключевых
слов является нетривиальной задачей, так как
необходимо учитывать и те случаи, когда слова,
образующие термин (т.е. ключевое слово),
находятся не только в именительном, но и в
косвенных падежах.</p>
      <p>
        Для решения этой задачи мы опирались на
морфологический анализ текстов и производили
выделение ключевых словосочетаний по
морфологическим шаблонам с использованием
программного продукта компании Яндекс
(http://company.yandex.ru/technology/mystem/),
который является бесплатным для некоммерческих
целей. При фильтрации и разборе производился
отсев стоп-слов. Ключевые словосочетания
отбираются по морфологическим шаблонам с
учетом словоформ языка [
        <xref ref-type="bibr" rid="ref2">4, 5</xref>
        ]. Подробно методика
выделения ключевых слов и ключевых
словосочетаний описана в статье [6]. Для
демонстрации эффективности работы методики
выделения значимой информации из текстовых
документов в таблице 1 приведены результаты
работы по одной из статей экспериментальных
данных: Астафьев Д.А. «Общие и индивидуальные
особенности эволюции, регионального и
глубинного строения осадочных и нефтегазоносных
бассейнов Земли».
      </p>
      <p>Как видим из приведенных данных, качество
анализа содержания документа находится на
хорошем уровне. Список значащих слов и
выражений достаточно точно описывает тематику
анализируемого документа. Кроме того, с помощью
фильтрации в список не попадают не значащие стоп
слова, которые могут существенно ухудшить
качество оценки меры сходства между
документами.</p>
      <p>Также на основе сделанных ранее экспериментов
можно утверждать, что смешанный критерий
сходства документов, вычисленный на основе
данных о ключевых словах и словосочетаниях,
является оптимальным для решения задач
кластеризации документов заранее неизвестной
тематики. На основе анализа содержания
вычислялась мера сходства m между каждого
документа с каждым, которая может принимать
значение в интервале от 0 до 1. Причем, значение
меры равняется 0 при полном отличии документов и
равняется 1, при полном их сходстве. В алгоритме
FRiS-Cluster с помощью данной меры
производилось вычисление расстояния между
документами, которое вычислялось как (1 — m).
Иными словами, чем меньше мера сходства между
сравниваемыми документами, тем на большем
расстоянии они находятся.
5. Использование параллельности в
реализации</p>
      <p>При большом количестве обрабатываемых
документов время выполнения процесса
кластеризации очень сильно растет и вполне</p>
      <p>Таблица 1. Пример полученных ключевых слов
и словосочетаний.
Ключевое
слово
Ключевое
словосочетание
осадочный чехол
осадочный
бассейн
Количество
вхождений
16
8
Бассейн
Чехол
Строение
Зона
формирование
Земля
Модель
надрифтовой
депрессия
земной кора
нефтегазоносный 5
бассейн
глубинный
строение
переходный
комплекс
бассейн земля
столбчатый тело
размещение зона
6
6
5
4
4
3
3
19
16
14
14
11
10
9</p>
      <p>оправдана цель ускорения обработки. В нашем
случае можно выделить следующие этапы работы:</p>
      <p>1. Сбор и загрузка исходных данных.
Данное действие зависит от источника данных. Это
могут быть данные в текстовых форматах, хорошо
поддающиеся обработке и загрузке, импорт из
внешних веб-ресурсов, который зависит от
производительности внешнего веб-сервера а также
от пропускной способности сети, либо импорт из
форматов, обработка которых имеет некоторую
специфику, например pdf. Оценивать трудоемкость
данного действия нужно в каждом конкретном
случае. В данной работе не использовалась
параллельная реализация на этом этапе.</p>
      <p>2. Подготовительный этап. Включает в себя
первичную обработку документов. В нашем случае
сюда входят процессы выделения ключевых термов
и ключевых словосочетаний из текста документов, а
также, вычисление меры сходства каждого
документа с каждым. На этом этапе внедрение
параллельной обработки может дать существенный
выигрыш в производительности. Причем действия
по анализу содержания являются независимыми
друг от друга и не требуют наличия полной
информации на всех вычислительных узлах.</p>
      <p>3. Процесс кластеризации. Исходя из
методики работы алгоритма FRiS-Cluster, можно
сделать вывод, что самым сложным
вычислительным процессом является обход всех
объектов выборки и проверка каждого на роль
столпа. Понятно, что данный процесс может
хорошо выполнять параллельно, хотя и требует
наличия информации о расстояниях между
объектами на всех вычислительных узлах.</p>
      <p>4. Визуализация результата. Является
вспомогательным действием, облегчающим работу
с исходными данными и полученными кластерами.
Не требуется больших вычислительных мощностей
для работы, независимо от количества документов в
выборке. Оптимизация работы на данном этапе
достигается оптимизацией на уровне хранения
данных, т.е. на уровне сервера базы данных.</p>
      <p>Исходя из вышеизложенного описания, для
использования параллельной реализации подходят
этап подготовки данных и часть действий этапа
непосредственной кластеризации.
6. Вычислительные эксперименты</p>
      <p>В качестве исходных данных для выполнения
анализа и кластеризации использовались материалы
трудов международной конференции «Современное
состояние наук о Земле», посвященной памяти
Виктора Ефимовича Хаина, проходящей 1-4
февраля 2011 года в Москве. Исходная выборка
включает в себя 488 документов. Выбор исходных
данных обусловлен двумя причинами. Во-первых,
проверить работу методики выделения ключевых
термов из текстов геологической тематики без
использования тезауруса предметной области.
Данная область знаний достаточно сильно
насыщена специфическими терминами и
определениями, проблемы с анализом которых
потенциально могли выявиться в процессе работы.
Во-вторых, все документы находятся в рамках
одной, уже достаточно узкой тематики, и
дальнейшее их разбиение вызывает сложности, при
использовании мер сходимости, основанных только
на библиографических описаниях, либо заголовках
документов.</p>
      <p>В первую очередь, производилась разбивка
исходного множества на установленное количество
кластеров — на 10, 20, 30. Этот параметр
(количество результирующих кластеров) является
опциональным в алгоритме работы, и
устанавливается перед началом процесса
кластеризации. На рис. 1−3 изображено
распределение документов по результирующим
кластерам.</p>
      <p>Как видно из представленных графиков,
несмотря на очевидную близость документов
внутри узкой тематики, алгоритм успешно
справился с разбиением выборки на части. Кластер
с номером центроида, равным 0, включает в себя
документы, которые не удалось отнести ни к одной
из формируемых групп. Количество таких
документов, в зависимости от количества кластеров,
варьируется в интервале 7,3% − 12,7%, что является
приемлемым для работы алгоритмов кластеризации.</p>
      <p>Разумеется, наиболее точно оценить качество
разбиения выборки настолько узкой тематики
возможно только с помощью эксперта в предметной
области, так как обрабатываемые материалы не
имеют кодов принадлежности к уровням того или
иного классификатора. Неэксперту трудно
произвести точную оценку корректности разбиения
даже после ознакомления с заголовками и
короткими аннотациями статей.</p>
      <p>Измерение времени выполнения выполнялось
следующим образом. Были произведены измерения
времени процессов подготовки данных (анализ
содержания и вычисление мер близости) и
непосредственно кластеризации для 10, 20 и 30
формируемых кластеров на одном вычислительном
узле и на нескольких вычислительных узлах для
параллельной реализации. Причем структура
вычислительной сети при выполнении измерений
параллельной реализации алгоритма не была
однородной и состояла из трех рабочих станций
различной конфигурации (в том числе
отличающихся производительностью), связанных в
единую сеть. Понятно, что данная сеть не может
быть бесконечно расширена, для ускорения
процесса, так как накладные расходы, связанные с
передачей информации будут расти с ростом
количества вычислительных узлов.</p>
      <p>Результаты измерения времени выполнения
последовательной однопоточной реализации
приведены в таблице 2, а параллельной реализации,
выполняемой на трех вычислительных узлах, в
таблице 3.</p>
      <p>На рис. 4 наглядно представлена зависимость
времени выполнения процесса кластеризации в
зависимости от количества вычислительных узлов,
а также итогового количества кластеров.</p>
      <p>Так как разбиение выборки производилась без
учета производительности каждого из
вычислительных узлов, сложилась ситуация, что
время выполнения не может быть быстрее, чем
обработка 1/N части выборки на самом медленном
узле. Тем не менее, приведенные данные наглядно
демонстрируют целесообразность использования
параллельной реализации различных стадий
обработки данных в процессе кластеризации.
7. Заключение
Реализация алгоритма выполнялась в рамках
навигационной системы, которая упрощает работу
по добавлению исходных документов и дальнейшей
навигации по ним, по итоговым кластерам. Поиск
документов через пользовательских интерфейс
возможен по полному тексту статьи, по ключевым
словам или словосочетаниям, по схожести
просматриваемой статьи с другими документами, на
основе меры сходства. Вид навигации по ключевым
словам можно увидеть на рис 5. Для удобства и
понимания наиболее смежных ключевых слов
размер шрифта становится больше с ростом
количества вхождений терма в документах
обрабатываемой выборки.
Рис. 1. Количество документов в результирующих кластерах, 10 кластеров.
4
Рис. 2. Количество документов в результирующих кластерах, 20 кластеров.
4
Рис. 3. Количество документов в результирующих кластерах, 30 кластеров.
Рис. 4. График зависимости времени выполнения от количества вычислительных узлов
Рис. 5. Вид навигационной системы
Предложенная методика автоматической
кластеризации документов в электронном виде
позволяет выполнять процесс обработки на
системах, состоящих из более чем одного
вычислительного узла. В работе приводятся
количественные величины оценок времени
выполнения при различных исходных данных.</p>
      <p>Оценка эффективности процесса при
использовании параллельной реализации алгоритма
FRiS-Cluster на основе функции конкурентного
сходства, по сравнению с классическим линейным
методом интеллектуальной обработки данных,
демонстрирует неоспоримый выигрыш в
производительности, даже несмотря на то, что не
все этапы обработки данных в процессе
кластеризации могут выполняться параллельно на
наборе вычислительных узлов.</p>
      <p>This paper presents a variant of the parallel
execution of certain phases of the clustering of
documents using the algorithm FRiS-Cluster. We give
quantitative values of time the process takes to
demonstrate the benefits of implementing the parallel
implementation of various stages of processing: a
preliminary analysis of documents, which includes
calculation of similarity measures, and partly in the
performance of the clustering process itself.</p>
    </sec>
  </body>
  <back>
    <ref-list>
      <ref id="ref1">
        <mixed-citation>
          [2]
          <string-name>
            <surname>Борисова</surname>
            <given-names>И. А.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Загоруйко</surname>
            <given-names>Н</given-names>
          </string-name>
          . Г.
          <article-title>Использование FRiS-функций для решения</article-title>
          задачи SDX // International Conference «Classification, Forecasting,
          <source>Data Mining» CFDM</source>
          <year>2009</year>
          , Varna, Bulgaria, June-July
          <year>2009</year>
          . - P.
          <fpage>110</fpage>
          -
          <lpage>116</lpage>
          .
        </mixed-citation>
      </ref>
      <ref id="ref2">
        <mixed-citation>
          [4]
          <string-name>
            <given-names>Шаров</given-names>
            <surname>С. А</surname>
          </string-name>
          . Частотный словарь русского языка // Электронный ресурс http://www.artint.ru/projects/frqlist.asp.
        </mixed-citation>
      </ref>
    </ref-list>
  </back>
</article>