-

Оценка эффективности метода параллельной реализации процесса кластеризации электронных документов на основе алгоритма FRiS-Cluster

184 190

В работе представлен вариант параллельного выполнения некоторых этапов кластеризации документов с использование алгоритма FRiS-Cluster. Приведены количественные оценки времени выполнения процесса, наглядно демонстрирующие преимущества внедрения параллельной реализации на различных этапах обработки: при предварительном анализе документов, включающем вычисление мер схожести, а также частично при выполнении непосредственно процесса кластеризации.

1. Введение

Интенсивный рост объема генерируемой информации, представленной в электронном виде, в том числе и научных документов, делает актуальным решение задачи кластеризации документов, т.е. разбиения множества документов на заранее неизвестное количество подмножеств различных тематик. При вовлечении в процесс нового документа необходимо выполнить его отнесение к одной из существующих групп, либо создать новую, где добавляемый документ будет являться центроидом. Добавление нового документа не является задачей с большой вычислительной сложностью при известных метриках, на основе которых выполняется расчет меры сходства документа с документами из групп известных тематик. Но данный способ вовлечения документов имеет свои недостатки: нельзя бесконечно долго добавлять новые элементы без учета параметров всех документов, имеющихся в разделяемой выборке. При полной рекластеризации имеющихся документов удается избежать ложного отнесения нового материала к уже сформированной группе, схожей с документом характеристикой, которая, вполне возможно, имеет довольно низкий приоритет. С другой стороны, периодическое выполнение процесса разбиения на кластеры является задачей, сложность которой возрастает с ростом количества обрабатываемых документов.

В настоящее время большой интерес представляет использование в процессе решения задач кластеризации вычислительных систем, состоящих из множества вычислительных узлов. Но, очевидно, при использовании таких систем необходимо иметь версии алгоритмов, которые могут эффективно работать на системах с параллельной архитектурой.

Принцип многопроцессорной обработки, как способ повышения общей эффективности можно описать следующим образом: распределить вычислительный процесс на N вычислительных узлов, осуществляющих отдельные фрагменты вычислительного алгоритма. Хорошо распараллеливаемыми являются вычислительные задачи с многократно повторяемыми вычислениями при вариациях некоторых начальных условий для каждого цикла вычислений. При этом желательно, чтобы в таких задачах параметры последующих циклов вычислений имели бы минимально выраженную зависимость от результатов предыдущих циклов.

Алгоритмы, которые используются в настоящее время для задач кластеризации и категоризации документов, являются последовательными и используют имеющиеся вычислительные ресурсы далеко не в полную мощность. В них присутствуют следующие ограничения, не позволяющие выполнять процесс обработки данных в несколько вычислительных потоков. Во-первых, строгая последовательность выполняемых операций и обязательное завершение предыдущего логического этапа обработки до начала последующего. Вовторых, все вычисления производятся на основе данных, полученных при анализе всего массива обрабатываемых документов, что, в свою очередь, довольно сильно усложняет реализацию, а также повышает накладные расходы, связанные с передачей информации между узлами системы. 2. Цели и задачи

Цель работы заключается в создании математического обеспечения и на его основе вычислительного комплекса, обеспечивающего решение задачи кластеризации входящего множества документов при помощи алгоритма FRiS-Cluster, на основе функции конкурентного сходства. Процесс разбиения должен быть разбит на этапы, которые будут эффективно выполняться параллельно на N вычислительных узлах системы.

Основные задачи работы можно сформулировать следующим образом:

1. Реализация варианта алгоритма кластеризации FRiS-Cluster с возможностью его выполнения параллельно на некотором количестве вычислительных узлов.

2. Оценка эффективности реализации, показывающая, в какой мере данный метод дает прирост производительности, т.е. уменьшение времени выполнения процесса, в зависимости от добавляемого количества вычислительных узлов.

3. Тестирование методики на множестве научных статей, находящихся в рамках узкой специализированной тематики.

4. Создание интерфейса для работы с предложенным комплексом в интерактивном режиме, что обеспечит решение практических задач, а также позволит выполнять дальнейшие исследования на реальной выборке большого объема при оценивании как качества процесса разделения на кластеры, так и скорости выполнения данного процесса. 3. Алгоритм кластеризации

В качестве алгоритма, на основе которого выполняется разработка параллельной реализации методики кластеризации документов выбран алгоритм FRiS-Cluster, автором которого является Н.Г.Загоруйко В основе данного алгоритма находится функция конкурентного сходства или FRiS-функция – мера сходства двух объектов, вычисляемая относительно некоторого иного объекта [ 1, 2 ].

FRiS-функция, в отличие от других существующих мер сходства, позволяет не просто оценивать понятия «далеко» или «близко», «похож» или «не похож», но и давать количественную оценку схожести. Такой подход дает возможность учитывать большее число факторов при классификации. Исследования показали, что FRiSфункция хорошо имитирует человеческий механизм восприятия сходства и различия. Это позволяет использовать ее как базовый элемент для различных типов задач, включая задачи кластеризации документов.

Методику кластеризации можно описать следующим образом. Если расстояния от объекта Z до двух ближайших объектов a и b равны Ra и Rb , то сходство Z с объектом a равно F(a) = (Rb − Ra)/(Ra + Rb). Значения F меняются в пределах от +1 до −1. Если контрольный объект Z совпадает с объектом a, то Ra = 0 и F(a) = 1, а F(b) = −1. При расстояниях Ra = Rb значения F(a) = F(b) = 0, что указывает на границу между образами. При использовании алгоритма FRiSCluster на его первых шагах все N объектов заданного множества A принадлежат одному кластеру.

В связи с этим вводится конкурирующее множество из виртуальных объектов, отстоящих от каждого объекта множества на расстояние R*. Произвольный объект Mi множества A назначается центром первого кластера, оцениваются расстояния Rj до него от всех остальных объектов Mj и определяются значения функции

F(i) = (R* − Rj )/(R* + Rj).

Вычисляется сумма значений функций сходства Fs всех объектов первого кластера со своим центром. Затем в качестве центра второго кластера выбирается объект, набравший наибольшее значение Fs в конкуренции с центром первого кластера. Процесс увеличения числа кластеров k останавливается, когда достигается первый локальный максимум функции Fs(k), либо достигнуто максимальное количество кластеров, которое задается исходным параметром [ 1, 2 ]. 4. Вычисление меры сходства

В качестве шкал для определения меры сходства между двумя документами можно использовать атрибуты библиографического описания данных документов (метаданные): авторы, издание, аннотация, предопределенные ключевые слова. Но даже такие структурированные документы, как научные статьи, не всегда имеют определенный набор метаданных [3]. Наиболее точно отражают тематику материала такие характеристики, как ключевые слова и ключевые выражения, полученные из основного текста документа. Это влечет за собой проблемы, связанные с морфологическим анализом содержания документа для определения списка ключевых одиночных слов и составных многословных ключевых выражений, наиболее точно описывающих действительную тематику документа. Причем данный анализ должен производиться без априорного знания тематики материала и, соответственно, без использования предметных тезаурусов и словарей словоформ для них.

Ввиду того, что в русском языке имена существительные и прилагательные при склонении изменяют свою форму, разработка эффективного алгоритма автоматизации извлечения ключевых слов является нетривиальной задачей, так как необходимо учитывать и те случаи, когда слова, образующие термин (т.е. ключевое слово), находятся не только в именительном, но и в косвенных падежах.

Для решения этой задачи мы опирались на морфологический анализ текстов и производили выделение ключевых словосочетаний по морфологическим шаблонам с использованием программного продукта компании Яндекс (http://company.yandex.ru/technology/mystem/), который является бесплатным для некоммерческих целей. При фильтрации и разборе производился отсев стоп-слов. Ключевые словосочетания отбираются по морфологическим шаблонам с учетом словоформ языка [ 4, 5 ]. Подробно методика выделения ключевых слов и ключевых словосочетаний описана в статье [6]. Для демонстрации эффективности работы методики выделения значимой информации из текстовых документов в таблице 1 приведены результаты работы по одной из статей экспериментальных данных: Астафьев Д.А. «Общие и индивидуальные особенности эволюции, регионального и глубинного строения осадочных и нефтегазоносных бассейнов Земли».

Как видим из приведенных данных, качество анализа содержания документа находится на хорошем уровне. Список значащих слов и выражений достаточно точно описывает тематику анализируемого документа. Кроме того, с помощью фильтрации в список не попадают не значащие стоп слова, которые могут существенно ухудшить качество оценки меры сходства между документами.

Также на основе сделанных ранее экспериментов можно утверждать, что смешанный критерий сходства документов, вычисленный на основе данных о ключевых словах и словосочетаниях, является оптимальным для решения задач кластеризации документов заранее неизвестной тематики. На основе анализа содержания вычислялась мера сходства m между каждого документа с каждым, которая может принимать значение в интервале от 0 до 1. Причем, значение меры равняется 0 при полном отличии документов и равняется 1, при полном их сходстве. В алгоритме FRiS-Cluster с помощью данной меры производилось вычисление расстояния между документами, которое вычислялось как (1 — m). Иными словами, чем меньше мера сходства между сравниваемыми документами, тем на большем расстоянии они находятся. 5. Использование параллельности в реализации

При большом количестве обрабатываемых документов время выполнения процесса кластеризации очень сильно растет и вполне

Таблица 1. Пример полученных ключевых слов и словосочетаний. Ключевое слово Ключевое словосочетание осадочный чехол осадочный бассейн Количество вхождений 16 8 Бассейн Чехол Строение Зона формирование Земля Модель надрифтовой депрессия земной кора нефтегазоносный 5 бассейн глубинный строение переходный комплекс бассейн земля столбчатый тело размещение зона 6 6 5 4 4 3 3 19 16 14 14 11 10 9

оправдана цель ускорения обработки. В нашем случае можно выделить следующие этапы работы:

1. Сбор и загрузка исходных данных. Данное действие зависит от источника данных. Это могут быть данные в текстовых форматах, хорошо поддающиеся обработке и загрузке, импорт из внешних веб-ресурсов, который зависит от производительности внешнего веб-сервера а также от пропускной способности сети, либо импорт из форматов, обработка которых имеет некоторую специфику, например pdf. Оценивать трудоемкость данного действия нужно в каждом конкретном случае. В данной работе не использовалась параллельная реализация на этом этапе.

2. Подготовительный этап. Включает в себя первичную обработку документов. В нашем случае сюда входят процессы выделения ключевых термов и ключевых словосочетаний из текста документов, а также, вычисление меры сходства каждого документа с каждым. На этом этапе внедрение параллельной обработки может дать существенный выигрыш в производительности. Причем действия по анализу содержания являются независимыми друг от друга и не требуют наличия полной информации на всех вычислительных узлах.

3. Процесс кластеризации. Исходя из методики работы алгоритма FRiS-Cluster, можно сделать вывод, что самым сложным вычислительным процессом является обход всех объектов выборки и проверка каждого на роль столпа. Понятно, что данный процесс может хорошо выполнять параллельно, хотя и требует наличия информации о расстояниях между объектами на всех вычислительных узлах.

4. Визуализация результата. Является вспомогательным действием, облегчающим работу с исходными данными и полученными кластерами. Не требуется больших вычислительных мощностей для работы, независимо от количества документов в выборке. Оптимизация работы на данном этапе достигается оптимизацией на уровне хранения данных, т.е. на уровне сервера базы данных.

Исходя из вышеизложенного описания, для использования параллельной реализации подходят этап подготовки данных и часть действий этапа непосредственной кластеризации. 6. Вычислительные эксперименты

В качестве исходных данных для выполнения анализа и кластеризации использовались материалы трудов международной конференции «Современное состояние наук о Земле», посвященной памяти Виктора Ефимовича Хаина, проходящей 1-4 февраля 2011 года в Москве. Исходная выборка включает в себя 488 документов. Выбор исходных данных обусловлен двумя причинами. Во-первых, проверить работу методики выделения ключевых термов из текстов геологической тематики без использования тезауруса предметной области. Данная область знаний достаточно сильно насыщена специфическими терминами и определениями, проблемы с анализом которых потенциально могли выявиться в процессе работы. Во-вторых, все документы находятся в рамках одной, уже достаточно узкой тематики, и дальнейшее их разбиение вызывает сложности, при использовании мер сходимости, основанных только на библиографических описаниях, либо заголовках документов.

В первую очередь, производилась разбивка исходного множества на установленное количество кластеров — на 10, 20, 30. Этот параметр (количество результирующих кластеров) является опциональным в алгоритме работы, и устанавливается перед началом процесса кластеризации. На рис. 1−3 изображено распределение документов по результирующим кластерам.

Как видно из представленных графиков, несмотря на очевидную близость документов внутри узкой тематики, алгоритм успешно справился с разбиением выборки на части. Кластер с номером центроида, равным 0, включает в себя документы, которые не удалось отнести ни к одной из формируемых групп. Количество таких документов, в зависимости от количества кластеров, варьируется в интервале 7,3% − 12,7%, что является приемлемым для работы алгоритмов кластеризации.

Разумеется, наиболее точно оценить качество разбиения выборки настолько узкой тематики возможно только с помощью эксперта в предметной области, так как обрабатываемые материалы не имеют кодов принадлежности к уровням того или иного классификатора. Неэксперту трудно произвести точную оценку корректности разбиения даже после ознакомления с заголовками и короткими аннотациями статей.

Измерение времени выполнения выполнялось следующим образом. Были произведены измерения времени процессов подготовки данных (анализ содержания и вычисление мер близости) и непосредственно кластеризации для 10, 20 и 30 формируемых кластеров на одном вычислительном узле и на нескольких вычислительных узлах для параллельной реализации. Причем структура вычислительной сети при выполнении измерений параллельной реализации алгоритма не была однородной и состояла из трех рабочих станций различной конфигурации (в том числе отличающихся производительностью), связанных в единую сеть. Понятно, что данная сеть не может быть бесконечно расширена, для ускорения процесса, так как накладные расходы, связанные с передачей информации будут расти с ростом количества вычислительных узлов.

Результаты измерения времени выполнения последовательной однопоточной реализации приведены в таблице 2, а параллельной реализации, выполняемой на трех вычислительных узлах, в таблице 3.

На рис. 4 наглядно представлена зависимость времени выполнения процесса кластеризации в зависимости от количества вычислительных узлов, а также итогового количества кластеров.

Так как разбиение выборки производилась без учета производительности каждого из вычислительных узлов, сложилась ситуация, что время выполнения не может быть быстрее, чем обработка 1/N части выборки на самом медленном узле. Тем не менее, приведенные данные наглядно демонстрируют целесообразность использования параллельной реализации различных стадий обработки данных в процессе кластеризации. 7. Заключение Реализация алгоритма выполнялась в рамках навигационной системы, которая упрощает работу по добавлению исходных документов и дальнейшей навигации по ним, по итоговым кластерам. Поиск документов через пользовательских интерфейс возможен по полному тексту статьи, по ключевым словам или словосочетаниям, по схожести просматриваемой статьи с другими документами, на основе меры сходства. Вид навигации по ключевым словам можно увидеть на рис 5. Для удобства и понимания наиболее смежных ключевых слов размер шрифта становится больше с ростом количества вхождений терма в документах обрабатываемой выборки. Рис. 1. Количество документов в результирующих кластерах, 10 кластеров. 4 Рис. 2. Количество документов в результирующих кластерах, 20 кластеров. 4 Рис. 3. Количество документов в результирующих кластерах, 30 кластеров. Рис. 4. График зависимости времени выполнения от количества вычислительных узлов Рис. 5. Вид навигационной системы Предложенная методика автоматической кластеризации документов в электронном виде позволяет выполнять процесс обработки на системах, состоящих из более чем одного вычислительного узла. В работе приводятся количественные величины оценок времени выполнения при различных исходных данных.

Оценка эффективности процесса при использовании параллельной реализации алгоритма FRiS-Cluster на основе функции конкурентного сходства, по сравнению с классическим линейным методом интеллектуальной обработки данных, демонстрирует неоспоримый выигрыш в производительности, даже несмотря на то, что не все этапы обработки данных в процессе кластеризации могут выполняться параллельно на наборе вычислительных узлов.

This paper presents a variant of the parallel execution of certain phases of the clustering of documents using the algorithm FRiS-Cluster. We give quantitative values of time the process takes to demonstrate the benefits of implementing the parallel implementation of various stages of processing: a preliminary analysis of documents, which includes calculation of similarity measures, and partly in the performance of the clustering process itself.

[2] Борисова

И. А.

, Загоруйко

. Г. Использование FRiS-функций для решения задачи SDX // International Conference «Classification, Forecasting, Data Mining» CFDM 2009 , Varna, Bulgaria, June-July 2009 . - P. 110 - 116 .

[4]

Шаров

С. А . Частотный словарь русского языка // Электронный ресурс http://www.artint.ru/projects/frqlist.asp.