Использование последовательно-параллельного метода для распараллеливания алгоритмов с ассоциативными операциями *

Использование последовательно-параллельного метода для распараллеливания алгоритмов с ассоциативными операциями * АВФролов Использование последовательно-параллельного метода для распараллеливания алгоритмов с ассоциативными операциями * 062EA476EF4006F0A6EB6B1E52EB0C6F GROBID - A machine learning software for extracting information from scholarly documents

Автором исследуются возможности использования последовательно-параллельного метода конструирования новых параллельных версий известных численных методов, а также вопросы сбалансированности получаемых методовкак по части распределения вычислений, так и по их устойчивости.

* Исследование выполнено при частичной финансовой поддержке гранта Российского научного фонда (проект N14-11-00190). 1 Полноценным блочным методом можно, на взгляд автора, считать только такой, где количество арифметических операций, используемых одной блочной операцией, существенно больше, чем количество входных и выходных данных. В последовательно-параллельном методе это не так, отсюда и использование слова "эрзац".

Введение

Последовательно-параллельный алгоритм известен давно и используется, главным образом, как эрзац блочного метода 1 , там, где есть возможность использовать свойство ассоциативности операций. К последним, например, можно отнести довольно широкий класс алгоритмов, содержащих последовательные рекуррентные вычисления с линейными и дробно-линейными формулами. В данной статье автор исследует и предлагает использовать свойства последовательно-параллельного метода для раскрытия большего потенциала параллелизма, чем обычно принято видеть в ряде алгоритмов.

Последовательно-параллельный метод для алгоритмов с одним результатом

Последовательно-параллельный алгоритм изначально придуман для таких подзадач, где из большого поля данных нужно получить всего одно число, характеризующее всё это поле, например, одну из норм -максимальный модуль элемента или сумму модулей всех элементов. Не будем пока конкретизировать операции, а предположим, что нужно вычислить результат (1) где -обозначение некой ассоциативной операции над данными некоторого типа, к которому как раз и принадлежит любой из элементов . Для вычисления этого выражения последовательно-параллельным методом весь диапазон натуральных чисел от 1 до n разбивается на q промежутков -от k 0 =1 до k 1 , от k 1 +1 до k 2 , ..., от k q-1 +1 до k q =n. В каждом из этих промежутков выражение

(2) вычисляется последовательно, с возрастанием индекса, а потом последовательно же вычисляется (3) При возможности деления n на количество устройств q обычно используют равномерное разделение на промежутки. В этом случае граф получающегося алгоритма имеет вид, показанный на Рис. 1. Нетрудно понять, что длина его критического пути будет равна (4) то есть при будет достигнут её минимум, равный (5) Естественно, что этот метод значительно уступает по длине критического пути графа (по организации вычислений и передач между устройствами он всё же проще) методу сдваивания, показанному на Рис. 1 и имеющему длину критического пути (6) Перед тем, как перейти к более сложным задачам, отметим для себя одну важную вещь. В случае вычисления выражения (1) как последовательно-параллельный метод, так и метод сдваивания использовали одно и то же общее количество операций , равное . Избыточных по отношению к исходному последовательному алгоритму вычислений оба они не используют.

Последовательно-параллельный метод для алгоритмов с нужными промежуточными результатами

Перейдём теперь к рассмотрению задачи более сложного типа. Пусть опять -обозначение некой ассоциативной операции над данными некоторого типа, к которому принадлежит любой из элементов , и пусть нам нужно вычислить все выражения (7) для всех возможных значений m от 1 до n. Для решения такой задачи с помощью последовательно-параллельного метода мы опять весь диапазон натуральных чисел от 1 до n разбиваем на q промежутков -от k 0 =1 до k 1 , от k 1 +1 до k 2 , ..., от k q-1 +1 до k q =n. В каждом из этих промежутков последовательно определяем выражения (8)

Перераспределение интервалов в последовательно-параллельном методе

На Рис. 1 нетрудно заметить, что при равномерном разделении интервала на части операции, находящиеся на нижней линии (и на критическом пути графа), начиная с третьей, вынуждены "простаивать" в ожидании результата операции слева от себя. Поэтому последовательнопараллельный метод можно оптимизировать, перераспределив интервалы так, чтобы их длины

Исследование свойств последовательно-параллельного метода и их приложения

Рассмотрим теперь свойства последовательно-параллельного метода, которые можно както использовать при конструировании новых алгоритмов. В [6] автором предложен на основе старого метода Стоуна [7], которым на основе приёма сдваивания были распараллелено старое LU-разложение трёхдиагональной матрицы [1,2], новый параллельный алгоритм, с помощью которого можно разложить на двухдиагональные множители трёхдиагональную матрицу. При этом характеристики его устойчивости, в отличие от метода сдваивания Стоуна, не хуже, чем у последовательного варианта разложения. Рассмотрим, что именно позволило автору сохранить устойчивость при использовании последовательно-параллельного метода.

Как видно на Рис. 13, Рис. 15 и Рис. 16, последовательно-параллельный метод содержит в себе набор ветвей последовательных вычислений. Это те участки последовательности операций исходного последовательного алгоритма, которые либо оставили без изменений, либо заменили на последовательности более сложных ассоциативных операций. В эти части и можно вставить типичный для последовательных алгоритмов приём обеспечения устойчивости вычисленийнормировку. Её добавление в обычный последовательный алгоритм можно видеть на примере обратной подстановки с нормировкой, например, в [2]. Посмотрим, можно ли использовать её, сконструировав с её помощью по последовательно-параллельной схеме вычислений новый параллельный алгоритм.

Пример использования последовательно-параллельного метода

Заключение

Использование последовательно-параллельной схемы при конструировании новых параллельных методов позволяет использовать некоторые приёмы работы, которые характерны для традиционных последовательных алгоритмов. Это связано с наличием в схеме достаточно длинных последовательных ветвей, которые имеют вычислительную структуру, во многом заимствованную из последовательного метода.

Поэтому автор рекомендует читателю обратить внимание на последовательнопараллельную схему вычислений там, где схемы сдваивания не дают возможности построить устойчивые алгоритмы. Не исключено, что подобные замены могут помочь и в других аналогичных случаях, где применяется целочисленная дихотомия диапазонов, а не только для ассоциативных операций. Сам автор предполагает заняться ревизией других алгоритмов, опирающихся на сдваивание [4], с целью получения на их основе, возможно, и не столь быстрых, но Рис. 8. Алгоритм последовательно-параллельного метода для вычисления решения СЛАУ (1) при n=30, степень "тяжести" операций показана градациями серого цвета.

Рис. 1 .Рис. 2 .Рис. 4 .124Последовательно-параллельный метод для вычисления (1) через (2) и (3) при n=30 Метод сдваивания для вычисления (1) при n=16 Суперкомпьютерные дни в России 2015 // Russian Supercomputing Days 2015 // RussianSCDays.org (8') где l меняется в диапазоне от до . После окончания этого этапа на первом промежутке (9) а на остальных (9') где l также меняется в диапазоне от до . Граф вычислений показан на Рис. 1 Нетрудно видеть, что он, как и в случае с одним нужным результатом, имеет длину критического пути, выведенную в (4) и (5). От внимательного взгляда читателя наверняка не ускользнуло появление в алгоритме 1 «лишних» операций. Для данного метода они необходимы, но по сравнению с исходным -избыточны. При больших n коэффициент избыточности 2 данного метода стремится к 2. С одной стороны, это означает, что последовательно-параллельный метод вряд ли кто-то будет приме-1 по сравнению с последовательной версией 2 Коэффициентом избыточности будем называть отношение количества операций нового алгоритма к количеству операций исходного, который мы как раз и распараллеливаем заменой на новый Рис. 3. Алгоритм последовательно-параллельного метода для вычисления всех частичных результатов при n=25 и равномерном разделении интервала, чёрным обозначены операции, результаты которых нужны на выходе алгоритма. Операции (8) и (9), как пустые, не показаны. Алгоритм сдваивания для вычисления всех частичных результатов при n=8, чёрным обозначены операции, результаты которых нужны на выходе алгоритма нять на однопроцессорном компьютере (в отличие от задачи из части 2, где его применение может быть обусловлено не распараллеливанием, а другими соображениями, типа минимизации промахов кэша), и что для его реализации нужно хотя бы несколько параллельных устройств. Однако сравнение с методом сдваивания для данной задачи показывает, что 2 -не такое уж большое число. У метода сдваивания коэффициент избыточности равен с точностью до главного члена (это несложно показать, если вспомнить, что в методе сдваивания всего операций, а в исходном последовательном -только n-1). Вкупе с более простой организацией распределения и пересылки данных это, несмотря на сравнительно большую длину критического пути, делает последовательно-параллельный метод более предпочтительным, чем метод сдваивания, для задач, где нужны и промежуточные результаты.

Рис. 5 .Рис. 6 .56Алгоритм последовательно-параллельного метода для вычисления всех частичных результатов при n=23, чёрным обозначены операции, результаты которых нужны на выходе алгоритма, числа рядом с ниминомера вычисляемых частных выражений Суперкомпьютерные дни в России 2015 // Russian Supercomputing Days 2015 // RussianSCDays.org росли на 1 при возрастании номера. При таком распределении граф алгоритма будет выглядеть как на Рис. 15. Если на первом интервале вычисляется i частных выражений, а всего k интервалов, то а длина критического пути графа алгоритма равна . Если проделать ряд выкладок, то, как и следовало ожидать, окажется, что наименьшим значение q=k будет при i=1. При таком распределении граф алгоритма будет выглядеть как на Рис. 16. При указанной разбивке уравнение, связывающее q с n, в предположении, что такая разбивка существует, можно записать как или Решая его, получаем для положительного корня что даёт экономию в раз по сравнению с равномерным разбиением интервала. Коэффициент избыточности при таком делении интервала остаётся менее 2. Кроме экономии на длине критического пути, при таком разбиении можно выбрать такое распределение операций по ярусам параллельной формы, что ширина всех ярусов окажется одинаковой (это хорошо видно на Рис. 16, где количество вершин с одинаковым номером яруса равно 5), что тоже даёт преимущества при реализации метода. Алгоритм последовательно-параллельного метода для вычисления всех частичных результатов при n=16, чёрным обозначены операции, результаты которых нужны на выходе алгоритма. Числа при вершинах обозначают номер яруса в наискорейшей ярусно-параллельной форме

берётся то i j , которое самое близкое к k снизу. Ясно, что все значения и можно вычислить только последовательно парами друг за другом. В результате граф алгоритма, если применять неравномерное дробление интервалов, будет как на Рис. 17. При равномерном дроблении интервалов граф будет выглядеть, как на Рис. 18.(30)Вводим нормировочные коэффициентыДалее для возрастающих k выполняем(32)(32')(33)(33')(34)И в конце каждого шага обновляем текущие нормировочные коэффициентыПосле окончания расчётов на промежутках вычисляем все значенияпо формуламгде в качестве iПусть нам нужно решить систему линейных алгебраических уравнений (здесь и далее бу-дем использовать сокращение СЛАУ)(14)где(15)-ленточная нижняя треугольная матрица с единичной диагональю и с поддиагональнойлентой ширины 2, и(16)-вектор правой части. Если теперь расписать прямую подстановку, то мы получим,,,(17)или, вводя векторсоотношение,(19)где

Суперкомпьютерные дни в России 2015 // Russian Supercomputing Days 2015 // RussianSCDays.org

Serial-parallel method using for partial associative operation parallelizing

Alexey Frolov

Keywords: Serial-parallel method, associative operations, parallelizing Serial-parallel method using for partial associative operations is discussed in this paper.

Суперкомпьютерные дни в России 2015 // Russian Supercomputing Days 2015 // RussianSCDays.org

Если теперь выполнить в (19) подстановку до некоторого i<k, то получается (21) Введём обозначение (22) Из вида матрицы видно, что эти матрицы имеют вид где величины элементов первой и второй строк матрицы связаны рекуррентно по формулам далее (25 показывают, что даже при небольших отличиях коэффициентов или от единицы (в большую или меньшую сторону), у модулей элементов матриц в длинных ветвях вычислений (когда k-i велико) может наблюдаться как рост, так и убывание, что может повредить точности вычислений. В связи с этим целесообразно нормировать вычисления, удерживая хотя бы один из элементов близко к 1. Сделаем это, и теперь можно выполнить вычисления по следующей схеме. Весь диапазон натуральных чисел от 1 до n разбиваем на q промежутков -от i 0 =1 до i 1 Формулы. от i 1 +1 В каждом из остальных промежутков последовательно определяем значения коэффициентов матриц (i считаем равным i j-1 <author> <persName><surname>Рис</surname></persName> </author> <imprint/> </monogr> </biblStruct> <biblStruct xml:id="b4"> <monogr> <title level="m">реальное количество выполняемых арифметических операций. более устойчивых параллельных методов, либо алгоритмов с более регулярными графами. Тут важен ещё тот момент, что даже при равных характеристиках устойчивости алгоритмы, опирающиеся на последовательно-параллельную схему, про мнению автора, будут иметь графы, более что может позволить более эффективно отображать их на параллельные архитектуры вычислительных систем. Литература ВВоеводин Вычислительные основы линейной алгебры Наука 1977 ВВВоеводин Кузнецов Ю.А. Матрицы и вычисления Наука 1984 ВВоеводин Математические основы параллельных вычислений // М 1991 Изд. Моск. ун-та Открытая энциклопедия свойств алгоритмов АФролов Принципы построения и описание языка Сигма Овм Ан 1989 236 Ещё один метод распараллеливания прогонки с использованием ассоциативности операций // Представлена в качестве доклада на первую объединенную международную конференцию АФролов Суперкомпьютерные дни в России Москва 2015 An Efficient Parallel Algorithm for the Solution of a Tridiagonal Linear System of Equations HSStone J. ACM 20 1 Jan. 1973 Суперкомпьютерные дни в России 2015 // Russian Supercomputing Days