Суперкомпьютерные дни в России 2015 // Russian Supercomputing Days 2015 // RussianSCDays.org


    Использование последовательно-параллельного метода для
       распараллеливания алгоритмов с ассоциативными
                         операциями*
                                           А.В. Фролов
                                             ИВМ РАН

          Автором исследуются возможности использования последовательно-параллельного
          метода конструирования новых параллельных версий известных численных методов,
          а также вопросы сбалансированности получаемых методов - как по части распреде-
          ления вычислений, так и по их устойчивости.


1. Введение
    Последовательно-параллельный алгоритм известен давно и используется, главным обра-
зом, как эрзац блочного метода1, там, где есть возможность использовать свойство ассоциатив-
ности операций. К последним, например, можно отнести довольно широкий класс алгоритмов,
содержащих последовательные рекуррентные вычисления с линейными и дробно-линейными
формулами. В данной статье автор исследует и предлагает использовать свойства последова-
тельно-параллельного метода для раскрытия большего потенциала параллелизма, чем обычно
принято видеть в ряде алгоритмов.

2. Последовательно-параллельный метод для алгоритмов с одним ре-
зультатом
    Последовательно-параллельный алгоритм изначально придуман для таких подзадач, где из
большого поля данных нужно получить всего одно число, характеризующее всё это поле, на-
пример, одну из норм – максимальный модуль элемента или сумму модулей всех элементов. Не
будем пока конкретизировать операции, а предположим, что нужно вычислить результат
                                                                                          (1)
    где – обозначение некой ассоциативной операции над данными некоторого типа, к кото-
рому как раз и принадлежит любой из элементов . Для вычисления этого выражения после-
довательно-параллельным методом весь диапазон натуральных чисел от 1 до n разбивается на
q промежутков – от k0=1 до k1, от k1+1 до k2, ..., от kq-1+1 до kq=n. В каждом из этих проме-
жутков выражение
                                                                                          (2)
    вычисляется последовательно, с возрастанием индекса, а потом последовательно же вы-
числяется

                                                                                     (3)
    При возможности деления n на количество устройств q обычно используют равномерное
разделение на промежутки. В этом случае граф получающегося алгоритма имеет вид, показан-
ный на Рис. 1. Нетрудно понять, что длина его критического пути будет равна
                                                                                     (4)


*
  Исследование выполнено при частичной финансовой поддержке гранта Российского научного фонда
(проект N14-11-00190).
1
  Полноценным блочным методом можно, на взгляд автора, считать только такой, где количество ариф-
метических операций, используемых одной блочной операцией, существенно больше, чем количество
входных и выходных данных. В последовательно-параллельном методе это не так, отсюда и использова-
ние слова "эрзац".


                                                 176
   Суперкомпьютерные дни в России 2015 // Russian Supercomputing Days 2015 // RussianSCDays.org


    то есть при         будет достигнут её минимум, равный
                                                                                       (5)
    Естественно, что этот метод значительно уступает по длине критического пути графа (по
организации вычислений и передач между устройствами он всё же проще) методу сдваивания,
показанному на Рис. 1 и имеющему длину критического пути
                                                                                       (6)
Перед тем, как перейти к более сложным задачам, отметим для себя одну важную вещь. В случае вычис-
ления выражения (1) как последовательно-параллельный метод, так и метод сдваивания использовали
одно и то же общее количество операций , равное       . Избыточных по отношению к исходному по-
следовательному алгоритму вычислений оба они не используют.


      Рис. 1. Последовательно-параллельный метод для вычисления (1) через (2) и (3) при n=30


                      Рис. 2. Метод сдваивания для вычисления (1) при n=16


3. Последовательно-параллельный метод для алгоритмов с нужными
промежуточными результатами
    Перейдём теперь к рассмотрению задачи более сложного типа. Пусть опять – обозначе-
ние некой ассоциативной операции над данными некоторого типа, к которому принадлежит
любой из элементов , и пусть нам нужно вычислить все выражения
                                                                                          (7)
    для всех возможных значений m от 1 до n. Для решения такой задачи с помощью последо-
вательно-параллельного метода мы опять весь диапазон натуральных чисел от 1 до n разбива-
ем на q промежутков – от k0=1 до k1, от k1+1 до k2, ..., от kq-1+1 до kq=n. В каждом из этих
промежутков последовательно определяем выражения
                                                                                          (8)


                                               177
       Суперкомпьютерные дни в России 2015 // Russian Supercomputing Days 2015 // RussianSCDays.org


                                                                                               (8')
   где l меняется в диапазоне от                до    . После окончания этого этапа на первом про-
межутке
                                                                                          (9)
                                                                             а на остальных
                                                                                         (9')
    где l также меняется в диапазоне от          до . Граф вычислений показан на Рис. 1 Не-
трудно видеть, что он, как и в случае с одним нужным результатом, имеет длину критического
пути, выведенную в (4) и (5).


Рис. 3. Алгоритм последовательно-параллельного метода для вычисления всех частичных результатов
 при n=25 и равномерном разделении интервала, чёрным обозначены операции, результаты которых
              нужны на выходе алгоритма. Операции (8) и (9), как пустые, не показаны.


    Рис. 4. Алгоритм сдваивания для вычисления всех частичных результатов при n=8, чёрным обозначе-
                       ны операции, результаты которых нужны на выходе алгоритма
    От внимательного взгляда читателя наверняка не ускользнуло появление в алгоритме1
«лишних» операций. Для данного метода они необходимы, но по сравнению с исходным – из-
быточны. При больших n коэффициент избыточности2 данного метода стремится к 2. С одной
стороны, это означает, что последовательно-параллельный метод вряд ли кто-то будет приме-

1
 по сравнению с последовательной версией
2
 Коэффициентом избыточности будем называть отношение количества операций нового алгоритма к
количеству операций исходного, который мы как раз и распараллеливаем заменой на новый


                                                   178
   Суперкомпьютерные дни в России 2015 // Russian Supercomputing Days 2015 // RussianSCDays.org


нять на однопроцессорном компьютере (в отличие от задачи из части 2, где его применение
может быть обусловлено не распараллеливанием, а другими соображениями, типа минимиза-
ции промахов кэша), и что для его реализации нужно хотя бы несколько параллельных уст-
ройств. Однако сравнение с методом сдваивания для данной задачи показывает, что 2 – не та-
кое уж большое число. У метода сдваивания коэффициент избыточности равен с точностью
до главного члена     (это несложно показать, если вспомнить, что в методе сдваивания всего
       операций, а в исходном последовательном – только n-1). Вкупе с более простой органи-
зацией распределения и пересылки данных это, несмотря на сравнительно большую длину кри-
тического пути, делает последовательно-параллельный метод более предпочтительным, чем
метод сдваивания, для задач, где нужны и промежуточные результаты.


Рис. 5. Алгоритм последовательно-параллельного метода для вычисления всех частичных результатов
при n=23, чёрным обозначены операции, результаты которых нужны на выходе алгоритма, числа рядом
                        с ними – номера вычисляемых частных выражений


4. Перераспределение интервалов в последовательно-параллельном
методе
    На Рис. 1 нетрудно заметить, что при равномерном разделении интервала на части опера-
ции, находящиеся на нижней линии (и на критическом пути графа), начиная с третьей, вынуж-
дены "простаивать" в ожидании результата операции слева от себя. Поэтому последовательно-
параллельный метод можно оптимизировать, перераспределив интервалы так, чтобы их длины


                                               179
   Суперкомпьютерные дни в России 2015 // Russian Supercomputing Days 2015 // RussianSCDays.org


росли на 1 при возрастании номера. При таком распределении граф алгоритма будет выглядеть
как на Рис. 15. Если на первом интервале вычисляется i частных выражений, а всего k интерва-
лов, то


    а длина критического пути графа алгоритма равна              . Если проделать ряд вы-
кладок, то, как и следовало ожидать, окажется, что наименьшим значение q=k будет при i=1.
При таком распределении граф алгоритма будет выглядеть как на Рис. 16.


Рис. 6. Алгоритм последовательно-параллельного метода для вычисления всех частичных результатов
 при n=16, чёрным обозначены операции, результаты которых нужны на выходе алгоритма. Числа при
            вершинах обозначают номер яруса в наискорейшей ярусно-параллельной форме
    При указанной разбивке уравнение, связывающее q с n, в предположении, что такая раз-
бивка существует, можно записать как


    или

    Решая его, получаем для положительного корня


    что даёт экономию в     раз по сравнению с равномерным разбиением интервала. Коэффи-
циент избыточности при таком делении интервала остаётся менее 2. Кроме экономии на длине
критического пути, при таком разбиении можно выбрать такое распределение операций по яру-
сам параллельной формы, что ширина всех ярусов окажется одинаковой (это хорошо видно на
Рис. 16, где количество вершин с одинаковым номером яруса равно 5), что тоже даёт преиму-
щества при реализации метода.


                                               180
   Суперкомпьютерные дни в России 2015 // Russian Supercomputing Days 2015 // RussianSCDays.org


5. Исследование свойств последовательно-параллельного метода и их
приложения
    Рассмотрим теперь свойства последовательно-параллельного метода, которые можно как-
то использовать при конструировании новых алгоритмов. В [6] автором предложен на основе
старого метода Стоуна [7], которым на основе приёма сдваивания были распараллелено старое
LU-разложение трёхдиагональной матрицы [1,2], новый параллельный алгоритм, с помощью
которого можно разложить на двухдиагональные множители трёхдиагональную матрицу. При
этом характеристики его устойчивости, в отличие от метода сдваивания Стоуна, не хуже, чем у
последовательного варианта разложения. Рассмотрим, что именно позволило автору сохранить
устойчивость при использовании последовательно-параллельного метода.
    Как видно на Рис. 13, Рис. 15 и Рис. 16, последовательно-параллельный метод содержит в
себе набор ветвей последовательных вычислений. Это те участки последовательности операций
исходного последовательного алгоритма, которые либо оставили без изменений, либо заменили
на последовательности более сложных ассоциативных операций. В эти части и можно вставить
типичный для последовательных алгоритмов приём обеспечения устойчивости вычислений –
нормировку. Её добавление в обычный последовательный алгоритм можно видеть на примере
обратной подстановки с нормировкой, например, в [2]. Посмотрим, можно ли использовать её,
сконструировав с её помощью по последовательно-параллельной схеме вычислений новый па-
раллельный алгоритм.

6. Пример использования последовательно-параллельного метода
    Пусть нам нужно решить систему линейных алгебраических уравнений (здесь и далее бу-
дем использовать сокращение СЛАУ)
                                                                                   (14)
    где


                                                                                                  (15)


    – ленточная нижняя треугольная матрица с единичной диагональю и с поддиагональной
лентой ширины 2, и


                                                                                                  (16)


   – вектор правой части. Если теперь расписать прямую подстановку, то мы получим
             ,               ,                                     ,                              (17)
   или, вводя вектор


   соотношение
                                                 ,                                                (19)
   где


                                               181
      Суперкомпьютерные дни в России 2015 // Russian Supercomputing Days 2015 // RussianSCDays.org


                                                                                                     (20)

      Если теперь выполнить в (19) подстановку до некоторого i<k, то получается
                                                                                                     (21)
      Введём обозначение
                                                                                                     (22)
      Из вида матрицы      видно, что эти матрицы имеют вид

                                                                                                     (23)


                                                                                                     (24)

      и далее

                                                                                                     (25)

      где величины элементов первой и второй строк матрицы связаны рекуррентно по форму-
лам
                                                                                                     (26)
                                                                                                     (27)
                                                                                                     (28)


  Рис. 7. Алгоритм последовательно-параллельного метода для вычисления решения СЛАУ (1) при
n=16, степень «тяжести» операций показана градациями серого цвета. Под «тяжестью» здесь и на сле-
дующем рисунке автор понимает, как и в [5], реальное количество выполняемых арифметических опе-
                                              раций.
    Формулы (26) – (28) показывают, что даже при небольших отличиях коэффициентов
     или     от единицы (в большую или меньшую сторону), у модулей элементов матриц в
длинных ветвях вычислений (когда k-i велико) может наблюдаться как рост, так и убывание,
что может повредить точности вычислений. В связи с этим целесообразно нормировать вычис-
ления, удерживая хотя бы один из элементов близко к 1. Сделаем это, и теперь можно выпол-
нить вычисления по следующей схеме. Весь диапазон натуральных чисел от 1 до n разбиваем
на q промежутков – от i0=1 до i1, от i1+1 до i2, ..., от iq-1+1 до iq=n. В первом промежутке вы-
числяем значения    по формулам (17). В каждом из остальных промежутков последовательно
определяем значения коэффициентов матриц (i считаем равным ij-1):
                                                                                            (29)


                                                  182
   Суперкомпьютерные дни в России 2015 // Russian Supercomputing Days 2015 // RussianSCDays.org


                                                                                                  (30)
    Вводим нормировочные коэффициенты


    Далее для возрастающих k выполняем
                                                                                               (32)
                                                                                              (32')
                                                                                               (33)
                                                                                              (33')
                                                                                               (34)
    И в конце каждого шага обновляем текущие нормировочные коэффициенты


    После окончания расчётов на промежутках вычисляем все значения           по формулам

    где в качестве i берётся то ij, которое самое близкое к k снизу. Ясно, что все значения и
     можно вычислить только последовательно парами друг за другом. В результате граф ал-
горитма, если применять неравномерное дробление интервалов, будет как на Рис. 17. При рав-
номерном дроблении интервалов граф будет выглядеть, как на Рис. 18.


  Рис. 8. Алгоритм последовательно-параллельного метода для вычисления решения СЛАУ (1) при
                n=30, степень "тяжести" операций показана градациями серого цвета.


7. Заключение
    Использование последовательно-параллельной схемы при конструировании новых парал-
лельных методов позволяет использовать некоторые приёмы работы, которые характерны для
традиционных последовательных алгоритмов. Это связано с наличием в схеме достаточно
длинных последовательных ветвей, которые имеют вычислительную структуру, во многом за-
имствованную из последовательного метода.
    Поэтому автор рекомендует читателю обратить внимание на последовательно-
параллельную схему вычислений там, где схемы сдваивания не дают возможности построить
устойчивые алгоритмы. Не исключено, что подобные замены могут помочь и в других анало-
гичных случаях, где применяется целочисленная дихотомия диапазонов, а не только для ассо-
циативных операций. Сам автор предполагает заняться ревизией других алгоритмов, опираю-
щихся на сдваивание [4], с целью получения на их основе, возможно, и не столь быстрых, но


                                               183
   Суперкомпьютерные дни в России 2015 // Russian Supercomputing Days 2015 // RussianSCDays.org


более устойчивых параллельных методов, либо алгоритмов с более регулярными графами. Тут
важен ещё тот момент, что даже при равных характеристиках устойчивости алгоритмы, опи-
рающиеся на последовательно-параллельную схему, про мнению автора, будут иметь графы,
более близкие к регулярным [3], что может позволить более эффективно отображать их на па-
раллельные архитектуры вычислительных систем.

Литература
1. Воеводин В.В. Вычислительные основы линейной алгебры. М.: Наука, 1977.
2. Воеводин В.В., Кузнецов Ю.А. Матрицы и вычисления. М.: Наука, 1984.
3. Воеводин В.В. Математические основы параллельных вычислений // М.: Изд. Моск. ун-та,
   1991.
4. Открытая энциклопедия свойств алгоритмов. URL: http://algowiki-project.org (дата обраще-
   ния: 28.05.2015).
5. Фролов А.В. Принципы построения и описание языка Сигма. Препринт ОВМ АН №236. М.:
   ОВМ АН СССР, 1989.
6. Фролов А.В. Ещё один метод распараллеливания прогонки с использованием ассоциатив-
   ности операций // Представлена в качестве доклада на первую объединенную международ-
   ную конференцию "Суперкомпьютерные дни в России", Москва, 28-29 сентября 2015 г.
7. Stone H.S. An Efficient Parallel Algorithm for the Solution of a Tridiagonal Linear System of
   Equations // J. ACM, Vol. 20, No. 1 (Jan. 1973), P. 27-38.


                                               184
   Суперкомпьютерные дни в России 2015 // Russian Supercomputing Days 2015 // RussianSCDays.org


Serial-parallel method using for partial associative operation
parallelizing
Alexey Frolov
Keywords: Serial-parallel method, associative operations, parallelizing
Serial-parallel method using for partial associative operations is discussed in this paper.