Суперкомпьютерные дни в России 2015 // Russian Supercomputing Days 2015 // RussianSCDays.org


            Ещё один метод распараллеливания прогонки
            с использованием ассоциативности операций*
                                           А.В. Фролов
                                            ИВМ РАН

         Автором предложен новый метод распараллеливания прогонки на основе использо-
         вания свойства ассоциативности операций перемножения матриц. В отличие от давно
         известной версии параллельного алгоритма Стоуна, основанного на приёме сдваива-
         ния, новый метод имеет те же характеристики устойчивости, что и последовательная
         прогонка. Предложена также и блочная модификация метода.


1. Введение
    В данной статье автор предлагает новые способы решения системы линейных алгебраиче-
ских уравнений1 с трёхдиагональными матрицами, на той же идейной основе, что и известный
метод сдваивания Стоуна, – с использованием ассоциативности матричного умножения. Одна-
ко использование последовательных фрагментов позволяет автору применить нормировку, что
делает новый метод устойчивым.

2. Прогонка как метод решения СЛАУ специального вида.
    Прогонка – последовательный алгоритм решения трёхдиагональной СЛАУ – является ча-
стным случаем общего метода исключения неизвестных, однако получила специальное назва-
ние из-за распространённости задач такого типа в прикладных исследованиях. В виде отдель-
ного алгоритма «открыта» несколькими исследователями независимо друг от друга (И.М.
Гельфандом и О.В. Локуциевским в СССР, Л.Х. Томасом в США2). С этими названиями описа-
на в большом количестве учебников по численным методам (например, в [5]), причём в разных
вариантах.
    Классическая схема прогонки практически не содержит возможностей для распараллели-
вания, максимум – по двум потокам вычислений. Однако решение трёхдиагональных СЛАУ
довольно востребовано в различных вычислительных задачах при моделировании, поэтому за-
дача «распараллеливания прогонки», т.е. параллельного решения исходной задачи, давно при-
влекает внимание многих исследователей.
    В подавляющем большинстве учебников (например, в [5]) отмечается, что задача решения
СЛАУ Ax=b с трёхдиагональной матрицей A при решении с помощью прогонки эквивалентна
последовательности двух задач. Это разложение матрицы в произведение, например, двухдиа-
гональных матриц, а также решение СЛАУ с этими матрицами. Такая разбивка впоследствии
даёт возможность использовать уже найденное разложение для более быстрого решения СЛАУ
и с другими правыми частями. В дальнейшем мы увидим это как на примере рассмотрения ал-
горитма Стоуна, так и при конструировании собственного алгоритма.

2.1 Известные параллельные методы решения трёхдиагональных СЛАУ

    Как только у исследователей появились в распоряжении вычислительные устройства с
возможностью параллельной работы, так сразу было предложено несколько параллельных ме-
тодов решения трёхдиагональных СЛАУ ([7–9]). Сравнение с позиций середины 70-х гг. XX

*
  Исследование выполнено при частичной финансовой поддержке гранта Российского научного фонда
(проект N14-11-00190).
1
  далее для систем линейных алгебраических уравнений будем использовать сокращение СЛАУ.
2
  поэтому в англоязычной литературе, кроме названия «Tridiagonal matrix algorithm», используется и на-
звание «Thomas algorithm»


                                                151
      Суперкомпьютерные дни в России 2015 // Russian Supercomputing Days 2015 // RussianSCDays.org


века трёх таких методов – циклической редукции, Бунемана и рекурсивного сдваивания – мож-
но прочитать в работе автора последнего Х.Стоуна 1975г. [10]. Несмотря на общую привязку
этого сравнения к архитектурам того времени, эти сравнения актуальны и теперь. Согласно им,
алгоритм рекурсивного сдваивания (Стоуна) имеет лучшие характеристики по количеству тре-
буемых вычислительных затрат. Однако читателям, должно быть, известно, что на практике
применяют не его, а метод циклической редукции. Это связано с тем, что один из этапов метода
рекурсивного сдваивания Стоуна (разложение матрицы в произведение двухдиагональных мат-
риц) имеет гораздо худшую устойчивость.
    Все перечисленные алгоритмы имеют логарифмическую (относительно размера задачи)
длину критического пути, и придуманы в то время, когда специалисты по распараллеливанию
ещё предполагали, что в будущем проблема эффективных пересылок между устройствами бу-
дет как-то решена. Эти методы также по-разному загружают доступные вычислительные уст-
ройства, что создаёт при их реализации дополнительные проблемы и уменьшает реальную эф-
фективность.
    Вышеизложенные проблемы подвигли автора статьи к работе по нахождению альтернатив-
ных способов распараллеливания прогонки. Автор преследовал две главных цели: разработать
алгоритм, достаточно просто отображаемый на современные архитектуры, и при этом лишён-
ный недостатков описанных выше методов, а также обеспечить его устойчивость. Для этого
прежде всего им был изучен самый быстрый из перечисленных методов – метод рекурсивного
сдваивания Стоуна, основанный на использовании ассоциативности операции перемножения
матриц.

2.2 Основания метода Стоуна и возможные пути его изменения1

      Итак, введём следующие обозначения. Пусть задача состоит в решении СЛАУ
                                                                                                     (1)
где


                                                                                                     (2)


– трёхдиагональная матрица, для которой выполняются условия устойчивости решения мето-
дом прогонки [5],


                                                                                                     (3)


– вектор правой части. Если теперь матрицу A разложить в произведение двух треугольных
                                                                                                     (4)
где


                                                                                                     (5)


1
 В изложении метода Стоуна автор использует собственные обозначения, а не обозначения из статей
самого Стоуна [9, 10]


                                                  152
      Суперкомпьютерные дни в России 2015 // Russian Supercomputing Days 2015 // RussianSCDays.org


                                                                                                      (6)


то (1) будет заменена на
                                                                                                      (7)
После этого сначала нужно решить систему
                                                                                                      (8)
и после неё
                                                                                   (9)
    Занявшись сначала более простым распараллеливанием решения двухдиагональных СЛАУ,
видим, что для (8) получаются формулы
                         ,                            ,                           (10)
после чего введением векторов
                                                                                                     (11)
достигается выражение
                                                          ,                                          (12)
где
                                                                                                     (13)
После подстановки в (12) этой же формулы с меньшими значениями индекса получаем
                                                                                       (14)
после чего нужно вычислить все такие частные произведения, что делается, например, методом
сдваивания за             ярусов.
    Аналогично у Стоуна решается и СЛАУ с матрицей U. При этом выполнение сдваивания
на данных этапах решения исходной задачи не вызывает роста вычислительной погрешности.
Остаётся рассмотреть, как у Стоуна распараллеливается процесс разложения.
    Если применить формулу Бине-Коши (см. например [1,2]) к вычислению ведущего главно-
го минора1 Δk матрицы A порядка k, то получим, что, учитывая (4), (5), (6),


и, вводя Δ0 = 1, имеем
                                                                                                     (16)
а из формул перемножения матриц -
                                                                                                     (17)
и
                                                                                      (18)
    Остаётся понять, как параллельно вычислить все ведущие главные миноры матрицы A. Из
учебников и справочников (например, [1,2]) известно, что у трёхдиагональных матриц для ве-
дущих главных миноров выполняются рекуррентные соотношения
                                                                                      (19)
что позволяет, введя вектора
                                                                                                     (20)
получить аналогичную (12) формулу
                                                              ,                                      (21)
где

1
 У Стоуна – qk, без отметки, что это ведущий главный минор. Доказательство формулы (16) он ведёт
непосредственно по формулам вычисления элементов матриц, подобно тому, как это сделано здесь, в
формулах (38) – (40), но не в блочном варианте.


                                                  153
    Суперкомпьютерные дни в России 2015 // Russian Supercomputing Days 2015 // RussianSCDays.org


                                                                                                   (22)
и
                                                                                        (23)
что схоже с (14) и даёт возможность применить тот же самый приём сдваивания, что и при ре-
шении двухдиагональных СЛАУ. Однако у этого этапа есть два существенных отличия. Пер-
вое – у произведения             нижняя строка остаётся той же, что и у всех сомножителей –
      , а у произведения            нижняя строка та же, что верхняя у             . Второе
отличие, пожалуй, самое существенное. Дело в том, что если распараллеленные по Стоуну ре-
шатели двухдиагональных СЛАУ имеют тот же диапазон устойчивости, что и последователь-
ные, то распараллеленный по Стоуну этап разложения матрицы имеет гораздо худшую устой-
чивость, чем LU-разложение по компактной схеме метода Гаусса. Дело в том, что, по [1,2],
оценки эквивалентного возмущения у нераспараллеленного разложения определяются в основ-
ном ростом (или отсутствием роста) элементов полученного разложения. А вот при вычисле-
нии элементов матриц              рост промежуточных результатов будет гораздо больше. Это
и понятно, если вспомнить, что ведущие главные миноры матрицы равны произведениям диа-
гональных элементов получаемых матриц.
    Именно поэтому алгоритм Стоуна, несмотря на то, что его часто рассказывают студентам
на курсах по параллельным вычислениям, на практике не применяется. Вместе с тем нельзя
полностью ставить на нём крест. Нередки случаи, когда после один раз выполненного разложе-
ния СЛАУ с уже разложенной матрицей решаются снова и снова, с новой правой частью. Тогда
вполне разумным представляется, потратив большое время на это разложение обычным спосо-
бом, затем использовать элементы метода Стоуна при решении новых потоков СЛАУ.
    Кроме того, и эти «куски» метода можно модифицировать так, чтобы они лучше отобража-
лись на архитектуру вычислительных комплексов. Как нетрудно видеть по Рис. 1, алгоритм
сдваивания имеет граф с довольно сложной структурой передач.


Рис. 1. Алгоритм сдваивания для вычисления всех частичных "произведений" для ассоциативных опе-
  раций при n=8, чёрным обозначены операции, результаты которых нужны на выходе алгоритма
    Другим важным его недостатком является большой коэффициент избыточности. Для ме-
тода сдваивания вычисление всех частных произведений будет стоить вместо n-1 операций ум-
ножения матриц          таких же операций, так что коэффициент избыточности равен       .
Дополнительную добавку несёт замена операции типа a+bc на, хоть и урезанную благодаря


                                                154
   Суперкомпьютерные дни в России 2015 // Russian Supercomputing Days 2015 // RussianSCDays.org


специфике матриц, но всё же занимающую больше ресурсов операцию перемножения матриц.
Это накладывает жёсткие требования на количество устройств, нужных для того, чтобы хотя
бы не проиграть последовательному алгоритму.
    Пришедшая автору в голову идея для замены фрагментов метода Стоуна, связанных с ре-
шениями двухдиагональных СЛАУ – замена сдваивания на последовательно-параллельный ме-
тод организации вычислений. Как видно на Рис. 12, структура передач при его использовании
существенно упрощается. Кроме этого, коэффициент избыточности существенно уменьшает-
ся по сравнению со сдваиванием и становится равным 2. Это означает, что данную схему мож-
но применять для ускорения соответствующих частей прогонки уже при небольшом количестве
доступных устройств.


Рис. 2. Алгоритм последовательно-параллельного метода для вычисления всех частичных "произведе-
ний" для ассоциативных операций при n=25, чёрным обозначены операции, результаты которых нужны
                                      на выходе алгоритма
    Есть и ещё важный момент, который следует подчеркнуть. Сам алгоритм сдваивания Сто-
уна нельзя применять по аналогии, если у нас СЛАУ не с трёхдиагональной, а с блочно-
трёхдиагональной матрицей. Однако его фрагменты, связанные с решением двухдиагональных
СЛАУ, вполне годятся для ускорения решения СЛАУ с блочно-двухдиагональными матрица-
ми. Применение в последнем случае последовательно-параллельной схемы облегчит адаптацию
этих частей к решению многих задач.

3. Новый метод распараллеливания главной части прогонки - разло-
жения матрицы.
    Алгоритм сдваивания Стоуна неустойчив из-за возможного роста результатов при выпол-
нении промежуточных вычислений, связанных с ведущими главными минорами матрицы. Од-
нако нам не нужны сами эти миноры, нужны лишь отношения соседних. Посмотрим снова на
формулы, связывающие их, – нельзя ли как-то избежать роста результатов промежуточных вы-
числений?

3.1 Идея введения нормировки в промежуточных вычислениях

    Посмотрим на формулы (21) – (23) снова. Выполним в (21) подстановку не до конца, как в
(23), а до некоторого значения i<k:
                                                                                      (24)
Обозначим произведения              :


                                               155
      Суперкомпьютерные дни в России 2015 // Russian Supercomputing Days 2015 // RussianSCDays.org


                                                                                              (25)
Обозначим элементы верхней строки этой матрицы как                и    . Тогда из вида матрицы
видно, что
                                                                                                     (26)
(         ,       ). Поэтому
                                                                                                  (27)
                                                                                                 (27')
Поделив (27) на (27'), получаем из (16)
                                                                                                        1


и таким образом мы уже избавились от одного из источников больших промежуточных резуль-
татов – самих миноров. Остаётся избавиться от вычислений с большими элементами промежу-
точных матриц       и    . Если посмотреть на (28) внимательно, то окажется, что вместо
2мерных строк            и                в ней могут фигурировать эти же строки, домно-
женные на любой выбранный нами нормировочный коэффициент. Вкупе с идеей последова-
тельно-параллельного метода это даёт следующую схему.

3.2 Схема нового метода разложения трёхдиагональной матрицы

    Весь диапазон натуральных чисел от 1 до n разбивается на q промежутков – от 1 до k1, от
k1+1 до k2, ..., от kq-1+1 до kq=n. На первом промежутке все значения ui вычисляются последо-
вательно, по стандартным формулам разложения на 2 диагональные матрицы. На остальных
промежутках выполняется следующая процедура.
    Пусть рассматривается j+1-й промежуток. Тогда уже известны значения
                                    ,                    ,                                (29)
                                           ,                                             (29')
Для всех значений i от           до      теперь вычисляем


                                                                                                        2


    Формулы (30) – (31') как раз включают в себя нормировку – их выполнение приводит к
единице один из коэффициентов в знаменателе дроби в (28). После того, как выполнены вы-
числения на всех промежутках, на них (кроме первого) ещё неизвестны значения ui. Их мы для
каждого j+1-го промежутка вычисляем параллельно по формулам


    Естественно, что каждое значение      можно вычислить только после вычисления          .В
результате, если разбиение на интервалы будет проведено равномерно, структура алгоритма
разложения будет иметь почти тот же вид, что и на Рис. 12, с тем, однако, отличием, что «тяже-
сти» операций будут разными. Это отражено на Рис. 13.
    Разнородность операций делает не столь тривиальной задачу разбиения выполняемых опе-
раций по разным устройствам; тем не менее, эта задача существенно проще, чем организация
пересылок в методах, использующих сдваивание. Оценим количество операций на каждом эта-
пе. Вычисления            будем считать выполненными заранее.


1
    последний переход получается делением числителя и знаменателя на
2
    деление       на себя не показано


                                                  156
      Суперкомпьютерные дни в России 2015 // Russian Supercomputing Days 2015 // RussianSCDays.org


    1. Вычисление разложения на первом из промежутков известно, если длина промежутка
равна m, то это по m-1 операций деления, умножения и сложения/вычитания. Все эти операции
следуют друг за другом последовательно.
    2. Вычисления коэффициентов на остальных промежутках, если их длина равна m, займёт
m-2 параллельных операций:
    одна из них – умножение, деление, потом вычитание/сложение,
    вторая – два параллельных умножения, вычитание/сложение, потом деление,
    третья – деление.
    Видно, что вычисление коэффициентов в общем сложнее. В него можно добавить и вычис-
ление числителя последней дроби из (32), он не зависит от значений    . Тогда для вычисле-
ний на 2м этапе самым длинным является вычисление по «низу картинки» – это операция типа
сложение, потом деление и потом снова сложение, повторяемая q-1 раз. Параллельно этой опе-
рации нужно выполнить ещё m-2 таких же, а также ещё одну, состоящую только из деления и
сложения.
    Приведённые формулы опираются на формулы (19) для миноров и поэтому, как и сам ме-
тод сдваивания Стоуна, казалось бы, неприменимы для блочно-трёхдиагональных матриц.


Рис. 3. Алгоритм нового метода для вычисления разложения трёхдиагональной матрицы при n=25 и
 равномерном разбиении на 5 промежутков, разная интенсивность соответствует разным операциям


4. Блочная версия
      Пусть теперь нам нужно выполнить разложение блочно-трёхдиагональной матрицы


                                                                                                     (33)


где     ,   ,   – квадратные блоки одинакового размера. Для разложения
                                                                                                     (34)
где


                                                  157
      Суперкомпьютерные дни в России 2015 // Russian Supercomputing Days 2015 // RussianSCDays.org


                                                                                                     (35)


                                                                                                     (36)


существуют формулы, являющиеся частью блочной прогонки:
                                                                                      (37)
и в общем случае введение связи между произведениями разных       невозможно по простой
причине – умножение блоков, в отличие от умножения чисел, некоммутативно. Ситуация, од-
нако, меняется, если блоки    окажутся скалярными матрицами, т.е.           . Эти матрицы
коммутируют с любыми другими, поэтому последняя из формул (37) может быть переписана в
виде
                                                                                      (38)
а после домножения этого равенства справа на произведение              это даст нам
                                                                                      (39)
где
                                         ,                                            (40)
    Теперь наличие двучленной рекурсии позволяет нам повторить приём объединения блоков
в блочные «вектора»:
                                                                                                     (41)
и получить аналогичную (12) формулу
                                                           ,                                         (42)
где
                                                                                                     (43)
Теперь мы можем повторить рассуждения, аналогичные формулам из 3.1. Выполним в (42)
подстановки не до конца, а до некоторого значения i<k:
                                                                               (44)
обозначим произведения               :

                                                                                                 (45)
обозначим блоки верхней «строки» этой матрицы как              и    . Тогда из вида матрицы      вид-
но, что
                                                                                                     (46)
(         ,       ). Поэтому
                                                                                                  (47)
                                                                                                 (47')
Учитывая (40), получаем
                                                                                   (48)
                                                                                   (49)
                                                                                   (50)
                                                                                   (51)
                                                                                   (52)
                                                                                   (53)
                                                                                   (54)
и, таким образом, нам не нужно вычислять произведения матриц. От роста же матриц  и
можно попытаться избавиться с помощью нормировки. К сожалению, она не может быть впол-


                                                  158
   Суперкомпьютерные дни в России 2015 // Russian Supercomputing Days 2015 // RussianSCDays.org


не подобна нормировке в (3.2), и вопрос об её устойчивости остаётся открытым. Приведём воз-
можную схему.
    Весь диапазон натуральных чисел от 1 до n разбивается на q промежутков – от 1 до k1, от
k1+1 до k2, ..., от kq-1+1 до kq=n. На первом промежутке все значения Ui вычисляются последо-
вательно, по стандартным формулам (37). На остальных промежутках выполняется следующая
процедура.
    Пусть рассматривается j+1-й промежуток. Тогда уже известны значения
                                    ,                    ,                                (55)
                                           ,                                             (55’)
Для всех значений i от           до      теперь вычисляем


    Формулы (30) – (31') как раз включают в себя нормировку. После того, как выполнены вы-
числения на всех промежутках, на них (кроме первого) ещё неизвестны значения Ui. Их мы для
каждого j+1-го промежутка вычисляем параллельно по формулам
                                                                                         (59)
    Естественно, что каждое значение       можно вычислить только после вычисления        .В
результате, если разбиение на интервалы будет проведено равномерно, структура алгоритма
разложения будет иметь тот же вид, что и на Рис. 13. Естественно, на этот раз вершинам графа
будут соответствовать более сложные операции.
    Конечно, скалярность блоков      – довольно сильное ограничение для того, чтобы можно
было распараллелить блочную прогонку. На деле можно ограничиться менее сильным ограни-
чением – их невырожденностью. Действительно, пусть все наддиагональные блоки        матрицы


                                                                                                  (60)


невырождены. Тогда вместо матрицы A мы можем выполнить предложенным способом разло-
жение матрицы DA, где
                                                                               (61)
Действительно, матрица


                                                                                                  (62)


удовлетворяет заявленному требованию скалярности наддиагональных блоков и потому может
быть разложена предложенным методом. К сожалению, ограничение невырожденности для
блоков, составляющих хотя бы одну из побочных диагоналей, всё же довольно сильно ограни-
чивает область применимости блочной версии последовательно-параллельного метода разло-
жения блочно-трёхдиагональной матрицы.
    После этого вместо систем вида (1) можно будет либо решать СЛАУ вида


                                               159
   Суперкомпьютерные дни в России 2015 // Russian Supercomputing Days 2015 // RussianSCDays.org


                                                                                       (63)
либо домножить матрицу L из полученного LU-разложения матрицы DA на матрицу D-1 слева и
работать с полученным LU-разложением.
    Остаётся отметить, что решения СЛАУ с полученными из разложения блочно-
двухдиагональными матрицами распараллеливаются по схеме, принципиально не отличающей-
ся от схемы, получающейся из формул (10) – (14), с заменой скалярных операций на блочные, и
с возможностью упрощения по последовательно-параллельной схеме, как на Рис. 12. В отличие
от блочной схемы разложения, при этом распараллеливании не нужно применять специальные
методы для обеспечения устойчивости – она у распараллеленной схемы та же, что и у последо-
вательных блочных версий.

5. Возможные параллели между методом и другими схемами
    Автор при разработке последовательно-параллельного метода для разложения трёхдиаго-
нальной матрицы, изложенного в части 3, прежде всего руководствовался целью распаралле-
лить нахождение того же LU-разложения трёхдиагональной матрицы, что получается последо-
вательной схемой, получаемой из компактной схемы метода Гаусса применительно к трёхдиа-
гональным матрицам. В условиях точных вычислений предложенный метод эквивалентен как
указанной версии компактной схемы метода Гаусса, так и методу рекурсивного сдваивания
Стоуна. Структура расположения ненулевых элементов матрицы A дублируется аналогичной
структурой разложения (см. Рис. 14).


Рис. 4. Структура расположения ненулевых элементов исходной матрицы. В нижнем треугольнике она
               дублируется структурой матрицы L, в верхнем – структурой матрицы U.
Другие алгоритмы, возможно, похожие по схеме, дают другие разложения. Например, один из
читателей увидел схожесть предложенного метода и следующего: «перестановки такие, что в
трехдиагональной матрице разделители уходят в конец матрицы; возникает набор не связанных
блоков и окаймление; такую матрицу можно устойчиво факторизовать в параллельном режи-
ме» (возможный пример такого с одним разделением приведён на Рис. 15).


                                               160
   Суперкомпьютерные дни в России 2015 // Russian Supercomputing Days 2015 // RussianSCDays.org


 Рис. 5. Выполнение перестановок в окаймлении, ассоциации с которым могут возникнуть у читателя
                 статьи. Выполнено только одно разделение матрицы на фрагменты
   На Рис. 16 показана структура ненулевых элементов получаемого разложения.


Рис. 6. Структура расположения ненулевых элементов разложения «переставленной» матрицы. В ниж-
    нем треугольнике она дублируется структурой матрицы L, в верхнем – структурой матрицы U.
    Хорошо видно появление дополнительных ненулевых элементов. При разбиении переста-
новками верхнего левого трёхдиагонального блока исходной матрицы будут возникать анало-
гичные структуры. Кроме этого, таким методом, в отличие от авторского, вычисляется LU-
разложение не для исходной матрицы A, а для матрицы PAPT, где P – матрица перестановок
.Поэтому такая схема явно неэквивалентна предложенному автором методу, в котором вычис-
ляемое разложение не имеет таких дополнительных элементов. При этом, однако, подмеченная
читателем схожесть в том, что основными частями разложения и там, и там является парал-
лельная обработка отдельных трёхдиагональных фрагментов исходной матрицы, плюс некото-
рое добавление. Однако и обработка фрагментов, и добавления – разные в разных методах. К
слову, несмотря на дополнительное «заплывание» структуры разложения в методе такого
окаймления тот, пожалуй, более пригоден для распараллеливания разложения блочно-
трёхдиагональной матрицы в тех случаях, когда у нас нет невырожденности блоков хотя бы на
одной из её побочных диагоналей.

6. Заключение
    Переход от приёма сдваивания к варианту последовательно-параллельного выполнения для
использования ассоциативности операций позволил сконструировать такой метод, где, благо-
даря использованию приёма нормировки, характерного для последовательных операций [2],
возможно стало сочетать параллельность с устойчивостью разложения трёхдиагональной мат-
рицы. Аналогичный приём, который автор предлагает использовать и при решении двухдиаго-
нальных СЛАУ, получающихся после разложения, также позволяет упростить схему организа-


                                               161
   Суперкомпьютерные дни в России 2015 // Russian Supercomputing Days 2015 // RussianSCDays.org


ции вычислений и снять жёсткие требования на количество устройств, позволяя запрограмми-
ровать эффективное параллельное исполнение даже при сравнительно небольшом уровне па-
раллелизма вычислительной системы.
    У читателей, возможно, возникнут вопросы по поводу апробации метода и его сравнению с
другими методами решения этой же задачи. На апробацию у автора просто пока не было вре-
мени (контуры метода намечены в апреле, а в нынешнем виде он записан в середине мая
2015г.), но в ближайшем будущем запланировано заняться и апробацией метода, и детальным
его сравнением с другими.
    Кроме получения непосредственно новых схем вычисления, автор рекомендует читателю
присмотреться к последовательно-параллельной схеме вычислений там, где схемы сдваивания
не дают возможности построить устойчивые алгоритмы. Не исключено, что подобные замены
могут помочь и в других аналогичных случаях.

Литература
1. Воеводин В.В. Вычислительные основы линейной алгебры. М.: Наука, 1977.
2. Воеводин В.В., Кузнецов Ю.А. Матрицы и вычисления. М.: Наука, 1984.
3. Воеводин В.В. Математические основы параллельных вычислений // М.: Изд. Моск. ун-та,
   1991.
4. Открытая энциклопедия свойств алгоритмов. URL: http://algowiki-project.org (дата обраще-
   ния: 28.05.2015).
5. Самарский А.А., Николаев Е.С. Методы решения сеточных уравнений. М.: Наука, 1978.
6. Фролов А.В. Использование последовательно-параллельного метода для распараллелива-
   ния алгоритмов с ассоциативными операциями // Представлена в качестве доклада на пер-
   вую объединенную международную конференцию "Суперкомпьютерные дни в России",
   Москва, 28-29 сентября 2015 г.
7. Buneman O. A Compact Non-iterative Poisson Solver // Rep. 294, Inst. for Plasma Res., Stanford
   U., Stanford, Calif., 1969.
8. Buzbee B.L., Golub G.H., Nielson C.W. On Direct Methods for Solving Poisson's Equations //
   SIAM J. Numer. Anal., Vol. 7, No. 4 (Dec. 1970), P. 627-656.
9. Stone H.S. An Efficient Parallel Algorithm for the Solution of a Tridiagonal Linear System of
   Equations // J. ACM, Vol. 20, No. 1 (Jan. 1973), P. 27-38.
10. Stone H.S. Parallel Tridiagonal Equation Solvers // ACM Trans. on Math. Software, Vol. 1, No. 4
    (Dec. 1975), P. 289-307.


                                               162
   Суперкомпьютерные дни в России 2015 // Russian Supercomputing Days 2015 // RussianSCDays.org


Yet another tridiagonal matrix algorithm parallelizing method
Alexey Frolov
Keywords: Thomas algorithm, tridiagonal matrix algorithm, parallelizing
New tridiagonal matrix algorithm parallelizing method is described in this article.

This method uses matrix multiplication associativity, and is stable for standard data of
Thomas algorithm.