=Paper=
{{Paper
|id=Vol-1576/056
|storemode=property
|title=Performance Evaluation of the «Angara» Interconnect
|pdfUrl=https://ceur-ws.org/Vol-1576/056.pdf
|volume=Vol-1576
|authors=Aleksandr Agarkov,Timur Ismagilov,Dmitriy Makagon,Aleksandr Semenov,Aleksey Simonov
}}
==Performance Evaluation of the «Angara» Interconnect==
Параллельные вычислительные технологии (ПаВТ’2016) || Parallel computational technologies (PCT’2016) agora.guru.ru/pavt Предварительные результаты оценочного тестирования отечественной высокоскоростной коммуникационной сети Ангара А.А. Агарков, Т.Ф. Исмагилов, Д.В. Макагон, А.С. Семенов, А.С. Симонов АО «НИЦЭВТ» В статье представлены результаты сравнительного оценочного тестирования 36- узлового вычислительного кластера «Ангара-К1», оснащенного адаптерами ком- муникационной сети Ангара, и суперкомпьютера МВС-10П с сетью Infiniband 4x FDR, установленного в МСЦ РАН. Ключевые слова: высокоскоростная сеть, интерконнект, Ангара, Infiniband FDR, HPCG, HPL, NPB, ПЛАВ 1. Введение По статистике списка TOP500 самых мощных суперкомпьютеров мира ( [1], ноябрь 2015) можно заметить, что большинство представленных в нем систем используют коммер- ческие сети Infiniband и Gigabit Ethernet. Однако суперкомпьютеры из первой десятки — Tianhe-2 (Китай), Cray (США), IBM Blue Gene/Q (США), K Computer (Япония) — исполь- зуют собственные («заказные») коммуникационные сети, и только одна система использует коммерческую сеть Infiniband. «Заказные» сети не поставляются отдельно от вычислитель- ной системы, а коммерческие сети далеко не всегда подходят для эффективной реализации систем с высокими требованиями по масштабируемости, надежности и производительности. Сеть «Ангара» [2–7] — первый в России проект высокоскоростной сети с маршрутизато- рами на основе СБИС ЕС8430 отечественной разработки. Микросхема ЕС8430 стала итогом семилетней работы подразделения АО «НИЦЭВТ» — разработчика высокоскоростной сети Ангара. СБИС выпущена на фабрике TSMC с использованием технологии 65 нм. Размер кристалла — 13,0\times 10,5 мм, количество транзисторов — 180 миллионов. СБИС работает на частоте 500 МГц и потребляет 20 Вт. Поддерживается топология сети «многомерный тор» (возможны варианты от 1D до 4D-тор), каждый сетевой узел может иметь до 8 соединений с соседними узлами. В настоящий момент в АО «НИЦЭВТ» собран 36-узловой кластер «Ангара-К1» с ком- муникационной сетью Ангара. Данная работа посвящена оценочному тестированию сети Ангара в составе данного кластера и сравнению результатов с суперкомпьютером МВС- 10П, оснащенного сетью Mellanox Infiniband 4x FDR. Статья построена следующим образом. В разделе 2 дано описание использованного обо- рудования и программного обеспечения. В разделе 3 приведены результаты тестирования простых коммуникационных операций. В разделе 4 представлены результаты производи- тельности тестов HPL и HPCG, как наиболее распространенных тестов суперкомпьютеров. В разделе 5 приведены результаты тестов NPB, представляющих собой набор часто встре- чающихся в практике задач и охватывающих широкий диапазон требований к коммуни- кационной сети. В разделе 6 приведен анализ производительности большого суперкомпью- терного приложения — модели предсказания погоды ПЛАВ. 2. Вычислительные системы В АО «НИЦЭВТ» собран кластер «Ангара-К1», состоящий из 36 узлов, объединенных сетью Ангара. Кластер состоит из 24 узлов с двумя процессорами Intel Xeon E5-2630 (по 6 ядер, 2.3 ГГц) и 12 узлов с одним процессором Intel Xeon E5-2660 (8 ядер, 2.2 ГГц). Память 42 Параллельные вычислительные технологии (ПаВТ’2016) || Parallel computational technologies (PCT’2016) agora.guru.ru/pavt каждого узла — 64 ГБ. Узлы объединены сетью Ангара с топологией 3D-тор 3\times 3\times 4. В исследовании использовалась библиотека MPI, основанная на MPICH версии 3.0.4, а также собственная реализация библиотеки SHMEM, соответствующая стандарту 1.0 OpenSHMEM [8]. Сопоставление результатов проводилось с суперкомпьютером МВС-10П, установлен- ным в МСЦ РАН и включающем 207 узлов, в каждом узле по два процессора Intel Xeon E5-2690 (по 8 ядер, 2.9 ГГц) и 64 ГБ памяти. Узлы объединены сетью Infiniband 4x FDR. Во время тестирования использовалась библиотека Intel MPI 14.1.0.030. В таблице 1 приведена сводная характеристика узлов кластеров «Ангара-К1» и МВС- 10П. В таблице 2 приведены основных характеристики используемых суперкомпьютеров. Необходимо отметить, что используемые в обеих вычислительных системах процессоры фирмы Intel относятся к одному поколению Sandy Bridge, однако в узле МВС-10П находятся два процессора с частотой 2.9 ГГц, которая значительно выше, чем частота процессоров в кластере «Ангара-К1». Поэтому узел МВС-10П значительно мощнее любого из двух типов узлов кластера «Ангара-К1», что необходимо учитывать особенно при сравнении систем на прикладных тестах. Для адекватного сравнения прикладных тестов на обеих системах используется по 8 ядер; на каждом узле это значение соответствует максимальному коли- честву ядер в узле типа B кластера «Ангара-К1». При использовании большего числа ядер на B-узле режим работы задачи может меняться из-за использования технологии Hyper- Threading, адекватное сравнение в этом случае, например, с кластером МВС-10П вряд ли возможно. Таблица 1. Параметры вычислительных узлов, используемых в кластере с сетью Ангара и супер- компьютере МВС-10П. «Ангара-К1» Параметр МВС-10П Узел типа A Узел типа B 2\times Intel Xeon E5- Intel Xeon E5- 2\times Intel Xeon E5- Процессор 2630 2660 2690 Тактовая частота процессо- 2.3 2.2 2.9 ра, ГГц Количество ядер в узле 12 8 8 Размер кэша L3, МБ 15 20 20 Память узла, ГБ 64 64 64 Пиковая производитель- 221 141 371 ность узла, Гфлопс 3. Коммуникационная задержка Одной из важнейших характеристик сети является задержка на передачу сообщений между двумя соседними узлами. Задержка измерялась при помощи теста osu_latency из пакета OSU Micro-Benchmarks, версия 5.1 [9]. Результаты измерений приведены на рисун- ке 1. 43 Параллельные вычислительные технологии (ПаВТ’2016) || Parallel computational technologies (PCT’2016) agora.guru.ru/pavt Таблица 2. Параметры вычислительных систем Параметр «Ангара-К1» МВС-10П Количество узлов 24\times A, 12\times B 207 (36) Общая пиковая производительность, Тфлопс 6.988 76.838 (13.356) Ангара Infiniband 4x FDR Сеть 3D-тор 3\times 3\times 4 Fat Tree 6 IB FDR MPI 5 Ангара MPI Ангара SHMEM 4 кс м ак , ж ре 3 д аЗ 2 1 0 0 1 2 4 8 16 32 64 128 256 512 1024 2048 4096 8192 Размер сообщения, байт Рис. 1. Задержка передачи сообщения в сетях Ангара и Infiniband FDR в зависимости от размера сообщения. При использовании библиотеки MPI задержка на сети Ангара меньше, чем на сети Infiniband FDR при размерах сообщений от 8 байт до 4 Кбайт. Использование библиотеки SHMEM позволяет уменьшить задержку на сети Ангара на 31% в сравнении с результатом, полученным при использовании библиотеки MPI. При этом задержка на передачу коротких сообщений с использованием SHMEM составляет 685 наносекунд, из которых 40 наносекунд уходят на обработку пакета в маршрутизаторе, 89 наносекунд — на передачу по линку, а оставшиеся 556 наносекунд — это суммарная задержка на инжекцию и эжекцию сообщения через PCI Express. Сеть Ангара имеет торовую топологию, важным параметром является задержка на каждый шаг (хоп), которая составляет 129 наносекунд. Результаты, полученные на сети Ангара с использованием библиотеки SHMEM, зна- чительно лучше, чем при использовании библиотеки MPI. С одной стороны, это говорит о том, что библиотека SHMEM значительно ближе к аппаратуре и вносит меньше накладных расходов чем библиотека MPI; с другой стороны, это показывает возможность оптимизации библиотеки MPI для сети Ангара. 44 Параллельные вычислительные технологии (ПаВТ’2016) || Parallel computational technologies (PCT’2016) agora.guru.ru/pavt 4. Тесты HPL и HPCG Тест HPL (High-Performance LINPACK) [11] используется для ранжирования супер- компьютеров в списке TOP500 Тест LINPACK представляет собой решение СЛАУ Ax = f методом LU -разложения, где A — плотнозаполненная матрица. Тест HPL — это реализация LINPACK на языке С для суперкомпьютеров с распределенной памятью. Запуск теста HPL проводился с использованием 8 MPI-процессов на узел кластера. На кластере «Ангара-К1» на HPL получено 85% от пиковой производительности в расчете на 8 используемых в узле ядер, см. таблицу 3. Тест HPL содержит мало коммуникационных обменов и не представляет интереса с точки зрения сети, поэтому сравнительного измерения на МВС-10П не проводились. Тест HPCG [12] — относительно новый тест, предназначенный для дополнения теста HPL. В основе HPCG лежит решение линейных уравнений c разреженной матрицей боль- шой размерности при помощи итерационного метода сопряженных градиентов с многосе- точным предобуславливателем. В отличие от HPL тест HPCG обеспечивает стрессовую на- грузку подсистемы памяти вычислительных узлов и коммуникационной сети, представляя значительный класс современных суперкомпьютерных приложений. Для тестирования на обеих вычислительных системах использовалась оптимизирован- ная реализация HPCG [13], разработанная в АО «НИЦЭВТ». Все проведенные оптимиза- ции являются допустимыми с точки зрения спецификации теста HPCG. Данная реализа- ция включает оптимизации уровня вычислительного узла, в том числе изменение формата хранения разреженной матрицы и векторизацию. Выполнена также оптимизация межпро- цессных обменов для сети Ангара при помощи использования библиотеки SHMEM вместо библиотеки MPI. По сравнению с базовой версией теста HPCG 2.4 оптимизированная версия дает выигрыш на 36 узлах кластера практически в 2 раза. Результаты выполнения теста приведены в таблице 3; пиковая производительность рас- считывалась исходя из вычислительной мощности 8 используемых ядер на каждой вычис- лительной системе. В HPCG межузловой обмен используется в двух функциях: обмен меж- ду соседними процессами при вычислении произведения разреженной матрицы на вектор и вычислении предобуславливателя, а также в функции вычисления скалярного произве- дения (редукция). За счет того, что размер передаваемых в тесте сообщений между сосед- ними процессами небольшой, а задержка передачи коротких сообщений с использованием библиотеки SHMEM в сети Ангара значительно меньше, чем с использованием библиоте- ки MPI (см. рисунок 1), получен значительный выигрыш в производительности теста при замене библиотеки MPI на библиотеку SHMEM в обеих функциях. В итоге, с использо- ванием SHMEM на кластере «Ангара-К1» удалось получить значительно более высокую производительность по отношению к пиковой в сравнении с достигнутой на МВС-10П. 5. Тесты NPB Набор тестов NAS Parallel Benchmarks (NPB) [14] является одним из самых распро- страненных тестов вычислительных систем. Тесты NPB включают в себя ряд синтетиче- ских задач и псевдоприложений, эмулирующих реальные приложения в области гидро и аэродинамики. Cуществуют параллельные реализации тестов NPB с использованием MPI, OpenMP, MPI+OpenMP. Сравнение вычислительных систем проводилось на MPI версии те- ста 3.3.1. Для всех тестов NPB размеры обрабатываемых данных разбиваются на классы, расположенные в порядке увеличения расчетных данных: S, A, B, C, D, E. Для тестиро- вания был выбран класс C, так как задачи этого класса уже достаточно большие, чтобы обеспечить необходимый параллелизм, но при этом влияние сети является заметным. На узле использовалось 8 MPI-процессов, максимальное количество используемых узлов — 32, оно связано с требованием, что количество используемых процессов должно быть степенью двойки. 45 Параллельные вычислительные технологии (ПаВТ’2016) || Parallel computational technologies (PCT’2016) agora.guru.ru/pavt Таблица 3. Результаты выполнения тестов HPL и HPCG «Ангара-К1» МВС-10П Тфлопс 4.44 – HPL % пиковой 85 % – Гфлопс 279 363 HPCG MPI % пиковой 5.3 % 5.4 % Гфлопс 342 – HPCG SHMEM % пиковой 6.5 % – На рисунках 2-6 показано сравнение производительности и ускорения тестов LU, MG, CG, FT и IS на кластере «Ангара-К1» и суперкомпьютере МВС-10П в зависимости от количества вычислительных узлов. На кластере «Ангара-К1» использовалось следующее правило выбора узлов: для заданного числа узлов выбирались узлы типа B, в случае их нехватки (для конфигураций от 16 узлов) добавлялись узлы типа A. Графики расположены в порядке убывания реальной производительности. Каждый следующий тест более требователен к коммуникационной сети, чем предыдущий. Так как узлы МВС-10П более производительны по сравнению с узлами кластера «Ангара-К1», то практически на всех тестах производительность МВС-10П выше. Поэтому для лучшего сравнения сетей кроме реальной производительности используется характеристика полу- ченного ускорения выполенения задачи с увеличением количества вычислительных узлов. В тесте LU решается система уравнений с равномерно разреженной блочной треуголь- ной матрицей методом симметричной последовательной верхней релаксации к которой при- водят трехмерные уравнения Навье — Стокса. Как можно видеть на рисунке 2, ускорение на кластере «Ангара-К1» совпадает с полученным на МВС-10П. Как можно видеть на рисунке 2, ускорение на кластере с сетью Ангара совпадает с полученным на МВС-10П. Это вызвано тем, что доля коммуникаций теста LU мала в сравнении с долей локальных вычислений. LU, производительность LU, ускорение 600000 30 500000 25 МВС-10П МВС-10П 400000 20 Ангара еи Ангара Mop/s 300000 не 15 ро 200000 кс 10 У 100000 5 0 0 1 2 4 8 16 32 1 2 4 8 16 32 Количество узлов Количество узлов (a) LU производительность (b) LU ускорение Рис. 2. Результаты выполнения теста NPB LU на кластере с сетью Ангара в сравнении с супер- компьютером МВС-10П. Тест MG представляет собой приближенное решение трехмерного уравнения Пуассона в частных производных на заданной сетке c периодическими граничными условиями. В этом тесте объем и интенсивность коммуникаций выше, чем в тесте LU. На 8-ми, 16-ти и 46 Параллельные вычислительные технологии (ПаВТ’2016) || Parallel computational technologies (PCT’2016) agora.guru.ru/pavt 32-х узлах ускорение на кластере с сетью Ангара выше, чем на МВС-10П (см. рисунок 3). MG, производительность MG, ускорение 600000 30 500000 25 МВС-10П МВС-10П 400000 20 Ангара еи Ангара Mop/s 300000 не 15 ро 200000 кс 10 У 100000 5 0 0 1 2 4 8 16 32 1 2 4 8 16 32 Количество узлов Количество узлов (a) MG производительность (b) MG ускорение Рис. 3. Результаты выполнения теста NPB MG на кластере с сетью Ангара в сравнении с супер- компьютером МВС-10П. Тест FT заключается в нахождении решения уравнения в частных производных \partial u(x,t) \partial t = \alpha \nabla 2 u(x, t) при помощи быстого прямого и обратного преобразования Фурье. В этом тесте появляются передачи значительных объемов данных от каждого MPI-процесса каждому. На 16-ти и 32-х узлах (см. рисунок 4) кластер «Ангара-К1» показывает лучшее ускорение, чем МВС-10П. FT, производительность FT, ускорение 300000 30 250000 25 МВС-10П МВС-10П 200000 20 Ангара еи Ангара Mop/s 150000 не 15 ро 100000 кс 10 У 50000 5 0 0 1 2 4 8 16 32 1 2 4 8 16 32 Количество узлов Количество узлов (a) FT производительность (b) FT ускорение Рис. 4. Результаты выполнения теста NPB FT на кластере «Ангара-К1» в сравнении с суперком- пьютером МВС-10П. В тесте CG вычисляется методом сопряженных градиентов наименьшее собственное значение разреженной матрицы. Основная часть обменов проходит внутри небольших групп MPI-процессов. На 8-ми и 16-ти узлах (см. рисунок 5) кластер «Ангара-К1» показывает немного худшее ускорение, чем МВС-10П, а на 32-х узлах — немного лучшее. Тест IS выполняет распределенную сортировку N целых чисел. Доля локальных вычис- лений в этом тесте мала в сравнении с долей обменов. Производительность теста ограничена временем выполнения обменов типа «все-всем». Это единственный тест, на котором благо- даря сети Ангара удается получить лучшую реальную производительность на 32-х узлах, чем на кластере МВС-10П (см. рисунок 6). 6. Тестирование на модели ПЛАВ Модель атмосферы ПЛАВ (ПолуЛагранжева, основана на уравнении Абсолютной за- Вихренности) [15, 16] является основной моделью глобального среднесрочного прогноза по- годы в России с 2010 года. Она включает в себя блок решения уравнений динамики атмо- сферы, алгоритмы параметризаций процессов подсеточного масштаба (крупномасштабных осадков, глубокой конвекции, коротковолновой и длинноволновой радиации, пограничного 47 Параллельные вычислительные технологии (ПаВТ’2016) || Parallel computational technologies (PCT’2016) agora.guru.ru/pavt CG, производительность CG, ускорение 120000 25 100000 МВС-10П 20 МВС-10П 80000 Ангара е 15 Ангара и Mop/s 60000 не ро 10 40000 кс У 5 20000 0 0 1 2 4 8 16 32 1 2 4 8 16 32 Количество узлов Количество узлов (a) CG производительность (b) CG ускорение Рис. 5. Результаты выполнения теста NPB CG на кластере «Ангара-К1» в сравнении с суперком- пьютером МВС-10П. IS, производительность IS, ускорение 10000 14 9000 12 8000 МВС-10П МВС-10П 7000 10 6000 Ангара еи Ангара Mop/s 8 5000 не 4000 ро 6 3000 кс 4 2000 У 2 1000 0 0 1 2 4 8 16 32 1 2 4 8 16 32 Количество узлов Количество узлов (a) IS производительность (b) IS ускорение Рис. 6. Результаты выполнения теста NPB IS на кластере «Ангара-К1» в сравнении с суперком- пьютером МВС-10П. 25 МВС-10П 20 Ангара еи15 не ро кс У10 5 0 0 5 10 15 20 25 30 35 Количество узлов Рис. 7. Сравнение кластера «Ангара-К1» и суперкомпьютера МВС-10П на модели ПЛАВ. слоя атмосферы, торможения гравитационных волн рельефом, модель многослойной поч- вы). Для распараллеливания ПЛАВ применяется сочетание библиотеки MPI и технологии OpenMP. Модель ПЛАВ c разрешением 0.5625 градусов по долготе, переменным шагом по широте 48 Параллельные вычислительные технологии (ПаВТ’2016) || Parallel computational technologies (PCT’2016) agora.guru.ru/pavt от 0.26 до 0.9 градуса, 50 уровнями по вертикали (размерности сетки 640\times 400\times 50) запу- щена на кластере «Ангара-К1» и суперкомпьютере МВС-10П. Данное разрешение выбрано значительно меньшим применяемого в реальных расчетах для демонстрации возможностей сетей на требуемом числе узлов. Для оценки ее производительности использовалось время, затраченное на получение прогноза на 400 часов вперед. При запуске на каждом узле кла- стера задействовалось 8 ядер: 4 MPI-процесса и 2 OpenMP треда на каждый MPI-процесс. При получении графика ускорения выполнения модели ПЛАВ на кластере «Ангара-К1» использовалось то же правило выбора узлов, что и для тестов NPB: для заданного чис- ла узлов выбирались узлы типа B, в случае их нехватки (для конфигураций от 16 узлов) добавлялись узлы типа A. На рисунке 7 показано сравнение ускорения, достигнутого при выполнении модели ПЛАВ, на кластере «Ангара-К1» и на суперкомпьютере МВС-10П. Время расчета про- гноза ПЛАВ на одном узле кластера «Ангара-К1» составило 4697 секунд, на 32-х узлах — 217 секунд, на одном узле суперкомпьютера МВС-10П — 3411 секунд, на 32-х узлах — 173 секунды. Один из факторов, ограничивающих производительность модели ПЛАВ, — транс- понирование матрицы, которое ведет к сложному для сети коммуникационному шаблону обменов «все со всеми». Таким образом, сеть Ангара обеспечивает на 9.6% более высокое ускорение при расчете ПЛАВ по сравнению с Infiniband: 21.6 раз против 19.7 на МВС-10П. При заданном разрешении модель перестает масштабироваться после 32-х узлов на обеих вычислительных системах из-за отсутствия достаточного параллелизма. 7. Заключение В статье представлены результаты сравнительного оценочного тестирования 36-узлового вычислительного кластера «Ангара-К1», оснащенного адаптерами коммуникационной сети Ангара, и суперкомпьютера МВС-10П с сетью Infiniband 4x FDR, установленного в МСЦ РАН. Оценочное тестирование проведено при помощи тестов разных уровней: простых ком- муникационных операций, широкораспространненных тестов оценки производительности суперкомпьютеров HPL и HPCG, набора тестов NPB уровня прикладных задач, охватыва- ющих широкий диапазон требований к коммуникационной сети, а также на модели пред- сказания погоды ПЛАВ. Тест измерения задержки передачи сообщения с использованием библиотеки MPI по- казывает превосходство сети Ангара над сетью Infiniband FDR при размерах сообщения от 8 байт до 4 Кбайт. Использование библиотеки SHMEM на сети Ангара позволяет получить значительно лучшие характеристики. Для теста HPL показана возможность получения на кластере «Ангара-К1» необходи- мой реальной производительности. Тест HPCG предъявляет значительно более высокие требования к подсистеме памяти и коммуникационной сети, чем тест HPL. Для исследова- ния использовалась оптимизированная авторами данной работы версия теста. Применение библиотеки MPI на кластере «Ангара-К1» в сравнении с МВС-10П позволило получить на данном тесте одинаковый уровень производительности по отношению к теоретической пи- ковой, а использование библотеки SHMEM позволило значительно улучшить результат на кластере с сетью Ангара. Рассматриваемый набор тестов NPB включает тесты LU, MG, FT, CG, IS, рассмат- ривается класс C. Каждый узел МВС-10П более производителен по сравнению с узлом кластера «Ангара-К1», поэтому общая производительность МВС-10П на тестах NPB опе- режает «Ангара-К1». Однако по ускорению кластер «Ангара-К1» опережает на всех тестах МВС-10П с сетью Infiniband 4x FDR. Кроме того, на тесте сортировки целых числе IS за счет преимуществ сети Ангара кластер «Ангара-К1» достиг на 32-х узлах более высокой производительности, чем суперкомпьютер МВС-10П с сетью Infiniband 4x FDR. 49 Параллельные вычислительные технологии (ПаВТ’2016) || Parallel computational technologies (PCT’2016) agora.guru.ru/pavt Модель прогноза погоды ПЛАВ на небольшой расчетной сетке на кластере «Ангара- К1» показала ускорение, превышающее на 9.6% полученное на суперкомпьютере МВС-10П. Дальнейшие работы включают в себя детальный анализ производительности тестов NPB, оптимизацию тестов NPB и прикладных задач при помощи библиотеки SHMEM, а также оптимизацию библиотеки MPI для сети Ангара. Применение сети Ангара полностью охватывает суперкомпьютерный рынок, а также рынок ЦОДов. В настоящее время ведется разработка второго поколения высокоскорост- ной коммуникационной сети Ангара, что показывает важный для пользователей факт, что пользователям при смене поколений оборудования не придется переучиваться и привыкать к новой технологии, оптимизированные под сеть Ангара программы будут также эффек- тивнее работать при использовании сети Ангара-2. Авторы статьи выражают благодарность Михаилу Андреевичу Толстых и Ростиславу Фадееву за помощь в исследовании производительности модели прогноза погоды ПЛАВ. Литература 1. Top500 Supercomputing Sites. URL: Top500.org (дата обращения: 21.02.2016). 2. Макагон Д.В., Сыромятников Е.Л. Сети для суперкомпьютеров // Открытые системы. — 2011. — №7. 3. Корж А.А. , Макагон Д.В., Жабин И.А., Сыромятников Е.Л. Отечественная коммуникационная сеть 3D-тор с поддержкой глобально адресуемой памяти для суперкомпьютеров транспетафлопсного уровня производительности. // Паралельные вычислительные технологии (ПаВТ’2010): Труды международной научной конференции (Уфа, 29 марта-2 апреля 2010 г.): С. 227-237, Челябинск: Издательский центр ЮУрГУ, ISBN 978-5-696-03987-9, 2010. URL: http://omega.sp.susu.ac.ru/books/conference/PaVT2010/full/134.pdf (дата обращения: 29.04.2015). 4. Симонов А.С., Жабин И.А., Макагон Д.В. Разработка межузловой коммуникационной сети с топологией «многомерный тор» и поддержкой глобально адресуемой памяти для перспективных отечественных суперкомпьютеров. // Научно-техническая конференция «Перспективные направления развития вычислительной техники», ОАО «НИЦЭВТ», 2011. 5. Симонов А.С., Макагон Д.В., Жабин И.А., Щербак А.Н., Сыромятников Е.Л., Поляков Д.А. Первое поколение высокоскоростной коммуникационной сети «Ангара» // Наукоемкие технологии. — 2014. — Т. 15, №1. — С. 21-28. 6. Слуцкин А.И., Симонов А.С., Жабин И.А., Макагон Д.В., Сыромятников Е.Л. Разработка межузловой коммуникационной сети ЕС8430 «Ангара» для перспективных суперкомпьютеров // Успехи современной радиоэлектроники. — 2012. — №1. 7. Жабин И.А., Макагон Д.В., Симонов А.С. Кристалл для Ангары // Суперкомпьютеры. — Зима-2013. — C. 46-49. 8. OpenSHMEM Application Programming Interface, Version 1.0, 31 January 2012. URL: http://openshmem.org/site/sites/default/site_files/openshmem_ specification-1.0.pdf (дата обращения: 29.11.2015). 9. OSU Micro-Benchmarks. URL: http://mvapich.cse.ohio-state.edu/benchmarks/ (дата обращения: 29.11.2015). 50 Параллельные вычислительные технологии (ПаВТ’2016) || Parallel computational technologies (PCT’2016) agora.guru.ru/pavt 10. Intel MPI Benchmarks. URL: https://software.intel.com/en-us/articles/intel-mpi-benchmarks (дата обращения: 29.11.2015). 11. High-Performance LINPACK. URL: http://www.netlib.org/benchmark/hpl/ (дата обращения: 29.11.2015). 12. M. Heroux, J. Dongarra, P. Luszczek. HPCG Technical Specification. Sandia Report SAND2013-8752. Printed October 2013. URL: https://software.sandia.gov/hpcg/doc/HPCG-Specification.pdf (дата обращения: 10.06.2015). 13. А.А. Агарков, А.С. Семенов, А.С. Симонов. Оптимизация теста HPCG для суперкомпьютеров с сетью «Ангара» // Суперкомпьютерные дни в России: Труды международной конференции (28–29 сентября 2015 г., г. Москва). — 2015. — С. 294–302. 14. NAS Parallel Benchmarks. URL: https://www.nas.nasa.gov/publications/npb.html (дата обращения: 29.11.2015). 15. Толстых М.А. Глобальная полулагранжева модель численного прогноза погоды. М, Обнинск: ОАО ФОП, 2010. 111 стр. 16. Толстых М.А., Мизяк В.Г. Параллельная версия полулагранжевой модели ПЛАВ с горизонтальным разрешением порядка 20 км // Труды Гидрометеорологического научно-исследовательского центра Российской Федерации. — 2011. — No 346. — С. 181–190. 51 Параллельные вычислительные технологии (ПаВТ’2016) || Parallel computational technologies (PCT’2016) agora.guru.ru/pavt Performance Evaluation of the «Angara» Interconnect. A.A. Agarkov, T.F. Ismagilov, D.V. Makagon, A.S. Semenov, A.S. Simonov AO «NICEVT» The paper presents performance evaluation results of 36-nodes cluster with «Angara» interconnect compared with MVS-10P supercomputer of JSCC RAS with Infiniband 4x FDR interconnect. Keywords: interconnect, «Angara», Infiniband FDR, NPB, HPCG, HPL, SLAV References 1. Top500 Supercomputing Sites. URL: Top500.org (accessed: 21.02.2016). 2. Makagon D.V., Syromyatnikov E.L. Seti dlya superkomp’yuterov [Supercomputers Interconnect]. Otkrytyye sistemy. SUBD. [Open Systems. DBMS]. — 2011. — N 7. —P. 33–37. 3. Korzh A.A., Makagon D.V., Zhabin I.A., Syromyatnikov E.L. Otechestvennaya kommunikatsionnaya set’ 3D-tor s podderzhkoy global’no adresuyemoy pamyati dlya superkomp’yuterov transpetaflopsnogo urovnya proizvoditel’nosti [Russian 3D-torus Interconnect with Support of Global Address Space Memory]. Parallelnye vychislitelnye tekhnologii (PaVT’2010): Trudy mezhdunarodnoj nauchnoj konferentsii (Ufa, 29 marta – 2 aprelya 2010) [Parallel Computational Technologies (PCT’2010): Proceedings of the International Scientific Conference (Ufa, Russia, March, 29 – April, 2, 2010)]. Chelyabinsk, Publishing of the South Ural State University, 2010. P. 527–237. URL: http://omega.sp.susu.ac.ru/books/conference/PaVT2010/full/134.pdf (accessed: 29.04.2015). 4. Simonov A.S., Zhabin I.A., Makagon D.V. Razrabotka mezhuzlovoy kommunikatsionnoy seti s topologiyey «mnogomernyy tor» i podderzhkoy global’no adresuyemoy pamyati dlya perspektivnykh otechestvennykh superkomp’yuterov [Development of the Multi-Dimensional Torus Topology Interconnectwith Support of Global Address Space Memory for Advanced National Supercomputers]. Nauchno-tekhnicheskaya konferentsiya «Perspektivnyye napravleniya razvitiya vychislitel’noy tekhniki» (Moskva, 28 iyunya) [Scientific and Technical Conference «Advanced Directions of the Computers Development Technology]. — Moscow: JSC «Concern «Vega», 2011. — P. 17–19 5. Simonov A.S., Makagon D.V., Zhabin I.A., Shcherbak A.N., Syromyatnikov E.L., Polyakov D.A. Pervoye pokoleniye vysokoskorostnoy kommunikatsionnoy seti «Angara» [The First Generation of Angara High-Speed Interconnect]. Naukoyemkiye tekhnologii [Science Technologies]. — 2014. — V. 15, N 1. — P. 21–28. 6. Slutskin A.I., Simonov A.S., Zhabin I.A., Makagon D.V., Syromyatnikov E.L. Razrabotka mezhuzlovoy kommunikatsionnoy seti YES8430 «Angara» dlya perspektivnykh superkomp’yuterov [Development of ES8430 Angara Interconnect for Future Russian Supercomputers]. Uspekhi sovremennoy radioelektroniki [Progress of the Modern Radioelectronics]. — 2012. — N 1. — P. 6–10. 7. Zhabin I.A., Makagon D.V., Simonov A.S. Kristall dlya Angary [Angara Chip] // Superkomp’yutery [Supercomputers]. —Winter-2013. — P. 46–49. 52 Параллельные вычислительные технологии (ПаВТ’2016) || Parallel computational technologies (PCT’2016) agora.guru.ru/pavt 8. OpenSHMEM Application Programming Interface, Version 1.0, 31 January 2012. URL: http://openshmem.org/site/sites/default/site_files/openshmem_ specification-1.0.pdf (accessed: 29.11.2015) 9. OSU Micro-Benchmarks. URL: http://mvapich.cse.ohio-state.edu/benchmarks/ (accessed: 29.11.2015). 10. Intel MPI Benchmarks. URL: https://software.intel.com/en-us/articles/intel-mpi-benchmarks (accessed: 29.11.2015). 11. High-Performance LINPACK. URL: http://www.netlib.org/benchmark/hpl/ (accessed: 29.11.2015). 12. M. Heroux, J. Dongarra, P. Luszczek. HPCG Technical Specification. Sandia Report SAND2013-8752. Printed October 2013. URL: https://software.sandia.gov/hpcg/doc/HPCG-Specification.pdf (accessed: 10.06.2015). 13. Agarkov A.A., Semenov A.S., Simonov A.S. Optimizaciya testa HPCG dlya superkomp’yuterov s set’yu «Angara» [Optimized Implementation of HPCG Benchmark on Supercomputer with "Angara"Interconnect]. // Superkomp’yuternye dni v Rossii: Trudy mezhdunarodnoj konferencii (28-29 sentyabrya 2015 g., g. Moskva) [Russian Supercomputing Days: Proceedings of the International Conference (Moscow, Russia, September 28-29, 2015.)]. — 2015. — С. 294-302. 14. NAS Parallel Benchmarks. URL: https://www.nas.nasa.gov/publications/npb.html (accessed: 29.11.2015). 15. Tolstykh M.A. Global’naya polulagranzheva model’ chislennogo prognoza pogody [Global Semi-Lagrangian Model Numerical Weather Prediction Model]. M, Obninsk: OAO FOP, 2010. P. 111. 16. Tolstykh M.A., Mizyak V.G. Parallel’naya versiya polulagranzhevoj modeli PLAV s gorizontal’nym razresheniem poryadka 20 km [Parallel Implementation of the Semi-Lagrangian Model SLAV with Resolution about 20 km] // Trudy Gidrometeorologicheskogo nauchno-issledovatel’skogo centra Rossijskoj Federacii [Proceedings of the Hydrometeorological Center of Russian Federation]. 2011. No 346. P. 181-190. 53