=Paper=
{{Paper
|id=Vol-1482/667
|storemode=property
|title=Управление вычислительными ресурсами Сибирского Суперкомпьютерного Центра
(Control and managing the HPC cluster in Siberian Supercomputer Center)
|pdfUrl=https://ceur-ws.org/Vol-1482/667.pdf
|volume=Vol-1482
}}
==Управление вычислительными ресурсами Сибирского Суперкомпьютерного Центра
(Control and managing the HPC cluster in Siberian Supercomputer Center)==
<pdf width="1500px">https://ceur-ws.org/Vol-1482/667.pdf</pdf>
<pre>
   Суперкомпьютерные дни в России 2015 // Russian Supercomputing Days 2015 // RussianSCDays.org


     Управление вычислительными ресурсами Сибирского
                Суперкомпьютерного Центра
        Б.М. Глинский, И.Г. Черных, Н.В. Кучин, С.В. Ломакин, И.Н. Макаров
    Институт Вычислительной Математики и Математической Геофизики СО РАН

        Разбираются вопросы эксплуатации суперкомпьютера НКС-30Т Сибирского Супер-
        компьютерного Центра Коллективного Пользования с системой управления очере-
        дью заданий PBS Pro.


1. Введение
    Центр коллективного пользования «Сибирский Суперкомпьютерный Центр» (ССКЦ) ор-
ганизован как структурное подразделение ИВМиМГ СО РАН в соответствии с постановлением
Президиума СО РАН от 06.03.2001 № 100 «О создании Сибирского суперкомпьютерного цен-
тра коллективного пользования СО РАН». В ССКЦ были установлены и эксплуатировались
разнообразные системы пакетной обработки (batch system):
    - Distributed Queuing System (DQS) на комплексе RM600 E30;
    - Система управления прохождением параллельных заданий (СУППЗ)
      на кластерах МВС-1000/32 и МВС-1000/128;
    - Sun Grid Engine на кластере НКС-160;
    - PBS Pro 11.1 на суперкомпьютере НКС-30Т.

2. Вычислительные ресурсы и программное обеспечение ЦКП ССКЦ
2.1 Кластерный суперкомпьютер НКС-30Т


                       Рис. 1. Логическая схема гетерогенного кластера НКС-30Т
    Гетерогенный высокопроизводительный кластер НКС-30Т с пиковой производительностью
115 ТФлопс это основной вычислительный ресурс ССКЦ [1-3]. Гибридное расширение на GPU
NVIDIA Tesla M2090 занимает 30 место, а базовый кластер на процессорах Intel Xeon - пятиде-
сятое место в 22 списке Top 50 от 31.03.2015.


                                               667
   Суперкомпьютерные дни в России 2015 // Russian Supercomputing Days 2015 // RussianSCDays.org


     Коммуникационная сеть кластера QDR Infiniband, транспортная и сервисная сети – Gigabit
.Ethernet. Кластерная файловая система Ibrix была модернизирована в 2014 году.
     Сервер HP ProLiant DL980 G7 с одним терабайтом оперативной памяти включен в состав
НКС-30Т как нестандартный вычислительный узел.
     Программно-аппаратная среда кластера позволяет использовать облачные технологии для
создания специализированных вычислительных сред. Гетерогенность ресурсов кластера позво-
ляет гибко варьировать параметры выделяемых в облако виртуальных ресурсов.
В настоящее время в ССКЦ СО РАН функционирует две, основанные на KVM виртуализиро-
ванные вычислительные среды, являющихся частями более крупных виртуальных кластеров.
Первая - ИЯФ-НГУ-ССКЦ [4]. Используется для обработки данных физических экспериментов
в физике высоких энергий, осуществляемых в ИЯФ СО РАН. Вторая - Академпарк-ССКЦ. Раз-
работана совместно с Академпарком Технопарка Новосибирского Академгородка и предназна-
чена для решения задач BigData (геофизика, обработка медицинских данных и другие). Оба
виртуальных кластера для обмена данными с ССКЦ используют Суперкомпьютерную сеть Но-
восибирского Научного Центра (10 Гбит/с).

2.2 Программное обеспечение

     Системное программное обеспечение включает в себя Red Hat Enterprise Linux 5.4, HP
Cluster Management Utility (CMU) 7.0 и систему управления пакетной обработкой PBS Pro 11.1.
     Средства разработки включают Intel MPI 4.1, Intel TraceAnalyzer/Collector, компиляторы
Intel C++ и Intel Fortran из состава Composer XE 2013 SP1, включающие библиотеки Intel MKL,
Intel IPP и Intel TBB. Дополнительно установлены компиляторы и библиотеки из Intel Parallel
Studio XE 2015. Такой подход позволяет использовать дорогостоящие лицензии на старые вер-
сии программного обеспечения Intel.
     Из коммерческих пакетов установлены Gaussian g09 Rev D.01 w/LINDA, ANSYS CFD
версии 14.5.7. с лицензиями HPC, обеспечивающими параллельное выполнение программ Flu-
ent, а также ANSYS CFD 16.1 (без лицензий HPC)..
     Архитектура ССКЦ поддерживает две современных парадигмы параллельных вычислений
– MPI для систем с распределенной памятью (МРР-кластеров)и OpenMP для систем с общей
памятью. Смешанная схема вычислений(MPI+OpenMP) позволяет запуск на каждый вычисли-
тельный узел кластера по одному MPI-процессу, который запускает внутри каждого вычисли-
тельного модуля несколько потоков с помощью OpenMP.
     Для гибридной архитектуры: суперкомпьютер состоит из набора соединенных между со-
бой узлов, для обмена данными используется MPI; каждый узел состоит из двух CPU и трёх
GPU; на каждом узле запускается 1 процесс MPI, управляющий вычислениями (процесс вы-
полняется на CPU); из MPI процесса запускаются потоки (threads) OpenMP, каждый из которых
управляет работой одного GPU. Другой вариант: запускаются три MPI процесса на узел, каж-
дый управляет закрепленным за ним GPU.

3. Использование вычислительных ресурсов
                         Таблица 1. Использование машинного времени по годам

Статистика по класте-
рам (НКС-30Т + НКС-          2009         2010              2011          2012         2013         2014
        160)
∑ производительность
                              7,1         17,5               31           116           115          115
      (тфлопс)
     ∑ CPU (дни)           80 179,52   121 201,46         209 997,57   533 324, 55   713 960,42   529 708,63

∑ количество заданий        38 914       39 750            35 952        83 797       103 840       89059

    ТОР50 (места)
                              26           34                32          16, 30        21, 36       28, 45
 С 2012г. два кластера


                                                    668
   Суперкомпьютерные дни в России 2015 // Russian Supercomputing Days 2015 // RussianSCDays.org


                       Таблица 2. Отчет по работе пользователей за 2014 год
Всего пользователей – 155                 Всего грантов, программ,            Всего публикаций – 158
Всего организаций – 29                    проектов, тем — 176
                                                                              Российских – 88
Академических организаций – 24            Из них Российских — 171             Зарубежных – 70
Университетов – 3                         Международных — 5
(СФУ, Красноярск), НГУ, НГТУ)                                                 Доктор. диссерт. – 1,
Другие организации – 2                    Грантов РФФИ – 67                   Кандидат. диссерт. – 5,
(СибНИА им. Чаплыгина, СибНИГ-            Программ РАН – 22                   Дипломы – 7,
МИ)                                       Проектов СО РАН – 30                Патенты – 2.
                                          Программ Минобрнауки – 18
                                          Другие – 34


    Приведенная статистика показывает, что ЦКП ССКЦ действительно центр коллективного
пользования, крупнейший за Уралом. Его пользователи в основном сотрудники СО РАН. С
увеличением вычислительных ресурсов число заданий и загрузка вычислительной техники –
возрастает. Спад в 2014 году связан с уменьшением потока заданий пользователей и потерями
машинного времени на модернизацию программного обеспечения кластерной файловой систе-
мы IBRIX и наращивание дискового пространства в августе - сентябре. Основные затраты
пришлись на сохранение по частям 27 Терабайт пользовательских данных и последующее их
восстановление.

4. Обеспечение безопасности
     Установлен сетевой экран (firewall), разрешающий доступ по протоколу ssh/scp/sftp только
из сетей, в которых есть зарегистрированные пользователи ССКЦ. На исходящий трафик огра-
ничений не налагается. Более точные ограничения накладываются средствами Linux
(hosts.allow , AllowUsers).
     Пользователи авторизуются по ключу ssh, который создаётся каждым пользователем ин-
дивидуально. Секретная часть ключа ssh хранится у пользователя, а открытая посылается ад-
министратору кластера.

5. Использование возможностей PBS Pro
    PBS Professional [5] это коммерческая система для планирования заданий и управления за-
грузкой высокопроизводительных вычислительных кластеров.

5.1 Очереди заданий

    На кластере организовано несколько очередей, каждая очередь поддерживает работу с од-
нотипными серверами одного поколения. Написан скрипт pbsinfo, выдающий число свободных
вычислительных узлов и отдельных ядер в каждой очереди.
    [kuchin@nks-g6 ~]$ pbsinfo

    QUEUE       NODES FREE CORES FREE NODES TOTAL GPUS FREE GPUS TOTAL
    ----------- ----------- -----------  ----------- ----------- -----------
    workq(G5)      0          0*8         64           0                   0
    g6_q(G6)     36         36*8+37     128            0                   0
    G7_q(G7)       1          1*12       96            0                   0
    SMP_G7_q(G7) 0             0*80+67     1           0                   0
    SL_q(GPU)       0         0*12        40           0                  120
                                    Рис. 2. Пример выдачи pbsinfo


                                               669
   Суперкомпьютерные дни в России 2015 // Russian Supercomputing Days 2015 // RussianSCDays.org


    Для специальных целей можно создать очередь, поддерживающую работу с неоднородны-
ми серверами. Например, сервер с большой оперативной памятью и несколько серверов с гра-
фическими ускорителями Nvidia Tesla.

5.2 Ограничение числа выполняемых заданий для конкретных пользователей

     Пользователь, поставивший в очередь большое число заданий, которые выйдут в счет и за-
хватят все свободные ресурсы, фактически будет использовать кластер монопольно и блокиро-
вать счет заданий других пользователей. Для таких пользователей вводится лимит на число
решаемых задач и лимит на число выделяемых процессорных ядер.

     [root@nks-g6 ~]# qmgr -c "print queue G7_q "
    #
    # Create queues and set their attributes.
    #
    #
    # Create and define queue G7_q
    #
    create queue G7_q
    set queue G7_q queue_type = Execution
    set queue G7_q max_run = [u:user1=10]
    set queue G7_q max_run += [u:user2=10]
    set queue G7_q max_run += [u:user3=10]
    set queue G7_q max_run += [u:user4=10]
    set queue G7_q max_run += [u:user5=10]
    ......
    set queue G7_q max_run_res.ncpus = [u:user1=120]
    set queue G7_q max_run_res.ncpus += [u:user4=120]
    set queue G7_q max_run_res.ncpus += [u:user5=300]
    set queue G7_q enabled = True
    set queue G7_q started = True
    [root@nks-g6 ~]#
      Рис. 3. Предотвращение монопольного использования очереди заданиями одного пользователя.

5.3 Учет использования заданиями пользователей машинного времени

    За выполненное задачей пользователя время принимается время решения задачи умножен-
ное на число выделенных задаче процессорных ядер. За основу подсистемы учета заданий
пользователей взята [6] версии pbsacct-1.4.7.tar.gz. Пользователи каждого института СО РАН
объединяются в отдельную группу. Информация по загрузке вычислительных ресурсов выдает-
ся по каждой очереди и интегрально по всем очередям кластера. Дополнительно выдается ин-
формация по использованию заданиями графических ускорителей. Отметим что в приведенном
примере информация о пользователях (login, Full name) не приведена и урезана до первых пяти
строк.

GPU May 2015

Portable Batch System accounting statistics

-------------------------------------------
Processing a total of 31 accounting files... done.
The first job record is dated Fri 01 May 2015 02:38:12 AM NOVT.
The last job record is dated Sun 31 May 2015 12:23:12 AM NOVT.

QUEUE(S): all (GPU only)


                                               670
      Суперкомпьютерные дни в России 2015 // Russian Supercomputing Days 2015 // RussianSCDays.org


                             Wallclock                         Average Average      GPUs Average
      Group            #jobs      days                 Percent #cores    #GPUs      days q-days
      -----            ----- ---------                 ------- ------- ------- --------- -------

      TOTAL              611         7113.76             100.00            40.36       10.20       1797.94   0.41

      itam                95         5592.59               78.62         109.38        27.34       1398.15   2.18
     uiggm                28          695.73                9.78         101.43        12.00         82.31   0.15
    niboch                14          593.17                8.34          12.00         3.00        148.29   0.41
     icmmg               340          184.87                2.60           8.36         1.32         29.21   0.07
    altstu                28           46.64                0.66           1.00         3.00        139.91   0.04
       nsu               106            0.77                0.01          12.16         1.12          0.07   0.06
                        Рис. 4. Пример выдачи статистики за май: организации использующие GPU.


QUEUE(S): all (GPU only)
                     Wallclock        Average Average           GPUs Average

Username       Group #jobs         days Percent #cores #GPUs               days q-days Full name

--------   ----- ----- --------- ------- ------- ------- --------- ------- ---------

  TOTAL          -         611 7113.76 100.00 40.36 10.20 1797.94 0.41

User1          itam         85 5558.26 78.13 110.77 27.69 1389.57 2.43
User2        uiggm          28 695.73 9.78 101.43 12.00 82.31     0.15
User3        niboch         14 593.17 8.34 12.00     3.00 148.29  0.41
User4        icmmg          12 147.07 2.07 7.81      1.00 18.83   0.00
User5         altstu        28   46.64 0.66 1.00     3.00 139.91 0.04
                                                Рис. 5. Пользователи, заказывающие GPU.

6. Виртуальный кластер ИЯФ-НГУ-ССКЦ


                                                    Рис. 6. Общая схема ресурсов ССКЦ


                                                                       671
   Суперкомпьютерные дни в России 2015 // Russian Supercomputing Days 2015 // RussianSCDays.org


     Виртуальный кластер ИЯФ-НГУ-ССКЦ используется для обработки данных физических
экспериментов в физике высоких энергий, осуществляемых в ИЯФ СО РАН [4]. Задачи харак-
теризуются использованием однопоточных программ и хорошей параллелизацией на уровне
данных. Для создания виртуальных ресурсов на локальном кластере используются штатные
возможности PBS Pro. PBS Pro запускает требуемую виртуальную машину, описанную в
скрипте (prologue) и останавливает ее по завершению задания (epilogue), после чего вычисли-
тельный узел может использоваться в обычном режиме другими заданиями. В качестве среды
виртуализации используется KVM. Обмен данными между ИЯФ СО РАН и ССКЦ осуществля-
ется через суперкомпьютерную сеть Новосибирского Научного Центра (10 Гбит/с).
Основные задачи, решаемые на виртуальном кластере ИЯФ-НГУ-ССКЦ:
* Эксперимент КЕДР
Работа проводится на электрон-позитронном коллайдере ВЭПП-4М с детектором КЕДР. Экс-
перименты в области рождения ψ-резонансов (J/ψ, ψ(2S), ψ(3770)) и τ-лептона. Использует
Scientific Linux CERN 3.
* Эксперимент ATLAS
Работа проводится на Большом адронном коллайдере (БАК) (ЦЕРН, Швейцария). Анализ дан-
ных эксперимента ATLAS в рамках ATLAS Exotics Working Group.
* Эксперимент СНД
Работа проводится на коллайдере ВЭПП-2000 со Сферическим нейтральным детектором
(СНД). Изучение процессов электрон-позитронной аннигиляции в области энергии до 2 ГэВ в
системе центра масс.


                         Рис. 7. Схема виртуального кластера ИЯФ-НГУ-ССКЦ

7. Виртуальный кластер Академпарк-ССКЦ
     Виртуальный кластер Академпарк-ССКЦ создан совместно с департаментом системной
интеграции Компании ТехноСити для Академпарка Технопарка Новосибирского Академгород-
ка. Предназначена для решения задач обработки BigData. В первую очередь это геофизика, об-
работка медицинских данных, обработка трафика. Функционирует вне очереди заданий на
MPP-G6 части кластера ССКЦ.


                                               672
   Суперкомпьютерные дни в России 2015 // Russian Supercomputing Days 2015 // RussianSCDays.org


                        Рис. 8. Схема виртуального кластера Академпарк-ССКЦ

8. Работа с пользователями
     11 -14 марта 2014 г.совместно с NVIDIA и Учебным центром по технологии CUDA
(CUDA Teaching Center) НГУ была проведена Школа-тренинг по углубленному изучению тех-
нологий программирования графических процессоров [7]. На школе были рассмотрены вопро-
сы профилирования, отладки, оптимизации кода на CUDA, применения технологии OpenACC.
Практическая часть занятий школы проходила на гибридном расширении кластера НКС-30Т с
GPU NVIDIA TESLA M2090.
     15 -16 мая 2014 г.на ресурсах ССКЦ сотрудниками Intel проведен ТРЕНИНГ Intel® Soft-
ware Development Excellence Program Применение Intel® Parallel Studio XE и Intel® Cluster Stu-
dio XE в решении исследовательских задач [8].
     Проводится регулярный семинар «Архитектура, системное и прикладное программное
обеспечение кластерных суперЭВМ» на базе ССКЦ, кафедры Вычислительных систем НГУ и
Центра Компетенции по высокопроизводительным вычислениям СО РАН – Intel [9].

9. Проблемы и выводы
    1. Моральное устаревание вычислительной техники.
    2. Завершение гарантийного обслуживания, т.е. все ремонты за счет института.
    3. Недостаточная пропускная способность Ibrix, соответственно, в конечном итоге ско-
рость обменов определяется быстродействием дисковой полки.


                                               673
   Суперкомпьютерные дни в России 2015 // Russian Supercomputing Days 2015 // RussianSCDays.org


     4. Неприспособленность Ibrix к работе с большими файлами размером в сотни Гигабайт.
     5. Новый кластер должен быть с жидкостным охлаждением..
     6. Часть вычислительных узлов должна быть с сопроцессорами Intel Xeon Phi, часть с GPU
Nvidia и приблизительно половина без сопроцессоров и ускорителей только с процессорами
Intel Xeon.
     7. Несколько вычислительных узлов должны быть серверами с большой оперативной па-
мятью в 2 – 4 Терабайта и локальным дисковым массивом не менее 10 Терабайт.
     8. В качестве коммуникационной среды должен быть Mellanox Infiniband и/.или Intel Omni-
Path.
     9. Обязательно должна быть параллельная файловая система Lustre или Panasas, а также
файловое хранилище большой емкости для хранения и архивирования неиспользуемых данных.
     Выявленные во время эксплуатации проблемы будут учтены при наращивании вычисли-
тельных ресурсов и закупке следующего кластера.

Литература
1. Глинский Б.М., Кучин Н.В., Ломакин С.В., Черных И.Г. Сибирский суперкомпьютерный
   центр СО РАН. Материалы международной конф. «Методы создания, исследования и иден-
   тификации математических моделей», 2013, С. 28-29
2. Б.М. Глинский, Д.А. Караваев, И.М. Куликов, Н.В. Кучин, Н.В. Снытников. Масштабируе-
   мые вычисления с применением гибридного кластера// Материалы международной конфе-
   ренции «Mathematical and Informational Technologies, MIT-2013», с.89.
3. Гибридный кластер НКС-30Т
   URL: http://www2.sscc.ru/HKC-30T/HKC-30T.htm
4. С.Д. Белов, А.С. Зайцев, В.И. Каплин, А.А. Король, К.Ю. Сковпень, А.М. Сухарев, А.С.
   Адакин, В.С. Никульцев, Д.Л.. Чубаров, Н.В. Кучин, С.В. Ломакин, В.А. Калюжный
   //Использование виртуализованной суперкомпьютерной инфраструктуры Новосибирского
   научного центра для обработки данных экспериментов физики высоких энергий. Журнал
   «Вычислительные технологии», 2012 г., том 17, №6, стр.36-46.
5. PBS Professional.URL: http://www.pbsworks.com/Product.aspx?id=1
6. pbsacct - Accounting Report Tool.
   URL:http://www.mcs.anl.gov/research/projects/openpbs/patches/pbsacct/README.txt
7. Школа – тренинг по программированию на GPU
   URL: http://www2.sscc.ru/Seminars/Nvidia%20Cuda-2014.htm
8. Применение Intel® Parallel Studio XE и Intel® Cluster Studio XE
   URL: http://www2.sscc.ru/SORAN-INTEL/documents_2014.htm
9. «Архитектура, системное и прикладное программное обеспечение кластерных су-
   перЭВМ»
   URL: http://www2.sscc.ru/Seminars/NEW/Seminars.htm


                                               674
   Суперкомпьютерные дни в России 2015 // Russian Supercomputing Days 2015 // RussianSCDays.org


Control and managing the HPC cluster in Siberian
Supercomputer Center
Nikolay Kuchin, Boris Glinsky, Igor Chernykh, Sergey Lomakin and Igor Makarov
Keywords: HPC, Bach system, queue, PBS
The paper presents the experience of exploitation high-performance computing cluster
installed in the Siberian Supercomputer Center (SSCC ICMMG SB RAS). SSCC has more
than 150 users from more than 20 academic institutions. One important example of virtual
computing environment is the integration KVM with batch system PBS Pro.

</pre>