<!DOCTYPE article PUBLIC "-//NLM//DTD JATS (Z39.96) Journal Archiving and Interchange DTD v1.0 20120330//EN" "JATS-archivearticle1.dtd">
<article xmlns:xlink="http://www.w3.org/1999/xlink">
  <front>
    <journal-meta />
    <article-meta>
      <title-group>
        <article-title>Интеграция суперкомпьютера НИЦ «Курчатовский институт» с центром Грид первого уровня1</article-title>
      </title-group>
      <pub-date>
        <year>2015</year>
      </pub-date>
      <fpage>700</fpage>
      <lpage>706</lpage>
      <abstract>
        <p>Эксперименты на Большом Адронном Коллайдере (БАК) находятся в ожидании новых открытий, которые возможно будут получены в 2015 году, и связанным с ними вычислениями. Потребность в вычислительных ресурсах для таких процессов как моделирование, обработка и анализ данных, по-видимому, превзойдет возможности, предоставляемые Грид консорциумом БАК. Одновременно с этим объем научных вычислений будут расти. В связи с этим крайне важной задачей становится интеграция дополнительных вычислительных ресурсов, изначально не используемых в модели организации вычислений БАК. Грид-центр первого уровня в НИЦ «Курчатовский институт» является частью инфраструктуры WLCG и будет обрабатывать и хранить до 10% данных экспериментов ATLAS, ALICE, LHCb. Кроме того, Курчатовский институт располагает многофункциональным вычислительным комплексом, включающим суперкомпьютер HPC2 с пиковой производительностью 0.12 ПФлопс. Предоставление даже небольшой части ресурсов суперкомпьютера для вычислений БАК позволит повысить общую производительность Грид-инфраструктуры. В 2014 году мы начали инновационную работу по созданию единого портала, интегрирующего центр Грид первого уровня и суперкомпьютер в НИЦ «Курчатовский институт». Портал предоставит интерфейс для запуска пользовательских задач обработки данных эксперимента ATLAS с использованием общего хранилища данных.</p>
      </abstract>
    </article-meta>
  </front>
  <body>
    <sec id="sec-1">
      <title>-</title>
      <p>институт” с единой точкой входа и общим хранилищем данных. В качестве базовой технологии
мы выбрали систему управления задачами PanDA (Production and Distributed Analysis), хорошо
зарекомендовавшую себя в эксперименте ATLAS.</p>
      <p>В статье описан разработанный портал, представлены архитектурные и технические
решения по его развертыванию в НИЦ “Курчатовский институт” и приведены результаты
тестирования и апробации.</p>
      <p>2. Система управления потоком заданий PanDA
В качестве основы для разрабатываемой технологии и реализующей его программной
системы был выбран подход, используемый в системе управления заданиями PanDA, с 2007
года успешно используемой для обработки, анализа и моделирования данных эксперимента
ATLAS, проводимого на БАК.</p>
      <p>Программный комплекс PanDA обеспечивает “прозрачность” обработки данных в
распределенной вычислительной инфраструктуре. Он предоставляет среду выполнения для
широкого диапазона экспериментальных приложений, автоматизирует централизованную
обработку данных, обеспечивает анализ данных для десятков групп физиков, поддерживает
пользовательский поток операций, обеспечивает единый доступ к распределенным глобальным
ресурсам, предоставляет состояние и историю выполняемых операций через интегрированную
систему контроля и управляет распределением данных.</p>
      <p>Масштабируемость PanDA была продемонстрирована в процессе работы коллаборации
ATLAS при быстром росте числа выполняемых заданий во время первого рабочего запуска БАК
(2010-2013 гг.). Программный комплекс PanDA был разработан достаточно гибким для
адаптации новых технологий обработки и хранения данных и сетевых технологий. Общая
архитектура системы PanDA представлена на рисунке 1.</p>
      <p>
        Рис. 1. Архитектура системы вычислений
Основными компонентами системы являются:
● Сервер. Сервер принимает от пользователей задачи и управляет их выполнением:
сортирует задачи по разным очередям в зависимости от требований, распределяет их на
доступные вычислительные ресурсы (при этом сервер отслеживает, чтобы объемы и
состав ресурсов удовлетворял требованиям задачи), отслеживает состояние задачи и ее
жизненный цикл, осуществляет дополнительные проверки успешности выполнения
задачи, поддерживает метаинформацию о всех активных и завершенных задачах и
●
т.п.[
        <xref ref-type="bibr" rid="ref4">4</xref>
        ]
Подсистема пилотных заданий. Пилотные задания осуществляют механизм поздней
привязки задачи к среде вычислений. Они запускаются на ресурсах, предназначенных
для выполнения пользовательских задач, проверяют их состояние, резервируют,
собирают информацию и передают на сервер, который в ответ присылает задачу.
Пилотное задание инициирует запуск присланной задачи непосредственно на ресурсах
и контролирует процесс ее выполнения.
Система пилотных задач позволяет не только осуществлять позднюю привязку, но и
скрыть неоднородность различных вычислительных сред с помощью их
унифицированного интерфейса “сервер-пилот”. Таким образом, можно интегрировать в
единую вычислительную среду различные вычислительные инфраструктуры, например,
Грид-инфраструктуру, инфраструктуру облачных вычислений, относительно
обособленные машинные кластеры и даже суперкомпьютеры.
Еще одной функцией пилотных заданий является подготовка входных данных для
задачи и выгрузка результатов. И здесь как и в случае вычислительной среды
наблюдается большая неоднородность систем хранения (разные протоколы, разный
функционал), которую пилотные задания могут унифицировать для вышестоящих
слоев.
3. Интеграция суперкомпьютера и Tier-1 в НИЦ “Курчатовский
институт”
      </p>
      <p>Суперкомпьютер НИЦ “Курчатовский институт” это высокопроизводительный
вычислительный кластер второго поколения с пиковой производительностью 122,9 ТФлопс
сдан в эксплуатацию с сентября 2011 года. Кластер состоит из 1280 счётных двухпроцессорных
узлов, объединенных высокопроизводительной сетью передачи данных и сообщений InfiniBand
DDR, имеет суммарную оперативную память 20,5 Тбайт и систему хранения данных на 144
Тбайт. На счётных узлах кластера установлена операционная система Linux (CentOS). Система
хранения данных построена на параллельной файловой системе Lustre 2.0. Для управления
распределением ресурсов и выполнением счетных заданий используется менеджер ресурсов
SLURM. Для интеграции суперкомпьютера НИЦ “Курчатовский институт” и Tier-1
потребовалось немного расширить классическую схему PanDA . Разработанная схема
представлена на рисунке 2.
Рис. 2. Схема интеграции интеграции суперкомпьютера НИЦ “Курчатовский институт” и Tier-1
4. Экспериментальные исследования</p>
      <p>Начиная с ноября 2014 года развернутый в НИЦ “Курчатовский институт” портал
принимал и успешно обрабатывал задачи эксперимента ATLAS, для чего он был интегрирован
с сервером системы управления задачами PanDA эксперимента ATLAS, установленным в
CERN. Для этого он был прописан в центральной информационной системе PanDA, что
позволило серверу PanDA посылать задачи моделирования эксперимента ATLAS как в
Гридинфраструктуру, так и на суперкомпьютер НИЦ “Курчатовский институт”.</p>
      <p>
        Интеграция осуществлена путем создания на центральном сервере PanDA в CERN
отдельной очереди задач, к которой обращались пилотные задания, запускаемые на ресурсах
НИЦ “Курчатовский институт”. В ходе эксперимента более 200 пользовательских задач
запускалось и успешно выполнялось ежедневно. Одним из наиболее важных исследований,
решаемых на суперкомпьютере является реконструкция событий протон-протоного
взаимодействия с высоким числом взаимодействия для изучения производительности
Трекового Детектора Переходного Излучения (TRT) [
        <xref ref-type="bibr" rid="ref5">5</xref>
        ].
      </p>
      <p>На рисунках 3-4 приведена статистика выполнения задач эксперимента ATLAS на ресурсах
НИЦ “Курчатовский институт” (служебные задачи - синий, пользовательские - красный).
Рис. 3. Статистика выполняемых задач эксперимента ATLAS на Грид-сайте первого уровня и
суперкомпьютере НИЦ “Курчатовский институт”
Рис. 4. Статистика успешно завершенных задач эксперимента ATLAS на Грид-сайте первого уровня и
суперкомпьютере НИЦ “Курчатовский институт”
5. Заключение</p>
      <p>В НИЦ “Курчатовский институт” был разработан и развернут единый портал,
интегрирующий Грид-центр первого уровня и суперкомпьютер в НИЦ «Курчатовский
институт». Портал предназначен для запуска пользовательских задач обработки данных
эксперимента ATLAS на ресурсах Tier-1 и суперкомпьютера НИЦ “Курчатовский институт” с
единой точкой входа и общим хранилищем данных, позволяя тем самым привлечь
суперкомпьютер НИЦ “Курчатовский институт” в качестве дополнительного вычислительного
ресурса для Грид-инфраструктуры, изначально не учтенного в модели организации вычислений
БАК. В качестве базовой технологии была использована система управления задачами PanDA.
Ежедневно на суперкомпьютере выполняется более 200 пользовательских задач.
Литература
Integration of Russian Tier 1 center with HPC at NRC
“Kurchatov institute”
Ivan Tertychnyy, Ruslan Mashinistov, Alexander Novikov, Alexey Poyda, Alexei Klimentov
and Eygene Ryabinkin
LHC experiments preparing for the precision measurements and further discoveries that will
be made possible by much higher LHC collision rates from 2015 (Run2). The need for
simulation, data processing and analysis and would overwhelm the expected capacity of
WLCG computing facilities unless the range and precision of physics studies were to be
curtailed. To meet this challenge the integration of the opportunistic resources into LHC
computing model is highly important.</p>
      <p>Tier-1 facility at Kurchatov Institute (NRC-KI) in Moscow is a part of WLCG and it will
process and store up to 10% of total data obtained from ALICE, ATLAS and LHCb
experiments. In addition Kurchatov Institute has supercomputers with peak performance 0.12
PFLOPS. Delegation of even a fraction of super-computing resources to the LHC Computing
will notably increase total capacity.</p>
    </sec>
  </body>
  <back>
    <ref-list>
      <ref id="ref1">
        <mixed-citation>
          1.
          <string-name>
            <surname>Collaboration</surname>
            ,
            <given-names>ATLAS</given-names>
          </string-name>
          , and
          <string-name>
            <given-names>G.</given-names>
            <surname>Aad</surname>
          </string-name>
          .
          <article-title>"The ATLAS experiment at the CERN large hadron collider</article-title>
          .
          <source>" J. Instrum</source>
          <volume>3</volume>
          (
          <year>2008</year>
          ):
          <fpage>S08003</fpage>
          .
        </mixed-citation>
      </ref>
      <ref id="ref2">
        <mixed-citation>
          2.
          <string-name>
            <surname>Worldwide</surname>
            <given-names>LHC Computing</given-names>
          </string-name>
          <string-name>
            <surname>Grid</surname>
          </string-name>
          .
          <article-title>Сайт проекта. Электронный ресурс</article-title>
          . URL: http://wlcg.web.cern.ch/
        </mixed-citation>
      </ref>
      <ref id="ref3">
        <mixed-citation>
          3.
          <string-name>
            <surname>Maeno</surname>
          </string-name>
          , Tadashi.
          <article-title>"PanDA: distributed production and distributed analysis system for ATLAS."</article-title>
          <source>Journal of Physics: Conference Series</source>
          . Vol.
          <volume>119</volume>
          . No.
          <article-title>6</article-title>
          .
          <string-name>
            <given-names>IOP</given-names>
            <surname>Publishing</surname>
          </string-name>
          ,
          <year>2008</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref4">
        <mixed-citation>
          4.
          <string-name>
            <given-names>T.</given-names>
            <surname>Maeno</surname>
          </string-name>
          et al. “
          <article-title>Evolution of the ATLAS PanDA workload management system for exascale computational science”</article-title>
          <source>2014 J. Phys.: Conf. Ser</source>
          .
          <volume>513</volume>
          <fpage>032062</fpage>
          .
        </mixed-citation>
      </ref>
      <ref id="ref5">
        <mixed-citation>
          5. ATLAS collaboration,
          <source>ATLAS Inner Detector Technical Design Report vol. 1</source>
          ,
          <string-name>
            <surname>ATLAS</surname>
          </string-name>
          <article-title>TDR 4</article-title>
          , CERN/LHCC 97-
          <fpage>16</fpage>
          (
          <year>1997</year>
          )
          <article-title>and vol. 2, ATLAS TDR 5</article-title>
          , CERN/LHCC 97-
          <fpage>17</fpage>
          (
          <year>1997</year>
          )
        </mixed-citation>
      </ref>
    </ref-list>
  </back>
</article>