Центр управления многофункциональным информационно-вычислительным комплексом ОИЯИ А.О. Голуновa, А.Г. Долбилов, И.С. Кадочников, И.А. Кашунин, В.В. Кореньков, В.В. Мицын, И.С. Пелеванюк, Т.А. Стриж Объединенный институт ядерных исследований, 141980, г. Дубна Московской области, ул. Жолио-Кюри 6 E-mail: a golunov@jinr.ru Многофункциональный информационно–вычислительный комплекс (МИВК) в Лаборатории информационных технологий Объединенного института ядерных исследований (ЛИТ ОИЯИ) является сложным многокомпонентным программно–аппаратным комплексом, нацеленным на выполнение широкого круга задач, связанных с обработкой, анализом и хранением данных для обеспечения научно- производственной деятельности Института и государств-членов. Основными компонентами вычислительной инфраструктуры МИВК являются грид-сайты Tier-1 и Tier-2 глобальной грид инфраструктуры WLCG (Worldwide LHC Computing Grid), созданной для обработки данных экспериментов на Большом адронном коллайдере, облачная инфраструктура ОИЯИ и гетерогенный вычислительный кластер HybriLIT. Важным инструментом для обеспечения бесперебойной работы вычислительных систем такого уровня в режиме 24х7 является всесторонний мониторинг всех компонентов и подсистем центра. Для обеспечения оперативного контроля компонентов МИВК в Лаборатории информационных технологий создан центр управления Многофункциональным информационно-вычислительным комплексом (ЦУ МИВК), основными функциями которого являются круглосуточное наблюдение за состоянием аппаратной части компонентов, работоспособности сервисов, инженерной и сетевой инфраструктуры. В работе описаны варианты решений по техническому и программному оснащению, использованные при создании в ЛИТ ОИЯИ центра управления Многофункциональным информационно-вычислительным комплексом (ЦУ МИВК), для обеспечения круглосуточного контроля за состоянием компонентов МИВК. Ключевые слова: грид, МИВК, ЦУ МИВК. © 2016 Алексей О. Голунов, Андрей Г. Долбилов, Иван С. Кадочников, Иван А. Кашунин, Владимир В. Кореньков, Валерий В. Мицын, Игорь С. Пелеванюк, Татьяна А. Стриж 235 Введение Многофункциональный информационно–вычислительный комплекс (МИВК) ОИЯИ [Multifunctional…] является сложным многокомпонентным программно–аппаратным комплексом, который обеспечивает выполнение широкого круга задач, связанных с обработкой, анализом и хранением данных в исследованиях, ведущихся на мировом уровне в ОИЯИ и в сотрудничающих с ним мировых центрах, как в рамках исследовательской программы Института, в частности мегапроекта NICA [NICA], так и в рамках приоритетных научных задач, выполняемых в кооперации с ведущими мировыми научными и исследовательскими центрами (ЦЕРН, FAIR, BNL и т.д.). Важным инструментом для обеспечения бесперебойной работы вычислительных систем такого уровня в режиме 24х7 является всесторонний мониторинг всех компонентов и подсистем центра. Ядром всей вычислительной инфраструктуры Института является Центральный информационно-вычислительный комплекс ОИЯИ [Korenkov, Strizh, Adam, Podgainy, 2015] в Лаборатории информационных технологий (ЛИТ), обладающий мощными высокопроизводительными вычислительными средствами, которые с помощью высокоскоростных каналов связи интегрированы с мировыми информационно- вычислительными ресурсами. Важнейшими компонентами вычислительной инфраструктуры являются: x грид-сайты уровня Tier-1 (JINR-RU-T1) [Astakhov, Baginyan, Belov, 2016] и уровня Tier-2 (JINR-LCG2) [Gavrilov, Golutvin, Kodolova, 2016] глобальной инфраструктуры грид WLCG (Worldwide LHC Computing Grid) [WLCG], созданной для экспериментов на Большом адронном коллайдере; x облачная инфраструктура ОИЯИ (JINR Cloud) [Baranov, Balashov, Kutovskiy, Semenov, 2016]; x гетерогенный вычислительный кластер (HybriLIT) [HybriLIT]. Для обеспечения оперативного контроля компонентов МИВК в ЛИТ создан центр управления Многофункциональным информационно-вычислительным комплексом (ЦУ МИВК), основными функциями которого являются круглосуточное наблюдение за состоянием: x аппаратной части компонентов; x работоспособности сервисов; x инженерной и сетевой инфраструктуры. Важной функцией ЦУ МИВК является агрегация данных, получаемых от различных средств мониторинга, и их аналитика с целью предугадать и заранее предотвратить развитие нештатной ситуации. Цели и задачи Центр управления МИВК должен обеспечить эффективную поддержку мероприятий, направленных на обеспечение бесперебойного функционирования всех компонентов МИВК. При организации такой работы требуется наличие как многоуровневой системы мониторинга [Kashunin, 2015] компонентов МИВК так и специальной группы операторов, которые могли бы диагностировать появление сбоев и самостоятельно решать типовые случаи или же сообщать о нетипичных случаях сотрудникам, отвечающим за конкретное оборудование. Таким образом, необходимо обеспечить решение следующих задач по техническому и программному обеспечению ЦУ: x круглосуточный режим работы; x определить последовательность рабочих процессов; x определить характер доступа к программно-аппаратным средствам и документации; 236 x учесть требования коллективной работы (совещания, переговоры и т.п.); x обеспечить возможность автономной работы центра; x выполнить программно-техническое оснащение для центра, в котором предусмотрены все условия для эффективной работы; x обеспечить резервирование аппаратной части центра; x обеспечить резервирование канала связи МИВК - ЦУ МИВК. Архитектура центра Центр управления МИВК размещен в специальном помещении с обычной инфраструктурой (электричество, компьютерная сеть, вентиляция, водопровод, система кондиционирования воздуха и т.д.). В состав центра входят две рабочие станции для операторов, графическая станция, используемая в качестве информационного табло. Одна рабочая станция оснащена тремя экранами 23” для работы основного оператора, вторая - для вспомогательного оператора, роль которого может выполнять обучаемый персонал. Графическая станция оснащена шестью экранами 55” для обеспечения работы информационного табло. Схема ЦУ МИВК приведена на рисунке 1. Конфигурации рабочих станций (CPU Core i5, 8GB DDR3, 2x GTX750 GPU, 2*1TB HDD (RAID1) ОС: Scientific Linux Cern 6.8.) идентичны, что обеспечивает их полную взаимозаменяемость в случае отказа техники. Рабочие места оборудованы средствами аудио и видео связи для взаимодействия с инженерными подразделениями ЛИТ, а также с экспертами по обслуживанию компонентов МИВК в режиме реального времени. С помощью установки источника бесперебойного питания обеспечена автономная работа центра в течение 2-х часов, что позволяет выполнить все необходимые процедуры для: x перехода компонентов МИВК на резервное электропитание, x частичного или полного отключения компонентов МИВК в случае отказа резервного электропитания или охлаждающего оборудования. Рис. 1. Схема ЦУ МИВК 237 Программное обеспечение Для каждого компонента МИВК, командами специалистов ЛИТ ОИЯИ, занимающимися развитием и обслуживанием конкретного компонента, был создан веб-интерфейс мониторинга программно-аппаратной части. Использование веб-мониторинга верхнего уровня позволяет не привязываться к выбору определённой архитектуры ОС и легко масштабировать и настраивать систему отображения. Для контроля за состоянием грид-инфраструктуры, совместно с сотрудниками ЛИТ, в ЦЕРН была разработана специальная надстройка WLCG Dashboard [WLCG Google Earth Dashboard] для Google Earth. Для отображения данных средств мониторинга было построено информационное табло с шестью мониторами высокого разрешения. На нём была выведена информация со следующих средств мониторинга: x JINR CMS Tier-1 Dashboard [Kashunin, 2015]; x JINR CMS Tier-1 Services Monitoring [JINR Tier1..], построенная на проекте Happy Face [Mauch, Ay, Birkholz, 2011]; x JINR Tier-2 Dashboard [Kashunin, 2015]; x Cloud Dashboard [A.V. Baranov, 2016]; x HybriLIT Dashboard [Мonitoring…]; x WLCG Google Earth Dashboard [WLCG Google Earth Dashboard]. Рис. 2. Пример отображения средств мониторинга на информационном табло Информационное табло ЦУ МИВК (рис.2) построено на базе высокопроизводительных GPU Nvidia и, с помощью среды рабочего стола KDE, система позволяет масштабировать количество виртуальных экранов по формуле “6*n”. На сегодняшний день используется формула “6*3”, что позволяет в ручном режиме по запросу, или в режиме автоматической ротации, помимо основной информации по компонентам МИВК, отображать также детальные показания датчиков климатических установок компонентов МИВК. При данной конфигурации использование ресурсов информационного табло составляет: x ЦПУ 30-40% x ГПУ 25% x ОЗУ 50% В информационном табло предусмотрена система воспроизведения аудио и визуальных средств оповещения при изменении статуса узла того или иного компонента. 238 Рабочее место оператора (рис. 3) оборудовано тремя мониторами высокого разрешения, с помощью среды рабочего стола KDE, объединёнными в единое рабочее пространство. Авторизация оператора происходит по учётной записи AFS. На базе DokuWiki и TWiki для операторов ЦУ МИВК составлена подробная документация по идентификации и устранению неисправностей. Для обеспечения контроля выполняемых действий и функции ведения архива событий, создана отдельная очередь в локальной системе регистрации проблем на базе ресурса iTop Helpdesk [Helpdesk…]. Также предполагается использование операторами стандартных инструментов, таких как командная строка, почтовый клиент, веб-браузер, приложение для управления удалёнными рабочими столами и т.д.. Рисунок 3. Рабочее место оператора ЦУ МИВК Заключение Особое значение для стабильной работы МИВК ОИЯИ имеет контроль всех составляющих и сервисов. Этот контроль возлагается на совокупность диагностических программных и технических средств С 2015 года центр управления МИВК успешно функционирует. Его эффективность в сокращении временных сроков решения проблем была неоднократно доказана при возникновении нештатных ситуаций. На протяжении всего времени ведутся работы по обновлению рабочей документации, повышению уровня квалификации сотрудников и совершенствованию программных средств мониторинга компонентов МИВК. Развитие ЦУ МИВК тесно связано с развитием МИВК ОИЯИ. В ближайшем будущем планируется добавление программно-аппаратного комплекса для мониторинга новых компонентов МИВК, создающихся для мегапроекта NICA. Кроме этого для грид компонент МИВК важным является контроль и оценка доступности, эффективности и удобства использования. Особо это относится к центру Tier–1. В ЛИТ ведется разработка собственной аналитической системы мониторинга сервисов, которая заменит мониторинг сервисов на базе программного обеспечения Happy Face и будет включена в ЦУ МИВК. Таким образом, ЦУ МИВК обеспечит кроме агрегации данных, 239 получаемых от различных средств мониторинга, и их аналитику, с помощью которой можно будет сделать вывод о предпосылках нештатных ситуаций и заранее предотвратить их развитие. Список литературы Korenkov V., Strizh T., Adam Gh., Podgainy D. The development of distributed computing technolo- gies and BigData in LIT-JINR Proceedings of the 8-th ROLCG 2015 Conference (“Grid, Cloud and High Performance Computing in Science”, 28th - 30th October, Cluj-Napoca, Romania, ISBN: 978-606-737-039-3 NICA (Nuclotron-based Ion Collider fAсility): http://nica.jinr.ru/ Astakhov N.S., Baginyan A.S., Belov S.D. et al. JINR Tier-1 centre for the CMS Experiment at LHC. Particles and Nuclei, Letters, v.13,no 5, pp.1103-1107, 2016 GavrilovV., Golutvin I., Kodolova O. et al. Status of RDMS CMS computing Particles and Nuclei Let- ters, v.13,no 5, pp.1108-1111, 2016 WLCG (The Worldwide LHC Computing Grid ): http://wlcg.web.cern.ch/LCG Baranov A.V., Balashov N.A., Kutovskiy N.A., Semenov R.N.: JINR cloud infrastructure evolution. Par- ticles and Nuclei Letters, v.13,no 5, pp.1046-1050, 2016 HybriLIT: https://hybrilit.jinr.ru Kashunin I. et al. //ROLCG 2015 Conference. Cluj-Napoca. http://www.itim- cj.ro/rolcg/contributions/s7_1.pdf JINR Tier1 Monitoring - The HappyFace Project: http://happyface.jinr.ru/category The local monitoring system of the CICC. [Electronic resource]: http://grid.jinr.ru/?page_id=584. Mauch V., Ay C., Birkholz S. et al., The HappyFace Project, Journal of Physics: Conference Series, 331(2011) 082011 Multifunctional Information and Computing Complex. [Electronic resource]: https://miccom.jinr.ru/ru/. Helpdesk system for JINR information and computing infrastructure user support. [Electronic resource]: https://helpdesk.jinr.ru/services.html Мonitoring of the resources of the heterogeneous computing cluster "HybriLIT". http://stat-hlit.jinr.ru/. WLCG Google Earth Dashboard. http://wlcg.web.cern.ch/wlcg-google-earth-dashboard. Operation center of the JINR Multifunctional information and computing complex A.O. Golunova, A.G. Dolbilov, I.S. Kadochnikov, I.A. Kashunin, V.V. Korenkov, V.V. Mitsyn, I.S. Pelevanyk, T.А. Strizh Joint Institute for Nuclear R esearch, 6 Joliot-Curie, Dubna, 141890, Russia E-mail: a golunov@jinr.ru Multifunctional information and computing complex (MICC) at the Laboratory of Information Technologies of the Joint Institute for Nuclear Research (LIT JINR) is a sophisticated multi -component hardware- software complex, aimed at the wide range of tasks related to the processing, analysis, and data storage to ensure scientific and productive activities of the Institute and of the Member States. The main components of the MICC computing infrastructure are grid Tier- 1 and Tier-2 sites of the global grid infrastructure WLCG (Worldwide LHC Computing Grid), created for the data processing of experiments at the Large Hadron Collider, the JINR cloud infrastructure and the heterogeneous computing cluster HybriLIT. An important tool for ensuring the smooth operation o f the computer systems of such a level in 24/7 mode is a comprehensive monitoring of all components and subsystems of the Centre. To ensure the operational control of the MICC components, the operation center (OC) of the Multifunctional information and computing complex in the Laboratory of information technology has been developed. The main functions of OC are the round- the-clock surveillance of the state of the hardware components, services, engineering and network infrastructure. The work describes the solutions for software and hardware equipment, used in OC creation at LIT to provide a round -the -clock monitoring of MICC components. Keywords: grid, MICC, MICC- OС . © 2016 Alexey O. Golunov, Andrei G. Dolbilov, Ivan S. Kadochnikov, Ivan A. Kashunin, VladimirV. Korenkov, Valery V. Mitsyn, Igor S. Pelevanyk, Tatiana А. Strizh 240