Суперкомпьютерные дни в России 2015 // Russian Supercomputing Days 2015 // RussianSCDays.org Система мониторинга загрузки суперкомпьютеров ЮУрГУ А.Ю. Сафонов, П.С. Костенецкий, К.В. Бородулин, Ф.М. Мелехин Южно-Уральский государственный университет В Лаборатории суперкомпьютерного моделирования Южно-Уральского государст- венного национального исследовательского университета разработана и активно раз- вивается система мониторинга и обработки данных с суперкомпьютеров. Система позволяет администраторам и руководителям лаборатории получать различные отче- ты о состоянии суперкомпьютеров и предоставляет инструменты для быстрого раз- решения возникающих проблемных ситуаций. Работа посвящена проблемам сбора и отображения статистических данных, получаемых администраторами с суперкомпь- ютеров ЮУрГУ. В современном суперкомпьютерном центре одной из самых важных задач являются задачи наблюдения за эффективностью использования вычислительных ресурсов и своевременного реагирования на возможные неполадки и проблемы на суперкомпьютере. Не менее важно так- же постоянно следить за количеством задач в очереди, составе запрашиваемых ресурсов и иметь возможность оценить динамику изменения этих и других статистических данных за оп- ределенный период. В Лаборатории суперкомпьютерного моделирования Южно-Уральского государственного национального исследовательского университета разработана и активно раз- вивается система сбора и отображения статистических данных о загрузке суперкомпьютеров [1]. На суперкомпьютере «Торнадо ЮУрГУ» установлено две параллельные системы хранения данных: Panasas ActiveStor 11 и Axus YB. СХД кластера используют параллельные файловые системы PanFS и Lustre соответственно. Пользователям вычислительного кластера по умолча- нию доступна СХД Panasas, а Lustre используется для отдельных расчетов, требующих выделе- ния до 40 Тб места на хранилище либо требующих iSCSI доступ (при решении задач в ОС Win- dows). СХД Panasas имеет собственную встроенную систему мониторинга с широкими возможно- стями и надстройки над ней не требуются, в то же время мониторинг СХД на базе Lustre ведет- ся постоянно при помощи Nagios. Хранилище на базе файловой системы Lustre как правило вызывает ошибки двух видов: 1) переход в режим «Только чтение» при аппаратных неисправ- ностях или ошибках в файловой системе; 2) деградация производительности при заполнении хранилища более чем на 85%. Отслеживание данных неполадок осуществляется при помощи Nagios. Одним из способов организации мониторинга является подход на основе ситуационного экрана суперкомпьютера. Основная задача ситуационного экрана при анализе данных — это предоставление актуальной информации о состоянии системы: отказы оборудования или ком- понентов программного обеспечения должны быть немедленно отображены на ситуационном экране [2]. Однако в разных суперкомпьютерных центрах кроме решения основных задач су- ществуют собственные требования к системе мониторинга и информационным сервисам. Необходимость разработки собственной системы была вызвана потребностью в регуляр- ном формировании множества специфических отчетов о загрузке суперкомпьютеров и о дея- тельности структурного подразделения университета. При возникновении новых требований к отчетам, процедура формирования дополнительных статистических выборок и графиков встраивается в функционал системы и в дальнейшем повторное создание аналогичного отчета многократно упрощается и ускоряется. Система строит графики и помогает системным адми- нистраторам формировать отчеты о загрузке суперкомпьютеров. Администраторам доступна функция просмотра информации о пользователях и их расчетах на суперкомпьютере, о текущей загрузке кластеров, количестве задач в очереди, информации о работающих и неработающих узлах. Также возможно автоматическое формирование отчетов о загрузке суперкомпьютеров за определенный период. Рядовым пользователям суперкомпьютера доступна информация о сво- 662 Суперкомпьютерные дни в России 2015 // Russian Supercomputing Days 2015 // RussianSCDays.org бодных узлах в очереди, о задачах данного пользователя, как о завершенных, так и о выпол- няющихся. Рис. 1. Веб-интерфейс системы мониторинга загрузки суперкомпьютеров Очередь задач SLURM настроена на хранение данных о задачах в базе данных MySQL. С помощью Django Framework информация о загрузке суперкомпьютера извлекается из базы, об- рабатывается, после чего генерируется веб-страница с подготовленными для визуализации данными. Поскольку Django Framework построен по технологии MVT (Model-View-Template), он позволяет быстро разрабатывать гибкие и надежные веб-приложения, сосредотачиваясь не- посредственно на реализации внутренней логики. На рис. 1 показана главная страница веб-интерфейса системы мониторинга загрузки супер- компьютеров ЮУрГУ. На данной странице собрана основная информация, интересующая ру- ководителя и системных администраторов Лаборатории суперкомпьютерного моделирования ЮУрГУ, как например: 1) статистика по узлам в процентном соотношении (работающие, свободные, зарезерви- рованные для определенных пользователей, выключенные); 2) статистика по количеству задач и узлов, запрошенных в рамках этих задач: a. количество уже выполняющихся задач; b. количество задач, находящихся в очереди на расчет; c. количество заблокированных задач (например, превышено максимальное сум- марное количество запрашиваемых узлов по всем задачам в очереди; или за- прошена лицензия, которая в данный момент уже используется в другом расче- те); d. узлы, которые освобождаются и в скором времени вернутся обратно в очередь; 3) пользователи, которые находятся «онлайн» в данный момент времени (то есть запус- тившие терминал удаленного доступа и работающие в нем); 4) динамика загруженности суперкомпьютера за определенный период; 5) вывод консольной команды «sudo squeue», показывающей подробную информацию о всех задачах, работающий в данный момент с очередью задач. 663 Суперкомпьютерные дни в России 2015 // Russian Supercomputing Days 2015 // RussianSCDays.org Рис. 2. Пример графика загрузки суперкомпьютера по неделям для квартального отчета Рис. 3. Пример отчета о текущем состояние узлов суперкомпьютера Кроме вышеописанных возможностей, система позволяет формировать отчеты с ограни- ченным доступом. На рис. 2 можно увидеть динамику изменения загруженности суперкомпью- тера за определенный период, на рис. 3 представлен отчет о текущем состоянии узлов супер- компьютера, а на рис. 4 – пример вывода информации о текущих и завершившихся расчетах выбранного пользователя суперкомпьютера за указанный период. 664 Суперкомпьютерные дни в России 2015 // Russian Supercomputing Days 2015 // RussianSCDays.org Рис. 4. Пример вывода информации о текущих и завершившихся расчетах выбранного пользователя суперкомпьютера за указанный период Часто перед администратором стоит задача организовать формирование новых видов отче- тов о загрузке суперкомпьютеров. Обычно это вызвано появлением новых требований к отчету подразделения в рамках программы развития Национального исследовательского университета, либо появлением новых сервисов на базе суперкомпьютеров. Создание системы многократно упростило данную задачу, позволив свести задачу к написанию нового модуля в рамках систе- мы мониторинга. Например, в 2015 году был добавлен учет ресурсов, занятых под систему Персональный Виртуальный Компьютер [3,4,5], а также учет загрузки динамически выделен- ных частей суперкомпьютера [6]. Литература 1. Сафонов А.Ю., Костенецкий П.С. Система сбора и отображения статистики о загрузке су- перкомпьютеров ЛСМ ЮУрГУ / Параллельные вычислительные технологии (ПаВТ'2015): труды международной научной конференции (30 марта – 3 апреля 2015 г., г. Екатеринбург). Челябинск: Издательский центр ЮУрГУ, 2015. С. 516. 2. Воеводин В. В. Ситуационный экран суперкомпьютера // Открытые системы. 2014. № 3. 3. Козырев В.И., Костенецкий П.С. Опыт использования VDI-системы «Персональный вирту- альный компьютер» в ЮУрГУ // Научный сервис в сети Интернет: поиск новых решений: Труды Международной суперкомпьютерной конференции (17-22 сентября 2012 г., г. Ново- российск). М.: Изд-во МГУ, 2012. C. 285-286. 4. Костенецкий П.С., Семенов А.И., Соколинский Л.Б. Создание образовательной платформы ”Персональный виртуальный компьютер” на базе облачных вычислений // Научный сервис в сети Интернет: экзафлопсное будущее: Труды Международной суперкомпьютерной кон- ференции. М.: Издательство МГУ, 2011. С. 374–377. 5. Костенецкий П.С., Семенов А.И. Организация виртуальных персональных компьютеров студентов на базе суперкомпьютера // Параллельные вычислительные технологии (ПаВТ’2011): Труды международной научной конференции (28 марта – 1 апреля 2011 г., г. Москва). Челябинск: Издательский центр ЮУрГУ, 2011. С. 699. 665 Суперкомпьютерные дни в России 2015 // Russian Supercomputing Days 2015 // RussianSCDays.org 6. Мелехин Ф.М., Бородулин К.В., Костенецкий П.С. Разработка системы динамического раз- деления вычислительных ресурсов суперкомпьютера на изолированные части // Научный сервис в сети Интернет: многообразие суперкомпьютерных миров: Труды Международной суперкомпьютерной конференции (22-27 сентября 2014 г., Новороссийск). М.: Изд-во МГУ, 2014. 666 Суперкомпьютерные дни в России 2015 // Russian Supercomputing Days 2015 // RussianSCDays.org A monitoring system for supercomputers of SUSU Alexander Safonov, Pavel Kostenetskiy, Kirill Borodulin and Fedor Melekhin Keywords: supercomputer, management, slurm, mysql A new system capable of monitoring and processing data for the Supercomputer Simulation Laboratory of South Ural State University is described. This system allows administrators and managers to create many different reports and provides tools to robust reaction to problems of an urgent character. This article is devoted to issues concerning with collecting and visualizing statistical data obtained from supercomputers.