-

ЭФФЕКТИВНОЕ ПРИМЕНЕНИЕ ОБЛАЧНЫХ РЕСУРСОВ ПРИ ОБУЧЕНИИ И ИСПОЛЬЗОВАНИИ ГЛУБОКИХ НЕЙРОННЫХ СЕТЕЙ*

Orenburg State University, Orenburg, Russia

0 , Polezhaev P.N., Shukhman A.E. , Porokhnenko Yu.S., Chernova E.V. , Ocheredko O.O 1 Ushakov Yu.A

157 166

Нейронные сети имеют все большее значение в науке и технике. Построением и обучением нейронных сетей занимаются многие научные коллективы и инженеры. Для обеспечения эффективного вычисления нейронных сетей многие ученые используют облачные ресурсы с почасовой оплатой, выделенные GPU ускорители. Данная работа посвящена исследованию эффективности обучения нейронных сетей на GPU ускорителях и обычных серверных процессорах. Проведен обзор всех популярных фреймворков для создания и выполнения расчетов на нейронных сетях, рассмотрены их преимущества и недостатки, а также особенности работы с GPU и в кластерных режимах. Рассмотрены преимущества использования контейнеризации при GPU расчетах на облачных системах с почасовой оплатой, возможность существенно упростить первоначальную настройку и свести к минимуму рассогласование версий драйверов и контейнеров. Также рассмотрено влияния контейнеризации на производительность обучения. Проведено планирование эксперимента, описаны способы запуска вычислений и сбора статистики как внутри контейнеров, так и на хосте. Рассмотрены различные стоимостные показатели прогона нейронной сети, показано ускорение при использовании нескольких GPU, совместное использование GPU и CPU, исследована различная потребность в оперативной памяти для CPU и GPU на одних и тех же моделях и данных. Показана возможность эффективного обучения моделей только на процессорах и завышенные стоимостные характеристики использования GPU ускорителей.

Введение starting computations and collecting statistics both inside the containers and on the host are described. Different cost parameters of the neural network execution are considered. The experiment shows the acceleration of neural network training when several GPUs and/or CPUs are used. The different need for RAM for CPUs and GPUs is investigated on the same models and data. The opportunity of the efficient model training only on CPUs and overestimated cost characteristics of the use of GPU accelerators are shown.

Deep neural networks; cloud computing; containers; virtual machines; parallel computing.

Распространение нейронных сетей в науке и технике ыужшело дазваноравмки чисто академического интереса. Они используются практически во всех областях информационных технологий, нач заменять юристов и техническую поддержку, позволили создать беспилотный транспорт автоматизировать множество различных процесНсов. несколько препятствий на пути дальнейшего развития и распространения нейронных сетей не дают применять и изучать –иэхто,пов-соеместно первых, высокие требования к вычислительным ресурсам, необходимым для активно используе сейчас глубоких нейроынхн сетей, -ввтоорых – высокий порог вхождения в технологии.

Фреймворки для вычислений над графами представляют нейронные сети в виде ориентирова графов, в которых листовые вершины представляют входы/выходы или параметры сети, остал вершины – векторные операции, такие как матричное сложение/умножение или свертка. Самы популярными символьными фреймворками для реализации нейронных сетей в настоящий мом являются Google TenFsloorw, Theano, Microsoft CNTK, MXNET, Torch, VELES, Neon [ 1 ]. Порог вхиояждепнри использовании довольно выс–онкеобходимо уметь писать на языке программирования для фреймворка, устанавливать драйверы и библиотеки в Linux, совмещать навыки системного администратор разработчика (devops). Microsoft предлагает более адаптыиреованкн широкому использованию продукты, но также требует применения собственного инструментария. Для понижения пор вхождения были разработаны фреймворки для высокоуровневой разработки программного обеспечен для нейронных сетей, которое использует гоAтPоIвыеи библиотеки, реализующие большинство функций обработки входных данных, развертывания и обуч–енKиeяras,сLеaтsиagne, Caffe. Анализ существующих фреймворков для нейронных сетей Наличие предварительно обученных моделей является большим плюсом библиотеки, поскольку можно применять в своих приложениях, экономя время и ресурсы. адЧатпотбиыровлаутчьшемодель к новым данным, можно провести дополнительную нас–трообйукчуить нейронную сеть с помощью собственного набора данных.

В сравнительной таблице 1 также указаны платформы, на которых библиотеки способны рабо их программные интерйфсые (API).

Таблица 1 – Сравнение библиотек для нейронных сетей Название ПО

TensorFlow Theano Lasagne CNTK Keras MXNET Deeplearnin g4j Caffe

Самыми быстрыми среди рассмотренных фреймворков являются Theano и Torch, использую малоизвестный язык Lua. Однако T–heнaиnзoкоуровневый фреймворк и больше рассматривается как исследовательская платформа, а не библиотека глубуочкеонгиоя о[ 4 ]. Theano часто используется вместе с библиотеками, имеющими более высокий уровень абстракции, такими как Keras и Lasagne.

Caffe хорошо известен-заиз своего набора предобученных моделей нейронных сетей Model Zo который могут использовать идеруг фреймворки и библиотеки с помощью дополнительных инструментов [ 5 ]. Однако сам фреймворк слишком громоздкий для больших сетей, он не так работы с рекуррентными сетями и медленно развивается.

Microsoft Cognitive Toolkit, также известный Kк,акнеCNгTодится для коммерческого использования, так как имеет разрешительную лицензию, однако он быстрее, чем TensorFlow [ 6 ].

MXNET – отличное решение для любителей языка R, единственная платформа, которая поддержив все его функции и, кроме тогое,т овбыласдоакой производительностью и эффективным использованием памяти [ 7 ].

Deeplearning4j создан для использования в -србеидзен,ес адаптирован для м-искервоисной архитектуры, расширяется за счет Hadoop [ 8 ]. Может использовать обратное распростреанниение по в (Backpropagation Through Time, BPTT) – основанную на градиентах технику тренировки определенных типов рекуррентных нейронных сетей.

В настоящий момент самой популярной считается библиотека TensorFlow, хотя она медленнее Torch и Theano и не аикмоегеот бтольшого набора моделей, как Caffe. В отличие от любой д архитектуры, TensorFlow имеет возможность делать частичные вычисления подграфа, то есть полу выборки от общей нейронной сети, а затем ее обучение отдельно от остальннаозйывачеамстоие. Это так Model Parallelization, которое используется для распределенного обучения.

Таким образом, несмотря на преимущества прочих библиотек, для исследований в рамках работы был выбран фреймворк TensorFlow, как надежный и развивающийосяобнпырйоекрта,бостпать с разными типами нейронных сетей и поддерживающий параллельные вычисления с пом графических процессоров, а также Keras в качестве высокоуровневого API для TensorFlow.

Одним из наиболее динамично развивающихся фреймворков явля е.тсяОн Keмrоaжsет работать с различными платформами низкого уровня, включая Tensorflow, CNTK, Theano, имеет поддержку ОС Mac OS и Windows. Keras автоматизирует входную обработку изображений, подключение к внеш хранилищам, обработку выходных данных.воеВнииос для новичков и инженеров, которые раньше не занимались программированием, Keras является одним из самых простых, с огромным количес примеров и готовых структур.

В зависимости от используемого базового нейросетевого фреймворка Keras поотзавтоьляетс раб Nvidia CUDA, AMD FireStream, другими ускорителями через OpenCL. Большинство облачных провай предлагают ускорители на основе технологии CUDA. В силу вышеупомянутых причKиeнrasфвреймворк сочетании TсensorFlow был выбран для настоящего оивсаслнеидя.

Развертывание и настройка Keras на системах Windows предполагает ручную установку боль количества стороннего ПО [ 9 ], внесение правок в конфигурационные файлы, располагаемые в разл местах файловой системы. В Linux сама установка вяыппорлонщяеетс за счет пакетных менеджеров, однако требуется установка проприетарных драйверов, требует знания некоторых особенностей сис Linux [ 10 ]. Цель исследования оплата; tstartup- время запуска ОС; tinstall - время, требуемое tsum  tstartup  tinstall  tdata_load  tstart  tlearn  tverify  tsave_data  t poweroff Эксперимент проводился с помощью услуг публичных про–ва1йCдlеoрuоdв, Azure, Google Cloud, у которых заказывались виртуальные сервера нужной конфигурации с поGдPдUерижкойбез нее. Эксперимент можно разделить на две стадии:

1. Обучение нейронной сети на наборе данных с использованием только ресурсов процес виртуальной машины или контейнеров, запущенных на виртуальной машине. Исследование проводил при увеличении количества используеKмeыraхs вычислительных ядер от 214. до

2. Обучение нейронной сети на наборе данных с использованием ресурсов пGрPоцUессоров и виртуальной машины или контейнеров, запущенных на виртуальной машине.

В обоих сценариях вычисления запускались как на процессоре виртуальной машины, так и контейнера Docker. Во втором сценарии внутри контKеeйrнasерзаапускался с использованиnемvidiadocker.

Обучение производилось на изображениCяпх.омощью нейронной сети решалась задача по их распознаванию – определения одного из 10 классов. Для этвойKeraцsелбиыла описана модель сверточной нейронной сети для каждого набора данных. Было выбрано два набора данных.

Первый. набор даннMыхNIST состоит из 70000 серых изображений 28х28 с рукописными цифрам Всего 60000 тренировочных изображений и 1000в0ых теисзтоображений. Количество э–п1о2х. Для устранения эффекта переобучения после третьего и четвертого слоев прDиrмopеoнuяtл-ась регуляризация. Набор будет использованCPUдлряасчетов, так каGкPUвимеет время расчета меньшее, чем время загрузки. Стрруактусети дMлNяIST:

1. Conv2D(32, kernel_size=(3, 3), activation='relu', input_shape= (img_rows, img_cols, 1)) – сверхточный двумерный слой с 32 фильтрами, ядром свертки 3х3 и функциейU; активации ReL 2. Conv2D(64, (3, 3), activation='relu') – сверхточный вдумерный слой с 64 фильтрами, ядром свертки 3х3 и функцией активации ReLu;

3. MaxPooling2D(pool_size=(2, 2)) – слой подвыборки для уменьшения размерности двумерной сети на основе определения максимума по нейронам областей 2 х 2; 4. Dense(128, activation='relu') – слой полносвязной сети с 128 выходами и функцией акUт; ивации ReL 5. Dense(10, activation='softmax') – слой полносвязной сети с 10 выходами и функцией активац Softmax.

Первый слой нейронной сети имеет количество входов, соответствующее брраазжмеенриуй изо обучающей выборки. У последнего пятого слоя 10 выходов, что соответствует 10 классам распозн цифр. Первые два слоя сети осуществляют свертку изображения, составляя карты признаков, к затем сжимаются на третьем слое и соединяютвсеяртонма счлеое в одну полносвязную сеть и распределяются по классам четвертым и пятым слоем. Первые два слоя и четвертый исп функцию активации RUe,L что позволяет адекватно выделять признаки изображений. Пятый сл использует функциюSoftmax, котораябольше подходит для задач классификации. Обучение сети производилось с использованием перекрестной энтропии в качестве функции потерь, оптимизатор А Второй набоCрIFAR-10 состоит из 60000 цветных изображxе3н2ийс 3120 классами, 6000 изображений на лкасс. Всего 50000 тренировочных изображений и 10000 тестовых изображений. Ко–л2и0ч0е.ство эпох Для устранения эффекта переобучения после третьего и четвертого слоев Dпrрoиpмouеtн-ялась регуляризация. Набор будет использованCPUдлияGPU расчетов. Струкутра сети дCлIяFAR-10: 1. Сверточный входной слой, с 32 фильтрами, ядром свертки 3х3 и функциUе;й активации ReL 2. Сверточный входной слой с 32 фильтрами, ядром свертки 3х3 и функциUе;й активации ReL 3. Слой подвыборки для уменьшения размерности дсвеутмиернноай основе определения максимума по нейронам областей 2 х 24; 4. Сверточный входной слой, с 64 фильтрами, ядром свертки 3х3 и функциUе;й активации ReL 5. Сверточный входной слой, с 64 фильтрами, ядром свертки 3х3 и функциUе;й активации ReL 6. Слой пвоыдборки для уменьшения размерности двумерной сети на основе определения максим по нейронам областей 2 х 24; 7. Сглаживающий слой; 8.Полносвязный уровень с 512 элементами и функцией актUи;вации ReL 9. Полносвязный уровень с 10 элементами и функццииияSofаtкMтaиxв. а Для сбора статистики во время проведения эксперимента использовался dиstнaсtт,рукмоетнотрый запускался после первого обучения нейронной сети со следующими параметрами: dstat -cmdr —output <output_file_name>.cvs Данные параметры позволяют споебчеить получение статистики использования процессора, памяти, диска и запросов в-ввоыдваода и сохранить иcvхs-фвайл. Каждый эксперимент повторялся 10 раз, полученные результаты усреднялись с использовEаxнcиeеlм. Полученные результаты Прогон первой сеириэкспериментов (рисунок 1) был произведен на сервере Dell R810 c проце Intel Xeon c частотой 2.8 ГГц, с использованием виртуальной машины на гипервизоре VMware v Виртуальной машине было выделено 8 Гб оперативной памяти и одтиск1и дSоSD2.4 ДDляoядcеkрe,r прогонов использовалсdяocker-ce 17.05. Прогон второй серии экспериментов (рисунок 2) был произведен на сервере платформы Mi Azure на машинах серии NC c опмроцеInссteоlр Xeon-26E950v3 c частотой 2.6 ГГц, с использованием виртуальной машины на гипервизоре Microsoft Azure. Виртуальной машине было выделено от 56 NC6) до 112(модель NC12) Гб оперативной памяти, от 1 до 12 ядер (все показатлельизя не измен понизить объем ресурсов), от 1 до 2 виртуальных GPU Nvidia Tesla K80 (от 1/2 до 1 физич K80), диски HDD. DДoлcяker прогонов использовалсяdocker-ce 17.05, дляGPU-Docker использовался nvidia-docker 17.05. ДрайверыNVIDIA GRID для Tesla K80 версииR375 длCяUDA 2.0.

Прогон третьей серии экспериментов было решено пGроoвoеgсleтиClouвd с помощью подключения GPU к виртуальной машине с аналогичAнzыuмreи показателями, но по результаGтPаUм тестов все показатели в рамках погрешности изимйересновпали для GP1U Tиesla2K80.

Провайдер Amazon AWS предоставляет только одну фиксированную конфигурацию малого размера с GPU Tesla K80 – 4 ядра, 16 Гб оперативной памTяeтsиla Kи80, 1 остальные конфигурации начинаются от 8 картGPU, отдельная оптала за потребленные ресурсы процессора и диAсmкaа.zonДрлеязультаты расчета на одGиPнU также совпали по времеAнzиureс. В результатеылб составлен сводный график результатов по времениMNпISрTо,гонпаоскольку на одинаковом наборе лучше видна тенденция стоимости прогонов (рисунок 3).

Для оценки затрат были использованы данные биллинга по серверам за время проведения полученные отпровайдеров, все цены были представлены провайдерами в рублевом эквиваленте время прогона тестов (рисунок 4).

Из графика, показанного на рисунке 4, в,ихдонтоя, GPчUтои выигрывает в скорости прогона, на итоговую стоимость прогона влияет в больешейстоиммерость аренды, которую провайдеры взымают за время использования ускорителя. Рисунок 3 – Сводный график времени прогона на наборе MNIST Рисунок 4 – Сравнение стоимости прогона модели наборе MNIST: а) результаты на наборе MNIST; б) результаты на наборе CIFAR-10 Если взять цену одного прогона за единицу измерения эффективности, то получится, с что опти точки зрения зат,раитспользовать такое количество обычных процессоров, которое позволяет максимально эффективно реализовать плаерлаилзм при минимальном времени. В данном случае, это вариант с-128 ядрами процессора GPбUез. Заключение

В результате экспериментальных исследований эффективности обучения нейронных сетей облачных ресурсах было выявлено:

1. Использование контейнеризациDиocker при достаточном количестве вычислительных ядер позволяет не ухудшить показатели производительности стоимости, при этом существенно упрощ первоначальный запуск модели.

2. Использование специализированных графических ускорителей не всегднано,опреасвлдиа речь идет о научных исследованиях, в которых не критично время расчета. При снижении времени 2-4 раза (для 12 ядер на MNнIаSбTо)ре стоимость повышается в те-4 жреаза2, но при больших ресурсоемких наборах стоимость наоборот, уменьяшадеотс 50%.

3. Экономическая эффективность расчета тольCкPоU знанаижена в ряде источников, особенно для небольших наборов и сетей, а производитеGльPнUо,стньаоборот, завышена (по официальным сведениям производителя – быстрее в-108 раз).

В целом, имеетнсяеобходимость в дальнейшем более детального изучения и профилирования выполнения фреймворков нейронных сетеGйPU,на в контейнерDаoхcker, особенно при распределенных вычислениях, где есть сильная зависимость от производительности сетевого соединения. Благодарности (проекты стипендии №1-747-560046, №1-607-01004 и №-0175-06071), Президента для молодых ученых и аспира н-2т1о7в9.2(0С1П5.5). Российской Литература ресурс] //

обращения

References ресурс] //

обращения Об авторах: Ушаков Юрий Александрович, кандидат технических наук, доцент кафедры

наук, Оренбургский государственный универсиuтnеpтk,@mail.ru Полежаев Петр Николаевич, преподаватель кафедры комперьнюотй безопасности и математического обеспечения информационных систем, Оренбургский государственный университет, newblackpit@mail.ru Шухман Александр Евгеньевич, кандидат педагогических наук, геометрии и компьютерных наук, Оренбургский shukhman@gmail.com Порохненко Юлия Сергеевна, студент специальности «Компьютерная безопасность», факультет математики и информационнытхехнологий, Оренбургский государственный университет, yulkins2@gmail.com Чернова Екатерина Владимировна, студент специальности «Компьютерная безопасность», факультет математики и информационных технологий, Оргескнибйур государственный университет, katin_box@mail.ru доцент, заведу юафщеидйры к государственный университет, Очередько Ольга Олеговна, студент специальности «Компьютерная безопасность», факультет математики и информационных технологий, Оренбургский государственныйситуенти,oвlеikрoo@yandex.ru Note on the authors:

Ushakov Yury A., Candidate of Engineering Sciences, Associate Professor at the Department of Geometry and Computer Science, Orenburg State University, unpk@mail.ru Polezhaev Petr N., Lecturer at the Department of Computer Security and Mathematical Maintenance of Information Systems, Orenburg State University, newblackpit@mail.ru Shukhman Aleksandr E., Candidate of Pedagogic Sciences, Associate Professor, Head of the Department of Geometry and Computer Science, Orenburg State University, shukhman@gmail.com

Porokhnenko Yuliya S., Student of «Computeurritys»ec specialty, Faculty of Mathematics and Information

Technologies, Orenburg State University, yulkins2@gmail.com

Chernova Ekaterina V., Student of «Computer security» specialty, Faculty of Mathemamticastionand Infor

Technologies, Orenburg State University, katin_box@mail.ru

Ocheredko Olga O., Student of «Computer security» specialty, Faculty of Mathematics and

Technologies, Orenburg State University, olik-oo@yandex.ru

Inform

1. Нейросетевое программное обеспечение [Электронный ресурс] // URL: http://bookflow.ru/n-pejrroogsreatmevmoenoeobespechenie / (дата обращения 11.09 . 2017 ).

2. Медведев

В.С.

, Потемкин

.Г. Нейронные сети M-AМT.L: ABДиа6л . о-гМИФИ, 2002 -. 496 с.

3. Парубец

В.В.

, Берестнева

Г., Девятых Д.В. Применение технологии CUDA //Известия Томского политехнического университ-е2т0а.12. - Т . 320 -. №. 5 -. C. 121 - 125 .

4. Bastien F . et al. Theano: new features and speed improvements [Электронный ресурс] //arXiv preprint arXiv: 1211 . 5590 . - 2012 . - URL: https://arxiv.org/abs/1211.5590 (дата обращения 11.09 . 2017 ).

5. Jia

et al. Caffe: Convolutional architecture for fast feature embedding // Proceedings of the 22nd ACM international conference on Multimedia. - ACM , 2014 . - С . 675 - 678 .

6. Reasons to Switch from TensorFlow to CNTK [Электронный ресурс] //URL: https://docs.microsoft.com/en-us/cognitivetoolkit/reasons-to -switch-from-tensorflow-to-cntk (дата обращения : 23 . 06 . 2017 )

7. Chen

et al. Mxnet: A flexible and efficient machine learning library for heterogeneous distributed systems [Электронный ресурс] // arXiv preprint arXiv: 1512 . 01274 . - 2015 . - URL: https://arxiv.org/abs/1512.01274 (дата обращения: 22 . 06 . 2017 )

8. Deep Learning for Java [Электронный ресурс] //URL: https://deeplearning4j.org (дата обращения: 22 . 06 . 2017 )

9. Huerta

I. Installing

Keras , Theano and TensorFlow with GPU on Windows 8.1 and 10 in less than 4 hours [Электронный ресурс] // URL: https://sites.google.com/site/ivanhuertacasado/installing-keras -theano-tensorflow-with-gpu-windows (дата обращения 11 .09. 2017 ).

10. Crosson

Installing

Nvidia

, Cuda, CuDNN, TensorFlow and Keras [Электронный ресурс] // URL: https://medium.com/@acrosson/installing-nvidia -cuda-cudnn-tensorflow-and- keras- 69bbf33dce8a (дата обращения 11.09 . 2017 ).

11.

Jamie

Hanlon . Why is so much memory needed for deep neural networks? [Электронный URL: https://www.graphcore.ai/posts/why-is-so-much-memory-needed-for-deep-neural-networks (дата 11 .09. 2017 ).

1. Nejrosetevoe programmnoe obespechenie [Электронный ресурс] // URL: http://bookflow.ru/nejrosetevoe-programmnoeobespechenie / (дата обращения 11.09 . 2017 ).

2. Medvedev

V.S.

, Potemkin

V.G.

Nejronnye seti MATLAB 6 . - M.: Dialog-MIFI , 2002 . - 496 p.

3. Parubec

V.V.

, Berestneva

O.G.

, Devjatyh D .V. Primenenie tehnologii CUDA dlja uskorenija vychislenij v nejronnyh setjah //Izvestija Tomskogo politehnicheskogo universiteta . - 2012 . - Vol. 320 . - No. 5. - PP. 121 - 125 .