<?xml version="1.0" encoding="UTF-8"?>
<TEI xml:space="preserve" xmlns="http://www.tei-c.org/ns/1.0" 
xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" 
xsi:schemaLocation="http://www.tei-c.org/ns/1.0 https://raw.githubusercontent.com/kermitt2/grobid/master/grobid-home/schemas/xsd/Grobid.xsd"
 xmlns:xlink="http://www.w3.org/1999/xlink">
	<teiHeader xml:lang="ru">
		<fileDesc>
			<titleStmt>
				<title level="a" type="main">Эффективность процессоров ARM для расчетов классической молекулярной динамики \ast</title>
			</titleStmt>
			<publicationStmt>
				<publisher/>
				<availability status="unknown"><licence/></availability>
			</publicationStmt>
			<sourceDesc>
				<biblStruct>
					<analytic>
						<author>
							<persName><forename type="first">В</forename><forename type="middle">П</forename><surname>Никольский</surname></persName>
						</author>
						<author>
							<persName><forename type="first">В</forename><forename type="middle">В</forename><surname>Стегайлов</surname></persName>
						</author>
						<title level="a" type="main">Эффективность процессоров ARM для расчетов классической молекулярной динамики \ast</title>
					</analytic>
					<monogr>
						<imprint>
							<date/>
						</imprint>
					</monogr>
					<idno type="MD5">E516686582F52A07782233592FA050FD</idno>
				</biblStruct>
			</sourceDesc>
		</fileDesc>
		<encodingDesc>
			<appInfo>
				<application version="0.7.2" ident="GROBID" when="2023-03-24T04:04+0000">
					<desc>GROBID - A machine learning software for extracting information from scholarly documents</desc>
					<ref target="https://github.com/kermitt2/grobid"/>
				</application>
			</appInfo>
		</encodingDesc>
		<profileDesc>
			<abstract>
<div xmlns="http://www.tei-c.org/ns/1.0"><p>Национальный исследовательский университет "Высшая школа экономики" 1 , Объединенный институт высоких температур РАН 2 Суперкомпьютерные вычисления экзафлопсной эры будут неизбежно ограничены энергоэффективностью. Сегодня в качестве возможных кандидатов для этих целей рассматриваются различные микропроцессорные архитектуры. Недавно микропроцессоры с архитектурой ARM в своем развитии достигли момента, когда уже можно серьезно обсуждать их применение для высокопроизводительных вычислений. В данной работе представлен анализ эффективности последних версий ARM микропроцессоров и их производительности для задач классической молекулярной динамики.</p></div>
			</abstract>
		</profileDesc>
	</teiHeader>
	<text xml:lang="ru">
		<body>
<div xmlns="http://www.tei-c.org/ns/1.0"><head n="1.">Введение</head><p>Развитие вычислительной техники последних десятилетий проходило в рамках известного закона Мура, согласно которому количество транзисторов, размещаемых на кристалле интегральной схемы, и их производительность удваиваются каждые полтора-два года. В настоящее время развитие элементной базы подошло к физическим пределам, и дальнейший рост производительности высокопроизводительных вычислительных систем все больше и больше основывается не на росте производительности отдельных интегральных схем, а на создании суперкомпьютеров, объединяющих в одно целое колоссальное число вычислительных элементов <ref type="bibr">[1]</ref>. Согласно существующим оценкам суперкомпьютеры экзафлопсной эры будут состоять из миллионов вычислительных элементов. Для создания подобных систем первоочередную важность приобретают вопросы энергопотребления. Акценты в развитии аппаратного обеспечения смещаются с задач создания быстрых вычислительных элементов на задачи создания энергоэффективных вычислительных элементов, из которых можно собирать сверхбольшие системы, и на задачи разработки соответствующего интерконнекта. Характерным примером служит история развития систем серии IBM Blue Gene, первая из которых была основана на заведомо слабом процессоре с тактовой частотой всего 700 МГц <ref type="bibr" target="#b0">[2]</ref>.</p><p>Одним из важных факторов развития вычислительной техники последнего десятилетия является использование в области высокопроизводительных вычислений GPU ускорителей, первоначально ориентированных на массовый сегмент рынка микроэлектроники (ускорители для видеоигр). Привлекательное соотношение "цена-производительность" обеспечило стремительный рост популярности подобного аппаратного обеспечения в области высокопроизводительных вычислений.</p><p>Другая сегодняшняя тенденция подобного рода -массовое использование процессоров ARM в маломасштабной вычислительной технике и, особенно, в современных смартфонах и планшетах <ref type="bibr" target="#b1">[3]</ref>. Потребности рынка обуславливают рост производительности процессоров ARM при сохранении высокого уровня энергоэффективности. В последнем семействе процессоров ARM Cortex-A имеется возможность использования специального модуля для вычислений с плавающей точкой (VFP), что обуславливает их применимость для широкого спектра задач в области высокопроизводительных вычислений <ref type="bibr" target="#b2">[4]</ref>. В данной работе мы анализируем производительность нескольких примеров процессоров семейства ARM Cortex-A, как с точки зрения пиковых характеристик и теста типа Linpack, так и для задач класси-\ast Работа была поддержана Программой фундаментальных исследований НИУ ВШЭ.</p><p>Суперкомпьютерные дни в России 2015 // Russian Supercomputing Days 2015 // RussianSCDays.org ческой молекулярной динамики (МД).</p><p>На сегодняшний день задачи МД моделирования занимают важное место в числе приложений высокопроизводительных вычислений <ref type="bibr" target="#b3">[5]</ref><ref type="bibr" target="#b4">[6]</ref><ref type="bibr" target="#b5">[7]</ref>. Подобные модели рассматривались в качестве одного из главных приоритетов при разработке суперкомпьютеров семейства IBM Blue Gene. Для развития алгоритмов параллельного решения математических задач на новейших суперкомпьютерах Департамент энергетики США (DOE) в 2006 г. существенно расширил программу Innovative and Novel Computational Impact on Theory and Experiment (INCITE), в рамках которой распределяются значительные гранты вычислительного времени. На задачи классической молекулярной динамики в рамках этой программы приходится примерно 1/5 часть, как по числу проектов, так и по выделенному вычислительному времени <ref type="bibr" target="#b0">[2]</ref>.</p><p>Наряду с разработкой теоретических основ метода МД моделирования <ref type="bibr" target="#b6">[8]</ref> интенсивно растет число его применений в современных многомасштабных моделях в физике, химии, биологии, материаловедении и других областях, существенным образом основанных на описании процессов на атомистическом уровне. При этом даже достигнутый на сегодня рекордный размер моделей в триллионы частиц <ref type="bibr" target="#b7">[9]</ref> соответствует, например, для металла при нормальной плотности объему всего в несколько мкм 3 . Задача увеличения максимальных доступных времен молекулярно-динамических расчетов еще сложнее <ref type="bibr" target="#b8">[10]</ref>. Разработка подобных вычислительных методов неразрывно связна с прогрессом в суперкомпьютерных технологиях.</p><p>Во второй части описаны аппаратные и программные средства, используемые для тестирования производительности ARM-систем. В третьей части обсуждается реальная производительность на тесте RGBenchMM и пиковая производительность ARM-ядер. В четвертой части воедино сводятся данные тестовой молекулярно-динамической задачи для различных типов процессорных ядер, включая наши результаты для ARM Cortex-A5. В пятой части мы проводим сравнение энергопотребления серверов на процессорах Intel и ARM при решении тестовой молекулярно-динамической задачи.</p></div>
<div xmlns="http://www.tei-c.org/ns/1.0"><head n="2.">Аппаратное обеспечение и методы тестирования</head><p>Архитектура ARM -это микропроцессорная архитектура с сокращенным набором команд (Advanced RISC Machine). Архитектура одного семейства ARM процессоров может подразделяться на различные типы ядер. В данной работе мы рассматриваем семейство Cortex-A и ядра Cortex-A5, Cortex-A9 и Cortex-A15. Данные типы ядер не соответствуют строго определенным микросхемам, а представляют собой шаблоны с набором опций, по лицензии на которые микропроцессоры выпускаются различными производителями. В некоторых случаях шаблоны подвергаются определенным видоизменениям (например, ядра Scorpion и Krait). Рассматриваемые типы ядер включают модуль для вычислений с плавающей точкой (VFPv3 или VFPv4).</p><p>Основные результаты работы были получены на ODROID-C1. ODROID-C1 -это компактный миникомпьютер производства фирмы Hardkernel, который содержит четырехъядерный процессор Amlogic S805 Cortex-A5 с модулями VFPv4 на каждом ядре, а также графическим ускорителем Mali-450 MP2, который нами не использовался. Процессор функционирует на частоте 1. Кроме того, для анализа привлекались опубликованные ранее результаты тестов производительности и энергопотребления.</p><p>Тесты производительности микропроцессоров имеют продолжительную историю развития <ref type="bibr" target="#b9">[11]</ref>. В области научных расчетов и математического моделирования de facto стандартом для описания производительности являются единицы Флопс (число операций с плавающей точкой в секунду). Измерение данной характеристики обычно связывается с тестом Linpack. Однако процессоры с архитектурой ARM первоначально ориентировались на целочисленные операции (см. <ref type="bibr" target="#b10">[12]</ref> и ссылки в ней) их пиковая производительность в единицах Флопс не декларируется производителем (но, как показано ниже, может быть оценена по результатом специальных тестов).</p><p>Для тестов производительности алгоритмов классической молекулярной динамики использовался пакет LAMMPS и модель Леннард-Джонсовской жидкости (32 тыс. атомов при плотности 0.8442\sigma - 3 , обрезка Леннард-Джонсовского потенциала на расстоянии 2.5\sigma (в среднем 55 соседей на атом), 100 шагов по времени в NVE схеме интегрирования).</p><p>Для компиляции LAMMPS в OC Linux использовался компилятор GCC версии 4.9. Для компиляции использовались ключи -mcpu=cortex-a5 -mfpu=vfpv4-d16 -mfloat-abi=softfp (отличия по производительности от случая -mfloat-abi=hard оказались минимальными). Использовалась последовательная компиляция для запуска на одном ядре Cortex-A5 (без многопоточности).  <ref type="bibr" target="#b11">[13]</ref> ядро Cortex-A9 использует 1-2 такта на выполнение одной операции с плавающей точкой (Флопа), а ядро Cortex-A15 выполняет все типы подобных операций за 1 такт микропроцессора, включая операции fused multiply-add (FMA) или fused multiply-accumulate (FMAC).</p><p>Для ОС Android доступно тестовое приложение RGBenchMM <ref type="bibr" target="#b12">[14]</ref>, основанное на реализации процедуры типа DGEMM c возможностью распараллеливания на 2 и 4 потока. Данное приложение написано на С++ в Android NDK и лишено присущей Java программам в ОС Android заниженной производительности, в частности, исполняемый код в ключевых операциях использует специальные инструкции FMAC <ref type="bibr" target="#b14">[15]</ref>.</p><p>В таблице 1 представлены данные по абсолютной производительности R max в МФлопс на одно ядро и по относительной производительности (по отношению к тактовой частоте процессора) в единицах Флоп на один такт процессора.</p><p>Из таблицы видно, что, в отличие от приведенных выше данных <ref type="bibr" target="#b11">[13]</ref> по пиковой производительности полученных в специализированных тестах, производительность рассматриваемых ядер Cortex-A9 и Cortex-A15 на приближенном к реальной задаче тесте RGBenchMM примерно в 2 раза меньше. Данное отличие связано с тем, что в реальных вычислениях значительное число тактов процессора уходит на загрузку данных из памяти в регистры. Мы видим, что подобные эффекты еще сильнее выражены для более "слабых" ядер Cortex-A5 и A8. Исходя из приведенных данных, представляется разумным считать пиковую производительность ядра Cortex-A5 равной 2-3 тактам на Флоп с учетом операций FMAC и 4-6 тактам на Флоп без учета FMAC.  Для сопоставления различных микропроцессоров (и гетерогенных вычислительных элементов) между собой необходимо найти разумный "общий знаменатель". Эту роль, естественным образом, может играть пиковая производительность R peak <ref type="bibr" target="#b16">[17]</ref>. На рис. 1 показаны времена расчета с помощью LAMMPS на 1 атом и на 1 МД шаг для модели Леннард-Джонсовской жидкости. Приведены данные тестов для 1 ядра (черные кружки) с сайта LAMMPS <ref type="bibr" target="#b17">[18]</ref> для процессоров Intel Pentium II Over-Drive 333 МГц, DEC Alpha 500 МГц, PowerPC 440 700 МГц, Power4 1.3 ГГц и Intel Xeon 3.47 ГГЦ. В данном случае время расчета определяется устройством ядра микропроцессора и способностью компилятора создать эффективный исполняемый код. Все точки (кроме квадрата) соответствуют одному и тому же программному коду LAMMPS на C++, но разным типам и версиям компиляторов. Видно, что результаты для процессоров Intel и DEC хорошо соответствуют соотношению (1). Если значения пиковой производительности для процессоров IBM отмасштабировать, чтобы исключить из R peak операции FMA, не использующиеся в классическом МД алгоритме, то соответствующие точки также прекрасно ложатся на общую зависимость 6.84\cdot 10 3 Флоп/R peak (сплошная прямая на рис. 1).</p><p>Показаны результаты тестов <ref type="bibr" target="#b16">[17]</ref> на суперкомпьютере МГУ им. М. В. Ломоносова "Ломоносов" без векторизации кода (открытый кружок) и на суперкомпьютере МСЦ РАН МВС-10П без векторизации (кружок с и с векторизацией кода (квадрат) с использованием модуля USER-INTEL. В этом случае LAMMPS был скомпилирован Intel C++ с учетом ручной векторизации алгоритма подсчета сил, ориентированного на микроархитектуру Intel Xeon (пакет USER-INTEL в LAMMPS). Результатом подобной оптимизации кода является ускорение расчетов в 2 раза, соответствующее 3.36 \cdot 10 3 Флоп/R peak (пунктирная прямая на рис. 1).</p><p>В отличие от процессоров других фирм для ARM Cortex-A5 значение R peak не декларируется производителем. Прямоугольники на рис. 1 показывают результаты тестов LAMMPS на ARM Cortex-A5 с учетом не полной определенности его пиковой производительности, с учетом поправки на операции FMA и с учетом отличия времен расчета для случая 1-ой копии LAMMPS, запущенной на процессоре (5.95 мкс/атом/шаг), и случая 4-х одновременно работающих копий на 4-х ядрах ARM Cortex-A5 (7.8 мкс/атом/шаг).</p><p>Видно, что архитектура Cortex-A5 совместно с компилятором GCC 4.9 обеспечивает высокую эффективность использования аппаратных ресурсов для операций с плавающей точкой. При скромных абсолютных значениях производительности соотношение времени расчета и пиковой производительности ядра процессора находится на уровне результатов Intel Xeon c ручной векторизацией. Однако в случае Cortex-A5 для ее достижения не потребовалось доработка программного кода.</p><p>Для ядра Cortex-A15 значение пиковой производительности хорошо определено <ref type="bibr" target="#b11">[13]</ref>. Оценку времени расчета LAMMPS на системе, аналогичной Samsung Nexus 10, можно сделать по результатам для ODROID-C1, исходя из их соотношения R max (см. таблицу 1). Рис. 1 показывает, что для Cortex-A15 можно ожидать производительности LAMMPS несколько большей, чем у процессора IBM Power4. Таблица 2 свидетельствует о том, что расчеты МД задач на системах с процессорами ARM Cortex-A требуют примерно в 5 раз меньше энергии, чем расчеты на последних моделях процессоров Intel.</p></div>
<div xmlns="http://www.tei-c.org/ns/1.0"><head n="6.">Заключение</head><p>Проанализированы результаты теста RGBenchMM, аналогичного тесту Linpack, для различных систем на основе процессоров с ядрами ARM Cortex-A, включая смартфоны и миникомпьютер ODROID-C1. Сделана оценка пиковой производительности ядра Cortex-A5 в ODROID-C1.</p><p>Результаты расчетов с помощью кода LAMMPS тестовой МД задачи проанализированы в контексте производительности других типов процессоров и метрики "время расчета -пиковая производительность". Показана высокая эффективность использования аппаратных возможностей операций с плавающей точкой в архитектуре Cortex-A в комбинации с компилятором GCC 4.9. Скорость расчета LAMMPS на ядрах ARM Cortex-A в 2 раза выше, чем на процессорах других архитектур с той же пиковой производительностью, причем при отсутствии необходимости по доработке программного кода.</p><p>Проведены измерения энергопотребления миникомпьютера ODROID-C1. Сделанные оценки показывают 5-ти кратное преимущество по энергопотреблению систем на основе ядер ARM Cortex-A на рассматриваемой тестовой МД задаче по сравнению с архитектурами Intel Ivy Bridge и Haswell. Литература 1. Sadovnichy V., Tikhonravov A., Voevodin V., Opanasenko V. </p></div><figure xmlns="http://www.tei-c.org/ns/1.0" xml:id="fig_0"><head>Рис. 1 .</head><label>1</label><figDesc>Сравнение быстродействия пакета LAMMPS для модели Леннард-Джонсовской жидкости на различных процессорах (последовательный код без многопоточности).</figDesc></figure>
<figure xmlns="http://www.tei-c.org/ns/1.0" type="table" xml:id="tab_0"><head></head><label></label><figDesc>5 ГГц с 1 гигабайтом памяти DDR3 SDRAM. Устройство имеет слоты eMMC и microSD, 4 USB порта и 10/100/1000 Mbps Ethernet с портом RJ-45. Питание подключается через специальный адаптер. Монитор подключается посредством microHDMI порта. ODROID-C1 использовался нами или под управлением ОС Linux Ubuntu 14.04.1 LTS (odroid 3.10.67-55 #1 SMP) с легковесной графической средой LXDE, или под управлением OC Android версии 4.4.2. Для тестов производительности других типов ядер ARM Cortex использовались несколько различных смартфонов под управлением OC Android. Анализ энергопотребления миникомпьютера ODROID-C1 проводился с помощью цифрового ватт-Суперкомпьютерные дни в России 2015 // Russian Supercomputing Days 2015 // RussianSCDays.org метра "Smart Power" производства фирмы Hardkernel.</figDesc><table /></figure>
<figure xmlns="http://www.tei-c.org/ns/1.0" type="table" xml:id="tab_1"><head></head><label></label><figDesc>Суперкомпьютерные дни в России 2015 // Russian Supercomputing Days 2015 // RussianSCDays.org 3. Оценка пиковой производительности ARM-ядер В отличие от процессоров таких фирм, как, например, Intel, AMD и IBM, разработчики и производители процессоров ARM не публикуют данные по пиковой производительности R peak в единицах Флопс. Согласно существующим исследованиям</figDesc><table><row><cell cols="4">Таблица 1. Результаты теста RGBenchMM на различных устройствах c процессорами ARM</cell></row><row><cell>ARM-ядро</cell><cell cols="2">R max , МФлопс/ядро Флоп/такт</cell><cell>Источник</cell></row><row><cell>Cortex-A5</cell><cell>284</cell><cell>0.2</cell><cell>ODROID-C1</cell></row><row><cell>Cortex-A8</cell><cell>66</cell><cell>0.1</cell><cell>[16] (Google Nexus S)</cell></row><row><cell>Cortex-A9</cell><cell>372</cell><cell>0.3</cell><cell>Google Nexus 7</cell></row><row><cell>Cortex-A9</cell><cell>460, 614</cell><cell>0.4</cell><cell>Samsung Galaxy S II X, Note II</cell></row><row><cell>Cortex-A9</cell><cell>352 -655</cell><cell>0.2 -0.4</cell><cell>[16] (8 устройств)</cell></row><row><cell>Scorpion</cell><cell>575, 588</cell><cell>0.4</cell><cell>Samsung Galaxy S Plus, S II</cell></row><row><cell>Scorpion</cell><cell>446 -772</cell><cell>0.4 -0.5</cell><cell>[16] (4 устройства)</cell></row><row><cell>Krait</cell><cell>613 -896</cell><cell>0.4 -0.5</cell><cell>[16] (14 устройств)</cell></row><row><cell>Krait 400</cell><cell>1073</cell><cell>0.5</cell><cell>Sony Xperia Z2</cell></row><row><cell>Krait 400</cell><cell>1038 -1197</cell><cell>0.5</cell><cell>[16] (11 устройств)</cell></row><row><cell>Cortex-A15</cell><cell>1125</cell><cell>0.7</cell><cell>Samsung Nexus 10</cell></row><row><cell>Cortex-A15</cell><cell>1164 -1502</cell><cell>0.6 -0.7</cell><cell>[16] (4 устройства)</cell></row></table></figure>
<figure xmlns="http://www.tei-c.org/ns/1.0" type="table" xml:id="tab_2"><head></head><label></label><figDesc>4. Сравнение ядер по эффективности расчетов LAMMPSС точки зрения конечного потребителя аппаратного обеспечения для высокопроизводительных вычислений различные типы процессоров отличаются производительностью R peak в единицах Флопс. Вообще говоря, конечный потребитель ожидает, что время решения задачи будет уменьшаться как</figDesc><table><row><cell></cell><cell></cell><cell>t \sim</cell><cell>1 R peak</cell><cell>.</cell><cell>(1)</cell></row><row><cell cols="5">В случае параллельных вычислений возможность уменьшения времени расчета ограничена</cell></row><row><cell cols="5">коммуникацией. Однако и в случае последовательных вычислений соотношение (1) может</cell></row><row><cell cols="5">не выполняться для конкретных задач при переходе от одного процессора к другому из-за</cell></row><row><cell cols="5">разной скорости загрузки данных, других факторов (кэш, компилятор, ОС), а также из-за</cell></row><row><cell cols="5">использования операций специального вида, как, например, FMA [17].</cell></row><row><cell>2.8</cell><cell></cell><cell></cell><cell></cell></row><row><cell>2.4</cell><cell></cell><cell></cell><cell></cell></row><row><cell>2</cell><cell></cell><cell></cell><cell></cell></row><row><cell>1.6</cell><cell></cell><cell></cell><cell></cell></row><row><cell>0</cell><cell>40</cell><cell>80</cell><cell></cell><cell>120</cell></row><row><cell cols="5">Рис. 2. Потребляемая миникомпьютером ODROID-C1 мощность запуске 4-х копий LAMMPS c</cell></row><row><cell cols="5">тестовой МД задачей. Запуск проводился при подключении монитора по microHDMI и клавиатуры и</cell></row><row><cell cols="5">мыши по USB. Показан уровень энергопотребления незагруженной системы без указанных внешних</cell></row><row><cell>подключений.</cell><cell></cell><cell></cell><cell></cell></row></table></figure>
<figure xmlns="http://www.tei-c.org/ns/1.0" type="table" xml:id="tab_3"><head></head><label></label><figDesc>Таблица 2. Потребление энергии при МД расчете Леннард-Джонсовской жидкости (на 1 атом на 1 МД шаг интегрирования). Приведены значения потребляемой мощности сервера/миникомпьютера при полной загрузке всех 4-х ядер. Используются литературные данные по энергопотреблению серверов на базе процессоров Intel Xeon с архитектурами Ivy Bridge и Haswell. Зачастую делаются попытки характеризовать энергопотребление процессора. Но оно существенно зависит от режима его работы. По-видимому, разумно рассматривать энергопотребление всей системы (сервера, миникомпьютера, смартфона), не выделяя энергопотребление самого процессора. В данной работе мы провели оценки энергоэффективности работы различных серверов, исходя из условия из полной загрузки МД расчетом Леннард-Джонсовской жидкости.Рис. 2 показывает как меняется энергопотребление ODROID-C1 при последовательном запуске 4-х независимых расчетов тестовой МД задачи. По приведенным данным уровень энергопотребления при полной загрузке можно оценить как 2.4 Вт (вычитая мощность на HDMI и USB подключения).По данным работы<ref type="bibr" target="#b20">[21]</ref> можно определить значение потребляемой мощности при полной загрузке миникомпьютера ODROID XU+E, основанного на 4-х ядрах Cortex-A15 (наличие также ядер Cortex-А7 приводит к тому, что данная оценка может быть завышена). Имеются литературные данные<ref type="bibr" target="#b18">[19,</ref><ref type="bibr" target="#b19">20]</ref> по энергопотреблению серверов, основанных на процессорах Intel Xeon с архитектурой Ivy Bridge и Haswell. В результате, оказалось возможным оценить количество энергии, требующееся для расчета 1 МД шага на 1 атом для рассматриваемой МД модели простой жидкости (таблица 2). Время расчета для них оценено по универсальной зависимости (рис. 1) и их пиковой производительности без учета FMA (128 ГФлопс для E5-2650 v2, 240 ГФлопс для E5-2690 v2 и 249.6 ГФлопс для E5-2690 v3). Время расчета для ODROID-C1 при использовании всех ядер соответствует рис. 1 (7 мкс/4 ядра). Также приведена оценка для системы с 4-х ядерным процессором архитектуры Cortex-A15.</figDesc><table><row><cell cols="4">Суперкомпьютерные дни в России 2015 // Russian Supercomputing Days 2015 // RussianSCDays.org</cell></row><row><cell cols="3">5. Сравнение энергоэффективности</cell><cell></cell></row><row><cell cols="4">Сравнение различных вычислительных систем по энергоэффективности сопряжено с</cell></row><row><cell>существенными трудностями.</cell><cell></cell><cell></cell><cell></cell></row><row><cell>Система</cell><cell>Потребляемая мощность, Вт</cell><cell>Время на атом на шаг, мкс</cell><cell>Энергия на атом на шаг, мкДж</cell></row><row><cell>Ivy Bridge Server</cell><cell>316 [19]</cell><cell>0.053</cell><cell>16.8</cell></row><row><cell>Ivy Bridge Server</cell><cell>451.8 [20]</cell><cell>0.029</cell><cell>13.1</cell></row><row><cell>Haswell Server</cell><cell>462.9 [20]</cell><cell>0.027</cell><cell>12.5</cell></row><row><cell>ODROID-C1</cell><cell>2.4</cell><cell>1.75</cell><cell>4.2</cell></row><row><cell cols="2">Аналог Samsung Nexus 10 \sim 8 [21]</cell><cell>0.4</cell><cell>3.2</cell></row></table></figure>
<figure xmlns="http://www.tei-c.org/ns/1.0" type="table" xml:id="tab_4"><head></head><label></label><figDesc>"Lomonosov": supercomputing at Moscow State University // Contemporary High Performance Computing: From Petascale toward Exascale: Vetter J.S. Ed. CRC Press: Boca Raton, FL, 2013. C. 283-307. Суперкомпьютерные дни в России 2015 // Russian Supercomputing Days 2015 // RussianSCDays.org</figDesc><table /></figure>
			<note xmlns="http://www.tei-c.org/ns/1.0" place="foot" xml:id="foot_0">Суперкомпьютерные дни в России 2015 // Russian Supercomputing Days 2015 // RussianSCDays.org</note>
		</body>
		<back>
			<div type="annex">
<div xmlns="http://www.tei-c.org/ns/1.0"><head>Efficiency of ARM processors for classical molecular dynamics calculations</head></div>
<div xmlns="http://www.tei-c.org/ns/1.0"><head>Vsevolod Nikolskiy and Vladimir Stegailov</head><p>Keywords: ARM architecture, floating point operations, efficiency, molecular dynamics Supercomputing of the exascale era is inevitably limited by power efficiency. Nowadays different CPU architectures are considered as possible choices for these purposes. Recently the development of ARM processors has come to the point when their floating point performance can be seriously considered for a range of scientific applications. In this talk we present the analysis of the floating point performance of the latest ARM cores and their efficiency for the algorithms of classical molecular dynamics.</p></div>			</div>
			<div type="references">

				<listBibl>

<biblStruct xml:id="b0">
	<monogr>
		<author>
			<persName><forename type="first">В</forename><forename type="middle">В</forename><surname>Стегайлов</surname></persName>
		</author>
		<author>
			<persName><forename type="first">Г</forename><surname>Норман</surname></persName>
		</author>
		<ptr target="обращения:14." />
		<title level="m">.Э. Проблемы развития суперкомпьютерной отрасли в России: взгляд пользователя высокопроизводительных систем // Программные системы: теория и приложения: электрон. научн. журн</title>
				<imprint>
			<date type="published" when="2014-06">2014. 06.2015</date>
			<biblScope unit="volume">5</biblScope>
			<biblScope unit="page" from="111" to="152" />
		</imprint>
	</monogr>
</biblStruct>

<biblStruct xml:id="b1">
	<monogr>
		<author>
			<persName><surname>Furber</surname></persName>
		</author>
		<ptr target="обращения:31." />
		<title level="m">An Interview with Steve</title>
				<imprint>
			<date type="published" when="2015-07">07.2015</date>
		</imprint>
	</monogr>
</biblStruct>

<biblStruct xml:id="b2">
	<analytic>
		<title level="a" type="main">Use of SIMD Vector Operations to Accelerate Application Code Performance on Low-Powered ARM and Intel Platforms</title>
		<author>
			<persName><forename type="first">G</forename><surname>Mitra</surname></persName>
		</author>
		<author>
			<persName><forename type="first">B</forename><surname>Johnston</surname></persName>
		</author>
		<author>
			<persName><forename type="first">A</forename><forename type="middle">P</forename><surname>Rendell</surname></persName>
		</author>
		<author>
			<persName><forename type="first">E</forename><surname>Mccreath</surname></persName>
		</author>
		<author>
			<persName><forename type="first">J</forename><surname>Zhou</surname></persName>
		</author>
		<idno type="DOI">10.1109/IPDPSW.2013.207</idno>
	</analytic>
	<monogr>
		<title level="m">IEEE 27th International Parallel and Distributed Processing Symposium Workshops &amp; PhD Forum</title>
				<meeting><address><addrLine>IPDPSW</addrLine></address></meeting>
		<imprint>
			<date type="published" when="2013-05">2013. May 2013</date>
			<biblScope unit="page" from="1107" to="1116" />
		</imprint>
	</monogr>
</biblStruct>

<biblStruct xml:id="b3">
	<monogr>
		<author>
			<persName><forename type="first">А</forename><forename type="middle">В</forename><surname>Янилкин</surname></persName>
		</author>
		<author>
			<persName><forename type="first">П</forename><forename type="middle">А</forename><surname>Жиляев</surname></persName>
		</author>
		<author>
			<persName><forename type="first">А</forename><surname>Куксин</surname></persName>
		</author>
		<title level="m">Применение суперкомпьютеров для молекулярно-динамического моделирования процессов в конденсированных средах // Вычислительные методы и программирование</title>
				<imprint>
			<date type="published" when="2010">2010</date>
			<biblScope unit="volume">11</biblScope>
			<biblScope unit="page" from="111" to="116" />
		</imprint>
	</monogr>
</biblStruct>

<biblStruct xml:id="b4">
	<monogr>
		<title level="m" type="main">Ab initio молекулярная динамика: перспективы использования многопроцессорных и гибридных суперЭВМ // Вычислительные методы и программирование</title>
		<author>
			<persName><forename type="first">П</forename><forename type="middle">А</forename><surname>Жиляев</surname></persName>
		</author>
		<author>
			<persName><forename type="first">В</forename><surname>Стегайлов</surname></persName>
		</author>
		<imprint>
			<date type="published" when="2012">2012</date>
			<biblScope unit="volume">13</biblScope>
			<biblScope unit="page" from="37" to="45" />
		</imprint>
	</monogr>
</biblStruct>

<biblStruct xml:id="b5">
	<monogr>
		<author>
			<persName><forename type="first">А</forename><forename type="middle">Ю</forename><surname>Куксин</surname></persName>
		</author>
		<author>
			<persName><forename type="first">А</forename><forename type="middle">В</forename><surname>Ланкин</surname></persName>
		</author>
		<author>
			<persName><forename type="first">И</forename><forename type="middle">В</forename><surname>Морозов</surname></persName>
		</author>
		<author>
			<persName><forename type="first">Г</forename><surname>Норман</surname></persName>
		</author>
		<ptr target="обращения:14." />
		<title level="m">.В. ЗАЧЕМ и КАКИЕ нужны суперкомпьютеры эксафлопсного класса? Предсказательное моделирование свойств и многомас штабных процессов в материаловедении // Программные системы: теория и приложения: электрон. научн. журн</title>
				<editor>
			<persName><forename type="first">А</forename><surname>Тимофеев</surname></persName>
		</editor>
		<imprint>
			<date type="published" when="2014-06">2014. 06.2015</date>
			<biblScope unit="volume">5</biblScope>
			<biblScope unit="page" from="191" to="244" />
		</imprint>
	</monogr>
</biblStruct>

<biblStruct xml:id="b6">
	<monogr>
		<title level="m" type="main">Стохастическая теория метода классической молекулярной динамики // Математическое моделирование</title>
		<author>
			<persName><forename type="first">Г</forename><forename type="middle">Э</forename><surname>Норман</surname></persName>
		</author>
		<author>
			<persName><forename type="first">В</forename><surname>Стегайлов</surname></persName>
		</author>
		<imprint>
			<date type="published" when="2012">2012</date>
			<biblScope unit="volume">24</biblScope>
			<biblScope unit="page" from="3" to="44" />
		</imprint>
	</monogr>
</biblStruct>

<biblStruct xml:id="b7">
	<monogr>
		<author>
			<persName><forename type="first">W</forename><surname>Eckhardt</surname></persName>
		</author>
		<title level="m">TFLOPS multi-trillion particles simulation on SuperMUC // Supercomputing</title>
				<meeting><address><addrLine>Berlin Heidelberg</addrLine></address></meeting>
		<imprint>
			<publisher>Springer</publisher>
			<date type="published" when="2013">2013</date>
			<biblScope unit="volume">7905</biblScope>
			<biblScope unit="page" from="1" to="12" />
		</imprint>
	</monogr>
</biblStruct>

<biblStruct xml:id="b8">
	<monogr>
		<title level="m" type="main">.В. Суперкомпьютерное молекулярное моделирование термодинамического равновесия в микросистемах газ-металл // Вычислительные методы и программирование</title>
		<author>
			<persName><forename type="first">В</forename><forename type="middle">О</forename><surname>Подрыга</surname></persName>
		</author>
		<author>
			<persName><forename type="first">С</forename><forename type="middle">В</forename><surname>Поляков</surname></persName>
		</author>
		<author>
			<persName><forename type="first">Д</forename><surname>Пузырьков</surname></persName>
		</author>
		<imprint>
			<date type="published" when="2015">2015</date>
			<biblScope unit="volume">16</biblScope>
			<biblScope unit="page" from="123" to="138" />
		</imprint>
	</monogr>
</biblStruct>

<biblStruct xml:id="b9">
	<analytic>
		<title level="a" type="main">A synthetic benchmark</title>
		<author>
			<persName><forename type="first">H</forename><forename type="middle">J</forename><surname>Curnow</surname></persName>
		</author>
		<author>
			<persName><forename type="first">B</forename><forename type="middle">A</forename><surname>Wichmann</surname></persName>
		</author>
	</analytic>
	<monogr>
		<title level="j">Computer Journal</title>
		<imprint>
			<biblScope unit="volume">19</biblScope>
			<biblScope unit="issue">1</biblScope>
			<biblScope unit="page" from="43" to="49" />
			<date type="published" when="1976">1976</date>
		</imprint>
	</monogr>
</biblStruct>

<biblStruct xml:id="b10">
	<monogr>
		<author>
			<persName><forename type="first">Д</forename><surname>Козлов-Кононов</surname></persName>
		</author>
		<ptr target="http://www.electronics.ru/journal/article/135(датаобращения:31.07." />
		<title level="m">Процессорные ядра семейства Cortex. Сочетание высокой производительности и низкого энергопотребления</title>
				<imprint>
			<date type="published" when="2010">2010. 2015</date>
			<biblScope unit="page" from="16" to="24" />
		</imprint>
	</monogr>
</biblStruct>

<biblStruct xml:id="b11">
	<monogr>
		<author>
			<persName><forename type="first">R</forename><surname>Garg</surname></persName>
		</author>
		<ptr target="http://www.anandtech.com/show/6971/exploring-the-floating-point-performance-of-modern-arm-processors" />
		<title level="m">Exploring the Floating Point Performance of Modern ARM Processors</title>
				<imprint>
			<date type="published" when="2015-06-14">14.06.2015</date>
		</imprint>
	</monogr>
</biblStruct>

<biblStruct xml:id="b12">
	<monogr>
		<author>
			<persName><forename type="first">R</forename><surname>Garg</surname></persName>
		</author>
		<ptr target="https://play.google.com/store/apps/details?id=org.codedivine.rgbench&amp;hl=en" />
		<title level="m">RgbenchMM -Android Apps on Google Play</title>
				<imprint>
			<date type="published" when="2015-06-14">14.06.2015</date>
		</imprint>
	</monogr>
</biblStruct>

<biblStruct xml:id="b13">
	<monogr>
		<ptr target="//RussianSCDays.org" />
		<title level="m">Суперкомпьютерные дни в России 2015 // Russian Supercomputing Days 2015</title>
				<imprint/>
	</monogr>
</biblStruct>

<biblStruct xml:id="b14">
	<monogr>
		<author>
			<persName><forename type="first">R</forename><surname>Garg</surname></persName>
		</author>
		<ptr target="http://codedivine.org/2012/09/25/prelim-analysis-rgbenchmm/(датаобращения:14.06.2015" />
		<title level="m">Prelim analysis of RgbenchMM</title>
				<imprint/>
	</monogr>
</biblStruct>

<biblStruct xml:id="b15">
	<monogr>
		<ptr target="http://www.swedroid.se/(датаобращения:14.06.2015" />
		<title level="m">Swedroid -Nordens största Android-community</title>
				<imprint/>
	</monogr>
</biblStruct>

<biblStruct xml:id="b16">
	<monogr>
		<author>
			<persName><forename type="first">Г</forename><forename type="middle">С</forename><surname>Смирнов</surname></persName>
		</author>
		<author>
			<persName><forename type="first">В</forename><surname>Стегайлов</surname></persName>
		</author>
		<title level="m">Эффективность алгоритмов классической молекулярной динамики на суперкомпьютерном аппаратном обеспечении // Математическое моделирование</title>
				<imprint/>
	</monogr>
	<note>в печати</note>
</biblStruct>

<biblStruct xml:id="b17">
	<monogr>
		<ptr target="обращения:14.06" />
		<title level="m">One-processor timings on the Lennard-Jones liquid benchmark</title>
				<imprint>
			<date type="published" when="2015">2015</date>
		</imprint>
	</monogr>
</biblStruct>

<biblStruct xml:id="b18">
	<monogr>
		<ptr target="обращения:14." />
		<title level="m">Supermicro -Ivy Bridge Based DCO SuperServer Power &amp; Cost Savings</title>
				<imprint>
			<date type="published" when="2015-06">06.2015</date>
		</imprint>
	</monogr>
</biblStruct>

<biblStruct xml:id="b19">
	<monogr>
		<ptr target="обращения:14." />
		<title level="m">Intel Xeon E5-2600 V3 Review: Haswell-EP Redefines Fast</title>
				<imprint>
			<date type="published" when="2015-06">06.2015</date>
		</imprint>
	</monogr>
</biblStruct>

<biblStruct xml:id="b20">
	<analytic>
		<title level="a" type="main">Explorations of the viability of ARM and Xeon Phi for physics processing</title>
		<author>
			<persName><forename type="first">D</forename><surname>Abdurachmanov</surname></persName>
		</author>
		<ptr target="//RussianSCDays.org" />
	</analytic>
	<monogr>
		<title level="m">Суперкомпьютерные дни в России 2015 // Russian Supercomputing Days 2015</title>
				<imprint>
			<date type="published" when="2014">2014</date>
			<biblScope unit="volume">513</biblScope>
			<biblScope unit="page">52008</biblScope>
		</imprint>
	</monogr>
</biblStruct>

				</listBibl>
			</div>
		</back>
	</text>
</TEI>
