<?xml version="1.0" encoding="UTF-8"?>
<TEI xml:space="preserve" xmlns="http://www.tei-c.org/ns/1.0" 
xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" 
xsi:schemaLocation="http://www.tei-c.org/ns/1.0 https://raw.githubusercontent.com/kermitt2/grobid/master/grobid-home/schemas/xsd/Grobid.xsd"
 xmlns:xlink="http://www.w3.org/1999/xlink">
	<teiHeader xml:lang="ru">
		<fileDesc>
			<titleStmt>
				<title level="a" type="main">Эффективность реализации итерационных методов решения эллиптических уравнений в моделях общей циркуляции атмосферы на массивно-параллельных вычислительных системах *</title>
			</titleStmt>
			<publicationStmt>
				<publisher/>
				<availability status="unknown"><licence/></availability>
			</publicationStmt>
			<sourceDesc>
				<biblStruct>
					<analytic>
						<author>
							<persName><forename type="first">Е</forename><forename type="middle">В</forename><surname>Мортиков</surname></persName>
						</author>
						<title level="a" type="main">Эффективность реализации итерационных методов решения эллиптических уравнений в моделях общей циркуляции атмосферы на массивно-параллельных вычислительных системах *</title>
					</analytic>
					<monogr>
						<imprint>
							<date/>
						</imprint>
					</monogr>
					<idno type="MD5">946E05941CA68F551365E454A4208B15</idno>
				</biblStruct>
			</sourceDesc>
		</fileDesc>
		<encodingDesc>
			<appInfo>
				<application version="0.7.2" ident="GROBID" when="2023-03-24T04:04+0000">
					<desc>GROBID - A machine learning software for extracting information from scholarly documents</desc>
					<ref target="https://github.com/kermitt2/grobid"/>
				</application>
			</appInfo>
		</encodingDesc>
		<profileDesc>
			<abstract>
<div xmlns="http://www.tei-c.org/ns/1.0"><p>Научно-исследовательский вычислительный центр МГУ имени М.В. Ломоносова В работе изучается возможность эффективной программной реализации отдельных компонент модели общей циркуляции атмосферы на современных массивно-параллельных вычислительных архитектурах. Основное внимание уделяется методам решения эллиптических уравнений, возникающих при использовании полунеявных схем аппроксимации уравнений гидротермодинамики по времени. Результаты представлены для вычислительных архитектур на основе процессоров Intel Xeon Phi и графических процессоров Nvidia.</p><p>* Работа выполнена в рамках Программы № 43 фундаментальных исследований Президиума РАН.</p></div>
			</abstract>
		</profileDesc>
	</teiHeader>
	<text xml:lang="ru">
		<body>
<div xmlns="http://www.tei-c.org/ns/1.0"><head n="1.">Введение</head><p>Развитие климатических моделей на сегодняшний день связано как с уточнением используемых физических параметризаций, так и с повышением пространственного разрешения при фиксированных методах аппроксимации уравнений гидротермодинамики. Численные эксперименты <ref type="bibr" target="#b10">[9,</ref><ref type="bibr" target="#b15">14]</ref> показывают, что увеличение горизонтального разрешения до 0.25 градуса в моделях атмосферы и 0.1 градуса для моделей Мирового океана позволяет существенно повысить точность моделируемых характеристик крупномасштабных циркуляций. При этом динамика морского льда, процессы перемешивания в океане, мелкомасштабная динамика атмосферы чувствительны к горизонтальному разрешению моделей Земной системы. Увеличение вертикального разрешения в моделях также значимо для климатических исследований. В частности, эксперименты <ref type="bibr" target="#b4">[3]</ref> с моделью общей циркуляции атмосферы Института вычислительной математики РАН с 80 расчетными уровнями по вертикали позволили воспроизвести квазидвухлетние колебания зонального ветра в экваториальной стратосфере близкие к наблюдаемым. По этим причинам воспроизведение климата при высоком пространственно-временном разрешении представляет значительный интерес (например, можно отметить планируемую программу сравнения моделей высокого разрешения HighResMIP в рамках CMPI6 -Climate Model Intercomparison Project).</p><p>Численное моделирование климата Земли относится к задачам наиболее требовательным к вычислительным ресурсам. Возможность проведения экспериментов с высоким пространственным разрешением напрямую связана с эффективностью программной реализации климатической модели на современных параллельных вычислительных системах. Особый интерес представляет возможность ускорения расчетов за счет переноса вычислений на архитектуру перспективных сопроцессоров -графических карт и процессоров Intel Xeon Phi <ref type="bibr" target="#b12">[11,</ref><ref type="bibr" target="#b14">13]</ref>.</p><p>Важное направление исследований связано с изучением способов переноса расчета динамики крупномасштабных моделей на архитектуру ускорителей. В этой связи можно отметить и работы <ref type="bibr" target="#b5">[4,</ref><ref type="bibr" target="#b18">17]</ref>, в которых показана возможность ускорения до 30-50 раз и масштабируемость по сопроцессорам вычислительных методов решения гидродинамических задач -системы уравнений Навье-Стокса или осредненных уравнений, дополненных турбулентным замыканием. В статье <ref type="bibr" target="#b8">[7]</ref> приведены схожие оценки ускорения для численного метода решения баротропного уравнения вихря. Перенос блока динамики негидростатической модели атмосферы на архитектуру графических процессоров в работе <ref type="bibr" target="#b17">[16]</ref> позволил уменьшить время счета до 80 раз за счет высокой оптимизации операций на сопроцессорах. Реализация динамической части гидростатической модели HILRAM (High Resolution Limited Area Model) на сопроцессорах для ускорения вычислений до 55 раз (относительно одного ядра центрального процессора) <ref type="bibr" target="#b20">[19]</ref> потребовала разработки специализированных алгоритмов перекрытия вычислений с пересылкой данных между центральным процессором и графическим устройством. Высокая производительность в приведенных работах достигается за счет трудоемкой оптимизации -применение автоматических подходов к генерации программного кода, исполняемого на графических процессорах, снижает быстродействие алгоритмов в несколько раз <ref type="bibr" target="#b11">[10]</ref>.</p><p>Основной задачей на сегодняшний день применительно к климатическим исследованиями представляется разработка алгоритмов, обладающих высокой масштабируемостью на вычислительных кластерах, состоящих из сопроцессоров. В частности, несмотря на высокую производительность расчетов на одной видеокарте, программная реализация, предложенная в статье <ref type="bibr" target="#b20">[19]</ref> масштабируется на 4 процессорах с ускорением в 2.7 раза при достаточно большой размерности вычислительной сетки (более чем 6×10 7 узлов).</p><p>В настоящей работе эффективность переноса вычислений на архитектуру сопроцессоров рассматривается на основе компонентов модели обшей циркуляции атмосферы Института вычислительной математики РАН <ref type="bibr" target="#b2">[2]</ref>. Модель атмосферы основана на решении системы нелинейных уравнений гидротермодинамики на сфере с использованием  -координаты. Для численной аппроксимации рассматривается дискретизация уравнений по горизонтали на сдвинутой С-сетки <ref type="bibr" target="#b7">[6]</ref>, регулярной по долготе и широте. Разностная схема имеет второй порядок точности, а для интегрирования по времени используется полунеявный метод, основанный на выделении линейных членов, связанных с распространением гравитационных волн. Применение полунеявного подхода позволяет значительно ослабить ограничение на шаг по времени по сравнению с явной схемой, однако приводит к необходимости решения эллиптического уравнения на каждом шаге по времени. Численный метод нахождения решения данного уравнения является наиболее трудоемким компонентом расчета динамики атмосферы и, как правило, ограничивает масштабируемость модели на параллельных вычислительных системах <ref type="bibr" target="#b6">[5]</ref>.</p></div>
<div xmlns="http://www.tei-c.org/ns/1.0"><head n="2.">Численный метод решения эллиптического уравнения в модели общей циркуляции атмосферы</head><p>Система уравнений для основных переменных (скорости, температуры и давления) в модели атмосферы можно свести к эллиптическому уравнению следующего вида: </p><formula xml:id="formula_0">  2 11 RHS 22 tt h tt d t B d         ,<label>(1) где</label></formula><formula xml:id="formula_1">( ) ( ) 2 ( ) ( ) tt t t t t t t             , t  -шаг по времени, h  -дискретный оператор Лапласа, d -горизонтальная дивергенция, B -матрица,</formula><formula xml:id="formula_2">L mN  : 2 h u cu g    ,   2 1 0 m c t    , (<label>2</label></formula><formula xml:id="formula_3">) где 1 ( , ) 2 tt u u d     , 1 ( , ) ( ) g g cS RHS S      и m  -собственные значения матрицы B .</formula><p>Предобусловленный метод сопряженных градиентов применяется для решения системы (2). В качестве предобусловливателя предлагается использовать геометрический многосеточный метод с так называемым V-циклом. Для сглаживания высокочастотной компоненты ошибки приближения на исходной и огрубленных сетках используется симметричный метод Гаусса-Зейделя для красно-черного упорядочивания узлов сетки. Основной проблемой изложенного подхода для рассматриваемой задачи (2) является сильная анизотропия вычислительной сетки вблизи полюсов и усиление данного эффекта при переходе к огрубленной как по долготе, так и по широте сетке <ref type="bibr" target="#b19">[18]</ref>. В настоящей реализации многосеточного метода используется следующий подход <ref type="bibr" target="#b9">[8]</ref> к построению последовательности сеток -увеличение шага вдоль кругов широты в сочетании с условным огрублением вдоль меридианов вблизи экватора. Ширина огрубления вдоль меридианов при этом увеличивается при переходе на наиболее грубые сетки и оценивается по величине внедиагональных элементов матрицы. Процедура построения последовательности сеток в этом случае усложняется. Тем не менее поскольку сетка фиксирована то дополнительные вычислительные затраты приходятся только на этап инициализации расчетов. В данном случае оправдано применение точечного симметричного метода Гаусса-Зейделя при красно-черном упорядочивании узлов сетки. Данный подход представляется наиболее эффективным для реализации на параллельных архитектурах, в отличие от альтернативы «разрешения» анизотропии в многосеточном методе при дискретизации на сфере -применения линейных итерационных методов, предполагающих обращение трехдиагональных систем <ref type="bibr" target="#b19">[18]</ref>. Для повышения масштабируемости численного метода системы (2) решаются совместно для всех уровней предобусловленным методом сопряженных градиентов. При этом по достижении сходимости на некотором уровне он исключается из расчета. В ходе работы алгоритма последовательно исключаются нижние уровни за счет монотонного уменьшения диагональных коэффициентов (и, как следствие, увеличения числа итераций). В итоге алгоритм сводится к выполнению операций для «двумерных» данных только на самом верхнем уровне. Данная методика позволяет объединить малые, как правило, неэффективные обмены данных между параллельными процессами для всех задействованных на текущем этапе уровней, а вместе с тем уменьшить накладные расходы, связанные с инициализацией большого числа коротких сообщений. Более того, алгоритм позволяет объединить и коллективные операции взаимодействия для расчета скалярных произведений. Предложенный подход позволяет значительно повысить масштабируемость на параллельных архитектурах и сохраняет арифметическую сложность алгоритма.</p><p>Дальнейшая модификация многосеточного метода состоит в разделении уровней по блокам в каждом из которых вычисления объединяются по вертикали. Ускорение сходимости итерационных методов на верхних уровнях приводит к тому, что сохранение фиксированной длины последовательности вложенных сеток для всех уровней в многосеточном методе является избыточным. Разделение вычислений на независимые блоки и последовательное уменьшение числа грубых сеток по вертикали позволяет использовать указанное свойство для уменьшения общего времени счета и числа обменов данными между параллельными процессами. Размерность блоков можно оценить по величине диагональных компонент, что обеспечивает близость числа итераций достаточных для сходимости.</p></div>
<div xmlns="http://www.tei-c.org/ns/1.0"><head n="3.">Программная реализация итерационного метода на массивнопараллельных вычислительных системах</head><p>Программная реализация на графических картах предполагает наличие двух уровней параллелизма в программе: распределение данных между отдельными графическими процессорами и внутренний параллелизм отдельных устройств. Библиотека MPI используется для организации обменов данными между устройствами, а для организации вычислений на графических процессорах применяется технология программирования CUDA <ref type="bibr" target="#b0">[1]</ref>.</p><p>На каждом шаге интегрирования по времени правая часть системы, расположенная в памяти центрального процессора, группируется и копируются в память графического устройства. Итерационный метод, реализованный на графической карте, используется для нахождения решения эллиптического уравнения. По достижении сходимости итерационного метода вектор решения, расположенный в памяти сопроцессора, копируется в основную память центрального процессора для продолжения расчета основной динамики. Блочная структура по вертикали итерационного метода позволяет выполнять дополнительные медленные обмены данными между центральным процессором и графической картой асинхронно с расчетами.</p><p>Для оценки эффективности реализации итерационного метода на графических процессорах были проведены вычислительные эксперименты на системе Суперкомпьютерного центра МГУ «Ломоносов». На рисунке 1 приведено ускорение расчета на графической карте относительно четырех ядер центрального процессора при горизонтальном разрешении в 1 градус и 128 уровнях при изменении размерности вертикальных блоков. Влияние перекрытия обменов данными между центральным и графическим процессором и вычислениями показано на рисунке пунктирной линией. Ускорение после начального этапа практически постоянно и незначительно увеличивается с числом уровней в блоке, что характерно для реализации многосеточного метода на графических процессорах в связи с последовательным уменьшением размерности задачи при огрублении сетки. На рисунке 2 показана масштабируемость реализации итерационного метода на графических процессорах при горизонтальном разрешении в 1 градус для фиксированного вертикального блока, содержащего 32 уровня. </p></div>
<div xmlns="http://www.tei-c.org/ns/1.0"><head n="4.">Заключение</head><p>В работе рассмотрена реализация итерационного метода решения эллиптического уравнения, возникающего за счет применения полунеявных схем аппроксимации уравнений термогидродинамики по времени в моделях общей циркуляции атмосферы, на массивнопараллельных вычислительных системах. Полученные оценки показывают, что для задач относительно большой пространственной размерности перенос вычислений на архитектуру ускорителей является предпочтительным и позволяет уменьшить время расчета. Решение климатических задач даже при высоком горизонтальном разрешении до 0.25 градуса, где время интегрирования системы по времени и масштабируемость модели являются основными параметрами, требует дальнейшей модификации численных методов и алгоритмов. Необходима разработка итерационных методов, в большей степени учитывающих особенности архитектуры массивно-параллельных систем и обеспечивающих оптимальную вычислительную сложность <ref type="bibr" target="#b13">[12,</ref><ref type="bibr" target="#b21">20]</ref>. Эффективное использование возможностей как графических карт, так и процессоров Intel Xeon Phi предполагает реализацию всех элементов модели атмосферы на данных устройствах. В этой связи более предпочтительными представляются перспективные системы, использующие многоядерную архитектуру на основе процессоров Intel Xeon Phi в качестве базового вычислительного элемента.</p></div>
<div xmlns="http://www.tei-c.org/ns/1.0"><head>Литература</head><p>The efficiency of the implementation of iterative methods for the solution of elliptic equations in atmospheric general circulation models on massively parallel systems</p></div>
<div xmlns="http://www.tei-c.org/ns/1.0"><head>Evgeny Mortikov</head><p>Keywords: atmospheric general circulation model, massively parallel systems, Intel Xeon Phi, Nvidia GPU In this paper we study the possibility of the efficient implementation of atmospheric general circulation model and its particular components on modern massively parallel architectures. Main emphasis is placed on methods for solving elliptic equations, arising from applying semi-implicit in time approximations in thermo-hydrodynamic equations. Results are presented for computational architectures based on Intel Xeon Phi processors, as well as Nvidia graphic cards.</p></div><figure xmlns="http://www.tei-c.org/ns/1.0" xml:id="fig_0"><head>Рис. 1 .</head><label>1</label><figDesc>Ускорение итерационного метода решения эллиптического уравнения на графическом процессоре относительно 4-х ядер центрального процессора.</figDesc></figure>
<figure xmlns="http://www.tei-c.org/ns/1.0" xml:id="fig_1"><head>Рис. 2 .</head><label>2</label><figDesc>Масштабируемость реализации итерационного метода на графических процессорах. Полученные оценки свидетельствуют о том, что для итерационного метода решения эллиптического уравнения, выполнение вычислений на архитектуре графических процессоров позволяет ускорить расчеты. За счет разделения переменных, и, как следствие, независимости систем уравнений на различных вертикальных уровнях удается перекрыть дополнительные «медленные» операции пересылки данных между центральным процессором и сопроцессором с нахождением решения дискретного двумерного эллиптического уравнения. Вместе с тем приведенная масштабируемость алгоритма представляется недостаточной и требует дальнейшей оптимизации обменов между сопроцессорами и их перекрытия с вычислениями. В качестве архитектуры на основе процессоров Intel Xeon Phi, рассматривалась вычислительная система МВС-10П МП на базе модулей RSC Petastream. Программная реализация итерационного метода использует библиотеку MPI для организации обменов данными между устройствами и технологию OpenMP для распределения вычислений между ядрами (нитями) одной карты. К достоинствам вычислительной архитектуры можно отнести то, что реализация обменов данными между устройствами не требует «явного» копирования данных, а скорость передачи сообщений сопоставима с традиционной архитектурой [15]. Однако эффективное выполнение вычислений на Intel Xeon Phi требует тщательной оптимизации, и в частности возможности задействовать до 244 нитей одного устройства. На рисунке 3 показана масштабируемость многосеточного метода по числу ядер (4 нити на каждое ядро) одного процессора Intel Xeon Phi при различной размерности сетки. Для достижения производительности сопоставимой с 2-мя процессорами Intel Xeon E5-2690 размерность задачи на одной карте Intel Xeon Phi 7120D должна превышать 10 6 узлов. Рис. 3. Масштабируемость реализации итерационного метода на процессоре Intel Xeon Phi 7120D.</figDesc></figure>
<figure xmlns="http://www.tei-c.org/ns/1.0"><head></head><label></label><figDesc></figDesc><graphic coords="6,134.37,70.90,326.55,249.36" type="bitmap" /></figure>
			<note xmlns="http://www.tei-c.org/ns/1.0" place="foot" xml:id="foot_0">Суперкомпьютерные дни в России 2015 // Russian Supercomputing Days 2015 // RussianSCDays.org</note>
		</body>
		<back>
			<div type="references">

				<listBibl>

<biblStruct xml:id="b0">
	<monogr>
		<author>
			<persName><forename type="first">А</forename><forename type="middle">В</forename><surname>Боресков</surname></persName>
		</author>
		<author>
			<persName><forename type="first">А</forename><forename type="middle">А</forename><surname>Харламов</surname></persName>
		</author>
		<author>
			<persName><forename type="first">Н</forename><surname>Марковский</surname></persName>
		</author>
		<title level="m">Фролов В.А. Параллельные вычисления на GPU. Архитектура и программная модель CUDA: учебное пособие. М</title>
				<editor>
			<persName><forename type="first">А</forename><forename type="middle">А</forename><surname>Мыльцев</surname></persName>
		</editor>
		<editor>
			<persName><forename type="first">Н</forename><surname>Сахарных</surname></persName>
		</editor>
		<imprint>
			<publisher>Изд-во Московского университета</publisher>
			<date type="published" when="2012">2012</date>
		</imprint>
	</monogr>
</biblStruct>

<biblStruct xml:id="b1">
	<monogr>
		<title/>
		<author>
			<persName><forename type="first">C</forename></persName>
		</author>
		<imprint/>
	</monogr>
</biblStruct>

<biblStruct xml:id="b2">
	<monogr>
		<author>
			<persName><forename type="first">В</forename><forename type="middle">П</forename><surname>Дымников</surname></persName>
		</author>
		<author>
			<persName><forename type="first">В</forename><forename type="middle">Н</forename><surname>Лыкосов</surname></persName>
		</author>
		<author>
			<persName><forename type="first">Е</forename><forename type="middle">М</forename><surname>Володин</surname></persName>
		</author>
		<author>
			<persName><forename type="first">В</forename><surname>Галин</surname></persName>
		</author>
		<title level="m">Современные проблемы вычислительной математики и математического моделирования» М</title>
				<editor>
			<persName><forename type="first">М</forename><forename type="middle">А</forename><surname>Толстых</surname></persName>
		</editor>
		<editor>
			<persName><forename type="first">А</forename><surname>Чавро</surname></persName>
		</editor>
		<imprint>
			<publisher>Наука</publisher>
			<date type="published" when="2005">2005</date>
			<biblScope unit="page" from="38" to="175" />
		</imprint>
	</monogr>
	<note>Моделирование климата и его изменений</note>
</biblStruct>

<biblStruct xml:id="b3">
	<monogr>
		<ptr target="//RussianSCDays.org" />
		<title level="m">Суперкомпьютерные дни в России 2015 // Russian Supercomputing Days 2015</title>
				<imprint/>
	</monogr>
</biblStruct>

<biblStruct xml:id="b4">
	<analytic>
		<title level="a" type="main">Моделирование квазидвухлетних колебаний зонального ветра в экваториальной стратосфере // Известия РАН</title>
		<author>
			<persName><forename type="first">Д</forename><forename type="middle">В</forename><surname>Кулямин</surname></persName>
		</author>
		<author>
			<persName><forename type="first">Е</forename><forename type="middle">М</forename><surname>Володин</surname></persName>
		</author>
		<author>
			<persName><forename type="first">В</forename><surname>Дымников</surname></persName>
		</author>
	</analytic>
	<monogr>
		<title level="m">Физика атмосферы и океана</title>
				<imprint>
			<date type="published" when="2009">2009</date>
			<biblScope unit="page" from="43" to="61" />
		</imprint>
	</monogr>
</biblStruct>

<biblStruct xml:id="b5">
	<monogr>
		<title level="m" type="main">Применение графических процессоров для численного моделирования течения вязкой несжимаемой жидкости в областях сложной конфигурации методом погруженной границы // Вычислительные методы и программирование</title>
		<author>
			<persName><forename type="first">Е</forename><surname>Мортиков</surname></persName>
		</author>
		<imprint>
			<date type="published" when="2012">2012</date>
			<biblScope unit="volume">13</biblScope>
			<biblScope unit="page" from="177" to="191" />
		</imprint>
	</monogr>
</biblStruct>

<biblStruct xml:id="b6">
	<analytic>
		<title level="a" type="main">Повышение масштабируемости программного комплекса модели Земной системы высокого пространственного разрешения // Параллельные вычислительные технологии (ПаВТ&apos;</title>
		<author>
			<persName><forename type="first">Е</forename><surname>Мортиков</surname></persName>
		</author>
	</analytic>
	<monogr>
		<title level="j">труды международной научной конференции</title>
		<imprint>
			<biblScope unit="page" from="431" to="435" />
			<date type="published" when="2015">2015</date>
		</imprint>
	</monogr>
</biblStruct>

<biblStruct xml:id="b7">
	<analytic>
		<title level="a" type="main">Computational design of the basic dynamical processes of the UCLA general circulation model</title>
		<author>
			<persName><forename type="first">A</forename><surname>Arakawa</surname></persName>
		</author>
		<author>
			<persName><forename type="first">V</forename><forename type="middle">R</forename><surname>Lamb</surname></persName>
		</author>
	</analytic>
	<monogr>
		<title level="j">Methods Comput. Phys</title>
		<imprint>
			<biblScope unit="volume">17</biblScope>
			<biblScope unit="page" from="173" to="265" />
			<date type="published" when="1977">1977</date>
		</imprint>
	</monogr>
</biblStruct>

<biblStruct xml:id="b8">
	<monogr>
		<title level="m" type="main">Accelerating a barotropic ocean model using a GPU // Ocean Modelling</title>
		<author>
			<persName><forename type="first">F</forename><surname>Bleichrodt</surname></persName>
		</author>
		<author>
			<persName><forename type="first">R</forename><forename type="middle">H</forename><surname>Bisseling</surname></persName>
		</author>
		<author>
			<persName><forename type="first">H</forename><forename type="middle">A</forename><surname>Dijkstra</surname></persName>
		</author>
		<imprint>
			<date type="published" when="2012">2012</date>
			<biblScope unit="volume">41</biblScope>
			<biblScope unit="page" from="16" to="21" />
		</imprint>
	</monogr>
</biblStruct>

<biblStruct xml:id="b9">
	<monogr>
		<title level="m" type="main">Parallel geometric multigrid for global weather prediction // Numerical Linear Algebra with Applications</title>
		<author>
			<persName><forename type="first">S</forename><surname>Buckeridge</surname></persName>
		</author>
		<author>
			<persName><forename type="first">R</forename><surname>Scheichl</surname></persName>
		</author>
		<imprint>
			<date type="published" when="2010">2010</date>
			<biblScope unit="volume">17</biblScope>
			<biblScope unit="page" from="325" to="342" />
		</imprint>
	</monogr>
</biblStruct>

<biblStruct xml:id="b10">
	<analytic>
		<title level="a" type="main">The role of horizontal resolution in simulating drivers of the global hydrological cycle</title>
		<author>
			<persName><forename type="first">M.-E</forename><surname>Demory</surname></persName>
		</author>
		<author>
			<persName><forename type="first">P</forename><forename type="middle">L</forename><surname>Vidale</surname></persName>
		</author>
		<author>
			<persName><forename type="first">M</forename><forename type="middle">J</forename><surname>Roberts</surname></persName>
		</author>
		<author>
			<persName><forename type="first">P</forename><surname>Berrisford</surname></persName>
		</author>
		<author>
			<persName><forename type="first">J</forename><surname>Strachan</surname></persName>
		</author>
		<author>
			<persName><forename type="first">R</forename><surname>Schiemann</surname></persName>
		</author>
		<author>
			<persName><forename type="first">M</forename><forename type="middle">S</forename><surname>Mizielinski</surname></persName>
		</author>
	</analytic>
	<monogr>
		<title level="j">Clim. Dyn</title>
		<imprint>
			<biblScope unit="volume">42</biblScope>
			<biblScope unit="page" from="2201" to="2225" />
			<date type="published" when="2014">2014</date>
		</imprint>
	</monogr>
</biblStruct>

<biblStruct xml:id="b11">
	<analytic>
		<title level="a" type="main">Using GPUs for weather and climate models</title>
		<author>
			<persName><forename type="first">M</forename><surname>Govett</surname></persName>
		</author>
	</analytic>
	<monogr>
		<title level="m">Earth System Prediction Capability (ESPC) Workshop</title>
				<meeting><address><addrLine>New Orleans, USA</addrLine></address></meeting>
		<imprint>
			<date type="published" when="2010">2010</date>
		</imprint>
	</monogr>
</biblStruct>

<biblStruct xml:id="b12">
	<analytic>
		<title level="a" type="main">GPU computing for atmospheric modeling</title>
		<author>
			<persName><forename type="first">R</forename><surname>Kelly</surname></persName>
		</author>
	</analytic>
	<monogr>
		<title level="j">Comp. Sci. Eng</title>
		<imprint>
			<biblScope unit="volume">12</biblScope>
			<biblScope unit="issue">4</biblScope>
			<biblScope unit="page" from="26" to="33" />
			<date type="published" when="2010">2010</date>
		</imprint>
	</monogr>
</biblStruct>

<biblStruct xml:id="b13">
	<analytic>
		<title level="a" type="main">GPU-accelerated preconditioned iterative linear solvers</title>
		<author>
			<persName><forename type="first">R</forename><surname>Li</surname></persName>
		</author>
		<author>
			<persName><forename type="first">Y</forename><surname>Saad</surname></persName>
		</author>
	</analytic>
	<monogr>
		<title level="j">Journal of Supercomputing</title>
		<imprint>
			<biblScope unit="volume">63</biblScope>
			<biblScope unit="issue">2</biblScope>
			<biblScope unit="page" from="443" to="466" />
			<date type="published" when="2013">2013</date>
		</imprint>
	</monogr>
</biblStruct>

<biblStruct xml:id="b14">
	<monogr>
		<title level="m" type="main">GPU acceleration of numerical weather prediction // Parallel Processing Letters</title>
		<author>
			<persName><forename type="first">J</forename><surname>Michalakes</surname></persName>
		</author>
		<author>
			<persName><forename type="first">M</forename><surname>Vachharajani</surname></persName>
		</author>
		<imprint>
			<date type="published" when="2008">2008</date>
			<biblScope unit="volume">18</biblScope>
			<biblScope unit="page" from="531" to="548" />
		</imprint>
	</monogr>
</biblStruct>

<biblStruct xml:id="b15">
	<analytic>
		<title level="a" type="main">Impact of resolution on the Tropical Pacific Circulation in a matrix of coupled modes</title>
		<author>
			<persName><forename type="first">M</forename><forename type="middle">J</forename><surname>Roberts</surname></persName>
		</author>
		<author>
			<persName><forename type="first">A</forename><surname>Clayton</surname></persName>
		</author>
		<author>
			<persName><forename type="first">M.-E</forename><surname>Demory</surname></persName>
		</author>
	</analytic>
	<monogr>
		<title level="j">J. Climate</title>
		<imprint>
			<biblScope unit="volume">22</biblScope>
			<biblScope unit="page" from="2541" to="2556" />
			<date type="published" when="2009">2009</date>
		</imprint>
	</monogr>
</biblStruct>

<biblStruct xml:id="b16">
	<analytic>
		<title level="a" type="main">The performance characterization of the RSC PetaStream Module</title>
		<author>
			<persName><forename type="first">A</forename><surname>Semin</surname></persName>
		</author>
		<author>
			<persName><forename type="first">E</forename><surname>Druzhinin</surname></persName>
		</author>
		<author>
			<persName><forename type="first">V</forename><surname>Mironov</surname></persName>
		</author>
		<author>
			<persName><forename type="first">A</forename><surname>Shmelev</surname></persName>
		</author>
		<author>
			<persName><forename type="first">A</forename><surname>Moskovsky</surname></persName>
		</author>
	</analytic>
	<monogr>
		<title level="m">Proc. of the 29 th Supercomputing Int. Conf., ISC 2014</title>
				<meeting>of the 29 th Supercomputing Int. Conf., ISC 2014</meeting>
		<imprint>
			<date type="published" when="2014">2014</date>
			<biblScope unit="page" from="420" to="429" />
		</imprint>
	</monogr>
</biblStruct>

<biblStruct xml:id="b17">
	<analytic>
		<title level="a" type="main">GPU acceleration of meso-scale atmospheric model ASUCA</title>
		<author>
			<persName><forename type="first">T</forename><surname>Shimokawabe</surname></persName>
		</author>
		<author>
			<persName><forename type="first">T</forename><surname>Aoki</surname></persName>
		</author>
		<author>
			<persName><forename type="first">J</forename><surname>Ishida</surname></persName>
		</author>
	</analytic>
	<monogr>
		<title level="m">Proc. of the 9 th World Congress on Comp. Mech. and 4 th Asian Pacific Congress on Comp. Mech. (WCCM/APCOM</title>
				<meeting>of the 9 th World Congress on Comp. Mech. and 4 th Asian Pacific Congress on Comp. Mech. (WCCM/APCOM</meeting>
		<imprint>
			<date type="published" when="2010">2010. 2010</date>
		</imprint>
	</monogr>
</biblStruct>

<biblStruct xml:id="b18">
	<analytic>
		<title level="a" type="main">CUDA implementation of a Navier-Stokes Solver on multi-GPU desktop platforms for incompressible flows</title>
		<author>
			<persName><forename type="first">J</forename><forename type="middle">C</forename><surname>Thibault</surname></persName>
		</author>
		<author>
			<persName><forename type="first">I</forename><surname>Senocak</surname></persName>
		</author>
	</analytic>
	<monogr>
		<title level="m">47 th AIAA Aerospace Sciences Meeting</title>
				<imprint>
			<date type="published" when="2009">2009</date>
		</imprint>
	</monogr>
</biblStruct>

<biblStruct xml:id="b19">
	<monogr>
		<title level="m" type="main">Multigrid</title>
		<author>
			<persName><forename type="first">U</forename><surname>Trottenberg</surname></persName>
		</author>
		<author>
			<persName><forename type="first">C</forename><forename type="middle">W</forename><surname>Oosterlee</surname></persName>
		</author>
		<author>
			<persName><forename type="first">A</forename><surname>Schüller</surname></persName>
		</author>
		<imprint>
			<date type="published" when="2001">2001</date>
			<publisher>Academic Press</publisher>
			<biblScope unit="page">631</biblScope>
			<pubPlace>London</pubPlace>
		</imprint>
	</monogr>
</biblStruct>

<biblStruct xml:id="b20">
	<monogr>
		<title level="m" type="main">Graphics processing unit optimizations for the dynamics of the HIRLAM weather forecast model // Concurrency and Computation: Practice and Experience</title>
		<author>
			<persName><forename type="first">V</forename><forename type="middle">T</forename><surname>Vu</surname></persName>
		</author>
		<author>
			<persName><forename type="first">G</forename><surname>Cats</surname></persName>
		</author>
		<author>
			<persName><forename type="first">L</forename><surname>Wolters</surname></persName>
		</author>
		<imprint>
			<date type="published" when="2013">2013</date>
			<biblScope unit="volume">25</biblScope>
			<biblScope unit="page" from="1376" to="1393" />
		</imprint>
	</monogr>
</biblStruct>

<biblStruct xml:id="b21">
	<analytic>
		<title level="a" type="main">Acceleration of the Jacobi iterative method by factors exceeding 100 using scheduled relaxation</title>
		<author>
			<persName><forename type="first">X</forename><surname>Yang</surname></persName>
		</author>
		<author>
			<persName><forename type="first">R</forename><surname>Mittal</surname></persName>
		</author>
		<ptr target="//RussianSCDays.org" />
	</analytic>
	<monogr>
		<title level="m">Суперкомпьютерные дни в России 2015 // Russian Supercomputing Days 2015</title>
				<imprint>
			<date type="published" when="2014">2014</date>
			<biblScope unit="page" from="695" to="708" />
		</imprint>
	</monogr>
</biblStruct>

				</listBibl>
			</div>
		</back>
	</text>
</TEI>
