=Paper=
{{Paper
|id=Vol-1662/opt2
|storemode=property
|title=Игры среднего поля первого порядка. Основные подходы(First order mean field games. Main directions)
|pdfUrl=https://ceur-ws.org/Vol-1662/opt2.pdf
|volume=Vol-1662
|authors=Yurii Averboukh
}}
==Игры среднего поля первого порядка. Основные подходы(First order mean field games. Main directions)==
Игры среднего поля первого порядка. Основные подходы Ю.В. Авербух ayv@imm.uran.ru ИММ УрО РАН (Екатеринбург) УрФУ (Екатеринбург) Аннотация Настоящий обзор представляет собой попытку дать описание ос- новных направлений и результатов игр среднего поля первого по- рядка для русскоязычного читателя. В настоящей работе отраже- ны основные теоретические результаты игр среднего поля первого порядка (т.е. игр среднего поля с динамикой, задаваемой обыкно- венным дифференциальным уравнением). Кроме того, рассмотрена модель энергетических сетей, формализуемая в рамках теории игр среднего поля первого порядка. 1 Введение Теория игр среднего поля – относительно молодая часть теории оптимального управления, начавшаяся с работ [31]–[34], [49]–[51]. Она ставит перед собой целью исследовать задачи управления для системы одно- типных взаимодействующих субъектов путем рассмотрения предельной ситуации – системы бесконечного числа взаимодействующих субъектов. Необходимость такого подхода вызвана экстремальной сложностью, возникающей при применении тра- диционных подходов (динамического программирования, методов, основанных на “народных” теоремах) к исследованию систем большого числа взаимодействующих субъектов, называемых также игроками. Систему взаимодействующих субъектов можно описывать в рамках теории динамических игр. Предпо- лагается, что изменение положения каждого игрока задается некоторой динамической системой. Обычно эта система описывается обыкновенным дифференциальным уравнением, стохастическим дифференци- альным уравнением или марковской цепью. На динамику влияет как положение игрока и выбранное им управляющее воздействие, так и положение остальных игроков. Каждый игрок стремится к максимиза- ции собственного выигрыша, который также зависит от траектории данного игрока, его управляющего воздействия и траектории всех игроков. Для широкого класса задач адекватным является определение решения в терминах равновесия по Нэшу – ситуации, когда изменение поведения одного игрока не ведет к увеличению его выигрыша. Напомним, что в рамках подхода, основанного на динамическом программировании, задача поиска рав- новесия по Нэшу сводится к решению системы уравнений в частных производных [54, 23]. Количество уравнений в системе равно количеству игроков. Это делает почти невозможным применение динамиче- ского программирования для анализа систем большого количества взаимодействующих объектов. Второй подход основан на стратегиях наказания и идейно восходит к “народным” теоремам в теории повторяющих- ся игр [38, 12]. Его применение в теории игр с непрерывным временем приводит к необходимости решать большое количество вспомогательных антагонистических игр. Эта задача является весьма трудоемкой. Copyright c by the paper’s authors. Copying permitted for private and academic purposes. In: A.A. Makhnev, S.F. Pravdin (eds.): Proceedings of the 47th International Youth School-conference “Modern Problems in Mathematics and its Applications”, Yekaterinburg, Russia, 02-Feb-2016, published at http://ceur-ws.org 42 Также стратегии, которые строятся в рамках этого подхода, основаны на угрозах, которые стоит признать неправдоподобными. Идея теории игр среднего поля состоит в том, чтобы рассмотреть систему бесконечного числа игроков. При этом влияние каждого игрока становится пренебрежимо малым, а значение имеет только масса иг- роков. В получившейся системе каждый игрок оптимизирует свое поведение в соответствие с движением всей массы игроков, при этом поведение массы игроков задается суммой поведения игроков. Отметим основные задачи, которые рассматриваются в теории игр среднего поля: • исследование существования и единственности решения игры среднего поля; при этом игра среднего поля формализуется в виде системы двух уравнений в частных производных или задачи управления для некоторой динамической системы; • построение приближенного равновесия в игре конечного числа лиц по заданному решению игры сред- него поля; • исследование сходимости равновесий в играх конечного числа лиц к решению игры среднего поля при стремлении числа игроков к бесконечности; • анализ конкретных прикладных задач при помощи методологии игр среднего поля. В настоящее время существует несколько подходов к определению и построению решения игры средне- го поля. Исторически первый подход основан на прямом анализе системы двух уравнений: первое уравне- ние – уравнение Беллмана, описывающее выигрыш игроков (игроки предполагаются однотипными), второе уравнение – уравнение Колмогорова, описывающее распределение игроков. Отметим, что краевое условие для уравнения Беллмана задается в последний момент времени, а для уравнения Колмогорова – в на- чальный. Этот подход был развит в работах J.-M. Lasry и P.-L. Lions [49]–[51], M. Huang, R.P. Malhamé и P. Caines (см. [31]–[34]). В этих работах преимущественно рассматривались системы, заданные стохастиче- скими дифференциальными уравнениями. В работах [51, 52] был рассмотрен случай динамики, задаваемой обыкновенным дифференциальным уравнением. Также здесь отметим работу [25], где рассмотрены игры среднего поля с динамикой каждого игрока, задаваемой марковской цепью с непрерывным временем и конечным числом состояний. Отметим также, что в рамках подхода, основанного на анализе системы дифференциальных уравнений, были изучены игры среднего поля с динамикой, задаваемой марковским процессом достаточно общего вида (см. [42, 39, 43]). К этому же подходу примыкает идея слабых решений для детерминированных игр среднего поля, предложенная в [13] (см. также [15, 29, 52]). В этом случае оба уравнения заменяются на специально построенные задачи оптимизации. Альтернативный подход к играм среднего поля называется вероятностным и связан с исследованием задачи управления для динамической системы, описываемой нелинейным марковским процессом. В этом случае динамика и интегральная часть выигрыша зависят от распределения игроков в текущий момент времени. Распределение игроков определяется по решению задачи оптимизации. Этот подход был развит для стохастических игр среднего поля в серии работ [16]–[19]. В частности, в рамках этого подхода были получены аналоги принципа максимума Понтрягина для игр среднего поля. Для детерминированных игр среднего поля вероятностный подход был развит в [28] (см. также [27]). Некоторым недостатком вероят- ностного подходя является зависимость определения решения от выбора сопутствующего вероятностного пространства. Этот недостаток пытается преодолеть минимаксный подход, в рамках которого задача поис- ка решения игры среднего поля сводится к решению игры бесконечного числа лиц; при этом этом динамика определяется распределением оптимальных траекторий. Игра среднего поля является предельным (“искусственным”) объектом. Поэтому необходимо исследо- вать вопрос о связи равновесия в игре конечного (но большого) числа игроков и решения игры среднего поля. Построение приближенных решений в играх конечного числа игроков рассматривалось для стохасти- ческих игр в работах [52, 43]. В этом случае строятся позиционные стратегии. Для детерминированных игр среднего поля приближенное равновесие по Нэшу рассматривалось в классе программных стратегий [4, 13]. Предел решений игр многих лиц при стремлении числа игроков к бесконечности как решение игры среднего поля исследовался в работах [22, 46]. Было показано, что если в игре N лиц с однотипными игро- ками и динамикой каждого игрока, определяемой положением игрока, его управлением и симметричной функцией от положения всех игроков, существует универсальное равновесие по Нэшу (т.е. набор стра- тегий, не зависящий от выбора начальных положений игроков), то все предельные точки эмпирических распределений игроков соответствуют решениям игры среднего поля в вероятностном смысле. 43 Отметим, что в настоящее время разработаны численные методы для игр среднего поля. Они преиму- щественно охватывают стохастические игры среднего поля [1]–[3]. Еще одно направление игр среднего поля связано с так называемым “основным уравнением” (master equation). В рамках этого подхода игра среднего поля описывается одним уравнением, записанным в тер- минах производных в функциональных пространствах или пространствах вероятностей. Исследование ос- новного уравнения было инициировано P.-L. Lions [52]. Этой тематике посвящены работы [11, 14, 28, 41]. Для детерминированных игр среднего поля было введено понятие вязкостного решения и доказана теорема существования этого решения [24]. Многие задачи включают в себя модели взаимодействия множества “слабых” агентов с одним или несколькими могущественными игроками. Такие задачи формализованы в рамках игр среднего поля с ведущим игроком [10, 20, 30, 53]. Отметим, что теория игр среднего поля находит многочисленные применения в финансовом анализе [51], в экономических задачах [47, 26], в моделировании движения [48] и в моделировании социально- экономических задач, в частности вопросов коррупции и преступности [40, 44]. Также многочисленны технические приложения, в частности к задачам моделирования электрических и энергетических сетей [35]–[37], [8]. Настоящий обзор представляет собой попытку дать описание основных направлений и результатов игр среднего поля первого порядка, т.е. игр среднего поля, которые описываются системой дифференциальных уравнений первого порядка, что соответствует детерминированным динамическим системам, в рамках “вероятностного подхода”. Кроме того, рассмотрена модель энергетических сетей, формализуемая в рамках теории игр среднего поля первого порядка. Обзор основных результатов, касающихся игр среднего поля второго порядка, дан в [10, 27]. 2 Эмпирический вывод системы уравнений для игры среднего поля В большинстве работ, посвящённых играм среднего поля, задача ставится аксиоматически. Однако, представляется полезным получить постановки теории игр среднего поля, исходя из теории игр конечного числа лиц. Данный вывод является математически нестрогим. В целом вывод следует работам [39, 51]. Прежде всего напомним определение равновесия по Нэшу. Рассмотрим игру N лиц, пусть Zi , i = 1, . . . , N , – множество стратегий i-го игрока. Выигрыш каждого игрока определяется функцией по- лезности Ji (z1 , . . . , zN ). Если z = (z1 , . . . , zk , . . . , zN ) ∈ Z1 × . . . × ZN – профиль стратегий, wi ∈ Zk – стратегия игрока i, то обозначим через z|wi профиль стратегий, полученный из профиля z путём замены стратегии zi игрока i на стратегию wi , т.е. z|wi = (z1 , . . . , zi−1 , wi , zi+1 . . . , zN ). Профиль стратегий z ∗ называется равновесием по Нэшу, если для всех i ∈ 1, N и wi ∈ Zi Ji (z ∗ |wi ) 6 Ji (z ∗ ). Далее мы рассмотрим дифференциальные игры многих лиц с разделённой динамикой, т.е. будем пред- полагать, что i-й игрок непосредственно воздействует только на динамику вектора xi ∈ Rd : ẋi = fi (t, x1 , . . . , xN , ui ), t ∈ [0, T ], u ∈ U. Более того, мы будем предполагать симметричную зависимость уравнений динамики от xj , j 6= i. Для того чтобы упростить дальнейшее изложение, мы предполагаем, что правая часть динамики вектора xi зависит от времени, текущего состояния, эмпирического распределения игроков и управления самого i-го игрока. Под эмпирическим распределением игроков мы понимаем вероятность N 1 δx(t) , δx1 (t) + . . . + δxN (t) . N Таким образом, мы рассматриваем управляемую систему N ẋi = f (t, xi , δx(t) , ui ), i = 1, N . (1) 44 Предполагается, что каждый игрок стремится максимизировать свой выигрыш, состоящий из терминаль- ной и интегральной частей. Мы будем предполагать, что выигрыш также зависит от эмпирического рас- пределения игроков: Z T N N Ji (u1 , . . . , uN ) , σ xi (T ), δx(T ) + g t, xi (t), δx(t) , ui (t) dt. (2) 0 В качестве примера зависимости от эмпирического распределения можно рассматривать зависимость от среднего. В этом случае N X Z f (t, xi , δxN , u) = fˆ t, xi , xj , ui = fˆ t, xi , yδxN (dy), ui , j=1 Rd N X Z σ(xi , δxN ) = σ̂ xi , xj = σ̂ xi , yδxN (dy) , j=1 Rd N X Z g(t, xi , δxN , u) = ĝ t, xi , xj , ui = ĝ t, xi , yδxN (dy), ui . j=1 Rd Отметим, что множество взвешенных сумм мер Дирака плотно во множестве P 1 (Rd ), состоящем из веро- ятностных мер m таких, что конечен первый абсолютный момент, т.е. Z kykm(dy) < ∞. Rd Поэтому можно считать, что функции f , g определены для всех t, x, вероятностных мер с конечным первым абсолютным моментом m и управлений u. Аналогично, функция σ определена для состояний x и вероятностей с конечным первым абсолютным моментом m. Мы будем рассматривать концепцию равновесия по Нэшу для игры с динамикой (1) и показателем качества (2). Кроме того, мы предполагаем существование универсального равновесия в классе чистых позиционных стратегий. Замечание 1. Вообще говоря, нельзя говорить о существовании универсального равновесия по Нэшу для дифференциальной игры общего вида в классе чистых позиционных стратегий. Для игр двух лиц постро- ен пример, показывающий, что в чистых стратегиях нельзя построить универсальную (т.е. не зависящую от начальной позиции) оптимальную позиционную стратегию [57]. Из этого следует и невозможность по- строить универсальную равновесную стратегию уже в игре двух лиц. В настоящий момент доказано су- ществование равновесия по Нэшу в классе позиционных стратегий, зависящих от параметра ε [38]. В этом случае движения строятся пошагово, на основе конструкций, предложенных в теории антагонистических дифференциальных игр Н.Н. Красовским и А.И. Субботиным [55] (см. также конструкцию универсальных стратегий в [55]). Отметим, что равновесие достигается лишь в предельном случае, когда длина шага и параметр ε стремятся к нулю. Необходимым условием является и согласованность параметров мелкости у стратегий игроков. Также универсальные в заданном компакте стратегии могут быть построены в классе управлений с поводырем [6, 7]. Поскольку динамика и функции выигрыша зависят от эмпирической меры, то логично считать, что стратегии игроков зависят от позиции и вероятности, описывающей распределение игроков. Пусть ui : [0, T ] × Rd × P 1 (Rd ) → U – стратегия i-го игрока. Через u обозначим профиль стратегий. Пусть также x0 = (x0,1 , . . . , x0,N ) – набор начальных позиций игроков. Обозначим через x[·, t0 , x0 , u] решение задачи Коши: N N ẋi (t) = f (t, xi (t), δx(t) , ui (t, xi (t), δx(t) )), xi (t0 ) = x0,i , i = 1, N . (3) Напомним, что N 1 δx(t) = (δx1 (t) + . . . + δxN (t) ). N 45 Результат i-го игрока оценивается функционалом Z T N N N Ji [t0 , x0 , u] = σ xi (T ), δx(T ) + g t, xi (t), δx(t) , ui (t, xi (t), δx(t) ) dt. (4) t0 Введем понятие равновесия по Нэшу. Будем говорить, что профиль u∗ доставляет равновесие по Нэшу, если для любого номера i = 1, . . . , N и любой стратегии vi выполнено неравенство Ji [t0 , x0 , u∗ |vi ] 6 Ji [t0 , x0 , u∗ ]. Рассмотрим лишь симметричные равновесия по Нэшу. В этом случае u∗i не зависит от номера i и равна некоторой стратегии û. В дальнейшем будем и набор из N стратегий û обозначать через û. Также можно считать, что û есть функция из [0, T ] × Rd × P 1 (Rd ) со значениями в U . Также выпишем уравнение на изменение вероятности µN [t] , δx(t) N . Пусть ϕ(x) – функция класса C 1 , быстро убывающая на бесконечности вместе со своими частными производными. В силу динамики системы имеем, что d ϕ(xi [t, t0 , x0 , û]) = h∇ϕ(xi [t, t0 , x0 , ũ]), ẋi [t, t0 , x0 , û]i = dt N N = h∇ϕ(xi [t, t0 , x0 , û]), f (t, xi , δx(t) , û(t, xi (t), δx(t) )). Отсюда, Z " N # d N d 1 X ϕ(x)µ [t](dx) = ϕ(xi [t, t0 , x0 , û]) = dt Rd dt N i=1 N X Z N N h∇ϕ(xi [t, t0 , x0 , u]), f (t, xi , δx(t) , û(t, xi (t), δx(t) )) = h∇ϕ(x), f (t, x, µN [t], û(t, x, µN [t]))iµN [t](dx). (5) i=1 Rd Отметим, что задача поиска равновесия в игре большого числа лиц чрезвычайно сложна. Ключевая идея теории игр среднего поля – перейти к пределу и исследовать систему бесконечного числа лиц. Прежде всего, отметим, что при больших N вклад каждого игрока в эмпирическое распределение игроков невелик (порядка ∼ 1/N ). В первом приближении им можно пренебречь. Тогда для каждого игрока распределение игроков становится внешним параметром. Обозначим распределение игроков в момент времени t через µ[t]. Заметим, что в предельной игре каждый игрок решает задачу максимизации Z T σ(x(T ), µ[T ]) + g(t, x(t), µ[t], u(t))dt t0 при условии того, что динамика задаётся уравнением ẋ = f (t, x, µ[t], u(t)), x(t0 ) = y. При этом динамика распределения игроков в момент t – вероятности µ[t] – определяется по оптимальному управлению всех игроков. Необходимо отметить, что при фиксированном распределении игроков задача поиска равновесной по Нэшу стратегии сводится к задаче оптимального управления. Одним из способов решения задач оптимального управления является метод динамического програм- мирования. В этом случае необходимо рассмотреть уравнение Беллмана ∂V + H(t, x, µ[t], ∇V ) = 0, V (T, x) = σ(x, µ[T ]), (6) ∂t где H – гамильтониан, вычисляемый по формуле H(t, x, m, p) = max[hp, f (t, x, m, u)i + g(t, x, m, u)]. u∈U Здесь m – вероятность, p ∈ Rd – сопряжённая переменная. 46 Решение уравнения (6) надо понимать в минимаксном/вязкостном смысле [56, 9]. Однако, для наших целей эмпирического вывода мы будем понимать решение этого уравнения в классическом смысле. Более того, мы считаем, что с классическим решением данного уравнения ассоциирована оптимальная стратегия û(t, x, m), которая удовлетворяет условию max[h∇V (t, x), f (t, x, m, u)i + g(t, x, m, u)] = h∇V (t, x), f (t, x, m, û(t, x, m))i + g(t, x, m, û(t, x, m)). u∈U Заметим, что если гамильтониан H является дифференцируемым по сопряженной переменной, то ∂H(t, x, m, ∇V (t, x)) f (t, x, m, û(t, x, m))i = . ∂p В этих предположениях динамика распределения игроков (5) может быть переписана в виде Z Z d ϕ(x)µ[t](dx) = h∇ϕ(x), f (t, x, µ[t], û(t, x, µ[t]))iµ[t](dx) = dt Rd Rd Z ∂H(t, x, µ[t], ∇V (t, x)) = ∇ϕ(x), µ[t](dx). Rd ∂p В дальнейшем мы будем записывать последнее уравнение в формальном виде d ∂H(t, x, µ[t], ∇V (t, x)) µ[t] = , ∇ µ[t], µ[0] = m0 . (7) dt ∂p Здесь m0 – некоторое начальное распределение игроков, которое может быть получено как предел эмпи- рических распределений δxN0 . Система (6), (7) и является системой уравнений для игр среднего поля. Приведённый нами вывод является выводом на физическом уровне строгости и его строгое обоснование, по-видимому, невозможно. Другой способ вывода уравнений для игры среднего поля основан на исследо- вании равновесия по Нэшу в классе программных управлений [22]. Способ, предложенный в упомянутой работе, применяется к стохастическим дифференциальным играм и предполагает, что начальные позиции задаются случайно. Таким образом, в рамках этого подхода даже эмпирический вывод выходит из области детерминированных систем. Связь игр среднего поля и игр конечного числа игроков может быть получена одним из двух способов. 1. Доказательством того, что решение системы для игры среднего поля является пределом (частичным пределом) симметричных равновесий в игре конечного числа игроков при стремлении числа игроков к бесконечности. Это сделано в работах [22, 46] для стохастических дифференциальных игр. 2. Построением приближённого равновесия по Нэшу в игре конечного числа игроков на основе реше- ния игры среднего поля. Это проделано во многих работах. Некоторые подобные результаты будут приведены ниже. 3 Определения и обозначения В предыдущем разделе мы эмпирически вывели систему уравнений ∂V + H(t, x, µ[t], ∇V ) = 0, V (T, x) = σ(x, µ[T ]), (8) ∂t d ∂H(t, x, µ[t], ∇V (t, x)) µ[t] = , ∇ µ[t], µ[0] = m0 . (9) dt ∂p Здесь σ(x, m) – некоторая функция со значениями в R, m0 – некоторое начальное распределение игроков. Отметим, что в данном случае гамильтониан H, а также терминальное условие σ зависят от вероятности в целом. Чтобы упростить запись, обозначим ∂H(t, x, m, ∇V (t, x)) Hp (t, x, m, ∇V (t, x)) = . ∂p 47 Принципиально важным является случай, когда мера µ[t] при каждом t абсолютно непрерывна относи- тельно меры Лебега. Обозначим через θ плотность меры µ[t], т.е. θ – это функция класса L1 ([0, T ] × Rd ) такая, что Z µ[t](A) = θ(t, x)dx. (10) A Отметим, что представление вероятности через ее плотность задает отображение функций θ из множества L1 (Rd ) таких, что Z kxkθ(x)dx < ∞ Rd во множество вероятностей P 1 (Rd ). Если вероятность µ[t] имеет плотность θ(t, ·), то, несмотря на некоторую нестрогость обозначений, будем считать, что гамильтониан H есть функция времени, позиции, плотности распределения и сопряженной переменной. В этом случае уравнение (9) может быть преобразовано. Для всех φ ∈ C 1 (Rd ), убывающих на бесконеч- ности вместе со своими частными производными с экспоненциальной скоростью, имеем равенство Z Z Z ∂θ(t, x) d φ(x) dx = φ(x)µ[t]dt = hHp (t, x, θ(t, ·), ∇V (t, x)), ∇φ(x)iµ[t](dx) = Rd ∂t dt Rd Rd Z Z = hHp (t, x, θ(t, ·), ∇V (t, x)), ∇φ(x)iθ(t, x)dx = − div(Hp (t, x, θ(t, ·), ∇V (t, x))θ(t, x))φ(x)dx. Rd Rd Оставляя лишь правую и левую части этого равенства, получаем систему уравнений в частных произ- водных для игр среднего поля в предположении того, что распределение вероятностей имеет плотность: ∂V + H(t, x, θ(t, ·), ∇V ) = 0, V (T, x) = σ(x, θ(T, ·)), (11) ∂t ∂θ(t, x) + div(Hp (t, x, θ(t, ·), ∇V (t, x))θ(t, x)) = 0, θ(0, x) = θ0 (x). (12) ∂t Отметим, что обе системы – (8), (9) и (11), (12) – описывают игры среднего поля с нелокальной связью, т.е. гамильтониан зависит от функции из класса L1 “в целом”. Теми же методами, что и в предыдущем разделе, можно вывести систему уравнений среднего поля с локальной связью, в этом случае гамильтониан зависит от текущего значения плотности. В этом случае система уравнений для игры среднего поля имеет вид ∂V + H(t, x, θ(t, x), ∇V ) = 0, V (T, x) = σ(x, θ(T, x)), (13) ∂t ∂θ + div(Hp (t, x, θ, ∇V )θ) = 0, θ(0, x) = θ0 (x). (14) ∂t 4 Игры среднего поля с нелокальной связью 4.1 Вязкостный подход Вязкостный подход является исторически первым в теории игр среднего поля, он развит Lasry и Lions в работах [49]–[51]. Кратко опишем основные идеи этого подхода, следуя работе [51]. Мы предполагаем, что распределение игроков имеет плотность, H(t, x, θ, p) = kpk2 /2 + F (x, θ). (15) Тогда система (8), (9) принимает вид ∂V 1 + k∇V k2 + F (x, θ(t, ·)) = 0, V (T, x) = σ(x, θ(T, ·), (16) ∂t 2 ∂θ(t, x) + div(∇V (t, x)) · θ(t, x)) = 0, θ(0, x) = θ0 (x). (17) ∂t 48 Первое уравнение соответствует задаче максимизации функционала Z T u2 (t) σ(x(T )) + − + F (x(t), θ(t, ·)) dt 0 2 на множестве всех траекторий ẋ = u, u ∈ Rd . Отметим, что оптимальное управление задается равенством û(t, x) = ∇V (t, x). Накладываются условия непрерывности функций F и σ, их дважды непрерывной дифференцируемо- сти по x. Предполагаем, что сами функции F и σ, их первые и вторые производные по x равномерно ограничены. Также считаем, что θ0 финитна. Решение уравнения (16) понимается в вязкостном смысле [56, 9]. Напомним, что функция ζ(t, x) является вязкостным решением уравнения ∂ζ + h(t, x, ∇ζ) = 0, ζ(T, x) = ζT (x) ∂t если ζ удовлетворяет краевому условию и a− + h(t, x, b− ) 6 0, ∀(a− , b− ) ∈ D− ζ(t, x); a+ + h(t, x, b+ ) > 0, ∀(a+ , b+ ) ∈ D+ ζ(t, x). Здесь ζ(t + δτ 0 , x + δξ 0 ) − ζ(t, x) − aτ − hb, ξi D− ζ(t, x) = (a, b) ∈ R × Rd : ∀(τ, ξ) lim inf 0 >0 , 0 δ→0,τ →τ,ξ →ξ δ ( ) + d ζ(t + δτ 0 , x + δξ 0 ) − ζ(t, x) − aτ − hb, ξi D ζ(t, x) = (a, b) ∈ R × R : ∀(τ, ξ) lim sup 60 . δ→0,τ 0 →τ,ξ 0 →ξ δ Решение уравнения (17) понимается в смысле распределений, т.е. мы считаем, что θ ∈ L1 ([0, T ] × Rd ) – решение уравнения (17), если для всех гладких финитных функций φ ∈ C 1 ([0, T ] × Rd ), обращающихся в ноль при t = 0 и t = T , выполнено равенство Z ∂φ(t, x) + h∇φ(t, x), ∇V (t, x)i θ(t, x)dt dx. [0,T ]×Rd ∂t Теорема существования для такого решения имеет два доказательства. Первое доказательство основано на следующих идеях. 1. Оператор Φ, который ставит в соответствие функции θ решение уравнения ∂ζ 1 + k∇ζk + F (t, θ(t, ·)) = 0, (18) ∂t 2 является непрерывным. Более того, решения уравнения (18) липшицевы, имеют ограниченные смешан- ные производные по t и xi , также в смысле распределений ограничены и вторые частные производные по x. 2. Благодаря явной формуле для вычисления функции θ по заданной ζ, доказывается липшицевость зависимости t 7→ θ(t, ·) (как элемента L1 (Rd )) и непрерывная зависимость θ от ζ (т.е. локальная рав- номерная сходимость ζn к ζ влечет слабую сходимость соответствующих плотностей вероятностей). 3. Композиция операторов, сопоставляющих потоку вероятностей функцию цены и функции цены – по- ток вероятностей, задает вполне непрерывный оператор на пространстве потоков вероятностей. Непо- движная точка этого оператора определяет решение системы (16), (17). 49 Второе доказательство основано на предельном переходе от стохастических игр с гамильтонианом вида (15) среднего поля при стремлении коэффициента вязкости к нулю. Также имеет место единственность решения системы (16), (17) при дополнительных условиях: Z [F (x, θ0 ) − F (x, θ00 )](θ0 (x) − θ00 (x))dx 6= 0 θ0 6= θ00 , Rd Z Z 0 00 0 00 [F (x, θ ) − F (x, θ )](θ (x) − θ (x))dx · [σ(x, θ0 ) − σ(x, θ00 )](θ0 (x) − θ00 (x))dx > 0. Rd Rd Вопрос о том, единственно ли решение без этих условий, остается открытым. Как видно, конструкция решения в рамках вязкостного подхода существенно опирается на структуру гамильтониана H(t, x, p, θ) = kpk2 + F (x, θ). Прежде всего используется явная формула вычисления потока вероятности по заданной почти всюду дифференцируемой функции, эта формула является следствием уравнения (17). Перенос ее на более общий случай невозможен. Это требует других подходов к определению решения. 4.2 Вероятностный подход В настоящем разделе мы рассматриваем полную систему (8), (9). Вероятностный подход основан на ис- следовании игры бесконечного числа игроков. А именно, пусть Ω – множество игроков. На этом множестве необходимо ввести некоторую вероятность (измеримую структуру также предполагаем заданной) %. Пред- положим, что каждый игрок в начальный момент находится в позиции X0 (ω). От функции X0 необходимо потребовать согласованности с распределением m0 , т.е. чтобы для каждого измеримого множества A ⊂ Rd %(X0−1 (A)) = m0 (A). Движение каждого игрока описывается уравнением d X(t, ω) = f (t, X(t, ω), µ[t], u(t, ω)), X(0, ω) = X0 (ω), u(t, ω) ∈ P. (19) dt Каждый игрок стремится к максимизации своего выигрыша, который задается величиной Z T σ(X(t, ω), µ[T ]) + g(t, X(t, ω), µ[t], u(t, ω))dt. (20) 0 При этом µ[t] является законом распределения X(t, ω) т.е. для любого измеримого множества A ⊂ Rd выполнено равенство µ[t](A) = %(X −1 (t, A)). Далее в рамках этого раздела (несколько нестрого) будем считать, что функции f , g, σ и H зависят не от вероятности m, а от функции Y : Ω → Rd , которая определяет вероятность m по правилу m(A) = %(Y −1 (A)). Данные предположения позволяют переписать уравнение (8) в виде ∂V + H(t, x, X(t, ·), ∇V ) = 0, V (T, x) = σ(x, X(t, ·)). (21) ∂t Изменение X(t, ω) описывается уравнением d ∂H(t, X(t, ω), X(t, ·), ∇V (t, X(t, ω))) X(t, ω) = , X(0, ω) = X0 (ω). (22) dt ∂p Последнее уравнение получено из (19) и (20), исходя из предположения, что в достаточно гладком случае оптимальное управление игрока û(t, x), находящегося в позиции (t, x), таково, что выполнено соотношение ∂H(t, X(t, ω), X(t, ·), ∇V (t, X(t, ω))) f (t, x, û(t, x), X(t, ·)) = . ∂p Решение системы (21), (22) будем понимать в следующем смысле: 50 • уравнение (21) выполняется в минимаксном/вязкостном смысле; • система уравнений (22) выполнена в смысле Каратеодори, т.е. X(·, ω) абсолютно непрерывна и почти всюду удовлетворяет дифференциальному уравнению. Данный подход развит в работе [28] не только для игр среднего поля, но и для расширенных игр среднего поля; в этом случае предполагается зависимость гамильтониана H (и функций f и g) не только от времени t, положения игрока x, положения всех игроков X(t, ·) и сопряженной переменной p, но и от скоростей игроков Ẋ(t, ·). Теорема существования решения игры среднего поля в рамках вероятностного подхода доказана при целом ряде предположений. Для того чтобы сформулировать эти предположения, необходимо ввести со- пряженную функцию к гамильтониану H по правилу H ∗ (t, x, Y, ξ) , sup [hp, ξi − H(t, x, Y, p)]. p∈Rd Функция H ∗ определена на [0, T ] × Rd × Lq (Ω; Rd ) × Rd . Предполагается, что функция H ∗ удовлетворяет свойству коэрцитивности, т.е. величина |H ∗ (t, x, Y, ξ)| lim →∞ kξk→∞ kξk равномерно по t и x, равномерно ограничена снизу величиной c0 (1 + kY kq ) и ограничена, если вместо ξ подставлена некоторая функция ξ0 (Y ), имеет первые и вторые производные, также ограниченные снизу величиной (c1 L+c2 )kY kq . Сам гамильтониан H непрерывен, локально липшицев по фазовой и сопряженной переменным, а также по функции Y . При этом производная ∂H/∂x непрерывна и глобально липшицева по всем переменным, кроме времени. От терминальной части функции платы требуется непрерывность, липшицевость по x и ограниченность. Также m0 предполагается абсолютно непрерывной относительно меры Лебега. Доказательство теоремы существования основано на принципе неподвижной точки Шаудера, применен- ном к системе принципа максимума Понтрягина для задачи оптимизации "Z # T inf H ∗ (t, x(t), X(t, ·), ẋ(t))dt + σ(x(T ), X(T, ·)) , x(0) = X0 (ω) x(·) 0 с дополнительным условием: кривые X(·, ω) являются экстремалями. Отметим, что единственность решения в рамках вероятностного подхода доказана при дополнительных предположениях. Первый способ доказательства предполагает, что H(t, x, Y, p) = h0 (x, p) + F (x, Y ), где h0 выпукло по p, а F и σ удовлетворяют условиям монотонности: • для всех Y 0 , Y 00 ∈ Lq (Ω; Rd ) Z [F (Y 0 (ω), Y 0 (·)) − F (Y 0 (ω), Y 00 (·)) + F (Y 00 (ω), Y 00 (·)) − F (Y 00 (ω), Y 0 (·))]%(dω)· Ω Z · [σ(Y 0 (ω), Y 0 (·)) − σ(Y 0 (ω), Y 00 (·)) + σ(Y 00 (ω), Y 00 (·)) − σ(Y 00 (ω), Y 0 (·))]%(dω) 6 0, Ω • и при Y 0 6= Y 00 Z [F (Y 0 (ω), Y 0 (·)) − F (Y 0 (ω), Y 00 (·)) + F (Y 00 (ω), Y 00 (·)) − F (Y 00 (ω), Y 0 (·))]%(dω) 6= 0. Ω В рамках второго подхода условие накладывается на H ∗ . А именно, единственность имеет место, когда • для всех Y 0 , Y 00 ∈ Lq (Ω; Rd ) Z [H ∗ (t, Y 0 (ω), Y 0 (·), Z 0 (ω)) − H ∗ (t, Y 00 (ω), Y 0 (·), Z 00 (ω))+ Ω + H ∗ (t, Y 00 (ω), Y 00 (·), Z 00 (ω)) − H ∗ (t, Y 0 (ω), Y 00 (·), Z 00 (ω))]%(dω)· Z · [σ(Y 0 (ω), Y 0 (·)) − σ(Y 0 (ω), Z(·)) + σ(Z(ω), Z(·)) − σ(Z(ω), Y 0 (·))]%(dω) 6 0, Ω 51 • и при Y 0 6= Y 00 Z [H ∗ (t, Y 0 (ω), Y 0 (·), Z 0 (ω)) − H ∗ (t, Y 00 (ω), Y 0 (·), Z 00 (ω))+ Ω + H ∗ (t, Y 00 (ω), Y 00 (·), Z 00 (ω)) − H ∗ (t, Y 0 (ω), Y 00 (·), Z 00 (ω))]%(dω) 6= 0. Отметим, что решение в рамках вероятностного подхода определяется выбором множества игроков Ω, вероятностью % и функцией, определяющей начальное положение игрока X0 : Ω → Rd . Вообще говоря, доказанная в рамках этого подхода единственность – это единственность при заданном выборе вероятност- ного пространства. 4.3 Минимаксный подход Минимаксный подход [4] очень близок к вероятностному. В то же время, он позволяет рассматривать случай сублинейного гамильтониана, при этом требует минимальной гладкости от гамильтониана (не пред- полагается даже существование ∂H/∂p). Главное отличие от вероятностного подхода состоит в том, что мы фиксируем множество, на котором задаем вероятность, а саму вероятность делаем частью решения. Прежде всего, напомним [56], что в случае выпуклого по сопряженной переменной гамильтониана можно ввести эквивалентное определение минимаксного/вязкостного решения уравнения Гамильтона–Якоби. В этом случае функция ζ – минимаксное/вязкостное решение уравнения ∂ζ + h(t, x, ∇ζ) = 0 ∂t тогда и только тогда, когда график ζ слабо инвариантен относительно дифференциального включения (ẋ(t), ż(t)) ∈ {(ξ, η) : ξ ∈ domh∗ (t, x, ·), η > h∗ (t, x, ξ)}. (23) Здесь h∗ (t, x, ξ) , sup [hξ, pi − h(t, x, p)], p∈Rd domh∗ (t, x, ·) = {ξ : h∗ (t, x, ξ) < ∞}. При достаточно широких предположениях решения дифференциального включения (23) продолжимы. В рамках минимаксного подхода решение системы (8), (9) определяется следующим образом. Прежде всего, напомним, что носитель вероятности χ (supp(χ)), определенной на некотором банаховом простран- стве A, есть наименьшее замкнутое множество B такое, что для всех измеримых C ⊂ A \ B выполнено χ(C) = 0. Далее, если V – некоторая функция, определенная на [0, T ] × Rd , со значениями в R, µ – поток вероятно- стей (т.е. µ[t] – вероятность на Rd ), то обозначим через S[V, µ] множество кривых (x(·), z(·)) : [0, T ] → Rd+1 , удовлетворяющих дифференциальному включению (ẋ(t), ż(t)) ∈ {(ξ, η) : ξ ∈ dom H ∗ (t, x, µ[t], ·), η > h∗ (t, x, ξ)}, таких, что для всех t, s ∈ [0, T ] V (x(t)) − z(t) = V (x(s)) − z(s). Здесь H ∗ (t, x, m, ξ) = sup [hξ, pi − H(t, x, m, p)], p∈Rd dom H ∗ (t, x, m, ·) = {ξ : H ∗ (t, x, m, ξ) < ∞}. Определение 1. Будем говорить, что пара (V, µ), где V : [0, T ] × Rd → R, µ – поток вероятностей, является решением системы (8), (9), если • V – минимаксное/вязскостное решение уравнения (8); 52 • существует вероятность χ, определенная на C([0, T ]; Rd+1 ), такая, что ее носитель лежит в мно- жестве S[V, µ], и для всех измеримых множеств A ⊂ R µ[t](A) = χ{(x(·), z(·)) : x(t) ∈ A}. Теорема существования решения в рамках минимаксного подхода может быть получена при следующих предположениях: • H представим в виде H(t, x, m, p) = max[hp, f (t, x, m, u)i + g(t, x, m, u)]; u∈U • функции f , g и σ непрерывны (при этом по m предполагается топология слабой сходимости); • функция f локально липшицева по x; • начальное распределение m0 имеет первый абсолютный момент, т.е. Z kykm0 (dy) < ∞. Rd Доказательство теоремы существования такого решения основано на доказательстве существования рав- новесия по Нэшу в игре бесконечного числа лиц и в этой части смыкается с вероятностным подходом. Предполагается, что задано множество игроков Ω и неатомическая мера % на Ω. Также предполагается выбранной функция X0 : Ω → Rd , физический смысл которой состоит в том, что она назначает каждо- му игроку его положение в начальный момент. Естественным условием является условие согласованности вероятности % и функции X0 с вероятностью m0 : для всех измеримых множеств A ⊂ Rd m0 (A) = %(X0−1 (A)). (24) Отметим, что всегда можно подобрать множество Ω, вероятность % на нем и функцию X0 так, чтобы условие (24) выполнялось. Далее рассматривается игра бесконечного числа лиц, в которой положение каждого игрока X(t, ω) задается системой d X(t, ω) = f (t, X(t, ω), µ[t], u(t)), u(t) ∈ P, X(0, ω) = X0 (ω), dt а цель каждого игрока состоит в максимизации величины Z T g(t, X(t, ω), µ[t], u(t))dt + σ(X(T, ω), µ[T ]). 0 Здесь µ – поток вероятностей, связанный с динамикой игроков правилом: µ[t](A) = %{ω : X(t, ω) ∈ A}. В данной игре существует равновесие по Нэшу в классе обобщенных программных управлений (мер- управлений). Полученное равновесие по Нэшу определяет вероятность χ и соответствующую функцию цены для пробного игрока, начавшего движение в некоторой позиции (t∗ , x∗ ). Вопрос о единственности в рамках минимаксного подхода пока не рассматривался. Однако было по- строено приближенное равновесие по Нэшу в игре конечного числа игроков в классе рандомизированных программных стратегий. 5 Игры среднего поля с локальной связью Для игр среднего поля с локальной связью (т.е. для системы (13), (14)) можно построить вязкостный подход, это сделано, в частности в [51]. Однако этот подход имеет те же ограничения, что и в случае нелокальной связи. В этом случае обобщенные решения строятся на основе концепции слабых решений [13] (см. также [15, 29]). Она развита в предположении, что H(t, x, θ, p) = h1 (x, θ) − h2 (x, p), 53 а терминальная функция σ зависит исключительно от x. Также для простоты рассматривается случай, когда x ∈ Td , здесь Td обозначает d-мерный тор. В этом случае система (13), (14) имеет вид ∂V + h1 (t, θ) − h2 (x, ∇V ) = 0, V (T, x) = σ(x), (25) ∂t ∂θ − div(h2,p (x, ∇V )θ) = 0, θ(0, x) = θ0 (x). (26) ∂t Здесь и далее ∂h2 (x, p) h2,p (x, p) = . ∂p Кроме этого, предполагается, что: 1. h1 непрерывна, возрастает по θ (напомним, что θ ∈ R), также выполнено условие роста по θ: существует показатель q > 1 такой, что 1 |θ|q−1 − C1 6 h1 (x, θ) 6 C1 |θ|q−1 + C1 ; C1 2. h1 непрерывна, а также выпукла и дифференцируема по p; ∂h1 /∂p непрерывна; сама же функция h1 имеет суперлинейный рост по p, т.е. существуют показатель r > max{d(q − 1), 1} и константа C2 такие, что 1 C2 r |θ|r − C2 6 h1 (x, θ) 6 |θ| + C2 ; rC2 r 3. σ непрерывно дифференцируема, θ0 непрерывна, неотрицательна и Z θ0 (x)dx = 1. Td Вводится функция F (x, θ) по правилу Rθ h1 (x, τ )dτ, θ > 0 F (x, θ) = 0 +∞, θ < 0. В дальнейшем для функции ψ двух переменных через ψ ∗ будем обозначать сопряженную по второй переменной, т.е. F ∗ – это функция, сопряженная к F относительно переменной θ. Понятие слабого решения основано на двух (дуальных) задачах оптимизации. Прежде всего, введем множество K0 = {ζ ∈ C1 ([0, T ] × Td ) : ζ(T, x) = σ(x)}. Пусть Z TZ Z A0 (ζ) = F ∗ (x, −ζt (t, x) + h2 (t, ∇ζ(t, x)))dx dt − ζ(0, x)θ0 (x)dx. 0 Td Td Первая оптимизационная задача: inf A0 (ζ). (27) ζ∈K0 С исходным уравнением (25) данная задача связана следующим образом: обозначим α(t, x) = −ζt (t, x) + h2 (t, ∇ζ(t, x)). (28) Далее рассматривается задача минимизации функционала Z TZ Z F ∗ (x, α(t, x))dx dt − ζ(0, x)θ0 (x)dx. 0 Td Td 54 Вторая оптимизационная задача связана с уравнением (26). Рассмотрим множество K1 , состоящее из пар (θ, w) ∈ L1 ([0, T ] × Td ) × L1 ([0, T ] × Td , Rd ) таких, что θ > 0, Z θ(t, x)dx = 1 Td для почти всех t ∈ [0, T ] и пара (θ, w) удовлетворяет в смысле распределений уравнению неразрывности ζt + div(w) = 0, θ(0, x) = θ0 (x). Рассматривается функционал Z TZ Z ∗ w(t, x) B(θ, w) = θ(t, x)h2 t, − + F (x, θ(t, x)) dx dt + σ(x)θ(T, x)dx. 0 Td θ(t, x) Td Отметим, что величина w(t, x) θ(t, x) может рассматриваться как скорость потока в момент времени t в позиции x. Вторая оптимизационная задача состоит в минимизации величины B(θ, w) при (θ, w) ∈ K1 . Имеет место следующее свойство (дуальность оптимизационных задач): inf A0 (ζ) = − min B(θ, w). (29) ζ∈K0 (θ,w)∈K1 Доказательство этого факта основано на теореме Фенхеля–Рокафеллара [21]. Кроме того, минимум во второй оптимизационной задаче достигается на единственном элементе таком, что θ ∈ Lq ([0, T ] × Td ). Для того чтобы найти минимизирующий элемент в первой оптимизационной задаче, проведем ее ре- лаксацию. Для этого рассмотрим множество K, состоящее из пар (ζ, α) ∈ BV ([0, T ] × Td ) × L1 ([0, T ] × Td ) таких, что α(t, x) > −ζt (t, x) + h2 (t, ∇ζ(t, x)). Последнее неравенство понимается в смысле распределений. Отметим, что если ζ ∈ K0 , α определена по правилу (28), то пара (ζ, α) ∈ K. Таким образом, K – расширение K0 . Расширение первой оптимизационной задачи основано на функционале Z TZ Z A(ζ, α) = F ∗ (x, α(t, x)))dx dt − ζ(0, x)θ0 (x)dx. 0 Td Td Ставится задача поиска min A(ζ, α). (ζ,α)∈K Имеет место свойство: inf A(ζ, α) = inf A0 (ζ) = − min B(θ, w). (ζ,α)∈K ζ∈K0 (θ,w)∈K Принципиальная польза введенного расширения состоит в том, что минимум в левой части достигается. Более того, если (ζ, α) – минимизирующий элемент, то • ζ удовлетворяет в вязкостном смысле неравенству ζt − h1 (t, ∇ζ) 6 0, т.е. для всех (a, b) ∈ D− ζ(t, x) выполнено неравенство a − h1 (t, b) 6 0; • α = max{−ζtac + h2 (t, ∇ζ), 0}. 55 Слабым решением системы (25), (26) являются первые элементы минимизирующих пар. А именно, если (ζ ∗ , α̂) – решение задачи min A, (ζ,α)∈K а пара (θ∗ , w∗ ) минимизирует функционал B(θ, w), то пара (ζ̂, θ∗ ) и будет слабым решением системы (25), (26). Дадим точное определение слабого решения, суммировав то, что мы знаем о решениях обеих задач оптимизации. Прежде всего, напомним, что если $ является зарядом на [0, T ] × Td , то $ может быть представлена в виде суммы $ = $ac + $s , где $ac – часть меры $, абсолютно непрерывная относительно меры Лебега, а $s – сингулярная часть. Если φ : [0, T ]×Rd → R является функцией ограниченной вариации, то через φac ac t и φt будем обозначать абсолютно непрерывную и сингулярную относительно меры Лебега части заряда ∂φ/∂t. Определение 2. Пара (ζ, θ) ∈ C([0, T ] × Td ) × L1 ([0, T ] × Td ) является слабым решением системы (25), (26), если • ζ имеет ограниченную вариацию, ∇ζ ∈ Lr ([0, T ] × Td ); • θ(·, ·)h2,p (·, ∇ζ(·, ·)) ∈ L1 ([0, T ] × Td ); • (ζtac (·, ·) − h∇ζ(·, ·), h2 (·, ∇ζ(·, ·))i)θ ∈ L1 ([0, T ] × Td ); • почти всюду на области θ > 0 выполнено равенство ζtac + h1 (t, θ) − h2 (x, ∇ζ) = 0, а неравенство ζtac + h1 (t, θ) − h2 (x, ∇ζ) > 0 выполнено в смысле распределений; также ζ(T, x) = σ(x); • уравнение ∂θ − div(h2,p (x, ∇V )θ) = 0, θ(0, x) = θ0 (x) ∂t выполнено в смысле распределений; • Z TZ Z (ζtac (t, x) − h∇ζ(t, x), h2 (t, ∇ζ(t, x))i)θ(t, x)dx dt = (θ(T, x)σ(x) − θ0 (x)ζ(0, x))dx. 0 Td Td Отметим, что данное определение согласуется с классическим решением, т.е. классическое решение – слабое, а гладкое слабое решение является классическим. Также единственность минизирующего элемента во второй задаче влечет единственность слабого реше- ния. Отметим, что по слабому решению может быть построено приближенное решение в игровой вариаци- онной задаче N лиц с показателем качества i-го игрока Z T 0 00 L(γi (t), γ̇i (t)) + hδ1 ,δ γi (t), 1 X JiN (γ 1 , . . . , γ N ) = δγj (t) dt + σ(γ(T )). 0 N −1 j=1,N ,j6=i 0 00 Здесь L(x, ξ) – функция, сопряженная к функции p 7→ h2 (t, −p), hδ1 ,δ – результат двойного сглаживания функции h1 (вначале сглаживаем второй аргумент путем свертки с некоторой гладкой функцией при параметре, равном δ 0 , потом саму функцию свертываем с тем же ядром при параметре δ 00 ). 56 6 Одна модель энергетических сетей Данная модель была предложена и исследовалась в работе [8]. Рассматривается сеть большого (в пределе бесконечного) количества одинаковых устройств. Каждое устройство характеризуется своей температурой x(t). Предполагается, что изменение температуры подчиняется уравнению −α(x − xon ), устройство выключено, ẋ = −α(x − xof f ), устройство включено. Если считать, что устройство управляется включением/выключением, то динамика температуры может быть переписана в виде ẋ = −αx + βu + γ, где α, β и γ – некоторые константы, α > 0, u ∈ [0, 1] – управляющее воздействие. Если m – некоторая вероятность на R, то через E[m] обозначим среднюю по вероятности m: Z E[m] , xm(dx). R Далее обозначим через E+ [m] , max{E[m]−E∗ , 0}, E− [m] = max{−(E[m]−E∗ ), 0}. Здесь E∗ – номинальная температура сети. Пусть µ[t] – распределение устройств по температуре в момент времени t. Интегральная часть функции платы каждого игрока определяется функцией −g = u(t)(r + qx2 (t) + hE + [µ[t]] + (1 − u(t))(qx2 (t) + kE− [µ[t]]) = = ru(t) + qx2 (t) + hE+ [µ[t]]u(t) + kE− [µ[t]](1 − u(t)). Предполагается, что r, q, h и k – положительные константы. Смысл этой функции платы следующий: каждый игрок стремится к минимизации времени включения устройства, температуры устройства, так- же каждый игрок наказывается за включение устройства, когда температура сети выше номинала, и за невключение устройства, если температура ниже номинала. Как видно, мы имеем ситуацию, когда поведение каждого игрока определяется средним состоянием системы. При этом гамильтониан равен H(t, x, m, u) = max {−αx + βu + γ + ru + ru(t) + qx2 + hE+ [m]u + kE− [m](1 − u)}. u∈[0,1] Данная задача может быть исследована в рамках описанных выше подходов для игр среднего поля с нелокальной связью или с использованием специальных методов, предложенных в [8]. Благодарности Работа частично поддержана в рамках Программы Президиума РАН “Математические задачи совре- менной теории управления” и гранта РФФИ 15-01-07909. Список литературы [1] Y. Achdou. Finite difference methods for mean field games. In Hamilton-Jacobi Equations: Approximations, Numerical Analysis and Applications:1-47. Springer, 2013. [2] Y. Achdou, F. Camilli, I. Capuzzo-Dolcetta. Mean field games: numerical methods for the planning problem. SIAM J. Control Optim., 50(1):77-109, 2012. [3] Y. Achdou and I. Capuzzo-Dolcetta. Mean field games: numerical methods. SIAM J. Numer. Anal., 48(3):1136-1162, 2010. [4] Yu. V.Averboukh. A minimax approach to mean field games. Sbornik: Mathematics, 206(7):893–920, 2015 (in Russian). = Ю. В. Авербух. Минимаксный подход к играм среднего поля. Матем. сб., 206(7):3-32, 2015. 57 [5] Yu. Averboukh. Deterministic limit of mean field games associated with nonlinear markov processes. Preprint, 2016. [6] Yu. V. Averboukh. Universal Nash equilibria for differential games with many persons Tr. IMM UrO RAN, 20(3):26-40, 2014 (in Russian). = Ю. В. Авербух. Универсальные равновесия по Нэшу в дифференци- альных играх многих лиц. Тр. ИММ УрО РАН, 20(3):26-40, 2014. [7] Yu. Averboukh. Universal Nash Equilibrium Strategies for Differential Games. Journal of Dynamical and Control Systems. 21(3):329-350, July 2015. [8] F. Bagagiolo, D. Bauso. Mean-field games and dynamic demand management in power grids. Dyn. Games Appl., 4(2):155-176, 2014. [9] M. Bardi, I. Capuzzo-Dolcetta. Optimal control and viscosity solutions of Hamilton-Jacobi-Bellman equations. Birkhäuser Boston Inc., Boston, MA, 1997. With appendices by Maurizio Falcone and Pierpaolo Soravia. [10] A. Bensoussan, J. Frehse, and P. Yam. Mean field games and mean field type control theory. Springer Briefs in Mathematics. Springer, New York, 2013. [11] A. Bensoussan, J. Frehse, and S. Yam. The master equation in mean field theory. Journal de Mathématiques Pures et Appliquées, 103(6):1441-1474, 2015. [12] R. Buckdahn, P. Cardaliaguet, M. Quincampoix. Some Recent Aspects of Differential Game Theory. Dyn. Games Appl. 1:74–114, 2011 [13] P. Cardaliaguet. Weak solutions for first order mean-field games with local coupling. Preprint, 2013. [14] P. Cardaliaguet, F. Delarue, J.-M. Lasry, P.-L. Lions. The master equation and the convergence problem in mean field games. arXiv:1509.02505, 2015 [15] P. Cardaliaguet, P. J. Graber. Mean field games systems of first order. ESAIM Control Optim. Calc. Var., 21(3):690-722, 2015. [16] R. Carmona, F. Delarue. Mean field forward-backward stochastic differential equations. Electron. Commun. Probab., 18(68):1–15, 2013. [17] R. Carmona, F. Delarue. Probabilistic analysis of mean-field games. SIAM J. Control Optim., 51(4):2705- 2734, 2013. [18] R. Carmona, F. Delarue, D. Lacker. Mean field games with common noise. arXiv:1407.6181, 2013. [19] R. Carmona, D. Lacker. A probabilistic weak formulation of mean field games and applications. Ann. Appl. Probab., 25(3):1189-1231, 2015. [20] R. Carmona, X. Zhu. A Probabilistic Approach to Mean Field Games with Major and Minor Players. arXiv:1409.7141, 2014 [21] I. Ekeland, R. Témam. Convex analysis and variational problems, english ed., vol. 28 of Classics in Applied Mathematics. Society for Industrial and Applied Mathematics (SIAM), Philadelphia, PA, 1999. [22] M. Fischer. On the connection between symmetric N -player games and mean field games. arXiv:1405.1345. [23] A. Friedman. Differential games. Wiley, New York, 1971 [24] W. Gangbo, A. Świȩch. Existence of a solution to an equation arising from the theory of Mean Field Games. J. Differential Equations, 259(11):6573-6643, 2015. [25] D. Gomes, J. Mohr, R. R. Souza. Continuous time finite state mean-field games. Appl. Math. and Opt., 68(1):99-143, 2013. 58 [26] D. Gomes, L. Nurbekyan, E. Pimentel. Economic models and mean-field games theory. Publicações Matemáticas do IMPA. [IMPA Mathematical Publications]. Instituto Nacional de Matemática Pura e Aplicada (IMPA), Rio de Janeiro, 2015. 30o Colóquio Brasileiro de Matemática. [30th Brazilian Mathematics Colloquium]. [27] D. Gomes and J. Saúde. Mean field games models-a brief survey. Dyn. Games Appl., 4(2):110-154, 2014. [28] D. Gomes and V. Voskanyan. Extended deterministic mean-field games. Preprint, 2013. [29] J. Graber. Weak solutions for mean field games with congestion. Preprint, 2015. [30] M. Huang. Large-population LQG games involving a major player: the Nash certainty equivalence principle. SIAM J. Control Optim. 48:3318-3353, 2010. [31] M. Huang, P. E. Caines, and R. P. Malhamé. Large-population cost-coupled LQG problems with nonuniform agents: individual-mass behavior and decentralized ε-Nash equilibria. IEEE Trans. Automat. Control, 52(9):1560-1571, 2007. [32] M. Huang, P. E. Caines, and R. P. Malhamé. The NCE (mean field) principle with locality dependent cost interactions. IEEE Trans. Automat. Control, 55(12):2799-2805, 2010. [33] M. Huang, P. E. Caines, and R. P. Malhamé. Social optima in mean field LQG control: centralized and decentralized strategies. IEEE Trans. Automat. Control, 57(7):1736-1751, 2012. [34] M. Huang, R. P. Malhamé, and P. E. Caines. Large population stochastic dynamic games: closed-loop McKean-Vlasov systems and the Nash certainty equivalence principle. Commun. Inf. Syst., 6(3):221- 251, 2006. [35] A.C. Kizilkale and R.P. Malhame. A class of collective target tracking problems in energy systems: Cooperative versus non-cooperative mean field control solutions. 53rd IEEE Conference on Decision and Control :3493- 3498, 2014. [36] A.C. Kizilkale and R.P. Malhame. Collective target tracking mean field control for electric space heaters. Control and Automation (MED), 2014 22nd Mediterranean Conference of :829-834, 2014. [37] A.C. Kizilkale and R.P. Malhame. Collective target tracking mean field control for markovian jumpdriven models of electric water heating loads. IFAC World Congress 19:1867–1872, 2014. [38] A.F. Klejmenov. Nonzero-sum positional differential games. Nauka, Ural’skoe otdelenie, Ekaterinburg, 1993 (in Russian). = А.Ф. Клейменов. Неантагонистические позиционные дифференциальные игры. Екате- ринбург: Наука, Уральское отделение, 1993. [39] V.N. Kolokoltsov, J.J. Li, W. Yang. Mean field games and nonlinear Markov processes. arXiv:1112.3744v2, 2011. [40] V. N. Kolokoltsov and O. Malafeyev. Mean field game model of corruption. arXiv:1507.03240, 2015. [41] V. N. Kolokoltsov and M. Troeva. On the mean field games with common noise and the McKean-Vlasov SPDEs. arXiv:1506.04594, 2015. [42] V. N. Kolokol’tsov, M. S. Troeva, Wei Yang. Mean field games based on stable processes.MTIP, 5:4 (2013), 33-65 (in Russian). = В. Н. Колокольцов, М. С. Троева, Вей Янг. Игры среднего поля, связанные с процессами устойчивого типа. МТИП, 5:4 (2013), 33-65 [43] K. Kolokoltsov and W. Yang. Sensitivity analysis for HJB equations with an application to a coupled backward-forward system. arXiv:1303.6234, 2013. [44] V. N. Kolokoltsov and W. Yang. Inspection games in a mean field setting. arXiv:1507.08339, 2015. [45] N.N. Krasovskii. Control of dynamical system. Nauka. M., 1985 (in Russian). = Н.Н. Красовский. Управ- ление динамической системой. М.: Наука, 1985. 59 [46] D. Lacker. A general characterization of the mean field limit for stochastic differential games. arXiv:1408.2708, 2014. [47] A. Lachapelle, J. Salomon and G. Turinic. Computation of mean field equilibria in economics. Mathematical Models and Methods in Applied Sciences, 20(4):567-588, 2010. [48] A. Lachapellea, M-T. Wolframb. On a mean field game approach modeling congestion and aversion in pedestrian crowds. Transportation Research Part B: Methodological, 45(10):1572-1589, 2011. [49] J.-M. Lasry, P.-L. Lions.Jeux à champ moyen. I. Le cas stationnaire.C. R. Math. Acad. Sci. Paris, 343(9):619- 625, 2006. [50] J.-M. Lasry, P.-L. Lions. Jeux à champ moyen. II. Horizon fini et contrôle optimal. C. R. Math. Acad. Sci. Paris, 343(10):679-684, 2006. [51] J.-M. Lasry, P.-L. Lions. Mean field games. Jpn. J. Math., 2(1):229-260, 2007. [52] P.-L. Lions. College de france course on mean-field games. 2007-2011. [53] M. Nourian, P.E. Caines. ε-Nash mean field game theory for nonlinear stochastic dynamical systems with major and minor agents. SIAM J. Control Optim. 51(4):3302–3331, 2013. [54] L.A.Petrosyan, N.A. Zenkevich, E.V. Shevkoplyas. Game theory. Izd-vo «BHV-Peterburg». SPb. 2012 (in Russian). = Л.А.Петросян, Н.А. Зенкевич, Е.В. Шевкопляс. Теория Игр. СПб: БХВ-Петербург, 2012. [55] N.N. Krasovskii, A.I. Subbotin. Game-Theoretical Control Problems. Springer-Verlag. New York-Berlin. 1988. [56] A.I. Subbotin. Generalized Solutions of First-Order PDEs. The Dynamical Optimization Perspective. Systems & Control: Foundations & Applications, Boston: Birkhäuser, 1995. [57] N.N. Subbotina. Universal optimal strategies in positional differential games. Differential Equations 19:1377– 1382, 1983. 60 First order mean field games. Main directions Yurii Averboukh Krasovskii Institute of Mathematics and Mechanics (Yekaterinburg, Russia), Ural Federal University (Yekaterinburg, Russia) Keywords: mean field games, differential games, N -person games, Nash equilibrium. This survey attempts to describe the main directions of the first order mean field games theory. We present the general theoretical results concerning first-order MFG. Additionally, the model of power-grid is discussed which is studied within MFG point of view. 61