=Paper=
{{Paper
|id=Vol-1108/paper1
|storemode=property
|title=Машинное обучение – состояние и перспективы
(Machine Learning: State of the Art and Perspectives)

|pdfUrl=https://ceur-ws.org/Vol-1108/paper1.pdf
|volume=Vol-1108
|dblpUrl=https://dblp.org/rec/conf/rcdl/Vetrov13
}}
==Машинное обучение – состояние и перспективы
(Machine Learning: State of the Art and Perspectives)
==
<pdf width="1500px">https://ceur-ws.org/Vol-1108/paper1.pdf</pdf>
<pre>
             Машинное обучение - состояние и перспективы

                                          c Д.П. Ветров
                                          °

                                        VetrovD@yandex.ru


1 Задачи машинного обучения                              скрытая переменная для каждого объекта одна
                                                         и принимает значения из конечного дискретного
 Теория    машинного        обучения    зародилась       множества, а каждая наблюдаемая переменная
 практически одновременно с появлением первых            может принимать действительные, либо (реже)
 компьютеров и на протяжении последних 70 лет            дискретные значения. Если скрытая переменная
 является активно развивающейся дисциплиной.             объекта является не дискретной, а непрерывной,
 Ее постоянное развитие вызвано ростом                   задача называется задачей восстановления
 возможностей современных вычислительных                 регрессии, являющейся еще одной стандартной и
 систем, еще более стремительным ростом                  хорошо изученной задачей машинного обучения.
 объемов данных, доступных для анализа,                     В     разное      время     предпринимались
 а также постоянным расширением области                  неоднократные попытки ввести некоторый
 применения методов машинного обучения на все            универсальный язык описания различных
 более широкий класс задач обработки данных.             постановок     и    методов    решения    задач
 Машинное обучение работает с объектами -                машинного обучения. Начиная с 90ых гг
 элементарными единицами данных, естественным            прошлого     века    широкое    распространение
 образом, возникающими в конкретных задачах,             получил т.н. байесовский формализм. При его
 которые     характеризуются        наблюдаемыми         использовании предполагается, что зависимости
 переменными ~x и скрытыми переменными ~t,               между наблюдаемыми переменными объекта,
 принимающими значения из некоторых заранее              весами решающего правила и скрытыми
 известных множеств. Главной задачей машинного           переменными       объекта    моделируются     с
 обучения является автоматическое определение            помощью      совместного    распределения    на
 взаимозависимостей между наблюдаемыми и                 эти группы переменных p(X, T, w). ~   Если нас
 скрытыми переменными объекта, с тем, чтобы              интересует только задача определения скрытых
 для произвольного объекта по его наблюдаемым            переменных по наблюдаемым, рассматривают
 компонентам можно было оценить возможные                дискриминативные модели (discriminative models)
 значения скрытых компонент. Как правило,                p(T, w|X).
                                                              ~     Значения наблюдаемых переменных X
 возможные взаимозависимости задаются заранее            в этом случае не моделируются, предполагаясь
 с помощью параметрических решающих правил,              известными на всех этапах решения задачи, и
 определяемых значением параметров (весов) w.   ~        совместное распределение становится проще. В
 Конкретные значения w     ~ определяются в ходе         стандартных постановках задачи машинного
 обучения с использованием обучающей выборки,            обучения     предполагалось,     что   скрытые
 представляющей собой множество объектов                 переменные каждого объекта зависят только от
 с известными наблюдаемыми и скрытыми                    наблюдаемых переменных этого объекта, причем
 переменными (X tr , T tr ) (обучение с учителем)        вид зависимости определяется параметрами w.  ~
 или только наблюдаемыми переменными X tr                Это соответствует представлению
 (обучение без учителя). При этом задача
                                                                                   n
                                                                                   Y
 определения весов решающего правила w       ~ по
 обучающей выборке называется задачей обучения                       p(T, w|X)
                                                                          ~    =         p(~ti |~xi , w)p(
                                                                                                      ~ w).~
                                                                                   i=1
 или настройки (training), а задача определения
 допустимых значений скрытой переменной                  При использовании такого формализма задача
~t по заданым наблюдаемым компонентам ~x                 настройки параметров w ~ решается, например,
 объекта и заданным весам решающего правила              нахождением наиболее вероятного значения
 w
 ~ — задачей вывода (inference). Обычно (но
 не обязательно) предполагается, что каждый                w                 ~ tr , T tr ) =
                                                           ~ M P = arg max p(w|X
 объект описывается одним и тем же набором
                                                                     p(T tr , w|X
                                                                              ~ tr )
 переменных, а номенклатура наблюдаемых                    arg max                   = arg max p(T tr , w|X
                                                                                                        ~ tr ),
 и скрытых переменных для всех объектов                               p(T tr |X tr )
 одинакова. Примером такой стандартной задачи
 является задача классификации, в которой


                                                     1
а задача вывода — путем нахождения1
              ~tˆ(~x) = arg max p(~t|~x, w
                                         ~ M P ).
Таким образом, для формулировки и решения
задачи машинного обучения нам достаточно
знать две функции: p(~t|~x, w)
                            ~ и p(w).
                                  ~ Если с первой
функцией, называемой функцией правдоподобия
(likelihood), проблем обычно не возникает,
т.к. она естественным образом характеризует
степень «истинности» полученного прогноза на
скрытую переменную, то вторая компонента,
наызваемая априорным распределением (weight
prior) или регуляризатором (regularizer), долгое
время вызывала споры. В самом деле, меняя
                                                                    Рис. 1: Приблизительная хронологическая карта
априорное распределение, мы влияем на
                                                                    появления новых направлений в машинном
результат процедуры настройки, т.е. на w     ~MP .
                                                                    обучении
При этом способ адекватного определения
априорного      распределения     неочевиден.     В
90ые гг. в ряде работ [6] было убедительно                          «подсказки» алгоритмам общего назначения,
показано, что априорное распределение является                      выраженые в виде априорного распределения на
эффективным способом контроля сложности                             w,
                                                                    ~ позволили добиться значительного увеличения
решающего правила и позволяет осуществлять                          точности и снизить эффект переобчения,
регуляризацию процедуры настройки. Вместо                           благодаря адаптации их под специфику
нахождения весов, обеспечивающих наименьшую                         конкретной задачи.
ошибку прогноза на обучающей выбобрке (что                             Можно показать, что практически любую
чревато эффектом переобучения (overfitting))                        задачу машинного обучения возможно (с
мы жертвуем толикой точности ради сохранения                        большей или меньшей степенью естественности)
способности обеспечить ту же ошибку прогноза                        свести к такому формализму. Это, в свою
на других объектах генеральной совокупности.                        очередь, открывает унифицированный способ
Оказалось, что в любой модели машинного                             анализа различных моделей машинного обучения,
обучения можно выделить самое простое                               например, с целью исследования их обобщающей
решающее правило (например, отвечающее                              способности или выработки эффективных
нулевым значениям весов), в которое помещается                      приближеных методов настройки и вывода
мода унимодального априорного распределения.                        общего назначения.
Чем больше расстояние текущих значений
весов от моды, тем меньше значение p(w).        ~
Ширина же априорного распределения задается
                                                                    2 Современные направления развития
параметром регуляризации, который может                               теории машинного обучения
быть       сравнительно      эффективно    найден
                                                                    С конца 90ых гг. байесовский формализм при
процедурой       скользящего    контроля    (cross-
                                                                    описании алгоритмов машинного обучения
validation)     или     байесовской    процедурой
                                                                    получил всеобщее признание [1]. В рамках
выбора модели (Bayesian model selection).
                                                                    него удалось разработать ряд общих методов
Еще       более     привлекательным     свойством
                                                                    для оценки апостериорных распределений,
байесовского формализма оказалась возможность
                                                                    байесовского вывода, автоматического выбора
учитывать многочисленные априорные знания о
                                                                    модели и пр. Не менее важным успехом
возможных зависимостях между наблюдаемыми
                                                                    байесовского формализма стала возможность
и скрытыми переменными объектов, которые
                                                                    успешного обобщения результатов и методов
имеются во многих прикладных задачах.
                                                                    классического   машинного      обучения      на
Например, известно, что надежность заемщика
                                                                    совершенно новые задачи (см. например, [2]).
(прогнозируемая          переменная)      должна
положительно коррелировать с его доходом и
образованием (наблюдаемые переменные). Такие
  1 Строго
                                                                    2.1   Глубинное обучение
                  говоря, полностью байесовские процедуры
настройки           и   вывода   предполагают    нахождение         Методы глубинного обучения (deep learn-
апостериорных            распределений       ~ tr , T tr )
                                           p(w|X            и
p(~t|~
     x, X tr , T tr )  вместо   соответствующих      точечных
                                                                    ing)   являются    попыткой    реинкарнации
оценок, поэтому последние можно рассматривать как                   нейронных сетей, с конца 80ых гг. прошлого
детерминированные приближения случайных величин,                    века   переживающих    кризис.   Причинами
например, в смысле дивергенции Кульбака-Лейблера


                                                                2
кризиса традиционных нейронных сетей стали:              Методология глубинного обучения позволила
критическая зависимость качества настройки               добиться невиданых ранее результатов при
весов сети от выбора начального приближения и,           обучении на больших и сверхбольших объемах
как следствие, проблемы с воспроизводимостью             данных. В настоящее время она является одним
«успешных» результатов, публиковавшихся в                из наиболее перспективных путей развития
научных журналах; большая подверженность                 машинного обучения.
переобучению вкупе со слабыми возможностями
контроля     обобщающей     способности   сети;          2.2   Непараметрические байесовские методы
большоее количество локальных минимумов
функционала качества, большинство из которых             Традиционно,      методы     непараметрической
оказывались плохими. С другой стороны,                   статистики определялись как раздел статистики,
неоспоримой сильной стороной нейронных                   в которой число параметров, описывающих
сетей явилось открытие метода обратного                  данные     (например,    парамеры     плотности
распространения     ошибки    (backpropagation),         распределения объектов) не фиксированно,
позволявшего отслеживать влияние внутренних              а растет с ростом числа объектов. Чтобы
слоев сети на качество прогноза скрытых                  разъяснить принципы работы непараметрических
переменных объектов обучающей выборки.                   байесовских методов (non-parametric Bayes),
   Во второй половине 00ых гг стало активно              рассмотрим задачу определения числа кластеров
развиваться направление, получившее название             (скоплений объектов) в растущей выборке
глубинного обучения [4]. В его основе лежат              объектов. Данная задача тем более актуальна, что
нейроные сети, претерпевшие значительные                 общепринятых методов определения, а из скольки
изменения:                                               же кластеров состоит даже зафиксированная
                                                         выборка, на сегодняшний день не существует. Чем
   • Глубиннное      обучение       строит    не         больше объектов поступает в наше распоряжение,
     дискриминативные, а порождающие модели              тем с большим разрешением мы можем находить
     (generative models), в которых моделируется         в них структуру, выделяя кластеры схожих
     общее распределение p(X, T, w),
                                  ~ в отличие от         между собой объектов. В случае достаточно
     дискриминативных моделей, позволяющее,              неоднородной выборки число кластеров должно
     например, генерировать новые объекты.               постепенно увеличиваться по мере поступления
                                                         новых объектов. Возникает вопрос, можно ли
   • В наиболее распространенной постановке              задать наши представления о том, как быстро
     все переменные объектов предполагаются              должно расти число кластеров с ростом данных
     бинарными. Это облегчает моделирование              (чтобы их не было слишком много или слишком
     зависимостей между переменными объекта.             мало) и как, глядя на выборку объектов, учесть
   • Каждый слой сети сначала обучается                  эти представления. Формально, ответ может быть
     независимо,        проходя          процедуру       задан знаменитой формулой Байеса, которая как
     предобучения         (pre-training).      Это       раз и объединяет наши априорные представления
     позволяет «нащупать» хорошее начальное              с текущими наблюдениями
     приближение для последующего запуска                                    Likelihood × Prior
     алгоритма      обратного     распространения                  Posterior =                  .
                                                                                  Evidence
     ошибки. Каждый слой, в зависимости от               В непараметрическом случае, нам необходимо
     выбранной модели, представляет собой                задать распределение над всевозможными
     ограниченную машину Больцмана (restrict-            разбиениями произвольного количества объектов.
     ed Boltzmann machine) или сверточную сеть           Такое распределение (как и многие другие
     (convolutional network).                            в непараметрических байесовских методах)
   • Для обучения используются сотни тысяч               задается с помощью случайных процессов. В
     и миллионы объектов. Такие гигантские               данном случае, это процесс Дирихле (Dirich-
     выборки позволяют настраивать сети с                let process), также известный как процесс
     десятками тысяч параметров, без риска               китайского ресторана (Chinese restraunt pro-
     переобучения. Обученные таким образом               cess) [7].2 С его помощью, удается не только
     сети, не просто позволяют моделировать              расчитать для любого разбиения проивольного
     сложные объекты (например, тексты                   числа объектов на кластеры его априорную
     или изображения), но и генерируют                   вероятность, но и учесть характеристики
     в процессе обучения информативные                   объектов (их наблюдаемые переменные), чтобы
     признаковые описания, которые могут быть
                                                            2 Вообще, терминология в непараметрическом Байесе
     использованы другими, более простыми
                                                         грешит восточными гастрономическими наклонностями.
     алгоритмами машинного       обучения   в            Известен еще процесс китайской франшизы [ресторанов]
     качестве наблюдаемых переменных объекта.            и процесс индийского буфета :)


                                                     3
перейти к апостериорному распределению                   поскольку в них зачастую неявно предполагается,
на всевозможные разбиения. Как это часто                 что вся выборка помещается в памяти
бывает при применении байесовских методов,               компьютера, или же они имеют недостаточно
апостериорное распределение имеет острый пик,            высокие показатели масштабируемости (скорости
который соответствует устойчивому разбиению              роста вычислительной сложности в зависимости
выборки объектов на некоторое число клстеров.            от размера выборки). Для преодоления этих
Фактически,       процесс    Дирихле     позволяет       ограничений часто используются приемы из
задавать распределения над всевозможными                 следующих категорий:
дискретными распределениями. При выводе
используются приближенные методы Монте-                     • Распараллеливание.          Независимые
Карло с марковскими цепями (Markov chain                      части алгоритма могут выполняться
Monte Carlo) и методы вариационного вывода                    параллельными       обработчиками      (в
(variational inference). Описанная схема допускает            т.ч. на разных компьютерах) и в
многочисленные обобщения на случай иерархий                   произвольном порядке. В некоторых
кластеров, множественных выборок, и др.                       случаях     параллельной      реализации
                                                              классичесского алгоритма может быть
                                                              достаточно для конкретной задачи. В
2.3 Обучение с подкреплением
                                                              той или иной форме параллельность
Еще одной активно развивающейся областью                      лежит    в   основе   практически    всех
машинного обучения является обучение с                        вычислительных систем, ориентированных
подкреплением, предназначенное для обучения                   на большие данные. Примечательно, что
агентов (автономных модулей, самостоятельно                   параллельность накладывает существенные
принимающих решения в реальном времени на                     ограничения на взаимодействие между
основании располагаемых данных) в условиях                    обработчиками,    так   как    накладные
неопределенности, порождаемой, как неполнотой                 расходы на «общение» между ними может
информации об окружающей обстановке, так                      превышать выигрыш от использования
и возможными действиями других агентов.                       большого вычислительного кластера.
В    зависимости    от   текущего     состояния
среды и действий агентов расчитывается                      • Аппроксимация. Известно, что многие
функция выгоды, которую получит агент                         сложные задачи могут быть решены
в следующий момент времени. В роли                            приближенно с достаточно большой (а
наблюдаемых переменных объекта выступает                      иногда и контролируемой) точностью,
информация, располагаемая агентом, а скрытыми                 достаточной для данного эксперимента.
переменными являются долгосрочные оценки                      Примерами могут служить фильтр Блума
полученной выгоды. Важным достоинством                        или приближенный алгоритм поиска
алгоритмов обучения с подкреплением является                  ближайшего соседа, которые допускают
возможность обучения агента «с нуля» за                       ошибки первого рода, но имеют существенно
счет    балансируемого   сочетания     режимов                более низкую вычислительную сложность
«исследование-использование»       (exploration-              чем их «точные» аналоги.
exploitation)   и    выучивания      стратегий,             • Стохастичность     (рандомизация).     При
позволяющих жертвовать малым сейчас ради                      наличии большого числа независимых
получения большей выгоды в дальнейшем.                        объектов в выборке, многие необходимые
Алгоритмы обучения с подкреплением нашли                      статистики могут быть оценены по
широкое применение не только в таких                          случайной     подвыборке,     при     этом
традиционных областях как роботехника, но                     сохраняются     теоретические     гарантии
и, например, на фондовых рынках.                              оптимальности и сходимости алгоритма.
                                                              В случае, если выбирается подвыборка
2.4 Анализ больших объемов данных                             некоторого     фиксированного      размера
Термин «большие данные» (англ. big data) вошел                это   позволяет     получать   алгоритмы
в употребление в конце 2000-х годов, когда                    с    сублинейной      масштабируемостью.
стал возможным сбор и хранение огромных                       Наиболее известным алгоритмом, где
объемов данных. Феномен больших данных                        применяется данный подход, является
можно наглядно продемонстрировать на примере                  метод стохастического градиентного спуска.
большого адронного коллайдера, который в                 В последнее время стали также набирать
прошлом году произвел около 25 петабайт                  популярность т.н. потоковые алгоритмы (stream-
экспериментальных данных [3]. Традиционные               ing algorithms, online learning), способные
методы    машинного   обучения     не    всегда          обучаться инкрементально в режиме реального
применимы для анализа выборок такого размера,            времени на постоянно поступающих данных


                                                     4
без необходимости хранить их где-либо в                       о   данном    пикселе    (цвет,  значения
памяти. Спрос на них возникает, как правило,                  дескрипторов, интенсивность и др.) или
в приложениях, где данные поступают в таких                   других пикселях, важную роль играют
количествах и с такой скоростью, что нет                      метки соседних пикселей, т.к. неявно
никакой возможности сохранять их, по крайней                  предполагается, что соседние пиксели чаще
мере, надолго. С такими задачами анализа                      всего имеют одинаковые метки.
данных сталкиваются, например, исследователи
в ЦЕРНе, где данные генерируются со скоростью               • Имитационное      моделирование.    При
700 мегабайт в секунду.3                                      моделировании сред взаимодействующих
                                                              агентов (например, транспортных потоков
                                                              в городах) состояние каждого агента
3 Вероятностные графические модели                            зависит, помимо прочего, от состояний
                                                              других агентов, находящихся в пределах
Одним из наиболее впечатляющих результатов                    зоны взаимодействия. Состояние каждого
использования байесовского формализма для                     агента можно рассматривать как скрытую
описания задач обработки данных явился                        переменную обеъекта, зависящую от
аппарат вероятностных графических моделей,                    скрытых переменных других объектов.
в общих чертах разработанный к концу                          Исследование таких взаимодействий играет
90ых-началу 00гг [5]. Графические модели                      важную роль, т.к. позволяет установить
позволили радикально пересмотреть области                     условия скачкообразных переходов от
применения методов машинного обучения и                       локальных взаимодействий к глобальным
анализа данных за счет отказа от требования                   (т.н.  фазовые    переходы),   например,
независимости скрытых переменных для разных                   когда из-за резкого кратковременного
объектов. Дискриминативная модель выборки                     торможения одной машины в потоке
объектов задается совместным распределением                   возникает многокилометровая пробка.
p(T, w|X)
     ~    = p(T |X, w)p(
                    ~ w),~ которое, в отличие от
классического случая, больше не факторизуется               • Коллаборативная фильтрация (collabo-
по отдельным объектам.                                        rative filtering). С развитием интернет-
   Прежде     чем     продолжить     дальнейшее               коммерции все большую актуальность
изложение приведем несколько примеров,                        получают рекомендательные сервисы. В
иллюстрирующих, насколько более широкий                       ситуации, когда посетитель физически
пласт задач можно решать за счет отказа от                    не может просмотреть весь ассортимент
предположения о независимости.                                интернет-магазина, включающий в себя
   • Социальные сети. Пользователи социальных                 десятки тысяч наименований, возникает
     сетей характеризуются, как наблюдаемыми                  задача      формирования     ограниченного
     переменными        (например,     анкетной               списка товаров, которые его потенциально
     информацией,      которую     пользователь               могут заинтересовать. Ясно, что кроме
     сообщил о себе в сети), так и скрытыми                   наблюдаемых         переменных     объекта
     переменными (например, его реальными                     (клиента), характеризующих его социально-
     интересами,     предрасположенностью      к              демографический профиль и историю
     положительной реакции на адресную                        покупок,       необходимо    анализировать
     рекламу и т.п.). Хотя мы можем формально                 покупки других клиентов и близость
     анализировать      каждого    пользователя               их    предпочтений      к   предпочтениям
     независимо,     представляется    довольно               рассматриваемого клиента.
     очевидным, что информация о значениях                  Характерное число объектов в выборке,
     скрытых      переменных     его     друзей,         с   которым    приходится    сталкиваться    в
     может значительно расширить наши                    современных задачах составляет величину
     представления о данном пользователе.                порядка   десятков    тысяч    –   миллионов.
   • Компьютерное       зрение.     В   задаче           Основная    трудность,    возникающая     при
     семантической сегментации изображений,              попытке построить вероятностную модель,
     являющейся     первым      этапом  любой            содержащую      взаимозависимости      между
     системы компьютерного зрения, требуется             скрытыми переменными объектов, заключается
     сопоставить каждому пикселю некоторую               в невозможности задать такое распределение
     метку класса, соответствующую предмету,             в общем виде. В самом деле, пусть имеется
     в изображение которого входит данный                тысяча объектов, у каждого из которых есть
     пискель. Очевидно, что помимо информации            одна скрытая переменная, принимающая два
                                                         значения. Для того, чтобы задать p(T |X, w)~
  3 Автор хотел бы выразить благодарность Сергею         нам понадобилось бы задать 21000 ≈ 10300
Бартунову за помощь при написании данного раздела.       значений   вероятностей.   Такое   количество


                                                     5
на много порядков превосходит объемы                                     переменных
доступной памяти любого хранилища данных.                                                     Z
При    использовании    графических    моделей
                                                                           p(a1 , . . . , ak ) = p(a1 , . . . , an )dak+1 . . . dan =
предполагается, что совместное распределение
                                                                                           Z
может быть представленно в виде произведения
т.н. факторов, каждый из которых зависит от                                            = p(a1 , . . . , ak |ak+1 , . . . , an )×
небольшого подмножества объектов, причем                                                       × p(ak+1 , . . . , an )dak+1 . . . dan .
подмножества пересекаются. Благодаря этому
удается смоделировать ситуации, когда скрытая                            Все операции, осуществляемые с вероятностными
компонента произвольного объекта зависит от                              моделями при использовании байесовского
скрытой компоненты каждого из оставшихся                                 формализма, опираются на применение этих
объектов выборки. С другой стороны, за счет                              двух правил.
факторизации, можно уменьшить требования к
памяти вплоть до линейных по числу объектов,                             3.2   Байесовские сети
что позволяет хранить совместные распределения
на сотни тысяч объектов.                                                 Байесовские сети позволяют моделировать
                                                                         причинно-следственные       связи       между
3.1 Условная независимость объектов                                      величинами. Для этого на множестве переменных
                                                                         Y = (X, T, w)~ нашей вероятностной модели
Ключевым       понятием,  необходимым    для                             задается ориентированный граф, в котором
понимания логики работы аппарата графических                             ребра отражают отношения причинности. По
моделей,      является   понятие    условной                             смыслу построения в таком графе запрещены
независимости слуайных величин. Случайные                                ориентированные циклы. Граф причинности
величины a и b называются незвисимыми при                                задает систему факторизации совместного
условии c, если верно4                                                   распределения
                  p(a, b|c) = p(a|c)p(b|c).                                                          n
                                                                                                     Y
                                                                                           p(Y ) =         p(yi |pai ),
Простейшим примером условно независимых                                                              i=1
величин являются: рост человека (величина
                                                                         где pai — множество родителей i-ой вершины.
a), длина его волос (величина b) и его пол
                                                                         Заметим, что размер каждого фактора (а именно
(величина c). Хорошо известно, что рост обратно
                                                                         размерность факторов служит мерой сложности
коррелирует с длиной волос, однако, после
                                                                         распределения как на этапе его задания, так
добавления в вероятностную модель фактора
                                                                         и на этапе работы с ним) определяется числом
пола человека, рост и длина волос становятся
                                                                         родителей вершины. Такая система факторизации
независимыми величинами.
                                                                         значительно упрощает расчеты произвольных
   Напомним, также, два основных правила
                                                                         условных и маргинальных распределений (а
работы со случайными величинами. Рассмотрим
                                                                         именно к этому, как мы помним, сводятся задачи
совместную плотность n случайных величин
                                                                         настройки и вывода в байесовских моделях).
p(a1 , . . . , an ). Правило произведения говорит о
                                                                         Так, используя факторизацию совместного
том, что любую многомерную плотность можно
                                                                         распределения, заданную байесовской сетью
представить в виде произведения одномерных
                                                                         на рис. 2 и применяя правила произведения
условных плотностей
                                                                         и суммирования, легко получить выражение
                                                                         для, например, такого условного распределения
  p(a1 , . . . , an ) = p(an |a1 , . . . , an−1 )×
                                                                         p(y5 |y2 ):
             × p(an−1 |a1 , . . . , an−2 ) . . . p(a2 |a1 )p(a1 ).                     Z
Аналогичные представления можно выписать для                               p(y5 |y2 ) = p(y5 |y2 , y3 )p(y3 |y1 , y2 )p(y1 )dy1 dy3 .
произвольного переупорядочивания переменных.
   Правило суммирования позволяет получать
безусловные распределения меньшей размерности
путем исключения (маргинализации) части                                  3.3   Марковские сети
                                                                         Часто возникает необходимость моделировать
  4 Не ограничивая общности будем полагать величины                      системы случайных величин между которыми
непрерывными и имеющими плотности. Индексы у
                                                                         есть зависимости, но некорректно говорить
функций плотностей будем опускать, считая, что они
однозначно идентифицируются своим аргументом.                            о причинно-следственных связях. Примером
                                                                         таких величин могут быть метки соседних
                                                                         пикселей в задаче сегментации изображений
                                                                         или профили друзей в социальной сети. Для


                                                                     6
                                                          Заметим, что все эти задачи сводятся к
                                                          подсчету тех или иных условных распределений
                                                          на неизвестные переменные при условии
                                                          наблюдаемых переменных и, быть может,
                                                          маргинализации по нерелевантным переменным.
                                                          Можно заметить, что те же задачи возникают в
                                                          классическом машинном обучении. Перенесение
                                                          классических результатов на (более сложные)
                                                          графические модели является одним из
                                                          важнейших направлений работ в современном
        Рис. 2: Пример байесовской сети
                                                          машинном обучении.5

моделирования таких зависимоетй на множестве              Список литературы
величин задается неориентированный граф,
определяющий     факторизацию        совместного           [1] C. Bishop. Pattern Recognition and Machine
распределения таким образом                                    Learning. Springer, 2006.
                             Q
             1 Y                  ψc (Yc )                 [2] D. Blei, A. Ng, M. Jordan. Latent Dirichlet Al-
     p(Y ) =     ψc (Yc ) = P c∈C
                               Q              ,                location. Journal of Machine Learning Research,
             Z               Y   c∈C ψc (Yc )
               c∈C
                                                               2003, 3(4-5): 993Џ1022.
где ψc (.) — неотрицательные функции, заданные             [3] G. Brumfiel. "High-energy physics: Down the
на максимальных кликах графа. Заметим, что                     petabyte highway". Nature 469, 2011, pp. 282-
в отличие от байесовских сетей, множители                      283.
(факторы) не имеют вероятностного смысла,
поэтому необходима дополнительная нормировка               [4] G. Hinton, S. Osindero, Y. Teh. A Fast learning
произведения факторов. Легко показать, что если                Algorithm for Deep Belief Nets. Neural Compu-
величины y 0 и y 00 никогда не входят в один фактор            tation, 2006, 18(7): 1527-1554.
(т.е. не соединены ребром), то они являются
независимыми при условии, что все остальные                [5] D. Koller, N. Friedman. Probabilistic Graphical
величины известны. Таким образом, ребра графа                  Models. MIT Press, 2009.
определяют отношения условной независимости.               [6] D. MacKay. Bayesian Interpolation. Neural
    Одним из достоинств систем факторизации,                   Computation, 1992, 4, 415-447.
задаваемых графическими моделями, наравне
с    удобством       представления     многомерных         [7] C. E. Rasmussen. The infnite Gaussian mixture
распределений,           является      возможность             model. In Advances in Neural Information Pro-
параллельной и распределенной обработки                        cessing Systems, Vol. 12, 2000
информации           при     подсчете      условных
распределений, например, с помощью интерфейса              [8] R. Sutton, A. Barto. Reinforcement Learning:
передачи сообщений (message-passing interface).                An Introduction. MIT Press, 1998.

3.4 Основные    задачи,        возникающие       в        4 Abstract
    графических моделях
                                                          In the paper we briefly present main active areas in
Аппарат     графических  моделей   активно                modern machine learning and highlight several new
используется для точного или приближенного                paradigms which became extremely popular since
решения следующих основных задач                          the end of 90s. These paradigms make it possible
                                                          to include prior domain- and task-specific knowledge
                                     ~ tr , T tr );
   • Обучение с учителем arg maxw~ p(w|X
                                                          in the data model. Among them are Bayesian in-
                                      ~ tr ) =
   • ОбучениеPбез учителя arg maxw~ p(w|X                 ference, reinforcement learning, big data processing,
     arg maxw~ T p(w,    tr
                   ~ T |X );                              non-parametric Bayes, deep learning and probabilis-
                                                          tic graphical models. The latter framework is pre-
   • Подсчет нормировочной константы Z;                   sented in more detail.
   • Подсчет наиболее вероятной конфигурации
     скрытых переменных arg maxT p(T |X, w)
                                         ~
   • Подсчет маргинального распределения
     фиксированной переменной p(ti |X, w).
                                       ~
                                                             5 Работа выполнена при поддержке гранта РФФИ 12-01-

                                                          00938.


                                                      7

</pre>