=Paper=
{{Paper
|id=Vol-1752/paper44
|storemode=property
|title=
Сокращение числа виртуальных экспериментов с помощью оценки корреляций параметров взаимодействующих гипотез

(Reducing the Number of Virtual Experiments by Estimating the Correlation Parameters of
Interacting Hypotheses)

|pdfUrl=https://ceur-ws.org/Vol-1752/paper44.pdf
|volume=Vol-1752
|authors=Evgeny Tarasov
|dblpUrl=https://dblp.org/rec/conf/rcdl/Tarasov16
}}
==
Сокращение числа виртуальных экспериментов с помощью оценки корреляций параметров взаимодействующих гипотез

(Reducing the Number of Virtual Experiments by Estimating the Correlation Parameters of
Interacting Hypotheses)
==
<pdf width="1500px">https://ceur-ws.org/Vol-1752/paper44.pdf</pdf>
<pre>
        Сокращение числа виртуальных экспериментов
          с помощью оценки корреляций параметров
                 взаимодействующих гипотез

                                            © Е. А. Тарасов
               Московский государственный университет им. М.В. Ломоносова
                                     Москва, Россия

                   Аннотация                                    В     процессе     выполнения      виртуального
                                                             эксперимента      происходит       манипулирование
В данной работе представлен подход, позволяющий              параметрами гипотез, т.е. набором переменных,
исследователю сократить число виртуальных                    которые в некоторых случаях могут быть
экспериментов, уменьшив количество наборов                   коррелированы между собой, а также с параметрами
тестовых сценариев. Рассматриваемый подход                   других гипотез [10].
основывается на вычислении корреляций между                     Так как число потенциальных гипотез в
параметрами различных гипотез. Для решения                   виртуальном эксперименте может быть огромным, а
данной задачи был выполнен обзор и сравнительный             их взаимодействие нетривиальным, то в результате
анализ существующих систем: Hephaestus, FCCE, ϒ-             образуется пространство с большим числом
DB, реализующих схожий функционал. Далее, был                виртуальных экспериментов, часть из которых плохо
произведен обзор алгоритмов отбора признаков,                описывает наблюдения и нуждается в отсеивании
позволяющих уменьшить исследуемое пространство               ещё до выполнения эксперимента. Как следствие,
параметров и выявить взаимосвязь между ними.                 исследователю необходимо средство, позволяющее
Были сформулированы функциональные требования                заранее    выявить     и     отсеять   виртуальные
к проектируемой системе. Рассмотрена практическая            эксперименты с прогнозируемо плохим результатом.
задача, которая может быть решена в рамках                   В тоже время наличие сложных зависимостей в
реализации данной платформы и описан ее частный              данных затрудняет их понимание исследователем и
случай, а именно, оценка корреляции параметров               не позволяет делать это вручную [3]. Машинные
гипотез в астрономической задаче, которая будет              средства     оценки       корреляции     позволяют
использоваться в качестве тестового задания на этапе         автоматически         разделить        виртуальные
отладки системы.                                             эксперименты на группы с заранее прогнозируемо
   Работа поддержана РФФИ (гранты 14-07-00548,               хорошим и плохим результатом эксперимента [4].
16-07-01028).                                                   Разрабатываемая       архитектура    платформы
                                                             рассматривается в рамках более широкого проекта
1 Введение                                                   лаборатории, следовательно, будет интегрирована в
   В современном мире исследования всё более
                                                             него отдельным модулем [10].
зависимы от данных, которые становятся ключевым
                                                                Статья организована следующим образом. В
источником для получения новых знаний в той или
                                                             разделе 2 приводится обзор существующих систем,
иной области человеческой деятельности [4]. Такой
                                                             позволяющих решать схожую задачу поиска
подход получил название исследований с
                                                             корреляций и причинно-следственных связей. В
интенсивным использованием данных (ИИИД) [10] и
                                                             разделе 3 приводится обзор алгоритмов отбора
развивается в соответствии с 4-й парадигмой
                                                             признаков. В разделе 4 формулируются требования к
научного развития [8]. Одним из ключевых
                                                             проектируемой системе. В разделе 5 формулируется
элементов ИИИД является явное использование
                                                             тестовая задача поиска корреляции между двумя
гипотез     в     определении      виртуального
                                                             гипотезами. В разделе 6 формулируются дальнейшие
эксперимента [3].    Гипотезам     соответствует
                                                             шаги по развитию данной работы.
некоторая формальная спецификация свойств
исследуемого явления, которая чаще всего имеет
математическое представление. Сформулированные               2 Обзор платформ для поиска
гипотезы нуждаются в тщательной проверке.                    корреляций над большими массивами
                                                             данных
Труды   XVIII Международной конференции                      2.1 Hephaestus
DAMDID/RCDL’2016 «Аналитика и управление
данными     в   областях   с    интенсивным                     В основе системы Hephaestus [3] лежит работа с
использованием данных», Ершово, 11-14 октября                виртуальными экспериментами над данными.
2016                                                         Система     помогает   исследователю       искать


                                                       272
корреляционные зависимости между большим                     охватывающих большие временные диапазоны. Она
числом переменных, предоставляет возможность                 ориентирована на работу с минимальными
сформировать гипотезы по наиболее перспективным              задержками и доступом к не пред-обработанным
связям, а затем с помощью тщательного                        исходным данным.
тестирования перейти к причинно-следственной                    Данная система рассматривалась на примере 2-х
зависимости. Центральным блоком системы                      задач из области безопасности: обнаружения
является SQL-подобный декларативный язык для                 доменных имен потенциальных сетей зараженных
описания виртуального эксперимента, с помощью                рабочих станций и пост-инцидентное расследование
которого     возможно      проектировать      дизайн         проникновения.
эксперимента, специфицировать основные гипотезы                 Для минимизации задержек обработки данных
и их параметры, тестировать их, исполнять                    решено было отказаться от использования
выбранные      эксперименты       и     публиковать          традиционных реляционных баз данных для
исследования. Так как применение только                      хранения информации и перейти на NoSQL.
статистических методов и машинного обучения                     Ключевым компонентом модели данных является
может приводить к ошибочным результатам в поиске             концепция признаков. Признаки определяют связь
причинно-следственных       связей,   то    системы          между парой ключ-значение, каждый элемент из
ориентирована на симбиоз между человеком и                   которых может содержать несколько атрибутов.
машиной. Используя корреляционные связи,                     FCCE представляет упрощенную реляционную
которые были проверены экспертами в предметной               модель данных для пользователя, где каждая таблица
области,    Hephaestus    собирает     вероятностно          хранит один тип признаков. Каждая строка
причинные графы для спецификации семантики                   идентифицируема ключом и может содержать
предметной области. Причинный граф поддерживает              несколько атрибутов.
большое количество связей, обнаруженных в                       FCCE обеспечивает API для хранения, получения
процессе выполнения виртуального эксперимента, а             и вычисления корреляции над признаками.
также позволяет исследовать последовательность               Разработчики предлагают оригинальный подход
выявления вероятностных причин и аномалий.                   интеграции модуля оценки критерия корреляции в
   Hephaestus – это мета-система для исполнения              движок исполнения запросов над хранилищем,
виртуального эксперимента над существующими                  позволяющий ускорить время ответа на запрос и
базами данных, которые могут уже выполнять                   снизить накладные расходы на вычисление и ввод-
некоторую аналитику локально. Она ориентирована              вывод. FCCE использует два отличительных
на работу с очищенными и размеченными данными.               механизма для поддержки эффективности операций
Система состоит из следующих модулей:                        нахождения корреляций между признаками: канал
   Получения набора данных. Авторы стремятся                запросов и модификатор запросов. Канал –
      создать некую поисковую систему, которая               механизм, позволяющий передавать признаки,
      принимает на вход строку, описывающую                  извлеченные из одного запроса в другой запрос в
      параметры         гипотезы,        возвращает          качестве входных данных, т.е. последовательно
      ранжированный       список     потенциальных           можно объединять несколько GET функций, тем
      причинно-следственных зависимостей.                    самым создавай пересечения нескольких признаков.
   Тестирования гипотез. Является основным                  Модификатор – над GET запросом предполагает
      рабочим      модулем      системы.     Движок          использование широкого набора опций для более
      составляет запрос для оценки каждого                   тонкого контроля его поведения.
      возможного      взаимодействия,      разбивает            Архитектура платформы состоит из следующих
      образцы на контрольные блоки и высчитывает             модулей:
      заданную метрику точности для каждого из                  Извлечение. Для каждого источника эксперты
      них. После расчета статистики для блока,                     в области определяют метод извлечения
      движок объединяет результаты, получая                        признаков из сырых данных.
      взвешенную оценку гипотезы.                                 Агрегация. Данные собираются из различных
   Ранжирования         результатов.      Гипотезы                локальных экстракторов в так называемые
      объединяются и сортируются по некоторой                      коллекторы, которые выполняют функцию
      вероятностной оценке.                                        дедупликации,          отказоустойчивости,
   Вероятностно причинный граф – направленный                      балансировки нагрузки.
ацикличный      граф,    содержащий       коллекции
                                                                  Хранение. Централизованное хранилище, над
причинно-следственных связей. Этот символьный
                                                                   которым выполняются запросы к признакам.
язык позволяет исследователю интегрировать новые
полученные знания для предметной области со                       Получение. Модуль обеспечивает интерфейс
своими ранее доступными знаниями в определенных                    запросов над хранилищем признаков. Доступ
областях науки.                                                    к данным организован с помощью 3
                                                                   компонент. Первый состоит из Сервиса
2.2 FCCE                                                           регистрации, осуществляет поиск корневого
    Платформа FCCE [16] разрабатывается для                        коллектора, и Протокола запросов, посылает
поиска корреляций в разнородных наборах данных,                    запросы к соответствующему хранилищу,


                                                       273
      используя тип признаков и ключи в качестве              W3C MathML. Платформа ϒ-DB имеет XML адаптер
      предикатов запросов. Второй, используя                  для извлечения моделей зашифрованных в формате
      специальный протокол, может подписаться на              MathML и вывода причинных зависимостей.
      определенный экстрактор или коллектор, так                 Ключевым        компонентом         архитектуры
      что при появлении интересующей пары ключ-               платформы является канал синтеза, который
      значение они сразу попадут в него. Третий               представляет собой последовательный процесс
      реализует интерфейс поиска корреляции                   обработки данных. На вход поступает структура
      признаков и позволяет настроить различные               гипотез и их данные. Из структуры извлекается
      функции корреляции для получения знаний из              функциональные зависимости. Данные помещаются
      различных типов признаков.                              в большую таблицу, содержащую все переменные
   Более подробно механизм поиска корреляции                  как реляционные атрибуты в таблице. Затем
признаков авторы статьи собираются раскрыть в                 включается компонент синтеза и трансформирует
будущих работах. В перспективе они так же                     данные из большой таблицы в вероятностную базу
планируют     перенести    функционал     поиска              данных, где каждая гипотеза декомпозируется в
корреляций с уровня доступа к данным на уровень               таблицы претендентов. Авторами был предложен
хранилища признаков для уменьшения задержки при               алгоритм трансформации каждой гипотезы в
обработке сложных запросов.                                   вероятностную     таблицу.     Базовый     принцип
                                                              проектирования неопределенного моделирования
2.3 ϒ-DB                                                      состоит в том, чтобы определить только одну
    Разработки системы ϒ-DB [4, 5] ведутся с целью            случайную       переменную        для      каждого
поддержки       процесса     проведения      научных          действительного фактора неопределенности (u-
исследований, обеспечивая возможность управления              фактор). Модель гипотезы сама по себе это
гипотезами и их анализа. Предиктивная аналитика               теоретический u-фактор, чья неопределенность
строится над вероятностной базой данных.                      исходит из множества моделей, ориентированных на
    В работе делается упор на управление                      объяснение того же явления. Множество испытаний
параметрами гипотез. Ключевые особенности такого              каждой гипотезы нацеленных на один и тот же
подхода     и     их   отличия     от     управления          феномен порождает множество эмпирических u-
экспериментальными данными заключаются в                      факторов. Для поддержки тестирования гипотезы
следующем:                                                    вероятностное распределение феномена должно
                                                              учитывать оба вида u-фактора.
    Работа ведется не со всеми данными,
                                                                 Предиктивная аналитика выполняется над
       полученными в результате эксперимента, а
                                                              вероятностной базой. ϒ-DB не предлагает каких либо
       только лишь с некоторым отобранным
                                                              новых инструментов для тестирования гипотез.
       подмножеством. Тем самым уменьшается
                                                              Насколько можно понять, это статические методы на
       объем,            но           увеличивается
                                                              основе Байеса.
       структурированность данных.
                                                                 Прототип системы разработан как Web-
    Если при работе с обычными данными модель                приложение, написанное на Java, с компонентами
       доступа к ним ориентирована на работу с                канала, реализованными на стороне сервера поверх
       измерениями (денормализованный вид), то                MayBMS. Где MayBMS – это расширение
       модель     хранения    параметров      гипотез         PostgreSQL. Как отмечают авторы управление
       определяется из её структуры, т.е. происходит          данными гипотез является перспективным новым
       нормализация            по           факторам          полем       исследовательской         деятельности,
       неопределенности.                                      позволяющим получить больше пользы из
    К неопределенностям на уровне данных,                    эксперементальных        данных,          открытых
       источниками которой являются их неполнота              исследовательскими лабораториями. В планы
       и несогласованность, так же добавляется                дальнейшего     развития      входит     улучшить:
       неопределенность,                порожденная           статистические способности и масштабируемость
       существованием множества конкурирующих                 системы для тестирования выборок большого
       гипотез.                                               объема.
    В качестве примера авторами был разобран
сценарий расчета физиологических гипотез, а
                                                              2.4 Отличия от существующих подходов
именно тестирование трёх различных теоретических
моделей насыщенности гемоглобина кислородом.                     В рамка данного подхода исследователь работает
    Первый этап работы с гипотезами – это их                  с уже существующими гипотезами, моделирующими
кодирование. Для вычисления предсказаний                      свойство какого-либо явления в природе, экономике,
гипотезы используют асимметричные функции,                    бизнесе и т.д. Гипотеза является ключевым
которые выполняют оценку над входными                         элементом рассматриваемого метода. Все параметры
переменными (параметры) для вычисления значений               гипотез являются ценными и несущими информацию
выходных переменных (предсказаний). Техника                   и поэтому от них нельзя избавляться.
кодирования гипотез базируется на наличие                        Из-за    присутствия      априорных     знаний,
структуры гипотезы в машиночитаемом формате                   накопленных в виде гипотез, выбор параметров не


                                                        274
является полностью черным ящиком – в отличие от            следовательно, использовать их в качестве входных
методов машинного обучения. Исследователю также            данных для широко известных алгоритмов
заранее известна некоторая часть взаимосвязей              машинного обучения [6]. Так же данные методы
между гипотезами, т.е. какие из них зависимы друг          позволяют уменьшить шум в данных и выявить
от друга.                                                  взаимодействие между параметрами.
   Для части гипотез могут быть доступны                      Методы       отбора    признаков      возможно
локальные наблюдения, соответствующие их                   классифицировать следующим образом: Фильтры,
параметрам и выступающих в качестве ограничений            Обертки, Встроенные [1, 13].
на совокупность этих гипотез. Кроме наблюдений                Фильтры. Опираются на общие характеристики
может быть доступна некоторое теоретическое                обучающих данных и осуществляют процесс
распределение параметров гипотез.                          выборки признаков в качестве шага предварительной
   Гипотезы могут быть сформулированы как набор            обработки независимо от индукционного алгоритма.
правил, система математических уравнений и пр.             Обладают низкой стоимостью вычислений. Фильтры
Разрабатываемая в рамках данного подхода система           используются в кластеризации для построения
должна уметь работать с разнообразными входными            начального приближения. Не предназначены для
данными. При добавлении новых значений                     выявления сложных связей между признаками, т.к.
параметров гипотез или включений новых гипотез в           обладают низкой чувствительностью.
существующий набор система должна обновлять                   К таким методам можно отнести: CFS [6] – где
набор сокращенных экспериментов.                           выбор признаков на основе корреляций. Является
   Предлагаемый метод работает с симуляциями и             простым       многофакторным        фильтрующим
наблюдениями. Сопоставляя экспериментальные и              алгоритмом, который раскладывает подмножество
фактические данные, мы восстанавливаем полную              признаков согласно эвристической функции оценки,
модель по частично доступной.                              основанной на корреляции. INTERACT [20] – двух
   Рассматриваемый подход нацелен на исключение            этапный алгоритм, основанный на симметричной
заведомо «плохих» экспериментов, т.е. тех, которые         неопределенности и согласованности. ReliefF [11] –
производят симуляции с большой ошибкой.                    который является расширением алгоритма Relief, и
Установление причинно-следственных связей не               работает путем случайной выборки экземпляра из
является целью данной работы. Возможность                  данных, а затем находит его ближайшего соседа из
поддержки данного механизма планируется в                  того же или противоположного класса. mRMR [14] –
дальнейшем.                                                выбирает признаки, которые имеют самое высокое
   Таким образом сокращение числа экспериментов            значение информативности с целевым классом и
достигается за счет:                                       обладающие минимальной избыточностью. Его
   Поиска корреляций – это позволяет                      разновидностью является Md фильтр [17] – который
      объединить признаки исследуемого явления в           использует меру монотонной зависимости для
      некоторые группы, оказывающие влияние на             оценки информативности.
      него в некоторой совокупности.                          Обертки. Включают оптимизацию предиктора
     Анализ этих признаков – необходимо                   как часть процесса выбора. Позволяют выявлять
      подобрать набор значений параметров в                зависимости признаков. Качество выборки зависит
      рамках выделенной группы, которые с                  от    индукционного      алгоритма.     Основным
      определенными   показателями  точности               недостатком является вычислительная нагрузка,
      описывали   бы    фактические   данные               которая исходит от вызова алгоритма индукции для
      наблюдений.                                          оценки каждого подмножества интересующих
                                                           параметров.
     Ранжирование гипотез по степени точности                К ним можно отнести: WrapperSubsetEval [19] –
      виртуального эксперимента. Это поможет               вычисляет наборы признаков с использованием
      исследователю обратить внимание на                   схемы обучения. Для оценки точности схемы
      наиболее    вероятные     гипотезы      без          обучения для набора признаков используется
      необходимости полного перебора гипотез.              перекрестная проверка. В качестве схемы обучения
                                                           могут использоваться SVM и C4.5.
3 Методы отбора признаков                                     Встроенные. Выполняют функции выборки в
                                                           процессе обучения. Как правило специфичны для
   Для уменьшения пространства параметров                  алгоритмов машинного обучения. Применимость
гипотез и виртуальных экспериментов используются           метода всегда зависит от типа решаемой задачи.
методы отбора признаков [13]. Они позволяют                Позволяют выявлять зависимости признаков.
увеличить скорость обработки данных и получения            Обладают хорошей скоростью работы.
результат, не снижая показатели точности [18],                К ним относятся: SVM-RFE [15] – метод
путем выделения только тех информативных                   осуществляет выбор признаков итеративным
признаков, которые требуются для выполнения                обучением SVM классификатора с текущим набором
виртуального эксперимента.                                 признаков и удаляет наименее важный признак,
   Выделение     набора    признаков   позволяет           указанный SVM. Существуют две версии этого
упростить понимание модели исследователем и,               метода: с линейным и нелинейным ядром. FS-P [12]


                                                     275
– основанный на перцептроне. Идея метода                    Галактики [2] о нахождении корреляции параметров
заключается в обучении перцептрона в контексте              между двумя независимыми гипотезами, а именно
контролируемого обучения. Веса взаимосвязей                 Star Formation Rate и Initial Mass Function. Данные
используются как индикатор того, какие признаки             гипотезы описывают процесс зарождения звезды.
могут быть наиболее информативными.                         Известно, что параметр γ в SFR коррелирует с
   Другие методы. Так же к методам, позволяющим             моделями IMF. Как отмечают авторы:
снизить размерность данных и оценить зависимость               “Однако, мы хотим подчеркнуть, что параметр γ
параметров можно отнести следующие техники.                 коррелирует со значениями других параметров,
Анализ главных компонент (PCA) [7], которая                 используемых в модели, и особенно склонами (α) в
включает в себя преобразование ряда коррелируемых           IMF и возраста диска.” [2]
переменных в меньшее число не коррелируемых.                   В настоящее время авторы фиксируют параметры
Анализ независимых компонент (ICA) [9],                     остальных гипотез и изучают влияние α и γ на
позволяющий не только декоррелировать параметры,            поведение модели вручную. Соответственно, в
но также уменьшает статистические зависимости               данном случае наша система значительно бы
более     высокого      порядка.     Канонический           облегчила работу исследователей.
корреляционный        анализ       (CCA)       [7],
                                                               Гипотеза SFR представляет общую массу звезд,
устанавливающий соотношения линейных связей
                                                            зарожденных в определенной области Галактики за
между    двумя     многомерными      переменными.
                                                            некоторый интервал времени. В версии БМГ от 2014
Неотрицательная     факторизация     (NMF)     [9],
                                                            года [2] функция представляется авторами в
позволяющая       накладывать      дополнительные
                                                            следующем виде:
ограничения на главные компоненты.
                                                                        𝑆𝑆𝑆𝑆𝑆𝑆(𝑖𝑖) = exp(𝛾𝛾 × 𝑥𝑥𝑐𝑐 (𝑖𝑖)) × 𝑑𝑑
   Применимость того или иного метода в
разрабатываемой системе будет оценена на этапе                 Где γ – исследуемый параметр, xc – возраст в i-ом
отладки в рамках решения тестового сценария,                интервале, d – размер возрастного интервала.
описанного ниже.                                               Гипотеза        IMF        представляет        функцию
                                                            распределения массы определенной популяции
4 Формализация требований                                   звезд. В общем виде может быть представлена:
   Разрабатываемая      платформа          должна                                  𝜙𝜙(𝑚𝑚) = 𝑚𝑚−𝛼𝛼
удовлетворять следующим требованиям:                           Где m – масса, α – параметр, характеризующий
•   Система   должна    быть       модульной     и          склон функции. Так как функция представлена на
    функционально расширяемой.                              трех интервалах, то, таким образом, относительная
                                                            масса     внутри        каждого       интервала     может
•   Должна поддерживать связность с другими                 рассчитываться как:
    компонентами глобальной системы, в рамках                                     𝑚𝑚𝑖𝑖+1
    которой она реализуется.                                             𝐾𝐾𝑖𝑖 �            𝑚𝑚𝑚𝑚(𝑚𝑚)𝑑𝑑𝑑𝑑 = 𝑀𝑀𝐼𝐼𝐼𝐼𝐼𝐼𝑖𝑖
•   В качестве модуля хранения данных должна                                 𝑚𝑚𝑖𝑖

    использоваться платформа, ориентированная на               Где Ki – коэффициент непрерывности, i –
    работу с большими объемами, а также                     рассматриваемый интервал.
    поддерживающая      современные     средства               В данном примере представлены две гипотезы
    аналитики.                                              имеющие     математическое      представление    и
•   Ключевым компонентом системы является                   предположение о взаимной зависимости их
    модуль по поиску корреляций параметров                  параметров α и γ.
    гипотез. В качестве используемых методов                   На первом шаге оценивается корреляция
    предлагается использовать различные подходы:            параметров данных двух гипотез. Значения оценки,
    байесовский, частотный, методы машинного                полученные      различными     методами     поиска
    обучения и сравнить полученными ими                     корреляций, должны иметь сопоставимые между
    результаты между собой.                                 собой значения.
•   Системы должна иметь возможность работать с                На втором шаге выполняется анализ данных
    уже сформулированными гипотезами. Гипотезы              признаков. Выполняя виртуальные эксперименты
    должны хранится в базе данных на ряду с                 над ними и сравнивая результаты с реальными
    экспериментальными данными и результатами               наблюдениями, накапливается информация об
    проведения виртуального эксперимента.                   исследуемой модели.
•   В зависимости от практической задачи методы                Полученные значения дают возможность
    машинного обучения могут отличаться от                  ранжировать гипотезы и выбрать наиболее
    описанных в предыдущем разделе.                         вероятные, тем самым упрощая процесс выбора
                                                            значения параметров гипотез модели. Результатом
5 Сценарий для тестирования                                 данной процедуры является набор значений
                                                            параметров α и γ, при этом ожидается что описанные
   В качестве сценария для тестирования будет
рассмотрена частная задача Безансонской Модели


                                                      276
ранее авторами параметры [2] будут включены в этот                 [7] David R. Hardoon, Sandor Szedmak and John
набор.                                                                  Shawe-Taylor. Canonical correlation analysis: an
                                                                        overview with application to learning methods.
Заключение                                                              Neural Computation, 16(12), p. 2639-2664, 2004
                                                                   [8] Tony Hey, Stewart Tansley and Kristin Tolle. The
   В данной работе описан подход, позволяющий                           Fourth     paradigm:     Data-intensive     scientific
уменьшить пространство возможных гипотез в                              discovery. Redmond, Microsoft Research, 2009
виртуальном эксперименте. Его идея базируется на
                                                                   [9] Zeljko Ivezic, Andrew J. Connolly, Jacob T.
поиске и оценке корреляций между параметрами
выбранных гипотез. Дан обзор существующих и                             VanderPlas and Alexander Gray. Statistics, data
проектируемых систем, которые в той или иной мере                       mining, and machine learning in astronomy: A
реализуют функционал поиска корреляций над                              practical Python guide for the analysis of survey
большими массивами данных. Представлены                                 data. Princeton University Press, 2014
некоторые     алгоритмы     оценки    взаимосвязи                  [10] Leonid Kalinichenko, Dmitry Kovalev, Dana
параметров, с учетом специфики работы с                                 Kovaleva and Oleg Malkov. Methods and tools for
астрономическими данными [9]. Сформулированы                            hypothesis-driven research support: a survey.
требования, предъявляемые к проектируемой                               Informatica and Appications, 9(1), p. 28-54, 2015
архитектуре.                                                       [11] Igor Kononenko. Estimating attributes: analysis and
   В качестве дальнейших шагов развития подхода                         extensions of RELIEF. In Proceedings of the
планируется реализация системы с учетом                                 European conference on machine learning
описанных     ранее   требований.    В    качестве                      (ECML’94), Catania, Italy, p. 171–182, 1994
практической задачи будут исследованы корреляции                   [12] Manuel Mejia-Lavalle, Enrique Sucar and Gustavo
всех параметров гипотез Безансонской Модели                             Arroyo. Feature selection with a perceptron neural
Галактики [2], взаимосвязь двух гипотез которой                         net. In Proceedings of the international workshop on
рассматривалась в рамках тестовой задачи.                               feature selection for data mining: Interfacing
                                                                        Machine Learning and Statistics, p. 131–135, 2006
Благодарность                                                      [13] Luis C. Molina, Lluis Belanche and Angela Nebot.
                                                                        Feature Selection Algorithms: A Survey and
   Автор    статьи     выражает    благодарность
                                                                        Experimental Evaluation. Data Mining, 2002.
Д. Ю. Ковалеву за предоставленную идею.
                                                                        ICDM 2003. In Proceedings of 2002 IEEE
                                                                        International Conference on Data Mining, p. 306-
Литература                                                              313, 2002
[1] Veronica Bolon-Canedo, Noelia Sanchez-Marono                   [14] Hanchuan Peng, Fuhui Long and Chris Ding.
      and Amparo Alonso-Betanzos. A review of feature                   Feature selection based on mutual information:
      selection methods on synthetic data. Knowledge and                criteria of max-dependency, max-relevance, and
      Information Systems, 34(3), p. 483-519, 2013                      min-redundancy. IEEE Transactions on Pattern
[2]   Maria A. Czekaj, Annie C. Robin, Francesca                        Analysis and Machine Intelligence, 27(8), p. 1226–
      Figueras and Xavier Luri. Galaxy evolution: A new                 1238, 2005
      version of the Besancon Galaxy Model constrained             [15] Alain Rakotomamonjy. Variable selection using
      with Tycho data. Barcelona: Universitet de                        SVM-based criteria. The Journal of Machine
      Barcelona, PhD Thesis, 2012                                       Learning Research, 3, p. 1357-1370, 2003
[3]   Jennie Duggan and Michael Brodie. Hephaestus:                [16] Douglas Schales, Xin Hu, Jiyong Jang, Reiner
      Data Reuse for Accelerating Scientific Discovery. In              Sailer, Marc Stoecklin and Ting Wang. FCCE:
      Proceedings of        7th Biennial Conference on                  Highly Scalable Distributed Feature Collection and
      Innovative Data Systems Research (CIDR’15),                       Correlation Engine for Low Latency Big Data
      Asilomar, California, USA, 2015                                   Analytics, In Proceeding of 2015 IEEE 31st
[4]   Bernardo Goncalves and Fabio Porto. Managing                      International Conference on Data Engineering, p.
      large-scale scientific hypotheses as uncertain and                1316–1327, Seoul, IBM Research Report, 2014
      probabilistic data with support for predictive               [17] Sohan Seth and Jose C. Prıncipe. Variable selection:
      analytics. IEEE Computing in Science and                          A statistical dependence perspective. In Proceedings
      Engineering, 17(5), p. 35-43, 2015                                of the international conference of machine learning
[5]   Bernardo Goncalves, Frederico C. Silva and Fabio                  and applications (ICMLA’10), p. 931–936, 2010
      Porto. ϒ-DB: A system for data-driven hypothesis             [18] Nigel Williams, Sebastian Zander and Grenville
      management           and      analytics,      2014.               Armitage. A Preliminary Performance Comparison
      http://arxiv.org/abs/1411.7419                                    of Five Machine Learning Algorithms for Practical
[6]   Mark A. Hall. Correlation-based Feature Selection                 IP Traffic Flow Classification. ACM SIGCOMM
      for Machine Learning. The University of Waikato,                  Computer Communication Review, 36(5), p. 5-16,
      Hamilton, New Zeland, PhD Thesis, 1999                            2006


                                                             277
[19] Ian H. Witten and Eibe Frank. Data mining: practical         through decrease the count of tested hypotheses. This
     machine learning tools and techniques. Morgan                approach is based on correlation search between
     Kaufmann Publishers, San Francisco, 2005                     parameters of different hypotheses. A review and
[20] Zheng Zhao and Huan Liu. Searching for interacting           analysis of modern platforms with similar functionality
     features. In Proceedings of the international joint          is done. Methods for reducing the number of virtual
     conference on artificial intelligence (IJCAI’07), p          experiments are surveyed, including the features
     1156–1161, Hyderabad, India, 2007                            selection algorithm, which allows to reduce investigated
                                                                  parameters space and identify the interaction between
Reducing the number of virtual experiments by                     them. Next, functional requirements of designed system
   estimating the correlation parameters of                       are formulated. We consider the practical problem which
            interacting hypotheses                                can be solved in the framework of this system and
                                                                  consider its particular case – assessment of the
                   Evgeny Tarasov                                 correlation parameters in astronomical hypotheses
    This paper presents the approach that helps to                problem, which will be used as the test task during
researcher to reduce the number of virtual experiments            system debugging.


                                                            278

</pre>