Сокращение числа виртуальных экспериментов с помощью оценки корреляций параметров взаимодействующих гипотез

Аннотация

В данной работе представлен подход, позволяющий исследователю сократить число виртуальных экспериментов, уменьшив количество наборов тестовых сценариев. Рассматриваемый подход основывается на вычислении корреляций между параметрами различных гипотез. Для решения данной задачи был выполнен обзор и сравнительный анализ существующих систем: Hephaestus, FCCE, ϒ-DB, реализующих схожий функционал. Далее, был произведен обзор алгоритмов отбора признаков, позволяющих уменьшить исследуемое пространство параметров и выявить взаимосвязь между ними. Были сформулированы функциональные требования к проектируемой системе. Рассмотрена практическая задача, которая может быть решена в рамках реализации данной платформы и описан ее частный случай, а именно, оценка корреляции параметров гипотез в астрономической задаче, которая будет использоваться в качестве тестового задания на этапе отладки системы.

Работа поддержана РФФИ (гранты 14-07-00548, 16-07-01028).

Введение

В современном мире исследования всё более зависимы от данных, которые становятся ключевым источником для получения новых знаний в той или иной области человеческой деятельности [4]. Такой подход получил название исследований с интенсивным использованием данных (ИИИД) [10] и развивается в соответствии с 4-й парадигмой научного развития [8]. Одним из ключевых элементов ИИИД является явное использование гипотез в определении виртуального эксперимента [3].

Гипотезам соответствует некоторая формальная спецификация свойств исследуемого явления, которая чаще всего имеет математическое представление. Сформулированные гипотезы нуждаются в тщательной проверке. В процессе выполнения виртуального эксперимента происходит манипулирование параметрами гипотез, т.е. набором переменных, которые в некоторых случаях могут быть коррелированы между собой, а также с параметрами других гипотез [10].

Так как число потенциальных гипотез в виртуальном эксперименте может быть огромным, а их взаимодействие нетривиальным, то в результате образуется пространство с большим числом виртуальных экспериментов, часть из которых плохо описывает наблюдения и нуждается в отсеивании ещё до выполнения эксперимента. Как следствие, исследователю необходимо средство, позволяющее заранее выявить и отсеять виртуальные эксперименты с прогнозируемо плохим результатом. В тоже время наличие сложных зависимостей в данных затрудняет их понимание исследователем и не позволяет делать это вручную [3]. Машинные средства оценки корреляции позволяют автоматически разделить виртуальные эксперименты на группы с заранее прогнозируемо хорошим и плохим результатом эксперимента [4].

Разрабатываемая архитектура платформы рассматривается в рамках более широкого проекта лаборатории, следовательно, будет интегрирована в него отдельным модулем [10].

Статья организована следующим образом. В разделе 2 приводится обзор существующих систем, позволяющих решать схожую задачу поиска корреляций и причинно-следственных связей. В разделе 3 приводится обзор алгоритмов отбора признаков. В разделе 4 формулируются требования к проектируемой системе. В разделе 5 формулируется тестовая задача поиска корреляции между двумя гипотезами. В разделе 6 формулируются дальнейшие шаги по развитию данной работы.

Обзор платформ для поиска корреляций над большими массивами данных 2.1 Hephaestus

В основе системы Hephaestus [3]

FCCE

Платформа FCCE [16]

Методы отбора признаков

Для уменьшения пространства параметров гипотез и виртуальных экспериментов используются методы отбора признаков [13]. Они позволяют увеличить скорость обработки данных и получения результат, не снижая показатели точности [18], путем выделения только тех информативных признаков, которые требуются для выполнения виртуального эксперимента.

Выделение набора признаков позволяет упростить понимание модели исследователем и, следовательно, использовать их в качестве входных данных для широко известных алгоритмов машинного обучения [6]. Так же данные методы позволяют уменьшить шум в данных и выявить взаимодействие между параметрами.

Методы отбора признаков возможно классифицировать следующим образом: Фильтры, Обертки, Встроенные [1,13].

Фильтры. Опираются на общие характеристики обучающих данных и осуществляют процесс выборки признаков в качестве шага предварительной обработки независимо от индукционного алгоритма. Обладают низкой стоимостью вычислений. Фильтры используются в кластеризации для построения начального приближения. Не предназначены для выявления сложных связей между признаками, т.к. обладают низкой чувствительностью.

К таким методам можно отнести: CFS [6] -где выбор признаков на основе корреляций. Является простым многофакторным фильтрующим алгоритмом, который раскладывает подмножество признаков согласно эвристической функции оценки, основанной на корреляции. INTERACT [20] -двух этапный алгоритм, основанный на симметричной неопределенности и согласованности. ReliefF [11] который является расширением алгоритма Relief, и работает путем случайной выборки экземпляра из данных, а затем находит его ближайшего соседа из того же или противоположного класса. mRMR [14] выбирает признаки, которые имеют самое высокое значение информативности с целевым классом и обладающие минимальной избыточностью. Его разновидностью является Md фильтр [17] -который использует меру монотонной зависимости для оценки информативности.

Обертки. Включают оптимизацию предиктора как часть процесса выбора. Позволяют выявлять зависимости признаков. Качество выборки зависит от индукционного алгоритма. Основным недостатком является вычислительная нагрузка, которая исходит от вызова алгоритма индукции для оценки каждого подмножества интересующих параметров.

К ним можно отнести: WrapperSubsetEval [19] вычисляет наборы признаков с использованием схемы обучения. Для оценки точности схемы обучения для набора признаков используется перекрестная проверка. В качестве схемы обучения могут использоваться SVM и C4.5.

Встроенные. Выполняют функции выборки в процессе обучения. Как правило специфичны для алгоритмов машинного обучения. Применимость метода всегда зависит от типа решаемой задачи. Позволяют выявлять зависимости признаков. Обладают хорошей скоростью работы.

К ним относятся: SVM-RFE [15] -метод осуществляет выбор признаков итеративным обучением SVM классификатора с текущим набором признаков и удаляет наименее важный признак, указанный SVM. Существуют две версии этого метода: с линейным и нелинейным ядром. FS-P [12] основанный на перцептроне. Идея метода заключается в обучении перцептрона в контексте контролируемого обучения. Веса взаимосвязей используются как индикатор того, какие признаки могут быть наиболее информативными.

Другие методы. Так же к методам, позволяющим снизить размерность данных и оценить зависимость параметров можно отнести следующие техники. Анализ главных компонент (PCA) [7], которая включает в себя преобразование ряда коррелируемых переменных в меньшее число не коррелируемых. Анализ независимых компонент (ICA) [9]

Reducing the number of virtual experiments by estimating the correlation parameters of interacting hypotheses

Evgeny Tarasov This paper presents the approach that helps to researcher to reduce the number of virtual experiments through decrease the count of tested hypotheses. This approach is based on correlation search between parameters of different hypotheses. A review and analysis of modern platforms with similar functionality is done. Methods for reducing the number of virtual experiments are surveyed, including the features selection algorithm, which allows to reduce investigated parameters space and identify the interaction between them. Next, functional requirements of designed system are formulated. We consider the practical problem which can be solved in the framework of this system and consider its particular case -assessment of the correlation parameters in astronomical hypotheses problem, which will be used as the test task during system debugging.

A review of feature selection methods on synthetic data VeronicaBolon-Canedo NoeliaSanchez-Marono AmparoAlonso-Betanzos Knowledge and Information Systems 34 3 2013 Galaxy evolution: A new version of the Besancon Galaxy Model constrained with Tycho data MariaACzekaj AnnieCRobin FrancescaFigueras XavierLuri 2012 Barcelona Universitet de Barcelona, PhD Thesis Hephaestus: Data Reuse for Accelerating Scientific Discovery JennieDuggan MichaelBrodie Proceedings of 7th Biennial Conference on Innovative Data Systems Research (CIDR'15) 7th Biennial Conference on Innovative Data Systems Research (CIDR'15)

Asilomar, California, USA

2015 Managing large-scale scientific hypotheses as uncertain and probabilistic data with support for predictive analytics BernardoGoncalves FabioPorto IEEE Computing in Science and Engineering 17 5 2015 BernardoGoncalves FredericoCSilva FabioPorto ϒ-DB: A system for data-driven hypothesis management and analytics 2014 Correlation-based Feature Selection for Machine Learning MarkAHall 1999 Hamilton, New Zeland The University of Waikato PhD Thesis Canonical correlation analysis: an overview with application to learning methods DavidRHardoon SandorSzedmak JohnShawe-Taylor Neural Computation 16 12 2004 The Fourth paradigm: Data-intensive scientific discovery TonyHey StewartTansley KristinTolle 2009 Redmond, Microsoft Research ZeljkoIvezic AndrewJConnolly JacobTVanderplas AlexanderGray Statistics, data mining, and machine learning in astronomy: A practical Python guide for the analysis of survey data Princeton University Press 2014 Methods and tools for hypothesis-driven research support: a survey LeonidKalinichenko DmitryKovalev DanaKovaleva OlegMalkov Informatica and Appications 9 1 2015 Estimating attributes: analysis and extensions of RELIEF IgorKononenko Proceedings of the European conference on machine learning (ECML'94) the European conference on machine learning (ECML'94)

Catania, Italy

1994 Feature selection with a perceptron neural net ManuelMejia-Lavalle EnriqueSucar GustavoArroyo Proceedings of the international workshop on feature selection for data mining: Interfacing Machine Learning and Statistics the international workshop on feature selection for data mining: Interfacing Machine Learning and Statistics 2006 Feature Selection Algorithms: A Survey and Experimental Evaluation. Data Mining CLuis LluisMolina AngelaBelanche Nebot Proceedings of 2002 IEEE International Conference on Data Mining 2002 IEEE International Conference on Data Mining 2002. 2002 ICDM 2003 Feature selection based on mutual information: criteria of max-dependency, max-relevance, and min-redundancy HanchuanPeng FuhuiLong ChrisDing IEEE Transactions on Pattern Analysis and Machine Intelligence 27 8 2005 Variable selection using SVM-based criteria AlainRakotomamonjy The Journal of Machine Learning Research 3 2003 FCCE: Highly Scalable Distributed Feature Collection and Correlation Engine for Low Latency Big Data Analytics DouglasSchales XinHu JiyongJang ReinerSailer MarcStoecklin TingWang Proceeding of 2015 IEEE 31st International Conference on Data Engineering eeding of 2015 IEEE 31st International Conference on Data Engineering

Seoul,

2014 IBM Research Report Variable selection: A statistical dependence perspective SohanSeth JoseCPrıncipe Proceedings of the international conference of machine learning and applications (ICMLA'10) the international conference of machine learning and applications (ICMLA'10) 2010 A Preliminary Performance Comparison of Five Machine Learning Algorithms for Practical IP Traffic Flow Classification NigelWilliams SebastianZander GrenvilleArmitage ACM SIGCOMM Computer Communication Review 36 5 2006 Data mining: practical machine learning tools and techniques IanHWitten EibeFrank 2005 Morgan Kaufmann Publishers San Francisco Searching for interacting features ZhengZhao HuanLiu Proceedings of the international joint conference on artificial intelligence (IJCAI'07) the international joint conference on artificial intelligence (IJCAI'07)

Hyderabad, India

2007