=Paper= {{Paper |id=Vol-1864/paper_33 |storemode=property |title=The Overview Of Anomaly Detection Methods in Data Streams |pdfUrl=https://ceur-ws.org/Vol-1864/paper_33.pdf |volume=Vol-1864 |authors=Viacheslav Shkodyrev,Kamil Yagafarov,Valentina Bashtovenko,Ekaterina Ilyina }} ==The Overview Of Anomaly Detection Methods in Data Streams== https://ceur-ws.org/Vol-1864/paper_33.pdf
           Обзор методов обнаружения аномалий в
                      потоках данных
                        В.П. Шкодырев, К.И. Ягафаров, В.А. Баштовенко, Е.Э. Ильина


                                                           Точечные аномалии возникают в ситуации, когда
  Аннотация— Данная статья посвящена исследованию         отдельный экземпляр данных может рассматриваться как
различных подходов к идентификации аномалий во            аномальный по отношению к остальным данным. На
временных рядах, которая заключается в обнаружении и      рисунке 1а экземпляр А1, а также группа экземпляров А2
обработке отклонений в потоках данных, получаемых во
                                                          являются аномальными при нормальных экземплярах в
время проведения технологических процессов. Выявление
аномалий в поведении системы позволяет не только          группах С1 и С2. Данный вид аномалий является наиболее
повысить качество таких процессов, но и предотвращать     легко распознаваемым, большинство существующих
нештатные ситуации и аварии на ранних этапах. Все это     методов создано для распознавания точечных аномалий.
указывает на актуальность проведения исследований в
данной области.                                             Контекстуальные аномалии наблюдаются, если
  В работе приведен обзор существующих методов и          экземпляр данных является аномальным лишь в опреде-
алгоритмов обнаружения аномалий с целью структуризации
имеющихся данных и последующего отбора средств для        ленном контексте, (данный вид аномалий также
разработки системы идентификации аномалий в потоках       называется условным). Для определения аномалий этого
больших данных.                                           типа основным является выделение контекстуальных и
                                                          поведенческих атрибутов.
  Ключевые слова — Поиск аномалий, Анализ данных,         • Контекстуальные атрибуты используются для
Потоки данных                                                 определения контекста (или окружения) для каждого
                                                              экземпляра. Во временных рядах контекстуальным
                     I. ВВЕДЕНИЕ
  Интеллектуальный анализ данных, называемый также
Data mining, используется для выделения новой значимой
информации из большого объема данных. В условиях
постоянного увеличения этих объемов, а также
возрастающей значимости результатов их анализа вопрос
идентификации имеющихся в них аномалий стоит
особенно остро. Результаты анализа без предварительного
исключения аномальных экземпляров данных могут быть
значительно искажены.
   Обнаружение     аномалий     относится    к   поиску
непредвиденных значений (паттернов) в потоках данных.
Аномалия (выброс, ошибка, отклонение или исключение)
– это отклонение поведения системы от стандартного
(ожидаемого). В данной статье эти термины являются
эквивалентными. Они могут возникать в данных самой
различной природы и структуры в результате технических
сбоев, аварий, преднамеренных взломов и т.д. В
настоящее время разработано множество методов и
алгоритмов поиска аномалий для различных типов
данных. Целью данной статьи является обзор наиболее
универсальных из них.

                 II. ВИДЫ АНОМАЛИЙ
  Аномалии в данных могут быть отнесены к одному из
трех основных типов [3].                                                       Рис.1 Виды аномалий
    атрибутом является время, которое определяет             Создание подобной промаркированной выборки
    положение экземпляра в целой последователь-           обычно проводится вручную и является трудоемким и
    ности. Контекстуальным атрибутом также может          дорогостоящим процессом. В некоторых случаях
    быть положение в пространстве или более сложные       получить экземпляры аномального класса невозможно в
    комбинации свойств.                                   силу отсутствия данных о возможных отклонениях в
• Поведенческие атрибуты определяют не контексту-         системе, в других могут отсутствовать метки обоих
    альные характеристики, относящиеся к конкретному      классов. В зависимости от того, какие классы данных
    экземпляру данных.                                    используются для реализации алгоритма, методы поиска
Аномальное поведение определяется посредством             аномалий могут выполняться в одном из трех
значений поведенческих атрибутов исходя из конкретного    перечисленных ниже режимов:
контекста. Таким образом, экземпляр данных может быть     1) Supervised anomaly detection (режим распознавания с
контекстуальной аномалией при данных условиях, но при     учителем)
таких же поведенческих атрибутах считаться нормальным        Данная методика требует наличия обучающей выборки,
в другом контексте. Так, на рисунке 1б в точке А          полноценно представляющей систему и включающей
наблюдается аномалия, в отличие от точек N1 – N5,         экземпляры данных нормального и аномального классов.
имеющих аналогичное значение. При обнаружении             Работа алгоритма происходит в два этапа: обучение и
контекстуальных аномалий это свойство является            распознавание. На первом этапе строится модель, с
ключевым в разделении контекстуальных и поведен-          которой в последствие сравниваются экземпляры, не
ческих атрибутов.                                         имеющие метки. В большинстве случаев предполагается,
  Коллективные аномалии возникают, когда последова-       что    данные     не   меняют      свои    статистические
тельность связанных экземпляров данных (например,         характеристики, иначе возникает необходимость изменять
участок временного ряда) является аномальной по           классификатор [11].
отношению к целому набору данных. Отдельный экземп-          Основной сложностью алгоритмов, работающих в
ляр данных в такой последовательности может не            режиме      распознавания     с     учителем,    является
являться отклонением, однако совместное появление         формирование данных для обучения. Часто аномальный
таких экземпляров является коллективной аномалией. На     класс представлен значительно меньшим числом
рисунке 1в участок А является коллективной аномалией.     экземпляров, чем нормальный, что может приводить к
  Кроме того, в то время как точечные или контексту-      неточностям в полученной модели. В таких случаях
альные аномалии могут наблюдаться в любом наборе          применяется искусственная генерация аномалий.
данных, коллективные наблюдаются только в тех, где        2) Semi-Supervised anomaly detection (режим
данные связаны между собой.                               распознавания частично с учителем)
  Стоит так же отметить, что точечные или коллективные       Исходные данные при этом подходе представляют
аномалии могут в то же время являться и контексту-        только нормальный класс. Обучившись на одном классе,
альными.                                                  система может определять принадлежность новых данных
                                                          к нему, таким образом, определяя противоположный.
    III. МЕТОДЫ ОБНАРУЖЕНИЯ ТОЧЕЧНЫХ АНОМАЛИЙ                Алгоритмы, работающие в режиме распознавания
                                                          частично с учителем, не требуют информации об
  Существует несколько вариантов классификации
                                                          аномальном классе экземпляров, вследствие чего они
существующих методик поиска аномалий [3]. В данной
                                                          шире применимы и позволяют распознавать отклонения в
работе буду рассмотрены два вида деления: по режиму
                                                          отсутствие заранее определенной информации о них.
распознавания и по способу реализации.
                                                          3) Unsupervised anomaly detection (режим распознавания
  В зависимости от применяемого алгоритма результатом
                                                          без учителя)
работы системы идентификации аномалий может быть
                                                             Применяется при отсутствии априорной информации о
либо метка экземпляра данных как аномального, либо
                                                          данных. Алгоритмы распознавания в режиме без учителя
оценка степени вероятности того, что экземпляр является
                                                          базируются на предположении о том, что аномальные
аномальным.
                                                          экземпляры встречаются гораздо реже нормальных.
  Процесс выявления аномалий может проводиться для
                                                          Данные обрабатываются, наиболее отдаленные определя-
данных различного формата:
                                                          ются как аномалии. Для применения этой методики
  • поток данных (работа в реальном времени);
                                                          должен быть доступен весь набор данных, т.е. она не
  • архив данных.
                                                          может применяться в режиме реального времени.
A. Режимы распознавания аномалий
                                                          B. Методы распознавания аномалий
  Часто для решения задачи поиска аномалий требуется
                                                          1) Классификация
набор данных, описывающих систему. Каждый экземпляр         Реализация данного метода основана на предположении
в нем описывается меткой, указывающей, является ли он     о том, что нормальное поведение системы может
нормальным или аномальным. Таким образом, множество       определяться одним или несколькими классами. Таким
экземпляров с одинаковой меткой формируют соответст-      образом, экземпляр, не принадлежащий ни к одному из
вующий класс.
классов, является отклонением. Поиск аномалий проходит      т.д. Каждому правилу присваивается свое значение,
в два этапа: обучение и распознавание. Классификатор        которое пропорционально соотношению между числом
обучается на массиве маркированных данных, далее            обучающих     экземпляров,     классифицируемых,     как
определяется принадлежность к одному из известных           правило, и общим числом обучающих экземпляров,
классов. В противном случае экземпляр помечается, как       покрываемых этим правилом. Второй шаг: поиск для
аномалия.                                                   каждого тестируемого экземпляра правила, которое
  Наиболее широко применяемыми механизмами реали-           наилучшим образом подходит к данному экземпляру.
зации распознавания аномалий с помощью классифи-            Система может распознавать как один, так и несколько
кации являются: нейронные сети, Байесовы сети, метод        классов поведения
опорных векторов и метод на основе правил.                     Одним из подвидов систем на основе правил являются
  • Метод обнаружения аномалий на основе нейронных          системы нечеткой логики. Они применяется, когда
сетей включает два этапа. Первый: нейронная сеть            граница между нормальным и аномальным поведением
обучается распознаванию классов нормального поведения       системы является размытой. Каждый экземпляр является
на тренировочной выборке. Второй: каждый экземпляр          аномалией в некоторой степени удаленности от центра
поступает в качестве входного сигнала нейронной сети.       масс нормального интервала. Описание применения дан-
Система, основанная на нейронных сетях, может               ного подхода к задаче поиска аномалий приведено в [40].
распознавать как один, так и несколько классов
нормального поведения.                                      2) Кластеризация
  Для нахождения аномалий посредством распознавания           Данная методика предполагает группировку похожих
только одного класса используются репликвативные            экземпляров в кластеры и не требует знаний о свойствах
нейронные сети [7]. Получившая широкое распростра-          возможных отклонений. Выявление аномалий может
нение технология нейронных сетей глубинного обучения        строиться на следующем предположении:
(Deep Learning) также успешно применяется для решения         – Нормальные экземпляры данных относятся к кластеру
данной задачи [31].                                         данных, в то время как аномалии не принадлежат ни к
  • Байесовской сетью является графическая модель,          одному из кластеров.
отображающая вероятностные зависимости множества              Однако при такой формулировке может возникнуть
переменных и позволяющая проводить вероятностный            проблема определения точных границ кластеров. Отсюда
вывод с помощью этих переменных. Она состоит из двух        следует другое предположение:
основных частей: графическая структура, которая               – Нормальные данные ближе к центру кластера, а
определяет     набор    зависимостей    и независимостей    аномальные – значительно дальше.
во множестве случайных величин, представляющих                В случае, когда аномальные экземпляры не являются
субъекты предметной области, и набор вероятностных          единичными, они также могут образовывать кластеры.
распределений,      определяющих     силу     отношений     Таким образом, их выявление строится на следующем
зависимости, закодированных в графической структуре.        предположении:
Таким образом, применение Байесовской сети при                – Нормальные данные образуют большие плотные
идентификации аномалий заключается в оценке                 кластеры, а аномальные – маленькие и разрозненные.
вероятности наблюдения одного из нормальных или               Одной из простейших реализаций подхода на основе
аномальных классов.                                         кластеризации является алгоритм k-means, описанный в
  Наиболее простой реализацией данного подхода явля-        работе [39]. Методология применения подхода на основе
ется Наивный байесовский подход (Naive Bayes Appro-         кластеризации также приведена в [25].
ach). Описание алгоритма его работы приведено в [37].
  • Метод опорных векторов (Support Vector Machine)         3) Статистический анализ
применяется для поиска аномалий в системах, где               При использовании этого подхода исследуется процесс,
нормальное поведение представляется только одним            строится его профиль (модель), который затем
классом. Данный метод определяет границу региона, в         сравнивается с реальным поведением. Если разница в
котором находятся экземпляры нормальных данных. Для         реальном и предполагаем поведении системы, определя-
каждого      исследуемого    экземпляра     определяется,   емая    заданной    функцией     аномальности,   выше
находится ли он в определенном регионе. Если экземпляр      установленного порога, делается вывод о наличии
оказывается вне региона, он определяется как аномаль-       отклонений. Применяется предположение        том, что
ный. Описание работы метода опорных векторов приве-         нормальное поведение системы будет находиться в зоне
дено в [37].                                                высокой вероятности, в то время как выбросы – в зоне
  • Последний метод основывается на генерации правил,       низкой.
которые соответствуют нормальному поведению системы.          Данный класс методов удобен тем, что не требует
Экземпляр, который не соответствует этим правилам,          заранее определенных знаний о виде аномалии. Однако
распознается как аномальный. Алгоритм состоит из двух       сложности могут возникать в определении точного
шагов. Первый: обучение правил из выборки с помощью         статистического распределения и порога [2].
одного из алгоритмов, таких как RIPPER, Decision Trees и      Методы статистического анализа подразделяются на
две основные группы:                                     размерности, в котором нормальное состояние и аномалии
  • Параметрические методы. Предполагают, что нор-       проявляются иначе. Спектральные методы часто применя-
мальные     данные    генерируются    параметрическим    ются   совместно     с   другими    алгоритмами    для
распределением с параметрами θ и функцией плотности      предобработки данных.
вероятности P(x, θ), где x – наблюдение. Аномалия          Исследование модификаций спектрального метода
является обратной функцией распределения. Эти методы     приведено в [24].
часто основываются на Гауссовой или регрессионной
модели, а также их комбинации. Подробное описание        6) Гибридные методы
параметрических методов приведено в [30].                  Гибридные      методики    распознавания аномалий,
  • Не параметрические методы. Предполагается, что       позволяют сочетать преимущества различных подходов.
структура модели не определена априорно, вместо этого    При этом различные техники могут применяться как
она определяется из предоставленных данных. Включает     последовательно, так и параллельно для достижения
методы на основе гистограмм или функций ядра.            усредненных результатов.
  Базовый алгоритм поиска аномалий с применением           Примерами гибридных систем распознавания аномалий
гистограмм включает два этапа. На первом этапе           могут служить следующие исследования:
происходит построение гистограммы на основе различных      • Совмещение кластеризации и алгоритма ближайшего
значений выбранной характеристики для экземпляров        соседа в работе [20].
тренировочных данных. На втором этапе для каждого из       • Параллельное использование совмещенных алгорит-
исследуемых экземпляров определяется принадлежность      мов Байесовых сетей и решающих деревьев, а также
к одному из столбцов гистограммы. Не принадлежащие       алгоритма ближайшего соседа с классификацией на
ни к одному из столбцов экземпляры помечаются как        основе правил в работе [22].
аномальные. Подробный алгоритм, основанный на              • Совмещение метода опорных векторов и нейронной
применении гистограмм, описан в [13].                    сети глубинного обучения в работе [6].
  Распознавание аномалий на основе функции ядра
                                                           Обзор публикаций с описанием конкретных алгорит-
происходит аналогично параметрическим методам за
                                                         мов, реализующих рассмотренные выше методы,
исключением способа оценки плотности вероятности.
                                                         приведен в таблице 1.
Сравнение результатов работы данного метода с
                                                           Сравнительный анализ методов приведен в таблице 2.
параметрическим методом на основе Гауссовой модели
приведено в [16].                                                          ТАБЛИЦА I.     ОБЗОР ПУБЛИКАЦИЙ

4) Алгоритм ближайшего соседа
  Для использования данной методики необходимо опре-
                                                                  Метод                             Публикации
делить понятие расстояния (меры похожести) между
объектами. Примером может быть Евклидово расстояние.       Классификация       на
  Два основных подхода основываются на следующих           основе репликационных                Dau, Ciesielski [2014]
                                                           нейронных сетей
предположениях:                                            Классификация       на
  • Расстояние до k-го ближайшего соседа. Для              основе нейроных сетей          Xu et al. [2015], Yan et al. [2015]
реализации этого подхода расстояние до ближайшего          глубинного обучения
объекта определяется для каждого тестируемого экземп-      Классифкация        на
                                                                                            Hill et al. [2009], Heard [2010]
                                                           основе Байесовых сетей
ляра класса. Экземпляр, являющийся выбросом, наиболее      Классификация       на
                                                                                          Li et al.[2007], Nasr et al. [2016],
отдален от ближайшего соседа.                              основе правил
  • Использование относительной плотности основано на      Классификация       на
                                                           основе систем нечеткой                 Ghosh et al. [2017]
оценке плотности окрестности каждого экземпляра            логики
данных. Экземпляр, который находится в окрестности с       Классификация       на
низкой плотностью, оценивается как аномальный, в то        основе метода опорных        Amer et al. [2013], Zhang et al. [2015]
                                                           векторов
время как экземпляр в окрестности с высокой плотностью                                     Portnoy et al.[2001], Кокорева с
оценивается как нормальный. Для данного экземпляра         Кластеризация
                                                                                            соавт.[2015], Kiss et al. [2014]
данных расстояние до его k-го ближайшего соседа            Параметрические
эквивалентно радиусу гиперсферы с центром в данном         методы статистического                 Thatte et al. [2010]
                                                           анализа
экземпляре и содержащей k остальных экземпляров.           Статистический анализ
                                                                                                  Kind et al. [2009]
                                                           на основе гистограмм
5) Спектральные методы                                     Статистический анализ    Latecki et al. [2007], Zhang et al. [2015],
                                                           на основе функции ядра              Sharma et al. [2016]
  Спектральные методы находят аппроксимацию данных,        Алгоритм ближайшго
используя комбинацию атрибутов, которые передают           соседа
                                                                                           Liao, Vemuri [2002], Su [2011]
большую часть вариативности в данных.                      Спектральные методы              Денисова, Мясников [2014],
  Эта методика основана на следующем предположении:
данные могут быть вложены в подпространство меньшей
               ТАБЛИЦА II. СРАВНЕНИЕ МЕТОДОВ                      требуется, поскольку на этапе распознавания каждый
                                         Определе    Работа без   экземпляр обрабатывается отдельно.
                            Режим
                                            ние      предвари       Варианты построения систем распознавания аномалий в
   Метод      Результат    распознав
                                          класса      тельного
                             ания
                                         аномалий    обучения
                                                                  потоках данных приведены в [17], [28], [34].
                           Supervised,
  Классифик
  ация
              Метка        semi-            Да           Нет             IV. СПОСОБЫ ВЫЯВЛЕНИЯ КОНТЕКСТУАЛЬНЫХ И
                           supervised                                                КОЛЛЕКТИВНЫХ АНОМАЛИЙ
                           Unsupervis
  Кластериз
  ация
              Метка        ed, semi-       Нет           Нет        Все описанные выше методики применяются для
                           supervised                             поиска точечных аномалий, однако они также могут быть
  Статистич
  еский       Степень
                           Semi-
                                           Нет           Нет      применены для распознавания коллективных и контекс-
                           supervised
  анализ                                                          туальных аномалий, при сведении их к точечным.
  Алгоритм                                                          При поиске контекстуальных аномалий данный подход
                           Unsupervis
  ближайше    Степень                      Нет           Да
  го соседа
                           ed                                     реализуется с помощью определения контекстуальных
  Спектраль                Unsupervis                             атрибутов и преобразования данных на их основе [8].
  ные         Метка        ed, Semi-       Нет           Да       После этого к преобразованным данным можно
  методы                   supervised
                                                                  применить один из методов идентификации точечных
                                                                  аномалий. Альтернативой данному методу является
C. Распознавание аномалий в потоках данных                        моделирование временных рядов на основе авторегрессии
  Выявление аномалий в режиме реального времени                   (например, построение модели ARIMA) [23] или преобра-
может потребовать дополнительной модификации                      зование их к символьным последовательностям [26], [35].
методов. Наиболее простым в реализации является                     При поиске коллективных аномалий возможно
алгоритм скользящего окна.                                        определение подпоследовательностей фиксированной
Данная методика используется для временных рядов,                 длины, как единичных объектов, однако при этом
которые разбивается на некоторое число подпоследо-                делается предположение, что все участки, являющиеся
вательностей – окон (рис.2). Необходимо выбрать окно              коллективными аномалиями, имеют одинаковую длину.
фиксированной длины, меньшей чем длина самого ряда,                 Описание комплексной методики выявления коллек-
чтобы захватить аномалию в процессе скольжения. Поиск             тивных контекстуальных аномалий приведено в
аномальной подпоследовательности осуществляется при               исследовании [12].
помощи скольжения окна по всему ряду с шагом,
меньшим длины окна.                                                                        V. ЗАКЛЮЧЕНИЕ
                                                                    Данная работа посвящена рассмотрению видов
                                                                  аномалий в потоках данных, а также обзору
                                                                  существующих методов и подходов к их поиску. Были
                                                                  проведены классификация и сравнение наиболее
                                                                  распространенных групп методов по основным
                                                                  критериям, приведены краткие описания алгоритмов.
                                                                  Кроме того, был осуществлен обзор конкретных
                                                                  реализаций и модификаций данных методов в
                                                                  публикациях последних лет.

                                                                                              ЛИТЕРАТУРА

                                                                   [1]   S. Agrawal, J. Agrawal, “Survey on Anomaly Detection using Data
                                                                         Mining Techniques”, Procedia Computer Science, vol. 60, 2015, pp.
                                                                         708-713.
                                                                   [2]   M. Amer, M. Goldstein, S. Abdennadher, “Enhancing one-class
                                                                         support vector machines for unsupervised anomaly detection”, CM
           Рис.2 Применение алгоритма скользящего окна                   SIGKDD Workshop on Outlier Detection and Description, 2013, pp.
                                                                         8-15
  Стоит отметить, что для методов, требующих наличия               [3]   V. Chandola, A. Banerjee, V. Kumar, “Anomaly detection: A
                                                                         survey”, ACM Computing Surveys, vol. 41(3), 2009, pp. 1–58.
всего объема данных (функционирующих в режиме                      [4]   H. Dau, V. Ciesielski, A. Song, “Anomaly Detection Using
распознавания без учителя) применение данной техники                     Replicator Neural Networks Trained on Examples of One Class”,
может привести к повышенной неточности результатов,                      Simulated Evolution and Learning. Lecture Notes in Computer
так как вычисления будут проводиться только для                          Science, vol 8886, 2014.
                                                                   [5]   S. Ghosh, A. Pal, A. Nag, S. Sadhu and R. Pati, “Network anomaly
экземпляров в пределах окна.                                             detection using a fuzzy rule-based classifier”, Computer,
  В случае применения алгоритмов, основанных на                          Communication and Electrical Technology, 2017 , pp. 61 -65.
предварительном построении модели с помощью                        [6]   S. Erfani, Sarah, M. Baktashmotlagh, S. Rajasegarar, S. Karunasekera
                                                                         and C. Leckie, “A randomised nonlinear approach to large-scale
классификации, существенных модификаций системы не
     anomaly detection”, 29th AAAI Conference on Artificial Intelligence,      [29] S. T. Teoh, K. Zhang, S-M. Tseng, K-L. Ma, S. F. Wu, “Combining
     2015, pp. 25–30, Hyatt Regency in Austin, Texas.                               visual and automated data mining for near-real-time anomaly
[7] S. Hawkins, H. He, G. J. Williams and R. A. Baxter, “Outlier                    detection and analysis in BGP” ACM workshop on Visualization and
     detection using replicator neural networks”, 4th International                 data mining for computer security. ACM, New York, NY, USA,
     Conference on Data Warehousing and Knowledge Discovery.                        2004, pp. 35-44.
     Springer-Verlag, 2002, pp. 170 – 180.                                     [30] G. Thatte, U. Mitra and J. Heidemann, "Parametric Methods for
[8] M. Hayes, M.Capretz, “Contextual anomaly detection framework for                Anomaly Detection in Aggregate Traffic," IEEE/ACM Transactions
     big sensor data”, Journal of Big Data, vol. 2(2), 2015.                        on Networking, vol. 19(2), 2011, pp. 512-525.
[9] N.A. Heard, D.J. Weston, K. Platanioti, D.J. Hand, “Bayesian               [31] W. Yan and L. Yu, “On Accurate and Reliable Anomaly Detection
     anomaly detection methods for social networks”, Ann. Appl. Stat. 4             for Gas Turbine Combustors: A Deep Learning Approach”, Annual
     vol. 2, 2010, pp. 645 – 662.                                                   Conference of the Prognostics and Health Management Society, vol.
[10] D.J. Hill, B. S. Minsker, and E. Amir, “Real-time Bayesian anomaly             6, 2015.
     detection in streaming environmental data”, Water Resour. Res., 45,       [32] L. Zhang, J. Lin, and R. Karim, ‘Adaptive Kernel Density-based
     2009.                                                                          Anomaly Detection for Nonlinear Systems’, 2016.
[11] H. Huang, "Rank Based Anomaly Detection Algorithms" Electrical            [33] M. Zhang, B. Xu and J. Gong, "An Anomaly Detection Model Based
     Engineering and Computer Science – Dissertations, 2013, 331.                   on One-Class SVM to Detect Network Intrusions," 11th International
[12] Y. Jiang, C. Zeng, J. Xu and T. Li. “Real time contextual collective           Conference on Mobile Ad-hoc and Sensor Networks (MSN),
     anomaly detection over multiple data streams”, 2014.                           Shenzhen, 2015, pp. 102-107.
[13] A. Kind, M. P. Stoecklin and X. Dimitropoulos, "Histogram-based           [34] S. Zhao, M. Chandrashekar, Y. Lee and D. Medhi, "Real-time
     traffic anomaly detection," IEEE Transactions on Network and                   network anomaly detection system using machine learning," 11th
     Service Management, vol. 6(2), 2009, pp. 110-121.                              International Conference on the Design of Reliable Communication
[14] I. Kiss, B. Genge, P. Haller, G. Sebestyén, “Data clustering-based             Networks (DRCN), Kansas City, MO, 2015, pp. 267-270.
     anomaly detection in industrial control systems”, IEEE 10th               [35] С. Антипов, М. Фомина, «Проблема обнаружения аномалий в
     International Conference on Intelligent Computer Communication                 наборах временных рядов», Программные продукты и системы
     and Processing (ICCP), 2014, pp. 275-281.                                      № 2, 2012, с. 78 – 82.
[15] L.J. Latecki, A. Lazarevic, D. Pokrajac, “Outlier Detection with          [36] Д. Заварзин “К вопросу поиска аномалий во временных рядах”,
     Kernel Density Functions”, Machine Learning and Data Mining in                 Инновации в науке: сб. ст. по матер. XXIX междунар. науч.-
     Pattern Recognition. Lecture Notes in Computer Science, vol 4571.              практ. конф. № 1(26). – Новосибирск: СибАК, 2014.
     Springer, Berlin, Heidelberg, 2007.                                       [37] Е. В. Зубков, В. М. Белов, «Методы интеллектуального анализа
[16] R. Laxhammar, G. Falkman and E. Sviestins, "Anomaly detection in               данных и обнаружение вторжений», Вестник СибГУТИ № 1,
     sea traffic - A comparison of the Gaussian Mixture Model and the               2016.
     Kernel Density Estimator," 12th International Conference on               [38] А. Денисова, В. Мясников, «Обнаружение аномалий на
     Information Fusion, Seattle, WA, 2009, pp. 756-763.                            гиперспектральных изображениях», КО. №2, 2014.
[17] W. Lee, S. J. Stolfo, P. K. Chan, E. Eskin, W. Fan, et al., “Real Time    [39] Я. Кокорева, А. Макаров, «Поэтапный процесс кластерного
     Data Mining-based Intrusion Detection”, DARPA Information                      анализа данных на основе алгоритма кластеризации k-means»,
     Survivability Conference & Exposition II, vol. 1, 2001.                        Молодой ученый, №13, 2015. с. 126-128.
[18] X. Li , J. Han , S. Kim , H. Gonzalez, “Roam: Rule- and motif-based       [40] А. Суханов, «Интеллектуальные методы обнаружения и
     anomaly detection in massive moving object data sets”, 7th SIAM                прогнозирования аномальных событий в темпоральных данных»,
     International Conference on Data Mining, 2007.                                 Диссертация на соискание ученой степени кандидата
[19] Y. Liao, , V.R, Vemuri, “Use of K-Nearest Neighbor classifier for              технических наук, РГУПС, Ростов-на-Дону, 2015.
     intrusion detection”, Computers & Security, vol. 21(5), 2002, pp.
     439-448
[20] W-C. Lin, S-W. Ke, C-F. Tsai, “An intrusion detection system based
     on combining cluster centers and nearest neighbors”, Knowledge-
     Based Systems, vol. 78, 2015, pp. 13-21.
[21] A. A. Nasr, M. Z. Abdulmaged, “A Learnable Anomaly Detection
     System using Attributional Rules”, International Journal of Computer
     Network and Information Security, vol. 8(11), 2016.
[22] M. Panda, A. Abraham, M. Patra, “Hybrid intelligent systems for
     detecting network intrusions”. Security Comm. Networks, vol. 8,
     2012, pp. 2741–2749
[23] E. H. M. Pena, M. V. O. de Assis and M. L. Proença, "Anomaly
     Detection Using Forecasting Methods ARIMA and HWDS," 2013
     32nd International Conference of the Chilean Computer Science
     Society (SCCC), Temuco, 2013, pp. 63-66.
[24] J. Piñeyro, A. Klempnow, V. Lescano, “Effectiveness of new spectral
     tools in the anomaly detection of rolling element bearings”, Journal of
     Alloys and Compounds, vol. 310(1–2), 2000, pp. 276-279.
[25] L. Portnoy, E. Eskin, S. J. Stolfo, “Intrusion Detection with
     Unlabeled Data Using Clustering”, Columbia University, New York,
     2001.
[26] S. Sarkar, K. G Lore, S. Sarkar, V. Ramanan, S. R Chakravarthyet al.,
     “Early Detection of Combustion Instability from Hi-speed Flame
     Images via Deep Learning and Symbolic Time Series Analysis”,
     Annual Conference of the Prognostics and Health Management
     Society, vol.6, 2015.
[27] M. Sharma, K. Das, M. Bilgic, B. Matthews, D. Nielsen, N. Oza,
     “Active Learning with Rationales for Identifying Operationally
     Significant Anomalies in Aviation”, Machine Learning and
     Knowledge Discovery in Databases. Lecture Notes in Computer
     Science, vol 9853, 2016
[28] M-Y. Su, “Real-time anomaly detection systems for Denial-of-
     Service attacks by weighted k-nearest-neighbor classifiers”, Expert
     Systems with Applications, vol. 38(4), 2011, pp. 3492-3498.
   The Overview Of Anomaly Detection Methods in Data
                      Streams

   Viacheslav P. Shkodyrev, Kamil I. Yagafarov, Valentina A.
               Bashtovenko, Ekaterina E. Ilyina
   This article is devoted to the research of different
approaches to the anomaly detection in time-series data, which
includes identification and processing of deviations in data
streams obtained from technological process. Detection of
anomalies in system behavior helps not only to increase
quality of these processes, but also to avoid emergency
situations and accidents at the early stages. All of these
demonstrates the relevance of the topic.
   Existing methods and algorithms of anomaly detection are
reviewed in this paper. The aim of research lies in structuring
of available techniques and providing a subsequent selection
of methods for system of anomaly detection development for
Big Data streams.