<!DOCTYPE article PUBLIC "-//NLM//DTD JATS (Z39.96) Journal Archiving and Interchange DTD v1.0 20120330//EN" "JATS-archivearticle1.dtd">
<article xmlns:xlink="http://www.w3.org/1999/xlink">
  <front>
    <journal-meta />
    <article-meta>
      <title-group>
        <article-title>Sergey Glavatsky, Ilya Burykin</article-title>
      </title-group>
      <contrib-group>
        <contrib contrib-type="author">
          <string-name>M.V. Lomonosov Moscow State University</string-name>
          <xref ref-type="aff" rid="aff0">0</xref>
        </contrib>
        <contrib contrib-type="author">
          <string-name>Moscow</string-name>
          <xref ref-type="aff" rid="aff0">0</xref>
        </contrib>
        <contrib contrib-type="author">
          <string-name>Russia</string-name>
          <xref ref-type="aff" rid="aff0">0</xref>
        </contrib>
        <aff id="aff0">
          <label>0</label>
          <institution>The article sets out the approach to teaching specialization in the field of Data science for mathematicians at the Department of Theoretical Computer Science at Mechanics and Mathematics Faculty of Moscow State University. The author's view on the selection of topics and courses (both basic and special) is offered</institution>
        </aff>
      </contrib-group>
      <fpage>58</fpage>
      <lpage>63</lpage>
      <abstract>
        <p />
      </abstract>
    </article-meta>
  </front>
  <body>
    <sec id="sec-1">
      <title>-</title>
      <p>бизнес-менеджерам принимать решения на регулярнои основе;
3. Наука о данных. Разработка и использование статистических и математических
моделеи, алгоритмов и визуализации с целью помочь объяснить данные различных
видов, будь то структурированные или неструктурированные, используя методы
статистическии обработки, машинное обучение, искусственныи интеллект или
иные подходы. В практическом применении науки о данных часто используют
большие наборы данных и специализированные алгоритмы для создания и
тестирования различных моделеи;
4. Интеллектуальныи анализ данных. Извлечение новых знании из различных
наборов данных, как правило, с помощью структурированных запросов. В первую
очередь интеллектуальныи анализ данных ассоциируется с исследованием
больших текстовых документов и открытия новых шаблонов при анализе текста. В
настоящее время интеллектуальныи анализ данных широко применяется при
анализе как структурированных (например, представленных в реляционных БД),
так и малоструктурированных данных (NoSQL);
5. Бизнес-аналитика. Набор инструментов и подходов, которые позволяют
менеджерам управлять процессами на основе данных, собранных в результате
каких-то процессов в так называемые хранилища данных. Как правило, – это
инструментальные панели, предоставляющие комбинацию запросов, визуализации
и отчетов, предназначенных для достижения конкретных бизнес-целеи;
6. Эконометрика. Отрасль прикладнои статистики, предназначеннои, в частности, для
исследования экономических процессов с помощью статистических методов и
анализа данных различных видов;
7. Статистика. В практических приложениях здесь выделяют описательную и
выведенную статистики. Описательная статистика предоставляет характеризацию
данных, используя различные методы измерении, а выведенная статистика
предназначается для установления и проверки гипотез (теории). Статистическая
инженерия является смежнои областью, где статистические модели построены как
на основе данных, так и на основе дедуктивного и индуктивного подходов;
8. Машинное обучение. Процесс построения (чаще – статистических) моделеи для
нахождения комплексных решении различных задач, например: предсказание
значении переменных данных на основе имеющихся данных (регрессия),
классификация точек данных или кластеризации точек данных в многомерных
пространствах с какои-то метрикои. Машинное обучение включает в себя
разработку статистических моделеи для преобразования сложных наборов данных
в более простые, приближенные представления взаимосвязеи между факторами, а
также включает в себя кросс-проверки и оптимизации гипер-параметров для
оценки качества моделеи;
9. Искусственныи интеллект. Совокупность методов, охватывающих статистические
подходы к обучению и неиронные сети для моделирования поведения экспертных
систем с использованием контролируемых (где данные и целевые показатели
задаются в явном виде) и неконтролируемых (где шаблоны отыскиваются)
подходов к обучению. Методы искусственного интеллекта в большеи степени,
нежели машинное обучение, базируются на сопоставлении с шаблонами и на
распознавании образов;
10. Математическое моделирование. Очень широкое направление, включающее в себя
построение и проверку моделеи самых различных классов: статистические модели;
модели, основанные на алгоритмах линеинои алгебры; модели, основанные на
системах обыкновенных дифференциальных уравнении и дифференциальных
уравнении с частными производными; модели, основанные на методах теории
групп, и многие другие. Модели могут описывать реальные или воображаемые
сценарии, но, как правило, предназначены для решения и описания реальных
проблем.</p>
      <p>
        Приведенная классификация не вполне отражает особенности математического
содержания применяемых в рассматриваемои сфере методов и алгоритмов, используя в большеи
степени функциональные подходы. Так, область “Наука о данных“ (“Data Science”) другими
исследователями представляется именно как содержательныи раздел науки, а не просто как одно
из направлении исследовании. В частности, предлагается [
        <xref ref-type="bibr" rid="ref3 ref7">3</xref>
        ] следующая структура этого раздела
(Рис. 1):
Здесь:
 по вертикальнои оси отложена шкала “Описательные - предписывающие”; а
 по горизонтальнои – “Экспериментальные - теоретические”;
Термины:
 “Big Data” означает большие наборы данных;
 “Data Analysis/Analytics” – анализ/аналитика данных;
 “Methods and Algorithms” – методы и алгоритмы;
 “Data Mining” – интеллектуальныи анализ данных;
 “Machine Learning” – машинное обучение;
 “Software Tools” – программные средства;
 “Big Data Analytics” – аналитика больших наборов данных.
      </p>
      <p>Как мы видим, здесь в науку о данных включается ряд разделов, другими авторами
отнесенных к иным направлениям. По-нашему же мнению, такое представление в большеи степени
соответствует математическому подходу к сфере анализа больших наборов данных.</p>
      <p>Мы не станем углубляться далее в анализ различных концепции, взаимоотношении и
взаимосвязеи между понятиями аналитики данных (Data Analytics), анализа данных (Data Analysis),
интеллектуального анализа данных (Data Mining), науки о данных (Data Science), машинного
обучения (Machine Learning) и большими наборами данных (Big Data). Нашеи целью является, в
определенном смысле, выделение подходов к исследованиям, основанных на:
 использовании математических теории, понятии и моделеи;
 постановке и решении математических задач;
 применении разработанных алгоритмов в науке о данных.
Условно говоря, набор тем, включенных в наш цикл курсов, включает в себя следующее:
1. Типы данных, структуры данных, модели данных;
2. Представление данных, хранение и передача данных;
3. Методы и алгоритмы первичнои обработки данных, базы данных, языки
манипулирования данными;
4. Проектирование баз данных. Языки определения данных. Нормальные формы в
проектировании реляционных баз данных;
5. Структурированные и неструктурированные данные, хранилища данных;
6. Анализ больших (неструктурированных) наборов данных, технологии
распараллеливания обработки и сжатия информации;
7. Задачи интеллектуального анализа больших наборов данных. Проблемы больших
объемов и размерностеи;
8. Вероятностные методы первичного сжатия данных, хеширование и статистические
оценки;
9. Задача обнаружения схожих документов, предлагаемые методы и алгоритмы,
применение технологии распараллеливания обработки;
10. Метрические пространства. Кластерные методы в снижении размерности задачи;
11. Рекомендательные системы. Матричное представление данных. Алгоритмы
линеинои алгебры и их использование в снижении размерности задачи;
12. Всемирная паутина, методы сбора данных и первичного анализа;
13. Структура WWW и ее использование в задачах ранжирования информации;
14. Интеллектуальныи анализ информационных процессов;
15. Методы обнаружения бизнес-процессов. Альфа-алгоритм. Эвристические
алгоритмы обнаружения бизнес-процессов;
16. Продвинутые техники баз данных. In-Memory базы данных как технологическая
платформа для обработки больших наборов данных;
17. Базы данных NoSQL как набор технологических платформ для обработки больших
наборов данных.</p>
      <p>Более детально эти темы распределены по двум годовым (четырем полугодовым)
спецкурсам объединенного курса “Анализ больших данных” (“The analysis of big data”):
1. Модели данных и базы данных (Data models and databases) – годовои:
1.1. Модели данных и основы систем баз данных (Data models and fundamentals of
database systems ) – полугодовои;
1.2. Базы данных. Дополнительные главы (Databases: additional chapters) –
полугодовои.
2. Аналитика больших данных (Big Data Analytics) – годовои:
2.1. Аналитика больших данных. Основные алгоритмы (Big Data Analytics: basic
algorithms) – полугодовои;
2.2. Аналитика больших данных. Дополнительные главы (Big Data Analytics:
additional chapters) – полугодовои.
Отметим, что предлагаемые спецкурсы:
 включают в себя теоретическую и практическую составляющие;
 являются, с однои стороны, взаимозависимыми, а с другои – не требуют
обязательного предварительного изучения содержания остальных спецкурсов из
предлагаемого набора;
 отражают как уже ставшие классическими модели и алгоритмы, так и современные
взгляды и понятия.</p>
      <p>Предполагается, что слушатели спецкурсов уже владеют материалом из основных курсов
по:




линеинои алгебре и ее приложениям;
по теории вероятностеи и статистике;
по теории кодирования (такои курс предлагается сделать основным);
по программированию.
Ниже приведены более детальные программы для каждого из спецкурсов.
Модели данных и основы систем баз данных:
1. Основы баз данных. История развития. Понятие модели данных. СУБД, устроиства
хранения данных, языки манипулирования данными;
2. СУБД: основные функции, запросы, транзакции. Компоненты СУБД, архитектура
современных СУБД;
3. Модели данных. Иерархическая, сетевая, реляционная и слабоструктурированная
модели. Основы реляционнои модели данных;
4. Реляционная алгебра, отношения, кортежи, основные операции;
5. Реляционная алгебра: представление сложных запросов. Мультимножества;
6. Язык определения данных и манипулирования данными SQL;
7. SQL: основные стандарты и особенности реализации;
8. Функциональные зависимости и их роль в устранении аномалии манипулирования
в реляционных базах данных;
9. Исчисление функциональных зависимостеи, алгоритмы вычисления замыкании;
10. Декомпозиция схем отношении. Своиства соединения без потерь и сохранения
зависимостеи;
11. Нормальные формы схем отношении. Основные теоремы о декомпозиции схем;
12. Алгоритмы приведения к 3-и нормальнои форме и нормальнои форме Боиса-Кодда;
13. Многозначные зависимости. Исчисление многозначных зависимостеи. Замыкание
множества функциональных и многозначных зависимостеи;
14. Декомпозиции схем отношении, 4-я нормальная форма;
15. Проектирование схем баз данных. Концептуальные модели, модель
сущностеисвязеи: основные понятия и представления;
16. Модель сущностеи-связеи: правила описания связеи и ограничении, принципы
проектирования.
Базы данных. Дополнительные главы:
1. Прошлое, настоящее и будущее корпоративных приложении. Новые требования к
корпоративным приложениям. Изменения в аппаратном обеспечении.
Характеристики современных корпоративных приложении;
2. Методы хранения баз данных. Словарное кодирование;
3. Сжатие: Prefix Encoding / Run-Length Encoding / Cluster Encoding / Indirect Encoding /</p>
      <p>Delta Encoding;
4. Размещение данных в оперативнои памяти. Секционирование;
5. Структуры и операции. Манипулирование данными (insert / update / delete / insert
only);
6. Реконструкция кортежеи. Поиск данных. Стратегии материализации;
7. Продвинутые техники баз данных. Архитектура базы данных: дифференциальныи
буфер, операция слияния;
8. Параллельная обработка данных;
9. Материализованные агрегаты, их кеширование. Управление рабочеи нагрузкои и
планирование;
10. Механизм старения данных. Актуальное и историческое хранение;
11. Внутренние механизмы базы данных. Индексы;
12. Журналирование. Восстановление. Репликация. Резервирование;
13. Введение в СУБД SAP HANA. Структура данных: таблицы, представления и
материализованные агрегаты;
14. СУБД HANA: введение в язык манипулирования данными SQLScript;
15. NoSQL. Идея NoSQL. ACID vs BASE. Теорема CAP: 3 класса распределенных систем;
16. NoSQL модели данных: Document, Graph, Key-value store, Google‘s BigTable.
Аналитика больших данных. Основные алгоритмы:
1. Введение в Data Mining;
2. Технология MapReduce распараллеливания вычислении;
3. Алгоритмы, использующие MapReduce;
4. Операции реляционнои алгебры, матричные вычисления с использованием</p>
      <p>MapReduce;
5. Алгоритмы обнаружения схожих элементов. Сходство по Жаккару;
6. Методы сжатия больших фаилов. Хеширование, подписи больших фаилов;
7. Локально-чувствительное хеширование документов;
8. Техника группировок. Построение семеиств функции;
9. Метрики на пространствах данных;
10. Локально-чувствительные семеиства функции хеширования;
11. Методы высоких степенеи сходства. Индексация;
12. Методы высоких степенеи сходства. Использование позиции и длины;
13. Методы кластеризации в обработке больших данных;
14. Кластеризация в различных метрических пространствах;
15. In-Memory базы данных как технологическая платформа для обработки больших
данных;
16. Алгоритмы In-Memory.
Аналитика больших данных. Дополнительные главы:
1. Анализ ссылок в Интернет;
2. Вычисление PageRank;
3. Модифицированные алгоритмы вычисления PageRank;
4. Модель корзины покупок. Задача поиска частых наборов элементов. Ассоциативные
правила.
5. Представление данных: triangular matrix method, triples method. Алгоритм A-priori;
6. Глубинныи анализ процессов. Введение. Основные понятия и цели;
7. Методы и типы глубинного анализа процессов;
8. Моделирование бизнес-процессов. Control-Flow notations: BPMN, UML, Petri nets,</p>
      <p>Causal nets, Transition systems;
9. BPMN нотация и модель бизнес-процессов: объекты потока управления,
соединяющие объекты, роли, артефакты. Модели и экземпляры;
10. Исследование поведения процесса: deadlock, livelock, remaining activity, dead activity.</p>
      <p>Soundness criterion;
11. Анализ бизнес-процессов с помощью сетеи Петри: boundedness, safeness, deadlock,
liveness, WF-net sound;
12. Alpha алгоритм;
13. Alpha алгоритм: ограничения. Alpha Plus алгоритм;
14. Process Mining Tools: ProM, Celonis Process Mining for SAP systems;
15. Базы данных NoSQL как технологическая платформа для обработки больших
данных: Google Software Stack, Hadoop 1.0 / 2.0 (YARN) architecture;
16. NoSQL базы данных: XML, JSON Document, Resource Description Framework
(triplestores), key-value store, Cassandra Query Language.</p>
      <p>Для успешного восприятия материала курсов студентам предлагается не только
теоретическии материал, но и его практическая поддержка в виде выполнения конкретных
проектов с использованием предустановленных программных сред, в частности, SAP SQL Anywhere
16 Developer Edition и SAP HANA express edition (Virtual Machine Method).</p>
      <p>
        В перспективе предполагается развертывание ряда специальных практикумов по
отдельным направлениям исследовании в науке о данных, а также пополнение методическими
материалами разрабатываемого открытого электронного ресурса [
        <xref ref-type="bibr" rid="ref4 ref8">4</xref>
        ].
      </p>
      <p>References</p>
    </sec>
  </body>
  <back>
    <ref-list>
      <ref id="ref1">
        <mixed-citation>
          1.
          <string-name>
            <surname>Leskovec</surname>
            <given-names>J.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Rajaraman</surname>
            <given-names>A.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Ullman J.D</surname>
          </string-name>
          . Mining of Massive Datasets. - 2nd
          <string-name>
            <surname>Ed</surname>
          </string-name>
          . - Cambridge University Press,
          <year>2014</year>
          . -
          <fpage>511p</fpage>
          .
        </mixed-citation>
      </ref>
      <ref id="ref2">
        <mixed-citation>
          2.
          <string-name>
            <surname>Sampathkumar</surname>
            <given-names>R</given-names>
          </string-name>
          .
          <article-title>What is the difference between big data, analytics, data science, data analysis, data mining, business intelligence</article-title>
          , econometrics, statistics,
          <source>machine learning (artificial intelligence)</source>
          and mathematical modeling? [Электронныи ресурс]. - URL: https://www.quora.com/
          <article-title>What-is-the-difference-between-big-data-analytics-data-science-data-analysisdata-mining-business-intelligence-econometrics-statistics-machine-learning-artificial-intelligence-and-mathematicalmodelling (дата обращения</article-title>
          :
          <volume>10</volume>
          .
          <fpage>10</fpage>
          .
          <year>2016</year>
          ).
        </mixed-citation>
      </ref>
      <ref id="ref3">
        <mixed-citation>
          3.
          <string-name>
            <surname>Winters</surname>
            <given-names>D.</given-names>
          </string-name>
          <article-title>What is the difference between Data Analytics, Data Analysis</article-title>
          ,
          <source>Data Mining, Data Science, Machine Learning, and Big Data? [Электронныи ресурс]</source>
          . - URL: https://www.quora.com/
          <article-title>What-is-the-difference-between-Data-Analytics-DataAnalysis-Data-Mining-Data-Science-Machine-Learning-and-Big-Data-1?redirected_qid=1084449 (дата</article-title>
          обращения:
          <volume>10</volume>
          .
          <fpage>10</fpage>
          .
          <year>2016</year>
          ).
        </mixed-citation>
      </ref>
      <ref id="ref4">
        <mixed-citation>
          4.
          <string-name>
            <surname>Главацкии</surname>
            <given-names>С.Т.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Бурыкин</surname>
            <given-names>И</given-names>
          </string-name>
          .Г.
          <article-title>Базы данных как технологическая платформа для разработки учебных материалов в системе дистанционного обучения // Международная научно-практическая конференция "Информационные технологии в образовании XXI века"</article-title>
          .
          <source>Сборник научных трудов. - М.: НИЯУ МИФИ</source>
          ,
          <year>2015</year>
          . -
          <fpage>С</fpage>
          .
          <fpage>222</fpage>
          -
          <lpage>227</lpage>
          .
        </mixed-citation>
      </ref>
      <ref id="ref5">
        <mixed-citation>
          1.
          <string-name>
            <surname>Leskovec</surname>
            <given-names>J.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Rajaraman</surname>
            <given-names>A.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Ullman J.D</surname>
          </string-name>
          . Mining of Massive Datasets. - 2nd
          <string-name>
            <surname>Ed</surname>
          </string-name>
          . - Cambridge University Press,
          <year>2014</year>
          . -
          <fpage>511p</fpage>
          .
        </mixed-citation>
      </ref>
      <ref id="ref6">
        <mixed-citation>
          2.
          <string-name>
            <surname>Sampathkumar</surname>
            <given-names>R</given-names>
          </string-name>
          .
          <article-title>What is the difference between big data, analytics, data science, data analysis, data mining, business intelligence</article-title>
          , econometrics, statistics,
          <source>machine learning (artificial intelligence)</source>
          and mathematical modeling? [Электронный ресурс]. - URL: https://www.quora.com/
          <article-title>What-is-the-difference-between-big-data-analytics-data-science-data-analysisdata-mining-business-intelligence-econometrics-statistics-machine-learning-artificial-intelligence-and-mathematicalmodelling (</article-title>
          <source>accessed: 10.10</source>
          .
          <year>2016</year>
          ).
        </mixed-citation>
      </ref>
      <ref id="ref7">
        <mixed-citation>
          3.
          <string-name>
            <surname>Winters</surname>
            <given-names>D.</given-names>
          </string-name>
          <article-title>What is the difference between Data Analytics, Data Analysis</article-title>
          ,
          <source>Data Mining, Data Science, Machine Learning, and Big Data? [Электронный ресурс]</source>
          . - URL: https://www.quora.com/
          <article-title>What-is-the-difference-between-Data-Analytics-DataAnalysis-Data-Mining-Data-Science-Machine-Learning-and-</article-title>
          <string-name>
            <surname>Big-</surname>
          </string-name>
          Data-
          <volume>1</volume>
          ?redirected_qid=
          <volume>1084449</volume>
          (
          <issue>accessed</issue>
          :
          <fpage>10</fpage>
          .
          <fpage>10</fpage>
          .
          <year>2016</year>
          ).
        </mixed-citation>
      </ref>
      <ref id="ref8">
        <mixed-citation>
          4.
          <string-name>
            <surname>Glavatsky</surname>
            <given-names>S.T.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Burykin</surname>
            <given-names>I.G.</given-names>
          </string-name>
          <article-title>Bazy dannykh kak tekhnologicheskaya platforma dlya razrabotki uchebnykh materialov v sisteme distantsionnogo obucheniya // Mezhdunarodnaya nauchno-prakticheskaya konferentsiya "Informatsionnye tekhnologii v obrazovanii XXI veka"</article-title>
          .
          <source>Sbornik nauchnykh trudov</source>
          . - M.:
          <string-name>
            <surname>NIYaU</surname>
            <given-names>MIFI</given-names>
          </string-name>
          ,
          <year>2015</year>
          . - S.
          <fpage>222</fpage>
          -
          <lpage>227</lpage>
          .
        </mixed-citation>
      </ref>
    </ref-list>
  </back>
</article>