Практические аспекты использования графов знаний для моделирования телекоммуникационных сетей Н.А. Жукова И.А. Куликов Санкт-Петербургский институт Кафедра МО ЭВМ информатики и автоматизации Санкт-Петербургский Российской академии наук государственный Санкт-Петербург, Россия электротехнический университет ORCID: 0000-0001-5877-4461 «ЛЭТИ» им. В.И. Ульянова (Ленина) nazhukova@mail.ru Санкт-Петербург, Россия ORCID: 0000-0002-2532-5579 i.a.kulikov@gmail.com Аннотация— Доклад посвящен практическим аспектам телекоммуникационной сети, решающий практическую использования графов при моделировании задачу. Показаны преимущества использования графа телекоммуникационных сетей. Представлен обзор знаний как технологии для построения обобщенной применяемых графовых моделей сетей, приведены модели телекоммуникационной сети. подлежащие моделированию характеристики сетей, показаны преимущества и недостатки используемых II. ОБЗОР СУЩЕСТВУЮЩИХ РЕШЕНИЙ графовых моделей. Проанализированы требования к моделям телекоммуникационных сетей — возможность Схожие задачи обработки данных динамического управления параметрами сети, доступом к телекоммуникационных сетей решаются следующими информации, уровнем качества предоставляемых сетями классами систем: услуг конечным пользователям. Представлены оценки • Системы обработки машинных данных соответствия применяемых графовых моделей (например, Splunk [8], Datadog [9], Logstash современным и перспективным требованиям операторов. [10]). Приведено определение графа знаний и проанализированы перспективы практического использования моделей на • Аналитические системы (например, IBM основе графов знаний при моделировании Telecom Analytics Solutions [11], Huawei Big телекоммуникационных сетей. Сформулированы задачи, Data Analytics (BDA) [12]). которые можно решать при помощи моделей, основанных на графах знаний. На практическом примере показана Системы обработки машинных данных обрабатывают возможность решать задачи, стоящие перед операторами, события, логируемые сетевыми устройствами, выделяют при помощи моделей, построенных на основе графов в них выбранные оператором паттерны, агрегируют их и знаний. используют в качестве исходных данных для отчетов и для построения различных панелей управления. Ключевые слова: телекоммуникационная сеть, граф Объединение моделей происходит на самом верхнем знаний, моделирование уровне анализа данных, когда первичные данные уже обработаны и часть взаимосвязей может быть потеряна. I. ВВЕДЕНИЕ Для добавления новых взаимосвязей на ровне первичных В настоящее время для моделирования данных требуется перепроектирование на уровне телекоммуникационных сетей используются различные паттернов логов, агрегации данных и бизнес-логики. модели – графовые, вероятностные, модели массового обслуживания и пр. При этом, как сами модели, так и Аналитические системы работают с уже информационные системы, построенные на их основе, подготовленными данными. Как правило, эти данные оперируют только теми данными, которые необходимы поступают из различных систем, функционирующих в для их функционирования. Когда возникает сети оператора. Для добавления новых взаимосвязей на необходимость в обработке данных, содержащихся в уровне первичных данных требуется вносить изменения разных информационных системах, приходится строить на уровне формирования данных в системах – источниках обобщенные модели, объединяющие ряд уже данных, на уровне обработчиков входящих данных самой существующих моделей. Проблема является актуальной аналитической системы и вносить изменения в ее бизнес- и часто встречается на практике, например, при логику. необходимости объединения бизнес-профиля абонента III. СУЩЕСТВУЮЩИЕ ГРАФОВЫЕ МОДЕЛИ сети и данных о его поведении (статистика использования ТЕЛЕКОММУНИКАЦИОННЫХ СЕТЕЙ сервисов и приложений, предлагаемых сетью, геоданные и пр.). Для построения таких обобщенных моделей могут Графовые модели телекоммуникационных сетей быть использованы различные подходы. В данной статье широко применяются на практике, ниже приведен авторами предлагается решение на основе графа знаний. перечень наиболее часто встречающихся графовых Представлены предпосылки для использования графа моделей: знаний, описана сама технология, применяемые онтологии и пример построения графа знаний Copyright© 2020 for this paper by its authors. Use permitted under Creative Commons License Attribution 4.0 International (CC BY 4.0). 1. Графы структур сетевых слоев (устройства и V. ИСПОЛЬЗОВАНИЕ ГРАФОВ ЗНАНИЙ ПРИ каналы передачи данных, приложения, сетевая иерархия, МОДЕЛИРОВАНИИ ТЕЛЕКОММУНИКАЦИОННЫХ СЕТЕЙ функции, сетевые ограничения, модель данных) [1]. Графы знаний используются как для открытых 2. Граф атак [2]. проектов (открытые графы знаний), так и для корпоративных — индустриальные графы знаний. 3. Граф прав доступа [3]. Наиболее известные открытые графа знаний: DBpedia 4. Различные частные графовые модели для [13], Google Knowledge Graph [14], YAGO [15]. решения конкретных задач. Стандартные задачи, решаемые индустриальным графом знаний, перечислены ниже [16]: Традиционные графовые модели телекоммуникационных сетей успешно решают • Построение цифровых двойников реального специализированные задачи, но не всегда возможно в оборудования. рамках одной модели решить задачи, требующие анализа • Управление рисками. различных аспектов функционирования сети. • Мониторинг процессов. IV. СОСТАВ ДАННЫХ О ТЕЛЕКОММУНИКАЦИОННЫХ СЕТЯХ ДЛЯ ПОСТРОЕНИЯ ГРАФОВЫХ МОДЕЛЕЙ • Операционные сервисы для сложного оборудования. Данные для построения графов телекоммуникационных сетей включают: Для построения объединенной модели телекоммуникационной сети предлагается объединить • данные об устройствах и топологии сети; структурные графовые моделей сети в одном графе • перечень сервисов; знаний. Это позволит устанавливать взаимосвязь динамических данных с данными статических сетевых • роли пользователей и права пользователей; моделей и между собой. В результате, обращаясь к графу • модель данных; знаний, будет возможно получить множество данных как о состоянии сети, так и о связях между различными ее • структуры пользовательских интерфейсов; элементами. При решении практических задач для телекоммуникационных сетей, предлагается • статистика поведения пользователей по обращению к рассматривать граф знаний как RDF (Resource Description сервисам, запросам доступа к данным и фактам Framework) граф, состоящий из RDF триплетов — получения доступа; «субъект — предикат — объект». В такой нотации • статистика по производительности сервисов и множество RDF-утверждений образует ориентированный возникших при их выполнении ошибках; граф, в котором вершинами являются субъекты и объекты, а рёбра отображают отношения между ними • аналитика видов угроз и сценарии их реализации; [5][6]. Использование графов знаний может позволить • лог файлы серверов и пользовательских устройств; устанавливать связи между традиционными графовыми моделями и создавать на их основе объединенную модель • журналы событий. сети, позволяющую решать более сложные прикладные Перечисленные данные позволяют построить задачи. При различных сценариях одни и те же узлы следующие графовые модели телекоммуникационной могут являться как субъектами, так и объектами при их сети: взаимодействии. Графы знаний позволяют в рамках одной модели связать, например, сервисную модель с 1. Модель топологии сети; моделью распространения прав доступа и моделью 2. Модель прикладных сервисов; пользовательского интерфейса. Такой подход позволяет одним запросом к графу знаний получать ответ на такие 3. Граф пользовательских приложений; вопросы как: по каким маршрутам пользовательского 4. Ролевая модель; интерфейса выбранный пользователь сможет получить доступ к определенным данным и пр. 5. Модель распространения прав доступа (граф доступа); Существенным компонентом графа знаний телекоммуникационной сети являются динамические 6. Модели пользовательских интерфейсов; данные, в частности, данные о поведении пользователей. 7. Модель поведения пользователя по VI. ПОТРЕБНОСТИ В ОБОБЩЕННЫХ МОДЕЛЯХ обращению к сервисам и доступа к данным; ПОЛЬЗОВАТЕЛЕЙ ТЕЛЕКОММУНИКАЦИОННЫХ СЕТЕЙ 8. Модель атак; При определении потребностей пользователей в 9. Граф состояния сервисов (срез на момент обобщенных моделях телекоммуникационной сети, времени). рассматривалась сеть одного из крупных операторов кабельного ТВ. Обработка данных проводилась авторами Перечень моделей не полон и может быть расширен в в ходе выполнения проектов компанией Zodiac Systems зависимости от состава доступных данных. [7] по заказам операторов кабельного ТВ Северной Америки. В результате анализа был получен перечень задач, для решения которых требуется построение обобщенных графовых моделей. Перечень в разрезе заинтересованных сторон представлен ниже: 1. Задачи конечных пользователей: Статическая часть графа знаний: • Получение актуальных данных об • User_ID — идентификатор пользователя; ограничениях для пользователя; • Device_ID — идентификатор устройства; • Поиск по доступным / всем данным; • Hub_ID — идентификатор хаба, к которому 2. Бизнес-задачи владельцев сети: присоединен Device_ID; • Получение информации об • Device_Model_ID — идентификатор модели; интересах пользователей; • Service_ID — идентификатор вызываемого сервиса; • Определение целевых групп • Asset_ID — идентификатор информационного пользователей для распространения объекта, используемого сервисом; рекламы; • Asset_Genre_ID — идентификатор жанра. 3. Задачи служб эксплуатации сети: Динамическая часть графа знаний: • Получение данных для быстрого решения инцидентов, возникающих • Request_ID — идентификатор запроса пользователя. у пользователей. В качестве значений параметров для запроса выбраны: Использование графа знаний позволяет построить Hub_ID=”H000001”; модель, отвечающую интересам всех потребителей данных о телекоммуникационных сетях. Такая модель Service_ID=”PPV”; включает: данные о конфигурации сети (на различных Asset_Genre_ID=”Sport”: уровнях), данные о сетевых устройствах, пользователях, правах доступа, сетевых сервисах, клиентских Дата: 08 февраля 2020г. приложениях и их версиях, статистику действий Для построения описанного графа знаний необходимо пользователей и другие. программное решение, удовлетворяющее следующим VII. ПРОИЗВОДИТЕЛЬНОСТЬ СИСТЕМ НА БАЗЕ ГРАФОВ требованиям: ЗНАНИЙ • наличие графовой базы данных с поддержкой Основываясь на данных исследований SPARQL 1.1, что обеспечит реализацию более гибких производительности систем на основе графа знаний [17], запросов по сравнению с версией 1.0 [18]; средняя скорость выполнения поисковых запросов к • поддержка текстовых форматов JSON или XML для графу знаний при размере графа 1М триплетов, по импорта данных, что обеспечит загрузку данных в которым производится поиск для наилучшего решения графовую БД; RDF хранилища (Virtuoso 7.2.4) не превышает 1сек., и может увеличиваться до 4 сек. под нагрузкой, при • наличие графического интерфейса для разработчика одновременном заполнении графа знаний новыми для анализа параметров графа знаний и скорости данными, что является приемлемым показателем для выполнения SPARQL запросов и загрузки данных; аналитических систем. При этом использование • наличие возможности быстро получить комбинированного решения, когда статические данные поддержку со стороны разработчика. хранятся в RDF хранилище, динамические данные в SQL DBMS, а SPARQL запросы преобразуются в SQL для Программное обеспечение должно быть свободно поиска динамических данных, не дает выигрыша. распространяемым или предоставлять соответствующую лицензию для проведения исследований. VIII. ПРИМЕР ПОСТРОЕНИЯ ГРАФА ЗНАНИЙ ТЕЛЕКОММУНИКАЦИОННОЙ СЕТИ Для построения графа знаний было выбрано решение Metaphactory (https://www.metaphacts.com/product), Одной из актуальных задач операторов которое удовлетворяет всем перечисленным телекоммуникационных сетей является адресная требованиям. Модель графа знаний включает: рассылка сообщений по группам пользователей. При определении групп учтены следующие условия: • H000001—H000003 — идентификаторы хабов; • Проживание в определенном районе; • Moto2k, Cisco3260, ArrisWB11, ArrisWB20 — идентификаторы моделей устройств; • Модель используемого абонентского устройства; • D000001—D000010 — идентификаторы устройств; • Однократное или более частое использование сервиса PPV (Pay per view service – платный просмотр одной передачи) в течение выбранных суток для просмотра передач спортивной тематики. На рис. 1 показана неформализованная диаграмма фрагмента данных в виде графа, достаточных для выполнения такого запроса. Диаграмма состоит из следующих узлов: Рис. 1 Неформализованная диаграмма фрагмента описания графа знаний телекоммуникационной сети • U000001—U0000010 — идентификаторы FILTER contains(?Date, "2020-02-08") . пользователей; ?Request_ID my:request_detailes ?Detailes_ID . • PPV, nDVR, CallerID — идентификаторы сервисов; ?Detailes_ID rdf:subject "PPV" . • Sport, Comedy, News — идентификаторы жанров ?Detailes_ID rdf:object ?Asset_ID . ТВ программ; ?Asset_ID my:has_the_genre "Sport" • A000001—A000010 — идентификаторы ассетов } (передач). Запрос к графу знаний возвращает список Граф знаний построен в соответствии с моделью, пользователей, которые используют устройства модели описанной выше. В ходе моделирования было “Moto2k”, присоединенные к хабу “H000001”, и которые подтверждено, что искомая группа пользователей может хотя бы один раз за сутки 08 февраля 2020г. приобретали быть определена одним запросом. разовый просмотр ТВ программы с жанром “Sport”. Запрос к графу знаний имеет вид: ВЫВОДЫ PREFIX rdf: на базе графов знаний, имеют практическую ценность в PREFIX rdfs: графовые модели в рамках одной модели. За счет совместного использования нескольких графовых PREFIX my: моделей, граф знаний позволяет решать более широкий класс задач. В докладе определены основные PREFIX : потребители данных о телекоммуникационных сетях, SELECT * рассмотрены их интересы. Приведен пример построения графа знаний по данным телекоммуникационных сетей, WHERE { показано решение практической задачи. Также ?Device my:is_connected_to_hub "H000001" . представлена оценка производительности похожих систем на базе графа знаний. ?Device my:has_the_device_model "Moto2k" . Проведенный анализ возможностей и потребностей в ?Device my:has_id ?Device_id . применении графов знаний при построении моделей ?User my:uses_device ?Device_id . телекоммуникационных сетей показал, что такая задача является актуальной и имеет практическую значимость. ?User my:requests ?Request_ID . ?Request_ID rdf:property ?Date СПИСОК ЛИТЕРАТУРЫ [18] https://www.w3.org/TR/sparql-features/ [1] Spatial and Graph Topology Data Model and Network Data Model Graph Developer's Guide Practical aspects of using knowledge graphs for https://docs.oracle.com/database/121/TOPOL/network-data-model- telecommunication networks modelling graph-overview.htm#TOPOL700 [2] Sudip Saha, Mahantesh Halappanavar, Anil Vullikanti. Identifying Nataly Zhukova Vulnerabilities and Hardening Attack Graphs for Networked Systems, Dept. of Software Engineering & Computer Applications Virgina Tech, 2014 (MOEVM) http://staff.vbi.vt.edu/ssaha/papers/attackgraph_dag.pdf St. Petersburg State Electrotechnical University, St. [3] Lipton, Richard J.; Snyder, Lawrence (1977). "A Linear Time Petersburg, Russia, Algorithm for Deciding Subject Security" (PDF). Journal of the ACM. 24 (3): 455–464. CiteSeerX 10.1.1.149.4807. St. Petersburg Institute for Informatics and Automation of the doi:10.1145/322017.322025 Russian Academy of Sciences, St. Petersburg, Russia, [4] M. Kroetsch and G. Weikum. Journal of Web Semantics: Special Issue nazhukova@mail.ru on relationships between entities.” Knowledge Graphs. ORCID: 0000-0001-5877-4461 http://www.websemanticsjournal.org/index.php/ps/announcement/vie w/19 [August, 2016] Igor Kulikov [5] RDF Primer https://www.w3.org/TR/rdf-primer/ Dept. of Software Engineering & Computer Applications [6] M. Farber, B. Ell, C. Menne, A. Rettinger, and F. Bartscherer. Linked (MOEVM) Data Quality of DBpedia, Freebase, OpenCyc, Wikidata, and YAGO. Semantic Web Journal, 2016. http://www.scmantic-web- St. Petersburg State Electrotechnical University, St. journal.net/contenv/linked-data-quality-dbpedia-freebase- opencyc- Petersburg, Russia, wikidata-and-yago [August, 2016] (revised version, under review) i.a.kulikov@gmail.com [7] Zodiac Systems Inc web-site: https://www.zodiacsystems.com ORCID: 0000-0002-2532-5579 [8] Splunk: https://www.splunk.com/ [9] Datadog: https://www.datadoghq.com/ Abstract: The paper deals with the principles and [10] Logstash: https://www.elastic.co/logstash practices of using graphs as a tool for modelling [11] IBM Telecom Analytics Solutions: telecommunication networks. It contains a review of network https://www.ibm.com/support/pages/ibm-telecom-analytics-solutions- graph models currently used, discusses network product-documentation characteristics which can be analyzed using these models, and [12] Huawei Big Data Analytics (BDA): shows the advantages and disadvantages of these models. It https://carrier.huawei.com/en/products/carrier-software/enabling- also contains an analysis of present-day requirements that digital-operation-business-agility/fusioninsight-universe-big-data- analytics telecommunication network models should meet, such as the [13] DBpedia: http://wiki.dbpedia.org/ opportunity to exercise dynamic control over network [14] Google knowledge graph: parameters, access to information, and the quality of services http://googleblog.blogspot.com/2012/05/introducing-knowledge- provided by networks to their end users. It has been assessed graph-things-not.html whether the graph models being used meet the current and [15] YAGO: http://mpi-inf.mpg.de/departments/databases-and- potential requirements. The paper gives a definition of a information-systems/research/yago-naga/yago/ knowledge graph and assesses the prospects for using models [16] Hubauer T. et al. Use Cases of the Industrial Knowledge Graph at based on knowledge graphs in modelling telecommunication Siemens. International Semantic Web Conference networks. It identifies problems which can be solved using (P&D/Industry/BlueSky), 2018 models based on knowledge graphs. [17] Pierfrancesco Bellini, Paolo Nesi, “Performance assessment of RDF graph databases for smart city services”. DOI: https://doi.org/10.1016/j.jvlc.2018.03.002