Планирование продаж и производства с применением технологий Big Data Planning sales and production using Big Data technologies Чугунов В.Р. (Chugunov V.R.)1, Лычагин К.А. (Lychagin K.A.) 2, Агейкин М.А. (Ageykin M.A.) 3, Жукова Л.В. (Zhukova L.V.) 4 1 ЗАО «ЕС-лизинг» (JSC "ЕС-leasing"), руководитель отдела (head of department), vchugunov@ec-leasing.ru 2 ЗАО «ЕС-лизинг» (JSC "ЕС-leasing"), руководитель отдела (head of department), klychagin@ec-leasing.ru 3 ЗАО «ЕС-лизинг» (JSC "ЕС-leasing"), руководитель отдела (head of department), mageykin@ec-leasing.ru 4 ЗАО «ЕС-лизинг» (JSC "ЕС-leasing"), специалист (expert), lvzhukova@mail.ru Аннотация. При планировании производства и продаж произведенной продукции крайне необходимо найти баланс спроса и предложения и сфор- мировать товарное предложение, дающее наилучшие финансовые результа- ты. В цепочке производитель-продавец важно понять, сколько и какой про- дукции необходимо произвести, чтобы не было недо/перепроизводства и за- битых полок с товаром, не пользующимся спросом, а также недостатка лик- видного товара у продавца. Для решения этой задачи требуется собрать и обработать большой объем самых разнородных данных как из открытых ис- точников сети интернет, так и от заказчика. В работе приведен опыт реше- ния задач указанного класса с применением технологии Big Data. Abstract. By planning production and marketing strategy it is necessary to find the balance between customer’s preferences and manufacturability. It is very important to understand the manufacturer-vendor chain, i.e. to avoid over/underproduction, oversupply and shortage of goods. In order to solve this problem it is required to collect and process a great volume of different data both from open sources and from the customer. This article shows you the Big Data Technology solution experience. Keywords: Ключевые слова: планирование продаж, открытие источники, машинное обучение, sales planning, open data, machine learning, big data. В настоящий момент в области экономики и в области информационных техно- логий сложилась благоприятная ситуация, когда экономические потребности и технологические возможности позволяют решать такие задачи, которые на бо- лее ранних стадиях развития отраслей решались долго и требовали больших трудозатрат. 357 Например, маркетологи решают задачу обеспечения производства и реализа- ции товаров, которые отвечают существующему и, что более важно, потенци- альному спросу потребителей, что в свою очередь влияет на одну из ключевых задач производства: распланировать объем и сроки производства продукции с указанием конкретных количественных и качественных показателей по всей номенклатуре товаров. Рынок потенциальных покупателей в розничной торговле, как и практически любой продукции крайне неоднороден. Существуют значительные различия в поведении покупателей, действующих на рынке розничной торговли, что обу- словлено различием в экономическом положении потребителей, их предпочте- ний, покупательских привычках и традициях того места где потребители нахо- дятся. Поэтому немаловажно при решении задач увеличения продаж определить характеристики торговой привлекательности торговых точек по месту их поло- жения используя открытые данные из интернет-среды для маркетинговых ис- следований. Если смотреть на проблему увеличения продаж через оптимизацию ассор- тиментной матрицы, то здесь можно выделить анализ потребительских предпо- чтений как ключ к решению проблему. Данной проблемой занимаются такие ученые как О.Н. Романенкова, Очковская М.С., Рыбалко М.А. Исследованиями методов сбора и использования маркетинговой информации занимается Б.Е. Токарев. В процессе теоретического исследований данной проблемы было особо вни- мание уделено модели «Brand Key» (рисунок 1), которую использует компания Unilever (иногда ее называют модель Unilever Brand Key – UBK). В модели сна- чала анализируется конкурентное окружение и выделяется целевая аудитория, именно это и является одним из преимуществ модели: описание целевой ауди- тории и конкурентного окружения не вынесено за ее рамки, тем самым подчер- кивается, что именно на основе этих данных создается бренд. Рисунок 1. 358 Целью нашей работы является помощь высшему руководящему составу заказ- чика в принятии управленческих решений, направленных на увеличение объема продаж, путем оптимизация состава товаров индивидуальной ассортиментной матрицы (ИАМ) для каждой конкретной торговой точки (ТТ). В процессе анализа подходов к решению данной задачи было достигнуто по- нимание, что нам предстоит столкнуться с огромным объемом, порядка не- скольких десятков терабайт, собираемой и обрабатываемой информации, как в структурированном, так и неструктурированном виде. Это связано с тем, что на вход системы планирования продаж-производства поступают данные о ТТ, ко- торых порядка 1 миллиона. Данные, необходимые для достижения цели работы, поступают из информационных систем, уже находящихся в постоянной эксплу- атации у заказчика, а также и из открытых источников сети интернет. Развитие информационных технологий в настоящий момент позволяет решать вышеопи- санные классические задачи, используя новые возможности, предоставляемые технологией Big Data. Решение данной задачи можно разбить на следующие этапы: Этап 1 – Цель: формирование эталонной базы данных ТТ, которые уже нахо- дятся в БД заказчика, так и новых ТТ, найденных в процессе сбора информации из интернет. Этап 2 – Цель: анализ и подготовка списка признаков для объединение ТТ на основе схожих признаков. Этап 3 – Цель: создание профиля группы ТТ с определением значений пока- зателей характерных для ТТ данной группы. Этап 4 – Цель: формирование состава показателей, характеризующих про- филь продаж, потенциал ТТ и потребительские предпочтения из ас- сортимента товаров Заказчика. Этап 5 – Цель: создание индивидуальной ассортиментной матрицы для каж- дой ТТ. На этапе 1 необходимо найти информацию о новых ТТ, в которые потенци- ально можно продавать продукцию производителя, собрать необходимую для оптимизации ИАМ информацию о ТТ из открытых источников сети интернет, объединить ее в единой БД, т.к. информация о ТТ поступает из различных ин- формационных систем заказчика и открытых источников, очистить, нормализо- вать, обогатить и дедуплицировать, т.е. найти дублируемые записи. Сбор ин- формации о ТТ из открытых источников сети интернет осуществляется при помощи специальных модулей, которые, в свою очередь, состоят из набора краулеров, написанных на языке python и библиотеки scrapy. Краулеры имити- руют работу «любопытного пользователя», который открывает каждую ссылку на подключаемом сайте/странице соц. сети, вызывающую у него интерес. Крау- леры обладают возможностью формирования очереди запросов для обслужива- ния нескольких параллельных потоков загрузки данных. Объединение инфор- мации о ТТ осуществляется средствами БД PosgreSQL после чего производится очистка адресов. При очистке адресов ТТ используются специальные правила, написанные на языке plpgsql в БД PosgreSQL. Каждое из правил направлено на удаление или замену тех или иных символов, букв, аббревиатур для придания 359 адресу каждой ТТ структурированного и понятного вида для последующего геокодинга. При геокодинге происходит обогащение адресов координатами широты, долготы, при распознавании – заполнение недостающих данных в ад- ресе ТТ, например, город, область, страна для каждой торговой точки. Данная процедура подразумевает несколько циклов, включая обратную проверку ва- лидности обогащенной информации. Далее обработка адресов заключается в поиске дублей (дедупликация) ТТ на основе правил, написанных на языке py- thon. Объем данных из открытых источников на каждую ТТ составляет пример- но 5 кбайт и как результат подготавливается эталонная база ТТ для дальнейше- го расчета. При реализации этапов 2 и 3 первым шагом является алгоритмизация, т.е. со- здание экономико-математической модели, и последующая группировка ТТ по стратам (представляет собой деление населенных пунктов, в которых располо- жены торговые точки, на группы (страты) по численности населения для после- дующей группировки ТТ) с формированием списков населенных пунктов для деления на страты с учетом городов-сателлитов. Главной целью данного шага является определить степень различия между стратами и состав признаков для каждой страты для оптимальной группировки ТТ по их местоположению. Алго- ритмов деления ТТ на страты может быть несколько от простейшего алгоритма деления на 3 страты по численности населения городов и населенных пунктов (1 страта – более 1 млн. человек, 2 страта – более 250 тыс. человек и до 1 млн. человек, 3 страта – менее 250 тыс. человек) до деления на 7 страт согласно кате- горизации городов по статусу и значению: город федерального значения, города республиканского значения и т.д. При этом обоснованность разбиения числен- ности населения городов и населенных пунктов проверялась экспериментально на основе статистического различия средних значений и медиан по 15 призна- кам по стратам между собой. Вторым шагом является проведение кластериза- ции ТТ. Кластерный анализ представляет собой класс методов, которые исполь- зуются для классификации объектов или событий в достаточной степени одно- родные группы, которые и называются кластерами. Принципиальное значение при кластеризации является то, что объекты в кластерах обязаны быть похожи- ми между собой, но при этом обязательно отличаться от объектов, находящихся в других кластерах. Существует два типа методов кластеризации: иерархиче- ские и неиерархические. Выбор метода кластеризации и выбор меры расстояния взаимосвязаны. В иерархической кластеризации важным критерием принятия решения о числе кластеров являются расстояния, при которых происходит объ- единение кластеров. Относительные размеры кластеров должны быть такими, чтобы имело смысл сохранить данный кластер, а не объединить его с другими. При этом расстояния рассчитываются на основе информации из открытых ис- точников по 15 признакам, характеризующим каждую ТТ с использованием алгоритмов, написанных на языке python и библиотек pandas, numpy, scikit- learn. Разработка экономико-математического обоснования деления на страты, то есть из всех предложенных и проанализированных алгоритмов выбран наиболее оптимальный. 360 По результатам анализа кластеризации определены наиболее чувствитель- ные признаки кластеризации и которые впоследствии были использованы в наборе характеристик ТТ, по которым впоследствии определены потребитель- ские предпочтения в кластере и далее сформирована ассортиментная матрица, то есть новое – это такая комбинация дала точные ответы во сколько раз можно увеличить продажи достичь потенциала при текущей ассортиментной матрице и также новое – это при какой именно комбинации товарных позиций можно расширить границы потенциальных продаж. Новшество такого подхода заклю- чается в установлении взаимосвязи значений наиболее чувствительных призна- ков кластеризации (характеристик ТТ) – потребительских предпочтений – воз- можностей увеличения продаж. Набор характеристик ТТ, как перечень показа- телей торговой привлекательности по человеко-потоку, согласно значению при- знаков кластеризации, свидетельствует об: • экономической активности (количество и расстояние до ближайших мест притяжения населения); • торговой активности (количество и расстояние до ближайших ТТ ka-сетей и не ka-сетей); • наличия транспортной инфраструктуры (количество и расстояние до бли- жайших объектов типа остановок, вокзалов, метро). На этапе 4 определяются показатели, характеризующие профиль продаж, по- тенциал ТТ, потребительские предпочтения и алгоритмы их расчета. Показате- ли получаются по результатам установления взаимосвязи между особенностями ТТ и результативными показателями, характеризующими продажи, выявляются закономерности в динамике продаж, с использованием различных экономиче- ских и статистических методов анализа. На этапе 5 формируются основные элементы индивидуальной ассортимент- ной матрицы, состоящей из матрицы потребительских предпочтений, и матрица потенциала ТТ. Матрица потребительских предпочтений состоит из: предпочи- таемых наименований категорий товаров в группе продаж, предпочитаемого объема продаж, предпочитаемого диапазона объема продаж, предпочитаемого количества наименований товаров, предпочитаемого количества SKU, предпо- читаемого диапазона количества SKU. Матрица потенциала ТТ, состоит из: относительного и абсолютного потенциального размера выручки от реализации, потенциального объема продаж, потенциального количество наименований товаров. Полученная в итоге индивидуальная ассортиментная матрица представляет собой список из рекомендованных значений, ориентируясь на которые, можно значительно повысить качество принимаемых решений. При этом в автоматиза- ции этих процессов принятия управленческих решений учтены как индивиду- альные, так и групповые особенности ТТ. 361 Литература 1. Мандель И.Д. Кластерный анализ, 1988 год 2. Н.Паклин. «Кластеризация данных: масштабируемый алгоритм CLOPE». 3. Дэниал Фасуло «Анализ последних работ по алгоритмам кластеризации». 4. Н. Паклин «Алгоритмы кластеризации на службе Data Mining». 5. Вятченин Д. А. Нечёткие методы автоматической классификации. — Минск: Техно- принт, 2004. — 320 с. 6. И. А. Чубукова Data Mining. Учебное пособие. – М.: Интернет-Университет Инфор- мационных технологий; 7. Ян Янсон «Моделирование». 8. И. А. Чубукова Data Mining. Учебное пособие, 2006. 9. «Доступная аналитика данных», Anil Maheshwari 10. Кеннет Кекьер «Большие данные: революция, которая изменит нашу жизнь, работу и мысли» 11. Кэти О'нейл и Рейчел Шутт “Наука о данных” 12. Под общей редакцией О. Н. Романенковой “Маркетинговые исследования. Теория и практика” Издательство Юрайт, 2014. – 315 с. – Серия: Бакалавр. Базовый курс. 13. Токарев Б.Е. Методы сбора и использования маркетинговой информации: Учебно- практич. пособие. – М.: Экономистъ, 2004. – 256 с. 14. Очковская М.С., Рыбалко М.А. Маркетинг: новые тенденции и перспективы: Учеб- ное пособие. – М.: МАКС Пресс, 2012. – 196 с.