<!DOCTYPE article PUBLIC "-//NLM//DTD JATS (Z39.96) Journal Archiving and Interchange DTD v1.0 20120330//EN" "JATS-archivearticle1.dtd">
<article xmlns:xlink="http://www.w3.org/1999/xlink">
  <front>
    <journal-meta />
    <article-meta>
      <title-group>
        <article-title>Планирование продаж и производства с применением технологий Big Data</article-title>
      </title-group>
      <contrib-group>
        <contrib contrib-type="author">
          <string-name>Чугунов В.Р. (Chugunov V.R.)</string-name>
          <xref ref-type="aff" rid="aff0">0</xref>
        </contrib>
        <contrib contrib-type="author">
          <string-name>Лычагин К.А. (Lychagin K.A.)</string-name>
          <xref ref-type="aff" rid="aff1">1</xref>
        </contrib>
        <contrib contrib-type="author">
          <string-name>Агейкин М.А. (Ageykin M.A.)</string-name>
          <xref ref-type="aff" rid="aff2">2</xref>
        </contrib>
        <contrib contrib-type="author">
          <string-name>Жукова Л.В. (Zhukova L.V.)</string-name>
          <xref ref-type="aff" rid="aff3">3</xref>
        </contrib>
        <aff id="aff0">
          <label>0</label>
          <institution>-лизинг» (JSC "ЕС-leasing"), руководитель отдела, head of department</institution>
        </aff>
        <aff id="aff1">
          <label>1</label>
          <institution>-лизинг» (JSC "ЕС-leasing"), руководитель отдела, head of department</institution>
        </aff>
        <aff id="aff2">
          <label>2</label>
          <institution>-лизинг» (JSC "ЕС-leasing"), руководитель отдела, head of department</institution>
        </aff>
        <aff id="aff3">
          <label>3</label>
          <institution>-лизинг» (JSC "ЕС-leasing"), специалист</institution>
          ,
          <addr-line>expert</addr-line>
        </aff>
      </contrib-group>
      <fpage>356</fpage>
      <lpage>361</lpage>
      <kwd-group>
        <kwd>Ключевые слова</kwd>
        <kwd>планирование продаж</kwd>
        <kwd>открытие источники</kwd>
        <kwd>машинное обучение</kwd>
        <kwd>sales planning</kwd>
        <kwd>open data</kwd>
        <kwd>machine learning</kwd>
        <kwd>big data</kwd>
      </kwd-group>
    </article-meta>
  </front>
  <body>
    <sec id="sec-1">
      <title>-</title>
      <p>Аннотация. При планировании производства и продаж произведенной
продукции крайне необходимо найти баланс спроса и предложения и
сформировать товарное предложение, дающее наилучшие финансовые
результаты. В цепочке производитель-продавец важно понять, сколько и какой
продукции необходимо произвести, чтобы не было недо/перепроизводства и
забитых полок с товаром, не пользующимся спросом, а также недостатка
ликвидного товара у продавца. Для решения этой задачи требуется собрать и
обработать большой объем самых разнородных данных как из открытых
источников сети интернет, так и от заказчика. В работе приведен опыт
решения задач указанного класса с применением технологии Big Data.</p>
      <p>Abstract. By planning production and marketing strategy it is necessary to find
the balance between customer’s preferences and manufacturability. It is very
important to understand the manufacturer-vendor chain, i.e. to avoid
over/underproduction, oversupply and shortage of goods. In order to solve this
problem it is required to collect and process a great volume of different data
both from open sources and from the customer. This article shows you the Big
Data Technology solution experience.
В настоящий момент в области экономики и в области информационных
технологий сложилась благоприятная ситуация, когда экономические потребности и
технологические возможности позволяют решать такие задачи, которые на
более ранних стадиях развития отраслей решались долго и требовали больших
трудозатрат.
Например, маркетологи решают задачу обеспечения производства и
реализации товаров, которые отвечают существующему и, что более важно,
потенциальному спросу потребителей, что в свою очередь влияет на одну из ключевых
задач производства: распланировать объем и сроки производства продукции с
указанием конкретных количественных и качественных показателей по всей
номенклатуре товаров.</p>
      <p>Рынок потенциальных покупателей в розничной торговле, как и практически
любой продукции крайне неоднороден. Существуют значительные различия в
поведении покупателей, действующих на рынке розничной торговли, что
обусловлено различием в экономическом положении потребителей, их
предпочтений, покупательских привычках и традициях того места где потребители
находятся. Поэтому немаловажно при решении задач увеличения продаж определить
характеристики торговой привлекательности торговых точек по месту их
положения используя открытые данные из интернет-среды для маркетинговых
исследований.</p>
      <p>Если смотреть на проблему увеличения продаж через оптимизацию
ассортиментной матрицы, то здесь можно выделить анализ потребительских
предпочтений как ключ к решению проблему. Данной проблемой занимаются такие
ученые как О.Н. Романенкова, Очковская М.С., Рыбалко М.А. Исследованиями
методов сбора и использования маркетинговой информации занимается Б.Е.
Токарев.</p>
      <p>В процессе теоретического исследований данной проблемы было особо
внимание уделено модели «Brand Key» (рисунок 1), которую использует компания
Unilever (иногда ее называют модель Unilever Brand Key – UBK). В модели
сначала анализируется конкурентное окружение и выделяется целевая аудитория,
именно это и является одним из преимуществ модели: описание целевой
аудитории и конкурентного окружения не вынесено за ее рамки, тем самым
подчеркивается, что именно на основе этих данных создается бренд.</p>
      <p>Рисунок 1.
Целью нашей работы является помощь высшему руководящему составу
заказчика в принятии управленческих решений, направленных на увеличение объема
продаж, путем оптимизация состава товаров индивидуальной ассортиментной
матрицы (ИАМ) для каждой конкретной торговой точки (ТТ).</p>
      <p>В процессе анализа подходов к решению данной задачи было достигнуто
понимание, что нам предстоит столкнуться с огромным объемом, порядка
нескольких десятков терабайт, собираемой и обрабатываемой информации, как в
структурированном, так и неструктурированном виде. Это связано с тем, что на
вход системы планирования продаж-производства поступают данные о ТТ,
которых порядка 1 миллиона. Данные, необходимые для достижения цели работы,
поступают из информационных систем, уже находящихся в постоянной
эксплуатации у заказчика, а также и из открытых источников сети интернет. Развитие
информационных технологий в настоящий момент позволяет решать
вышеописанные классические задачи, используя новые возможности, предоставляемые
технологией Big Data.</p>
      <p>Решение данной задачи можно разбить на следующие этапы:
Этап 1 – Цель: формирование эталонной базы данных ТТ, которые уже
находятся в БД заказчика, так и новых ТТ, найденных в процессе сбора
информации из интернет.
Этап 2 – Цель: анализ и подготовка списка признаков для объединение ТТ на
основе схожих признаков.
Этап 3 – Цель: создание профиля группы ТТ с определением значений
показателей характерных для ТТ данной группы.
Этап 4 – Цель: формирование состава показателей, характеризующих
профиль продаж, потенциал ТТ и потребительские предпочтения из
ассортимента товаров Заказчика.
Этап 5 – Цель: создание индивидуальной ассортиментной матрицы для
каждой ТТ.</p>
      <p>На этапе 1 необходимо найти информацию о новых ТТ, в которые
потенциально можно продавать продукцию производителя, собрать необходимую для
оптимизации ИАМ информацию о ТТ из открытых источников сети интернет,
объединить ее в единой БД, т.к. информация о ТТ поступает из различных
информационных систем заказчика и открытых источников, очистить,
нормализовать, обогатить и дедуплицировать, т.е. найти дублируемые записи. Сбор
информации о ТТ из открытых источников сети интернет осуществляется при
помощи специальных модулей, которые, в свою очередь, состоят из набора
краулеров, написанных на языке python и библиотеки scrapy. Краулеры
имитируют работу «любопытного пользователя», который открывает каждую ссылку
на подключаемом сайте/странице соц. сети, вызывающую у него интерес.
Краулеры обладают возможностью формирования очереди запросов для
обслуживания нескольких параллельных потоков загрузки данных. Объединение
информации о ТТ осуществляется средствами БД PosgreSQL после чего производится
очистка адресов. При очистке адресов ТТ используются специальные правила,
написанные на языке plpgsql в БД PosgreSQL. Каждое из правил направлено на
удаление или замену тех или иных символов, букв, аббревиатур для придания
адресу каждой ТТ структурированного и понятного вида для последующего
геокодинга. При геокодинге происходит обогащение адресов координатами
широты, долготы, при распознавании – заполнение недостающих данных в
адресе ТТ, например, город, область, страна для каждой торговой точки. Данная
процедура подразумевает несколько циклов, включая обратную проверку
валидности обогащенной информации. Далее обработка адресов заключается в
поиске дублей (дедупликация) ТТ на основе правил, написанных на языке
python. Объем данных из открытых источников на каждую ТТ составляет
примерно 5 кбайт и как результат подготавливается эталонная база ТТ для
дальнейшего расчета.</p>
      <p>При реализации этапов 2 и 3 первым шагом является алгоритмизация, т.е.
создание экономико-математической модели, и последующая группировка ТТ по
стратам (представляет собой деление населенных пунктов, в которых
расположены торговые точки, на группы (страты) по численности населения для
последующей группировки ТТ) с формированием списков населенных пунктов для
деления на страты с учетом городов-сателлитов. Главной целью данного шага
является определить степень различия между стратами и состав признаков для
каждой страты для оптимальной группировки ТТ по их местоположению.
Алгоритмов деления ТТ на страты может быть несколько от простейшего алгоритма
деления на 3 страты по численности населения городов и населенных пунктов
(1 страта – более 1 млн. человек, 2 страта – более 250 тыс. человек и до 1 млн.
человек, 3 страта – менее 250 тыс. человек) до деления на 7 страт согласно
категоризации городов по статусу и значению: город федерального значения, города
республиканского значения и т.д. При этом обоснованность разбиения
численности населения городов и населенных пунктов проверялась экспериментально
на основе статистического различия средних значений и медиан по 15
признакам по стратам между собой. Вторым шагом является проведение
кластеризации ТТ. Кластерный анализ представляет собой класс методов, которые
используются для классификации объектов или событий в достаточной степени
однородные группы, которые и называются кластерами. Принципиальное значение
при кластеризации является то, что объекты в кластерах обязаны быть
похожими между собой, но при этом обязательно отличаться от объектов, находящихся
в других кластерах. Существует два типа методов кластеризации:
иерархические и неиерархические. Выбор метода кластеризации и выбор меры расстояния
взаимосвязаны. В иерархической кластеризации важным критерием принятия
решения о числе кластеров являются расстояния, при которых происходит
объединение кластеров. Относительные размеры кластеров должны быть такими,
чтобы имело смысл сохранить данный кластер, а не объединить его с другими.
При этом расстояния рассчитываются на основе информации из открытых
источников по 15 признакам, характеризующим каждую ТТ с использованием
алгоритмов, написанных на языке python и библиотек pandas, numpy,
scikitlearn.</p>
      <p>Разработка экономико-математического обоснования деления на страты, то
есть из всех предложенных и проанализированных алгоритмов выбран наиболее
оптимальный.</p>
      <p>По результатам анализа кластеризации определены наиболее
чувствительные признаки кластеризации и которые впоследствии были использованы в
наборе характеристик ТТ, по которым впоследствии определены
потребительские предпочтения в кластере и далее сформирована ассортиментная матрица,
то есть новое – это такая комбинация дала точные ответы во сколько раз можно
увеличить продажи достичь потенциала при текущей ассортиментной матрице и
также новое – это при какой именно комбинации товарных позиций можно
расширить границы потенциальных продаж. Новшество такого подхода
заключается в установлении взаимосвязи значений наиболее чувствительных
признаков кластеризации (характеристик ТТ) – потребительских предпочтений –
возможностей увеличения продаж. Набор характеристик ТТ, как перечень
показателей торговой привлекательности по человеко-потоку, согласно значению
признаков кластеризации, свидетельствует об:
• экономической активности (количество и расстояние до ближайших мест
притяжения населения);
• торговой активности (количество и расстояние до ближайших ТТ ka-сетей и
не ka-сетей);
• наличия транспортной инфраструктуры (количество и расстояние до
ближайших объектов типа остановок, вокзалов, метро).
На этапе 4 определяются показатели, характеризующие профиль продаж,
потенциал ТТ, потребительские предпочтения и алгоритмы их расчета.
Показатели получаются по результатам установления взаимосвязи между особенностями
ТТ и результативными показателями, характеризующими продажи, выявляются
закономерности в динамике продаж, с использованием различных
экономических и статистических методов анализа.</p>
      <p>На этапе 5 формируются основные элементы индивидуальной
ассортиментной матрицы, состоящей из матрицы потребительских предпочтений, и матрица
потенциала ТТ. Матрица потребительских предпочтений состоит из:
предпочитаемых наименований категорий товаров в группе продаж, предпочитаемого
объема продаж, предпочитаемого диапазона объема продаж, предпочитаемого
количества наименований товаров, предпочитаемого количества SKU,
предпочитаемого диапазона количества SKU. Матрица потенциала ТТ, состоит из:
относительного и абсолютного потенциального размера выручки от реализации,
потенциального объема продаж, потенциального количество наименований
товаров.</p>
      <p>Полученная в итоге индивидуальная ассортиментная матрица представляет
собой список из рекомендованных значений, ориентируясь на которые, можно
значительно повысить качество принимаемых решений. При этом в
автоматизации этих процессов принятия управленческих решений учтены как
индивидуальные, так и групповые особенности ТТ.
Литература
1. Мандель И.Д. Кластерный анализ, 1988 год
2. Н.Паклин. «Кластеризация данных: масштабируемый алгоритм CLOPE».
3. Дэниал Фасуло «Анализ последних работ по алгоритмам кластеризации».
4. Н. Паклин «Алгоритмы кластеризации на службе Data Mining».
5. Вятченин Д. А. Нечёткие методы автоматической классификации. — Минск:
Технопринт, 2004. — 320 с.
6. И. А. Чубукова Data Mining. Учебное пособие. – М.: Интернет-Университет
Информационных технологий;
7. Ян Янсон «Моделирование».
8. И. А. Чубукова Data Mining. Учебное пособие, 2006.
9. «Доступная аналитика данных», Anil Maheshwari
10. Кеннет Кекьер «Большие данные: революция, которая изменит нашу жизнь, работу
и мысли»
11. Кэти О'нейл и Рейчел Шутт “Наука о данных”
12. Под общей редакцией О. Н. Романенковой “Маркетинговые исследования. Теория и
практика” Издательство Юрайт, 2014. – 315 с. – Серия: Бакалавр. Базовый курс.
13. Токарев Б.Е. Методы сбора и использования маркетинговой информации:
Учебнопрактич. пособие. – М.: Экономистъ, 2004. – 256 с.
14. Очковская М.С., Рыбалко М.А. Маркетинг: новые тенденции и перспективы:
Учебное пособие. – М.: МАКС Пресс, 2012. – 196 с.</p>
    </sec>
  </body>
  <back>
    <ref-list />
  </back>
</article>