=Paper= {{Paper |id=Vol-1752/paper17 |storemode=property |title= Метод определения подобия информационных единиц по неявным пользовательским предпочтениям в рекомендательных системах поддержки жизнеобеспечения (Determination of Similarity of Information Entities Based on Implicit User Preferences in Life-Support Recommender Systems) |pdfUrl=https://ceur-ws.org/Vol-1752/paper17.pdf |volume=Vol-1752 |authors=Stanislav Philippov,Victor Zakharov,Sergey Stupnikov,Dmitriy Kovalev |dblpUrl=https://dblp.org/rec/conf/rcdl/PhilippovZSK16a }} == Метод определения подобия информационных единиц по неявным пользовательским предпочтениям в рекомендательных системах поддержки жизнеобеспечения (Determination of Similarity of Information Entities Based on Implicit User Preferences in Life-Support Recommender Systems) == https://ceur-ws.org/Vol-1752/paper17.pdf
  Метод определения подобия информационных единиц
     по неявным пользовательским предпочтениям
             в рекомендательных системах
             поддержки жизнеобеспечения

© С. А. Филиппов                    © В. Н. Захаров                                    © С. А. Ступников
                                    © Д. Ю. Ковалев
                      Институт проблем информатики ФИЦ ИУ РАН,
                                        Москва
stanislav@philippov.ru            VZakharov@ipiran.ru                                         ssa@ipi.ac.ru
                                 dm.kovalev@gmail.com

                  Аннотация                                Введение
Целью данной работы является описание метода                  Одним из современных трендов в развитии
определения подобия информационных единиц                  Интернет является персонализация. Поисковые
посредством анализа данных о пользовательских              системы, социальные сети, форумы, новостные
предпочтениях. Метод является реализацией                  ресурсы     и   Интернет     магазины    стараются
подхода Item-Item CF (коллаборативная фильтрация           адаптировать внешний вид и содержимое (контент)
на основе подобия информационных единиц),                  своих     страниц    под     нужды     конкретных
который в свою очередь является одним из наиболее          пользователей. По результатам исследования
популярных подходов к построению современных               компании Evergage (www.evergage.com) в 2015 году
рекомендательных систем. Исходными данными для             персонализацию в реальном времени использовали
коллаборативной фильтрации (другими словами для            44% веб сайтов, 17% мобильных сайтов, 13% веб-
выявления      пользовательских      предпочтений)         приложений и 9% мобильных приложений [1]. При
являются данные о пользовательской активности при          этом 78% тех, кто не использует персонализацию
просмотре страниц конкретных интернет-ресурсов             сейчас, утверждают, что планируют начать в течение
(информационных      единиц).     Данные     могут         следующих 12 месяцев. Увеличение вовлеченности
собираться как явным (оценки, опросы, рейтинги),           посетителей, улучшение пользовательского опыта и
так и неявным образом (протоколирование действий           повышение конверсии считаются самыми важными
пользователей). Предложенный метод позволяет               результатами ее применения.
решить проблему холодного старта, т.е. выдачи                 Предоставление персонализированного контента
рекомендаций в период отсутствия подробной                 пользователям позволяет существенно повысить
информации о посетителе системы поддержки                  эффективность сайтов, которая выражается в
жизнеобеспечения (здесь и далее под такой системой         терминологии маркетинга таким показателем как
подразумевается интернет-магазин), но при наличии          конверсия (число посетителей, совершивших
неявных данных о маршрутах других посетителей              полезные действия к общему числу посетителей
системы. Метод опробован на реальных данных,               выраженное в процентах). Для качественной
полученных с действующего интернет-магазина                персонализации сайтов, ориентированных на работу
Thaisoap, где подтвердил возможность своей                 с большой аудиторией пользователей, как правило,
применимости в рамках поставленной задачи. Работа          используется комплексный подход, сочетающий
выполнена      при    поддержке      Министерства          маркетинговые исследования и анализ поведения
образования и науки РФ, уникальный идентификатор           конкретных посетителей сайтов. Информацию о
проекта RFMEFI60414X0139.                                  маркетинговых качествах посетителей можно
                                                           получить, в том числе используя системы веб-
                                                           аналитики, такие как Adobe Digital Marketing Suite
                                                           или Google Analytics и Siteapps.com. Исходными
Труды XVIII Международной конференции                      данными для анализа поведения пользователей
DAMDID/RCDL’2016 «Аналитика и управление                   являются сведения об их активности, которые могут
данными     в   областях   с    интенсивным                собираться явным или неявным образом. Явным
использованием данных», Ершово, 11-14 октября              образом получают результаты голосований и
2016                                                       опросов, а также оценки, которые пользователи дают




                                                     104
тем или иным объектам на сайтах. Основное                    CF) и контентная фильтрация (content-based filtering,
количество информации о пользовательской                     CbF) [3].
активности     собирается     неявным       образом             Метод контентной фильтрации фокусируется на
посредством протоколирования его действий.                   выявлении объектов со схожими характеристиками
Предметом отслеживания являются переходы                     по отношению к тем объектам, которые уже
пользователей по ссылкам на сайтах, время их                 заинтересовали пользователя. При этом учитывается
пребывания на отдельных страницах, факты покупки             модель поведения пользователя и характеристики
товаров и услуг. Необходимо отметить, что, речь              (контент) заинтересовавших его объектов. При
идет об огромных массивах данных, которые                    выработке рекомендаций выявляются объекты со
являются неоднородными и требующими отдельных                схожими характеристиками (контентом). Для
подходов к интерпретации.                                    эффективной      работы     метода     контентной
   В сфере электронной коммерции основным                    фильтрации, как правило, необходимо подробное
инструментом персонализации контента являются                описание характеристик объектов (так в проекте
рекомендательные      системы,    обеспечивающие             Music Genome Project музыкальный аналитик
автоматическую       обработку        данных      о          оценивает каждую композицию по сотням
пользовательской    активности      и    выработку           различных музыкальных характеристик), а также
рекомендаций на товары и услуги, которые могут               сведения о конкретном пользователе (например,
быть интересны конкретным пользователям. При                 ответы на конкретные вопросы в анкете).
реализации рекомендательных систем широко
                                                                 В основе метода коллаборативной фильтрации
используются методы интеллектуального анализа
                                                             лежит     предположении      о    консервативности
данных (Data Mining) [2].
                                                             пользовательских предпочтений (т.е. пользователи,
   Основной задачей, которую авторы данной
                                                             одинаково оценивающие определенные объекты,
работы ставили перед собой, является разработка
                                                             скорее всего аналогичным образом будут оценивать
комбинированного      подхода     к     построению
                                                             и новые объекты со сходными характеристиками)
рекомендательных      систем,    обеспечивающего
                                                             [4]. По существу, рекомендации базируются на
наиболее полное использование всех данных о
                                                             автоматическом       сотрудничестве      множества
посетителях интернет-магазинов с целью выработки
                                                             пользователей     и    на   выделении     (методом
рекомендаций, наиболее адекватно отражающих их
                                                             фильтрации)      тех     пользователей,    которые
ожидания (пертинентность предложения). Научно
                                                             демонстрируют схожие предпочтения или шаблоны
практическая новизна работы заключается в идее
                                                             поведения. Таким образом, метод коллаборативной
комбинированного использования методов Item-Item
                                                             фильтрации        вырабатывает       рекомендации,
CF и User-User CF, что позволяет минимизировать
                                                             основанные на модели предшествующего поведения
недостатки каждого из них и добиться более
                                                             пользователя и с учетом поведения пользователей со
высокого качества работы рекомендательной
                                                             схожими характеристиками.
системы в целом. Данная статья входит в серию
статей по данной проблематике и посвящена                       Наибольшее     распространение     в    сфере
описанию      метода      определения      подобия           электронной         коммерции           получили
информационных         единиц      по      неявным           рекомендательные     системы,      использующие
пользовательским предпочтениям, который является             следующие     варианты     реализации     метода
вариантом реализации метода Item-Item CF. Данный             коллаборативной фильтрации, а также их гибриды:
метод позволяет вырабатывать приемлемые по
качеству рекомендации в условиях, когда сведения о              коллаборативная       фильтрация        посредством
пользовательских предпочтениях отсутствуют,                      анализа предпочтений групп пользователей со
минимальны или слабо информативны. Для                           схожими интересами (User-User Collaborative
выявления групп подобных товаров используются                    Filtering, User-User CF);
методы кластеризации, что позволяет добиться                    коллаборативная       фильтрация        посредством
хороших показателей качества и быстродействия в                  анализа взаимосвязей между объектами (Item-
работе алгоритма.                                                Item Collaborative Filtering, Item-Item CF);
                                                                 Основными        проблемами,       связанными     с
1 Построение рекомендательных                                реализацией и практическим использованием
                                                             алгоритмов коллаборативной фильтрации, являются
систем с использованием методов
                                                             разреженность данных, проблема холодного старта и
коллаборативной фильтрации                                   масштабируемость.              Дополнительно          к
   Основная задача рекомендательной интернет-                перечисленным проблемам можно отметить
системы – формирование контента, максимально                 проблему ограничения разнообразия предложений.
соответствующего ожиданиям, в том числе неявным,             Рекомендательные          системы,        использующие
конкретного пользователя. Для решения этой задачи            коллаборативную фильтрацию, склонны предлагать
в большинстве современных рекомендательных                   товары уже пользующиеся популярностью, что
систем используется один из двух базовых подходов:           создает проблемы для продвижения новых товаров и
коллаборативная фильтрация (collaborative filtering,         услуг [5].




                                                       105
   В методе User-User CF определяется сходство             пользовательской активности (в случае компании
между пользователями и в качестве рекомендаций             Amazon речь идет о миллионах покупателей) резко
пользователю выдается n самых часто покупаемых             снижает производительность рекомендательной
товаров k наиболее похожими на него покупателями.          системы в целом.
Для оценки степени схожести пользователей в плане             Основная идея метода Item-Item CF заключается
их предпочтений могут использоваться различные             в группировке информационных единиц (товары,
функции       сходства      (метрики).    Наиболее         услуги, действия) имеющих сходные оценки
популярными среди них являются: евклидово                  пользователей       (рейтинги).      Рекомендации
расстояние, косинусная мера, расстояние Хэмминга,          вырабатываются по следующему принципу:
коэффициент корреляции Пирсона, коэффициент                пользователю оценившему объект X высоко будет
Танимото, Манхэттенское расстояние и некоторые             предложен объект Y, который высоко оценили
другие [4, 6]. Определение рекомендаций методом            другие пользователи, также высоко оценившие и
User-User CF предполагает построение матрицы               объект X. Использование метода Item-Item CF
активности пользователей, каждая строка которой            позволяет повысить качество рекомендаций для
описывает действия конкретного пользователя                новых пользователей (нет критической зависимости
применительно к конкретному объекту (категория,            от данных о пользовательских предпочтениях), а
товар, услуга) на сайте. Действия пользователей            также значительно повышает производительность
могут обозначаться самыми различными способами.            рекомендательной системы в случае, когда
Например, это может быть бинарная информация о             количество пользователей существенно превышает
посещении или не посещении заданного ресурса               количество объектов (характеристики объектов
данным пользователем, частота (или число)                  меняются реже). При этом качество рекомендаций в
пользований ресурса r пользователем u, стоимость           среднем выше, чем в случае использования подхода,
или рейтинг, проставленный пользователем u для             основанного на анализе пользовательских профилей.
ресурса r и т.д. Таким образом, каждая строка              Для      вычисления        попарной       близости
матрицы активности представляет собой вектор               информационных единиц могут использоваться те
оценок, соответствующих различным категориям               же метрики, что и в случае с парами «пользователь-
товаров (тематический профиль пользователя).               объект» (часто используется косинусная или
Профиль пользователя характеризует степень его             модифицированная косинусная меры). Для поиска
интереса к каждой группе товаров. Для каждой пары          рекомендаций на основании матрицы объектов часто
«пользователь-объект (товар, услуга, действие)» в          используются весовые функции и методы
матрице активности вычисляется мера близости с             регрессионного анализа. Одним из перспективных
использованием выбранной метрики [7].                      методов решения задачи Item-Item CF является метод
   Для     поиска     рекомендаций     конкретному         Item2Vec [10]. Тем не менее для большинства
пользователю на основании его поведенческого               интернет-магазинов      подход,    связанный     с
профиля используются три основных подхода:                 рекомендациями по рейтингам, слабо применим в
основанный на соседстве (memory based),                    силу отсутствия возможности мотивировать
основанный на модели (model based) и гибридный             пользователей определять рейтинг информационных
подход (hybrid). В современных коммерческих                единиц (покупатели приходят из поисковых систем и
системах наибольшее распространение получили               товарных каталогов, делают нужную им покупку и
гибридный подход и подход, основанный на                   уходят, чтобы больше никогда не вернуться). И
использовании моделей (алгоритмы кластеризации,            встает задача, как в таких условиях сделать
байесовские сети доверия, латентные семантические          рекомендацию (информационное предложение), на
модели) [3, 9]. Для выявления групп пользователей          которую откликнется пользователь.
со схожими характеристиками часто используются
различные алгоритмы кластеризации.                         2 Определение подобия (кластеров)
   Метод Item-Item CF исторически появился как             информационных единиц по неявным
альтернатива методу User-User CF, призванная               пользовательским предпочтениям
повысить производительность рекомендательных                  В целях решения задачи формирования
систем для тех магазинов, где число покупателей            рекомендации с уместной информацией в условиях
существенно превышает количество наименований              недостаточности      знаний     о    пристрастиях
товаров в каталоге [8]. Первоначально данный метод         пользователей авторами предлагается использовать
был предложен компанией Amazon для решения                 метод, в основе которого лежит расчёт близости пар
следующих основных проблем подхода User-User               и последующая группировка (кластеризация)
CF: проблема холодного старта и проблема частого           информационных единиц на основе данных
обновления данных о пользовательской активности.           пользователей, последовательно просматривающих
Проблема холодного старта существенно снижает              несколько товаров. При отсутствии данных
качество работы рекомендательной системы                   предлагается         использовать         обычные
вследствие отсутствия данных о предпочтениях               классификаторы с учётом цены и параметров
новых (или мало активных) пользователей.                   объектов, список «Новинки», а также матрицу
Проблема      частого    обновления    данных    о         «С этим     товаром     покупают»     (аксессуары,




                                                     106
дополняющие основную покупку). При данном                    пользователи не интересовались некоторыми
подходе явное участие пользователей интернет-                товарами из каталога).
магазина в формировании рейтинга товаров не                     В результате обработки матрицы подобия по
требуется.                                                   алгоритму Affinity Propagation (с использованием
   Первым шагом алгоритма является построение                статистического пакета R) была построена
матрицы подобия информационных единиц, где и по              гистограмма расстояний. Результаты работы
вертикали, и по горизонтали присутствуют все                 алгоритма представлены на рисунке 2 в виде
информационные       единицы     интернет-магазина.          кластерной тепловой карты (размерность карты 1522
Заполнение матрицы происходит по следующему                  на 1522). Преобладание одного цвета на карте
правилу: если пользователь последовательно                   обусловлено тем фактом, что в тестовой выборке
просмотрел два товара, то вес подобия в матрице для          данных для большинства пар товаров не определена
этих двух товаров увеличивается на 1.                        оценка подобия (т.е. пользователи не интересовались
   Для обработки матрицы в целях выявления групп             данными товарами в течение рассматриваемого в
информационных единиц, которые являются                      тестовой выборке периода времени).
близкими по своим оценкам подобия, из всех
известных алгоритмов кластеризации в результате
проведённого      моделирования     был      выбран
современный производительный алгоритм Affinity
Propagation. Одним из преимуществ данного
алгоритма является отсутствие необходимости
предварительной оценки оптимального количества
кластеров [11].
   Приведённый       метод    кластеризации     был
опробован     на    тестовом    массиве     данных,
предоставленных интернет-магазином Thaisoap.
Магазин ориентирован на продажу натуральной
тайской косметики и кокосового масла. Каталог
товаров     магазина    содержит     более     1 500
наименований товаров, которые разбиты на 180
классов (44 корневых классов, 136 подклассов).
Ежедневно магазин посещают в среднем около 1 500
посетителей и проводят на нем (в среднем) порядка
11 минут каждый (на каждого посетителя
приходится в среднем 28 переходов по ссылкам).
Исходные данные охватывают период в один квартал             Рисунок 2 Кластерная тепловая карта
(IV квартал 2015 года), в котором каталог товаров
был неизменен.
                                                                 Всего алгоритм выделил 64 кластера, наиболее
                                                             крупными из которых являются кластера с номерами
                                                             5 (75 объектов), 8 (44 объекта),
                                                             10 (30 объектов), 19 (27 объектов) и 55 (31 объект).
                                                                 Качество работы алгоритма можно оценить на
                                                             примере кластера номер 5, описание которого
                                                             представлено в таблице 1. В частности, видно, что
                                                             для референсной информационной единицы
                                                             (массажное кокосовое масло) в кластер подобия
                                                             попали товары на основе кокосового масла или
                                                             косвенно ассоциирующиеся с кремами и маслами
                                                             для ухода за телом.
Рисунок 1 Матрица подобия товаров
    На основе указанных данных была построена                   Аналогичные     результаты    показывает   и
матрица подобия по всему временному периоду. На              исследование других полученных кластеров. Таким
рисунке 1 представлен фрагмент получившейся                  образом,     метод      определение     подобия
матрицы подобия товаров для всех товаров из                  информационных единиц выполняет возложенные
каталога (значения нормированы). Всего в каталоге            на него задачи: формируется рекомендация из
на данный момент присутствует 1522 товара. Как               информационных единиц (товаров), уместных по
видно из рисунка матрица сильно разряжена, так как           отношению к товару, который заинтересовал
для многих пар товаров оценка подобия отсутствует            неизвестного посетителя в данный конкретный
(т.е. в течение анализируемого периода времени               момент времени.




                                                       107
Таблица 1 Детализация кластера номер 5                    кластеризации Affinity Propagation. Метод проверен
 Кла-     Референсная       Примеры товаров из            на данных интернет-магазина Thaisoap и показал по
 стер   информационная            кластера                результатам     высокий     уровень     уместности
             единица                                      информации в формируемой рекомендации.
 ID: 5 ID: 76.              ID: 43.                          Таким образом описанный метод класса Item-Item
 Size: Нерафинированное Кокосовое масло                   CF вполне применим для новых (или малоактивных)
 75    100% массажное       Tropicana                     пользователей. При этом по мере накопления данных
       кокосовое масло      1 литр,                       о предпочтениях пользователей рекомендуются
       "Citronella"         нерафинированное              отдавать большее предпочтение методам класса
       Tropicana, 100 мл.   ID: 51.                       User-User CF, которые дают тем более точные
                            Кокосовое масло               предсказания чем более подробны данные о
                            нерафинированное              пользовательской активности.
                            Tropicana в
                            аптекарском
                            флаконе,                      Литература
                            90 мл.
                            ID: 466.                      [1] Почему персонализация контента это еще не веб-
                            Восстанавливающий                 персонализация // Статья в сети Интернет, URL:
                            кокосовый                         http://lpgenerator.ru/blog/2016/03/19/   pochemu-
                            ЛОСЬОН для тела                   personalizaciya-kontenta-eto-eshe-ne-veb-
                            Tropicana "Sweet                  personalizaciya/
                            Coconut" (без                 [2] С.А.Филиппов, В.Н.Захаров, С.А.Ступников,
                            парабенов),                       Д.Ю.Ковалев          Подходы     к     повышению
                            200 мл.                           пертинентности информационного предложения
                            ID: 624.                          в медиасервисах на основе обработки больших
                            Маска-эксфолиант                  объемов данных // ХVII международная
                            для лица "Морской                 конференция «Аналитика и управление данными
                            коллаген" Artiscent,              в областях с интенсивным использованием
                            100 мл.                           данных» DAMDID/RCDL’2015, Октябрь 13-16,
                            ID: 1234.                         Обнинск, 2015, с. 224-228..
                            Мини-набор                    [3] М. Тим Джонс Рекомендательные системы:
                            Шампунь и                         Часть 1. Введение в подходы и алгоритмы //
                            Кондиционер для                   Статья        в      сети     Интернет,       URL:
                            волос "Золотой                    http://www.ibm.com/developerworks/ru/library/os-
                            шелк с экстрактом                 recommender1/, 2013.
                            шелковицы"                    [4] Xiaoyuan Su, Taghi M. Khoshgoftaar A survey of
                                                              collaborative filtering techniques // Advances in
Заключение                                                    Artificial Intelligence, Volume 2009 (2009), Article
                                                              ID 421425, 19p.
   Персонализация контента интернет-ресурсов на
сегодня является одним из активно развивающихся           [5] Fleder D., Hosanagar K. Blockbuster Culture's Next
направлений       ИТ-индустрии.      Важнейшими               Rise or Fall: The Impact of Recommender Systems
результатами ее применения являются увеличение                on Sales Diversity // Management Science, Vol. 55,
вовлеченности        посетителей,      улучшение              No. 5, May 2009, pp. 697-712.
пользовательского опыта и повышение конверсии.            [6] В.А. Лексин Технология персонализации на
Персонализация контента в сфере электронной                   основе выявления тематических профилей
коммерции выражается в адресном предложении                   пользователей и ресурсов Интернет // ВКР
товаров, а также услуг конкретным пользователям и             Магистра, Вычислительный Центр им. А.А.
реализуется посредством рекомендательных систем.              Дородницина РАН, 2007.
Современные        рекомендательные       системы         [7] Брейкин Е. А. Рекомендательная система на
обеспечивают обработку огромных массивов данных               основе коллаборативной фильтрации // Молодой
о    пользовательской     активности   с    целью             ученый. — 2015. — №13. — С. 31-33.
формирования предсказаний для конкретных                  [8] Greg Linden, Brent Smith and Jeremy York
пользователей в момент запроса.                               Amazon.com recommendations: Item-to-Item
   В данной работе изложен метод определения                  Collaborative Filtering // Industry Report, IEEE
подобия информационных единиц по неявным                      INTERNET COMPUTING, 2003.
пользовательским           предпочтениям        в         [9] Барсегян А.А., Куприянов М.С., Степаненко
рекомендательных         системах       поддержки             В.В., Холод И.И. Методы и модели анализа
жизнеобеспечения на основе упрощенной метрики                 данных: OLAP и Data Mining // СПб.: БХВ-
близости пар информационных единиц по алгоритму               Петербург, 2004. — 336 с.




                                                    108
[10] Barkan O., Koenigstein N. Item2Vec: Neural Item            through the analysis of user preference data. The method
     Embedding for Collaborative Filtering // arXiv             is an implementation approach known as Item-Item CF
     preprint arXiv:1603.04259, Mar 2016.                       (collaborative filtering based on the similarity of the
[11] Brendan J. Frey, Delbert Dueck Clustering by               information items), which in turn is one of the most
     passing messages between data points // Science 16         popular approaches to the construction of modern
     Feb 2007 Vol. 315, Issue 5814, pp. 972-976, DOI:           recommender systems. Initial data for collaborative
     10.1126/science.1136800                                    filtering are the data about users’ activity when they are
                                                                browsing web resources. Data can be collected as explicit
     Determination of similarity of                             (evaluations, surveys, ratings) and implicit (logging of
information items based on implicit user                        users' actions). The proposed method solves the problem
                                                                of cold start using implicit data about the routes of other
preferences in life-support recommender                         users. The method was tested on real data from existing
                   systems                                      online store Thaisoap, which confirmed the possibility of
       Stanislav A. Philippov, Victor N. Zakharov,              its applicability in the framework of the task. A unique
       Sergey A. Stupnikov, Dmitriy Yu. Kovalev                 identifier of the project supported by the Ministry of
                                                                education       and     science    of      the   RF      is
   The purpose of this paper is to describe the method
                                                                RFMEFI60414X0139.
for determining the similarity of the information items




                                                          109