Метод определения подобия информационных единиц по неявным пользовательским предпочтениям в рекомендательных системах поддержки жизнеобеспечения

Метод определения подобия информационных единиц по неявным пользовательским предпочтениям в рекомендательных системах поддержки жизнеобеспечения ©С АФилиппов Институт проблем информатики ФИЦ ИУ РАН

Москва

©В НЗахаров Институт проблем информатики ФИЦ ИУ РАН

Москва

©С АСтупников Институт проблем информатики ФИЦ ИУ РАН

Москва

©Д ЮКовалев Институт проблем информатики ФИЦ ИУ РАН

Москва

Метод определения подобия информационных единиц по неявным пользовательским предпочтениям в рекомендательных системах поддержки жизнеобеспечения 88FA7AF29F5CD163233080E6979DADE9 GROBID - A machine learning software for extracting information from scholarly documents

Аннотация

Целью данной работы является описание метода определения подобия информационных единиц посредством анализа данных о пользовательских предпочтениях. Метод является реализацией подхода Item-Item CF (коллаборативная фильтрация на основе подобия информационных единиц), который в свою очередь является одним из наиболее популярных подходов к построению современных рекомендательных систем. Исходными данными для коллаборативной фильтрации (другими словами для выявления пользовательских предпочтений) являются данные о пользовательской активности при просмотре страниц конкретных интернет-ресурсов (информационных единиц). Данные могут собираться как явным (оценки, опросы, рейтинги), так и неявным образом (протоколирование действий пользователей). Предложенный метод позволяет решить проблему холодного старта, т.е. выдачи рекомендаций в период отсутствия подробной информации о посетителе системы поддержки жизнеобеспечения (здесь и далее под такой системой подразумевается интернет-магазин), но при наличии неявных данных о маршрутах других посетителей системы. Метод опробован на реальных данных, полученных с действующего интернет-магазина Thaisoap, где подтвердил возможность своей применимости в рамках поставленной задачи. Работа выполнена при поддержке Министерства образования и науки РФ, уникальный идентификатор проекта RFMEFI60414X0139.

Введение

Рисунок 1 Рисунок 212Ежедневно магазин посещают в среднем около 1 500 посетителей и проводят на нем (в среднем) порядка 11 минут каждый (на каждого посетителя приходится в среднем 28 переходов по ссылкам). Исходные данные охватывают период в один квартал (IV квартал 2015 года), в котором каталог товаров был неизменен. Матрица подобия товаров На основе указанных данных была построена матрица подобия по всему временному периоду. На рисунке 1 представлен фрагмент получившейся матрицы подобия товаров для всех товаров из каталога (значения нормированы). Всего в каталоге на данный момент присутствует 1522 товара. Как видно из рисунка матрица сильно разряжена, так как для многих пар товаров оценка подобия отсутствует (т.е. в течение анализируемого периода времени пользователи не интересовались некоторыми товарами из каталога). В результате обработки матрицы подобия по алгоритму Affinity Propagation (с использованием статистического пакета R) была построена гистограмма расстояний. Результаты работы алгоритма представлены на рисунке 2 в виде кластерной тепловой карты (размерность карты 1522 на 1522). Преобладание одного цвета на карте обусловлено тем фактом, что в тестовой выборке данных для большинства пар товаров не определена оценка подобия (т.е. пользователи не интересовались данными товарами в течение рассматриваемого в тестовой выборке периода времени). Кластерная тепловая карта Всего алгоритм выделил 64 кластера, наиболее крупными из которых являются кластера с номерами 5 (75 объектов), 8 (44 объекта), 10 (30 объектов), 19 (27 объектов) и 55 (31 объект).Качество работы алгоритма можно оценить на примере кластера номер 5, описание которого представлено в таблице 1. В частности, видно, что для референсной информационной единицы (массажное кокосовое масло) в кластер подобия попали товары на основе кокосового масла или косвенно ассоциирующиеся с кремами и маслами для ухода за телом. возложенные на него задачи: формируется рекомендация из информационных единиц (товаров), уместных по отношению к товару, который заинтересовал неизвестного посетителя в данный конкретный момент времени.

использованием данных», Ершово, 11-14 октября 2016тем или иным объектам на сайтах. Основное В методе User-User CF определяется сходство дополняющие основную покупку). При данномCF) и контентная фильтрация (content-based filtering, пользовательской активности (в случае компанииколичество информации о пользовательской между пользователями и в качестве рекомендаций подходе явное участие пользователей интернет-CbF) [3]. Amazon речь идет о миллионах покупателей) резкоТруды XVIII Международной конференции DAMDID/RCDL'2016 «Аналитика и управление данными в областях с интенсивным статей по данной проблематике и посвящена описанию метода определения подобия информационных единиц по неявным пользовательским предпочтениям, который является вариантом реализации метода Item-Item CF. Данный метод позволяет вырабатывать приемлемые по качеству рекомендации в условиях, когда сведения о пользовательских предпочтениях отсутствуют, минимальны или слабо информативны. Для выявления групп подобных товаров используются методы кластеризации, что позволяет добиться хороших показателей качества и быстродействия в работе алгоритма. 1 Построение рекомендательных систем с использованием методов коллаборативной фильтрации Основная задача рекомендательной интернет-системы -формирование контента, максимально соответствующего ожиданиям, в том числе неявным, конкретного пользователя. Для решения этой задачи в большинстве современных рекомендательных систем используется один из двух базовых подходов: коллаборативная фильтрация (collaborative filtering, альтернатива методу User-User CF, призванная Проблема частого обновления данных о новых (или мало активных) пользователей. вследствие отсутствия данных о предпочтениях качество работы рекомендательной системы Проблема холодного старта существенно снижает обновления данных о пользовательской активности. CF: проблема холодного старта и проблема частого следующих основных проблем подхода User-User был предложен компанией Amazon для решения товаров в каталоге [8]. Первоначально данный метод существенно превышает количество наименований систем для тех магазинов, где число покупателей повысить производительность рекомендательных Метод Item-Item CF исторически появился как различные алгоритмы кластеризации. со схожими характеристиками часто используются модели) [3, 9]. Для выявления групп пользователей байесовские сети доверия, латентные семантические использовании моделей (алгоритмы кластеризации, гибридный подход и подход, основанный на системах наибольшее распространение получили подход (hybrid). В современных коммерческих основанный на модели (model based) и гибридный основанный на соседстве (memory based), активности собирается неявным образом посредством протоколирования его действий. Предметом отслеживания являются переходы пользователей по ссылкам на сайтах, время их пребывания на отдельных страницах, факты покупки товаров и услуг. Необходимо отметить, что, речь идет об огромных массивах данных, которые являются неоднородными и требующими отдельных подходов к интерпретации. В сфере электронной коммерции основным инструментом персонализации контента являются рекомендательные системы, обеспечивающие автоматическую обработку данных о пользовательской активности и выработку рекомендаций на товары и услуги, которые могут быть интересны конкретным пользователям. При реализации рекомендательных систем широко используются методы интеллектуального анализа данных (Data Mining) [2]. Основной задачей, которую авторы данной работы ставили перед собой, является разработка комбинированного подхода к построению рекомендательных систем, обеспечивающего наиболее полное использование всех данных о посетителях интернет-магазинов с целью выработки рекомендаций, наиболее адекватно отражающих их ожидания (пертинентность предложения). Научно практическая новизна работы заключается в идее комбинированного использования методов Item-Item CF и User-User CF, что позволяет минимизировать недостатки каждого из них и добиться более высокого качества работы рекомендательной системы в целом. Данная статья входит в серию пользователю выдается n самых часто покупаемых магазина в формировании рейтинга товаров не товаров k наиболее похожими на него покупателями. требуется. профиля используются три основных подхода: пользователю на основании его поведенческого Для поиска рекомендаций конкретному Для оценки степени схожести пользователей в плане Первым шагом алгоритма является построение их предпочтений могут использоваться различные функции сходства (метрики). матрицы подобия информационных единиц, где и по Наиболее вертикали, и по горизонтали присутствуют все популярными среди них являются: евклидово информационные единицы интернет-магазина. расстояние, косинусная мера, расстояние Хэмминга, Заполнение матрицы происходит по следующему коэффициент корреляции Пирсона, коэффициент правилу: если пользователь последовательно Танимото, Манхэттенское расстояние и некоторые просмотрел два товара, то вес подобия в матрице для другие [4, 6]. Определение рекомендаций методом этих двух товаров увеличивается на 1. User-User CF предполагает построение матрицы активности пользователей, каждая строка которой описывает действия конкретного пользователя применительно к конкретному объекту (категория, товар, услуга) на сайте. Действия пользователей могут обозначаться самыми различными способами. Например, это может быть бинарная информация о посещении или не посещении заданного ресурса данным пользователем, частота (или число) пользований ресурса r пользователем u, стоимость или рейтинг, проставленный пользователем u для ресурса r и т.д. Таким образом, каждая строка матрицы активности представляет собой вектор оценок, соответствующих различным категориям товаров (тематический профиль пользователя). Профиль пользователя характеризует степень его интереса к каждой группе товаров. Для каждой пары «пользователь-объект (товар, услуга, действие)» в матрице активности вычисляется мера близости с использованием выбранной метрики [7]. Для обработки матрицы в целях выявления групп информационных единиц, которые являются близкими по своим оценкам подобия, из всех известных алгоритмов кластеризации в результате проведённого моделирования был выбран современный производительный алгоритм Affinity Propagation. Одним из преимуществ данного алгоритма является отсутствие необходимости предварительной оценки оптимального количества кластеров [11]. Приведённый метод кластеризации был опробован на тестовом массиве данных, предоставленных интернет-магазином Thaisoap. Магазин ориентирован на продажу натуральной тайской косметики и кокосового масла. Каталог товаров магазина содержит более 1 500 наименований товаров, которые разбиты на 180 классов (44 корневых классов, 136 подклассов).Одним из современных трендов в развитии Интернет является персонализация. Поисковые системы, социальные сети, форумы, новостные ресурсы и Интернет магазины стараются адаптировать внешний вид и содержимое (контент) своих страниц под нужды конкретных пользователей. По результатам исследования компании Evergage (www.evergage.com) в 2015 году персонализацию в реальном времени использовали 44% веб сайтов, 17% мобильных сайтов, 13% веб-приложений и 9% мобильных приложений [1]. При этом 78% тех, кто не использует персонализацию сейчас, утверждают, что планируют начать в течение посетителей, улучшение пользовательского опыта и повышение конверсии считаются самыми важными результатами ее применения. Предоставление персонализированного контента пользователям позволяет существенно повысить эффективность сайтов, которая выражается в терминологии маркетинга таким показателем как конверсия (число посетителей, совершивших полезные действия к общему числу посетителей выраженное в процентах). Для качественной персонализации сайтов, ориентированных на работу с большой аудиторией пользователей, как правило, используется комплексный подход, сочетающий маркетинговые исследования и анализ поведения конкретных посетителей сайтов. Информацию о маркетинговых качествах посетителей можно получить, в том числе используя системы веб-аналитики, такие как Adobe Digital Marketing Suite или Google Analytics и Siteapps.com. Исходными данными для анализа поведения пользователей являются сведения об их активности, которые могут собираться явным или неявным образом. Явным образом получают результаты голосований и опросов, а также оценки, которые пользователи дают Наибольшее распространение в электронной коммерции рекомендательные системы, следующие варианты реализации  коллаборативная фильтрация Filtering, User-User CF);  коллаборативная фильтрация анализа взаимосвязей между объектами (Item-Item Collaborative Filtering, Item-Item CF); Основными проблемами, связанными с реализацией и практическим использованием алгоритмов коллаборативной фильтрации, являются разреженность данных, проблема холодного старта и масштабируемость. Дополнительно к перечисленным проблемам можно отметить проблему ограничения разнообразия предложений. Рекомендательные системы, использующие коллаборативную фильтрацию, склонны предлагать товары уже пользующиеся популярностью, что создает проблемы для продвижения новых товаров и услуг [5]. «С этим товаром покупают» (аксессуары, объектов, список «Новинки», а также матрицу классификаторы с учётом цены и параметров предлагается использовать обычные несколько товаров. При отсутствии данных пользователей, последовательно просматривающих информационных единиц на основе данных и последующая группировка (кластеризация) метод, в основе которого лежит расчёт близости пар пользователей авторами предлагается использовать недостаточности знаний о пристрастиях рекомендации с уместной информацией в условиях В целях решения задачи формирования пользовательским предпочтениям информационных единиц по неявным посредством 2 Определение подобия (кластеров) схожими интересами (User-User Collaborative которую откликнется пользователь. анализа предпочтений групп пользователей со рекомендацию (информационное предложение), на посредством встает задача, как в таких условиях сделать коллаборативной фильтрации, а также их гибриды: уходят, чтобы больше никогда не вернуться). И метода товарных каталогов, делают нужную им покупку и использующие единиц (покупатели приходят из поисковых систем и получили пользователей определять рейтинг информационных сфере силу отсутствия возможности мотивировать следующих 12 месяцев. Увеличение вовлеченности снижает производительность рекомендательной Метод контентной фильтрации фокусируется на системы в целом. выявлении объектов со схожими характеристиками по отношению к тем объектам, которые уже заинтересовали пользователя. При этом учитывается модель поведения пользователя и характеристики (контент) заинтересовавших его объектов. При выработке рекомендаций выявляются объекты со схожими характеристиками (контентом). Для эффективной работы метода контентной фильтрации, как правило, необходимо подробное описание характеристик объектов (так в проекте Music Genome Project музыкальный аналитик оценивает каждую композицию по сотням различных музыкальных характеристик), а также сведения о конкретном пользователе (например, ответы на конкретные вопросы в анкете). В основе метода коллаборативной фильтрации лежит предположении о консервативности пользовательских предпочтений (т.е. пользователи, одинаково оценивающие определенные объекты, скорее всего аналогичным образом будут оценивать и новые объекты со сходными характеристиками) [4]. По существу, рекомендации базируются на автоматическом сотрудничестве множества пользователей и на выделении (методом фильтрации) тех пользователей, которые демонстрируют схожие предпочтения или шаблоны поведения. Таким образом, метод коллаборативной фильтрации вырабатывает рекомендации, рекомендациями по рейтингам, слабо применим в схожими характеристиками. интернет-магазинов подход, связанный с пользователя и с учетом поведения пользователей со Item2Vec [10]. Тем не менее для большинства основанные на модели предшествующего поведения Основная идея метода Item-Item CF заключается в группировке информационных единиц (товары, услуги, действия) имеющих сходные оценки пользователей (рейтинги). Рекомендации вырабатываются по следующему принципу: пользователю оценившему объект X высоко будет предложен объект Y, который высоко оценили другие пользователи, также высоко оценившие и методов решения задачи Item-Item CF является метод объект X. Использование метода Item-Item CF позволяет повысить качество рекомендаций для новых пользователей (нет критической зависимости от данных о пользовательских предпочтениях), а также значительно повышает производительность рекомендательной системы в случае, когда количество пользователей существенно превышает количество объектов (характеристики объектов меняются реже). При этом качество рекомендаций в среднем выше, чем в случае использования подхода, основанного на анализе пользовательских профилей. Для вычисления попарной близости информационных единиц могут использоваться те же метрики, что и в случае с парами «пользователь-объект» (часто используется косинусная или модифицированная косинусная меры). Для поиска рекомендаций на основании матрицы объектов часто используются весовые функции и методы регрессионного анализа. Одним из перспективных

Таким образом описанный метод класса Item-Item CF вполне применим для новых (или малоактивных) пользователей. При этом по мере накопления данных о предпочтениях пользователей рекомендуются отдавать большее предпочтение методам класса User-User CF, которые дают тем более точные предсказания чем более подробны данные о пользовательской активности.Таблица 1 Детализация кластера номер 5кластеризации Affinity Propagation. Метод проверенКла-стерРеференсная информационная единицаПримеры товаров из кластерана данных интернет-магазина Thaisoap и показал по результатам высокий уровень уместности информации в формируемой рекомендации.ID: 5ID: 76.ID: 43.Size:НерафинированноеКокосовое масло75100% массажноеTropicanaкокосовое масло1 литр,"Citronella"нерафинированноеTropicana, 100 мл.ID: 51.Кокосовое маслонерафинированноеTropicana ваптекарскомфлаконе,90 мл.ID: 466.ВосстанавливающийкокосовыйЛОСЬОН для телаTropicana "SweetCoconut" (безпарабенов),200 мл.ID: 624.Маска-эксфолиантдля лица "Морскойколлаген" Artiscent,100 мл.ID: 1234.Мини-наборШампунь иКондиционер дляволос "Золотойшелк с экстрактомшелковицы"ЗаключениеПерсонализация контента интернет-ресурсов насегодня является одним из активно развивающихсянаправленийИТ-индустрии.Важнейшимирезультатами ее применения являются увеличениевовлеченностипосетителей,улучшениепользовательского опыта и повышение конверсии.Персонализация контента в сфере электроннойкоммерции выражается в адресном предложениитоваров, а также услуг конкретным пользователям иреализуется посредством рекомендательных систем.Современныерекомендательныесистемыобеспечивают обработку огромных массивов данныхопользовательскойактивностисцельюформирования предсказаний для конкретныхпользователей в момент запроса.В данной работе изложен метод определенияподобия информационных единиц по неявнымпользовательскимпредпочтениямврекомендательныхсистемахподдержкижизнеобеспечения на основе упрощенной метрикиблизости пар информационных единиц по алгоритму

Determination of similarity of information items based on implicit user preferences in life-support recommender systems

Stanislav A. Philippov, Victor N. Zakharov, Sergey A. Stupnikov, Dmitriy Yu. Kovalev The purpose of this paper is to describe the method for determining the similarity of the information items through the analysis of user preference data. The method is an implementation approach known as Item-Item CF (collaborative filtering based on the similarity of the information items), which in turn is one of the most popular approaches to the construction of modern recommender systems. Initial data for collaborative filtering are the data about users' activity when they are browsing web resources. Data can be collected as explicit (evaluations, surveys, ratings) and implicit (logging of users' actions). The proposed method solves the problem of cold start using implicit data about the routes of other users. The method was tested on real data from existing online store Thaisoap, which confirmed the possibility of its applicability in the framework of the task. A unique identifier of the project supported by the Ministry of education and science of the RF is RFMEFI60414X0139.

Почему персонализация контента это еще не вебперсонализация // Статья в сети Интернет САФилиппов ВНЗахаров САСтупников Д Ковалев Подходы к повышению пертинентности информационного предложения в медиасервисах на основе обработки больших объемов данных // ХVII международная конференция «Аналитика и управление данными в областях с интенсивным использованием данных» DAMDID/RCDL'2015

Обнинск

2015 13 М Тим Джонс Рекомендательные системы: Часть 1. Введение в подходы и алгоритмы // Статья в сети Интернет 2013 Khoshgoftaar A survey of collaborative filtering techniques XiaoyuanSu MTaghi Advances in Artificial Intelligence 2009 2009. 19p Article ID 421425 Blockbuster Culture's Next Rise or Fall: The Impact of Recommender Systems on Sales Diversity DFleder KHosanagar / Management Science 55 5 May 2009 ВА Лексин Технология персонализации на основе выявления тематических профилей пользователей и ресурсов Интернет // ВКР Магистра, Вычислительный Центр им Дородницина РАН 2007 ЕАБрейкин -№13 Рекомендательная система на основе коллаборативной фильтрации // Молодой ученый 2015 GregLinden BrentSmith JeremyYork Amazon com recommendations: Item-to-Item Collaborative Filtering // Industry Report IEEE INTERNET COMPUTING 2003 ААБарсегян МСКуприянов ВВСтепаненко ИХолод Методы и модели анализа данных: OLAP и Data Mining // СПб БХВ-Петербург 2004 336 OBarkan NKoenigstein arXiv:1603.04259 Item2Vec: Neural Item Embedding for Collaborative Filtering Mar 2016 arXiv preprint Delbert Dueck Clustering by passing messages between data points BrendanJFrey 10.1126/science.1136800 Science 16 Feb 2007