Модель рекомендательной системы на нечетких множествах как эффективное расширение коллаборативной модели © Д.М. Понизовкин IT-Aces, г. Переславль-Залесский, Россия denis.ponizovkin@gmail.com Аннотация. Рассмотрены рекомендательные системы, использующие коллаборативную фильтрацию для решения таких задач, как определение степени близости объекта пользователю (задача прогнозирования) и определение подмножества объектов мощности 𝑁, близких пользователю (задача 𝑡𝑜𝑝𝑁). Такие системы считаются хорошо изученными и успешно применяются в коммерции, однако существуют открытые проблемы, связанные с использованием таких систем. Эти проблемы описаны в настоящей работе. В качестве метода устранения существующих недостатков предложена модель рекомендательных систем, которая основана на теории нечетких множеств и использует методы коллаборативной фильтрации. Ключевые слова: рекомендательная система, коллаборативная фильтрация, мера сходства, отношение близости, эффективность, нечеткая логика. The Model of Recommender Systems based on Fuzzy Logic as the Extension of the Collaborative Filtering Model © Denis M. Ponizovkin IT-Aces, Pereslavl-Zalessky, Russia denis.ponizovkin@gmail.com Abstract. In this article, we analyze collaborative filtering. We show existing problems connected with using of collaborative filtering. We propose the recommender system model based on the fuzzy logic theory. This model is the extension of the collaborative filtering which removes described problems. Keywords: recommender system, collaborative filtering, similarity measure, fuzzy logic. • 𝑖 ∈ 𝐼 ⊂ ℕ – идентификаторы объектов 1 Терминология и обозначения предметной области РС, например, фильм в Рекомендательные системы (далее РС) [1] – одна РС в области кинематографии; для простоты из развивающихся областей Computer Science, изложения не будем каждый раз употреблять начавшая свое существование с конца прошлого выражения «пользователь» или «объект», столетия [2]. РС являются инструментом, который будем обозначать их кратко «объекты»; облегчает пользователю задачу поиска нужной • 𝜌: 𝑈 × 𝐼 → [0,1] – функция оценки близости и информации путем предоставления рекомендации по объектов; значение 𝜌(𝑢, 𝑖) показывает, использованию соответствующей информации или насколько объекты 𝑖 и 𝑢⁡близки; как правило, за счет определения степени близости конкретной оценки близости задаются самими информации интересам пользователя. пользователями за время работы с РС; будем РС работают со следующими исходными считать, что чем меньше значение оценки, тем данными: объекты ближе; будем говорить, что между • 𝑢 ∈ 𝑈 ⊂ ℕ – идентификаторы пользователей пользователем 𝑢 и объектом 𝑖 выполняется РС; отношение близости⁡ℛ, если 𝜌(𝑢, 𝑖) ≤ 𝜀0 ∈ 𝜀(0); будем называть такие объекты близкими. Как правило, РС решают следующие две задачи Труды XIX Международной конференции (пользователь, для которого производится решение, «Аналитика и управление данными в областях с называется активным и обозначается символом 𝑢𝑎 ): интенсивным использованием данных» (DAMDID/ RCDL’2017), Москва, Россия, 10–13 октября 2017 года 87 1. Задача прогнозирования: спрогнозировать роли информации прошедшего времени, тестовое – в неизвестное значение 𝜌(𝑢𝑎 , 𝑖𝑝 ) =⊥⁡(символом ⊥ роли информации будущего времени. ⁡⁡будем обозначать неизвестное значение) путем Правило Π СОК основано на утверждении, алгоритмического вычисления значения прогнозной которое гласит, что если в прошлом пользователи функции 𝜌(𝑢𝑎 , 𝑖𝑝 ): 𝑈 × 𝐼 → [0,1], где⁡𝑖𝑝 − были близки по предпочтениям, то и в будущем они ⁡прогнозируемый объект; при этом требуется, чтобы будут близки по предпочтениям. Во введенной прогноз был составлен точно, то есть |𝜌(𝑢𝑎 , 𝑖𝑝 ) − терминологии данное утверждение примет 𝜌(𝑢𝑎 , 𝑖𝑝 )| ≤ 𝜀0 ; следующий вид: 2. Задача 𝑡𝑜𝑝𝑁 – формирование 𝑢𝑎 ℛ𝑢 𝑢⁡выполняется⁡на⁡𝑃0 ⇒ подмножества объектов ⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡𝑢𝑎 ℛ𝑢 𝑢⁡выполняется⁡на⁡𝑃⊥, (2) 𝐼𝑡𝑜𝑝𝑁 = {𝑖: (𝑢𝑎 ℛ𝑖) ∧ 𝜌(𝑢𝑎 , 𝑖) =⊥} ∧ |𝐼𝑡𝑜𝑝𝑁 | = 𝑁. ℛ𝑢 – отношение близости пользователей. Так как неизвестно, выполняется ли отношение 𝑢𝑎 ℛ𝑖 Выполнение отношения близости ℛ𝑢 между в силу того, что 𝜌(𝑢𝑎 , 𝑖) =⊥, то выполнение пользователями устанавливается СРС на основании отношения 𝑢𝑎 ℛ𝑖 определяется по значению значений характеристик пользователей. прогнозной функции: 𝑢𝑎 ℛ𝑖 ⇔ 𝜌(𝑢𝑎 , 𝑖) ≤ 𝜀0 . Характеристиками для СОК всегда выступают Решение названных задач производится РС за счет объекты, а значениями весов – значения 𝜌(𝑢, 𝑖) ∈ 𝑃0 , анализа информации о характеристиках которые были выставлены самими пользователями и пользователей и объектов. 𝑋 – множество характеризуют предпочтения пользователей. Для характеристик пользователей, например, социально- определения близости по предпочтениям демографические показатели банковской РС. 𝑌 – используются так называемые меры близости множество характеристик объектов, например, 𝛿𝑢 : 𝑈 × 𝑈 → [0,1]: (1 − 𝛿𝑢 (𝑢, 𝑣)) ≤ 𝜀0 ⇔ 𝑢ℛ𝑢 𝑣. наименования кинематографических жанров. Значением характеристик пользователей является Пользователи, между которыми выполняется значение весовой функции 𝑤𝑈 : 𝑈 × 𝑋 → [0,1], отношение близости, называются соседями. объектов – 𝑤𝐼 : 𝐼 × 𝑌 → [0,1]. Значения весов могут Правило Π СОК задается формулой задаваться пользователями, экспертами, алгоритмически и т. д. Структуру данных, 𝑢 ∈ 𝑈, (𝑢𝑎 ℛ𝑢) ⇒ |𝜌(𝑢𝑎 , 𝑖𝑝 ) − 𝜌(𝑢𝑎 , 𝑖𝑝 )| ≤ 𝜀0⁡, ⁡⁡(3) представляющую информацию о пользователе 𝑢 и 𝜌(𝑢𝑎 , 𝑖𝑝 ) = 𝑓({𝜌(𝑢, 𝑖𝑝 )}). Правило Π СОК говорит о объекте 𝑖 назовем контентом пользователя 𝑐𝑋 (𝑢) и том, что если пользователи 𝑢 являются соседями для контентом объекта 𝑐𝑌 (𝑖) соответственно. пользователя 𝑢𝑎 , то оценки 𝜌(𝑢𝑎 , 𝑖𝑝 ),⁡⁡⁡𝜌(𝑢, 𝑖𝑝 ) Модель РС – это тройка коррелируют, поэтому неизвестное значение (𝑐𝑋 ; 𝑐𝑌 ; Π), (1) 𝜌(𝑢𝑎 , 𝑖𝑝 ) можно функционально определить по значениям {𝜌(𝑢, 𝑖𝑝 )}, то есть прогнозная функция где Π – правило алгоритмического вычисления значения прогнозной функции 𝜌. является функцией от значений оценок близости соседей. Чтобы определить качество решения задачи, проводится тестирование, для которого исходное Правило Π ООК основано на утверждении: если множество данных 𝑃 разбивается на обучающее и пользователю нравится объект 𝑖, который близок по тестовое множества 𝑃0 и 𝑃⊥ соответственно. Если характеристикам к объекту 𝑗, то пользователю 𝜌(𝑢, 𝑖) ∈ 𝑃0 , будем обозначать такие объекты 𝑖0 . Если понравится объект 𝑗. Во введенной терминологии 𝜌(𝑢, 𝑖) ∈ 𝑃⊥ , будем обозначать такие объекты 𝑖⊥ . данное утверждение примет вид (𝑢𝑎 ℛ𝑖) ∧ (𝑖ℛ𝑖 𝑗) ⇒ 𝑢𝑎 ℛ𝑗⁡,⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡(4) 2 Коллаборативные модели Рассмотрим коллаборативную фильтрацию [3-7], ℛ𝑖 – отношение близости объектов. Отношение которая является одним из наиболее изученных [3], близости ℛ𝑖 между объектами устанавливается РС на популярных [4] и успешных [5] правил вычисления основании значений мер близости: 1 − 𝛿𝑖 (𝑖, 𝑗) ≤ Π. РС, которые используют коллаборативную 𝜀0 ⇔ 𝑖ℛ𝑖 𝑗, 𝛿𝑖 : 𝐼 × 𝐼 → [0,1] – мера близости объектов. фильтрацию в качестве правила⁡Π, будем называть Объекты, между которыми выполняется отношение коллаборативными РС (далее КРС). Они делятся на близости, называются соседями. два типа по фильтруемому множеству [6]: множеству При решения задачи 𝑡𝑜𝑝𝑁 в ООК используется пользователей или объектов. Будем называть первые информация только о тех объектах, для которых субъектно-ориентированными (далее СОК), а известно, что (𝑢𝑎 ℛ𝑖0 ), (𝑢𝑎 ℛ𝑖⊥ ), поэтому будем последние – объектно-ориентированными (далее считать, что 𝑃 = {𝜌(𝑢, 𝑖): 𝑢ℛ𝑖} для задачи 𝑡𝑜𝑝𝑁. ОРС) [7]. Правило Π ООК задается формулой Опишем теорию, на которой основаны коллаборативные Π. Решение строится по (𝑖ℛ𝑖 𝑖0 ) ⇒ (𝜌(𝑢𝑎 , 𝑖) = 0) ⇒ 𝑢𝑎 ℛ𝑖.⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡(5) обучающему множеству, а его качество определяется Значения 𝜌(𝑢𝑎 , 𝑖) задаются равными нулю, потому по тестовому. Обучающее множество выступает в 88 что тогда объекты 𝑖 будут близки активному ∀𝑢1 , 𝑢2 ∈ 𝒩𝑈 : (𝑢1 ℛ𝑢 𝑢𝑎 ) ∧ (𝑢2 ℛ𝑢 𝑢𝑎 ) ⇒ 𝑢1 ℛ𝑢 𝑢2. пользователю при любом пороговом значении 𝜀0 . Назовем это условие условием 1. Правило вывода ООК говорит о том, что если Достаточным условием, при котором ООК существует объект 𝑖, являющийся соседом объекта гарантирует получение качественного решения 𝑖0 , то, следуя эвристическому утверждению, 𝑢𝑎 ℛ𝑖, задачи 𝑡𝑜𝑝𝑁, является транзитивность отношения так как 𝑢𝑎 ℛ𝑖0 по принятому для задачи 𝑡𝑜𝑝𝑁 виду близости на объединении обучающего, тестового и исходного множества. результирующего множеств: (𝑖ℛ𝑖 𝑗) ∧ (𝑖ℛ𝑖 𝑘) ⇒ (𝑗ℛ𝑖 𝑘), 𝑖, 𝑗, 𝑘 ∈ 𝐼0 ⋃⁡ 𝐼𝑡𝑜𝑝𝑁 ⋃⁡ 𝐼⊥ , 3 Проблемы применения 𝐼⊥ = {𝑖⊥ , 𝐼0 = {𝑖0 }. коллаборативных моделей Назовем его условием 2. 3.1 Выполнение эвристических утверждений Выполнение достаточных условий зависит от Будем говорить, что РС эффективна, если ее того, какое значение выбрано в качестве порогового правила вывода удовлетворяют некоторому значения 𝜀0 , и функции, использующейся в качестве критерию независимо от дополнительных меры близости. К примеру, если 𝛿𝑖 = cos и 𝜀0 = 0,49, ограничений или условий. то транзитивность не гарантируется; коэффициент Реальные исходные данные обладают свойствами корреляции Пирсона [6], являющийся традиционной динамики и неоднородности [8]. Свойство динамики мерой близости СОК, не обладает свойством заключается в том, что множество исходных данных транзитивности [9]. изменяется во времени, так как изменяются Если эвристические утверждения выполняются, предпочтения пользователей, и мощность множеств то правила вывода Π гарантируют получение 𝑈, 𝐼 растет. Пусть выполняется 𝑢𝑎 ℛ𝑢 𝑢⁡для⁡𝑃0 , но в качественного решения, если выполняются силу динамики возможна ситуация, когда⁡1 − достаточные условия, что зависит от разработчиков 𝛿𝑢 (𝑢𝑎 ⁡, 𝑖) > 𝜀0 ⁡ для⁡𝑃⊥ . Тогда утверждение СОК (2) и, системы. следовательно, правило Π СОК (3) ложны в общем Проблемы, описанные в разделах 2.1 и 2.2, случае для любых исходных данных. подтверждены на практике и продемонстрированы Свойство неоднородности заключается в том, что ниже в Разделе 4, в Таблицах 1 и 2. пользователи предпочитают различные объекты, не 3.3 Масштабируемость обязательно близкие по характеристикам, то есть их вкусы неоднородны: (𝑢𝑎 ⁡ℛ⁡𝑖) ∧ (𝑢𝑎 ⁡ℛ⁡𝑗) ⁡⁡ ⇏ ⁡ (𝑖ℛ⁡𝑖 ⁡𝑗). Стандартные алгоритмы решений КРС обладают Тогда (𝑢𝑎 ℛ𝑖) ∧ (𝑖ℛ𝑖 ⁡𝑗) ⁡ ⇏ ⁡ 𝑢𝑎 ℛ⁡𝑗, то есть следующими асимптотическими сложностями [10]: утверждение ООК (4) и, следовательно, правило 𝑂(|𝐼|2 ) для задачи 𝑡𝑜𝑝𝑁, 𝑂(|𝑈|) для задачи вывода ООК (5) ложны в общем случае для любых прогнозирования. Учитывая огромную мощность исходных данных. Таким образом, КРС не являются множеств 𝑈, 𝐼, такие асимптотические сложности эффективными по критерию качества решения, так приводят к проблеме масштабируемости КРС [10]. как оно зависит от выполнения эвристических утверждений, что, в свою очередь, зависит от свойств 4 Нечеткая контентная модель исходных данных. 4.1 Описание Таким образом, КРС не являются эффективными В нечеткой контентной модели будем по критерию качества решения, так как оно зависит представлять контент в виде нечеткое подмножества от выполнения эвристических утверждений, что, в множества характеристик [11]: {(𝑐|𝑤𝑀 (𝑚, c))}, где 𝑐 свою очередь, зависит от свойств исходных данных. – характеристика пользователя или объекта, 𝑚 ∈ 𝑀⁡– 3.2 Достаточные условия качественного решения множество пользователей или объектов, 𝑤𝑀 – характеристическая функция принадлежности. Для Отношение близости обладает следующими СОК и ООК контент пользователя представляется в свойствами: рефлексивность, симметричность, виде нечеткого множества вида {(𝑖|1 − ⁡𝜌(𝑢, 𝑖))}. транзитивность. Выполнение свойства Между пользователями и объектам введем транзитивности отношения близости зависит от расстояния 𝜌𝑢 и 𝜌𝑖 соответственно как обобщенное выбора функции, используемой в качестве меры расстояние Хэмминга, которое обладает близости, и значения порогового значения 𝜀0 . метрическими свойствами. Пусть правила вывода Π СОК (3) и ООК (5) При представлении контентов в виде нечетких истинны (то есть выполняются эвристические множеств определим нечеткое отображение Ψ: 𝑈 → утверждения). Рассмотрим условия, которые влияют 𝐼, характеристическая функция которого задана на качество решения. следующей формулой: Достаточным условием, при котором СОК 𝜈Ψ (𝑦) = max⁡min{𝛿𝑐 (𝑥, 𝑦); 𝑤𝑈 (𝑢, 𝑥)},⁡⁡⁡⁡⁡⁡⁡⁡(6) гарантирует получение качественного решения 𝑥∈𝑋 задачи прогнозирования, является транзитивность и расстояние между пользователем и объектом отношения близости на кластере соседей 𝒩𝑈 = 𝜌(𝑢, 𝑖) = 𝜌𝑖 (Ψ(𝑢), 𝑖). (7) {𝑢: 𝑢𝑎 ℛ𝑢}, который строится для решения задачи: 89 Функция 𝛿𝑐 : 𝑋 × 𝑌 → [0,1]⁡ – это функция выполняется отношение 𝑖ℛ𝑖 𝑖⊥ . сходства характеристик пользователей и объектов, Таким образом, правила вывода ΠСОК , ΠООК в задание которой необходимо для построения представлении контентов в виде нечетких отображения Ψ. Эта функция может быть определена подмножеств и при использовании метрических разработчиками РС, экспертами, алгоритмически и расстояний обладают большей эффективностью по т. д. Будем говорить, что оценка сходства 𝛿𝑐 задана критерию качества решения, так как выполняются аккуратно, если выполняется неравенство достаточные условия 1 и 2, и поэтому контентная |𝜌(𝑢, 𝑖) − 𝜌(𝑢, 𝑖)| ≤ 𝜀0 (9) нечеткая модель является эффективным расширением по критерию качества. Данный вывод Нечеткое правило вычисления Πf заключается в подтверждается практическими результатами (см. задании оценки сходства δc , нечеткого отображения таблицы 1 и 2). Ψ (6) и вычислении расстояния между пользователем и объектом, определенного формулой (7): 4.3 Применение нечеткого правила вывода для решения задач ⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡Π𝑓 = {𝛿𝑐 , (6), (7)}. (10) Определим решения в нечеткой контентной Нечеткая контентная модель – это модель, модели при использовании Π𝑓 . которая задается следующей тройкой: Задача 𝑡𝑜𝑝𝑁 может быть решена при помощи (𝑐𝑋 ; 𝑐𝑌 ; Π⁡ ∈ ⁡ {Π𝑓 , ΠСОК , ΠООК }). (11) линейного поиска объектов, таких, что 𝜌(𝑢𝑎 , 𝑖) ⁡ ≤ 𝜀0 . Асимптотическая сложность такого алгоритма равна 4.2 Нечеткая модель как эффективное 𝑂(|𝐼|). расширение коллаборативной модели Для решения задачи прогнозирования нужно Утверждение 1: нечеткая контентная модель (11) всего лишь рассчитать значение 𝜌(𝑢𝑎 , 𝑖𝑝 ), поэтому является эффективным расширением СОК по асимптотическая сложность такого решения равна критерию качества. 𝑂(𝐶). Утверждение 1 следует из того, что СОК – Если оценка сходства 𝛿𝑐 задана аккуратно, то частный случай модели (11) при использовании Π = решения задач контентной нечеткой модели ⁡ΠСОК . Расширение эффективно по критерию эффективны по критерию качества, что будет качества, так как выполняется условие 1. Покажем, продемонстрировано на разделе 4. Точность задания что это верно: введем следующее дополнительное 𝛿𝑐 зависит только от разработчиков, но не от свойств условие при составлении кластера соседей – 𝒩𝑈 = исходных данных или дополнительных условий, как {𝑢: 𝜌𝑢 (𝑢𝑎 , 𝑢) ≤ 𝜀0 /2}. Покажем, что выполняется в случае с КРС. достаточное условие. Напомним, что оно Асимптотические сложности алгоритмов заключается в выполнении свойства транзитивности решений при использовании правила вывода Π𝑓 на отношения близости ℛ𝑢 на кластере соседей: ∀𝑢, 𝑣 ∈ порядок меньше по сравнению со сложностями КРС, 𝒩𝑈 верно, что (𝑢𝑎 ℛ𝑢 𝑢) ∧ (𝑢𝑎 ℛ𝑢 𝑣). поэтому представленная модель более эффективна Так как функция ρu обладает метрическими по критерию масштабируемости, чем КРС. Каждый свойствами, то ρu (u, v) ≤ ρu (ua , u) + ρu (ua , v). По раз, когда производится вычисление с, производятся дополнительному условию ρu (ua , u) ≤ ε0 /2, отображение⁡⁡Ψ и расчет 𝛿𝑐 . Сложности вычислений ρu (ua , v) ≤ ε0 /2, поэтому ρu (u, v) ≤ ε0 ⇒ uℛu v. отображения Ψ и 𝛿𝑐 зависят от мощности контента Утверждение 2: нечеткая контентная модель (11) (которое, как правило, значительно меньше является эффективным расширением ООК по мощности множеств пользователей и объектов) и от критерию качества. того, как была задана 𝛿𝑐 разработчиками, поэтому эти сложности не учтены в расчетах, представленных Утверждение 2 следует из того, что ООК – ниже. частный случай модели (11) при использовании Π = ⁡ΠООК . Расширение эффективно по критерию Приведенные значения асимптотических сложностей показывают, что контентная нечеткая качества, так как выполняется условие 2 при 𝜀0 = 0. модель является эффективным расширением КРС по Покажем, что выполняется условие 2. Напомним, что критерию масштабируемости. оно заключается в выполнении свойства транзитивности отношения близости ℛ𝑖 на 5 Практические результаты множестве 𝐼0 ⋃⁡ 𝐼⊥ ⋃⁡ 𝐼𝑡𝑜𝑝𝑁 . Покажем, что (𝑖0 ℛ𝑖 𝑖) ∧ (𝑖0 ℛ𝑖 𝑖⊥ ) ⇒ 𝑖⊥ ℛ𝑖 𝑖. Для получения практических результатов было разработано программное обеспечение, которое Отношение 𝑖0 ℛ𝑖 𝑖⊥ выполняется по реализует ООК, СОК и нечеткую контентную РС. С эвристическому утверждению ООК (4), отношение помощью ООК решалась задача 𝑡𝑜𝑝𝑁, с помощью 𝑖0 ℛ𝑖 𝑖 выполняется по построению решения. Так как СОК – задача прогнозирования. С помощью функция 𝜌𝑖 обладает метрическими свойствами, то нечеткой РС решались обе задачи. 𝜌𝑖 (𝑖, 𝑖⊥ ) ≤ 𝜌𝑖 (𝑖0 , 𝑖) + с𝑖 (𝑖⊥ , 𝑖0 ). По дополнительному Тестирование проводилось на множестве данных, условию 𝜌𝑖 (𝑖0 , 𝑖) = 0, так как выполняется 𝑖0 ℛ𝑖 𝑖⊥ , то сформированных компанией MovieLens. Множество 𝜌𝑖 (𝑖0 , 𝑖⊥ ) ≤ 𝜀0 . Поэтому 𝜌𝑖 (𝑖, 𝑖⊥ ) ≤ 𝜀0, то есть 90 данных имеет следующие характеристики: NDCG. В результате тестирования среднее значение • |𝐼|=10000 – объектами множества являются этих функций мало отличалось, поэтому в Таблице 1 фильмы, численность которых равна 10000; приведены только значения точности. Большее значение точности свидетельствует о то, что • |𝑌| = 18 – множество характеристик объектов решение более эффективно. Эффективность решения состоит из 18 кинематографических жанров; задачи прогнозирования по критерию качества • |𝑈| = 670 – число пользователей данного оценивалась значениями функций MAE, NMAE, множества равно 671; пользователи являются RMSE, меньшее значение которых говорит о более реальными людьми, которые проставляли оценки эффективном решении. близости различным объектам. Таблица 1 Для решения задач 𝑡𝑜𝑝𝑁 и прогнозирования в ООК и СОК соответственно были использованы Модель/Правило Разбиение P № вычисления стандартные алгоритмы и подходы [6, 12]. При решении задачи 𝑡𝑜𝑝𝑁 в ООК использовалась мера 1 ООК/⁡ΠООК 1 0.32 сходства косинус, при решении задачи 2 ООК/⁡ΠООК 2 0,24 прогнозирования в СОК – коэффициент корреляции 3 Нечеткая контентная 1 0,55 Пирсона. Те же алгоритмы были применены при /⁡ΠООК решении задач в нечеткой контентной модели, но 4 Нечеткая контентная 2 0,53 при этом использовались расстояния 𝜌𝑖 и 𝜌𝑢 . /⁡ΠООК Пороговое значение 𝜀0 было принято равным 0,1. 5 Нечеткая контентная/⁡Π𝑓 1 0.39 Чтобы применить Π𝑓 , была задана функция⁡𝛿𝑐 ⁡⁡на основании эвристического предположения о том, что 6 Нечеткая контентная/⁡Π𝑓 2 0,36 между оценкой пользователя и жанрами объектов 7 Нечеткая контентная/⁡Π𝑓 3 0,81 существует корреляция: Прокомментируем данные таблиц 1 и 2. 𝛿𝑐 (𝑖, 𝑦) = (|𝑙𝑖𝑘𝑒𝑦 | − |𝑑𝑖𝑠𝑙𝑖𝑘𝑒𝑦 |)/|𝑃u |. Результаты 1 эффективнее результатов 2 и Если 𝛿𝑐 (𝑖, 𝑦) < ⁡0, то ⁡𝛿𝑐 (𝑖, 𝑦) = 0,0001; результаты 3 эффективнее результатов 4, что 𝑙𝑖𝑘𝑒𝑦 = {𝑖: (𝜌(𝑢, 𝑖) ≤ ⁡ 𝜀0 ) ⁡ ∧ 𝑤𝑈 (𝑖, 𝑦) ⁡ ≠ 0}, подтверждает теоретические выводы о влиянии 𝑑𝑖𝑠𝑙𝑖𝑘𝑒𝑦 = {𝑖: (𝜌(𝑢, 𝑖) > ⁡ 𝜀0 ) ⁡∧ 𝑤𝑈 (𝑖, 𝑦) ⁡ ≠ 0}, свойства неоднородности на эффективность по 𝑃u = {𝑖: (𝜌(𝑢, 𝑖) ≠⁡⊥)}. критерию качества при применении ООК. Разбиение Такое эвристическое предположение верно не для 2 задано так, что свойства неоднородности влияют на всех пользователей, так как их вкусы могут быть эффективность решения, так как между объектами неоднородными. Поэтому для некоторых обучающего и тестового множеств не выполняется пользователей функция 𝛿𝑐 задана аккуратно, а для отношение сходства, в результате чего нарушается некоторых – нет. утверждение ООК (4). Разбиение 2 увеличивает Стандартно при проведении тестирования вероятность того, что утверждение СОК (5) может данные о пользователе случайно разбивались в быть неверным, поэтому результаты 1 и 3 следующем отношении: 80% – обучающее эффективней результатов 2 и 4 Таблицы 2. множество, 20% – тестовое. Обозначим такое Таблица 2 разбиение цифрой 1. Помимо стандартного разбиения использовались и другие специально Модель/ Раз MAE NMA RMSE сформированные разбиения 2 и 3. Разбиение 2 № Правило бие E составлено так, что обучающее множество состоит вычисления ние из таких объектов 𝑖,⁡ для которых выолняется 1 ООК/⁡ΠСОК 1 0.14 0.23 0.19 отношение ℛ𝑖 , тестовое множество состоит из таких 2 ООК/⁡ΠСОК 2 0.16 0.26 0.21 объектов 𝑗, для которых отношение 𝑖⁡ℛ𝑖 ⁡𝑗 не 3 Нечеткая 1 0.08 0.19 0.13 выполняется. Такое разбиение создано для того, контентная чтобы подтвердить или опровергнуть влияние /⁡ΠСОК свойства неоднородности данных на эффективность 4 Нечеткая 2 0.10 0.17 0.18 по критерию качества. Разбиение 3 составлено так контентная же, как и стандартное разбиение, но в нем участвуют /⁡ΠСОК только те пользователи, для которых функция 𝛿𝑐 5 Нечеткая 1 0.14 0.23 0.21 задана аккуратно. контентная/ Эффективность решений задач по критерию ⁡Π𝑓 качества определяется усредненными по числу 6 Нечеткая 2 0.16 0.26 0.22 тестов (равному 1000 для каждой задачи, разбиению контентная/ и модели) значениями функций. Эффективность ⁡Π𝑓 решения задачи 𝑡𝑜𝑝𝑁 по критерию качества 7 Нечеткая 3 0.05 0.04 0.1 оценивалась значениями функций точность (P), контентная/ точность по списку длины L, средняя точность, ⁡Π𝑓 91 Technology. https://www.snet.tu- Результаты 3 и 4 эффективнее результатов 1 и 2, berlin.de/fileadmin/ fg220/courses/SS11/snet- что подтверждает вывод о том, что нечеткая project/ recommender-systems_asanov.pdf контентная модель является эффективным [4] Yao, W., Xudong, L., Min, X., Ester, M., Qing, Y.: расширением, так как в ней выполняются CCCF: Improving Collaborative Filtering via достаточные условия 1 и 2. Эти же результаты Scalable User-Item Co-Clustering. WSDM '16 подтверждают выводы о влиянии меры сходства на Proc. of the Ninth ACM Int. Conf. on Web Search эффективность ООК и СОК по критерию качества. and Data Mining, pp. 73-82 (2016) Результаты 7 эффективнее результатов 3–6, так [5] Hu, R., Pu, P.: Using personality information in как для разбиения 7 функция 𝛿𝑐 задана аккуратно. collaborative filtering for new users. Recommender Результаты 7 эффективнее результатов 5 и 6, так как Systems and the Social Web, pp. 17-24 (2010) для 5 и 6 в общем случае 𝛿𝑐 ⁡не⁡задана⁡аккуратно, и [6] Su, X., Khoshgoftaar, T.: A survey of collaborative поэтому же 5 и 6 не эффективнее 3 и 4. Результаты 5 filtering based social recommender systems. эффективнее 6, так как функция 𝛿𝑐 задавалась на Computer Communications, 41, pp. 1-10 (2014) основании данных обучающего множества, поэтому свойство неоднородности влияет на аккуратность [7] Wang Jun: Unifying user-based and item-based функции так же, как и на эффективность КРС по collaborative filtering approaches by similarity критерию качества. Использование Π𝑓 может быть fusion. SIGIR’06 Proc. of the 29th Annual International ACM, pp. 501-508 (2006) неэффективным, если о пользователях известна только та информация, которая принадлежит [8] Посыпанова, О.: Экономическая психология: исходному множество 𝑃. В такой ситуации психологические аспекты поведения эффективнее использовать нечеткую модель ΠООК потребителей. Калуга: Изд-во Калужского или ΠСОК . Для задания функции 𝛿𝑐 можно государственного университета им. К.Э. Циол- использовать информацию, которая никак не зависит ковского, 296 с. (2012) от мощности и свойств исходных данных, и тогда [9] Castro Sotos, A., Vanhoof, S., Van den решения задач в нечеткой контентной модели не Noortgate, W., Onghena, P.: The non-transitivity of будут зависеть от свойств исходных данных. Такой Pearson's correlation coefficient: an educational информацией может выступать, к примеру, perspective. Proc. of the 56th Session of the ISI, 62, контекстная информация [13]. pp. 4609-4613 (2007) [10] Linden, G., Smith, B., York, J.: Amazon.com 6 Заключение Recommendations Item-to-Item Collaborative Нечеткая контентная модель РС, представленная Filtering. Internet Computing, IEEE, 7, pp. 76-80 в настоящей работе, является эффективным (2003) расширением КРС по критериям качества решений и [11] Амелькин, С.А., Понизовкин, Д.П.: масштабируемости. Математическая модель задачи topN для контентных рекомендательных систем. Изв. Литература МГТУ МАМИ, 2, cс. 26-31 (2013) [1] Resnick, P., Varian, H.R.: Recommender systems. [12] Deshpande, M., Karypis, G.: Item-Based Top-N Communications of the ACM, 40 (2), pp. 56-58 Recommendation Algorithms. ACM Transactions (1997) on Information Systems, 22 (1), pp. 143-177 (2004) [2] Goldberg, D., Nichols, D., Oki, B.M., Terry, D.: [13] Adomavicius, G., Tuzhilin, A.: Context-aware Using collaborative filtering to weave an recommender systems. Conference: Proc. of the information tapestry. Communications of the ACM, 2008 ACM Conference on Recommender Systems, 35 (12), pp. 61-70 (1992) RecSys 2008, Lausanne, Switzerland, October 23– [3] Asanov, D.: Algorithms and Methods in 25, 2008. doi: 10.1007/978-1-4899-7637-6_6 Recommender Systems. Berlin Institute of 92