<?xml version="1.0" encoding="UTF-8"?>
<TEI xml:space="preserve" xmlns="http://www.tei-c.org/ns/1.0" 
xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" 
xsi:schemaLocation="http://www.tei-c.org/ns/1.0 https://raw.githubusercontent.com/kermitt2/grobid/master/grobid-home/schemas/xsd/Grobid.xsd"
 xmlns:xlink="http://www.w3.org/1999/xlink">
	<teiHeader xml:lang="ru">
		<fileDesc>
			<titleStmt>
				<title level="a" type="main">Метод определения подобия информационных единиц по неявным пользовательским предпочтениям в рекомендательных системах поддержки жизнеобеспечения</title>
			</titleStmt>
			<publicationStmt>
				<publisher/>
				<availability status="unknown"><licence/></availability>
			</publicationStmt>
			<sourceDesc>
				<biblStruct>
					<analytic>
						<author>
							<persName><forename type="first">©</forename><forename type="middle">С А</forename><surname>Филиппов</surname></persName>
							<affiliation key="aff0">
								<orgName type="institution">Институт проблем информатики ФИЦ ИУ РАН</orgName>
								<address>
									<settlement>Москва</settlement>
								</address>
							</affiliation>
						</author>
						<author>
							<persName><forename type="first">©</forename><forename type="middle">В Н</forename><surname>Захаров</surname></persName>
							<affiliation key="aff0">
								<orgName type="institution">Институт проблем информатики ФИЦ ИУ РАН</orgName>
								<address>
									<settlement>Москва</settlement>
								</address>
							</affiliation>
						</author>
						<author>
							<persName><forename type="first">©</forename><forename type="middle">С А</forename><surname>Ступников</surname></persName>
							<affiliation key="aff0">
								<orgName type="institution">Институт проблем информатики ФИЦ ИУ РАН</orgName>
								<address>
									<settlement>Москва</settlement>
								</address>
							</affiliation>
						</author>
						<author>
							<persName><forename type="first">©</forename><forename type="middle">Д Ю</forename><surname>Ковалев</surname></persName>
							<affiliation key="aff0">
								<orgName type="institution">Институт проблем информатики ФИЦ ИУ РАН</orgName>
								<address>
									<settlement>Москва</settlement>
								</address>
							</affiliation>
						</author>
						<title level="a" type="main">Метод определения подобия информационных единиц по неявным пользовательским предпочтениям в рекомендательных системах поддержки жизнеобеспечения</title>
					</analytic>
					<monogr>
						<imprint>
							<date/>
						</imprint>
					</monogr>
					<idno type="MD5">88FA7AF29F5CD163233080E6979DADE9</idno>
				</biblStruct>
			</sourceDesc>
		</fileDesc>
		<encodingDesc>
			<appInfo>
				<application version="0.7.2" ident="GROBID" when="2023-03-24T07:19+0000">
					<desc>GROBID - A machine learning software for extracting information from scholarly documents</desc>
					<ref target="https://github.com/kermitt2/grobid"/>
				</application>
			</appInfo>
		</encodingDesc>
		<profileDesc>
			<abstract/>
		</profileDesc>
	</teiHeader>
	<text xml:lang="ru">
		<body>
<div xmlns="http://www.tei-c.org/ns/1.0"><head>Аннотация</head><p>Целью данной работы является описание метода определения подобия информационных единиц посредством анализа данных о пользовательских предпочтениях. Метод является реализацией подхода Item-Item CF (коллаборативная фильтрация на основе подобия информационных единиц), который в свою очередь является одним из наиболее популярных подходов к построению современных рекомендательных систем. Исходными данными для коллаборативной фильтрации (другими словами для выявления пользовательских предпочтений) являются данные о пользовательской активности при просмотре страниц конкретных интернет-ресурсов (информационных единиц). Данные могут собираться как явным (оценки, опросы, рейтинги), так и неявным образом (протоколирование действий пользователей). Предложенный метод позволяет решить проблему холодного старта, т.е. выдачи рекомендаций в период отсутствия подробной информации о посетителе системы поддержки жизнеобеспечения (здесь и далее под такой системой подразумевается интернет-магазин), но при наличии неявных данных о маршрутах других посетителей системы. Метод опробован на реальных данных, полученных с действующего интернет-магазина Thaisoap, где подтвердил возможность своей применимости в рамках поставленной задачи. Работа выполнена при поддержке Министерства образования и науки РФ, уникальный идентификатор проекта RFMEFI60414X0139.   </p></div>
<div xmlns="http://www.tei-c.org/ns/1.0"><head>Введение</head></div><figure xmlns="http://www.tei-c.org/ns/1.0" xml:id="fig_0"><head>Рисунок 1 Рисунок 2</head><label>12</label><figDesc>Ежедневно магазин посещают в среднем около 1 500 посетителей и проводят на нем (в среднем) порядка 11 минут каждый (на каждого посетителя приходится в среднем 28 переходов по ссылкам). Исходные данные охватывают период в один квартал (IV квартал 2015 года), в котором каталог товаров был неизменен. Матрица подобия товаров На основе указанных данных была построена матрица подобия по всему временному периоду. На рисунке 1 представлен фрагмент получившейся матрицы подобия товаров для всех товаров из каталога (значения нормированы). Всего в каталоге на данный момент присутствует 1522 товара. Как видно из рисунка матрица сильно разряжена, так как для многих пар товаров оценка подобия отсутствует (т.е. в течение анализируемого периода времени пользователи не интересовались некоторыми товарами из каталога). В результате обработки матрицы подобия по алгоритму Affinity Propagation (с использованием статистического пакета R) была построена гистограмма расстояний. Результаты работы алгоритма представлены на рисунке 2 в виде кластерной тепловой карты (размерность карты 1522 на 1522). Преобладание одного цвета на карте обусловлено тем фактом, что в тестовой выборке данных для большинства пар товаров не определена оценка подобия (т.е. пользователи не интересовались данными товарами в течение рассматриваемого в тестовой выборке периода времени). Кластерная тепловая карта Всего алгоритм выделил 64 кластера, наиболее крупными из которых являются кластера с номерами 5 (75 объектов), 8 (44 объекта), 10 (30 объектов), 19 (27 объектов) и 55 (31 объект).Качество работы алгоритма можно оценить на примере кластера номер 5, описание которого представлено в таблице 1. В частности, видно, что для референсной информационной единицы (массажное кокосовое масло) в кластер подобия попали товары на основе кокосового масла или косвенно ассоциирующиеся с кремами и маслами для ухода за телом. возложенные на него задачи: формируется рекомендация из информационных единиц (товаров), уместных по отношению к товару, который заинтересовал неизвестного посетителя в данный конкретный момент времени.</figDesc></figure>
<figure xmlns="http://www.tei-c.org/ns/1.0" type="table" xml:id="tab_0"><head>использованием данных», Ершово, 11-14 октября 2016</head><label></label><figDesc></figDesc><table><row><cell>тем или иным объектам на сайтах. Основное В методе User-User CF определяется сходство дополняющие основную покупку). При данном</cell><cell>CF) и контентная фильтрация (content-based filtering, пользовательской активности (в случае компании</cell></row><row><cell>количество информации о пользовательской между пользователями и в качестве рекомендаций подходе явное участие пользователей интернет-</cell><cell>CbF) [3]. Amazon речь идет о миллионах покупателей) резко</cell></row><row><cell>Труды XVIII Международной конференции DAMDID/RCDL'2016 «Аналитика и управление данными в областях с интенсивным статей по данной проблематике и посвящена описанию метода определения подобия информационных единиц по неявным пользовательским предпочтениям, который является вариантом реализации метода Item-Item CF. Данный метод позволяет вырабатывать приемлемые по качеству рекомендации в условиях, когда сведения о пользовательских предпочтениях отсутствуют, минимальны или слабо информативны. Для выявления групп подобных товаров используются методы кластеризации, что позволяет добиться хороших показателей качества и быстродействия в работе алгоритма. 1 Построение рекомендательных систем с использованием методов коллаборативной фильтрации Основная задача рекомендательной интернет-системы -формирование контента, максимально соответствующего ожиданиям, в том числе неявным, конкретного пользователя. Для решения этой задачи в большинстве современных рекомендательных систем используется один из двух базовых подходов: коллаборативная фильтрация (collaborative filtering, альтернатива методу User-User CF, призванная Проблема частого обновления данных о новых (или мало активных) пользователей. вследствие отсутствия данных о предпочтениях качество работы рекомендательной системы Проблема холодного старта существенно снижает обновления данных о пользовательской активности. CF: проблема холодного старта и проблема частого следующих основных проблем подхода User-User был предложен компанией Amazon для решения товаров в каталоге [8]. Первоначально данный метод существенно превышает количество наименований систем для тех магазинов, где число покупателей повысить производительность рекомендательных Метод Item-Item CF исторически появился как различные алгоритмы кластеризации. со схожими характеристиками часто используются модели) [3, 9]. Для выявления групп пользователей байесовские сети доверия, латентные семантические использовании моделей (алгоритмы кластеризации, гибридный подход и подход, основанный на системах наибольшее распространение получили подход (hybrid). В современных коммерческих основанный на модели (model based) и гибридный основанный на соседстве (memory based), активности собирается неявным образом посредством протоколирования его действий. Предметом отслеживания являются переходы пользователей по ссылкам на сайтах, время их пребывания на отдельных страницах, факты покупки товаров и услуг. Необходимо отметить, что, речь идет об огромных массивах данных, которые являются неоднородными и требующими отдельных подходов к интерпретации. В сфере электронной коммерции основным инструментом персонализации контента являются рекомендательные системы, обеспечивающие автоматическую обработку данных о пользовательской активности и выработку рекомендаций на товары и услуги, которые могут быть интересны конкретным пользователям. При реализации рекомендательных систем широко используются методы интеллектуального анализа данных (Data Mining) [2]. Основной задачей, которую авторы данной работы ставили перед собой, является разработка комбинированного подхода к построению рекомендательных систем, обеспечивающего наиболее полное использование всех данных о посетителях интернет-магазинов с целью выработки рекомендаций, наиболее адекватно отражающих их ожидания (пертинентность предложения). Научно практическая новизна работы заключается в идее комбинированного использования методов Item-Item CF и User-User CF, что позволяет минимизировать недостатки каждого из них и добиться более высокого качества работы рекомендательной системы в целом. Данная статья входит в серию пользователю выдается n самых часто покупаемых магазина в формировании рейтинга товаров не товаров k наиболее похожими на него покупателями. требуется. профиля используются три основных подхода: пользователю на основании его поведенческого Для поиска рекомендаций конкретному Для оценки степени схожести пользователей в плане Первым шагом алгоритма является построение их предпочтений могут использоваться различные функции сходства (метрики). матрицы подобия информационных единиц, где и по Наиболее вертикали, и по горизонтали присутствуют все популярными среди них являются: евклидово информационные единицы интернет-магазина. расстояние, косинусная мера, расстояние Хэмминга, Заполнение матрицы происходит по следующему коэффициент корреляции Пирсона, коэффициент правилу: если пользователь последовательно Танимото, Манхэттенское расстояние и некоторые просмотрел два товара, то вес подобия в матрице для другие [4, 6]. Определение рекомендаций методом этих двух товаров увеличивается на 1. User-User CF предполагает построение матрицы активности пользователей, каждая строка которой описывает действия конкретного пользователя применительно к конкретному объекту (категория, товар, услуга) на сайте. Действия пользователей могут обозначаться самыми различными способами. Например, это может быть бинарная информация о посещении или не посещении заданного ресурса данным пользователем, частота (или число) пользований ресурса r пользователем u, стоимость или рейтинг, проставленный пользователем u для ресурса r и т.д. Таким образом, каждая строка матрицы активности представляет собой вектор оценок, соответствующих различным категориям товаров (тематический профиль пользователя). Профиль пользователя характеризует степень его интереса к каждой группе товаров. Для каждой пары «пользователь-объект (товар, услуга, действие)» в матрице активности вычисляется мера близости с использованием выбранной метрики [7]. Для обработки матрицы в целях выявления групп информационных единиц, которые являются близкими по своим оценкам подобия, из всех известных алгоритмов кластеризации в результате проведённого моделирования был выбран современный производительный алгоритм Affinity Propagation. Одним из преимуществ данного алгоритма является отсутствие необходимости предварительной оценки оптимального количества кластеров [11]. Приведённый метод кластеризации был опробован на тестовом массиве данных, предоставленных интернет-магазином Thaisoap. Магазин ориентирован на продажу натуральной тайской косметики и кокосового масла. Каталог товаров магазина содержит более 1 500 наименований товаров, которые разбиты на 180 классов (44 корневых классов, 136 подклассов).</cell><cell>Одним из современных трендов в развитии Интернет является персонализация. Поисковые системы, социальные сети, форумы, новостные ресурсы и Интернет магазины стараются адаптировать внешний вид и содержимое (контент) своих страниц под нужды конкретных пользователей. По результатам исследования компании Evergage (www.evergage.com) в 2015 году персонализацию в реальном времени использовали 44% веб сайтов, 17% мобильных сайтов, 13% веб-приложений и 9% мобильных приложений [1]. При этом 78% тех, кто не использует персонализацию сейчас, утверждают, что планируют начать в течение посетителей, улучшение пользовательского опыта и повышение конверсии считаются самыми важными результатами ее применения. Предоставление персонализированного контента пользователям позволяет существенно повысить эффективность сайтов, которая выражается в терминологии маркетинга таким показателем как конверсия (число посетителей, совершивших полезные действия к общему числу посетителей выраженное в процентах). Для качественной персонализации сайтов, ориентированных на работу с большой аудиторией пользователей, как правило, используется комплексный подход, сочетающий маркетинговые исследования и анализ поведения конкретных посетителей сайтов. Информацию о маркетинговых качествах посетителей можно получить, в том числе используя системы веб-аналитики, такие как Adobe Digital Marketing Suite или Google Analytics и Siteapps.com. Исходными данными для анализа поведения пользователей являются сведения об их активности, которые могут собираться явным или неявным образом. Явным образом получают результаты голосований и опросов, а также оценки, которые пользователи дают Наибольшее распространение в электронной коммерции рекомендательные системы, следующие варианты реализации  коллаборативная фильтрация Filtering, User-User CF);  коллаборативная фильтрация анализа взаимосвязей между объектами (Item-Item Collaborative Filtering, Item-Item CF); Основными проблемами, связанными с реализацией и практическим использованием алгоритмов коллаборативной фильтрации, являются разреженность данных, проблема холодного старта и масштабируемость. Дополнительно к перечисленным проблемам можно отметить проблему ограничения разнообразия предложений. Рекомендательные системы, использующие коллаборативную фильтрацию, склонны предлагать товары уже пользующиеся популярностью, что создает проблемы для продвижения новых товаров и услуг [5]. «С этим товаром покупают» (аксессуары, объектов, список «Новинки», а также матрицу классификаторы с учётом цены и параметров предлагается использовать обычные несколько товаров. При отсутствии данных пользователей, последовательно просматривающих информационных единиц на основе данных и последующая группировка (кластеризация) метод, в основе которого лежит расчёт близости пар пользователей авторами предлагается использовать недостаточности знаний о пристрастиях рекомендации с уместной информацией в условиях В целях решения задачи формирования пользовательским предпочтениям информационных единиц по неявным посредством 2 Определение подобия (кластеров) схожими интересами (User-User Collaborative которую откликнется пользователь. анализа предпочтений групп пользователей со рекомендацию (информационное предложение), на посредством встает задача, как в таких условиях сделать коллаборативной фильтрации, а также их гибриды: уходят, чтобы больше никогда не вернуться). И метода товарных каталогов, делают нужную им покупку и использующие единиц (покупатели приходят из поисковых систем и получили пользователей определять рейтинг информационных сфере силу отсутствия возможности мотивировать следующих 12 месяцев. Увеличение вовлеченности снижает производительность рекомендательной Метод контентной фильтрации фокусируется на системы в целом. выявлении объектов со схожими характеристиками по отношению к тем объектам, которые уже заинтересовали пользователя. При этом учитывается модель поведения пользователя и характеристики (контент) заинтересовавших его объектов. При выработке рекомендаций выявляются объекты со схожими характеристиками (контентом). Для эффективной работы метода контентной фильтрации, как правило, необходимо подробное описание характеристик объектов (так в проекте Music Genome Project музыкальный аналитик оценивает каждую композицию по сотням различных музыкальных характеристик), а также сведения о конкретном пользователе (например, ответы на конкретные вопросы в анкете). В основе метода коллаборативной фильтрации лежит предположении о консервативности пользовательских предпочтений (т.е. пользователи, одинаково оценивающие определенные объекты, скорее всего аналогичным образом будут оценивать и новые объекты со сходными характеристиками) [4]. По существу, рекомендации базируются на автоматическом сотрудничестве множества пользователей и на выделении (методом фильтрации) тех пользователей, которые демонстрируют схожие предпочтения или шаблоны поведения. Таким образом, метод коллаборативной фильтрации вырабатывает рекомендации, рекомендациями по рейтингам, слабо применим в схожими характеристиками. интернет-магазинов подход, связанный с пользователя и с учетом поведения пользователей со Item2Vec [10]. Тем не менее для большинства основанные на модели предшествующего поведения Основная идея метода Item-Item CF заключается в группировке информационных единиц (товары, услуги, действия) имеющих сходные оценки пользователей (рейтинги). Рекомендации вырабатываются по следующему принципу: пользователю оценившему объект X высоко будет предложен объект Y, который высоко оценили другие пользователи, также высоко оценившие и методов решения задачи Item-Item CF является метод объект X. Использование метода Item-Item CF позволяет повысить качество рекомендаций для новых пользователей (нет критической зависимости от данных о пользовательских предпочтениях), а также значительно повышает производительность рекомендательной системы в случае, когда количество пользователей существенно превышает количество объектов (характеристики объектов меняются реже). При этом качество рекомендаций в среднем выше, чем в случае использования подхода, основанного на анализе пользовательских профилей. Для вычисления попарной близости информационных единиц могут использоваться те же метрики, что и в случае с парами «пользователь-объект» (часто используется косинусная или модифицированная косинусная меры). Для поиска рекомендаций на основании матрицы объектов часто используются весовые функции и методы регрессионного анализа. Одним из перспективных</cell></row></table></figure>
<figure xmlns="http://www.tei-c.org/ns/1.0" type="table" xml:id="tab_1"><head></head><label></label><figDesc>Таким образом описанный метод класса Item-Item CF вполне применим для новых (или малоактивных) пользователей. При этом по мере накопления данных о предпочтениях пользователей рекомендуются отдавать большее предпочтение методам класса User-User CF, которые дают тем более точные предсказания чем более подробны данные о пользовательской активности.</figDesc><table><row><cell cols="6">Таблица 1 Детализация кластера номер 5</cell><cell>кластеризации Affinity Propagation. Метод проверен</cell></row><row><cell cols="2">Кла-стер</cell><cell cols="3">Референсная информационная единица</cell><cell>Примеры товаров из кластера</cell><cell>на данных интернет-магазина Thaisoap и показал по результатам высокий уровень уместности информации в формируемой рекомендации.</cell></row><row><cell cols="2">ID: 5</cell><cell>ID: 76.</cell><cell></cell><cell></cell><cell>ID: 43.</cell></row><row><cell cols="2">Size:</cell><cell cols="3">Нерафинированное</cell><cell>Кокосовое масло</cell></row><row><cell>75</cell><cell></cell><cell cols="2">100% массажное</cell><cell></cell><cell>Tropicana</cell></row><row><cell></cell><cell></cell><cell cols="2">кокосовое масло</cell><cell></cell><cell>1 литр,</cell></row><row><cell></cell><cell></cell><cell cols="2">"Citronella"</cell><cell></cell><cell>нерафинированное</cell></row><row><cell></cell><cell></cell><cell cols="3">Tropicana, 100 мл.</cell><cell>ID: 51.</cell></row><row><cell></cell><cell></cell><cell></cell><cell></cell><cell></cell><cell>Кокосовое масло</cell></row><row><cell></cell><cell></cell><cell></cell><cell></cell><cell></cell><cell>нерафинированное</cell></row><row><cell></cell><cell></cell><cell></cell><cell></cell><cell></cell><cell>Tropicana в</cell></row><row><cell></cell><cell></cell><cell></cell><cell></cell><cell></cell><cell>аптекарском</cell></row><row><cell></cell><cell></cell><cell></cell><cell></cell><cell></cell><cell>флаконе,</cell></row><row><cell></cell><cell></cell><cell></cell><cell></cell><cell></cell><cell>90 мл.</cell></row><row><cell></cell><cell></cell><cell></cell><cell></cell><cell></cell><cell>ID: 466.</cell></row><row><cell></cell><cell></cell><cell></cell><cell></cell><cell></cell><cell>Восстанавливающий</cell></row><row><cell></cell><cell></cell><cell></cell><cell></cell><cell></cell><cell>кокосовый</cell></row><row><cell></cell><cell></cell><cell></cell><cell></cell><cell></cell><cell>ЛОСЬОН для тела</cell></row><row><cell></cell><cell></cell><cell></cell><cell></cell><cell></cell><cell>Tropicana "Sweet</cell></row><row><cell></cell><cell></cell><cell></cell><cell></cell><cell></cell><cell>Coconut" (без</cell></row><row><cell></cell><cell></cell><cell></cell><cell></cell><cell></cell><cell>парабенов),</cell></row><row><cell></cell><cell></cell><cell></cell><cell></cell><cell></cell><cell>200 мл.</cell></row><row><cell></cell><cell></cell><cell></cell><cell></cell><cell></cell><cell>ID: 624.</cell></row><row><cell></cell><cell></cell><cell></cell><cell></cell><cell></cell><cell>Маска-эксфолиант</cell></row><row><cell></cell><cell></cell><cell></cell><cell></cell><cell></cell><cell>для лица "Морской</cell></row><row><cell></cell><cell></cell><cell></cell><cell></cell><cell></cell><cell>коллаген" Artiscent,</cell></row><row><cell></cell><cell></cell><cell></cell><cell></cell><cell></cell><cell>100 мл.</cell></row><row><cell></cell><cell></cell><cell></cell><cell></cell><cell></cell><cell>ID: 1234.</cell></row><row><cell></cell><cell></cell><cell></cell><cell></cell><cell></cell><cell>Мини-набор</cell></row><row><cell></cell><cell></cell><cell></cell><cell></cell><cell></cell><cell>Шампунь и</cell></row><row><cell></cell><cell></cell><cell></cell><cell></cell><cell></cell><cell>Кондиционер для</cell></row><row><cell></cell><cell></cell><cell></cell><cell></cell><cell></cell><cell>волос "Золотой</cell></row><row><cell></cell><cell></cell><cell></cell><cell></cell><cell></cell><cell>шелк с экстрактом</cell></row><row><cell></cell><cell></cell><cell></cell><cell></cell><cell></cell><cell>шелковицы"</cell></row><row><cell cols="3">Заключение</cell><cell></cell><cell></cell></row><row><cell cols="6">Персонализация контента интернет-ресурсов на</cell></row><row><cell cols="6">сегодня является одним из активно развивающихся</cell></row><row><cell cols="3">направлений</cell><cell cols="3">ИТ-индустрии.</cell><cell>Важнейшими</cell></row><row><cell cols="6">результатами ее применения являются увеличение</cell></row><row><cell cols="3">вовлеченности</cell><cell cols="3">посетителей,</cell><cell>улучшение</cell></row><row><cell cols="6">пользовательского опыта и повышение конверсии.</cell></row><row><cell cols="6">Персонализация контента в сфере электронной</cell></row><row><cell cols="6">коммерции выражается в адресном предложении</cell></row><row><cell cols="6">товаров, а также услуг конкретным пользователям и</cell></row><row><cell cols="6">реализуется посредством рекомендательных систем.</cell></row><row><cell cols="3">Современные</cell><cell cols="3">рекомендательные</cell><cell>системы</cell></row><row><cell cols="6">обеспечивают обработку огромных массивов данных</cell></row><row><cell>о</cell><cell cols="3">пользовательской</cell><cell cols="2">активности</cell><cell>с</cell><cell>целью</cell></row><row><cell cols="6">формирования предсказаний для конкретных</cell></row><row><cell cols="6">пользователей в момент запроса.</cell></row><row><cell cols="6">В данной работе изложен метод определения</cell></row><row><cell cols="6">подобия информационных единиц по неявным</cell></row><row><cell cols="3">пользовательским</cell><cell></cell><cell cols="2">предпочтениям</cell><cell>в</cell></row><row><cell cols="4">рекомендательных</cell><cell cols="2">системах</cell><cell>поддержки</cell></row><row><cell cols="6">жизнеобеспечения на основе упрощенной метрики</cell></row><row><cell cols="6">близости пар информационных единиц по алгоритму</cell></row></table></figure>
		</body>
		<back>
			<div type="annex">
<div xmlns="http://www.tei-c.org/ns/1.0"><head>Determination of similarity of information items based on implicit user preferences in life-support recommender systems</head><p>Stanislav A. Philippov, Victor N. Zakharov, Sergey A. Stupnikov, Dmitriy Yu. Kovalev The purpose of this paper is to describe the method for determining the similarity of the information items through the analysis of user preference data. The method is an implementation approach known as Item-Item CF (collaborative filtering based on the similarity of the information items), which in turn is one of the most popular approaches to the construction of modern recommender systems. Initial data for collaborative filtering are the data about users' activity when they are browsing web resources. Data can be collected as explicit (evaluations, surveys, ratings) and implicit (logging of users' actions). The proposed method solves the problem of cold start using implicit data about the routes of other users. The method was tested on real data from existing online store Thaisoap, which confirmed the possibility of its applicability in the framework of the task. A unique identifier of the project supported by the Ministry of education and science of the RF is RFMEFI60414X0139.</p></div>			</div>
			<div type="references">

				<listBibl>

<biblStruct xml:id="b0">
	<monogr>
		<ptr target="http://lpgenerator.ru/blog/2016/03/19/pochemu-personalizaciya-kontenta-eto-eshe-ne-veb-personalizaciya/" />
		<title level="m">Почему персонализация контента это еще не вебперсонализация // Статья в сети Интернет</title>
				<imprint/>
	</monogr>
</biblStruct>

<biblStruct xml:id="b1">
	<analytic>
		<author>
			<persName><forename type="first">С</forename><forename type="middle">А</forename><surname>Филиппов</surname></persName>
		</author>
		<author>
			<persName><forename type="first">В</forename><forename type="middle">Н</forename><surname>Захаров</surname></persName>
		</author>
		<author>
			<persName><forename type="first">С</forename><forename type="middle">А</forename><surname>Ступников</surname></persName>
		</author>
		<author>
			<persName><forename type="first">Д</forename></persName>
		</author>
	</analytic>
	<monogr>
		<title level="m">Ковалев Подходы к повышению пертинентности информационного предложения в медиасервисах на основе обработки больших объемов данных // ХVII международная конференция «Аналитика и управление данными в областях с интенсивным использованием данных» DAMDID/RCDL&apos;2015</title>
				<meeting><address><addrLine>Обнинск</addrLine></address></meeting>
		<imprint>
			<date type="published" when="2015">2015</date>
			<biblScope unit="volume">13</biblScope>
			<biblScope unit="page" from="224" to="228" />
		</imprint>
	</monogr>
</biblStruct>

<biblStruct xml:id="b2">
	<monogr>
		<author>
			<persName><forename type="first">М</forename></persName>
		</author>
		<ptr target="http://www.ibm.com/developerworks/ru/library/os-recommender1/" />
		<title level="m">Тим Джонс Рекомендательные системы: Часть 1. Введение в подходы и алгоритмы // Статья в сети Интернет</title>
				<imprint>
			<date type="published" when="2013">2013</date>
		</imprint>
	</monogr>
</biblStruct>

<biblStruct xml:id="b3">
	<analytic>
		<title level="a" type="main">Khoshgoftaar A survey of collaborative filtering techniques</title>
		<author>
			<persName><forename type="first">Xiaoyuan</forename><surname>Su</surname></persName>
		</author>
		<author>
			<persName><forename type="first">M</forename><surname>Taghi</surname></persName>
		</author>
	</analytic>
	<monogr>
		<title level="j">Advances in Artificial Intelligence</title>
		<imprint>
			<biblScope unit="volume">2009</biblScope>
			<date type="published" when="2009">2009. 19p</date>
		</imprint>
	</monogr>
	<note>Article ID 421425</note>
</biblStruct>

<biblStruct xml:id="b4">
	<analytic>
		<title level="a" type="main">Blockbuster Culture&apos;s Next Rise or Fall: The Impact of Recommender Systems on Sales Diversity</title>
		<author>
			<persName><forename type="first">D</forename><surname>Fleder</surname></persName>
		</author>
		<author>
			<persName><forename type="first">K</forename><surname>Hosanagar</surname></persName>
		</author>
	</analytic>
	<monogr>
		<title level="j">/ Management Science</title>
		<imprint>
			<biblScope unit="volume">55</biblScope>
			<biblScope unit="issue">5</biblScope>
			<biblScope unit="page" from="697" to="712" />
			<date type="published" when="2009-05">May 2009</date>
		</imprint>
	</monogr>
</biblStruct>

<biblStruct xml:id="b5">
	<monogr>
		<author>
			<persName><forename type="first">В</forename><forename type="middle">А</forename></persName>
		</author>
		<title level="m">Лексин Технология персонализации на основе выявления тематических профилей пользователей и ресурсов Интернет // ВКР Магистра, Вычислительный Центр им</title>
				<imprint>
			<publisher>Дородницина РАН</publisher>
			<date type="published" when="2007">2007</date>
		</imprint>
	</monogr>
</biblStruct>

<biblStruct xml:id="b6">
	<monogr>
		<author>
			<persName><forename type="first">Е</forename><forename type="middle">А</forename><surname>Брейкин</surname></persName>
		</author>
		<idno>-№13</idno>
		<title level="m">Рекомендательная система на основе коллаборативной фильтрации // Молодой ученый</title>
				<imprint>
			<date type="published" when="2015">2015</date>
			<biblScope unit="page" from="31" to="33" />
		</imprint>
	</monogr>
</biblStruct>

<biblStruct xml:id="b7">
	<monogr>
		<author>
			<persName><forename type="first">Greg</forename><surname>Linden</surname></persName>
		</author>
		<author>
			<persName><forename type="first">Brent</forename><surname>Smith</surname></persName>
		</author>
		<author>
			<persName><forename type="first">Jeremy</forename><surname>York Amazon</surname></persName>
		</author>
		<title level="m">com recommendations: Item-to-Item Collaborative Filtering // Industry Report</title>
				<imprint>
			<publisher>IEEE INTERNET COMPUTING</publisher>
			<date type="published" when="2003">2003</date>
		</imprint>
	</monogr>
</biblStruct>

<biblStruct xml:id="b8">
	<monogr>
		<author>
			<persName><forename type="first">А</forename><forename type="middle">А</forename><surname>Барсегян</surname></persName>
		</author>
		<author>
			<persName><forename type="first">М</forename><forename type="middle">С</forename><surname>Куприянов</surname></persName>
		</author>
		<author>
			<persName><forename type="first">В</forename><forename type="middle">В</forename><surname>Степаненко</surname></persName>
		</author>
		<author>
			<persName><forename type="first">И</forename><surname>Холод</surname></persName>
		</author>
		<title level="m">Методы и модели анализа данных: OLAP и Data Mining // СПб</title>
				<imprint>
			<publisher>БХВ-Петербург</publisher>
			<date type="published" when="2004">2004</date>
			<biblScope unit="page">336</biblScope>
		</imprint>
	</monogr>
</biblStruct>

<biblStruct xml:id="b9">
	<monogr>
		<author>
			<persName><forename type="first">O</forename><surname>Barkan</surname></persName>
		</author>
		<author>
			<persName><forename type="first">N</forename><surname>Koenigstein</surname></persName>
		</author>
		<idno type="arXiv">arXiv:1603.04259</idno>
		<title level="m">Item2Vec: Neural Item Embedding for Collaborative Filtering</title>
				<imprint>
			<date type="published" when="2016-03">Mar 2016</date>
		</imprint>
	</monogr>
	<note type="report_type">arXiv preprint</note>
</biblStruct>

<biblStruct xml:id="b10">
	<analytic>
		<title level="a" type="main">Delbert Dueck Clustering by passing messages between data points</title>
		<author>
			<persName><forename type="first">Brendan</forename><forename type="middle">J</forename><surname>Frey</surname></persName>
		</author>
		<idno type="DOI">10.1126/science.1136800</idno>
	</analytic>
	<monogr>
		<title level="j">Science</title>
		<imprint>
			<biblScope unit="volume">16</biblScope>
			<biblScope unit="page" from="972" to="976" />
			<date type="published" when="2007-02">Feb 2007</date>
		</imprint>
	</monogr>
</biblStruct>

				</listBibl>
			</div>
		</back>
	</text>
</TEI>
