=Paper=
{{Paper
|id=Vol-2260/60_17-27
|storemode=property
|title=Интеллектуальная информационная система поддержки принятия судебных решений в сфере экономического правосудия
(Intellectual Information Decision Support System in the Field of Economic Justice)
|pdfUrl=https://ceur-ws.org/Vol-2260/60_17-27.pdf
|volume=Vol-2260
|authors=Aleksey Alekseev,Aleksey Katasev,Airat Khassianov,Elena Tutubalina,Denis Zuev
}}
==Интеллектуальная информационная система поддержки принятия судебных решений в сфере экономического правосудия
(Intellectual Information Decision Support System in the Field of Economic Justice)==
Интеллектуальная информационная система поддержки принятия судебных решений в сфере экономического правосудия А.А. Алексеев1, Д.С. Зуев2, А.С. Катасёв1, Е.В. Тутубалина2, А.Ф. Хасьянов2 1 Казанский национальный исследовательский технический университет им А.Н. Туполева – КАИ 2 Казанский (Приволжский) федеральный университет Аннотация. Описана архитектура системы интеллектуального анализа тек- стов в юриспруденции, которая способна помечать важные места, на которые следует обращать внимание при процессуальных действиях с использованием инструментов текстовой аналитики. Создана модель для извлечения из корпуса юридических текстов значимых сущностей и фактов. На корпусе юридических текстов проведено обучение алгоритма автоматического извлечения сущностей на базе рекуррентной нейронной сети. В результате было выявлено, что рекур- рентная нейронная сеть предсказывает сущности, которые не были размечены вручную либо размечены некорректно и требуется проверка разметки. Важной функцией системы является поиск и предоставления аналогичных решений по схожим судебным искам. Для правильного определения категории судебного спора решается задача классификации. Было выявлено более 80 различных ка- тегорий судебных споров, которые встречаются с разной частотой. Процесс классификации с ростом количества обрабатываемых документов может быть очень затратным по времени, поэтому данная функциональность реализуется отдельный микросервис с обменом с другими модулями системы в асинхрон- ном режиме. Отдельным модулем системы представлен сайт – шаблонизатор исковых заявлений, позволяющий корректно формировать типовые исковые за- явления. Разработка системы ведется вместе с практикующими юристами, в ка- честве специалистов из предметной области привлекаются судьи Арбитражного суда Республики Татарстан, преподаватели и обучающиеся юридического фа- культета Казанского федерального университета. Ключевые слова: аналитика и управление данными, интенсивное исполь- зование данных, электронные библиотеки, кластеризация, рекомендательная система. Intellectual information decision support system in the field of economic justice А.А. Alekseev1, А.S. Katasev1, А.F. Khassianov2, Е.V. Tutubalina2, D.S. Zuev2 17 1 Kazan National Research Technical University 2 Kazan Volga Region Federal University Annotation. The architecture of the system for the intellectual analysis of texts in jurisprudence, which is capable of marking important places to which attention should be paid during procedural actions using text analytics tools, is described. To extract meaningful entities and facts from a corpus of legal texts we created a model. An algorithm for automatic extraction of entities based on a recurrent neural network was trained on the corpus of legal texts. As a result, it was revealed that the recurrent neural network predicts entities that were not manually labeled or incorrectly labeled and markup checking is required. An important function of the system is to search for and provide similar solutions for similar lawsuits. For the correct determination of the category of lawsuit, the task of classification of entities is solved. More than 80 dif- ferent categories of lawsuits identified, occurring with varying frequency. The classi- fication process with an increase in the number of processed documents can be very time consuming, so this functionality is implemented by a separate microservice with integration with other modules of the system in asynchronous mode. A separate mod- ule of the system is a website - template of claim statements, which allows to filling correctly typical claims. The development of the system is carried out together with practicing lawyers, as experts from the subject area. Judges of the Arbitration Court of the Republic of Tatarstan, teachers and students of the law faculty of Kazan Feder- al University are also involved. Keywords: data analytics and data management, data intensive domains, digital libraries, recommender system, decision support systems. Как известно, информационное общество характеризуется высоким уров- нем развития информационно-коммуникационных технологий (ИКТ) и их ин- тенсивным использованием всеми и всюду. Развитие облачных технологий поз- волило принципиально изменить подходы к созданию сложных программных систем практически для всех предметных областей. Хотя в области судопроиз- водства в России постоянно повышается уровень использования информацион- ных технологий, но, тем не менее, информационная и производственная нагрузки на судей по-прежнему остаются чрезмерно высокими. Без использо- вания специализированных автоматизированных информационных систем су- щественное повышение эффективности работы судов просто невозможно. Одним из приложений технологий машинного обучения в судопроизвод- стве является создание интеллектуальных систем, способных на имеющейся ба- зе данных судебных документов выявлять общие зависимости, предоставлять судьям для ознакомления близкие по тематике дела, рекомендовать наиболее вероятные исходы или помечать важные места, на которые судебным работни- кам следует обращать внимание при процессуальных действиях. В [1] описаны онтологии и особенности работы с юридическими доку- ментами. Есть успешные реализации подобных информационных систем за ру- бежом. Примером служит система «Case Cruncher Alpha» [2], разрабатываемая в Sidney Sussex College, Cambridge и ориентированная на прогнозирование ре- 18 шения юридических задач в банках, страховых компаниях и юридических кон- сультациях. Основной ее недостаток, как и многих иностранных систем – от- сутствие поддержки русского языка и кириллической транскрипции. Существующие решения, используемые в юридической области, направ- лены либо на автоматизацию документооборота в целом, либо представляют собой широчайшие базы данных тематических документов. Поиск необходи- мой информации не всегда представляется возможным в сжатые сроки, а весь спектр семантических технологий и инструментария текстовой аналитики практически не используется. Увеличение количества дел, рассматриваемых судами, невозможно без качественного изменения эффективности работы судей или существенного увеличения числа сотрудников судебных органов. 2. Цели и задачи создания системы «Робот-юрист» – это информационная система, которая должна позволять участникам юридического процесса правильно проводить подготовку судебных дел и осуществлять планирование судебной деятельности. Цель системы – по- мочь определить характер спора, осуществить поиск и проверку действия пра- вовых норм, регулирующих спорные правоотношения, оказывать содействие в установлении компетентного суда (подсудность, подведомственность), статуса участников спора (действующее, ликвидированное, банкрот), определении кру- га обстоятельств, имеющих значение для рассмотрения спора, характера спор- ного правоотношения, нормы права, подлежащей применению (действует ли данная норма), а также проверять достаточность и комплектность представляе- мых документов. Как отдельные функции запланированы обеспечение возмож- ности оформления искового заявления, а также вычисление (по предоставлен- ным исходным данным на основе архива судебных дел) вероятности принятия того либо иного решения. Проведенные исследования по семантическому структурированию ин- формации в других предметных областях (см., например, [3, 4]), анализ ин- струментов текстовой аналитики (см, например, [5]) и наработки по примене- нию семантических технологий при работе с юридическими документами [1] говорят о принципиальной реализуемости поставленной задачи. Разработка системы ведется вместе с практикующими юристами, в част- ности, в качестве специалистов из предметной области привлекаются судьи Арбитражного суда Республики Татарстан, преподаватели и обучающиеся юридического факультета Казанского федерального университета. Для достижения поставленных целей поставлены следующие задачи. • создание портала для формирования шаблонов исковых заявлений с от- слеживанием их жизненного цикла; • разметка и анализ существующей базы судебных решений, исковых заяв- лений (отбор значимых признаков для определенных категорий судебно- го спора, классификация заявлений и решений, извлечение сущностей и фактов); 19 • подбор аналогичных дел и решений, рекомендательный сервис; • сопоставление исковых заявлений и судебных решений; • распределение судебных дел между судьями с учетом их специализации и текущей загрузки. Фактически каждая из выделенных задач является автономным модулем разрабатываемой информационной системы, а сама система – практической демонстрацией совместного использования ряда семантических технологий и инструментов текстовой аналитики. Текущие парадигмы разработки предусматривают два концептуально раз- личных подхода к дизайну приложений. Первый вариант – «монолитные при- ложения». Это довольно очевидный способ построения информационных си- стем, в которой запросы обрабатываются в рамках единственного процесса, при этом используются возможности конкретного языка программирования для разделения приложения на классы и функции. Подобный подход порождает ряд проблем: любые изменения, даже самые небольшие, требуют перекомпиляции всего дистрибутива информационной системы и последующего обновления всех ее модулей, с течением времени изменения в логике работы одного модуля начинают влиять на функции других модулей, возникают проблемы с масшта- бированием приложения. Другой подход – это построение среды, в которой отдается предпочтение слабым связям, абстрагированию низкоуровневой логики, гибкости, а также возможности многократного использования и обнаружения компонентов [6, 7], сервис-ориентированной архитектуре (Service-Oriented Architecture, SOA). Сер- висы – это программные компоненты, предоставляющие четко определенную функциональность и используемые в составе многих приложений. Каждый сер- вис представляет собой изолированную сущность с минимумом зависимостей от других совместно используемых ресурсов: баз данных, традиционных при- ложений и интерфейсов программирования. Таким образом, возникает возмож- ность изменять отдельные сервисы, не затрагивая при этом всю систему. Разви- тием парадигмы сервис-ориентированной архитектуры можно считать появле- ние архитектуры микросервисов [8]. Термин «Microservice Architecture» полу- чил распространение в последние несколько лет для описания способа проек- тирования приложений в виде набора независимо развертываемых сервисов. С учетом достаточно большого количества модулей системы необходимо было выбрать подход к организации всего приложения и минимизировать зави- симости, связанные с изменениями внутри отдельных модулей. При этом оче- видно, что модули текстовой аналитики со временем будут изменяться, воз- можна реализация различных алгоритмов классификации и аналитики в зави- симости от массива обрабатываемых документов. Для создания «Робота- юриста» нами был выбран архитектурный стиль микросервисов. Архитектура разрабатываемой системы приведена в [9], где выделено несколько групп сер- висов, взаимодействующих между собой с помощью программного интерфейса (API). 20 Ниже представлены основные подсистемы и сервисы разрабатываемой системы. 3. Сервисы системы Разметка документов и извлечение сущностей. Для построения зави- симостей и извлечения сущностей и фактов создан сервис разметки и анализа документов и выделено несколько подзадач: • разметка существующего массива документа для поиска зависимостей и построения модели, списка справочников служебной онтологии; • извлечение сущностей и фактов; • запись в базу данных и отображение массива документов с выделенными сущностями для дальнейшей обработки. Разметка существующего массива документов необходима для дальней- шего обучения сервисов системы. Для реализации этой задачи использовался инструмент для быстрого структурированного аннотирования текстов BRAT [10]. Для разметки документов были привлечены специалисты из предметной области, размечено около 3000 судебных актов с ручным выделением значимых сущностей. Необходимо заметить, что процесс разметки документов весьма за- тратен по времени, хотя и не требует глубокого знания предметной области и вполне по силам студентам старших курсов профильных факультетов. Однако надо понимать, что точность алгоритма извлечения сущностей зависит от коли- чества выборки и качества разметки текстов. На данном корпусе текстов проведено обучение алгоритма автоматиче- ского извлечения сущностей на базе рекуррентной нейронной сети. Общий массив размеченных документов был разделен на обучающую и тестовую вы- борки в соотношении 80% на 20%, что соответствует общей практике решения подобных задач. В результате на текущем шаге было выявлено, что рекуррент- ная нейронная сеть предсказывает сущности, которые не были размечены вруч- ную либо размечены некорректно. Таким образом, были подготовлены данные, требующие дальнейшего уточнения. На данный момент производятся повтор- ная проверка размеченных документов и корректировка для дальнейшего обу- чения сети. Рекомендательный сервис. Этот сервис предназначен для поиска и предоставления аналогичных решений по схожим судебным искам. Существуют два основных типа рекомендательных систем: контент- ориентированные и социальные (коллаборативной фильтрации) (см., например, [11]). Первые основаны на представлении предпочтений пользователей путем анализа содержимого рекомендательных элементов. Системы второго типа мо- делируют предпочтения, оценивая близость профилей пользователей. Ниже под рекомендательным сервисом будем понимать информационную систему, кото- рая: 21 1) формирует модель предметной области на основе массива документов (включая подготовительные операции – приведение к векторному виду, класте- ризацию и т. п.); 2) получает на вход документ и выдает список документов, близких к входному. По сравнению с поисковыми системами рекомендательные системы наиболее полезны, когда у пользователя возникают трудности с формулиров- кой эффективного поискового запроса. Подходы к организации рекомендательных сервисов могут быть разными, в [3] описан подход с использованием онтологий и предпочтений пользовате- лей. Учитывая специфику предметной области и разрабатываемой системы, ис- пользовать предпочтения пользователей не корректно. Алгоритм работы сервиса можно разделить на два этапа: • подготовительный этап – обработка массива документов и обучение мо- дели; • основной этап – получение аналогов входного текста по заданному иден- тификатору документа. На подготовительном этапе обрабатываются все имеющиеся документы: вырезаются знаки пунктуации, термы приводятся к единому виду (для слов с разными окончаниями и суффиксами). Далее документ приводится к векторно- му виду. Для представления массива документов в виде числовых векторов, от- ражающих важность использования каждого слова из некоторого набора слов (количество слов набора определяет размерность вектора), в каждом документе используется мера TF-IDF [5, 11]. На основе массива векторов происходит кла- стеризация. Напомним, что кластеризация [5, 12] – это процесс разбиения мно- жества объектов на группы, которые заранее неизвестны. В результаты члены каждой группы должны быть похожи друг на друга по признакам разбиения и отличаться от членов других групп. Такие группы называются кластерами. На первом шаге необходимо определить количество K кластеров, логич- 𝑁𝑁 ным представляется использовать для этого формулу 𝐾𝐾 = 𝑑𝑑𝑑𝑑𝑑𝑑, где Ndoc – общее 10 количество обрабатываемых документов. Далее производится собственно кла- стерный анализ по методу K-means (метод К-средних, [5, 13]). Полученные ре- зультаты сохраняются для дальнейшего использования. На основном этапе работы на вход сервису подается идентификатор до- кумента. Производится приведение его к векторной форме, которая обрабаты- вается моделью, причисляется к определенному кластеру. На выход алгоритм выдает первые 10 документов из того же кластера, что и входной документ, хо- тя данный параметр является настраиваемым и может быть изменен в настрой- ках сервиса. Процесс переобучения модели следует проводить периодически, напри- мер, раз в сутки, либо после существенного изменения всего корпуса докумен- тов. 22 Сервис реализован на языке Python, взаимодействие с другими модулями системы происходит по внутреннему согласованному протоколу взаимодей- ствия. Классификация судебных дел. Одной из проблем судебного делопроиз- водства является процедура определения категории и характера спора. Пра- вильное определение категории судебного спора важно, поскольку влияет на назначение судьи на соответствующий процесс, а назначаемый судья должен иметь опыт рассмотрения подобных споров, знать и понимать их особенности. На текущий момент выявлено более 80 различных категорий судебных споров, которые встречаются с разной частотой. Процесс классификации с ростом ко- личества обрабатываемых документов может быть очень затратным по време- ни, поэтому с архитектурной точки зрения было решено вынести данную функ- циональность как отдельный микросервис с реализацией обмена с другими мо- дулями системы в асинхронном режиме. К тому же определение категории спо- ра (судебного дела) не является задачей, требующей мгновенного ответа. Для первого этапа реализации системы было принято решение провести анализ судебных документов по четырем категориям: оспаривание решений ан- тимонопольных органов, оспаривание действий судебных приставов, привлече- ние к ответственности за нарушение условий лицензирования, споры о неис- полнении или ненадлежащем исполнении обязательств по договорам поставки. Методы классификации текстовой информации основаны на предположе- нии, что документы, относящиеся к одной категории, содержат одинаковые признаки (слова или словосочетания), и наличие или отсутствие таких призна- ков в документе говорит о его принадлежности или непринадлежности к той или иной теме [14]. Для выявления схожей структуры и одинаковых признаков (терминов) документов одного класса применялся латентно-семантический анализ (ЛСА) [15]. Нами были рассмотрены несколько известных методов классификации и проведены испытания на тестовой выборке: наивный байесовский классифика- тор [14], метод k ближайшего соседа (k-means) [13] и деревья решений [16]. Ре- зультаты работы классификаторов показали наличие ошибок на тестовой вы- борке: классификатор Байеса – 4%, точность классификации 96%; k-means – 2%, точность классификации – 98%; деревьев решений – 2%, точность класси- фикации – 98%, что не является приемлемым результатом в рамках системы разрабатываемой системы, поскольку с увеличением количества рассматривае- мых категорий дел (а их около 100), получаемые ошибки будут накапливаться, и точность работы сервиса в целом будет падать. Для улучшения точности классификации разрабатывается алгоритм на основе искусственной нейронной сети. Алгоритм реализуется на языке R с по- мощью искусственной нейронной сети и имеет следующие параметры: 40 нейронов во входном слое, 1 скрытый слой с 4 нейронами, 4 выходных нейро- на, активационная функция: сигмоида. Алгоритм обработки документа выглядит следующим образом: 23 • на вход подается идентификатор документа; • из документа выделяются ключевые слова и их количество; • проводятся анализ и подбор класса дела; • в качестве результата алгоритм возвращает идентификатор класса су- дебного дела, который становится дополнительным свойством доку- мента. При добавлении нового класса проводятся анализ допустимых ключевых слов и повторное обучение нейронной сети. Создание шаблонов исковых заявлений. Отдельной задачей является сопоставление судебных актов и заявлений по рассмотренным делам, посколь- ку сами исковые заявления, в отличие от базы знаний принятых решений, яв- ляются закрытыми и не публикуются в интернете. Вообще говоря, установле- ние связи искового заявления и судебного решения в общем случае не пред- ставляет сложности и не имеет особого смысла, поскольку они связаны связью один-к-одному, однако в рамках разработки системы «Робот-Юрист» актуаль- ной является задача связывания вновь поданного искового заявления и близких результатов судебных процессов для дальнейшей обработки. В этом случае необходимо иметь заявление в виде, удобном для машинной обработки. Для получения экземпляров исковых заявлений сразу в электронном виде был предложен механизм веб-портала – шаблонизатора заявлений. При подаче пользователем системы искового заявления система формирует печатную вер- сию заявления в соответствии с регламентирующими нормативными докумен- тами РФ, а электронная копия документа автоматически размечается и сохра- няется в базе данных системы с определенным статусом. Далее задействуются внутренние функции системы по классификации и кластеризации. После за- вершения регламентных заданий становится возможным задействовать функ- ции системы для поиска и просмотра близких судебных дел или присваиванию категории судебному спору. Веб-портал предусматривает несколько ролей пользователей с различной функциональностью, также предложена и реализована статусная модель судеб- ного дела для удобства отслеживания жизненного цикла документа в системе. Заключение На данный момент система находится на начальном этапе развития – за- кончено проектирование системы «Робот-Юрист», произведена первоначальная разметка документов. После первых прогонов алгоритма по извлечению сущ- ностей из документов выявлены неточности в разметке, которые сейчас ис- правляются. В рамках решения задачи классификации проведены предварительный анализ судебных документов, отбор значимых признаков для определенных ка- тегорий судебного спора, проведен латентно-семантический анализ для выяв- ления общей структуры типовых документов. На тестовой выборке проверены 24 алгоритмы байесовской классификации, k ближайшего соседа и деревьев реше- ний, разрабатывается модель на основе искусственной нейронной сети. На сле- дующем этапе планируется увеличить выборку исковых арбитражных заявле- ний и рассмотреть большее число типов возможных судебных споров, а также разработать программные модули, выполняющие задачи отбора информатив- ных признаков и классификации. Работа выполнена за счет средств субсидии, выделенной Казанскому фе- деральному университету для выполнения государственного задания в сфере научной деятельности, проект 2.8712.2017/8.9. Литература 1. S. Peroni. SemanticWeb Technologies and Legal Scholarly Publishing Law, Springer, Governance and Technology Series, vol. 15, 2014. doi 10.1007/978- 3-319-04777-5 2. Case Crunch Alfa [Электронный ресурс] Режим доступа: http://www.case- crunch.com, свободный 3. А. М. Елизаров, А. Б. Жижченко, Н. Г. Жильцов, А. В. Кириллович, Е. К. Липачёв. Онтологии математического знания и рекомендательная система для коллекций физико-математических документов //Доклады академии наук. 2016. Т 467, № 4, С. 392–395. doi: 10.1134/S1064562416020174 4. А. М. Елизаров, Е. К. Липачёв, О. А. Невзорова, В. Д. Соловьев. Методы и средства семантического структурирования электронных математиче- ских документов //Доклады академии наук. 2014. Т. 457, № 6, С. 642–645. doi 10.7868/S0869565214240049 5. Г. С. Ингерсолл, Т. С. Мортон, Э. Л. Фэррис. Обработка неструктуриро- ванных текстов. Поиск, организация и манипулирование. / Пер. с англ. Слинкин А. А. – М.: ДМК Пресс, 2015. – 414 с.: ил. 6. N. Gold et al. Understanding Service Oriented Software. IEEE Software, vol. 21, no. 2, 2004, P. 71–77. 7. S. Jones. Toward an Acceptable Definition of Service. IEEE Software, vol. 22, no. 3, 2005, P. 87–93. 8. M. Fowler Microservices a definition of this new architectural term https://martinfowler.com/articles/microservices.html 9. Д. С.Зуев, А. А. Марченко, А. Ф. Хасьянов Применение инструментов интеллектуального анализа текстов в юриспруденции // CEUR Workshop Proceedings. 2017. V. 2022, pp. 214-218. http://ceur-ws.org/Vol- 2022/paper35.pdf 10.P. Stenetorp, S. Pyysalo, G. Topić, T. Ohta, S. Ananiadou and J. Tsujii Brat: a Web-based Tool for NLP-Assisted Text Annotation. In Proceedings of the Demonstrations Session at EACL, 2012. 11.TF-IDF https://ru.wikipedia.org/wiki/TF-IDF 25 12.F. Ricci, L. Rokach, B. Shapira, P.B. Kantor Recommender Systems Hand- book. N.Y.: Springer, 2011. 13.https://ru.wikipedia.org/wiki/K-means 14.А. А. Барсегян, М. С. Куприянов, И. И. Холод, М. Д. Тесс, С. И. Елизаров Анализ данных и процессов: учеб. пособие – 3-е изд., перераб. и доп. – СПб.: БХВ-Петербург, 2009. – 512 с.: ил. + CD-ROM – (Учебная литера- тура для вузов). 15.T.K. Landauer, P.Foltz,D. Laham An Introduction to Latent Semantic Analy- sis. Discours Processes, 25, 1998 — P. 259-284. 16.C. C. Aggarwal. Data Classification: Algorithms and Applications. Text Clas- sification. Chapman & Hall/CRC, 2014, ISBN:1466586745 9781466586741 References 1. S. Peroni. SemanticWeb Technologies and Legal Scholarly Publishing Law, Springer, Governance and Technology Series, vol. 15, 2014. doi 10.1007/978- 3-319-04777-5 2. Case Crunch Alfa [Электронный ресурс] Режим доступа: http://www.case- crunch.com, свободный 3. A. M. Elizarov, A. B. Zhizhchenko, N. G. Zhil'tsov, A. V. Kirillovich, E. K. Lipachev. Ontologii matematicheskogo znaniya i rekomendatel'naya sistema dlya kollektsiy fiziko-matematicheskikh dokumentov //Doklady akad- emii nauk. 2016. T 467, № 4, S. 392–395. doi: 10.1134/S1064562416020174 4. A. M. Elizarov, E. K. Lipachev, O. A. Nevzorova, V. D. Solov'yev. Metody i sredstva semanticheskogo strukturirovaniya elektronnykh matematicheskikh dokumentov //Doklady akademii nauk. 2014. T. 457, № 6, S. 642–645. doi 10.7868/S0869565214240049 5. Grant S. Ingersoll, Thomas S. Morton, Drew Farris. Taming Text: How to Find, Organise, and Manipulate it. /Manning Publications, 2013. 6. N. Gold et al. Understanding Service Oriented Software. IEEE Software, vol. 21, no. 2, 2004, P. 71–77. 7. S. Jones. Toward an Acceptable Definition of Service. IEEE Software, vol. 22, no. 3, 2005, P. 87–93. 8. M. Fowler Microservices a definition of this new architectural term https://martinfowler.com/articles/microservices.html 9. D. S. Zuev, A. A. Marchenko, A. F. Khassianov Text Mining Tools in Legal Documents // CEUR Workshop Proceedings. 2017. V. 2022, pp. 214-218. http://ceur-ws.org/Vol-2022/paper35.pdf 10.P. Stenetorp, S. Pyysalo, G. Topić, T. Ohta, S. Ananiadou and J. Tsujii Brat: a Web-based Tool for NLP-Assisted Text Annotation. In Proceedings of the Demonstrations Session at EACL, 2012. 11.TF-IDF https://ru.wikipedia.org/wiki/TF-IDF 12.F. Ricci, L. Rokach, B. Shapira, P.B. Kantor Recommender Systems Hand- book. N.Y.: Springer, 2011. 26 13.https://ru.wikipedia.org/wiki/K-means 14.14. A. A. Barsegyan, M. S. Kupriyanov, I. I. Kholod, M. D. Tess, S. I. Ye- lizarov Analiz dannykh i protsessov: ucheb. posobiye – 3-ye izd., pererab. i dop. – SPb.: BKHV-Peterburg, 2009. – 512 s.: il. + CD-ROM. 15.T.K. Landauer, P.Foltz,D. Laham An Introduction to Latent Semantic Analy- sis. Discours Processes, 25, 1998 — P. 259-284. 16.C. C. Aggarwal. Data Classification: Algorithms and Applications. Text Clas- sification. Chapman & Hall/CRC, 2014, ISBN:1466586745 9781466586741 27