=Paper=
{{Paper
|id=Vol-2022/paper35
|storemode=property
|title=
Применение инструментов интеллектуального анализа текстов в юриспруденции
(Text Mining Tools in Legal Documents)
|pdfUrl=https://ceur-ws.org/Vol-2022/paper35.pdf
|volume=Vol-2022
|authors=Denis Zuev,Anton Marchenko,Airat Khasianov
|dblpUrl=https://dblp.org/rec/conf/rcdl/ZuevMK17
}}
==
Применение инструментов интеллектуального анализа текстов в юриспруденции
(Text Mining Tools in Legal Documents)
==
Применение инструментов интеллектуального анализа
текстов в юриспруденции
© Д.С. Зуев ©А.А. Марченко ©А.Ф. Хасьянов
Казанский (Приволжский) федеральный университет,
Казань, Россия
dzuev11@gmail.com anton.marchenko@kpfu.ru ak@it.kfu.ru
Аннотация. Описана архитектура системы интеллектуального анализа текстов в юриспруден-
ции, способной на имеющейся базе данных судебных документов выявлять общие зависимости,
предоставлять для ознакомления юридические дела, близкие по тематике, рекомендовать наиболее
вероятные исходы судебного рассмотрения или помечать важные места, на которые следует обра-
щать внимание при процессуальных действиях с использованием инструментов текстовой аналити-
ки.
Ключевые слова: аналитика и управление данными, интенсивное использование данных,
электронные библиотеки, кластеризация, рекомендательная система, микросервисная архитектура.
Text Mining Tools in Legal Documents
© D.S. Zuev ©A.A. Marchenko ©A.F. Khasiannov
Volga Region Federal University,
Kazan, Russia
dzuev11@gmail.com anton.marchenko@kpfu.ru ak@it.kfu.ru
Abstract. We present the architecture of the system for the intellectual textual analysis in jurispru-
dence based on microservices. The system can identify common dependencies on an existing database of
legal documents, provide legal cases close to each other, familiarize them with the most probable outcomes
of judicial review or mark out important places during procedural actions.
Keywords: analytics and data management, data intensive domains, digital libraries, clustering, rec-
ommender system, microservices.
1 Введение сроки формировать подборку связанных докумен-
тов, не тратя для вынесения вердикта лишнего вре-
Как известно, информационное общество харак- мени на поиск во всем архиве документов.
теризуется высоким уровнем развития информаци-
Проведенные исследования по семантическому
онно-коммуникационных технологий (ИКТ) и их
структурированию информации в других предмет-
интенсивным использованием всеми и всюду. В
ных областях (см., например, [1, 2]), анализ инстру-
основе ИКТ лежит информация, а сами они во мно-
ментов текстовой аналитики (см, например, [3]) и
гом определяют содержание, масштабы и темпы
наработки по применению семантических техноло-
развития других технологий.
гий при работе с юридическими документами [4]
Интересным направлением разработки специа- говорят о реализуемости поставленной задачи.
лизированных автоматизированных информацион-
ных систем является создание интеллектуальных 2 Интеллектуальная система «Робот-
систем, способных на имеющейся базе данных су- юрист»
дебных документов выявлять общие зависимости,
предоставлять судьям для ознакомления близкие по 2.1 Цели и задачи
тематике дела, рекомендовать наиболее вероятные «Робот-юрист» – это информационная система,
исходы или помечать важные места, на которые которая должна позволять участникам юридическо-
судебным работникам следует обращать внимание го процесса правильно проводить подготовку дела, а
при процессуальных действиях. Подобная система, также осуществлять планирование судебной дея-
на наш взгляд, поможет участникам судебного про- тельности. Эта система ориентирована на арбит-
цесса точнее оценивать свои позиции или выбирать ражные суды, занимающиеся рассмотрением споров
лучшую стратегию поведения, а судьям – в сжатые в сфере предпринимательства. В целом наш проект
направлен на развитие российского правового госу-
Труды XIX Международной конференции «Ана- дарства, обеспечение доступности, открытости и
литика и управление данными в областях с ин- прозрачности правосудия, формирование у граждан
тенсивным использованием данных» (DAMDID/
RCDL’2017), Москва, Россия, 10–13 октября 2017
года
214
Рисунок 1 Архитектура системы
правосознания, основанного на верховенстве Права. ют два концептуально различных подхода к дизайну
Задача системы – помочь определить характер приложений. Первый вариант – «монолитные при-
спора, осуществить поиск и проверку действия пра- ложения», когда вся логика по обработке запросов
вовых норм, регулирующих спорные правоотноше- выполняется в рамках единственного процесса, при
ния, оказывать содействие в установлении компе- этом используются возможности конкретного языка
тентного суда (подсудность, подведомственность), программирования для разделения приложения на
статуса участников спора (действующее, ликвиди- классы и функции. Однако любые изменения, даже
рованное, банкрот), определении круга обстоятель- самые небольшие, требуют перекомпиляции всего
ств, имеющих значение для рассмотрения спора, дистрибутива информационной системы и после-
характера спорного правоотношения, нормы права, дующего обновления всех ее модулей. С течением
подлежащей применению (действует ли данная времени изменения в логике работы одного модуля
норма), а также проверять достаточность и ком- начинают влиять на функции других модулей.
плектность представляемых документов. Отдель- Другой подход – это построение среды, в кото-
ными функциями планируются обеспечение воз- рой отдается предпочтение слабым связям, абстра-
можности оформления искового заявления, а также гированию низкоуровневой логики, гибкости, а
вычисление (по предоставленным исходным дан- также возможности многократного использования и
ным на основе архива судебных дел) вероятности обнаружения компонентов [5, 6], сервис-
принятия того либо иного решения. ориентированная архитектура (Service-Oriented Ar-
Для достижения поставленных целей были по- chitecture, SOA). Такая архитектура строится на сер-
ставлены следующие задачи: создание портала для висах, а не на приложениях. Сервисы – это дискрет-
формирования шаблонов исковых заявлений с от- ные программные компоненты, предоставляющие
слеживанием их жизненного цикла; разметка и ана- четко определенную функциональность и использу-
лиз существующей базы судебных решений, иско- емые в составе многих приложений. Каждый сервис
вых заявлений (классификация заявлений и реше- представляет собой изолированную сущность с ми-
ний, извлечение сущностей и фактов); подбор ана- нимумом зависимостей от других совместно ис-
логичных дел и решений, рекомендательный сервис; пользуемых ресурсов. Таким образом, возникает
сопоставление исковых заявлений и судебных ре- возможность изменять отдельные сервисы, не затра-
шений; распределение судебных дел между судьями гивая при этом всю систему. Дальнейшим развити-
с учетом их специализации и текущей загрузки и ем парадигмы сервис-ориентированной архитекту-
прогнозирование вероятного решения по предостав- ры можно считать появление архитектуры микро-
ленным исходным данным. сервисов [7]. Термин «Microservice Architecture»
получил распространение в последние несколько
Каждая из выделенных задач является автоном-
лет для описания способа проектирования приложе-
ным модулем разрабатываемой информационной
ний в виде набора независимо развертываемых сер-
системы, а сама система – практическая демонстра-
висов.
ция совместного использования ряда семантических
технологий и инструментов текстовой аналитики. Архитектурный стиль микросервисов – это под-
ход, при котором единое приложение строится как
2.2 Архитектура системы набор небольших сервисов, каждый из которых ра-
Текущие парадигмы разработки предусматрива- ботает в рамках собственного процесса и взаимо-
215
действует с остальными. Сервисы построены вокруг Для первоначальной разметки были выделены
бизнес-потребностей и развертываются независимо основные сущности, такие, как «Истец», «Ответ-
с использованием полностью автоматизированной чик», «Предмет спора», «Действующие нормы». На
среды. Централизованное управление минимизиро- текущий момент времени определено 56 сущностей,
вано, а сами сервисы могут быть написаны на раз- которые необходимо выделять внутри судебных
ных языках программирования и использовать раз- решений для дальнейшей обработки. Множество
ные технологии хранения данных. Более того, внут- выделенных сущностей будет уточняться по мере
ри каждого микросервиса вполне может быть задей- увеличения объема размеченного текста. На сего-
ствована собственная база данных (см. [7]). дняшний день проведена всего лишь первая итера-
С учетом достаточно большого количества мо- ция данного процесса.
дулей системы наиболее логичным путем для со- 2.4 Рекомендательный сервис
здания «Робота-юриста» стало применение архитек-
туры микросервисов. Одной из важнейших задач формируемой ин-
формационной системы являются поиск и предо-
Архитектура системы приведена на Рис. 1. Нами
ставление аналогичных решений по схожим судеб-
выделено несколько групп сервисов, взаимодей-
ным искам. Таким образом, необходим сервис поис-
ствующих между собой с помощью программного
ка аналогичных документов, или рекомендательный
интерфейса (API). Каждый из них реализует одну из
сервис.
соответствующих функциональных задач. На схеме
выделены серверная и клиентская часть веб-портала Существуют два основных типа рекомендатель-
системы, а также слой доступа к данным – база дан- ных систем: контент-ориентированные и социаль-
ных судебных дел и решений, нормативно- ные (коллаборативной фильтрации) (см., например,
справочная информация. В виде отдельного модуля [9]). Первые основаны на представлении предпочте-
разрабатывается экспертная система, в автоматиче- ний пользователей путем анализа содержимого ре-
ском режиме оказывающая консультации по юри- комендательных элементов. Системы второго типа
дическим вопросам в формате взаимодействия с моделируют предпочтения, оценивая близость про-
виртуальным собеседником – Telegram-Ботом. филей пользователей. Ниже под рекомендательным
сервисом будем понимать информационную систе-
2.3 Разметка массива документов му, которая: 1) формирует модель предметной обла-
Разметка существующего массива документов сти на основе массива документов (включая подго-
необходима для дальнейшего обучения сервисов товительные операции – приведение к векторному
системы. Для реализации этой задачи использовался виду, кластеризацию и т. п.); 2) получает на вход
инструмент для быстрого структурированного ан- документ и выдает список документов, близких к
нотирования текстов BRAT [8]. BRAT – это веб- входному.
система с открытым исходным кодом, разработан- По сравнению с поисковыми системами реко-
ная группой разработчиков в университетах Токио и мендательные системы наиболее полезны, когда у
Манчестера. Результаты разметки получаются в пользователя возникают трудности с формулиров-
виде, удобном для дальнейшей машинной про- кой эффективного поискового запроса.
граммной обработки.
Подходы к организации рекомендательных сер-
Судебные решения и дела открыты и доступны висов могут быть разными, в [1] описан подход с
для просмотра в интернете и представляют собой использованием онтологий и предпочтений пользо-
массив неразмеченных документов, в котором ори- вателей. Учитывая специфику предметной области
ентироваться непросто. Важна собственно разметка и разрабатываемой системы, использовать предпо-
текстов судебных дел для выделения классов и под- чтения пользователей не корректно.
классов сущностей, их зависимостей с целью даль-
Алгоритм работы сервиса можно разделить на
нейшего построения модели машинного обучения.
два этапа. На подготовительном этапе обрабатыва-
На текущий момент времени, в рамках создания ются все имеющиеся документы: вырезаются знаки
прототипа системы, принято решение о первона- пунктуации, термы приводятся к единому виду (для
чальной разметке сравнительно небольшого количе- слов с разными окончаниями и суффиксами). Далее
ства документов (около 3000). Важно отметить, что документ приводится к векторному виду. Для пред-
самих типов споров, значит, и классов связанных ставления массива документов в виде числовых век-
документов может быть достаточно много. С целью торов, отражающих важность использования каждо-
упрощения работы на начальном этапе мы обраба- го слова из некоторого набора слов (количество
тывали судебные дела, относящиеся только к не- слов набора определяет размерность вектора), в
скольким категориям судебных споров. каждом документе используется мера TF-IDF [3,
Размеченный текст будет использоваться для 10]. На основе массива векторов происходит класте-
обучения подсистемы поиска аналогов и прогнози- ризация.
рования вердикта по делу. В качестве результата На первом шаге необходимо определить количе-
работы получаем размеченный текст, который запи- ство K кластеров, мы использовали для этого фор-
сывается в БД судебных дел для дальнейшей обра- мулу 𝐾𝐾 = 𝑁𝑁𝑑𝑑𝑑𝑑𝑑𝑑 /10, где Ndoc – общее количество об-
ботки.
216
рабатываемых документов. Далее производится сверточных нейронных сетей или с использованием
собственно кластерный анализ по методу K-means латентно-семантического анализа.
(метод К-средних, [3, 11]). Полученные результаты
2.6 Создание шаблонов исковых заявлений
сохраняются для дальнейшего использования.
Отдельной задачей является сопоставление су-
На основном этапе работы на вход сервису пода-
дебных актов и заявлений по рассмотренным делам,
ется идентификатор документа. Производится при-
поскольку сами исковые заявления, в отличие от
ведение его к векторной форме, которая обрабаты-
базы знаний принятых решений, являются закры-
вается моделью, причисляется к определенному
тыми и не публикуются в сети интернет. В рамках
кластеру. На выходе алгоритм выдает первые n до-
разработки системы «Робот-юрист» актуальной яв-
кументов из того же кластера, что и входной доку-
ляется задача связывания вновь поданного искового
мент, количество выдаваемых документов настраи-
заявления и близких результатов судебных процес-
вается, на данном этапе реализации системы n опре-
сов для дальнейшей обработки. В этом случае необ-
делено равным 10.
ходимо иметь заявление в размеченном виде, удоб-
Процесс переобучения модели следует прово- ном для машинной обработки. Для этого необходи-
дить периодически, например, раз в сутки, либо по- мо либо отдельно предусматривать процесс размет-
сле существенного изменения всего корпуса доку- ки массива электронных копий бумажных исковых
ментов. заявлений, либо формировать заявления изначально
Обработка массива из 3250 документов занимает в электронном виде и далее распечатывать готовое
5 мин (Intel® Core™ i7-3632QM CPU @ 2.20GHz × заявление с помощью системы. Второй вариант яв-
8), что на текущем этапе развития системы «Робот- ляется предпочтительным, и его было предложено
юрист» является приемлемым показателем быстро- реализовать в рамках создания прототипа системы.
действия. Сервис реализован на языке Python, взаи- Для получения экземпляров исковых заявлений
модействие с другими модулями системы происхо- сразу в электронном виде был предложен механизм
дит по внутреннему согласованному протоколу вза- веб-портала – шаблонизатора заявлений. При пода-
имодействия. че пользователем системы искового заявления си-
2.5 Классификация судебных дел стема формирует печатную версию заявления в со-
ответствии с регламентирующими нормативными
Одной из проблем судебного делопроизводства
документами РФ, а электронная копия документа
является процедура определения категории и харак-
тера спора. Правильное определение категории су- автоматически размечается и сохраняется в базе
дебного спора важно, поскольку влияет на назначе- данных системы с определенным статусом.
ние судьи на соответствующий процесс, а назначае- Процесс организован следующим образом: поль-
мый судья должен иметь максимальный опыт рас- зователь авторизуется на портале системы; ему
смотрения подобных споров. На текущий момент предоставляется ряд экранных форм с полями ввода
выявлено около 60 различных категорий судебных для заполнения данных. После окончания ввода
споров, которые встречаются с разной частотой. За данных пользователь сохраняет заявление в систе-
определение категории судебного дела отвечает ме; в базе данных системы появляется размеченный
модуль классификации судебных дел. Процесс вариант документа для дальнейшего анализа, а
классификации с ростом количества обрабатывае- пользователю предоставляется печатная форма за-
мых документов может быть очень затратным по полненного искового заявления.
времени, поэтому с архитектурной точки зрения
было решено вынести данную функциональность Веб-портал предусматривает несколько ролей
как отдельный микросервис с реализацией обмена с пользователей с различной функциональностью,
другими модулями системы в асинхронном режиме. также предложена и реализована статусная модель
К тому же определение категории спора (судебного судебного дела для удобства отслеживания жизнен-
дела) не является задачей, требующей мгновенного ного цикла документа в системе.
ответа. 2.7 Экспертная система
На уровне межсервисного взаимодействия об-
щий алгоритм обработки документа выглядит сле- В рамках проекта также разрабатывается реше-
дующим образом: на вход подается идентификатор ние по автоматизации предоставления экспертных
документа; из документа выделяются ключевые консультаций по вопросам юридического характера.
слова и их количество; проводятся анализ и подбор Решение представляет собой экспертную систему
класса дела; алгоритм возвращает идентификатор (ЭС) (см., например, [12]) – компьютерную систему,
класса судебного дела, который становится допол- способную частично заменить эксперта-специалиста
нительным свойством документа. При добавлении в разрешении какой-либо проблемы юридического
нового класса проводятся анализ допустимых клю- характера.
чевых слов и повторное обучение нейронной сети. В рамках проекта реализована экспертная систе-
К сожалению, на текущий момент нами оконча- ма в области защиты интеллектуальной собственно-
тельно не выбран оптимальный способ реализации сти. Важными вопросами в автоматизации предо-
данной задачи – рассматривается реализация алго- ставления экспертных консультаций являются
ритма с использованием глубинного обучения и надежность решений и удобство использования,
217
поэтому решения ЭС подкрепляются ссылками на математических документов. Докл. Академии
соответствующие нормативные документы, указан- наук, 467 (4), с. 392-395 (2016). doi:
ные юристами при формировании базы знаний. 10.1134/S1064562416020174
Были определены наиболее часто встречающие- [2] Елизаров, А. М., Липачёв, Е. К., Невзоро-
ся сценарии и вопросы в данной области права. На ва О. А., Соловьев, В. Д.: Методы и средства
текущий момент реализованы 13 типовых сценариев семантического структурирования электрон-
поведения ЭС, которые практически полностью по- ных математических документов. Докл. Ака-
крывают всевозможные случаи в данной области демии наук, 457 (6), с. 642-645 (2014). doi
права. 10.7868/S0869565214240049
В качестве пользовательского интерфейса к экс- [3] Ингерсолл, Грант С., Мортон, Томас С., Фэр-
пертной системе был выбран интерфейс чат-бота рис, Эндрю Л.: Обработка неструктурирован-
или, другими словами, виртуального собеседника, ных текстов. Поиск, организация и манипули-
реализованного в виде Telegram-Бота (далее – бота). рование / Пер. с англ. Слинкин А. А. М.: ДМК
Совпадение логики процессов взаимодействия с Пресс, 414 с.: ил. (2015)
ботом и ЭС позволяет предоставить удобный доступ [4] Peroni, S.: SemanticWeb Technologies and Legal
к инструментам юридического консультирования со Scholarly Publishing Law, Springer, Governance
всех платформ, для которых доступен сам мессен- and Technology Series, 15 (2014). doi
джер (Telegram). Логика работы модуля представля- 10.1007/978-3-319-04777-5
ет собой конечный автомат, а использование бота в [5] Gold, N. et al.: Understanding Service Oriented
качестве интерфейса к ЭС позволяет снизить трудо- Software. IEEE Software, 21 (2), pp. 71-77 (2004)
затраты на разработку пользовательского интерфей- [6] Jones, S.: Toward an Acceptable Definition of
са и сконцентрироваться на функционале ЭС вслед- Service. IEEE Software, 22 (3), pp. 87-93 (2005)
ствие простоты разработки.
[7] Fowler, М.: Microservices a definition of this new
3 Заключение architectural term. https://martinfowler.com/ arti-
cles/microservices.html
Теоретические исследования в рамках текстовой
[8] Stenetorp, P., Pyysalo, S., Topić, G., Ohta, T., An-
аналитики показывают наличие готовых или прак-
aniadou, S., Tsujii, J.: Brat: a Web-based Tool for
тически готовых инструментов для реализации
NLP-Assisted Text Annotation. Proc. of the
функций отдельных модулей системы. Необходимы
Demonstrations Session at EACL (2012)
лишь их грамотное объединение и применение в
отдельно взятых предметных областях. «Робот- [9] Ricci, F., Rokach, L., Shapira, B., Kantor, P. B.:
юрист» должен стать именно такой демонстрацией Recommender Systems Handbook. N.Y.: Springer
применения известных подходов и алгоритмов в (2011)
юриспруденции. [10] https://ru.wikipedia.org/wiki/TF-IDF
На данный момент завершен первый этап созда- [11] https://ru.wikipedia.org/wiki/K-means
ния системы – закончено проектирование системы и [12] Джарратано, Дж., Райли, Г.: Экспертные си-
реализован прототип системы «Робот-юрист», про- стемы. Принципы разработки и программиро-
изводится разметка документов. Для успешного вание. 4-е издание. Вильямс, 1152 c. (2007)
завершения работ и перевода в опытную эксплуата-
цию требуется дальнейшая оптимизация как раз-
личных алгоритмов текстовой аналитики, так и
пользовательского интерфейса. Выбранная архитек-
тура построения приложения позволяет произво-
дить модификацию отдельных модулей системы, не
затрагивая общего механизма взаимодействия. Так-
же необходимы апробация инструментов системы
на большем массиве документов и рефакторинг
программного кода.
Поддержка
Работа выполнена за счет средств субсидии, вы-
деленной Казанскому федеральному университету
для выполнения государственного задания в сфере
научной деятельности, проект 2.8712.2017/БЧ.
Литература
[1] Елизаров, А. М., Жижченко, А. Б. Жиль-
цов, Н. Г., Кириллович А. В., Липачёв, Е. К.:
Онтологии математического знания и рекомен-
дательная система для коллекций физико-
218