=Paper=
{{Paper
|id=Vol-1297/174-180_paper-26
|storemode=property
|title=Структуры заимствований в диссертациях по историческим наукам
(Structures of Text Paraphrasing and Plagiarism in Dissertations on Historical Sciences)

|pdfUrl=https://ceur-ws.org/Vol-1297/174-180_paper-26.pdf
|volume=Vol-1297
|dblpUrl=https://dblp.org/rec/conf/rcdl/BotovCKSTV14
}}
==Структуры заимствований в диссертациях по историческим наукам
(Structures of Text Paraphrasing and Plagiarism in Dissertations on Historical Sciences)
==
<pdf width="1500px">https://ceur-ws.org/Vol-1297/174-180_paper-26.pdf</pdf>
<pre>
             Структуры заимствований в диссертациях
                    по историческим наукам

© П.В. Ботов                           © Д.В. Вьючнов                                  © Н.С. Суровенко
© А.С. Хританков                        © С.В. Царьков                                  © Ю.В. Чехович
                                      ЗАО «Анти-Плагиат»
                                            Москва
khritankov@antiplagiat.ru


                                                         источников. Совпадения фрагментов текстов
                 Аннотация                               документа и источников          обозначаются как
   В работе описано исследование структуры               «заимствования». При этом практически совпадения
   взаимных      заимствований     текстовых             могут     иметь      различную      интерпретацию:
                                                         цитирование источника, цитирование третьего
   фрагментов в диссертациях кандидатов и
   докторов     наук     по    историческим              неизвестного текста в обеих работах, академический
   специальностям      рубрикатора      ВАК              плагиат,      использование      общеупотребимых
                                                         словосочетаний, случайное совпадение и т.д.
   (07.хх.хх). С помощью алгоритмических,
   статистических методов и методов анализа              Результат работы системы обычно анализируется
   графов и сетей были обнаружены группы                 экспертом, который и принимает решение о том, как
                                                         квалифицировать        обнаруженные        системой
   сильно связанных по заимствованиям
   между собой диссертаций, обнаружены                   заимствования и об академической ценности работы
   «скомпилированные» работы и указаны                   в целом [21]. Работа эксперта требует значительных
                                                         затрат времени для квалифицированного анализа
   предполагаемые       источники      таких
   компиляций.                                           объемной диссертации – от нескольких часов до
                                                         нескольких дней на одну работу. С учетом того, что
1 Введение                                               в России ежегодно защищается около 25 тысяч
                                                         диссертаций, проверка всего потока работ
   В данной статье представлены результаты               оказывается практически неподъемной задачей.
исследования диссертаций на соискание степеней              Основной целью проведенного исследования,
кандидатов и докторов наук по историческим               таким образом, стала проверка технической
наукам (коды специальностей ВАК: 07.хх.хх),              возможности глубокого автоматического анализа
проведенного      по      заказу      Российской         заимствований в больших текстовых коллекциях для
Государственной Библиотеки с использованием              формирования «грубого фильтра» работ для
Электронной библиотеки диссертаций РГБ (ЭБД              последующего экспертного анализа. Такой фильтр
РГБ), системы «Антиплагиат» и специального               позволил бы выделять часть работ, проведение
программного обеспечения обработки данных и              экспертного анализа которых необходимо. В
машинного обучения.                                      настоящем исследовании авторы главным образом
   ЭБД РГБ [7] содержит библиографические                сосредоточились       на      выборе       процедур
описания и полные тексты авторефератов и                 предобработки исходных данных, постобработки
диссертаций по различным специальностям ВАК,             результатов и настройках параметров системы, с
полученные    путем    сканирования    текстовых         целью автоматизации и уточнения результатов
документов.                                              последующей экспертной обработки.
   Система «Антиплагиат» [1, 4, 6, 20] позволяет            Инициатором и заказчиком исследования
проводить для текста проверяемого документа и            выступила      РГБ.      Основные       направления
произвольной        коллекции         источников         исследования были сформулированы в виде
сравнительный анализ. Результатом такого анализа         нескольких гипотез. В данной статье представлены
является список всех значимых фрагментов                 результаты по гипотезам и исследовательским
проверяемого документа, совпадающих полностью            вопросам, приведенным в разделе 2.
или частично с фрагментами в коллекции                      Для     корректного     учета     заимствований
                                                         необходимо      было    исключить      из    состава
Труды 16-й Всероссийской научной конференции             обнаруженных совпадений корректно оформленные
«Электронные библиотеки: перспективные методы и          цитаты (см. раздел 3) и технические заимствования
технологии, электронные коллекции» — RCDL-2014,          – общие фрагменты диссертаций вследствие
Дубна, Россия, 13–16 октября 2014 г.                     использования общего формата, шаблона и правил


                                                   174
оформления, а также списка литературы (см.                   признак, что если после текста цитаты в пределах
раздел 4).                                                   одного предложения встретилось слово, написанное
   После предварительной обработки, возможно                 слитно с числом, или число следует сразу после
проведение более глубокого анализа и проверка                закрывающей кавычки в блоке-кандидате, то
гипотез (см. раздел 5).                                      значение признака равно 1, иначе 0.
                                                                Таких признаков было построено более 60,
2 Гипотезы и цели исследования                               однако в результате отбора, о котором будет
                                                             рассказано ниже, было оставлено только 23.
   В ходе исследования предполагалось проверить
следующие гипотезы и дать ответы на вопросы:                    На третьем этапе к рассчитанным значениям
                                                             признаков блоков применяется обученная модель
    − определить      возможность      проведения            дерева    решений,     выполняющая       бинарную
глубокого анализа заимствований в объемных                   классификацию, является ли блок корректно
текстовых коллекциях на наличие некорректных                 оформленной цитатой или нет.
заимствований;
                                                                Для построения и настройки модели были
   − оценить долю работ с существенными                      вручную размечены тексты диссертаций по
заимствованиями текста из других диссертаций;                историческим наукам. Для этого была разработана
    − понять, является ли подготовка таких работ             программа разметки корректно оформленных цитат
частью процессов систематической компиляции,                 среди блоков текстов с графическим интерфейсом.
либо это единичные не связанные случаи.                      Всего исходные данные составили 24479 блоков, в
                                                             которых 4277 корректно оформленных цитат. Набор
3 Выделение корректно оформленных                            данных был разделен на обучающие данные из
цитат                                                        16320 блоков (из которых 2848 корректно
                                                             оформленных цитат) и тестовые из 8159 блоков (из
   В тексте диссертации автор может дословно                 которых 1429 цитат).
цитировать фрагменты других произведений.                       Далее, на обучающих данных с помощью
Цитаты оформляются в соответствии с правилами                программы Weka [17] были проанализированы
русского языка [15], библиографические ссылки к              признаки и с применением критерия «Gain Ratio»
ним – согласно стандарту [16]. Так как цитата                [18] отобрано 23 признака для классификации
дословно повторяет часть другого текста, она может           блоков.
быть распознана поисковыми модулями системы
«Антиплагиат» как заимствованный блок, поэтому                  Для    построения     дерева     решений   был
нужно выделять корректно оформленные цитаты и                использован алгоритм C4.5 [18]. Модель дерева
исключать их из блоков заимствований.                        решений использована потому, что ее можно
                                                             интерпретировать в виде правил «если – то»,
   Для выделения цитат предлагается подход,                  понятных даже не специалисту в области
основанный на применении методов машинного                   машинного обучения. Глубина дерева была
обучения и состоящий из трех этапов:                         ограничена значением 7. Оценка качества
   1. Выделение текстовых блоков-кандидатов при              проводилась по двум критериям: точность и
помощи эвристик.                                             полнота.
   2. Расчет значений признаков для блоков-                     Точность – это доля верно выделенных моделью
кандидатов.                                                  корректно оформленных цитат среди всех
   3. Бинарная классификация блоков-кандидатов               выделенных моделью текстовых блоков.
по    принадлежности      к   классу     корректно              Полнота – это доля верно выделенных моделью
оформленных цитат.                                           корректно оформленных цитат среди всех корректно
   На первом этапе текстовые блоки выделяются                оформленных цитат.
согласно     правилам    русского    языка     [15].            В результате для использованной в работе
Практически во всех случаях цитируемый текст                 модели на обучающей выборке точность составила
должен быть заключен в кавычки. Исключением из               96,8%, полнота – 73,5%, на тестовой выборке
этого правила являются стихотворения, которые                точность составила 95,8%, полнота – 43,8%.
можно цитировать без кавычек в случае сохранения
авторских переносов строк. Так как цитирование               4 Предварительная обработка данных
стихов    не    свойственно     диссертациям     по
историческим наукам, то для повышения точности                  Система «Антиплагиат» анализирует тексты
распознавания и снижения сложности системы в                 документов, строит по ним инвертированный
качестве    блока-кандидата    выделяется    текст,          индекс групп последовательно идущих слов (n-
заключенный в кавычки. При этом учитывается, что             грамм) [19] и сравнивает документы попарно после
одни блоки могут быть вложены в другие.                      нахождения потенциально совпадающих блоков в
                                                             индексе.
   На втором этапе происходит расчет значений
признаков блоков-кандидатов. Признаки построены                 На вход были поданы тексты диссертаций
на    основе    правил    оформления     цитат    и          коллекции ЭБД РГБ по историческим наукам
библиографических ссылок. Например, реализован               07.хх.хх, всего более 14 тыс. кандидатских и


                                                       175
докторских        диссертаций,       защищенных               Предварительный анализ расположения и
преимущественно      в   1999–2012 гг.   (рис. 1).         размера блоков заимствований (рис. 2) показал, что
Атрибуты       библиографического       описания           большая часть совпадающих блоков находится в
диссертаций также получены из ЭБД РГБ. Были                титульном листе и, по-видимому, области
исключены 51 документ с ошибками выделения                 библиографии диссертации. Предполагая, что эти
текста и 114 документов размером менее 15 тысяч            блоки связаны с общим форматом титульного листа
символов. Бимодальное распределение документов             и сходными источниками в списке литературы,
по годам соответствует содержанию ЭБД РГБ и, по            исключены блоки, находящиеся в первых 1000
видимому, является следствием порядка оцифровки            символов и последних 10% текста диссертации.
документов в РГБ.


   Рис. 1. Количество диссертаций по годам защиты             Рис. 2. Размер и позиция блоков до предварительной
                                                           обработки. Изоденсы обозначают размер блоков, значения
   При поиске заимствований между документами                                  выбраны экспертно
одной коллекции возникает проблема установления
направления заимствования и формирования набора               По результатам анализа распределения блоков по
источников. В данном исследовании проблема была            размеру в разных частях документа, были
решена следующим образом. Для каждой                       исключены блоки размером менее 250 символов как
диссертации отбиралось 100 источников с                    незначительные заимствования, по большей части
наибольшим количеством заимствований из них в              относящиеся к введению и библиографии. В
данной диссертации. Минимальный размер блока               дальнейшем при построении графа заимствований
заимствования варьировался от трёх до семи слов в          были     исключены     блоки   размером     менее
зависимости      от    контекста.    Направление           750 символов, в результате пропадает зависимость
заимствования устанавливалось эвристически по              между размером блока и его положением в
году защиты диссертации. Полагалось, что                   документе.
источником заимствования является диссертация,                В результате были построены распределение
год защиты который предшествует году зашиты                блоков по размеру и положению в документе
рассматриваемой диссертации.                               (рис. 3), направленный граф заимствований,
   Вычисления блоков заимствований проводились             составлен список диссертаций с наибольшей долей
на сервере с восемью виртуальными ядрами Xeon              заимствованного текста.
1,6 ГГц, 6 ГБ ОЗУ в течение четырех дней. Было
проведено три итерации вычислений блоков с
различными      параметрами.     Полное    время
проведения вычисления блоков с учетом пауз между
итерации составило две недели. Общий несжатый
объем блоков заимствований в XML формате
составил около 4 ГБ.
   Полученные      блоки   заимствования    были
дополнительно        обработаны:       выполнено
объединение блоков, исключение корректных
цитирований, повторное объединение, фильтрация
по размеру блока.
   Алгоритм объединения блоков составлял из двух
блоков, разделенных менее чем 30 символами, один              Рис. 3. Размер и позиция блоков после фильтрации,
блок, включающий оригинальные блоки и символы              исключения цитат и объединения блоков. Изоденсы
между ними (рис. 4).                                       обозначают размер блоков, значения выбраны экспертно
   После объединения блоков из них были
исключены корректно оформленные цитаты,                       В текстах диссертаций были замечены и
сформированы новые блоки, которые были                     исследованы аномалии – чаще всего связанные с
повторно объединены тем же алгоритмом.                     ошибками оцифровки или обработки документов.


                                                     176
В частности, около 50 документов состояло из                          Итерации продолжаются до тех пор, пока с
склеенных в одном тексте нескольких диссертаций,                   новой итерацией не перестанет изменяться состав
которые также встречались отдельно.                                сообществ.
                                                                      Всего в исходном графе получилось порядка
                                                                   13 000 вершин и 164 000 ребер. В исходном графе,
                                                                   при отсутствии фильтрации, присутствовала
                                                                   гигантская компонента (giant component) размером в
                                                                   12000 вершин, что указывало на наличие большого
                                                                   числа «шумовых» ребер. Предполагая, что шумовые
                                                                   ребра имеют небольшой вес, можно подобрать
                                                                   пороговое значение, отсекающее большинство таких
                                                                   ребер. С другой стороны, завышение порога
                                                                   отсечения могло привести к удалению значимых
                                                                   связей между вершинами, образующих сообщества
                                                                   и искажении структуры сообществ в графе. Поэтому
                                                                   необходимо было подобрать порог минимального
     Рис. 4. К описанию алгоритма слияния блоков                   допустимого веса ребра для выделения сообществ.
5 Выделение групп диссертаций                                         В     эксперименте    были     проанализированы
                                                                   зависимости следующих параметров от порога
   Анализ групп и сообществ диссертаций                            отсечения:   количество выделяемых сообществ,
позволяет установить «контекст» заимствований                      количество слабо связанных компонент в графе,
между ними, выделить скрытые внутренние                            максимальный размер связанного компонента (рис. 5–6).
структуры заимствований. Для проведения такого                        При увеличении порога количество сообществ и
анализа заимствования между диссертациями в                        связанных компонент возрастало за счет «развала»
данной работе был построен граф, в котором в                       гигантской связанной компоненты (см. рис. 5),
качестве вершин были диссертации, а ребра                          достигло максимума, а затем начало убывать. Эта
определялись заимствованиями из этих работ. Вес                    точка максимума и определила искомый порог
ребра рассчитывался как количество совпадающего                    отсечения, так как дальнейшее его увеличение
текста в символах.                                                 приводило к удалению значимых связей между
   Для анализа графов и сетей используются                         вершинами и уменьшению количества сообществ.
специализированные      алгоритмы    объединения
вершин      графа   в     кластеры,   называемые
сообществами (community). В работе [2] предложен
быстрый алгоритм поиска сообществ в графах,
основанный на максимизации внутреннего критерия
качества – модульности (modularity):
                 1              ki k j 
           Q            Aij 
                2m i , j         2m 
                                          ( ci , c j ) ,

где Aij – вес дуги между i и j, k i   j Aij – сумма
весов дуг, связанных с вершиной i, ci – сообщество,
к которому принадлежит вершина i, δ-функция
                                            1                        Рис. 5. Зависимость количества связанных компонент
δ(u,v) равна 1, если u = v, и 0 иначе, и m  ij Aij .
                                            2                            и количества сообществ от порога веса ребра
   Алгоритм выделения сообществ [2] состоит из
итеративно повторяющихся двух шагов.
   На первом шаге каждая вершина графа
приписывается к своему уникальному сообществу.
Затем для каждой вершины i рассматривается
возможность её переноса в сообщество вершины j,
до которой из i есть ребро, при условии, что
модульность увеличивается. Процесс повторяется,
пока модульность не достигнет локального
максимума.
   На втором шаге из полученных сообществ
получают вершины для нового графа, веса ребер
которого определяются суммой весов ребер вершин,
входящих в сообщество. Таким образом, первый                        Рис. 6. Зависимость максимального размера связанного
шаг можно заново выполнить для нового графа.                                    компонента от порога веса ребра


                                                             177
   В результате порог веса ребра выбран равным              небольшого        числа       работ     назовём
0,05, что соответствует суммарному заимствованию            «индивидуальными предпринимателями». Большие
в 7500 символов между диссертациями. При данном             сообщества с умеренным средним размером
пороге в графе выделяется 748 сообществ.                    заимствований – «фабрики диссертаций», а также
   Полученные сообщества характеризуются более              «странные сообщества», которые не получается
высоким уровнем заимствования среди диссертаций             однозначно отнести к предыдущим двум видам.
сообщества, чем из диссертаций вне сообщества.              Диссертации из сообществ, не относящихся к
Пример сообщества и заимствований между                     указанным, полагаются подготовленными научными
диссертациями показан на рис. 7.                            группами, не основанными на систематических
                                                            заимствованиях текстов диссертаций.


                                                              Рис. 8. Сообщества диссертаций по среднему объему
                                                               заимствования (по вертикали) и суммарному объему
                                                             (по горизонтали) с условной классификацией по видам.
                                                                Площадь метки соответствует размеру сообществ,
                                                                     на диаграмме – от 4 до 169 диссертаций
  Рис. 7. Пример найденного сообщества. Диссертации
   представлены вершинами графа и пронумерованы,               При анализе заимствований в диссертациях,
    заимствования показаны ребрами, толщина ребра           вследствие использования только ЭБД РГБ в
         пропорциональна объему заимствования               качестве источника данных, не учитывались
                                                            заимствования из других источников, статей,
   В сообществах диссертации могут выполнять две            журналов.    Такого    рода    заимствования,  в
функции: являться источниками для заимствований             исследуемом графе заимствований, могут косвенно
и получателями заимствований из других                      проявляться     как      заимствования     между
источников. На рис. 7 диссертации 24, 16, 22 можно          диссертациями, если в них имеется общий текст из
назвать популярными источниками в данном                    стороннего источника.
сообществе. Диссертации 2, 3, 7, 13 – получатели
заимствований. Заметим, что 2, 3 и 13 при этом так          6 Сходные исследования
же используются в качестве источников для
заимствования другими диссертациями. Жирная                     Диссертации, защищаемые в области наук, в
стрелка между работами 2 и 16 указывает на                  целом     отражают     структуру    и    состояние
большой объем заимствованного текста.                       исследований в своей области, и представляют
   Источники и получатели заимствований можно               отдельный     интерес     как   объект    научного
найти в большинстве сообществ. В таких                      исследования. Исследования диссертаций и научных
сообществах существенны заимствования текста                работ, связей между ними проводились ранее в
между диссертациями, что указывает на наличие               других областях [8–13]. В работах [8, 9] проведено
коллективов,      занимающихся         подготовкой          исследование диссертаций и авторефератов с целью
диссертаций путем компиляции из других работ.               выявления научных школ, связей между научными
Отнесение источников заимствования к сообществу             руководителями и диссертантами, использованы
позволяет увидеть сообщество в целом и не                   методы     анализа    текстов.   В    исследовании
указывает на автора источника как участника                 авторефератов    докторских    диссертаций [10]
коллектива.                                                 проведен анализ качества подготовки диссертаций
                                                            за 2008–2011 годы по материалам, опубликованным
   Если все сообщества диссертаций расположить
                                                            на сайте ВАК.
на диаграмме с зависимостью полного объема
заимствования от среднего их объема по                          Проведенное       исследование      отличается
заимствованиям внутри сообщества (рис. 8), то               использованием данных ЭБД РГБ [7], полных
среди них можно выделить три вида. Небольшие                текстов диссертаций, рассмотрением диссертаций
сообщества диссертаций с высоким средним                    по    историческим      наукам    и    механизмом
объемом        заимствований,        по-видимому,           установления связей между диссертациями – по
скомпилированных в индивидуальном порядке из                текстовым заимствованиям, и методами анализа


                                                      178
полученного графа. Причем наличие текстовых                      large networks // Journal of Statistical Mechanics:
заимствований, с нашей точки зрения, указывает на                Theory and Experiment 2008(10):P10008 (2008).
общность в подготовке текстов диссертаций.                   [3] R. Lambiotte, J.C. Delvenne, M. Barahona.
   Определение общности научных работ по                         Laplacian dynamics and multiscale modular
текстовым     заимствованиям      –    достаточно                structure in networks // Arxiv preprint
распространенный метод [1, 5], однако известны и                 arXiv:0812.1770 (2008).
другие подходы, основанные на методах анализа                [4] ЗАО Анти-Плагиат, Система «Антиплагиат».
текстов [13] и рассмотрении совместного                          http://www.antiplagiat.ru
библиографического       цитирования       между             [5] iParadigms, LLC. Turnitin. Plagiarism prevention
документами [14].                                                engine. Available online at:
                                                                 http://www.turnitin.com
7 Заключение                                                 [6] Шарапов Р.В., Шарапова Е.В. Система
    Насколько известно авторам, проведенное                      проверки текстов на заимствования из других
исследование      по    определению      структур                источников // Труды 13-й Всероссийской
заимствований в диссертациях является первым в                   научной конференции «Электронные
своем роде. Исследованные гипотезы и вопросы                     библиотеки: перспективные методы и
ранее не выдвигались. Поэтому так же важно, что                  технологии, электронные коллекции» –
были отработаны методы исследования.                             RCDL’2011. –Воронеж, 2011. –С.121–126.
    Проведенное исследование продемонстрировало              [7] Лавренова О.А. Развитие проекта библиотеки
техническую возможность проведения анализа                       электронных диссертаций и авторефератов в
заимствований в крупных текстовых коллекциях с                   открытом доступе // Образовательные
применением       системы     «Антиплагиат»     в                технологии и общество (Educational Technology
совокупности с методами анализа данных для                       & Society). – Казань: Изд-во Казанский
фильтрации потока диссертационных работ и                        государственный технологический
выделения документов, для которых необходим                      университет. – 2006. – Т. 9, № 3. – С. 335–341.
последующий экспертный анализ.                               [8] Ю.В. Леонова, А.М. Федотов. Извлечение
    Было     обнаружено,     что     большинство                 знаний и фактов из текстов диссертаций и
проверенных диссертаций не имеют значимых                        авторефератов для изучения связей научных
заимствований. Однако не менее 500 работ имеют                   сообществ // Труды 15-й Всероссийской
существенный объем более 33% общих текстовых                     научной конференции «Электронные
фрагментов с другими диссертациями, что может                    библиотеки: перспективные методы и
указывать либо на наличие общих источников                       технологии, электронные коллекции» – RCDL-
заимствования, либо на прямое заимствование.                     2013, Ярославль, Россия, 14–17 октября 2013 г.
                                                                 – Ярославль: ЯрГУ, 2013. – С. 135–144.
    В     построенном     графе    заимствований
                                                             [9] Леонова Ю.В., Добрынин А.А., Веснин А.Ю.
обнаружены      коллективы      и   «сообщества»
диссертаций, по-видимому, связанные с процессом                  Построение графа диссертаций // XIV
их подготовки. Сообщества с большим объемом                      Российская конференция с участием
заимствований между диссертациями отнесены к                     иностранных ученых «Распределенные
коллективам, в которых налажен процесс                           информационные и вычислительные ресурсы»
подготовки текстов диссертаций путем компиляции                  (DICR-2012): программа конференции и
из готовых источников.                                           тезисы докладов (Новосибирск, Россия, 26–
                                                                 30 нояб. 2012). – Новосибирск: ИВТ СО РАН,
    Результаты исследований были предоставлены                   2012. – С. 17. – ISBN 978-5-905569-05-0.
на рассмотрение экспертам РГБ и получили
                                                            [10] Донецкая С.С. Статистическое исследование
положительную оценку. В дальнейшем планируется
                                                                 структуры и качества подготовки докторских
проведение подобных исследований и в других
                                                                 диссертаций в России // Вопросы статистики. –
областях науки.
                                                                 2012. – № 12. – С. 71–76.
Литература                                                  [11] Бескаравайная Е.В., Митрошин И.А. Анализ
                                                                 базы данных диссертаций ПНЦ РАН //
 [1] Авдеева Н.В., Ботов П.В., Букаев А.С., Вислый               Информационное обеспечение науки. Новые
     А.И., Груздев И.А., Житлухин Д.А., Романов                  технологии: cб. науч. тр. / Н.Е. Каленов (ред.).
     М.Ю., Чехович Ю.В. Внедрение системы                        – М.: Научный Мир, 2011. – С. 124–133.
     «Антиплагиат» в Российской государственной             [12] Ю.Н. Климов. Количественно-
     библиотеке // Интеллектуализация обработки                  информационный анализ потока публикаций
     информации: 8-я международная конференция.                  по библиотекам и библиотековедению на
     Республика Кипр, г. Пафос, 17–24 окт. 2010 г.:              основе поиска по ключевым словам в базе
     сб. докл. – М.: МАКС пресс, 2010. – С. 499–                 данных Science-Direct // Межотраслевая
     503.                                                        информационная служба. – 2011. – № 3. С. 51–
 [2] V.D. Blondel, J.-L. Guillaume, R. Lambiotte,                58.
     E. Lefebvre. Fast unfolding of communities in


                                                      179
[13] В.Н. Захаров, А. А. Хорошилов.                          [19] К.Д. Маннинг, П. Рагхаван, Х. Шютце.
     Автоматическая оценка подобия                                Введение в информационный поиск. : Пер. с
     тематического содержания текстов на основе                   англ. – М.: ООО «И.Д. Вильямс», 2011. – 528 с.
     сравнения их формализованных смысловых                  [20] Авдеева Н.В., Никулина О.В., Сологубов А.М.
     описаний // Труды 14-й Всероссийской                         Система «Антиплагиат.РГБ» и
     научной конференции «Электронные                             недобросовестные авторы диссертаций: кто
     библиотеки: перспективные методы и                           победит? // Научная периодика: проблемы и
     технологии, электронные коллекции» —                         решения. – 2012. – №5(11). – С. 11–16.
     RCDL-2012, Переславль-Залесский, Россия,                [21] Авдеева Н.В., Лобанова Г.А. Классификация
     15–18 окт. 2012 г. – С. 189–195.                             фрагментов текста при экспертизе диссертаций
[14] Bela Gipp and Joeran Beel, 2009 "Citation                    на предмет заимствований (плагиата) //
     Proximity Analysis (CPA) – A new approach for                «Информационные ресурсы России»: науч.-
     identifying related work based on Co-Citation                практ. журн. – M.: ФГБУ «Российское
     Analysis" in Birger Larsen and Jacqueline Leta,              энергетическое агентство» Минэнерго России.
     editors, Proceedings of the 12th International               – 2014. – № 11. – С. 2–6.
     Conference on Scientometrics and Informetrics
     (ISSI’09), volume 2, pages 571–575, Rio de                     Structures of Text Paraphrasing
     Janeiro (Brazil), July 2009.                                   and Plagiarism in Dissertations
[15] Розенталь Д.Э., Джанджакова Е.В., Кабанова                          on Historical Sciences
     Н.П. Справочник по правописанию,
     произношению, литературному                                 P.V. Botov, Y.V. Chehovich, A.S. Khritankov,
     редактированию. – Издание второе,                           N.S. Surovenko, S.V. Tsarkov, D.V. Viuchnov
     исправленное. – М.: ЧеРо, 1998. – 400 с.
                                                                 We report on the research of structures in graphs of
[16] ГОСТ Р 7.0.5–2008 Библиографическая ссылка,
                                                             text paraphrasing and plagiarism in Ph.D. dissertations
     общие требования и правила составления.                 on historical sciences in Russia (07.xx.xx, according to
[17] University of Waitako. Weka Toolkit.                    HAC classification). Using algorithmic, statistical and
     http://www.cs.waikato.ac.nz/~ml/weka/                   network analysis methods we discovered groups of
[18] J. Ross Quinlan. C4.5: Programs for Machine             highly related dissertations, which intensely borrowed
     learning. Morgan Kaufmann Publishers 1993.              from each other, which we call “science shops”, found
                                                             so-called “compiled” works and probable sources of
                                                             such compilations.


                                                       180

</pre>