<?xml version="1.0" encoding="UTF-8"?>
<TEI xml:space="preserve" xmlns="http://www.tei-c.org/ns/1.0" 
xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" 
xsi:schemaLocation="http://www.tei-c.org/ns/1.0 https://raw.githubusercontent.com/kermitt2/grobid/master/grobid-home/schemas/xsd/Grobid.xsd"
 xmlns:xlink="http://www.w3.org/1999/xlink">
	<teiHeader xml:lang="ru">
		<fileDesc>
			<titleStmt>
				<title level="a" type="main">Структуры заимствований в диссертациях по историческим наукам</title>
			</titleStmt>
			<publicationStmt>
				<publisher/>
				<availability status="unknown"><licence/></availability>
			</publicationStmt>
			<sourceDesc>
				<biblStruct>
					<analytic>
						<author>
							<persName><forename type="first">©</forename><forename type="middle">П В</forename><surname>Ботов</surname></persName>
						</author>
						<author>
							<persName><forename type="first">©</forename><forename type="middle">Д В</forename><surname>Вьючнов</surname></persName>
						</author>
						<author>
							<persName><forename type="first">©</forename><forename type="middle">Н С</forename><surname>Суровенко</surname></persName>
						</author>
						<author>
							<persName><forename type="first">©</forename><forename type="middle">А С</forename><surname>Хританков</surname></persName>
						</author>
						<author>
							<persName><forename type="first">©</forename><forename type="middle">С В</forename><surname>Царьков</surname></persName>
						</author>
						<author>
							<persName><forename type="first">©</forename><forename type="middle">Ю В</forename><surname>Чехович</surname></persName>
						</author>
						<author>
							<persName><forename type="first">Зао</forename><forename type="middle">«</forename><surname>Анти-Плагиат</surname></persName>
						</author>
						<title level="a" type="main">Структуры заимствований в диссертациях по историческим наукам</title>
					</analytic>
					<monogr>
						<imprint>
							<date/>
						</imprint>
					</monogr>
					<idno type="MD5">8CAAD17E526C876F2C60242948110DA9</idno>
				</biblStruct>
			</sourceDesc>
		</fileDesc>
		<encodingDesc>
			<appInfo>
				<application version="0.7.2" ident="GROBID" when="2023-03-25T05:41+0000">
					<desc>GROBID - A machine learning software for extracting information from scholarly documents</desc>
					<ref target="https://github.com/kermitt2/grobid"/>
				</application>
			</appInfo>
		</encodingDesc>
		<profileDesc>
			<abstract/>
		</profileDesc>
	</teiHeader>
	<text xml:lang="ru">
		<body>
<div xmlns="http://www.tei-c.org/ns/1.0"><head>Аннотация</head><p>Алгоритм объединения блоков составлял из двух блоков, разделенных менее чем 30 символами, один блок, включающий оригинальные блоки и символы между ними (рис. 4).</p><p>После объединения блоков из них были исключены корректно оформленные цитаты, сформированы новые блоки, которые были повторно объединены тем же алгоритмом.</p><p>Предварительный анализ расположения и размера блоков заимствований (рис. 2) показал, что большая часть совпадающих блоков находится в титульном листе и, по-видимому, области библиографии диссертации. Предполагая, что эти блоки связаны с общим форматом титульного листа и сходными источниками в списке литературы, исключены блоки, находящиеся в первых 1000 символов и последних 10% текста диссертации. </p><formula xml:id="formula_0">j i j i j i ij c c m k k A m Q           , где A ij -вес дуги между i и j, -сумма весов дуг, связанных с вершиной i, c i -сообщество, к которому принадлежит вершина i, δ-функция δ(u,v) равна 1, если u = v, и 0 иначе, и   j ij i A k  ij ij A 2 1  m .</formula><p>Алгоритм выделения сообществ <ref type="bibr" target="#b1">[2]</ref> состоит из итеративно повторяющихся двух шагов.</p><p>На первом шаге каждая вершина графа приписывается к своему уникальному сообществу. Затем для каждой вершины i рассматривается возможность её переноса в сообщество вершины j, до которой из i есть ребро, при условии, что модульность увеличивается. Процесс повторяется, пока модульность не достигнет локального максимума.</p><p>На втором шаге из полученных сообществ получают вершины для нового графа, веса ребер которого определяются суммой весов ребер вершин, входящих в сообщество. Таким образом, первый шаг можно заново выполнить для нового графа.</p><p>Итерации продолжаются до тех пор, пока с новой итерацией не перестанет изменяться состав сообществ.</p><p>Всего в исходном графе получилось порядка 13 000 вершин и 164 000 ребер. В исходном графе, при отсутствии фильтрации, присутствовала гигантская компонента (giant component) размером в 12000 вершин, что указывало на наличие большого числа «шумовых» ребер. Предполагая, что шумовые ребра имеют небольшой вес, можно подобрать пороговое значение, отсекающее большинство таких ребер. С другой стороны, завышение порога отсечения могло привести к удалению значимых связей между вершинами, образующих сообщества и искажении структуры сообществ в графе. Поэтому необходимо было подобрать порог минимального допустимого веса ребра для выделения сообществ.</p><p>В эксперименте были проанализированы зависимости следующих параметров от порога отсечения:</p><p>количество выделяемых сообществ, количество слабо связанных компонент в графе, максимальный размер связанного компонента (рис. 5-6).</p><p>При увеличении порога количество сообществ и связанных компонент возрастало за счет «развала» гигантской связанной компоненты (см. рис. 5), достигло максимума, а затем начало убывать. Эта точка максимума и определила искомый порог отсечения, так как дальнейшее его увеличение приводило к удалению значимых связей между вершинами и уменьшению количества сообществ.  </p></div><figure xmlns="http://www.tei-c.org/ns/1.0" xml:id="fig_0"><head>Рис. 2 .</head><label>2</label><figDesc>Размер и позиция блоков до предварительной обработки. Изоденсы обозначают размер блоков, значения выбраны экспертно По результатам анализа распределения блоков по размеру в разных частях документа, были исключены блоки размером менее 250 символов как незначительные заимствования, по большей части относящиеся к введению и библиографии. В дальнейшем при построении графа заимствований были исключены блоки размером менее 750 символов, в результате пропадает зависимость между размером блока и его положением в документе. В результате были построены распределение блоков по размеру и положению в документе (рис. 3), направленный граф заимствований, составлен список диссертаций с наибольшей долей заимствованного текста. Рис. 3. Размер и позиция блоков после фильтрации, исключения цитат и объединения блоков. Изоденсы обозначают размер блоков, значения выбраны экспертно В текстах диссертаций были замечены и исследованы аномалиичаще всего связанные с ошибками оцифровки или обработки документов. В частности, около 50 документов состояло из склеенных в одном тексте нескольких диссертаций, которые также встречались отдельно. Рис. 4. К описанию алгоритма слияния блоков 5 Выделение групп диссертаций Анализ групп и сообществ диссертаций позволяет установить «контекст» заимствований между ними, выделить скрытые внутренние структуры заимствований. Для проведения такого анализа заимствования между диссертациями в данной работе был построен граф, в котором в качестве вершин были диссертации, а ребра определялись заимствованиями из этих работ. Вес ребра рассчитывался как количество совпадающего текста в символах. Для анализа графов и сетей используются специализированные алгоритмы объединения вершин графа в кластеры, называемые сообществами (community). В работе [2] предложен быстрый алгоритм поиска сообществ в графах, основанный на максимизации внутреннего критерия качествамодульности (modularity):</figDesc></figure>
<figure xmlns="http://www.tei-c.org/ns/1.0" xml:id="fig_1"><head>Рис. 5 .</head><label>5</label><figDesc>Зависимость количества связанных компонент и количества сообществ от порога веса ребра Рис. 6. Зависимость максимального размера связанного компонента от порога веса ребра В результате порог веса ребра выбран равным 0,05, что соответствует суммарному заимствованию в 7500 символов между диссертациями. При данном пороге в графе выделяется 748 сообществ. Полученные сообщества характеризуются более высоким уровнем заимствования среди диссертаций сообщества, чем из диссертаций вне сообщества. Пример сообщества и заимствований между диссертациями показан на рис. 7. Рис. 7. Пример найденного сообщества. Диссертации представлены вершинами графа и пронумерованы, заимствования показаны ребрами, толщина ребра пропорциональна объему заимствования В сообществах диссертации могут выполнять две функции: являться источниками для заимствований и получателями заимствований из других источников. На рис. 7 диссертации 24, 16, 22 можно назвать популярными источниками в данном сообществе. Диссертации 2, 3, 7, 13 -получатели заимствований. Заметим, что 2, 3 и 13 при этом так же используются в качестве источников для заимствования другими диссертациями. Жирная стрелка между работами 2 и 16 указывает на большой объем заимствованного текста. Источники и получатели заимствований можно найти в большинстве сообществ. В таких сообществах существенны заимствования текста между диссертациями, что указывает на наличие коллективов, занимающихся подготовкой диссертаций путем компиляции из других работ. Отнесение источников заимствования к сообществу позволяет увидеть сообщество в целом и не указывает на автора источника как участника коллектива. Если все сообщества диссертаций расположить на диаграмме с зависимостью полного объема заимствования от среднего их объема по заимствованиям внутри сообщества (рис. 8), то среди них можно выделить три вида. Небольшие сообщества диссертаций с высоким средним объемом заимствований, по-видимому, скомпилированных в индивидуальном порядке из небольшого числа работ назовём «индивидуальными предпринимателями». Большие сообщества с умеренным средним размером заимствований -«фабрики диссертаций», а также «странные сообщества», которые не получается однозначно отнести к предыдущим двум видам. Диссертации из сообществ, не относящихся к указанным, полагаются подготовленными научными группами, не основанными на систематических заимствованиях текстов диссертаций. Рис. 8. Сообщества диссертаций по среднему объему заимствования (по вертикали) и суммарному объему (по горизонтали) с условной классификацией по видам. Площадь метки соответствует размеру сообществ, на диаграммеот 4 до 169 диссертаций При анализе заимствований в диссертациях, вследствие использования только ЭБД РГБ в качестве источника данных, не учитывались заимствования из других источников, статей, в них имеется общий текст из стороннего источника.</figDesc></figure>
<figure xmlns="http://www.tei-c.org/ns/1.0" type="table" xml:id="tab_0"><head>Труды 16-й Всероссийской научной конференции «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» -RCDL-2014, Дубна, Россия, 13-16 октября 2014 г.</head><label></label><figDesc></figDesc><table><row><cell cols="4">оформления, а также списка литературы (см.</cell><cell></cell></row><row><cell>раздел 4).</cell><cell></cell><cell></cell><cell></cell><cell></cell></row><row><cell cols="4">После предварительной обработки, возможно</cell><cell></cell></row><row><cell cols="4">проведение более глубокого анализа и проверка</cell><cell></cell></row><row><cell cols="2">гипотез (см. раздел 5).</cell><cell></cell><cell></cell><cell></cell></row><row><cell></cell><cell></cell><cell></cell><cell></cell><cell cols="2">источников. Совпадения фрагментов текстов</cell></row><row><cell></cell><cell></cell><cell></cell><cell></cell><cell cols="2">документа и источников</cell><cell>обозначаются как</cell></row><row><cell cols="4">В работе описано исследование структуры взаимных заимствований текстовых фрагментов в диссертациях кандидатов и докторов наук по историческим специальностям рубрикатора ВАК (07.хх.хх). С помощью алгоритмических, статистических методов и методов анализа графов и сетей были обнаружены группы сильно связанных по заимствованиям между собой диссертаций, обнаружены «скомпилированные» работы и указаны предполагаемые источники таких компиляций.</cell><cell cols="2">«заимствования». При этом практически совпадения могут иметь различную интерпретацию: цитирование источника, цитирование третьего неизвестного текста в обеих работах, академический плагиат, использование общеупотребимых словосочетаний, случайное совпадение и т.д. Результат работы системы обычно анализируется экспертом, который и принимает решение о том, как квалифицировать обнаруженные системой заимствования и об академической ценности работы в целом [21]. Работа эксперта требует значительных затрат времени для квалифицированного анализа объемной диссертации -от нескольких часов до нескольких дней на одну работу. С учетом того, что</cell></row><row><cell>1 Введение</cell><cell></cell><cell></cell><cell></cell><cell cols="2">в России ежегодно защищается около 25 тысяч диссертаций, проверка всего потока работ</cell></row><row><cell cols="4">В данной статье представлены результаты</cell><cell cols="2">оказывается практически неподъемной задачей.</cell></row><row><cell cols="4">исследования диссертаций на соискание степеней кандидатов и докторов наук по историческим наукам (коды специальностей ВАК: 07.хх.хх), проведенного по заказу Российской Государственной Библиотеки с использованием Электронной библиотеки диссертаций РГБ (ЭБД РГБ), системы «Антиплагиат» и специального программного обеспечения обработки данных и машинного обучения.</cell><cell cols="2">Основной целью проведенного исследования, таким образом, стала проверка технической возможности глубокого автоматического анализа заимствований в больших текстовых коллекциях для формирования «грубого фильтра» работ для последующего экспертного анализа. Такой фильтр позволил бы выделять часть работ, проведение экспертного анализа которых необходимо. В настоящем исследовании авторы главным образом</cell></row><row><cell cols="4">ЭБД РГБ [7] содержит библиографические</cell><cell cols="2">сосредоточились</cell><cell>на</cell><cell>выборе</cell><cell>процедур</cell></row><row><cell cols="4">описания и полные тексты авторефератов и диссертаций по различным специальностям ВАК,</cell><cell cols="2">предобработки исходных данных, постобработки результатов и настройках параметров системы, с</cell></row><row><cell>полученные</cell><cell>путем</cell><cell>сканирования</cell><cell>текстовых</cell><cell cols="2">целью автоматизации и уточнения результатов</cell></row><row><cell>документов.</cell><cell></cell><cell></cell><cell></cell><cell cols="2">последующей экспертной обработки.</cell></row><row><cell cols="4">Система «Антиплагиат» [1, 4, 6, 20] позволяет</cell><cell cols="2">Инициатором и заказчиком исследования</cell></row><row><cell cols="4">проводить для текста проверяемого документа и</cell><cell>выступила</cell><cell>РГБ.</cell><cell>Основные</cell><cell>направления</cell></row><row><cell>произвольной</cell><cell></cell><cell>коллекции</cell><cell>источников</cell><cell cols="2">исследования были сформулированы в виде</cell></row><row><cell cols="4">сравнительный анализ. Результатом такого анализа</cell><cell cols="2">нескольких гипотез. В данной статье представлены</cell></row><row><cell cols="4">является список всех значимых фрагментов</cell><cell cols="2">результаты по гипотезам и исследовательским</cell></row><row><cell cols="4">проверяемого документа, совпадающих полностью</cell><cell cols="2">вопросам, приведенным в разделе 2.</cell></row><row><cell cols="4">или частично с фрагментами в коллекции</cell><cell>Для</cell><cell>корректного</cell><cell>учета</cell><cell>заимствований</cell></row><row><cell></cell><cell></cell><cell></cell><cell></cell><cell cols="2">необходимо</cell><cell>было</cell><cell>исключить</cell><cell>из</cell><cell>состава</cell></row><row><cell></cell><cell></cell><cell></cell><cell></cell><cell cols="2">обнаруженных совпадений корректно оформленные</cell></row><row><cell></cell><cell></cell><cell></cell><cell></cell><cell cols="2">цитаты (см. раздел 3) и технические заимствования</cell></row><row><cell></cell><cell></cell><cell></cell><cell></cell><cell cols="2">-общие фрагменты диссертаций вследствие</cell></row><row><cell></cell><cell></cell><cell></cell><cell></cell><cell cols="2">использования общего формата, шаблона и правил</cell></row></table></figure>
<figure xmlns="http://www.tei-c.org/ns/1.0" type="table" xml:id="tab_1"><head>2 Гипотезы и цели исследования</head><label></label><figDesc></figDesc><table><row><cell cols="3">В ходе исследования предполагалось проверить</cell></row><row><cell cols="3">следующие гипотезы и дать ответы на вопросы:</cell></row><row><cell>− определить</cell><cell>возможность</cell><cell>проведения</cell></row><row><cell cols="3">глубокого анализа заимствований в объемных</cell></row><row><cell cols="3">текстовых коллекциях на наличие некорректных</cell></row><row><cell>заимствований;</cell><cell></cell><cell></cell></row><row><cell cols="3">− оценить долю работ с существенными</cell></row><row><cell cols="3">заимствованиями текста из других диссертаций;</cell></row><row><cell cols="3">− понять, является ли подготовка таких работ</cell></row><row><cell cols="3">частью процессов систематической компиляции,</cell></row><row><cell cols="3">либо это единичные не связанные случаи.</cell></row></table></figure>
<figure xmlns="http://www.tei-c.org/ns/1.0" type="table" xml:id="tab_2"><head>3 Выделение корректно оформленных цитат</head><label></label><figDesc>если после текста цитаты в пределах одного предложения встретилось слово, написанное слитно с числом, или число следует сразу после закрывающей кавычки в блоке-кандидате, то значение признака равно 1, иначе 0. Таких признаков было построено более 60, однако в результате отбора, о котором будет рассказано ниже, было оставлено только 23. Для этого была разработана программа разметки корректно оформленных цитат среди блоков текстов с графическим интерфейсом. Всего исходные данные составили 24479 блоков, в которых 4277 корректно оформленных цитат. Набор данных был разделен на обучающие данные из 16320 блоков (из которых 2848 корректно оформленных цитат) и тестовые из 8159 блоков (из которых 1429 цитат). из ЭБД РГБ. Были исключены 51 документ с ошибками выделения текста и 114 документов размером менее 15 тысяч символов. Бимодальное распределение документов по годам соответствует содержанию ЭБД РГБ и, по видимому, является следствием порядка оцифровки документов в РГБ. Количество диссертаций по годам защиты При поиске заимствований между документами одной коллекции возникает проблема установления направления заимствования и формирования набора источников. В данном исследовании проблема была решена следующим образом. Для каждой диссертации отбиралось 100 источников с наибольшим количеством заимствований из них в данной диссертации. Минимальный размер блока заимствования варьировался от трёх до семи слов в</figDesc><table><row><cell>В тексте диссертации автор может дословно цитировать фрагменты других произведений. Цитаты оформляются в соответствии с правилами русского языка [15], библиографические ссылки к ним -согласно стандарту [16]. Так как цитата дословно повторяет часть другого текста, она может быть распознана поисковыми модулями системы «Антиплагиат» как заимствованный блок, поэтому нужно выделять корректно оформленные цитаты и исключать их из блоков заимствований. Для выделения цитат предлагается подход, основанный на применении методов машинного обучения и состоящий из трех этапов: 1. Выделение текстовых блоков-кандидатов при помощи эвристик. докторских диссертаций, защищенных преимущественно в 1999-2012 гг. (рис. 1). Атрибуты библиографического описания диссертаций также получены зависимости от контекста. Направление заимствования устанавливалось эвристически по году защиты диссертации. Полагалось, что источником заимствования является диссертация, год защиты который предшествует году зашиты рассматриваемой диссертации.</cell><cell>признак, что На третьем этапе к рассчитанным значениям признаков блоков применяется обученная модель дерева решений, выполняющая бинарную классификацию, является ли блок корректно оформленной цитатой или нет. Для построения и настройки модели были вручную размечены тексты диссертаций по историческим наукам. Далее, на обучающих данных с помощью программы Weka [17] были проанализированы признаки и с применением критерия «Gain Ratio» [18] отобрано 23 признака для классификации блоков. Для построения дерева решений был использован алгоритм C4.5 [18]. Модель дерева решений использована потому, что ее можно интерпретировать в виде правил «если -то», понятных даже не специалисту в области машинного обучения. Глубина дерева была ограничена значением 7. Оценка качества проводилась по двум критериям: точность и полнота.</cell></row><row><cell>2. Расчет значений признаков для блоков-кандидатов. 3. Бинарная классификация блоков-кандидатов по принадлежности к классу корректно оформленных цитат. На первом этапе текстовые блоки выделяются согласно правилам русского языка [15]. Практически во всех случаях цитируемый текст должен быть заключен в кавычки. Исключением из этого правила являются стихотворения, которые Вычисления блоков заимствований проводились на сервере с восемью виртуальными ядрами Xeon 1,6 ГГц, 6 ГБ ОЗУ в течение четырех дней. Было проведено три итерации вычислений блоков с различными параметрами. Полное время проведения вычисления блоков с учетом пауз между итерации составило две недели. Общий несжатый объем блоков заимствований в XML формате составил около 4 ГБ. Полученные блоки заимствования были дополнительно обработаны: выполнено можно цитировать без кавычек в случае сохранения авторских переносов строк. Так как цитирование стихов не свойственно диссертациям объединение блоков, исключение корректных цитирований, повторное объединение, фильтрация по качестве блока-кандидата выделяется на основе правил оформления цитат библиографических ссылок. Например, реализован и признаков блоков-кандидатов. Признаки построены На втором этапе происходит расчет значений одни блоки могут быть вложены в другие. заключенный в кавычки. При этом учитывается, что текст, распознавания и снижения сложности системы в историческим наукам, то для повышения точности по размеру блока.</cell><cell>Точность -это доля верно выделенных моделью корректно оформленных цитат среди всех выделенных моделью текстовых блоков. Полнота -это доля верно выделенных моделью корректно оформленных цитат среди всех корректно оформленных цитат. В результате для использованной в работе модели на обучающей выборке точность составила 96,8%, полнота -73,5%, на тестовой выборке точность составила 95,8%, полнота -43,8%. 4 Предварительная обработка данных 07.хх.хх, всего более 14 тыс. кандидатских и коллекции ЭБД РГБ по историческим наукам На вход были поданы тексты диссертаций индексе. нахождения потенциально совпадающих блоков в грамм) [19] и сравнивает документы попарно после индекс групп последовательно идущих слов (n-документов, строит по ним инвертированный Система «Антиплагиат» анализирует тексты</cell></row></table><note>Рис. 1.</note></figure>
<figure xmlns="http://www.tei-c.org/ns/1.0" type="table" xml:id="tab_3"><head>6 Сходные исследования</head><label></label><figDesc></figDesc><table><row><cell cols="6">полученного графа. Причем наличие текстовых</cell></row><row><cell cols="6">заимствований, с нашей точки зрения, указывает на</cell></row><row><cell cols="6">общность в подготовке текстов диссертаций.</cell></row><row><cell cols="6">Определение общности научных работ по</cell></row><row><cell cols="2">текстовым</cell><cell cols="3">заимствованиям</cell><cell>-</cell><cell>достаточно</cell></row><row><cell cols="6">распространенный метод [1, 5], однако известны и</cell></row><row><cell cols="6">другие подходы, основанные на методах анализа</cell></row><row><cell cols="6">текстов [13] и рассмотрении совместного</cell></row><row><cell cols="3">библиографического</cell><cell cols="3">цитирования</cell><cell>между</cell></row><row><cell cols="3">документами [14].</cell><cell></cell><cell></cell></row><row><cell cols="3">7 Заключение</cell><cell></cell><cell></cell></row><row><cell cols="6">Насколько известно авторам, проведенное</cell></row><row><cell cols="2">исследование</cell><cell>по</cell><cell cols="3">определению</cell><cell>структур</cell></row><row><cell cols="6">заимствований в диссертациях является первым в</cell></row><row><cell cols="6">своем роде. Исследованные гипотезы и вопросы</cell></row><row><cell cols="6">ранее не выдвигались. Поэтому так же важно, что</cell></row><row><cell cols="6">были отработаны методы исследования.</cell></row><row><cell cols="6">Проведенное исследование продемонстрировало</cell></row><row><cell cols="6">техническую возможность проведения анализа</cell></row><row><cell cols="6">заимствований в крупных текстовых коллекциях с</cell></row><row><cell cols="2">применением</cell><cell cols="2">системы</cell><cell cols="2">«Антиплагиат»</cell><cell>в</cell></row><row><cell cols="6">совокупности с методами анализа данных для</cell></row><row><cell cols="6">фильтрации потока диссертационных работ и</cell></row><row><cell cols="6">выделения документов, для которых необходим</cell></row><row><cell cols="5">последующий экспертный анализ.</cell></row><row><cell>Было</cell><cell></cell><cell cols="2">обнаружено,</cell><cell>что</cell><cell>большинство</cell></row><row><cell cols="6">проверенных диссертаций не имеют значимых</cell></row><row><cell cols="6">заимствований. Однако не менее 500 работ имеют</cell></row><row><cell cols="6">существенный объем более 33% общих текстовых</cell></row><row><cell cols="6">фрагментов с другими диссертациями, что может</cell></row><row><cell cols="6">указывать либо на наличие общих источников</cell></row><row><cell cols="6">заимствования, либо на прямое заимствование.</cell></row><row><cell>В</cell><cell cols="2">построенном</cell><cell cols="2">графе</cell><cell>заимствований</cell></row><row><cell cols="2">обнаружены</cell><cell cols="2">коллективы</cell><cell>и</cell><cell>«сообщества»</cell></row><row><cell cols="6">диссертаций, по-видимому, связанные с процессом</cell></row><row><cell cols="6">их подготовки. Сообщества с большим объемом</cell></row><row><cell cols="6">заимствований между диссертациями отнесены к</cell></row><row><cell cols="6">коллективам, в которых налажен процесс подготовки текстов диссертаций путем компиляции из готовых источников. Результаты исследований были предоставлены на рассмотрение экспертам РГБ и получили положительную оценку. В дальнейшем планируется проведение подобных исследований и в других областях науки.</cell><cell>Диссертации, защищаемые в области наук, в целом отражают структуру и состояние исследований в своей области, и представляют отдельный интерес как объект научного исследования. Исследования диссертаций и научных работ, связей между ними проводились ранее в других областях [8-13]. В работах [8, 9] проведено исследование диссертаций и авторефератов с целью</cell></row><row><cell></cell><cell></cell><cell></cell><cell></cell><cell></cell><cell>выявления научных школ, связей между научными</cell></row><row><cell></cell><cell></cell><cell></cell><cell></cell><cell></cell><cell>руководителями и диссертантами, использованы</cell></row><row><cell></cell><cell></cell><cell></cell><cell></cell><cell></cell><cell>методы</cell><cell>анализа</cell><cell>текстов.</cell><cell>В</cell><cell>исследовании</cell></row><row><cell></cell><cell></cell><cell></cell><cell></cell><cell></cell><cell>авторефератов</cell><cell>докторских</cell><cell>диссертаций [10]</cell></row><row><cell></cell><cell></cell><cell></cell><cell></cell><cell></cell><cell>проведен анализ качества подготовки диссертаций</cell></row><row><cell></cell><cell></cell><cell></cell><cell></cell><cell></cell><cell>за 2008-2011 годы по материалам, опубликованным</cell></row><row><cell></cell><cell></cell><cell></cell><cell></cell><cell></cell><cell>на сайте ВАК.</cell></row><row><cell></cell><cell></cell><cell></cell><cell></cell><cell></cell><cell>Проведенное</cell><cell>исследование</cell><cell>отличается</cell></row><row><cell></cell><cell></cell><cell></cell><cell></cell><cell></cell><cell>использованием данных ЭБД РГБ [7], полных</cell></row><row><cell></cell><cell></cell><cell></cell><cell></cell><cell></cell><cell>текстов диссертаций, рассмотрением диссертаций</cell></row><row><cell></cell><cell></cell><cell></cell><cell></cell><cell></cell><cell>по</cell><cell>историческим</cell><cell>наукам</cell><cell>и</cell><cell>механизмом</cell></row><row><cell></cell><cell></cell><cell></cell><cell></cell><cell></cell><cell>установления связей между диссертациями -по</cell></row><row><cell></cell><cell></cell><cell></cell><cell></cell><cell></cell><cell>текстовым заимствованиям, и методами анализа</cell></row></table></figure>
		</body>
		<back>
			<div type="references">

				<listBibl>

<biblStruct xml:id="b0">
	<monogr>
		<author>
			<persName><forename type="first">Н</forename><forename type="middle">В</forename><surname>Авдеева</surname></persName>
		</author>
		<author>
			<persName><forename type="first">П</forename><forename type="middle">В</forename><surname>Ботов</surname></persName>
		</author>
		<author>
			<persName><forename type="first">А</forename><forename type="middle">С</forename><surname>Букаев</surname></persName>
		</author>
		<author>
			<persName><forename type="first">А</forename><forename type="middle">И</forename><surname>Вислый</surname></persName>
		</author>
		<author>
			<persName><forename type="first">И</forename><surname>Груздев</surname></persName>
		</author>
		<title level="m">Чехович Ю.В. Внедрение системы «Антиплагиат» в Российской государственной библиотеке // Интеллектуализация обработки информации: 8-я международная конференция. Республика Кипр, г. Пафос</title>
				<editor>
			<persName><surname>Макс Пресс</surname></persName>
		</editor>
		<imprint>
			<date type="published" when="2010">2010. 2010</date>
			<biblScope unit="page" from="499" to="503" />
		</imprint>
	</monogr>
</biblStruct>

<biblStruct xml:id="b1">
	<analytic>
		<title level="a" type="main">Fast unfolding of communities in large networks</title>
		<author>
			<persName><forename type="first">V</forename><forename type="middle">D</forename><surname>Blondel</surname></persName>
		</author>
		<author>
			<persName><forename type="first">J.-L</forename><surname>Guillaume</surname></persName>
		</author>
		<author>
			<persName><forename type="first">R</forename><surname>Lambiotte</surname></persName>
		</author>
		<author>
			<persName><forename type="first">E</forename><surname>Lefebvre</surname></persName>
		</author>
	</analytic>
	<monogr>
		<title level="j">Journal of Statistical Mechanics: Theory and Experiment</title>
		<imprint>
			<biblScope unit="issue">10</biblScope>
			<biblScope unit="page">P10008</biblScope>
			<date type="published" when="2008">2008. 2008</date>
		</imprint>
	</monogr>
</biblStruct>

<biblStruct xml:id="b2">
	<monogr>
		<author>
			<persName><forename type="first">R</forename><surname>Lambiotte</surname></persName>
		</author>
		<author>
			<persName><forename type="first">J</forename><forename type="middle">C</forename><surname>Delvenne</surname></persName>
		</author>
		<author>
			<persName><forename type="first">M</forename><surname>Barahona</surname></persName>
		</author>
		<idno type="arXiv">arXiv:0812.1770</idno>
		<title level="m">Laplacian dynamics and multiscale modular structure in networks</title>
				<imprint>
			<date type="published" when="2008">2008</date>
		</imprint>
	</monogr>
	<note type="report_type">Arxiv preprint</note>
</biblStruct>

<biblStruct xml:id="b3">
	<monogr>
		<ptr target="http://www.antiplagiat.ru" />
		<title level="m">Система «Антиплагиат</title>
				<imprint/>
	</monogr>
	<note>ЗАО Анти-Плагиат</note>
</biblStruct>

<biblStruct xml:id="b4">
	<monogr>
		<title level="m" type="main">Plagiarism prevention engine</title>
		<author>
			<persName><forename type="first">Llc</forename><surname>Iparadigms</surname></persName>
		</author>
		<author>
			<persName><surname>Turnitin</surname></persName>
		</author>
		<ptr target="http://www.turnitin.com" />
		<imprint/>
	</monogr>
</biblStruct>

<biblStruct xml:id="b5">
	<monogr>
		<author>
			<persName><forename type="first">Р</forename><forename type="middle">В</forename><surname>Шарапов</surname></persName>
		</author>
		<author>
			<persName><forename type="first">Е</forename><surname>Шарапова</surname></persName>
		</author>
		<title level="m">.В. Система проверки текстов на заимствования из других источников // Труды 13-й Всероссийской научной конференции «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» -RCDL&apos;2011</title>
				<imprint>
			<publisher>Воронеж</publisher>
			<date type="published" when="2011">2011</date>
			<biblScope unit="page" from="121" to="126" />
		</imprint>
	</monogr>
</biblStruct>

<biblStruct xml:id="b6">
	<monogr>
		<author>
			<persName><forename type="first">О</forename><forename type="middle">А</forename><surname>Лавренова</surname></persName>
		</author>
		<title level="m">Развитие проекта библиотеки электронных диссертаций и авторефератов в открытом доступе // Образовательные технологии и общество</title>
				<imprint>
			<publisher>Educational Technology &amp; Society</publisher>
			<date type="published" when="2006">2006</date>
			<biblScope unit="volume">9</biblScope>
			<biblScope unit="page" from="335" to="341" />
		</imprint>
	</monogr>
	<note>-Казань: Изд-во Казанский государственный технологический университет</note>
</biblStruct>

<biblStruct xml:id="b7">
	<monogr>
		<author>
			<persName><forename type="first">Ю</forename><forename type="middle">В</forename><surname>Леонова</surname></persName>
		</author>
		<author>
			<persName><forename type="first">А</forename><forename type="middle">М</forename><surname>Федотов</surname></persName>
		</author>
		<idno>-Ярославль: ЯрГУ</idno>
		<title level="m">Извлечение знаний и фактов из текстов диссертаций и авторефератов для изучения связей научных сообществ // Труды 15-й Всероссийской научной конференции «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» -RCDL-2013</title>
				<meeting><address><addrLine>Ярославль, Россия</addrLine></address></meeting>
		<imprint>
			<date type="published" when="2013">14-17 октября 2013. 2013</date>
			<biblScope unit="page" from="135" to="144" />
		</imprint>
	</monogr>
</biblStruct>

<biblStruct xml:id="b8">
	<monogr>
		<author>
			<persName><forename type="first">Ю</forename><forename type="middle">В</forename><surname>Леонова</surname></persName>
		</author>
		<author>
			<persName><forename type="first">А</forename><forename type="middle">А</forename><surname>Добрынин</surname></persName>
		</author>
		<author>
			<persName><forename type="first">А</forename><surname>Веснин</surname></persName>
		</author>
		<title level="m">.Ю. Построение графа диссертаций // XIV Российская конференция с участием иностранных ученых «Распределенные информационные и вычислительные ресурсы» (DICR-2012): программа конференции и тезисы докладов (Новосибирск, Россия</title>
				<imprint>
			<date type="published" when="2012">2012. 2012</date>
			<biblScope unit="volume">17</biblScope>
			<biblScope unit="page" from="26" to="30" />
		</imprint>
	</monogr>
	<note>Новосибирск: ИВТ СО РАН</note>
</biblStruct>

<biblStruct xml:id="b9">
	<monogr>
		<author>
			<persName><forename type="first">С</forename><surname>Донецкая</surname></persName>
		</author>
		<title level="m">Статистическое исследование структуры и качества подготовки докторских диссертаций в России // Вопросы статистики</title>
				<imprint>
			<date type="published" when="2012">2012</date>
			<biblScope unit="volume">12</biblScope>
			<biblScope unit="page" from="71" to="76" />
		</imprint>
	</monogr>
</biblStruct>

<biblStruct xml:id="b10">
	<monogr>
		<author>
			<persName><forename type="first">Е</forename><forename type="middle">В</forename><surname>Бескаравайная</surname></persName>
		</author>
		<author>
			<persName><forename type="first">И</forename><surname>Митрошин</surname></persName>
		</author>
		<title level="m">Анализ базы данных диссертаций ПНЦ РАН // Информационное обеспечение науки</title>
				<editor>
			<persName><forename type="first">Н</forename><forename type="middle">Тр Е</forename><surname>Науч</surname></persName>
		</editor>
		<editor>
			<persName><surname>Каленов</surname></persName>
		</editor>
		<imprint>
			<publisher>Научный Мир</publisher>
			<date type="published" when="2011">2011</date>
			<biblScope unit="page" from="124" to="133" />
		</imprint>
	</monogr>
	<note>Новые технологии: cб</note>
</biblStruct>

<biblStruct xml:id="b11">
	<analytic>
		<title level="a" type="main">Количественноинформационный анализ потока публикаций по библиотекам и библиотековедению на основе поиска по ключевым словам</title>
		<author>
			<persName><forename type="first">Ю</forename><forename type="middle">Н</forename></persName>
		</author>
	</analytic>
	<monogr>
		<title level="m">в базе данных Science-Direct // Межотраслевая информационная служба</title>
				<imprint>
			<date type="published" when="2011">Климов. 2011</date>
			<biblScope unit="page" from="51" to="58" />
		</imprint>
	</monogr>
</biblStruct>

<biblStruct xml:id="b12">
	<analytic>
		<author>
			<persName><forename type="first">В</forename><forename type="middle">Н</forename><surname>Захаров</surname></persName>
		</author>
		<author>
			<persName><forename type="first">А</forename><forename type="middle">А</forename><surname>Хорошилов</surname></persName>
		</author>
		<idno>окт. 2012 г. -С. 189-195</idno>
	</analytic>
	<monogr>
		<title level="m">Автоматическая оценка подобия тематического содержания текстов на основе сравнения их формализованных смысловых описаний // Труды 14-й Всероссийской научной конференции «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» -RCDL-2012</title>
				<imprint>
			<biblScope unit="page" from="15" to="18" />
		</imprint>
	</monogr>
</biblStruct>

<biblStruct xml:id="b13">
	<analytic>
		<title level="a" type="main">Citation Proximity Analysis (CPA) -A new approach for identifying related work based on Co-Citation Analysis</title>
		<author>
			<persName><forename type="first">Bela</forename><surname>Gipp</surname></persName>
		</author>
		<author>
			<persName><forename type="first">Joeran</forename><surname>Beel</surname></persName>
		</author>
	</analytic>
	<monogr>
		<title level="m">Proceedings of the 12th International Conference on Scientometrics and Informetrics (ISSI&apos;09)</title>
				<editor>
			<persName><forename type="first">Birger</forename><surname>Larsen</surname></persName>
		</editor>
		<editor>
			<persName><forename type="first">Jacqueline</forename><surname>Leta</surname></persName>
		</editor>
		<meeting>the 12th International Conference on Scientometrics and Informetrics (ISSI&apos;09)<address><addrLine>Rio de Janeiro (Brazil</addrLine></address></meeting>
		<imprint>
			<date type="published" when="2009-07">2009. July 2009</date>
			<biblScope unit="volume">2</biblScope>
			<biblScope unit="page" from="571" to="575" />
		</imprint>
	</monogr>
</biblStruct>

<biblStruct xml:id="b14">
	<monogr>
		<author>
			<persName><forename type="first">Д</forename><forename type="middle">Э</forename><surname>Розенталь</surname></persName>
		</author>
		<author>
			<persName><forename type="first">Е</forename><forename type="middle">В</forename><surname>Джанджакова</surname></persName>
		</author>
		<author>
			<persName><forename type="first">Н</forename><surname>Кабанова</surname></persName>
		</author>
		<title level="m">.П. Справочник по правописанию, произношению, литературному редактированию. -Издание второе, исправленное</title>
				<imprint>
			<date type="published" when="1998">1998</date>
			<biblScope unit="page">400</biblScope>
		</imprint>
	</monogr>
</biblStruct>

<biblStruct xml:id="b15">
	<monogr>
		<title level="m">Библиографическая ссылка, общие требования и правила составления</title>
				<imprint>
			<biblScope unit="volume">7</biblScope>
			<biblScope unit="page" from="5" to="2008" />
		</imprint>
	</monogr>
</biblStruct>

<biblStruct xml:id="b16">
	<monogr>
		<ptr target="http://www.cs.waikato.ac.nz/~ml/weka/" />
		<title level="m">Weka Toolkit</title>
				<imprint/>
		<respStmt>
			<orgName>University of Waitako</orgName>
		</respStmt>
	</monogr>
</biblStruct>

<biblStruct xml:id="b17">
	<monogr>
		<title level="m" type="main">Programs for Machine learning</title>
		<author>
			<persName><forename type="first">J</forename><forename type="middle">Ross</forename><surname>Quinlan</surname></persName>
		</author>
		<imprint>
			<date type="published" when="1993">1993</date>
			<publisher>Morgan Kaufmann Publishers</publisher>
			<biblScope unit="volume">4</biblScope>
		</imprint>
	</monogr>
</biblStruct>

<biblStruct xml:id="b18">
	<monogr>
		<author>
			<persName><forename type="first">К</forename><forename type="middle">Д</forename><surname>Маннинг</surname></persName>
		</author>
		<author>
			<persName><forename type="first">П</forename><surname>Рагхаван</surname></persName>
		</author>
		<author>
			<persName><forename type="first">Х</forename><surname>Шютце</surname></persName>
		</author>
		<title level="m">Введение в информационный поиск</title>
				<imprint>
			<date type="published" when="2011">2011</date>
			<biblScope unit="page">528</biblScope>
		</imprint>
	</monogr>
</biblStruct>

<biblStruct xml:id="b19">
	<monogr>
		<author>
			<persName><forename type="first">Н</forename><forename type="middle">В</forename><surname>Авдеева</surname></persName>
		</author>
		<author>
			<persName><forename type="first">О</forename><surname>Никулина</surname></persName>
		</author>
		<title level="m">Сологубов А.М. Система «Антиплагиат.РГБ» и недобросовестные авторы диссертаций: кто победит? // Научная периодика: проблемы и решения</title>
				<imprint>
			<date type="published" when="2012">2012</date>
			<biblScope unit="page" from="11" to="16" />
		</imprint>
	</monogr>
</biblStruct>

<biblStruct xml:id="b20">
	<monogr>
		<author>
			<persName><forename type="first">Н</forename><forename type="middle">В</forename><surname>Авдеева</surname></persName>
		</author>
		<author>
			<persName><forename type="first">Г</forename><surname>Лобанова</surname></persName>
		</author>
		<title level="m">according to HAC classification). Using algorithmic, statistical and network analysis methods we discovered groups of highly related dissertations, which intensely borrowed from each other, which we call &quot;science</title>
				<editor>
			<persName><forename type="first">S</forename><forename type="middle">S V</forename><surname>Surovenko</surname></persName>
		</editor>
		<editor>
			<persName><forename type="first">D</forename><forename type="middle">V</forename><surname>Tsarkov</surname></persName>
		</editor>
		<imprint>
			<date type="published" when="2014">2014</date>
			<biblScope unit="page" from="2" to="6" />
		</imprint>
	</monogr>
	<note>.А. Классификация фрагментов текста при экспертизе диссертаций на предмет заимствований (плагиата) // «Информационные ресурсы России»: науч.-практ. shops&quot;, found so-called &quot;compiled&quot; works and probable sources of such compilations</note>
</biblStruct>

				</listBibl>
			</div>
		</back>
	</text>
</TEI>
