=Paper=
{{Paper
|id=Vol-1752/paper30
|storemode=property
|title=
Метод выявления заимствований в текстах разноязычных документов
(A Method of Automatic Plagiarism Detection in Multilingual Documents)
|pdfUrl=https://ceur-ws.org/Vol-1752/paper30.pdf
|volume=Vol-1752
|authors=Victor Zakharov,Alexcandr Khoroshilov,Alexey Khoroshilov
|dblpUrl=https://dblp.org/rec/conf/rcdl/ZakharovKK16
}}
==
Метод выявления заимствований в текстах разноязычных документов
(A Method of Automatic Plagiarism Detection in Multilingual Documents)
==
Метод выявления заимствований в текстах разноязычных документов © В. Н. Захаров © Ал-др А. Хорошилов © Ал-ей А. Хорошилов ФИЦ ИУ РАН, Москва VZakharov@ipiran.ru Khoroshilov@mail.ru A.A.Horoshilov@mail.ru критерии выявления плагиата регламентированы не столь серьезно. Но во многих ведущих ВУЗах Аннотация введены положения, которые подробно определяют ответственность учащихся за любые виды В работе рассматривается метод автоматического заимствований в своих работах. Для выявления выявления заимствований в текстах разноязычных заимствований во многих учреждениях образования документов, основанный на сопоставлении их и науки функционируют специальные формализованных представлений. При решении информационные системы. К сожалению, данной задачи была разработана модель возможности этих систем серьезно ограничены и они представления смысловой структуры текстов и не позволяют выявлять заимствования при методы формализации и установления смысловой существенном изменении недобросовестным близости между фрагментами сравниваемых автором лексического состава или структуры разноязычных текстов. Основным преимуществом исходного текста, а также заимствования из текстов, данного метода является то, что он позволяют представленных на другом языке. эффективно выявить различного рода заимствования, включая более сложные случаи 1.2 Обзор существующих подходов к задаче плагиата. выявления заимствований в текстах разноязычных документов Статья подготовлена при частичной поддержке гранта РФФИ 16-07-01028. В настоящее время задача выявления заимствований в текстах разноязычных документов 1 Введение недостаточно изучена в нашей стране. Поэтому не существует инструментария, позволяющего 1.1 Проблема выявления заимствований в выявлять заимствования из иностранной текстах документов литературы. В то же время в работах иностранных ученых эта проблема активно изучается. Так в работе Наличие заимствований в работах, относящихся к [1] авторы сводят процесс поиска плагиата к трем сфере образования и науки, является на данный этапам: 1) Поиск документов-кандидатов. Для этого момент серьезной проблемой во многих странах документ автоматически переводится. Затем из мира. В связи с этим в зарубежной академической документа извлекаются ключевые слова, которые практике западных университетов и научных после этого используются для поиска документов- журналов существуют документы, регулирующие кандидатов. 2) Подробный анализ документов- правила заимствований текста и оформления кандидатов. Для этого могут использоваться три соответствующих ссылок на источники, а также поисковые модели: модель 3-грамм; явная модель четко прописаны критерии отнесения некорректных семантического анализа, модель анализа подобия на заимствований к плагиату в различных формах. основе межъязыкового выравнивания. На основе Плагиатом, как правило, считается любое использования данных моделей принимается использование чужих идей и высказываний без решение о наличии в документах-кандидатах должной отсылки к источнику. Заимствованием плагиата. 3) Документы-кандидаты подробно также считается пересказ текста другого источника, анализируются для того, чтобы выявлять случаи, не сопровождающийся указанием на источник когда найденные заимствования не являются заимствования идей. В нашей стране, к сожалению, плагиатом, например, если скопированные разделы являются цитатами. Труды XVIII Международной конференции В работе [2] авторы предлагают разделить DAMDID/RCDL’2016 «Аналитика и управление процесс поиска плагиата на 4 этапа: 1) фаза данными в областях с интенсивным предварительной обработки (разбиение на лексемы, использованием данных», Ершово, 11-14 октября удаление стоп-слов); 2) извлечение ключевых слов и 2016 перевод; 3) выбор документов-кандидатов; 4) поиск 181 плагиата с помощью методов, используемых для конкретного наименования понятия и его одноязычных текстов. Данный метод был разработан контекстного окружения. для сопоставления текстов на арабском и английском Преобразование текстового представления в его языках. Эксперимент показал довольно высокие формализованное смысловое представление дает показатели полноты и точности. возможность сопоставления текстов по их В работе [3] авторы предлагают метод под смысловому содержанию[12-13,15]. Такое названием MLPlag, основанный на анализе сопоставление смыслового содержания текстов, местоположения слов. В данной работе используется обеспечивающее выявление близких по смыслу тезаурус EuroWordNet для формирования фрагментов текстов, на наш взгляд, должно независимого от языка представления текста. удовлетворять следующим условиям: Детальное сравнение текстов проводится путем В двух текстах должна быть пересекающаяся вычисления симметричных и асимметричных мер совокупность наименований понятий. Число подобия. понятий этой совокупности должно быть равно или Рассмотренные и другие схожие методы [1-11], превышать число наименований понятий, входящих разработанные зарубежными учеными, в состав единичного высказывания. демонстрируют основные тенденции решения задачи В двух таких текстах должны быть фрагменты, в выявления заимствований в текстах разноязычных которых концентрация пересекающихся документов. Основным недостатком, который наименований понятий превышает пороговое присутствует во всех этих работах, на наш взгляд, значение. Эти фрагменты должны иметь является попытка разделять документ на отдельные соизмеримые размеры. слова, которые затем авторы методов пытаются Эти фрагменты текстов должны быть сходными перевести отдельно от контекста. Такой подход по составу наименований понятий и порядку их может привести к значительному числу ошибок. следования. Определение схожего порядка следования 2 Выявление заимствований в текстах наименований понятий в тексте или его фрагменте разноязычных документов базируется на предположении, что смысл наименований понятий в значительной степени 2.1 Теоретическое представление о смысловой определяется их контекстным окружением [24-26]. структуре текста В нашей модели смысл текста определяется как смысловое содержание совокупности В качестве базовой теоретической концепции при взаимосвязанных наименований понятий, разработке метода выявления заимствований в расположенных в нем в определенном порядке. текстах разноязычных документов использовалась Идентичные по смыслу тексты или их фрагменты концепция проф. Г.Г. Белоногова и проф. Р.С. должны удовлетворять условиям локальной и Гиляревского, констатирующая, что смысловое глобальной смысловой схожести. Локальная содержание текстов выражается с помощью единиц смысловая схожесть (ЛСС) наименований понятий смысла, входящих в их состав. По их мнению, текста определяется как сходство контекстного наиболее устойчивыми единицами смысла являются окружения идентичных наименований понятий в понятия. Проф. Г.Г. Белоногов определяет термин двух текстах или их фрагментах. Глобальная «понятие» как «социально значимый мыслительный смысловая схожесть (ГСС) текстов или их образ, за которым в языке закреплено его фрагментов определяется как сходство состава наименование в виде отдельного слова или, идентичных наименований понятий и порядка их значительно чаще, в виде устойчивого следования в текстах или их фрагментах. Каждое фразеологического словосочетания…» [14,18,27]. понятие этого фрагмента также должно Понятия занимают центральное место в языке и речи удовлетворять условию локальной смысловой и являются теми базовыми строительными блоками, схожести. на основе которых формируются смысловые Предлагаемая модель позволяет выявить близкие единицы более высоких уровней. по тематике тексты или их фрагменты, после чего Также при разработке метода были использованы они, при необходимости, могут проверяться на конструктивные признаки текста: глобальная и смысловую идентичность. локальная связности текстов [16,17,18]. Глобальная связность обеспечивает раскрытие темы документа, 2.2 Алгоритм выявления заимствований в а локальная связность проявляется во взаимосвязи текстах разноязычных документов между соседними единицами текста. В соответствии В результате проведенных исследований был с нашей моделью под глобальной смысловой разработан алгоритм выявления заимствований в связностью текста или его фрагмента будем текстах разноязычных документов. Необходимым понимать смысловую связь совокупности условием для реализации этого алгоритма является наименований понятий текста или его фрагмента, использование многоязычного словаря расположенных в определённом порядке. Под унифицированных формализованных представлений локальной смысловой связностью текста или его наименований понятий. На данный момент в этом фрагмента будем понимать смысловую связь словаре содержатся слова и словосочетания на 182 русском и английском языках (общий объем словаря Шаг 7. Для каждой установленной в п.5 пары 3.5 млн. наименований понятий). Фрагмент близких по смыслу фрагментов текстов определяется многоязычного словаря унифицированных локальная смысловая схожесть всех наименований формализованных представлений наименований понятий этих фрагментов. понятий приведен в таблице 1. Шаг 8. Выбираются последовательности наименований понятий, имеющих значения Таблица 1 Фрагмент многоязычного словаря локальной смысловой схожести выше заданного унифицированных формализованных представлений порога. Для каждой такой последовательности наименований понятий наименований понятий обоих текстов вычисляется степень их глобальной смысловой схожести. № Основное Синонимы Эквиваленты n/n значение в на другом 2.3 Модель процесса выявления заимствований в словаре языке текстах разноязычных документов (английский) … … … … Модель для представления смыслового 816437 нефтехранил Нефтесклад / oil reservoir / oil содержания текста в случае работы с разноязычными ище хранилище storage / документами будет незначительно отличаться от petroleum storage / tank использованной в предыдущих работах[19-23]. farm КОДКО – концептуальный образ документа, 816438 нефть Каустобиолит / mineral oil / дополненный контекстным окружением петролеум / naphtha / oil / черный золото petrol / наименований понятий. petroleum / КОДКО = { НП i , К i | i [1, n НП ]} , rock-oil 816439 нефтяник нефтедобытчик Oilman / oil- где НП i ( ННПСi , Адрi , ОСРНПi , ЯНПi ) ; industry worker НП i – информация об i -ом наименовании понятия; … … … … ННПСi – номер наименования понятия в словаре многоязычном словаре унифицированных Также для работы этого алгоритма необходимы формализованных представлений наименований процедуры обработки текста для поддерживаемых понятий; языков. На данный момент используются процедуры Адр i – адреса вхождений наименования понятия в для обработки текстов на русском и английском тексте; языках. ОСРНП i – символ обобщенной синтаксической Далее приведем порядок выполнения алгоритма роли i -ого наименования понятия; выявления заимствований в текстах разноязычных документов. ЯНП i – язык i -ого наименования понятия; Шаг 1. Определяется язык анализируемого текста. n НП – количество наименований понятий; Шаг 2. Выявляется совокупность значимых К i - множество контекстов i – ого наименования наименований понятий с указанием местоположений понятия, контексты описываются похожим образом: этих понятий в тексте. К i = {НПК ik | k [1, n НПK i ]} ; Шаг 3. Каждое наименование понятия с помощью процедуры автоматической пословной НПK ik ( ННПСik , Адрik , ОСРНП ik , КЗК ik ) ; нормализации и словаря унифицированного КЗКik – коэффициент значимости контекста; формализованного представления наименований понятий приводится к унифицированной форме и Одним из важнейших этапов процесса выявления ему присваивается номер из многоязычного словаря заимствований является вычисление мер унифицированных формализованных представлений выполнения условия локального и глобального наименований понятий. смыслового сходства. Значение меры мik Шаг 4. Производится поиск совпадающих номеров выполнения условия локального смыслового наименований понятий в массиве формализованных сходства для каждого наименования понятия из представлений документов. КОДКО сравниваемых документов (в случае мik 0 Шаг 5. Для рассматриваемого документа данное условие – не выполнено, при мik 0 – устанавливается перечень документов (документы выполнено частично, а при м ik 1 – выполнено могут быть на любом из поддерживаемых языков) полностью) вычисляется следующим образом: близких ему по смысловому содержанию. Если снп ( НП pi , НП jk ) =0 , то мik 0 , иначе Шаг 6. Для пары документов - рассматриваемого снп(НП pi , НП jk ) 2ско(К pil , K jkm ) документа и каждого из документов, найденных в п. мik 5, устанавливаются пары наиболее близких по 3 3 смысловому содержанию фрагментов ско() – функция сравнения контекстного окружения анализируемых текстов. наименований понятий; 183 1 , фвзбк(К a , K b ) > 1 3 Эксперимент выявления ско(К a , K b ) фвзбк(К a , K b ) , фвзбк(К a , K b ) < 1 заимствований в текстах разноязычных ско() – функция вычисления значения близости документов контекстов; Для проверки работоспособности метода и n НПКa n НПКb возможности его использования в технологическом ∑ фвппэ(НПKac , НПKbd ) процессе выявления заимствований было принято c0 d 0 решение провести небольшой эксперимент и фвзбк(Кa , K b ) 4k к посчитать показатели эффективности метода (полнота, точность и F1-мера). Для этого была фвппэ() – функция вычисления параметра собрана коллекция из 150 параллельных текстов похожести элементов контекстного окружения; (английский текст и его аутентичный перевод) по kк - размер контекста наименования понятия. общественно-политической тематике. В процессе эксперимента русскоязычные тексты делились на снп(НП pi , НП jk ) – функция определения предложения, для каждого из предложений определялись наиболее близкие по смысловому эквивалентности наименований понятий, причем содержанию предложения англоязычных текстов. снп(НП pi , НП jk ) ∈ { 0 ,1} , НП pi – i -ый элемент Пример установления смысловой близости двух формализованного смыслового описания разноязычных текстов приведен в таблице 2. рассматриваемого документа, НП jk – k-ый элемент Таблица 2 Фрагменты параллельных текстов формализованного смыслового описания j-ого Текст на русском языке Текст на английском языке документа контрольного массива. ….. ….. Условием глобального смыслового сходства Российские лидеры, конечно, Russia's leaders certainly do является сходство порядка следования беспокоятся о ценах на нефть, care about oil prices, and with и для этого есть серьезная good reason. Plunging oil наименований понятий, но, поскольку порядок причина. Из-за падения цен prices decrease the ruble's следования наименований понятий учтен при на нефть падает стоимость value, which closely follows oil рубля, сильно зависящая от prices. Oil exports are подсчете коэффициентов мik , с точностью до этого показателя. Экспорт important to Russia's federal нефти важен для budget and to its overall перестановок слов и словосочетаний, которые федерального бюджета и balance of trade. Indeed, when возможны в идентичных по смыслу текстах на одном баланса внешней торговли monthly average Brent oil России. Действительно, когда prices peaked at about $125 per языке или при переводе с одного языка на другой. месячный курс цен на нефть barrel in March 2012, the ruble Для проверки выполнения условия глобального марки Brent подскочил до 125 was close to its own peak, at смыслового сходства необходимо произвести поиск долларов за баррель в марте approximately twenty-nine 2012 года, стоимость рубля rubles to every U.S. dollar. последовательностей наименований понятий, у приближалась к своему пику, When Brent prices fell to которых значения локальной смысловой схожести около 29 рублей за один $30.70 per barrel in January доллар. Когда цены на нефть 2016, the ruble had fallen to мik k упали до 30,70 доллара за about eighty rubles to the выше некого заданного порога псх . Мера баррель в январе 2016 года, dollar. выполнения условия глобального смыслового стоимость рубля упала до 80 ….. сходства вычисляется как среднее значение рублей за доллар. ….. характеристик выполнения условия локального смыслового сходства содержащихся в этих последовательностях наименований понятий. Эта величина и будет являться коэффициентом Информация о текстах, участвующих в смыслового сходства фрагментов текстов: эксперименте, приведена в таблице 3. n НП p max k ( мik ) Таблица 3 Информация о параллельных текстах i 0 k сх nНП p Тексты на Тексты на русском языке английском языке max ( мik ) – максимальное значение мik , Количество 150 150 k текстов при k [ 1, n НП j ]; nНПp – число элементов в КОДКО Количество 6021 6021 предложений Количество слов 157231 154863 рассматриваемого документа; nНП j – число элементов в КОДКО j-ого документа многоязычного Информация о результатах эксперимента контрольного массива. приведена в таблице 4. 184 [4] Chung-Hong Lee, Chih-Hong Wu, and Hsin-Chang Yang. 2008.A Platform Framework for Cross- Таблица 4 Значения показателей эффективности lingual Text Relatedness Evaluation and Plagiarism метода Detection . The 3rd International Conference on Innovative Computing Information and Control Полнота Точность F1 – мера (ICI-CIC’08). 0.71 0.99 0.83 [5] Mate Pataki A new approach for searching translated plagiarism . Proceedings of the 5th International Plagiarism Conference. Newcastle, 4 Заключение UK, 2012. В данной статье был предложен метод выявления [6] Ralf Steinberger Cross-lingual similarity calculation заимствований в текстах разноязычных документов, for plagiarism detection and more - Tools and базирующийся на семантико-синтаксическом и resources. Keynotes for PAN 2012: Uncover-ing, концептуальном анализе смысловой структуры Authorship, ad Social Software Misuse,2012. разноязычных текстов. Разработанные на его основе [7] I.TRIFAN PLAGIARISM DETECTION IN A алгоритмы были реализованы в виде MULTILINGUAL ENVIRONMENT // Annals of экспериментального программного обеспечения, DAAAM for 2011 & Proceedings of the 22nd которое обеспечивает обработку текстов на двух International DAAAM Symposium, Volume 22, No. языках (русском и английском). Эффективность 1, ISSN 1726-9679, ISBN 978-3-901509-83-4, предложенного метода была проверена на Editor B. Katalinic, Published by DAAAM небольшой коллекции документов и показала International, Vienna, Austria, EU, 2011 удовлетворительные для первоначального этапа [8] Tuomas Talvensaari Comparable Corpora in Cross- исследований результаты. Далее для улучшения Language Information Retrieval (Academic качества работы метода необходимо будет провести Dissertation). Acta Electronica Universitatis дополнительную работу по модернизации Tamperensis 779, 2008. алгоритмов и программного обеспечения, а также [9] Diego Antonio Rodrıguez Torrejon, and Jose выполнить существенное пополнение словарей Manuel Martı Ramos Crosslingual CoReMo новой лексикой. Указанные мероприятия позволят System. Notebook for PAN at CLEF 2011. значительно улучшить качество работы [10] Alexei Vinokourov, John Shawe-Taylor, and разработанных алгоритмов на текстах, относящихся Nello Cristianini Inferring a Semantic к широкому спектру предметных областей. В Representation of Text via Cross-Language настоящее время на рынке IT-услуг не существует Correlation Analysis. Advances of Neural промышленных программных средств, Information Processing Systems 15,2002. обеспечивающих сопоставление по их смысловому содержанию русскоязычных и англоязычных [11] Philipp Cimiano, Antje Schultz, Sergey Sizov, текстов. В связи с вышеизложенным нам Philipp Sorg, and Steffen Staab Explicit Versus представляется, что предлагаемый метод Latent Concept Models for Cross-Language перспективен и кроме того он может иметь широкий Information Retrieval. Proceedings of the Twenty- спектр приложений. First International Joint Conference on Artificial Intelligence (IJCAI-09), 2009 . Литература [12] Кузнецов И.П. Механизмы обработки семан- тической информации. – М.: Наука, 1978. – 175 [1] Potthast, Martin, Alberto Barron-Cedeno, Benno с. Stein, and Paolo Rosso. 2010. Cross-Language Plagiarism Detection. Language Resources and [13] Осипов Г.С. Приобретение знаний интеллек- Evaluation, Special Issue on Plagiarism and туальными системами: Основы теории и тех- Authorship Analysis, DOI: 10.1007/s10579-009- нологии. – М.: Наука. Физматлит, 1997. – 112 с. 9114-z [14] Белоногов Г.Г. Теоретические проблемы ин- [2] Alaa Zaid, Tiun Sabrina, Abdulameer форматики, Том 2. Семантические проблемы Mohammedhasan Cross-language plagiarism of информатики. Под общей редакцией К.И. Кур- Arabic-English documents using linear logistic бакова. – М.: РЭА им. Г.В. Плеханова, 2008. – regression // Journal of Theoretical and Applied 342 с. Information Technology, Vol. 83, No. 1, [15] Васильев В.Г., Кривенко М.П. Методы авто- 10.01.2016, p. 20-33. матизированной обработки текстов. – М.: ИПИ [3] Ceska Z., Toman, M, Jezek K. Multilingual РАН, 2008. – 301 с. Plagiarism Detection. // Artificial Intelligence: [16] Лукашевич Н.В. Тезаурусы в задачах Methodology, Systems, and Applications, информационного поиска. М:, Изд. Моск. ун-та, Proceedings of the 13th international conference on 2011 г.- 508 с. Artificial Intelligence: Methodology, Systems, and [17] Б. В. Добров, Н. В. Лукашевич Лингвистическая Applications, 2009, pp. 83-92. онтология по естественным наукам и 185 технологиям для приложений в сфере автоматического выявления неявно выраженных информационного поиска Учён. зап. Казан. гос. заимствований в научно-технических текстах.: ун-та. Сер. Физ.-матем. науки, 149:2 (2007), 49– дис. … канд. техн. наук: 05.13.17: защищена 72 09.12.15 – М.: 2015. – 159 с. [18] Соссюр Фердинанд де. Курс общей лингви- [24] Мельчук И.А. Опыт теории лингвистических стики. – М.: Прогресс, 1977. – 370 с. моделей «Смысл ⇔ Текст». – М.: 1974 (2-е изд., [19] Борзых А.И., Брагина Г.А., Хорошилов А.А. 1999). Методы автоматической кластеризации [25] Мельчук И.А. Русский язык в модели «Смысл ⇔ документов в хранилищах научно-технической Текст». – Москва – Вена, 1995. информации для решения задачи поиска плагиата в текстах документов // [26] Апресян Ю.Д., Богуславский И.М., Иомдин Л.Л. Информатизация и связь. – 2012. – Вып. 8. и др. Лингвистическое обеспечение системы [20] Захаров В.Н., Хорошилов А.А. Автоматическая ЭТАП-2. – М.: Наука, 1989. оценка подобия тематического содержания [27] Белоногов Г.Г., Быстров И.И. и др. Автома- текстов на основе сравнения их формали- тический концептуальный анализ текстов. // зованных смысловых описаний // Труды XIV-ой Научно-техническая информация. Сер. 2. – М.: Всерос. науч. конф. «Электронные библио-теки: ВИНИТИ, 2002. – № 10. перспективные методы и технологии, электронные коллекции» – RCDL’2012, г. Пе- [28] Звегинцев В.А. Предложение и его отношение к реславль-Залесский, Россия, 15 – 18 октября языку и речи. – М.: Изд-во Московского 2012 г. университета, 1976. [21] Захаров В.Н., Хорошилов А.А. Методы решения задачи автоматического выявления заимствований в структурированных научно- A method of automatic plagiarism технических документах на основе их семантического анализа // Труды XV-ой Всерос. detection in multilingual documents науч. конф. «Электронные библиотеки: перспективные методы и технологии, Victor N. Zakharov, Alexcandr A. Khoroshilov электронные коллекции» – RCDL’2013, г. Ярославль, 14 – 17 октября 2013 года. Alexey A. Khoroshilov [22] Хорошилов А.А. Методы выявления The paper presents the method of automatic plagiarism имплицитно выраженных заимствований в detection in multilingual documents on the base of научно-технических текстах на основе их comparison of their formalized representations. In концептуального анализа // Труды XVII solving this problem, we developed a model of the Международ-ной конференции «Аналитика и semantic structure of texts. To detect plagiarism, we управление данными в областях с интенсивным developed an algorithm for detection of similar semantic использованием данных» DAMDID/RCDL’2015, fragments in multilingual texts. The main advantage of Обнинск, 13 – 16 октября 2015 года. С. 471-477. this method is that it makes it possible to detect not only [23] Хорошилов А.А. Методы, модели, алгоритмы и minor changes in the structure or lexical structure of the экспериментальное программное обеспечение text, but also more complicated cases in the plagiarism. 186