<!DOCTYPE article PUBLIC "-//NLM//DTD JATS (Z39.96) Journal Archiving and Interchange DTD v1.0 20120330//EN" "JATS-archivearticle1.dtd">
<article xmlns:xlink="http://www.w3.org/1999/xlink">
  <front>
    <journal-meta />
    <article-meta>
      <title-group>
        <article-title>Метод выявления заимствований в текстах разноязычных документов</article-title>
      </title-group>
      <fpage>181</fpage>
      <lpage>186</lpage>
      <abstract>
        <p>В работе рассматривается метод автоматического выявления заимствований в текстах разноязычных документов, основанный на сопоставлении их формализованных представлений. При решении данной задачи была разработана модель представления смысловой структуры текстов и методы формализации и установления смысловой близости между фрагментами сравниваемых разноязычных текстов. Основным преимуществом данного метода является то, что он позволяют эффективно выявить различного рода заимствования, включая более сложные случаи плагиата. Статья подготовлена при частичной поддержке гранта РФФИ 16-07-01028.</p>
      </abstract>
    </article-meta>
  </front>
  <body>
    <sec id="sec-1">
      <title>-</title>
      <p>Наличие заимствований в работах, относящихся к
сфере образования и науки, является на данный
момент серьезной проблемой во многих странах
мира. В связи с этим в зарубежной академической
практике западных университетов и научных
журналов существуют документы, регулирующие
правила заимствований текста и оформления
соответствующих ссылок на источники, а также
четко прописаны критерии отнесения некорректных
заимствований к плагиату в различных формах.
Плагиатом, как правило, считается любое
использование чужих идей и высказываний без
должной отсылки к источнику. Заимствованием
также считается пересказ текста другого источника,
не сопровождающийся указанием на источник
заимствования идей. В нашей стране, к сожалению,
Труды XVIII Международной конференции
DAMDID/RCDL’2016 «Аналитика и управление
данными в областях с интенсивным
использованием данных», Ершово, 11-14 октября
2016
ФИЦ ИУ РАН,</p>
      <p>Москва
Khoroshilov@mail.ru A.A.Horoshilov@mail.ru
критерии выявления плагиата регламентированы не
столь серьезно. Но во многих ведущих ВУЗах
введены положения, которые подробно определяют
ответственность учащихся за любые виды
заимствований в своих работах. Для выявления
заимствований во многих учреждениях образования
и науки функционируют специальные
информационные системы. К сожалению,
возможности этих систем серьезно ограничены и они
не позволяют выявлять заимствования при
существенном изменении недобросовестным
автором лексического состава или структуры
исходного текста, а также заимствования из текстов,
представленных на другом языке.
1.2 Обзор существующих подходов к задаче
выявления заимствований в текстах
разноязычных документов</p>
      <p>
        В настоящее время задача выявления
заимствований в текстах разноязычных документов
недостаточно изучена в нашей стране. Поэтому не
существует инструментария, позволяющего
выявлять заимствования из иностранной
литературы. В то же время в работах иностранных
ученых эта проблема активно изучается. Так в работе
[
        <xref ref-type="bibr" rid="ref1">1</xref>
        ] авторы сводят процесс поиска плагиата к трем
этапам: 1) Поиск документов-кандидатов. Для этого
документ автоматически переводится. Затем из
документа извлекаются ключевые слова, которые
после этого используются для поиска
документовкандидатов. 2) Подробный анализ
документовкандидатов. Для этого могут использоваться три
поисковые модели: модель 3-грамм; явная модель
семантического анализа, модель анализа подобия на
основе межъязыкового выравнивания. На основе
использования данных моделей принимается
решение о наличии в документах-кандидатах
плагиата. 3) Документы-кандидаты подробно
анализируются для того, чтобы выявлять случаи,
когда найденные заимствования не являются
плагиатом, например, если скопированные разделы
являются цитатами.
      </p>
      <p>
        В работе [
        <xref ref-type="bibr" rid="ref2">2</xref>
        ] авторы предлагают разделить
процесс поиска плагиата на 4 этапа: 1) фаза
предварительной обработки (разбиение на лексемы,
удаление стоп-слов); 2) извлечение ключевых слов и
перевод; 3) выбор документов-кандидатов; 4) поиск
плагиата с помощью методов, используемых для
одноязычных текстов. Данный метод был разработан
для сопоставления текстов на арабском и английском
языках. Эксперимент показал довольно высокие
показатели полноты и точности.
      </p>
      <p>
        В работе [
        <xref ref-type="bibr" rid="ref3">3</xref>
        ] авторы предлагают метод под
названием MLPlag, основанный на анализе
местоположения слов. В данной работе используется
тезаурус EuroWordNet для формирования
независимого от языка представления текста.
Детальное сравнение текстов проводится путем
вычисления симметричных и асимметричных мер
подобия.
      </p>
      <p>
        Рассмотренные и другие схожие методы [
        <xref ref-type="bibr" rid="ref1 ref10 ref11 ref2 ref3 ref4 ref5 ref6 ref7 ref8 ref9">1-11</xref>
        ],
разработанные зарубежными учеными,
демонстрируют основные тенденции решения задачи
выявления заимствований в текстах разноязычных
документов. Основным недостатком, который
присутствует во всех этих работах, на наш взгляд,
является попытка разделять документ на отдельные
слова, которые затем авторы методов пытаются
перевести отдельно от контекста. Такой подход
может привести к значительному числу ошибок.
2 Выявление заимствований в текстах
разноязычных документов
2.1 Теоретическое представление о смысловой
структуре текста
      </p>
      <p>В качестве базовой теоретической концепции при
разработке метода выявления заимствований в
текстах разноязычных документов использовалась
концепция проф. Г.Г. Белоногова и проф. Р.С.
Гиляревского, констатирующая, что смысловое
содержание текстов выражается с помощью единиц
смысла, входящих в их состав. По их мнению,
наиболее устойчивыми единицами смысла являются
понятия. Проф. Г.Г. Белоногов определяет термин
«понятие» как «социально значимый мыслительный
образ, за которым в языке закреплено его
наименование в виде отдельного слова или,
значительно чаще, в виде устойчивого
фразеологического словосочетания…» [14,18,27].
Понятия занимают центральное место в языке и речи
и являются теми базовыми строительными блоками,
на основе которых формируются смысловые
единицы более высоких уровней.</p>
      <p>Также при разработке метода были использованы
конструктивные признаки текста: глобальная и
локальная связности текстов [16,17,18]. Глобальная
связность обеспечивает раскрытие темы документа,
а локальная связность проявляется во взаимосвязи
между соседними единицами текста. В соответствии
с нашей моделью под глобальной смысловой
связностью текста или его фрагмента будем
понимать смысловую связь совокупности
наименований понятий текста или его фрагмента,
расположенных в определённом порядке. Под
локальной смысловой связностью текста или его
фрагмента будем понимать смысловую связь
конкретного наименования понятия и его
контекстного окружения.</p>
      <p>Преобразование текстового представления в его
формализованное смысловое представление дает
возможность сопоставления текстов по их
смысловому содержанию[12-13,15]. Такое
сопоставление смыслового содержания текстов,
обеспечивающее выявление близких по смыслу
фрагментов текстов, на наш взгляд, должно
удовлетворять следующим условиям:</p>
      <p>В двух текстах должна быть пересекающаяся
совокупность наименований понятий. Число
понятий этой совокупности должно быть равно или
превышать число наименований понятий, входящих
в состав единичного высказывания.</p>
      <p>В двух таких текстах должны быть фрагменты, в
которых концентрация пересекающихся
наименований понятий превышает пороговое
значение. Эти фрагменты должны иметь
соизмеримые размеры.</p>
      <p>Эти фрагменты текстов должны быть сходными
по составу наименований понятий и порядку их
следования.</p>
      <p>Определение схожего порядка следования
наименований понятий в тексте или его фрагменте
базируется на предположении, что смысл
наименований понятий в значительной степени
определяется их контекстным окружением [24-26].
В нашей модели смысл текста определяется как
смысловое содержание совокупности
взаимосвязанных наименований понятий,
расположенных в нем в определенном порядке.
Идентичные по смыслу тексты или их фрагменты
должны удовлетворять условиям локальной и
глобальной смысловой схожести. Локальная
смысловая схожесть (ЛСС) наименований понятий
текста определяется как сходство контекстного
окружения идентичных наименований понятий в
двух текстах или их фрагментах. Глобальная
смысловая схожесть (ГСС) текстов или их
фрагментов определяется как сходство состава
идентичных наименований понятий и порядка их
следования в текстах или их фрагментах. Каждое
понятие этого фрагмента также должно
удовлетворять условию локальной смысловой
схожести.</p>
      <p>Предлагаемая модель позволяет выявить близкие
по тематике тексты или их фрагменты, после чего
они, при необходимости, могут проверяться на
смысловую идентичность.
2.2 Алгоритм выявления заимствований в
текстах разноязычных документов</p>
      <p>В результате проведенных исследований был
разработан алгоритм выявления заимствований в
текстах разноязычных документов. Необходимым
условием для реализации этого алгоритма является
использование многоязычного словаря
унифицированных формализованных представлений
наименований понятий. На данный момент в этом
словаре содержатся слова и словосочетания на
русском и английском языках (общий объем словаря
3.5 млн. наименований понятий). Фрагмент
многоязычного словаря унифицированных
формализованных представлений наименований
понятий приведен в таблице 1.
Таблица 1 Фрагмент многоязычного словаря
унифицированных формализованных представлений
наименований понятий
№
n/n
Основное
значение в
словаре
… …
816437 нефтехранил</p>
      <p>ище
816438 нефть
816439 нефтяник
…
…
Синонимы Эквиваленты
на другом
языке
(английский)
… …
Нефтесклад / oil reservoir / oil
хранилище storage /
petroleum
storage / tank
farm
Каустобиолит / mineral oil /
петролеум / naphtha / oil /
черный золото petrol /
petroleum /
rock-oil
нефтедобытчик Oilman /
oil</p>
      <p>industry worker
… …
Также для работы этого алгоритма необходимы
процедуры обработки текста для поддерживаемых
языков. На данный момент используются процедуры
для обработки текстов на русском и английском
языках.</p>
      <p>Далее приведем порядок выполнения алгоритма
выявления заимствований в текстах разноязычных
документов.
Шаг 1. Определяется язык анализируемого текста.
Шаг 2. Выявляется совокупность значимых
наименований понятий с указанием местоположений
этих понятий в тексте.
Шаг 3. Каждое наименование понятия с помощью
процедуры автоматической пословной
нормализации и словаря унифицированного
формализованного представления наименований
понятий приводится к унифицированной форме и
ему присваивается номер из многоязычного словаря
унифицированных формализованных представлений
наименований понятий.
Шаг 4. Производится поиск совпадающих номеров
наименований понятий в массиве формализованных
представлений документов.
Шаг 5. Для рассматриваемого документа
устанавливается перечень документов (документы
могут быть на любом из поддерживаемых языков)
близких ему по смысловому содержанию.
Шаг 6. Для пары документов - рассматриваемого
документа и каждого из документов, найденных в п.
5, устанавливаются пары наиболее близких по
смысловому содержанию фрагментов
анализируемых текстов.
Шаг 7. Для каждой установленной в п.5 пары
близких по смыслу фрагментов текстов определяется
локальная смысловая схожесть всех наименований
понятий этих фрагментов.
Шаг 8. Выбираются последовательности
наименований понятий, имеющих значения
локальной смысловой схожести выше заданного
порога. Для каждой такой последовательности
наименований понятий обоих текстов вычисляется
степень их глобальной смысловой схожести.
2.3 Модель процесса выявления заимствований в
текстах разноязычных документов</p>
      <p>
        Модель для представления смыслового
содержания текста в случае работы с разноязычными
документами будет незначительно отличаться от
использованной в предыдущих работах[
        <xref ref-type="bibr" rid="ref12 ref13 ref14">19-23</xref>
        ].
      </p>
      <p>КОДКО – концептуальный образ документа,
дополненный контекстным окружением
наименований понятий.
КОДКО</p>
      <p>= {НП i , К i | i  [1, nНП ]} ,
где НПi  (ННПСi , Адрi ,ОСРНПi , ЯНПi ) ;
НП i – информация об i -ом наименовании понятия;
ННПСi – номер наименования понятия в словаре
многоязычном словаре унифицированных
формализованных представлений наименований
понятий;
Адрi – адреса вхождений наименования понятия в
тексте;
ОСРНП i – символ обобщенной синтаксической
роли i -ого наименования понятия;
ЯНПi – язык i -ого наименования понятия;
nНП – количество наименований понятий;
Кi - множество контекстов i – ого наименования
понятия, контексты описываются похожим образом:
Кi = {НПК ik | k [1, nНПKi ]} ;
НПKik  (ННПСik , Адрik , ОСРНПik , КЗКik ) ;
КЗКik – коэффициент значимости контекста;
Одним из важнейших этапов процесса выявления
заимствований является вычисление мер
выполнения условия локального и глобального
смыслового сходства. Значение меры мik
выполнения условия локального смыслового
сходства для каждого наименования понятия из
КОДКО сравниваемых документов (в случае мik  0
данное условие – не выполнено, при мik  0 –
выполнено частично, а при мik  1 – выполнено
полностью) вычисляется следующим образом:
Если снп (НП pi , НП jk ) =0 , то мik  0 , иначе
мik 
снп(НП pi , НП jk )  2ско(К pil , K jkm )</p>
      <p>3 3
ско() – функция сравнения контекстного окружения
наименований понятий;
 1 ,фвзбк(Кa , K b ) &gt; 1
ско(Кa , K b )  </p>
      <p>фвзбк(Кa , K b ) ,фвзбк(Кa , K b ) &lt; 1
ско()</p>
      <p>– функция вычисления значения близости
контекстов;
фвзбк(Кa , Kb )  c0 d0
nНПКa nНПКb
 ∑ фвппэ(НПKac, НПKbd )</p>
      <p>4kк
фвппэ() –
функция
вычисления
параметра
похожести элементов контекстного окружения;
kк - размер контекста наименования понятия.
снп(НП pi , НП jk )
–
функция
определения
эквивалентности наименований понятий, причем
снп(НП pi , НП jk ) ∈ {0,1} , НП pi
– i -ый элемент
формализованного
смыслового
описания
рассматриваемого документа, НП jk – k-ый элемент
формализованного
смыслового
описания j-ого
документа контрольного массива.</p>
      <p>Условием глобального смыслового сходства
является
сходство
порядка
следования
наименований понятий, но, поскольку порядок
следования наименований
понятий
учтен</p>
      <p>при
мik , с точностью до
подсчете коэффициентов
перестановок слов и словосочетаний, которые
возможны в идентичных по смыслу текстах на одном
языке или при переводе с одного языка на другой.</p>
      <p>Для проверки выполнения условия глобального
смыслового сходства необходимо произвести поиск
последовательностей
наименований
понятий, у
которых значения локальной смысловой схожести
мik</p>
      <p>выше некого заданного порога kпсх . Мера
выполнения
условия
глобального
смыслового
сходства вычисляется как
среднее значение
характеристик выполнения условия локального
смыслового сходства</p>
      <p>содержащихся в этих
последовательностях наименований понятий. Эта
величина
и
будет
являться
коэффициентом
смыслового сходства фрагментов текстов:
kсх  i0 k
nНПp
 max( мik )</p>
      <p>nНПp
max(мik ) – максимальное значение мik ,</p>
      <p>k
при k [1, nНП j ]; nНПp – число элементов в КОДКО
рассматриваемого документа;
nНПj
– число
элементов в КОДКО j-ого документа многоязычного
контрольного массива.
Количество
текстов
Количество
предложений
Количество слов
6021
157231
Информация о
приведена в таблице 4.
3 Эксперимент выявления
заимствований в текстах разноязычных
документов</p>
      <p>Для проверки работоспособности метода и
возможности его использования в технологическом
процессе выявления заимствований было принято
решение провести небольшой эксперимент и
посчитать показатели эффективности метода
(полнота, точность и F1-мера). Для этого была
собрана коллекция из 150 параллельных текстов
(английский текст и его аутентичный перевод) по
общественно-политической тематике. В процессе
эксперимента русскоязычные тексты делились на
предложения, для каждого из предложений
определялись наиболее близкие по смысловому
содержанию предложения англоязычных текстов.
Пример установления смысловой близости двух
разноязычных текстов приведен в таблице 2.
Таблица 2 Фрагменты параллельных текстов
Текст на русском языке
…..
Российские лидеры, конечно,
беспокоятся о ценах на нефть,
и для этого есть серьезная
причина. Из-за падения цен
на нефть падает стоимость
рубля, сильно зависящая от
этого показателя. Экспорт
нефти важен для
федерального бюджета и
баланса внешней торговли
России. Действительно, когда
месячный курс цен на нефть
марки Brent подскочил до 125
долларов за баррель в марте
2012 года, стоимость рубля
приближалась к своему пику,
около 29 рублей за один
доллар. Когда цены на нефть
упали до 30,70 доллара за
баррель в январе 2016 года,
стоимость рубля упала до 80
рублей за доллар.
…..</p>
      <p>Текст на английском языке
…..</p>
      <p>Russia's leaders certainly do
care about oil prices, and with
good reason. Plunging oil
prices decrease the ruble's
value, which closely follows oil
prices. Oil exports are
important to Russia's federal
budget and to its overall
balance of trade. Indeed, when
monthly average Brent oil
prices peaked at about $125 per
barrel in March 2012, the ruble
was close to its own peak, at
approximately twenty-nine
rubles to every U.S. dollar.</p>
      <p>When Brent prices fell to
$30.70 per barrel in January
2016, the ruble had fallen to
about eighty rubles to the
dollar.</p>
      <p>…..</p>
      <p>Информация о текстах, участвующих
эксперименте, приведена в таблице 3.
в
Таблица 3 Информация о параллельных текстах
Тексты
русском языке
150
на Тексты
английском языке
150</p>
      <p>на
6021
154863
результатах
эксперимента
Таблица 4 Значения показателей эффективности
метода
Полнота
0.71
Точность
0.99</p>
      <p>В данной статье был предложен метод выявления
заимствований в текстах разноязычных документов,
базирующийся на семантико-синтаксическом и
концептуальном анализе смысловой структуры
разноязычных текстов. Разработанные на его основе
алгоритмы были реализованы в виде
экспериментального программного обеспечения,
которое обеспечивает обработку текстов на двух
языках (русском и английском). Эффективность
предложенного метода была проверена на
небольшой коллекции документов и показала
удовлетворительные для первоначального этапа
исследований результаты. Далее для улучшения
качества работы метода необходимо будет провести
дополнительную работу по модернизации
алгоритмов и программного обеспечения, а также
выполнить существенное пополнение словарей
новой лексикой. Указанные мероприятия позволят
значительно улучшить качество работы
разработанных алгоритмов на текстах, относящихся
к широкому спектру предметных областей. В
настоящее время на рынке IT-услуг не существует
промышленных программных средств,
обеспечивающих сопоставление по их смысловому
содержанию русскоязычных и англоязычных
текстов. В связи с вышеизложенным нам
представляется, что предлагаемый метод
перспективен и кроме того он может иметь широкий
спектр приложений.</p>
      <p>A method of automatic plagiarism
detection in multilingual documents</p>
      <p>Victor N. Zakharov, Alexcandr A. Khoroshilov</p>
      <p>Alexey A. Khoroshilov
The paper presents the method of automatic plagiarism
detection in multilingual documents on the base of
comparison of their formalized representations. In
solving this problem, we developed a model of the
semantic structure of texts. To detect plagiarism, we
developed an algorithm for detection of similar semantic
fragments in multilingual texts. The main advantage of
this method is that it makes it possible to detect not only
minor changes in the structure or lexical structure of the
text, but also more complicated cases in the plagiarism.</p>
    </sec>
  </body>
  <back>
    <ref-list>
      <ref id="ref1">
        <mixed-citation>
          [1]
          <string-name>
            <surname>Potthast</surname>
            , Martin,
            <given-names>Alberto</given-names>
          </string-name>
          <string-name>
            <surname>Barron-Cedeno</surname>
            ,
            <given-names>Benno</given-names>
          </string-name>
          <string-name>
            <surname>Stein</surname>
            , and
            <given-names>Paolo</given-names>
          </string-name>
          <string-name>
            <surname>Rosso</surname>
          </string-name>
          .
          <year>2010</year>
          .
          <article-title>Cross-Language Plagiarism Detection. Language Resources and Evaluation, Special Issue on Plagiarism and Authorship Analysis</article-title>
          ,
          <source>DOI: 10</source>
          .1007/s10579-009- 9114-z
        </mixed-citation>
      </ref>
      <ref id="ref2">
        <mixed-citation>
          [2]
          <string-name>
            <given-names>Alaa</given-names>
            <surname>Zaid</surname>
          </string-name>
          , Tiun Sabrina,
          <article-title>Abdulameer Mohammedhasan Cross-language plagiarism of Arabic-English documents using linear logistic regression //</article-title>
          <source>Journal of Theoretical and Applied Information Technology</source>
          , Vol.
          <volume>83</volume>
          , No.
          <volume>1</volume>
          ,
          <issue>10</issue>
          .
          <fpage>01</fpage>
          .
          <year>2016</year>
          , p.
          <fpage>20</fpage>
          -
          <lpage>33</lpage>
          .
        </mixed-citation>
      </ref>
      <ref id="ref3">
        <mixed-citation>
          [3]
          <string-name>
            <given-names>Ceska Z.</given-names>
            ,
            <surname>Toman</surname>
          </string-name>
          ,
          <string-name>
            <given-names>M</given-names>
            ,
            <surname>Jezek</surname>
          </string-name>
          <string-name>
            <given-names>K</given-names>
            . Multilingual Plagiarism Detection. // Artificial Intelligence: Methodology,
            <surname>Systems</surname>
          </string-name>
          , and Applications,
          <source>Proceedings of the 13th international conference on Artificial Intelligence: Methodology, Systems, and Applications</source>
          ,
          <year>2009</year>
          , pp.
          <fpage>83</fpage>
          -
          <lpage>92</lpage>
          .
        </mixed-citation>
      </ref>
      <ref id="ref4">
        <mixed-citation>
          [4]
          <string-name>
            <surname>Chung-Hong</surname>
            <given-names>Lee</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Chih-Hong Wu</surname>
          </string-name>
          , and
          <string-name>
            <surname>Hsin-Chang Yang</surname>
          </string-name>
          .
          <year>2008</year>
          .
          <article-title>A Platform Framework for Crosslingual Text Relatedness Evaluation and Plagiarism Detection</article-title>
          .
          <source>The 3rd International Conference on Innovative Computing Information and Control (ICI-CIC'08).</source>
        </mixed-citation>
      </ref>
      <ref id="ref5">
        <mixed-citation>
          [5]
          <string-name>
            <given-names>Mate</given-names>
            <surname>Pataki</surname>
          </string-name>
          <article-title>A new approach for searching translated plagiarism</article-title>
          .
          <source>Proceedings of the 5th International Plagiarism Conference. Newcastle, UK</source>
          ,
          <year>2012</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref6">
        <mixed-citation>
          [6]
          <string-name>
            <given-names>Ralf</given-names>
            <surname>Steinberger</surname>
          </string-name>
          Cross
          <article-title>-lingual similarity calculation for plagiarism detection and more - Tools and resources</article-title>
          .
          <source>Keynotes for PAN</source>
          <year>2012</year>
          :
          <article-title>Uncover-ing,</article-title>
          <string-name>
            <surname>Authorship</surname>
          </string-name>
          ,
          <source>ad Social Software Misuse</source>
          ,
          <year>2012</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref7">
        <mixed-citation>
          [7]
          <string-name>
            <surname>I.TRIFAN</surname>
          </string-name>
          <article-title>PLAGIARISM DETECTION IN A MULTILINGUAL ENVIRONMENT // Annals of DAAAM for 2011 &amp;</article-title>
          <source>Proceedings of the 22nd International DAAAM Symposium</source>
          , Volume
          <volume>22</volume>
          , No. 1, ISSN 1726-9679, ISBN 978-3-
          <fpage>901509</fpage>
          -83-4,
          <string-name>
            <surname>Editor</surname>
            <given-names>B.</given-names>
          </string-name>
          <string-name>
            <surname>Katalinic</surname>
            , Published by DAAAM International, Vienna, Austria,
            <given-names>EU</given-names>
          </string-name>
          ,
          <year>2011</year>
        </mixed-citation>
      </ref>
      <ref id="ref8">
        <mixed-citation>
          [8]
          <string-name>
            <given-names>Tuomas</given-names>
            <surname>Talvensaari</surname>
          </string-name>
          <article-title>Comparable Corpora in CrossLanguage Information Retrieval (Academic Dissertation)</article-title>
          .
          <source>Acta Electronica Universitatis Tamperensis</source>
          <volume>779</volume>
          ,
          <year>2008</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref9">
        <mixed-citation>
          [9] Diego Antonio Rodrıguez Torrejon, and
          <article-title>Jose Manuel Martı Ramos Crosslingual CoReMo System</article-title>
          .
          <source>Notebook for PAN at CLEF</source>
          <year>2011</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref10">
        <mixed-citation>
          [10]
          <string-name>
            <surname>Alexei</surname>
            <given-names>Vinokourov</given-names>
          </string-name>
          , John Shawe-Taylor, and
          <article-title>Nello Cristianini Inferring a Semantic Representation of Text via Cross-Language Correlation Analysis</article-title>
          .
          <source>Advances of Neural Information Processing Systems</source>
          <volume>15</volume>
          ,
          <year>2002</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref11">
        <mixed-citation>
          [11]
          <string-name>
            <surname>Philipp</surname>
            <given-names>Cimiano</given-names>
          </string-name>
          , Antje Schultz, Sergey Sizov, Philipp Sorg, and
          <article-title>Steffen Staab Explicit Versus Latent Concept Models for Cross-Language Information Retrieval</article-title>
          .
          <source>Proceedings of the TwentyFirst International Joint Conference on Artificial Intelligence (IJCAI-09)</source>
          ,
          <year>2009</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref12">
        <mixed-citation>
          [20]
          <string-name>
            <surname>Захаров</surname>
            <given-names>В.Н.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Хорошилов</surname>
            <given-names>А</given-names>
          </string-name>
          .А.
          <article-title>Автоматическая оценка подобия тематического содержания текстов на основе сравнения их формали- зованных смысловых описаний // Труды XIV-ой Всерос. науч</article-title>
          . конф. «
          <article-title>Электронные библио-теки: перспективные методы и технологии, электронные коллекции» - RCDL'2012, г</article-title>
          . Пе
          <string-name>
            <surname>-</surname>
          </string-name>
          реславль-Залесский, Россия,
          <fpage>15</fpage>
          -
          <lpage>18</lpage>
          октября
          <year>2012</year>
          г.
        </mixed-citation>
      </ref>
      <ref id="ref13">
        <mixed-citation>
          [21]
          <string-name>
            <surname>Захаров</surname>
            <given-names>В.Н.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Хорошилов</surname>
            <given-names>А</given-names>
          </string-name>
          .А.
          <article-title>Методы решения задачи автоматического выявления заимствований в структурированных научно- технических документах на основе их семантического анализа // Труды XV-ой Всерос. науч</article-title>
          . конф. «
          <article-title>Электронные библиотеки: перспективные методы и технологии, электронные коллекции» - RCDL'2013, г</article-title>
          .
          <source>Ярославль</source>
          ,
          <volume>14</volume>
          -
          <fpage>17</fpage>
          октября
          <year>2013</year>
          года.
        </mixed-citation>
      </ref>
      <ref id="ref14">
        <mixed-citation>
          [22]
          <string-name>
            <surname>Хорошилов</surname>
            <given-names>А.А.</given-names>
          </string-name>
          <article-title>Методы выявления имплицитно выраженных заимствований в научно-технических текстах на основе их концептуального анализа // Труды XVII Международ-ной конференции «Аналитика и управление данными в областях с интенсивным использованием данных» DAMDID/RCDL'</article-title>
          <year>2015</year>
          , Обнинск,
          <fpage>13</fpage>
          -
          <lpage>16</lpage>
          октября
          <year>2015</year>
          года. С.
          <volume>471</volume>
          -
          <fpage>477</fpage>
          .
        </mixed-citation>
      </ref>
    </ref-list>
  </back>
</article>