Поиск переводов статей с использованием
             статистических данных
                А.С Козицын, С.А. Афонин, А.А. Зензинов
                         НИИ механики МГУ, Москва

     Аннотация. В настоящее время происходит активное внедрение
  наукометрических систем для автоматизации процесса анализа эффективности
  деятельности научных организаций с целью применения различных методов
  стимулирования научной деятельности. Одним из наиболее важных
  индикаторов является количество публикаций и их цитируемость. Для оценки
  этого показателя необходимы средства автоматизированного построении связей
  между оригинальными статьями и их переводами. В настоящей работе
  анализируются существующие методы оценки близости оригинального текста и
  его возможного перевода, показывается их недостаточная эффективность для
  построения связей между статьями и описывается разработанный авторами
  метод автоматического поиска переводов статей в больших коллекциях
  библиографических данных. Особенностью разработанного алгоритма является
  использование статистических данных о публикации статей в различных
  журналах и информации о соавторах анализируемых статей. Представленный в
  настоящей работе алгоритм позволяет осуществлять поиск переводов статей без
  предварительной настройки на заданные пары языков оригинала и перевода
  статьи, а также не требует использования больших коллекций обучающих
  выборок. Апробация программной реализации алгоритма проводилась в
  наукометрической системе МГУ им. Ломоносова. Результаты тестирования
  показали ее достаточную эффективность и возможность использования
  разработанного алгоритма для автоматического построения рекомендаций
  пользователям для отметки в системе переводных версий статей.
     Ключевые слова: библиографические данные, автоматический перевод,
  статья, граф соавторства.


Linking translated articles using authorship statistics
                  A.S Kozitsyn, S.A. Afonin, A.A. Zenzinov
    Institute of mechanics Lomonosov Moscow state university, Moscow

      Abstract. During the last decades scientometric techniques have been used for
  research activity stimulation. Number of published articles and number of their
  citation counts are among the most important scientometric parameters. In an
  automated environment, when the publications metadata is gathered from various


                                        306
     sources, correct linking of original papers with their translations into different
     languages is extremely important. In the paper we show that the known text similarity
     measures are inefficient in the context of article linkage problem. We propose a
     method for semi-automatic article linkage using statistical data on authors publication
     activities only. This approach may be used for linking articles without training for the
     language of translation. The method was evaluated on real-world collection of
     publications metadata of ISTINA information system.
        Keywords: bibliographic data, automatic translation, article, co-author graph.

     Использование наукометрических систем для управления большими
научно-образовательными организациями является необходимым условием для
обеспечения возможности эффективного управления[1]. Такие системы
позволяют строить агрегированные оценки по различным показателям
эффективности научной и педагогической деятельности сотрудников
организации для принятия управленческих решений. Наборы используемых для
анализа показателей в различных системах могут отличаться и зависят от
сферы деятельности организации. Однако, вне зависимости от конкретного
вида обрабатываемых данных, необходимыми элементами любой системы
обработки наукометрических данных являются механизмы верификации
собираемой системой информации, которые включают в себя проверку
полноты и точности предоставляемых данных.
     Одним из важнейших показателей, который, как правило, описывает
эффективность научной деятельности сотрудников организации, является
количество публикаций и их цитируемость. На основе этого показателя
оценивается как индивидуальная деятельность сотрудников организации, так и
эффективность деятельности отдельных научных коллективов и организации в
целом. Например, при подаче заявок на различные конкурсы требуется
предоставление информации по имеющимся у заявителя публикациям для
оценки квалификации заявителя, агрегированные данные по публикациям
должны предоставляться в отчетах в вышестоящие инстанции, проведение
внутренних конкурсов при замещении вакантных должностей также требует
оценки квалификации сотрудников с использованием этого показателя. Для
построения более объективных оценок при анализе публикаций необходимо
учитывать, что авторы вводят как оригинальные статьи, так и их переводы в
иностранных журналах. Переводы статей позволяют собирать дополнительную
информацию о цитируемости автора, в том числе в метриках Web Of Science и
Scopus, однако не могут учитываться как самостоятельные статьи при подсчете
общего количества статей автора за период.
     Наиболее простым техническим решением является предоставление
возможности пользователю указать наличие перевода статьи при регистрации
ее в системе. Однако, опыт эксплуатации подобных систем показывает, что
пользователи забывают вносить подобную информацию, если интерфейс
добавления данных не дает соответствующих подсказок или указаний.

                                              307
Поскольку ввод данных о статье и ее переводе в наукометрическую систему
может осуществляться в разное время и разными пользователями, необходима
разработка алгоритмов, которые на этапе предварительной верификации
данных производили поиск возможных связей статей и показывали
рекомендации пользователю, а также могли производить автоматический поиск
возможных переводов в уже сформированном массиве статей.
       Задача автоматического перевода названий статей является очень
трудоемкой, поскольку в названиях используются многозначные слова, и
необходимо при переводе учитывать специфику предметной области статьи. В
таблице 1 приводится пример автоматического перевода названия статьи двумя
популярными переводчиками Гугл [2] и Промт [3].
    Английское       Перевод названия Перевод названия Русское название
  название статьи          Промт             Гугл            статьи
Self-Purification of Самоочищение     Самоочищение     Степень
Agrosoddy-           песчаных         Агрозодди-       самоочищения
Podzolic Sandy       песчаных         Подзолик Сэнди агродерново-
Loamy Soils          суглинковых      глинистые почвы, подзолистых
Fertilized with      почв,            оплодотворенные супесчаных почв,
Sewage Sludge        оплодотворенных с отстоем         удобренных
                     осадками         сточных вод      осадком сточных
                     сточных вод                       вод
Poynting’s effect    Эффект           Влияние          Эффект
of cylindrically     Пойнтинга        Пойнтинга на     Пойнтинга для
anisotropic          цилиндрически    цилиндрические цилиндрически-
nano/microtubes      анизотропного    анизотропные     анизотропных
                     нано/микротруб   нано /           нано/микротрубок
                                      микротрубки
Methods for          Методы для       Методы оценки    Методы
estimating the       оценки энергии   энергии          получения оценок
energy of            обширных         обширных         энергии широких
extensive air        атмосферных      атмосферных      атмосферных
showers              ливней           ливней           ливней
Rayleigh and Love Рэлей и             Поверхностные    Поверхностные
surface waves in     Любовные волны волны Рэлея и      волны Релея и
isotropic media      поверхности в    Лайва в          Лява при
with negative        изотропических   изотропных       отрицательном
Poisson's ratio      СМИ с            средах с         коэффициенте
                     отношением       отрицательным    Пуассона
                     отрицательного   коэффициентом    изотропных сред
                     Пуассона         Пуассона
Cubic auxetics       Кубический       Кубические       Кубические
                     auxetics         аксетики         ауксетики


                                   308
Calculating lateral   Вычисление          Вычисление        Расчет функций
distribution          боковых функций     боковых функций   пространственного
functions of the      распределения       распределения     распределения
Cherenkov light       Излучения           черенковского     черенковского
from extensive        Черенкова от        света из          света ШАЛ в
atmospheric           обширных            обширных          рамках
showers in terms      атмосферных         атмосферных       многоуровневой
of a multilevel       душей с точки       ливней в          схемы
scheme                зрения              терминах
                      многоуровневой      многоуровневой
                      схемы               схемы
Soil wedge            Структуры клина     Почвенные         Клиновидные
structures in the     почвы в южном       клиновые          структуры на
southern coast of     побережье залива    сооружения на     южном берегу
the finland gulf      финляндии           южном             финского залива
                                          побережье
                                          Финского залива


     Как видно из приведенной таблицы, в большинстве случаев имеется
большое смысловое сходство автоматического перевода и перевода, сделанного
автором, но набор слов существенно различается. Это объясняется, в первую
очередь, неоднозначностью терминов в любом языке. В одних случаях в языке
перевода отсутствуют полностью эквивалентные термины языка оригинала, в
других – автоматическая система выбирает не совсем верные термины.
     В настоящее время, в связи усилением борьбы с плагиатом, активно
развивается направление поиска эквивалентных текстов на разных языках,
обсуждаемых, в том числе на конференции «Обнаружение заимствований» [4].
Например, в системе «Антиплагиат» создан модуль «Переводные
заимствования», который способен определять степень эквивалентности
текстов, написанных на разных языках. Используемый в системе метод анализа
основывается на понятии n-грамм. Элементами n-грамм являются классы
эквивалентных слов, что позволяет учитывать наличие эквивалентных
терминов в разных языках [5]. Такой подход эффективен для поиска переводов
полных текстов, но имеет ряд существенных недостатков, которые затрудняют
его использование для поиска переводных статей по названиям. Во-первых,
построение классов эквивалентных слов требует настройки под каждую пару
языков. В системе «Антиплагиат» используется только русско-английский
перевод, а в случае перевода статей необходимо учитывать все возможные
языки. Во-вторых, использование n-грамм возможно только для достаточно
длинных частей текста, и плохо применимо к названиям статей.


                                         309
     Альтернативным подходом к автоматизации процесса поиска переводных
версий статей является использование статистических данных о распределении
статей по журналам. Такой подход позволяет находить возможные переводы,
основываясь только на структуре связей в графе соавторства статей, не требуя
использования статистической информации о языке оригинала и перевода
статьи.
     Основой разработанного авторами доклада алгоритма является
предположение, что оригинальная статья и ее перевод должны быть
опубликованы одним и тем же авторским коллективом с разницей не более года
в журналах на разных языках.
     После построения пар статей, которые могут являться переводами,
производится построения двудольного графа журналов, которые печатают
переводные статьи. Метрика для оценки степени связи журналов в графе
строится на основе мощности множеств статей в каждом из журналов и
мощности множества пар статей в этих журналах, которые могут являться
переводами. Результатом работы этого этапа алгоритма является множество пар
журналов, в одном из которых часто печатаются переводные статьи из второго
журнала. В процессе работы системы граф связей журналов уточняется на
основе вносимых пользователями данных о своих статьях. Для этого
используется как явное указание пользователями связей между оригинальной и
переводной статьей, так и информация о DOI статьи, задаваемых авторами.
Многие авторы указывают библиографические данные оригинала статьи в
русскоязычном журнале, внося DOI переводной версии для учета ссылок из
Web Of Science. Таким образом, собрав из внешних источников информацию о
статье по DOI можно точно определить название переводного журнала для
указанного в статье русскоязычного журнала.
     На основе построенного множества журналов производится поиск
возможного перевода статьи. Поиск осуществляется среди статей, которые
могут являться переводами (имеют совпадающее множество авторов, и дата
публикации отличается не более чем на год) и опубликованы в журналах,
связанных ребром в построенном ранее графе журналов.
     Следует отметить, что алгоритм может использоваться как для обработки
полной коллекции статей, так и для обработки статей, вносимых в
наукометрическую информационную систему авторами непосредственно в
момент их добавления. В последнем случае, одним из требований является
достаточная производительность реализации алгоритма, позволяющая давать
рекомендации пользователю непосредственно при редактировании информации
о статье в интерфейсе системы. Использование хэшфункции для множества
авторов статьи позволяет производить поиск возможных вариантов перевода и
давать рекомендации менее чем за 0.1 сек.


                                    310
      Рис 1. Интерфейс подтверждения найденных вариантов перевода.

     Для апробации алгоритма использовались данные о публикациях
сотрудников МГУ им. М.В. Ломоносова. Авторами статьи разработан модуль,
добавленный в функционал нукометрической системы организации [6].
Разработанный для этих целей интерфейс (рис. 1) позволяет экспертам
проводить оценку результатов работы модуля и отмечать в системе правильные
и ошибочные варианты предлагаемых переводов. На настоящий момент из 675
оцененных экспертами вариантов 625 вариантов признаны правильными и 50
ошибочными. Таким образом, точность алгоритма составляет 92%. Ошибки
определения обусловлены тем, что один и тот же коллектив авторов может
публиковать в течение года несколько работ по схожей тематике. В некоторых
случаях названия статей бывают настолько схожими, что даже по названиям
статьи трудно выбрать правильный вариант (рис. 1).

      Литература
1. Садовничий В. А., Васенин В. А., Афонин С. А.и др. Информационная
   система "ИСТИНА" как big data - инструментарий в области управления на
   основе анализа наукометрических данных. Материалы Всероссийской
   конференции с международным участием "Знания-Онтологии-Теории"
   (ЗОНТ-2015), 6-8 октября. Т. 1, Институт математики им. С.Л.Соболева СО
   РАН Новосибирск, 2015. С. 115-123.
2. Переводчик «Гугл». — URL: http://translate.google.ru
3. Автоматический переводчик «Промпт». — URL: http://www.translate.ru.
4. Научная Конференция «Обнаружение заимствований – 2017». —
   URL: http://www.oz2017.ru .
5. Плагиат в научных статьях: трудности обнаружения перевода. —
   URL: http://ai-
   news.ru/2018/01/plagiat_v_nauchnyh_statyah_trudnosti_obnaruzheniya_perevod
   a.html.
6. Васенин В. А., Афонин С. А., Голомазов Д. Д., Козицын А. С.
   Интеллектуальная Система Тематического Исследования НАучно-


                                    311
   технической информации (ИСТИНА). Информационное общество. № 1-2.
   С. 21-36. 2013.

      References
1. Sadovnichii V. A., Vasenin V. A., Afonin S. A.i dr. Informatsionnaia sistema
   "ISTINA" kak big data - instrumentarii v oblasti upravleniia na osnove analiza
   naukometricheskikh dannykh. Materialy Vserossiiskoi konferentsii s
   mezhdunarodnym uchastiem "Znaniia-Ontologii-Teorii" (ZONT-2015), 6-8
   oktiabria. T. 1, Institut matematiki im. S.L.Soboleva SO RAN Novosibirsk, 2015.
   S. 115-123.
2. Perevodchik «Gugl». — URL: http://translate.google.ru
3. Avtomaticheskii perevodchik «Prompt». — URL: http://www.translate.ru.
4. Nauchnaia Konferentsiia «Obnaruzhenie zaimstvovanii – 2017». —
   URL: http://www.oz2017.ru .
5. Plagiat v nauchnykh statiakh: trudnosti obnaruzheniia perevoda. —
   URL: http://ai-
   news.ru/2018/01/plagiat_v_nauchnyh_statyah_trudnosti_obnaruzheniya_perevod
   a.html.
6. Vasenin V. A., Afonin S. A., Golomazov D. D., Kozitsyn A. S. Intellektualnaia
   Sistema Tematicheskogo Issledovaniia NAuchno-tekhnicheskoi informatsii
   (ISTINA). Informatsionnoe obshchestvo. № 1-2. S. 21-36. 2013.


                                       312