Принципы создания многоязычной электронной библиотеки для крупного информационного центра © В.Н. Захаров © Ю.В. Никитин © Ал-др А. Хорошилов © Ал-ей А. Хорошилов Федеральный исследовательский центр «Информатика и управление» РАН, Москва, Россия vzakharov@ipiran.ru yuri.v.nikitin@gmail.com khoroshilov@mail.ru a.a.horoshilov@mail.ru Аннотация. Описан подход к созданию многоязычной электронной библиотеки для крупного информационного центра. Показано, как организовать процесс формализации документов на разных языках таким образом, чтобы поиск был максимально эффективен и позволял пользователю получать результаты независимо от языка запроса и документов, содержащихся в базе данных. Исследование эффективности предложенного подхода показало достаточно высокие результаты, позволяющие применять его в промышленных информационных системах. Ключевые слова: многоязычная электронная библиотека, многоязычный поиск, информационный поиск, автоматизированная обработка текстов, формализованное описание текста, смысловая структура, лингвистическое программное обеспечение, декларативные средства. The Principles of Creating a Multilingual Electronic Library for a Large Information Center © V.N. Zakharov © Yu.V. Nikitin © Al-dr A. Khoroshilov © Al-ey A. Khoroshilov Federal Research Center Computer Science and Control of the Russian Academy of Sciences, Moscow, Russia vzakharov@ipiran.ru yuri.v.nikitin@gmail.com khoroshilov@mail.ru a.a.horoshilov@mail.ru Abstract. This paper describes the approach to creating a multilingual electronic library for a large information center. The authors show how to organize the process of formalizing documents in different languages in such a way that the search is most effective and allows the user to receive results regardless of the query language and documents contained in the database. The study of the effectiveness of the proposed approach has shown quite good results, allowing it to be used in industrial information systems. Keywords: multilingual electronic library, multilingual search, information retrieval, automated text processing, formal description of text, semantic structure, linguistic software, declarative means. политической и технической информации и т. д. 1 Введение Соответственно, для решения различных задач В нашей стране в настоящее время дальнейшего эффективного использования функционирует множество организаций, каждый получаемых постоянно документов необходима их день имеющих дело с огромным объемом предварительная автоматическая обработка, документов. Многие из этих организаций из-за позволяющая свести к минимуму трудозатраты специфики своей деятельности получают и обслуживающего персонала. В настоящее время обрабатывают документы на нескольких языках. К множество информационных систем имеет таким организациям можно отнести, например, достаточно полный функционал работы с предприятия авиационно-косми-ческой отрасли, для русскоязычными текстами, но, к сожалению, все эти которых стоит важнейшая задача соответствия системы имеют довольно скромные возможности международным стандартам; всевозможные научные при работе с разноязычными массивами документов, организации, для которых жизненно необходимо а задача сравнения текстов, выявления документов- быть в курсе последних исследований и разработок; дубликатов и заимствований в отечественных организации, обеспечивающие безопасность информационных системах в настоящий момент государства, для получения актуальной решена только для документов, написанных на одном языке. В то же время потребность в таких системах достаточно велика, и задача требует Труды XIX Международной конференции скорейшего решения. «Аналитика и управление данными в областях с интенсивным использованием данных» (DAMDID/ RCDL’2017), Москва, Россия, 10–13 октября 2017 года 311 2 Существующие подходы к организации 3 Организация многоязычной электронных библиотек электронной библиотеки для крупного Задача хранения и организации доступа к информационного центра большим коллекциям документов стоит уже 3.1 Архитектура многоязычной электронной достаточно давно. За это время было разработано библиотеки множество решений, которые в разной степени удовлетворяют требованиям, предъявляемым Проанализировав подходы и решения, современными пользователями. Далее приведем имеющиеся на сегодня в области разработки некоторые данные о развитии такого программного современных электронных библиотек, авторами был обеспечения в настоящее время. составлен список требований, которым должна В работе [1] авторы провели серьезное сравнение удовлетворять система, функционирующая в свободно распространяемых технологий для крупном информационном центре: организации электронных библиотек, • обеспечение модульной архитектуры с существующих в настоящее время. Были возможностью быстрого включения в систему протестированы системы OJS, ePubTK, DPubS, новых модулей; GAPWorks, Ambra, e-Journal. Сделан вывод, что • использование средств СУБД, позволяющих практически все решения поддерживают максимально эффективно организовать процесс общепринятые стандарты в области интеграции и доступа к данным; обмена данными и имеют широкие возможности по • обеспечение возможности оперативного генерации различных метаданных в зависимости от пополнения декларативных средств системы; потребностей пользователя. Но, к сожалению, большинство из рассматриваемых продуктов более • обеспечение максимальной простоты не развивается. Понятно, что такие системы добавления новых языков в систему; позволяют решать стандартный набор задач и • обеспечение распределенной массово- используются для небольших электронных параллельной лингвистической и библиотек. статистической обработки загружаемых данных; При росте объемов документов становится важно • обеспечение масштабируемости на множество решить задачу повышения эффективности поиска. узлов обработки без деградации Для этого многие ученые разрабатывают новые инфраструктуры обработки данных; механизмы, одним из которых стал семантический поиск. В работе [2] авторы предлагают новый метод • обеспечение всех этапов лингвистической поиска, основанный на использовании модели S-тег. обработки, включающей этапы Особенностью данного метода является то, что графематического, морфологического, индексируется не весь текст, а только его значимые семантико-синтаксического, концептуального и части в зависимости от задачи, при этом за счет дистрибутивно-статистического анализа [12]; изменения размера значимой части можно • обеспечение эффективного многоязычного контролировать точность и полноту. поиска; Другим подходом к семантическому поиску, о • обеспечение эффективного сравнения котором сейчас пишет все большее число авторов, смыслового содержания документов, в том числе является использование онтологических моделей [3]. поиска заимствований и документов-дубликатов Основной идеей данного подхода является [13-15]; использование онтологий предметных областей для аннотирования содержания электронных ресурсов. • обеспечение поддержки общепринятых Авторы работы [4] дополнили онтологический стандартов в области интеграции и обмена подход добавлением новых операций над данными; онтологиями – проекции и масштабирования – и • создание наиболее полной и удобной структуры описали модель их применения для задач метаданных для хранимых в базе документов; информационного поиска. • обеспечение удобного пользовательского Еще одним направлением развития поиска в интерфейса, максимально упрощающего доступ электронных библиотеках является многоязычный пользователя ко всему функционалу поиск. К сожалению, в настоящее время работ по электронной библиотеки. этой тематике не так много. Одно из таких решений было описано в работе [5]. В ней представлено На Рис. 1 представлена предлагаемая авторами решение задачи двуязычного поиска с помощью архитектурная схема многоязычной электронной тезауруса для двух языков (русского и английского). библиотеки для крупного информационного центра. Похожего мнения придерживаются и многие иностранные исследователи, в том числе, например, в работе [6]. Несколько иной подход предложен в [7]: для решения задачи многоязычного поиска использован инструментарий систем автоматического перевода текстов. 312 двухступенчатая процедура поиска, которая может Пользователи быть использована для поиска в многоязычном Интернет массиве информации. На первом этапе запрос был преобразован в его унифицированное семантическое представление, на втором этапе производился поиск в базе данных стандартными средствами. Подсистема управления Подсистема и визуализации администрирования Рассмотрим каждый из этапов подробнее. 3.3.1 Метод трансформации поискового запроса в Подсистема его унифицированное семантическое формирования Подсистема сбора результатов и информации представление аналитических отчетов Разработанный авторами метод трансформации Подсистема Подсистема поискового запроса в его унифицированное лингвистического обработки семантическое представление основан на обеспечения информации использовании многоязычного словаря унифицированных формализованных представлений наименований понятий [16]. В данном исследовании БД словарных средств словарь был сформирован для трех языков (русского, английского и немецкого), но в этот словарь могут Хранилище данных быть добавлены эквиваленты на других языках при Подсистема поиска наличии переводных словарей схожих объемов. Также для работы метода необходимы процедуры морфологического, семантико-синтаксического и Рисунок 1 Архитектурная схема многоязычной концептуального анализа для каждого языка, электронной библиотеки для крупного который содержится в словаре унифицированных информационного центра формализованных представлений наименований понятий. При выполнении этих условий 3.2 Процесс формализации документов в трансформация поискового запроса сводится к многоязычной электронной библиотеке следующему алгоритму (Алгоритм 1): Основной задачей при выполнении Шаг 1. Определяется язык обрабатываемого формализации документа является представление запроса. смысловой структуры текста в структурированном Шаг 2. С помощью процедуры концептуального виде. По мнению авторов, формализованное анализа (для выявленного языка) определяется представление текстового содержания документа совокупность значимых наименований понятий с должно включать: указанием местоположений этих понятий в тексте • библиографические реквизиты (например, запроса. информационный источник, рубрика, автор, Шаг 3. Каждое наименование понятия запроса наименование и дата публикации и т. п.); приводится к нормальной форме с помощью процедуры автоматической пословной • аннотацию или реферат документа; нормализации. • список ключевых выражений; Шаг 4. Каждое нормализованное наименование • список значимых объектов (персоны, понятия ищется в многоязычном словаре организации, территории, наименования унифицированных формализованных представлений товаров, географические объекты, бренды, и наименований понятий, после чего ему т. д.); присваивается номер из этого словаря. Пример При этом для создания многоязычной системы словаря приведен в Таблице 1. данная информация должна содержаться на всех поддерживаемых языках. Также каждому документу Таблица 1 Фрагмент многоязычного словаря должна соответствовать следующая информация: унифицированных формализованных представлений • содержащиеся в документе формулы, параметры наименований понятий с их числовыми значениями и т. д.; № Значения на Эквиваленты на Эквиваленты на русском языке английском немецком языке • классификация документа по смысловому n/n языке содержанию – отнесение его к той или иной … … … рубрике и кластеризация [11] (группировка) 816437 нефтехранилище oil reservoir / oil öllager / / нефтесклад / storage / erdöllager / текстов публикаций по темам; хранилище petroleum tanklager • storage / tank farm ссылки на связанные документы (цитаты, 816438 нефть / mineral oil / öl / caustobiolith / заимствования, документы-дубликаты, близкие каустобиолит / naphtha / oil / petroleum / petrol петролеум / по смыслу документы) [8–10]. черный золото petrol / petroleum / rock- oil 3.3 Организация многоязычного поиска 816439 нефтяник / oilman / oil- ölproduzent / нефтедобытчик industry worker ölhändler В ходе исследования авторами была разработана … … … 313 Схема работы данного алгоритма отображена на взят массив текстов по тематике «Информационные Рис. 2. технологии» (182641 текст). Запрос на естественном Модуль Модуль языке обработки вывода Грамматические запросов результатов Процедура определения языка таблицы Программно- лингвистическая платформа Метафраз Семантико-синтаксический анализ текста запроса Процедура семантико-синтаксического анализа Эталонный Процедура концептуального анализа Концептуальный анализ текста запроса концептуальный словарь Процедура создания формализованного представления Нормализация списка наименований понятий Поиск наименований понятий в многоязычном словаре унифицированных Многоязычный Грамматические формализованных словарь Многоязычный таблицы и представлений наименований унифицированных словарь дополнительные понятий формализованных словари унифицированных представлений наименований понятий формализованных Запись списка наименований представлений понятий с соответствующими наименований им номерами понятий Многоязычный массив Рисунок 2 Схема работы алгоритма трансформации текстов поискового запроса в его унифицированное семантическое представление 3.3.2 Процесс поиска в многоязычных массивах, Рисунок 3 Общая схема работы программного основанный на использовании метода модуля поиска текстовой информации в трансформации поискового запроса многоязычных массивах Далее рассмотрим алгоритм поиска документов в 3.3.3 Эксперимент по проверке разработанного многоязычных массивах с использованием метода поиска в многоязычном массиве стандартных средств СУБД (Алгоритм 2): Эксперимент проводился в несколько этапов: Шаг 1. На вход поступает поисковый запрос, 1. На первом этапе тексты документов, после чего он обрабатывается с помощью приготовленные для эксперимента, были загружены алгоритма 1. в систему и обработаны при помощи алгоритма 1, Шаг 2. Средствами СУБД производится поиск изложенного в разделе 3.3.1. Все результаты наименований понятий запросов в многоязычном обработки были занесены в базу данных массиве (при поиске сравниваются не сами программного комплекса. наименования понятий, а их номера в многоязычном 2. На втором этапе из загруженных текстов было словаре унифицированных формализованных выбрано 35000 предложений и 90000 случайных представлений наименований понятий). наименований понятий. При этом был создан Шаг 3. Запускается процедура ранжирования контрольный массив, где содержались все адреса результатов поиска, полученных с помощью предложений и наименований понятий в текстах стандартных средств СУБД. Процедура документов коллекции. ранжирования зависит от типа поиска. 3. На третьем этапе выбранные предложения и Шаг 4. Выдача результатов поиска пользователю. наименования понятий были переведены на На Рис. 3 представлена общая схема работы английский и немецкий язык с помощью системы программного модуля, в котором реализованы перевода Google Переводчик описанные алгоритмы. (https://translate.google.ru/). Целью эксперимента являлась проверка 4. На четвёртом этапе был произведен поиск работоспособности предложенных методов поиска каждого из переведенных на третьем этапе информации в многоязычном массиве, установление предложений и наименований понятий в их эффективности [8], а также возможности их русскоязычном массиве документов. Для этого использования в промышленных информационных использовался алгоритм 2, изложенный в разделе системах. Эксперимент проводился на основе 3.3.2. После этого информация об адресах найденных разработанного авторами программного комплекса. соответствий сопоставлялась с информацией, В качестве исходных данных для эксперимента был полученной в п. 2. 314 Рисунок 4 Скриншот интерфейса электронной библиотеки MF Text Analyst 5. На пятом этапе с помощью данных, лингвистической обработки. Скриншот интерфейса полученных в п. 4, были получены значения электронной библиотеки MF Text Analyst полноты, точности и F1-меры. Результаты приведены представлен на рис. 4. в таблице 2. Также в данном программном продукте в тестовом режиме реализован многоязычный поиск. Таблица 2 Значения показателей эффективности Его эффективность была проверена на коллекции метода размером в 182641 документ и показала неплохие для Полнот Точность F1-мера данного этапа исследований результаты. а Предложенный авторами метод показал соответствующую аналогам скорость поиска при Поиск 0.88 0.96 0.92 использовании СУБД RavenDB. Далее для наименований улучшения показателей эффективности необходимо понятий продолжать работу по доработке программного Поиск 0.79 0.99 0.89 обеспечения, а также пополнять словари новой предложений лексикой. Указанные мероприятия позволят значительно улучшить качество работы Среднее 0.84 0.98 0.91 разработанных алгоритмов на текстах, относящихся значение к широкому спектру предметных областей. 4 Заключение Литература Идеи, описанные выше, были реализованы в виде [1] Елизаров, А.М., Зуев, Д.С, Липачёв, Е.К.: программного продукта MF Text Analyst на базе Свободно распространяемые системы программно-лингвистической платформы MetaFraz управления электронными научными R10. Данный программный комплекс предназначен журналами и технологии электронных для выполнения следующих простых операций: библиотек. Труды XV Всерос. науч. конф. • ведение электронной библиотеки научно- «Электронные библиотеки: перспективные технических документов; методы и технологии, электронные коллекции» – RCDL’2013, г. Ярославль, 14–17 октября 2013 • автоматическое формирование формализован ного представления документов; года, сс. 227-236 (2013) [2] Малахов, Д.А., Сидоренко, Ю. А., Атаева, O.М., • семантический поиск, отбор и сравнение Серебряков, В.А.: Семантический поиск как документов. средство взаимодействия с электронной MF Text Analyst позволяет загружать в БД библиотекой. Труды XVIII Межд. конф. документы в наиболее распространенных форматах DAMDID / RCDL’2016 «Аналитика и (PDF, DOC, DOCX, TXT и др.), а затем извлекать управление данными в областях с интенсивным текстовое содержимое и производить все этапы 315 использованием данных», 11–14 октября 2016 документов. Труды XVIII Межд. конф. года, Ершово, Москва, сс. 85-91 (2016) DAMDID / RCDL’2016 «Аналитика и [3] Ле Хоай, Тузовский, А.Ф.: Разработка управление данными в областях с интенсивным семантических электронных библиотек на использованием данных», 11–14 октября 2016 основе онтологических моделей. Труды XV года, Ершово, Москва, сс. 277-282 (2016) Всерос. науч. конф. «Электронные библиотеки: [11] Борзых, А.И., Брагина, Г.А., Хорошилов, А.А.: перспективные методы и технологии, Методы автоматической кластеризации электронные коллекции» – RCDL’2013, г. документов в хранилищах научно-технической Ярославль, 14 – 17 октября 2013 года, сс. 143- информации для решения задачи поиска 151 (2013) плагиата в текстах документов. [4] Голицына, О.Л., Максимов, Н.В., Информатизация и связь, (8), сс. 33-37 (2012) Окропишина, О.В., Строгонов, В.И.: [12] Дмитришин, А.Н., Калинин, Ю.П., Онтологический подход к идентификации Никитин, Ю.В., Хорошилов, А.А., Хорошилов, информации в задачах документального поиска: А.А.: Технологии автоматической обработки и практическое применение. Научно-техническая семантического анализа разноязычных информация. Серия 2: Информационные документов в системе мониторинга мирового процессы и системы, (3), сс. 1-8 (2013) потока научно-технической информации [5] Добров, Б.В., Лукашевич, Н.В.: Организация крупного информационного центра. двуязычного поиска в университетской Информатизация и связь, (1), сс. 49-55 (2017) информационной системе «Россия». Труды [13] Zakharov, V., Khoroshilov, A.: Automatic четвертой Всерос. науч. конф. RCDL’2002 Assessment of Similarity of the Texts' Thematic «Электронные библиотеки: перспективные Content on The Base of their Formalized Semantic методы и технологии, электронные коллекции», Descriptions Comparison. CEUR Workshop г. Дубна, 15–17 октября 2002 г., сс. 148-158 Proceedings. Proc. of the 14th All-Russian (2002) Scientific Conf. “Digital libraries: Advanced [6] Oard, D.: Alternative Approaches for Cross- Methods and Technologies, Digital Collections”, Language Text Retrieval. Proc. of the AAAI Spring Pereslavl-Zalessky, Russia, October 15–18, 934, 1997 Symposium on Cross-Language Text and pp. 143-149 (2012) Speech Retrieval (1997) [14] Zakharov, V., Khoroshilov, A.: Semantic Methods [7] Cardeñosa, J., Gallardo, C., Toni, A.: Multilingual for Solving a Problem of Automatic Detection of Cross Language Information Retrieval: A New Plagiarism in Structured Scientific and Technical Approach. Seventh Int. Conf. on Computer Science Documents. CEUR Workshop Proceedings. and Information Technologies, 28 September – 2 Selected Papers of the 15th All-Russian Scientific October, 2009, Yerevan, Armenia (2009) Conf. “Digital Libraries: Advanced Methods and [8] Хорошилов, А.А.: Методы автоматического Technologies, Digital Collections”, Yaroslavl, установления смысловой близости документов Russia, October 14–17, 1108, pp. 165-172 (2013) на основе их концептуального анализа. Труды [15] Khoroshilov, A.A.: Method for Detecting Implicit XV Всерос. науч. конф. «Электронные Plagiarism in Scientific and Technical Texts on the библиотеки: перспективные методы и Basis of Their Conceptual Analysis. CEUR технологии, электронные коллекции» – Workshop Proceedings. Selected Papers of the RCDL’2013, г. Ярославль, 14–17 октября 2013 XVII Int. Conf. on Data Analytics and Management года, сс. 369-376 (2013) in Data Intensive Domains (DAMDID/RCDL [9] Захаров, В.Н., Хорошилов, Ал-др А., 2015), Obninsk, Russia, October 13–16, 2015, Хорошилов, Ал-ей А.: Метод автоматического 1536, pp. 266-372 (2015) выявления неявно выраженных заимствований [16] Zakharov, V., Khoroshilov, Alexandr, Khoroshilov, в научно-технических текстах. Искусственный Alexey: A Method of Automatic Plagiarism интеллект и принятие решений, (1), сс. 10-20 Detection in Multilingual Documents. CEUR (2017) Workshop Proceedings. Selected Papers of the [10] Захаров, В.Н., Хорошилов, Ал-др. А., XVIII Int. Conf. on Data Analytics and Хорошилов, Ал-ей. А.: Метод выявления Management in Data Intensive Domains заимствований в текстах разноязычных (DAMDID/RCDL 2016), 1752, pp. 181-186 (2016) 316