=Paper= {{Paper |id=Vol-1752/paper10 |storemode=property |title= Автоматизированная система сервисов обработки больших коллекций научных документов (Automated Processing Service System of Large Collections of Scientific Documents) |pdfUrl=https://ceur-ws.org/Vol-1752/paper10.pdf |volume=Vol-1752 |authors=Alexander Elizarov,Eugeny Lipachev,Shamil Haidarov |dblpUrl=https://dblp.org/rec/conf/rcdl/ElizarovLH16 }} == Автоматизированная система сервисов обработки больших коллекций научных документов (Automated Processing Service System of Large Collections of Scientific Documents) == https://ceur-ws.org/Vol-1752/paper10.pdf
        Автоматизированная система сервисов обработки
           больших коллекций научных документов

            © А.М. Елизаров                © Е.К. Липачев                    © Ш.М. Хайдаров
                Казанский (Приволжский) федеральный университет,
                                      Казань
 amelizarov@gmail.com          elipachev@gmail.com            15jkeee@gmail.com

                   Аннотация                                  Традиционно термином Big Data обозначают
                                                           наборы данных таких объёма и сложности, что
Представлена система сервисов автоматической               стандартные инструменты работы с данными не
обработки коллекций научных документов. Эти                способны осуществлять их обработку за время,
сервисы обеспечивают проверку соответствия                 приемлемое для практики [2]. Более широко этот
документов принятым правилам формирования                  термин можно трактовать как набор эффективных
коллекций и их преобразование в установленные              подходов, методов и инструментов обработки
форматы; структурный анализ документов и                   различных              структурированных             и
извлечение метаданных, а также их интеграцию в             неструктурированных данных большого объёма с
научное информационное пространство. Система               целью получения приемлемых результатов в
позволяет    автоматически   выполнять     набор           условиях непрерывного прироста данных [3].
операций, который не реализуем за практически              Другими словами, термин «большие данные»
приемлемое время при традиционной «ручной»                 характеризует совокупности данных, которые
обработке электронного контента, и предназначена           слишком велики по объему, характеризуются
для больших коллекций научных документов.                  экспоненциальным ростом, не форматированы или
                                                           не структурированы для анализа традиционными
1 Введение                                                 методами.
   Сегодня одной из актуальных проблем, стоящих               Не     менее      актуальна      проблема     учета
перед человечеством, стала проблема накопления и           значительного роста объёмов данных, получаемых,
последующей обработки огромных массивов                    хранимых и обрабатываемых в ходе научной
данных. Под данными традиционно подразумевают              деятельности. В настоящее время благодаря
различные     необработанные      информационные           внедрению ИКТ в научно-исследовательскую
материалы, в том числе, данные различных                   деятельность стало возможным при проведении
наблюдений      и     научных       экспериментов,         новых исследований использовать весь корпус
персональные данные, а также различную                     накопленных научных знаний. Это предполагает
статистическую информацию. По сведениям,                   создание комплекса технологий, обеспечивающих
приведенным в [1], уже в 2011 году каждый день             оптимальное управление имеющимися знаниями,
создавалось около 15 PB новых данных, а за три года        организацию эффективного доступа к ним, а также
до этого момента времени человечество произвело            совместное и многократное использование новых
информации больше, чем за всю историю своего               видов структур знаний. В результате формируются
существования до 2008 года, причем прирост данных          разнообразные электронные научные коллекции и
происходил экспоненциально: это были и научные             библиотеки, такие, например, как архивы научных
данные, и сведения о проведенных операциях-                журналов и отчетов, сборники научных трудов,
транзакциях, отчеты в социальных сетях и многое            диссертации и др. Они являются составной частью
другое.    Сегодня    мировой     объем     данных         электронных научных библиотек и представляют
увеличивается более чем в два раза каждые два года,        собой наборы документов, имеющих различную
а большие объемы данных (которые с 2008 года               структуру и разные форматы представления
стали обозначать термином «большие данные» (Big            текстовых       и        графических       материалов,
Data)) открывают новые возможности и существенно           библиографических         списков,     математической
влияют       на     развитие       информационно-          нотации. Эти различия затрудняют организацию
коммуникационных технологий (ИКТ).                         информационных сервисов, опирающихся на
                                                           машиноориентированную обработку информации
                                                           (см., например, [4, 5]). Кроме того, в настоящее время
Труды   XVIII Международной конференции                    значительно      увеличивается       объем    данных,
DAMDID/RCDL’2016 «Аналитика и управление                   включаемых в коллекции, что в свою очередь создает
данными     в   областях   с    интенсивным                дополнительные трудности при обработке научных
использованием данных», Ершово, 11-14 октября              Big Data. При управлении электронными научными
2016                                                       коллекциями больших данных в полной мере




                                                      58
  Рисунок 1 Архитектура системы
остаются актуальными, а также появляются новые                извлечение метаданных из документов
задачи, в их числе: семантическая разметка,                    коллекции на основе анализа их структуры и
организация поиска, выделение метаданных,                      форматов представления информации;
формирование тематических кластеров документов,               автоматический выбор документов согласно
сбор наукометрической информации, подготовка                   установленному порядку, например,
сборников материалов и др. (см., например, [6, 7]).            лексикографическому, по спискам авторов;
Насущными становятся проблемы анализа и
управления данными в различных областях с                     извлечение блоков аннотаций из документов
интенсивным использованием данных. Ниже                        коллекции, подготовка алфавитного
представлена система сервисов автоматической                   указателя и формирование сборника
обработки коллекций научных документов. С ее                   аннотаций;
использованием проведена обработка материалов ХI              автоматическое формирование
Всероссийского съезда по фундаментальным                       библиографического описания статьи
проблемам теоретической и прикладной механике                  коллекции с записью этой информации в
(далее – Съезд), проведенного в Казани 20 – 24                 блок колонтитулов документа;
августа 2015 г.: сформированы программа съезда,               конвертация документов в pdf-формат в
сборники аннотаций и трудов съезда (объемом более              соответствии с установленными
1500 статей), а также соответствующая электронная              параметрами;
коллекция.
                                                              формирование оригинал-макетов
                                                               планируемых изданий с автоматической
2 Архитектура системы сервисов                                 выборкой статей, расстановкой страниц,
   На рис. 1 представлена архитектура созданной                подготовкой алфавитного указателя и
автоматизированной системы сервисов обработки                  содержания;
больших коллекций научных документов. Она                     подготовка метаданных для экспорта в базы
состоит из модулей, выполняющих следующие                      данных Российского индекса научного
функции:                                                       цитирования (РИНЦ).




                                                      59
3 Организация электронного хранилища                               например, название статьи записывается
                                                                   прописными буквами;
   Машиноориентированная                   обработка              осуществляется выбор форматов рисунков,
электронных коллекций предполагает наличие                         схем, диаграмм;
семантической разметки их документов. Такая                       производится набор математических формул
разметка частично присутствует в документах,                       и системы ссылок на них;
использующих TEX-нотацию, при условии, что                        списки литературы приводятся к
используются соответствующие макрокоманды                          выбранному формату библиографического
(например, \title, \author, \abstract, \keywords) и                описания.
стилевое окружение, характерное для каждой                        оформляются ссылки на поддержку
коллекции. В электронных научных коллекциях,                       исследований грантами, благодарности.
представленных в офисных форматах (.doc, .docx и
др.), а также .pdf, семантическая разметка
отсутствует. Тем не менее, выполнить такую                  5 Формирование семантического
разметку можно в автоматическом режиме на основе            представления коллекции на основе
информации о структурном строении каждого
                                                            структурного анализа
документа и особенностях его форматирования.
   Прежде всего, коллекция разбивается на классы
                                                                 Для извлечения метаданных статьи по
сходных по структуре документов, для каждого
                                                            характерным         признакам    (см.   таблицу   1)
класса производится преобразование документов к
                                                            определяются правила выделения блоков статьи. К
семантическому представлению. С помощью набора
                                                            таким признакам относятся стилевое оформление
паттернов регулярных выражений, специфичных для
                                                            статей (шрифт, размер шрифта, выделение и т. д.).
каждого     класса     документов,     производится
                                                            Кроме того, такие дополнительные признаки, как
выделение информационных блоков (названия
                                                            шаблонность текста (например, слово «Аннотация»
статьи, списка авторов, блока литературы и т. д.). В
                                                            перед блоком аннотаций или шаблонный вид
свою очередь, это дает возможность не только
                                                            электронной почты) и положение блока в тексте
использовать семантические инструменты работы с
                                                            (например, документ начинается с названия статьи),
электронным контентом, но и формировать в
                                                            позволяют повысить качество извлечения. В
автоматическом режиме новые виды документов.
                                                            качестве таких признаков могут использоваться
   В хранилище организована навигация по
                                                            положение блока в документе, а также шрифт
названию, авторам и т. д. Реализация этих сервисов
                                                            используемый в данном блоке (см., например, [8–
основана на структурном анализе документов в
                                                            11]). При структурном анализе коллекции научных
коллекции (см. раздел 5).
                                                            документов Съезда использовался набор признаков,
                                                            указанный в таблице 1.
4 Сервис валидации и стилевого                                   Модуль реализован в виде PHP-скрипта, и его
приведения                                                  работа состоит из следующих шагов. Из файла
                                                            статьи, хранящегося в формате docx, извлекается
   Под     валидацией   документов     коллекции            файл document.xml (см., например, [12]). Далее с
понимается     процесс   проверки    наличия      и         использованием описания класса DOMDocument
расположения ключевых блоков (название статьи,              производится разбор этого файла. Для выделения
список авторов, аффилиация, ключевые слова и т. д.),        блоков                  применяется            метод
указанных в регламентируемых документах.                    getElementsByTagNameNS с параметром «w:p» (тег
   Сервис     стилевого   приведения    реализует           разметки абзаца в OpenXML). В результате
следующие шаги:                                             получается список всех абзацев документа как
      единообразное представление названий                 объекта       DOMNodeList.      Полученный    список
       статей; списка авторов (например, вместо             последовательно проверяется на соответствие
       Хайдаров Ш.М. записывается Ш.М.                      заданным правилам. В итоге для каждого документа
       Хайдаров);                                           (см. пример рис. 2) формируется его семантическое
      единообразное представление аффилиации               представление (рис. 3).
       авторов, например, записи «КФУ»,                          Для выделения семантических элементов
       «К(П)ФУ», «Казанский университет»,                   разработан набор регулярных выражений, например,
       «Казанский (Приволжский) федеральный                 для выделения списка авторов используется
       университет» и «Казанский федеральный                выражение
       университет» приводятся к единому виду               /([А-ЯA-Z]\.(?:[А-ЯA-Z]\.)?\s[А-ЯA-Z][a-zа-я]+)
       «Казанский (Приволжский) федеральный                 (,\s)?(?1)?(,\s)?(?1)?/
       университет»; для этого создается словарь                 Кроме того, проверяются наличие ключевых
       синонимов;                                           конструкций и их соответствие заданному формату.
      единообразное шрифтовое оформление                   Результатом работы описываемого модуля является
       разделов текста статей; происходит учет              XML-документ, содержащий метаданные статей
       регистра при записи ключевых блоков,                 размечаемой коллекции.




                                                       60
Таблица 1 Характерные признаки для извлечения                     
метаданных                                                        
                                                                   <p style="text-indent:
 Блок статьи         Признаки блока
                                                                             20px;">In this talk, we consider
 Название статьи     Шрифт: Times New Roman, 12 пт,                          the evolution problem for the Navier–
                     полужирный,     выравнивание     по                     Stokes equations of non-Newtonian type
                     центру.                                                 and with an anisotropic diffusion.
                     Положение: в начале документа
 Список авторов      Шрифт: Times New Roman, 12 пт,              ...
                     выравнивание по центру                      </p>
                     Положение: после названия
                     Шаблон имеют вид: И.О. Фамилия               
                     или И. Фамилия, перечисляются через
                     запятую
                                                                  
                                                                   F:\Desktop\doc/00001.pdf
 Аффилиация          Шрифт: Times New Roman, 12 пт,
                     курсив, выравнивание по центру.              
                     Положение: после списка авторов.            
 Электронная почта   Шрифт: Times New Roman, 9 пт,               …
                     выравнивание по центру                      
                     Положение: после аффилиации
                     Шаблон содержат символ @ и имеют
                     заданный вид                               Рисунок 3 Фрагмент сгенерированного XML-файла

 Аннотация           Шрифт: Times New Roman, 9 пт,              6 Модуль формирования оригинал-
                     выравнивание по ширине                     макета научного издания
                     Положение:       после    адреса              Этот модуль позволяет в автоматическом режиме
                     электронной почты
                     Шаблон    начинается   со  слова           подготовить из файлов электронной коллекции
                     «Аннотация».                               оригинал-макет     научного    издания    (сборник
                                                                материалов, труды и т. д.). Порядок размещения
                                                                статей определяется семантическим представлением
                                                                коллекции, хранящемся в XML-файле (см. раздел 5).
                                                                Алгоритм реализован в виде макроса VBA и
                                                                включает следующие шаги: сначала для задания
                                                                диапазона страниц статей определяются счетчики
                                                                начальной и конечной страниц и задаются их
                                                                начальные значения (см. рис. 4–6). Далее
                                                                последовательно открываются документы коллекции
                                                                в соответствии с порядком, заданным в XML-файле
                                                                в    соответствии    с    правилами    извлечения.
                                                                Вычисляются начальные и конечные страницы,
                                                                после чего формируется библиографическое
                                                                описание статьи, которое записывается в колонтитул
Рисунок 2 Пример статьи, где 1 – название, 2 – блок             данного     документа.    Полученный      документ
списка авторов, 3 – блок аффилиации, 4 – блок                   конвертируется       в     PDF-формат.       Также
электронной почты и 5 – блок аннотации. Стилевое                библиографическое описание сохраняется в XML-
оформлении соответствует таблице 1                              файле. На рис. 6 приведен фрагмент кода,
                                                                выполняющий описанные операции.
 
 
 
S.N. Antontsev H.B. Oliveira University of Lisbon; University of Algarve, Portugal antontsevsn@mail.ru GENERALIZED ANISOTROPIC Рисунок 4 Фрагмент документа до обработки NAVIER-STOKES EQUATIONS модулем 61 ActiveWindow.ActivePane.View.SeekView = wdSeekMainDocument ActiveWindow.ActivePane.View.SeekView = wdSeekFirstPageFooter Selection.Fields.Add Range:=Selection.Range, Type:=wdFieldEmpty, PreserveFormatting:=False Selection.TypeText Text:="PAGE" Selection.Fields.Update Selection.Fields.ToggleShowCodes Selection.Font.Name = "Times New Roman" Selection.Font.Size = 12 Selection.ParagraphFormat.Alignment = wdAlign- ParagraphRight ActiveWindow.ActivePane.View.SeekView = wdSeekMainDocument With ActiveDocu- ment.Sections(1).Footers(wdHeaderFooterPrimary).PageNumbers Рисунок 5 Фрагмент документа после обработки .RestartNumberingAtSection = True модулем (создан колонтитул с выходными .StartingNumber = StartPage данными) .Add wdAlignPageNumberRight, False End With StartPage = EndPage + 1 ActiveDocument.ExportAsFixedFormat Output-FileName:=sPath Sub Макрос1() & Replace(sFile, "docx", "pdf"), Export-Format _ ' :=wdExportFormatPDF, OpenAfterExport:=False, OptimizeFor:= ' Макрос1 Макрос _ ' wdExportOptimizeForPrint, Range:=wdExportAllDocument, ' From:=1, To:=1, _ Application.ScreenUpdating = False Item:=wdExportDocumentContent, Includ-eDocProps:=True, StartPage = 4367 KeepIRM:=True, _ sPath = "F:\Desktop\doc1\" CreateBookmarks:=wdExportCreateNoBookmarks, sFile = Dir(sPath & "*.docx") DocStructureTags:=True, _ While sFile <> "" BitmapMissingFonts:=True, UseI-SO19005_1:=False With Documents.Open(sPath & sFile) On Error Resume Next ActiveDocument.PageSetup.HeaderDistance = ActiveDocument.Close (True) CentimetersToPoints(1) End With deleteAllHeaders_Footers sFile = Dir ActiveDocu-ment.PageSetup.DifferentFirstPageHeaderFooter = Wend True End Sub ActiveWindow.ActivePane.View.SeekView = wdSeekFirstPageHeader Рисунок 6 Фрагмент кода формирования ActiveDocument.Repaginate EndPage = StartPage + ActiveDocu- библиографического описания ment.BuiltInDocumentProperties(wdPropertyPages) - 1 Selection.Font.Name = "Times New Roman" Selection.Font.Size = 9 Selection.Font.Bold = wdToggle Selection.Font.Italic = wdToggle Selection.TypeText Text:="XI Всероссийский съезд по фундаментальным проблемам теоретической и прикладной механики," Selection.TypeParagraph Selection.TypeText Text:="Казань, 20 – 24 авгу-ста 2015 года. С. " Selection.TypeText StartPage Selection.TypeText Text:="-" Selection.TypeText EndPage Selection.TypeText Text:="." Selection.TypeParagraph Selection.InlineShapes.AddHorizontalLineStandard Selection.MoveLeft Unit:=wdCharacter, Count:=2, Extend:=wdExtend Selection.InlineShapes(1).Fill.Visible = msoTrue Selection.InlineShapes(1).Fill.Solid Рисунок 7 Пример автоматически Selection.InlineShapes(1).Fill.ForeColor.RGB = RGB(0, 0, 0) сгенерированного содержания сборника трудов Selection.InlineShapes(1).Fill.Transparency = 0# Съезда Selec-tion.InlineShapes(1).HorizontalLineFormat.WidthType = _ wdHorizontalLinePercentWidth После обработки всех документов коллекции Selec-tion.InlineShapes(1).HorizontalLineFormat.PercentWidth формируются содержание издания и авторский = 100 Selection.InlineShapes(1).Height = 1 указатель. При этом используются данные, Selec-tion.InlineShapes(1).HorizontalLineFormat.NoShade = сохраненные в XML-файле на этапе формирования True колонтитулов. На рисунках 7 и 8 приведены Selection.InlineShapes(1).HorizontalLineFormat.Alignment = _ автоматически сформированные содержание wdHorizontalLineAlignCenter издания и авторский указатель. 62 Благодарности Работа выполнена при финансовой поддержке РФФИ (проекты №№ 15-07-08522, 15-47-02472). Литература [1] IBM’s Top Storage Predictions for 2011, January 2011, StorageNewsletter.com. [2] MIKE2.0. The open source standard for information management. Big Data definition. http://mike2.openmethodology.org/wiki/Big_Data_ Definition Рисунок 8 Пример автоматически [3] А Manyika J., M. Chui, B. Brown, J. Bughin, сгенерированного авторского указателя сборника R. Dobbs, C. Roxburgh, A. H. Byers. Big data: The трудов Cъезда next frontier for innovation, competition, and productivity: McKinsey Global Institute Report, 2011. http://www.mckinsey.com/insights/mgi/ 7 Сервис извлечения research/technology_and_innovation/big_data_the_ библиографических метаданных и next_frontier_for_innovation загрузки в РИНЦ [4] P. J. Olver. Journals in flux. Notices Amer. Math. Алгоритм извлечения библиографических Soc., V. 58 (8), 2011, p. 1124-1126. метаданных и загрузки их в РИНЦ состоит из следующих шагов (проиллюстрированных на [5] С. А. Афонин, А. В. Бахтин, В. Ю. Бухонов, примере материалов Съезда): В. А. Васенин, Г. М. Ганкин, А. Э. Гаспарянц, Д. Д. Голомазов, А. А. Иткес, А. С. Козицын, 1. из оригинал-макета сборника трудов И. Н. Тумайкин, К. А. Шапченко. извлечены библиографические описания каждой Интеллектуальная система тематического публикации; исследования научно-технической информации 2. соответствующий скрипт находит в (ИСТИНА). М.: Изд-во Московского ун-та, 2014, документе блок библиографических описаний и с 262 с. помощью регулярных выражений разделяет их по видам изданий (например, отличительным [6] А. М. Елизаров, Н. Г. Жильцов, признаком библиографического описания статьи А. В. Кириллович, Е. К. Липачёв. является наличие знака //); Семантическое аннотирование в системе управления физико-математическим контентом. 3. проводится разбор основных метаданных – Науч. сервис в сети Интернет: труды XVII выделяются список авторов, названия статей, Всерос. науч. конф. (21–26 сентября 2015 г., изданий и т. д.; г. Новороссийск), М.: ИПМ им. М.В. Келдыша, 4. с помощью разработанного веб- c. 98-103, 2015. приложения генерируется XML-файл в соответствии с правилами РИНЦ, содержащий набор метаданных [7] А. М. Елизаров, Н. Г. Жильцов, публикации. А. В. Кириллович, Е. К. Липачёв. Терминологическое аннотирование и рекомендательный сервис в системе управления Заключение физико-математическим контентом. Труды XVII Межд. конф. DAMDID / RCDL’2015 «Аналитика Предложен метод автоматической обработки и управление данными в областях с больших коллекций физико-математических интенсивным использованием данных». документов, включающий их валидацию и Обнинск: ИАТЭ НИЯУ МИФИ, с. 347-350, 2015. семантический анализ, извлечение метаданных, подготовку различных видов оригинал-макетов [8] Xiaonan Lu, Brewster Kahle, James Z. Wang and C. научных изданий. Метод позволяет выполнять Lee Giles. A metadata generation system for автоматическую обработку больших коллекций scanned scientific volumes. Joint Conference on электронных документов с набором операций, Digital Libraries, June 16–20, 2008, Pittsburgh, который не реализуем при традиционной «ручной» Pennsylvania, p. 167-176, 2008. работе с электронным контентом. [9] J. Chen, H. Chen. A structured information Приведен пример успешной его реализации при extraction algorithm for scientific papers based on организации ХI Всероссийского съезда по feature rules learning. Journal of Software, Vol. фундаментальным проблемам теоретической и 8(1), p. 55-62, 2013. http://www.jsoftware.us/vol8/ прикладной механики (Казань, 20–24 августа jsw0801-08.pdf 2015 г.). 63 [10] D. Tkaczyk, B. Tarnawski, L. Bolikowski. Automated system of services for processing of Structured affiliations extraction from scientific large collections of scientific documents literature. D-Lib Magazine, V. 21 (11/12), 2015. http://www.dlib.org/dlib/november15/tkaczyk/11tk Alexander M. Elizarov, Evgeny K. Lipachev, aczyk.html Shamil M. Khaydarov This paper presents a system of services for the automated processing of collections of scientific [11] А.М. Елизаров, Е.К. Липачёв, Ш.М. Хайдаров. documents. These services provide verification of Автоматизированная система структурной и document compliance to the accepted rules of formation семантической обработки физико- of collections and their conversion to the established математического контента. Ученые записки formats; structural analysis of documents and extraction Института социально-гуманитарных знаний, № of metadata, as well as their integration into the scientific 1 (14), с. 210-215, 2016. information space. The system allows to automatically perform a set of operations that cannot be realized for [12] Standard ECMA-376: Office Open XML File acceptable time with the traditional manual processing of Formats. http://www.ecma-international.org/ electronic content. It is designed for the large collections publications/standards/Ecma-376.htm of scientific documents. 64