=Paper= {{Paper |id=None |storemode=property |title=Сервисы структурирования математического контента и интеграция электронных математических коллекций в научное информационное пространство (Services Structuring Mathematical Content and Integration of Digital Mathematical Collections into Scientific Information Space) |pdfUrl=https://ceur-ws.org/Vol-934/paper47.pdf |volume=Vol-934 |dblpUrl=https://dblp.org/rec/conf/rcdl/ElizarovZLM12 }} ==Сервисы структурирования математического контента и интеграция электронных математических коллекций в научное информационное пространство (Services Structuring Mathematical Content and Integration of Digital Mathematical Collections into Scientific Information Space) == https://ceur-ws.org/Vol-934/paper47.pdf
  Сервисы структурирования математического контента
  и интеграция электронных математических коллекций
         в научное информационное пространство

       © А.М. Елизаров               © Д.С. Зуев               © Е.К. Липачёв
                                 © М.А. Малахальцев
                  Институт математики и механики им. Н.И. Лобачевского
                   Казанского (Приволжского) федерального университета
   amelizarov@gmail.com          dzuev11@gmail.com             lipachev@ksu.ru
                               mikarm@uniandes.edu.co

                  Аннотация                             1 Введение
    Процесс структурирования (разделения на                 Многочисленные научные электронные коллек-
    смысловые элементы) электронных версий              ции, созданные на основе действующих периодиче-
    печатных изданий является необходимым               ских научных журналов, состоят из электронных
    этапом для последующего семантического              версий статей, изданных типографским способом.
    структурирования и включения электрон-              Как следствие, электронные документы в таких кол-
    ных коллекций в информационное про-                 лекциях хранятся в виде отдельных файлов с мини-
    странство.                                          мальной метаинформацией и не имеют структуры,
      Электронные версии печатных научных               позволяющей выполнить автоматизацию по выделе-
    журналов представляют собой документы,              нию данных.
    имеющие структуру, которая отражает ло-                 Как правило, электронные документы не имеют
    гику разделение документа на части. Эта             связей внутри коллекции. Аналитическая обработка
    структура сформирована шрифтовым выде-              документов такой коллекции (например, сбор нау-
    лением, абзацами, вертикальными и гори-             кометрических данных) представляется крайне за-
    зонтальными отступами. Автоматическая               труднительной.
    обработка таких документов с целью отбо-                Электронные журналы, публикующие материалы
    ра структурных компонент (например, вы-             исключительно в электронном виде, в большинстве
    деления авторов статьи или библиографи-             случаев являются коллекцией электронных доку-
    ческих данных) затруднительна. Как след-            ментов, созданных теми же программными средст-
    ствие, большинство операций с электрон-             вами, ориентированными только на «финишную»
    ным контентом, в частности, создание свя-           печать и, следовательно, имеющими только струк-
    зей между объектами электронного храни-             туру оформления.
    лища, необходимо выполнять вручную.                     Примерами современных электронных храни-
      В докладе обсуждается подход к автома-            лищ с развитыми сервисами являются научная
    тизации процесса обработки научных элек-            электронная библиотека eLibrary.ru (http://elibrary.ru)
    тронных документов и их преобразования в            и общероссийский математический портал Math-
    структурированные документы. Акцент                 Net.Ru (http://www.mathnet.ru/). Отметим также кол-
    сделан на особенностях обработки матема-            лекцию электронного математического журнала
    тических текстов. С помощью сервисов,               Lobachevskii Journal of Mathematics, содержащую
    созданных по предложенной методике, вы-             сервисы управления электронным контентом, сфор-
    полнено структурирование достаточно                 мированные на основе семантического Веба (см.,
    большого по объему электронного храни-              напр., [1], [2]). Этот журнал, издаваемый с 1998 го-
    лища, содержащего выпуски периодическо-             да, является одним из первых российских электрон-
    го журнала по математике и многотомных              ных научных журналов и включен в базы данных
    трудов конференций.                                 Science Direct (Elsevier) и eLibrary.ru.
                                                            На современном этапе развития электронных на-
      Работа поддержана РФФИ (проекты № 12-
                                                        учных библиотек важное место занимает интегра-
    07-00667 и 12-07-97018-р_поволжье)
                                                        ция созданных научных ресурсов в научное инфор-
                                                        мационное пространство, в котором между объек-
Труды 14-й Всероссийской научной конференции            тами электронных коллекций присутствуют семан-
«Электронные библиотеки: перспективные методы и
технологии, электронные коллекции» — RCDL-2012,
                                                        тические связи (см., напр., [3], [4]). Необходимым
Переславль-Залесский, Россия, 15-18 октября 2012 г.     условием такой интеграции являются семантическое
                                                        структурирование контента научных электронных



                                                  309
библиотек и создание семантических связей между         сносок с учетом требований ГОСТ 7.1-84 «Библио-
информационными объектами. Технологии семан-            графическое описание документа».
тического Веба, разрабатываемые консорциумом                Для структурирования макетов печатных изда-
W3C (www.w3.org), являются технологической              ний в рамках проекта «Научная электронная биб-
платформой, на которой осуществляется интеграция        лиотека eLibrary.ru» была разработана программа, в
электронных ресурсов в информационное простран-         основу которой положен принцип выделения эле-
ство (см., напр., [5], [6]).                            ментов текста и присвоения им меток полей собст-
                                                        венного XML-формата, названного Sarcticle (см.
2 Проблемы обработки электронных                        [7]).
математических ресурсов                                     Отличительными особенностями этого формата
                                                        являются: вложенность полей, возможности описа-
   Как уже было отмечено, у большинства имею-           ния любого количества информации одним файлом,
щихся электронных документов, являющихся элек-          проверки правильности составления файлов описа-
тронными версиями печатных публикаций, можно            ний на стороне издательств, использования файлов
обнаружить только структуру, отражающую форма-          описаний для наполнения собственных сайтов изда-
тирование (шрифт, выделение). Выполнить преоб-          тельств и совместимости с другими форматами об-
разование таких документов в структурирован-            мена метаданными, основанными на XML. Основ-
ный документ можно на основе особенностей               ные блоки формата – информация о журнале, о вы-
форматирования. Процесс такого преобразования           пуске, о статье (основная информация файла).
можно разделить на несколько последовательных           Большинство полей может дублироваться на не-
этапов, с которыми связано решение соответствую-        скольких языках с целью более удобного представ-
щих задач.                                              ления для разных пользователей конечной инфор-
   Первая задача – это разделение текстов на кате-      мации в электронной библиотеке.
гории по общей для них системе форматирования и             Основные разделы формата:
программным средствам, используемым для науч-                   раздел описания журнала в целом, куда
ной разметки. Можно считать, что такое разделение       входят сведения о названии журнала, издателе,
уже сделано – журналы, сборники трудов и т. д., как     ISSN, обобщенной структуре издания (том – номер
правило, подчинены единообразному для каждого           – часть – спецвыпуск), а также поля, позволяющие
издания стилю оформления. Затруднение может вы-         описать отдельный выпуск журнала;
звать только система научной нотации – в ряде из-               сведения о статье из выпуска журнала, куда
даний можно обнаружить, что разные авторы ис-           входят описание индивидуальных и/или коллектив-
пользуют отличающиеся технологии разметки. На-          ных авторов статьи с подробной информацией о
пример, в одном и том же сборнике наряду со стать-      них, название статьи, ключевые слова, реферат (ан-
ями, выполненными в TeX-разметке, присутствуют          нотация), полный текст статьи без списка литерату-
статьи, выполненные в MS Word + MathType.               ры, наиболее распространенные коды классифика-
   Следующая задача – создание системы призна-          торов (УДК, ББК, ГРНТИ, DOI для электронных
ков для каждой категории электронных документов,        изданий и др.), а также подраздел, описывающий
на основании которых из текста выделяются струк-        пристатейные списки литературы; при этом каждая
турные элементы.                                        позиция в списке литературы (или сноске) разбита
   Сложной задачей является обработка электрон-         на отдельные поля и подполя – например, автор(ы)
ного документа и его трансформация в структури-         работы, название, источник, год издания и т. д.;
рованный документ на основе системы признаков.                  раздел тематических рубрик журнала, куда
   Отдельная задача заключается в генерации мета-       входит описание подразделов выпуска журнала.
данных и выделении из текста ключевых слов.                 Формат исполнен в двух видах – в DTD и в MS
   Завершающим этапом является создание элек-           Schema. Набор тегов формата не зависит от выбора
тронного документа, структурированного по прави-        видов описания XML. Порядок следования тегов
лам семантического Веба.                                важен. Все теги имеют закрывающий тег. Регистр
                                                        тегов должен соблюдаться: используются как
3    Технологии      структурирования                   строчные, так и прописные буквы в названиях те-
электронных ресурсов                                    гов. Все спецсимволы при использовании формата
                                                        требуется заменить на предопределенные сущности.
   Один из подходов к структурированию макетов              Технически возможно в одном файле описать
печатных изданий в составе электронной коллекции        любое количество журналов, но с точки зрения
предложен в проекте «Научная электронная библио-        удобства хранения и заполнения предпочтительна
тека eLibrary.ru». Алгоритм структурирования осно-      ситуация «один файл XML – один выпуск журна-
ван на выделении элементов текста и присвоении          ла».
им специализированных меток.                                Возможные способы создания документов XML
   Подготовка библиографических материалов,             в формате Sarcticle могут включать использование:
включаемых в индексы научного цитирования, вы-                 специализированных программных средств
полняется автоматически с помощью сервиса, про-         создания документов XML, конформных формату
изводящего структурирование списков литературы и        Sarcticle;



                                                  310
      любого XML-ориентированного текстового           ции от информационного мусора. Семантический
 редактора, например, MS XML Notepad;                   Веб, будучи частью глобальной концепции развития
      любого текстового редактора.                     интернета, имеет целью реализацию возможности
     Имеются дополнительные описания элементов          машинной обработки информации и позволит рас-
 формата (или «справочники»):                           сматривать интернет в целом как глобальную базу
      «arcticle types» – список кодов типов статей     данных. Один из акцентов этой концепции – работа
 для атрибута arttype;                                  с метаданными, однозначно характеризующими
      «language codes» – список кодов языков для       свойства и содержание сетевых ресурсов, вместо
 атрибута fieldlang;                                    текстового анализа документов. Поэтому экстракция
      «country codes» – список кодов стран для         метаданных является необходимой составной ча-
 атрибута jcountry;                                     стью процесса автоматизации управления электрон-
      «symbols.html» (в HTML) – список всех            ной научной коллекцией. Вместе с тем, метаданных
 сущностей, заменяющих специальные символы;             недостаточно для интеграции электронных коллек-
                                                        ций в информационное пространство, в котором
      «dateUni format.txt» – описание формата по-
                                                        поиск и обработка информации программируются
 ля dateUni.
                                                        как машиноориентированные. В настоящее время
    В случае электронной коллекции однотипных
                                                        имеется широкий набор программных средств для
 документов (научные статьи журнала, материалы
                                                        семантической разметки электронных документов и
 конференции) возможна автоматизация процесса
                                                        записи их в XML-формате, в частности, преобразо-
 извлечения метаданных. Алгоритм такой экстрак-
                                                        вания документов из ТeХ-нотации в MathML. Одна-
 ции основан на анализе синтаксического уровня
 представления информации.                              ко исходные файлы документов электронный кол-
    Научные статьи размечены в соответствии со          лекций, как правило, не удовлетворяют требованиям
                                                        имеющихся пакетов и сервисов семантического
 стилевыми правилами, принятыми в научных жур-
                                                        преобразования из-за многообразия стилевых кон-
 налах, и поэтому имеют относительно регулярную
 структуру для определенного блока электронных          струкций и отсутствия разделения на структурные
                                                        элементы. Поэтому необходимым этапом становит-
 документов.
                                                        ся предварительная трансформация электронных
    Математические статьи в большинстве случаев
                                                        документов, обеспечивающая им структуру, общую
 создаются с помощью систем, основанных на TeX-
 нотации. Но, несмотря на продвинутые возможно-         для данной коллекции, и возможность дальнейшей
                                                        автоматизированной обработки. Разработанный ал-
 сти структурирования документа, заложенные в
                                                        горитм трансформации электронных документов
 TeX-системы, в научных журналах, за редким ис-
                                                        основан на синтаксическом анализе документов (см.
 ключением, используются упрощенные (с семанти-
                                                        раздел 3).
 ческой точки зрения) средства структурирования.
                                                           Практическая реализация описанного подхода,
 Наиболее сложными в этом плане являются архивы
 научных статей прошлых десятилетий, когда элек-        выполненная авторами для нескольких электронных
                                                        математических коллекций, выявила дополнитель-
 тронная форма документа являлась промежуточной
                                                        ные сложности, связанные с наличием авторских
 и использовалась только для редактирования и под-
                                                        конструкций в электронных документах, входящих в
 готовки перед печатью. Структура такого документа
                                                        эти коллекции. Большинство этих сложностей уда-
 определяется на основе анализа шрифтового выде-
 ления и порядка следования текстовых единиц (на-       ется преодолеть за счет использования специализи-
                                                        рованных сервисов на всех этапах формирования
 звание, автор, аннотация). Этого недостаточно для
                                                        электронной коллекции, в частности, электронного
 выделения ключевых слов.
                                                        научного журнала (машинное взаимодействие авто-
    Основой алгоритма структурирования журналь-
                                                        ров и редакции, анализ соответствия представляе-
 ных статей по математике являлась обработка ин-
 формации из стилевых файлов, используемых при          мых материалов заданной структуре и т. д.).
                                                           Одна из систем таких сервисов создана при ав-
 предпечатной подготовке журнала. Название статьи,
                                                        томатизации     работы    электронного      журнала
 ее авторы, выходные данные, УДК определялись
                                                        Lobachevskii Journal of Mathematics. Кратко пере-
 автоматически выделением тега, характерного для
                                                        числим функциональные возможности разработан-
 данного элемента. Создание программной среды,
 реализующей указанный алгоритм, позволило авто-        ной системы: вывод списка ссылок на статьи, вхо-
                                                        дящие в коллекцию; вывод списка авторов статей,
 матизировать процесс структурирования электрон-
                                                        входящих в коллекцию; поиск по авторам, заглави-
 ной коллекции математического журнала.
                                                        ям, ключевым словам, рефератам, тексту статей.
                                                        Отдельно выделим поиск по математическим фор-
4 Сервисы электронных математических                    мулам. Этот сервис основан на использовании тех-
 коллекций                                              нологии MathML (см., напр., [8], [9]).
    Как известно, сегодня поиск является самым
 распространенным инструментом доступа к инфор-         Заключение
 мации в сети. По многим оценкам, поиск занимает           Использование технологий семантического Веба
 до 50% времени работы на компьютере, а самая           является основой интеграции электронных научных
 сложная проблема – отделение значимой информа-



                                                  311
коллекций в информационное научное пространст-
во. Автоматизация процесса структурирования              [6] Когаловский М. Р., Хохлов Ю. Е. Стандарты
имеющихся электронных математических ресурсов                Всемирной паутины в разработках электронного
создает возможность быстрого включения элек-                 правительства. – Информационное общество:
тронных версий математических публикаций в ин-               научно-аналитический журнал. – 2009. – № 2. –
формационное научное пространство.                           С. 21-32.
                                                         [7] Глухов В. А., Елизаров А. М. Проект «Научная
Литература                                                   электронная библиотека eLibrary.ru» и россий-
                                                             ские электронные журналы: новый этап разви-
[1] Елизаров А. М., Липачев Е. К., Малахаль-                 тия //Тр. 8-й Всерос. науч. конф. «Электронные
    цев М. А. Технологии Semantic Web в практике             библиотеки: перспективные методы и техноло-
    работы электронного журнала по математике //             гии, электронные коллекции» – RCDL’2006,
    Тр. 8-й Всерос. науч. конф. «Электронные биб-            Суздаль, Россия, 2006. – С. 203-207.
    лиотеки: перспективные методы и технологии,          [8] Елизаров А. М., Липачев Е. К., Малахальцев
    электронные коллекции» – RCDL’2006, Суз-                 М.А. Веб-технологии для математика: Основы
    даль, Россия, 2006. – С. 215-218.                        MathML. Практическое руководство. – М.:
[2] Веселаго В. Г., Елизаров А. М., Липачёв Е. К.,           Физматлит, 2010. – 216 с.
    Малахальцев М. А. Формирование и поддержка           [9] Елизаров А.М., Липачёв Е. К., Малахаль-
    физико-математических электронных научных                цев М.А. Языки разметки семантического веба.
    изданий: переход на технологии семантического            Практические аспекты. – http://www.ksu.ru/
    веба // В кн. «Научно-исследовательский инсти-           fpk/docs/lip_mal.pdf.
    тут математики и механики им. Н. Г. Чеботарева
    Казанского государственного университета.
                                                          Services structuring mathematical content
    2003 – 2007 гг.». Кол. монография под ред. А.
    М. Елизарова. – Казань: Изд-во Казан. ун-та,            and integration of digital mathematical
    2008. – С. 456-476.                                    collections at scientific information space
[3] Когаловский М. Р., Паринов С. И. Семантиче-
    ское структурирование контента научных элек-           Alexander Elizarov, Denis Zuev, Eugene Lipachev,
    тронных библиотек на основе онтологий // В сб.                       Michael Malakhaltsev
    «Современные технологии интеграции инфор-
    мационных ресурсов: сборник научных трудов»,              The approach to automate the processing of scien-
    2011. – Вып. 2. – www.cemi.rssi.ru/mei/articles/     tific digital documents and convert them into structured
    kogalov11-04.pdf.                                    documents is discussed. Main emphasis is placed on the
[4]     Паринов С. И., Когаловский М. Р. Техноло-        features of processing of mathematical texts. Using spe-
    гия семантического структурирования контента         cial services which were created by the proposed meth-
    научных электронных библиотек // Тр. 13-й            od of structuring texts the large enough digital reposito-
    Всерос. науч. конф. «Электронные библиотеки:         ry with periodical journal issues in mathematics and
    перспективные методы и технологии, электрон-         multivolume conference proceedings was performed.
    ные коллекции» – RCDL’2011, Воронеж, 2011. –
    С. 94-103.
[5] Когаловский М. Р., Хохлов Ю. Е. Стандарты
    XML для электронного правительства. – М.:
    Институт развития информационного общества,
    2008. – 416 с.




                                                   312