=Paper=
{{Paper
|id=None
|storemode=property
|title=Сервисы структурирования математического контента и интеграция электронных математических коллекций в научное информационное пространство
(Services Structuring Mathematical Content and Integration of Digital Mathematical Collections into Scientific Information Space)
|pdfUrl=https://ceur-ws.org/Vol-934/paper47.pdf
|volume=Vol-934
|dblpUrl=https://dblp.org/rec/conf/rcdl/ElizarovZLM12
}}
==Сервисы структурирования математического контента и интеграция электронных математических коллекций в научное информационное пространство
(Services Structuring Mathematical Content and Integration of Digital Mathematical Collections into Scientific Information Space)
==
Сервисы структурирования математического контента и интеграция электронных математических коллекций в научное информационное пространство © А.М. Елизаров © Д.С. Зуев © Е.К. Липачёв © М.А. Малахальцев Институт математики и механики им. Н.И. Лобачевского Казанского (Приволжского) федерального университета amelizarov@gmail.com dzuev11@gmail.com lipachev@ksu.ru mikarm@uniandes.edu.co Аннотация 1 Введение Процесс структурирования (разделения на Многочисленные научные электронные коллек- смысловые элементы) электронных версий ции, созданные на основе действующих периодиче- печатных изданий является необходимым ских научных журналов, состоят из электронных этапом для последующего семантического версий статей, изданных типографским способом. структурирования и включения электрон- Как следствие, электронные документы в таких кол- ных коллекций в информационное про- лекциях хранятся в виде отдельных файлов с мини- странство. мальной метаинформацией и не имеют структуры, Электронные версии печатных научных позволяющей выполнить автоматизацию по выделе- журналов представляют собой документы, нию данных. имеющие структуру, которая отражает ло- Как правило, электронные документы не имеют гику разделение документа на части. Эта связей внутри коллекции. Аналитическая обработка структура сформирована шрифтовым выде- документов такой коллекции (например, сбор нау- лением, абзацами, вертикальными и гори- кометрических данных) представляется крайне за- зонтальными отступами. Автоматическая труднительной. обработка таких документов с целью отбо- Электронные журналы, публикующие материалы ра структурных компонент (например, вы- исключительно в электронном виде, в большинстве деления авторов статьи или библиографи- случаев являются коллекцией электронных доку- ческих данных) затруднительна. Как след- ментов, созданных теми же программными средст- ствие, большинство операций с электрон- вами, ориентированными только на «финишную» ным контентом, в частности, создание свя- печать и, следовательно, имеющими только струк- зей между объектами электронного храни- туру оформления. лища, необходимо выполнять вручную. Примерами современных электронных храни- В докладе обсуждается подход к автома- лищ с развитыми сервисами являются научная тизации процесса обработки научных элек- электронная библиотека eLibrary.ru (http://elibrary.ru) тронных документов и их преобразования в и общероссийский математический портал Math- структурированные документы. Акцент Net.Ru (http://www.mathnet.ru/). Отметим также кол- сделан на особенностях обработки матема- лекцию электронного математического журнала тических текстов. С помощью сервисов, Lobachevskii Journal of Mathematics, содержащую созданных по предложенной методике, вы- сервисы управления электронным контентом, сфор- полнено структурирование достаточно мированные на основе семантического Веба (см., большого по объему электронного храни- напр., [1], [2]). Этот журнал, издаваемый с 1998 го- лища, содержащего выпуски периодическо- да, является одним из первых российских электрон- го журнала по математике и многотомных ных научных журналов и включен в базы данных трудов конференций. Science Direct (Elsevier) и eLibrary.ru. На современном этапе развития электронных на- Работа поддержана РФФИ (проекты № 12- учных библиотек важное место занимает интегра- 07-00667 и 12-07-97018-р_поволжье) ция созданных научных ресурсов в научное инфор- мационное пространство, в котором между объек- Труды 14-й Всероссийской научной конференции тами электронных коллекций присутствуют семан- «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» — RCDL-2012, тические связи (см., напр., [3], [4]). Необходимым Переславль-Залесский, Россия, 15-18 октября 2012 г. условием такой интеграции являются семантическое структурирование контента научных электронных 309 библиотек и создание семантических связей между сносок с учетом требований ГОСТ 7.1-84 «Библио- информационными объектами. Технологии семан- графическое описание документа». тического Веба, разрабатываемые консорциумом Для структурирования макетов печатных изда- W3C (www.w3.org), являются технологической ний в рамках проекта «Научная электронная биб- платформой, на которой осуществляется интеграция лиотека eLibrary.ru» была разработана программа, в электронных ресурсов в информационное простран- основу которой положен принцип выделения эле- ство (см., напр., [5], [6]). ментов текста и присвоения им меток полей собст- венного XML-формата, названного Sarcticle (см. 2 Проблемы обработки электронных [7]). математических ресурсов Отличительными особенностями этого формата являются: вложенность полей, возможности описа- Как уже было отмечено, у большинства имею- ния любого количества информации одним файлом, щихся электронных документов, являющихся элек- проверки правильности составления файлов описа- тронными версиями печатных публикаций, можно ний на стороне издательств, использования файлов обнаружить только структуру, отражающую форма- описаний для наполнения собственных сайтов изда- тирование (шрифт, выделение). Выполнить преоб- тельств и совместимости с другими форматами об- разование таких документов в структурирован- мена метаданными, основанными на XML. Основ- ный документ можно на основе особенностей ные блоки формата – информация о журнале, о вы- форматирования. Процесс такого преобразования пуске, о статье (основная информация файла). можно разделить на несколько последовательных Большинство полей может дублироваться на не- этапов, с которыми связано решение соответствую- скольких языках с целью более удобного представ- щих задач. ления для разных пользователей конечной инфор- Первая задача – это разделение текстов на кате- мации в электронной библиотеке. гории по общей для них системе форматирования и Основные разделы формата: программным средствам, используемым для науч- раздел описания журнала в целом, куда ной разметки. Можно считать, что такое разделение входят сведения о названии журнала, издателе, уже сделано – журналы, сборники трудов и т. д., как ISSN, обобщенной структуре издания (том – номер правило, подчинены единообразному для каждого – часть – спецвыпуск), а также поля, позволяющие издания стилю оформления. Затруднение может вы- описать отдельный выпуск журнала; звать только система научной нотации – в ряде из- сведения о статье из выпуска журнала, куда даний можно обнаружить, что разные авторы ис- входят описание индивидуальных и/или коллектив- пользуют отличающиеся технологии разметки. На- ных авторов статьи с подробной информацией о пример, в одном и том же сборнике наряду со стать- них, название статьи, ключевые слова, реферат (ан- ями, выполненными в TeX-разметке, присутствуют нотация), полный текст статьи без списка литерату- статьи, выполненные в MS Word + MathType. ры, наиболее распространенные коды классифика- Следующая задача – создание системы призна- торов (УДК, ББК, ГРНТИ, DOI для электронных ков для каждой категории электронных документов, изданий и др.), а также подраздел, описывающий на основании которых из текста выделяются струк- пристатейные списки литературы; при этом каждая турные элементы. позиция в списке литературы (или сноске) разбита Сложной задачей является обработка электрон- на отдельные поля и подполя – например, автор(ы) ного документа и его трансформация в структури- работы, название, источник, год издания и т. д.; рованный документ на основе системы признаков. раздел тематических рубрик журнала, куда Отдельная задача заключается в генерации мета- входит описание подразделов выпуска журнала. данных и выделении из текста ключевых слов. Формат исполнен в двух видах – в DTD и в MS Завершающим этапом является создание элек- Schema. Набор тегов формата не зависит от выбора тронного документа, структурированного по прави- видов описания XML. Порядок следования тегов лам семантического Веба. важен. Все теги имеют закрывающий тег. Регистр тегов должен соблюдаться: используются как 3 Технологии структурирования строчные, так и прописные буквы в названиях те- электронных ресурсов гов. Все спецсимволы при использовании формата требуется заменить на предопределенные сущности. Один из подходов к структурированию макетов Технически возможно в одном файле описать печатных изданий в составе электронной коллекции любое количество журналов, но с точки зрения предложен в проекте «Научная электронная библио- удобства хранения и заполнения предпочтительна тека eLibrary.ru». Алгоритм структурирования осно- ситуация «один файл XML – один выпуск журна- ван на выделении элементов текста и присвоении ла». им специализированных меток. Возможные способы создания документов XML Подготовка библиографических материалов, в формате Sarcticle могут включать использование: включаемых в индексы научного цитирования, вы- специализированных программных средств полняется автоматически с помощью сервиса, про- создания документов XML, конформных формату изводящего структурирование списков литературы и Sarcticle; 310 любого XML-ориентированного текстового ции от информационного мусора. Семантический редактора, например, MS XML Notepad; Веб, будучи частью глобальной концепции развития любого текстового редактора. интернета, имеет целью реализацию возможности Имеются дополнительные описания элементов машинной обработки информации и позволит рас- формата (или «справочники»): сматривать интернет в целом как глобальную базу «arcticle types» – список кодов типов статей данных. Один из акцентов этой концепции – работа для атрибута arttype; с метаданными, однозначно характеризующими «language codes» – список кодов языков для свойства и содержание сетевых ресурсов, вместо атрибута fieldlang; текстового анализа документов. Поэтому экстракция «country codes» – список кодов стран для метаданных является необходимой составной ча- атрибута jcountry; стью процесса автоматизации управления электрон- «symbols.html» (в HTML) – список всех ной научной коллекцией. Вместе с тем, метаданных сущностей, заменяющих специальные символы; недостаточно для интеграции электронных коллек- ций в информационное пространство, в котором «dateUni format.txt» – описание формата по- поиск и обработка информации программируются ля dateUni. как машиноориентированные. В настоящее время В случае электронной коллекции однотипных имеется широкий набор программных средств для документов (научные статьи журнала, материалы семантической разметки электронных документов и конференции) возможна автоматизация процесса записи их в XML-формате, в частности, преобразо- извлечения метаданных. Алгоритм такой экстрак- вания документов из ТeХ-нотации в MathML. Одна- ции основан на анализе синтаксического уровня представления информации. ко исходные файлы документов электронный кол- Научные статьи размечены в соответствии со лекций, как правило, не удовлетворяют требованиям имеющихся пакетов и сервисов семантического стилевыми правилами, принятыми в научных жур- преобразования из-за многообразия стилевых кон- налах, и поэтому имеют относительно регулярную структуру для определенного блока электронных струкций и отсутствия разделения на структурные элементы. Поэтому необходимым этапом становит- документов. ся предварительная трансформация электронных Математические статьи в большинстве случаев документов, обеспечивающая им структуру, общую создаются с помощью систем, основанных на TeX- нотации. Но, несмотря на продвинутые возможно- для данной коллекции, и возможность дальнейшей автоматизированной обработки. Разработанный ал- сти структурирования документа, заложенные в горитм трансформации электронных документов TeX-системы, в научных журналах, за редким ис- основан на синтаксическом анализе документов (см. ключением, используются упрощенные (с семанти- раздел 3). ческой точки зрения) средства структурирования. Практическая реализация описанного подхода, Наиболее сложными в этом плане являются архивы научных статей прошлых десятилетий, когда элек- выполненная авторами для нескольких электронных математических коллекций, выявила дополнитель- тронная форма документа являлась промежуточной ные сложности, связанные с наличием авторских и использовалась только для редактирования и под- конструкций в электронных документах, входящих в готовки перед печатью. Структура такого документа эти коллекции. Большинство этих сложностей уда- определяется на основе анализа шрифтового выде- ления и порядка следования текстовых единиц (на- ется преодолеть за счет использования специализи- рованных сервисов на всех этапах формирования звание, автор, аннотация). Этого недостаточно для электронной коллекции, в частности, электронного выделения ключевых слов. научного журнала (машинное взаимодействие авто- Основой алгоритма структурирования журналь- ров и редакции, анализ соответствия представляе- ных статей по математике являлась обработка ин- формации из стилевых файлов, используемых при мых материалов заданной структуре и т. д.). Одна из систем таких сервисов создана при ав- предпечатной подготовке журнала. Название статьи, томатизации работы электронного журнала ее авторы, выходные данные, УДК определялись Lobachevskii Journal of Mathematics. Кратко пере- автоматически выделением тега, характерного для числим функциональные возможности разработан- данного элемента. Создание программной среды, реализующей указанный алгоритм, позволило авто- ной системы: вывод списка ссылок на статьи, вхо- дящие в коллекцию; вывод списка авторов статей, матизировать процесс структурирования электрон- входящих в коллекцию; поиск по авторам, заглави- ной коллекции математического журнала. ям, ключевым словам, рефератам, тексту статей. Отдельно выделим поиск по математическим фор- 4 Сервисы электронных математических мулам. Этот сервис основан на использовании тех- коллекций нологии MathML (см., напр., [8], [9]). Как известно, сегодня поиск является самым распространенным инструментом доступа к инфор- Заключение мации в сети. По многим оценкам, поиск занимает Использование технологий семантического Веба до 50% времени работы на компьютере, а самая является основой интеграции электронных научных сложная проблема – отделение значимой информа- 311 коллекций в информационное научное пространст- во. Автоматизация процесса структурирования [6] Когаловский М. Р., Хохлов Ю. Е. Стандарты имеющихся электронных математических ресурсов Всемирной паутины в разработках электронного создает возможность быстрого включения элек- правительства. – Информационное общество: тронных версий математических публикаций в ин- научно-аналитический журнал. – 2009. – № 2. – формационное научное пространство. С. 21-32. [7] Глухов В. А., Елизаров А. М. Проект «Научная Литература электронная библиотека eLibrary.ru» и россий- ские электронные журналы: новый этап разви- [1] Елизаров А. М., Липачев Е. К., Малахаль- тия //Тр. 8-й Всерос. науч. конф. «Электронные цев М. А. Технологии Semantic Web в практике библиотеки: перспективные методы и техноло- работы электронного журнала по математике // гии, электронные коллекции» – RCDL’2006, Тр. 8-й Всерос. науч. конф. «Электронные биб- Суздаль, Россия, 2006. – С. 203-207. лиотеки: перспективные методы и технологии, [8] Елизаров А. М., Липачев Е. К., Малахальцев электронные коллекции» – RCDL’2006, Суз- М.А. Веб-технологии для математика: Основы даль, Россия, 2006. – С. 215-218. MathML. Практическое руководство. – М.: [2] Веселаго В. Г., Елизаров А. М., Липачёв Е. К., Физматлит, 2010. – 216 с. Малахальцев М. А. Формирование и поддержка [9] Елизаров А.М., Липачёв Е. К., Малахаль- физико-математических электронных научных цев М.А. Языки разметки семантического веба. изданий: переход на технологии семантического Практические аспекты. – http://www.ksu.ru/ веба // В кн. «Научно-исследовательский инсти- fpk/docs/lip_mal.pdf. тут математики и механики им. Н. Г. Чеботарева Казанского государственного университета. Services structuring mathematical content 2003 – 2007 гг.». Кол. монография под ред. А. М. Елизарова. – Казань: Изд-во Казан. ун-та, and integration of digital mathematical 2008. – С. 456-476. collections at scientific information space [3] Когаловский М. Р., Паринов С. И. Семантиче- ское структурирование контента научных элек- Alexander Elizarov, Denis Zuev, Eugene Lipachev, тронных библиотек на основе онтологий // В сб. Michael Malakhaltsev «Современные технологии интеграции инфор- мационных ресурсов: сборник научных трудов», The approach to automate the processing of scien- 2011. – Вып. 2. – www.cemi.rssi.ru/mei/articles/ tific digital documents and convert them into structured kogalov11-04.pdf. documents is discussed. Main emphasis is placed on the [4] Паринов С. И., Когаловский М. Р. Техноло- features of processing of mathematical texts. Using spe- гия семантического структурирования контента cial services which were created by the proposed meth- научных электронных библиотек // Тр. 13-й od of structuring texts the large enough digital reposito- Всерос. науч. конф. «Электронные библиотеки: ry with periodical journal issues in mathematics and перспективные методы и технологии, электрон- multivolume conference proceedings was performed. ные коллекции» – RCDL’2011, Воронеж, 2011. – С. 94-103. [5] Когаловский М. Р., Хохлов Ю. Е. Стандарты XML для электронного правительства. – М.: Институт развития информационного общества, 2008. – 416 с. 312