Что такое семантическая цифровая библиотека © В.А. Серебряков Вычислительный Центр РАН, Москва serebr@ccas.ru библиографических форматов США и Канады, и Аннотация призванный стать «Библиографическим форматом В последние годы в литературе значительное 21 века». MARC 21 является эволюцией исходного LC MARC. Последующие издания были внимание уделяется так называемым «семантическим цифровым библиотекам». Что это опубликованы в 1990 году, 1994 и 2000 года. такое? В работе на основе анализа проектов и MARC21 поддерживается библиотекой конгресса США, и используется в основном в США и публикаций делается попытка определить такие понятия, как «электронная библиотека», «цифровая Великобритании. В настоящее время существуют библиотека», «семантическая цифровая две группы, ответственные за рассмотрение и пересмотр формата MARC 21: Комитет Marbi библиотека». (машиночитаемая библиографическая информация) 1 Что такое библиотека и Консультативный комитет MARC. Каждый год появляется новое официально опубликованное Прежде всего необходимо определить, что такое издание MARC 21 в Интернете с учетом изменений цифровые библиотеки (в отличие от «электронных» в библиотечной среде. библиотек, под которыми будем понимать В 1977 году был выпущен формат UNIMARC, программное обеспечение обычных, «книжных» который был призван стать посредником между библиотек, (часто назывемое АБИС – любыми национальными стандартами MARС. автоматизированная библиотечная информационна Формат UNIMARC включает поля, необходимые система). Переходя от электронных библиотек к для описания монографий, сериальных изданий, цифровым, можно было бы сказать, что цифровая нотных записей, видео, изображений и прочих библиотека – это электронная с цифровым документов. Эти поля делятся на общие, контентом. Это было так в первое время, однако использующиеся при описании любого вида затем контент стал включать живопись, видео и т.д. документа, и специфические, используемые только Так что такое определение устарело. для описания их определенных видов. Этот формат Электронная библиотека сегодня – это прежде поддерживается международной организацией всего формат MARC. Машиночитаемая IFLA, и используется в основном в Европе и Азии. каталогизация (MARC) – это идея разработки общей Программное обеспечение обычной, «книжной» системы описания ресурсов библиотек. Она берет библиотеки состоит из нескольких базовых начало от работ библиотеки Конгресса еще в 1960-е компонент, которые можно разделить на два блока: годы по разработке формата LC MARC для блок работы с читателями, включающий проверку собственных нужд, когда начали использовать обслуживание прав читателя, выдачу, прием и заказ компьютеры. MARC-запись стала электронным книг и т.д., и блок обслуживания фонда, куда аналогом бумажного каталога и карточки, который условно можно отнести заказ и покупку литературы, может быть создан в Библиотеке Конгресса и списание, постановку на учет (включая подготовку продаваться в библиотеки, которым не придется библиографических записей) и т.д. тратить свои ресурсы для создания почти идентичного набора уже предложенной 1.1 Что такое цифровая библиотека информации. Даже если библиотека не имеет собственной компьютерной системы, совместимой с Самое простое определение, которое можно дать MARC, она может приобрести напечатанные на – «Цифровая библиотека – это электронная компьютере каталожные карточки, заполненные в библиотека с цифровым контентом». Более соответствии с библиографическими записями в неопределенно можно сказать, что ЦБ – это MARC файлах Библиотеки Конгресса. Формат информационная система, основным назначением MARC введен в 1987 году, а в 1999 году появился которой является доступ к цифровым материалам. формат MARC21, созданный в результате слияния Здесь подчеркивается, что организация самой информационной системы может быть произвольной, важно, что вся эта организация Труды 16-й Всероссийской научной конференции нацелена на доступ к цифровому контенту (тексты, «Электронные библиотеки: перспективные методы и видео, аудио и т.д.). Wikipedia определяет цифровую технологии, электронные коллекции» — RCDL-2014, библиотеку так: «Цифровая библиотека – это Дубна, Россия, 13–16 октября 2014 г. библиотека, в которой коллекции хранятся в 1 цифровых форматах (в отличие от печатного, разнородных? Средствами навигации снабжены микроформата или другого носителя) и собираются документы? Только навигации и поиска, т.е. с помощью компьютеров». никаких связей нет. Что значит «Может быть веб- Еще одним предшественником ЦБ были сайтом»? А может не быть? Т.е. может быть не библиотеки программ. Изначально они были привязана к Интернет. «Постепенно предназначены для размещения и использования накапливаются», а если не постепенно? Почему объектов операционных систем: библиотеки для чаще литературные? Самодостаточен, т.е. в связывания объектного кода, библиотеки исходного некотором роде отсутствуют связи между кода, компилированного объектного кода для ресурсами. Библиотека Мошкова и повторного использования. Они возникли из Фундаментальная электронная библиотека потребностей ОС, чтобы находить и загружать радикально отличаются друг от друга: первая компоненты, и того факта, что существующие просто набор файлов, вторая пронизана ссылками файловые системы не обеспечивали работу в (HTML). реальном времени. Возникшая структура остается «Под электронными библиотеками понимаются по-существу и сегодня; за справочником элементов информационные системы, которые библиотеки, который дает имена и другие автоматизируют решение основных проблем метаданные содержащихся объектов, следуют в том организации работы с документами» [7]. же наборе данных или файле двоичные данные для В соответствии с таким определенем наилучшей каждого объекта, на который ссылается элементы электронной библиотекой является система каталогов. документооборота. Часто в связи с ЦБ используется термин В [4] дается следующее определение ЦБ (в «коллекция», под которым имеют в виду оригинале «Электронной библиотеки»). определенным образом организованный набор как «Электронные библиотеки – это организации, в правило однородных цифровых объектов. том числе специализированный персонал, «Основой цифровой библиотеки является представляющие доступ читателей к электронным коллекция цифровых объектов, которые ресурсам. Кроме того они выполняют отбор, представляют интерес как таковые (в первую структурирование, предоставление очередь для чтения, прослушивания, просмотра интеллектуального доступа, интерпретацию, людьми, но и для использования программами), а не распространение, сохранение целостности и просто указания на другие объекты. Примеры: обеспечение сохранности в течение длительного  Коллекция оцифрованных книг (в отличие от времени наборов электронных документов для просто интернет-каталога), удобного доступа к ним определенным сообществам  Коллекция биографий (в отличие от базы специалистов. данных персонала), В соответствии с данным определением основными компонентами ЭБ являются:  Коллекция устных историй, специалисты, информационные ресурсы  Набор программных модулей (многие так и (документы) и информационные технологии. рассматривают DL)» [5]. Электронные библиотеки реализуют набор Рассмотрим теперь определения цифровых функций для обеспечения читателям полного библиотек, приводимые различными авторами и их доступа к множеству распределенных и критику. разнородных документов, содержащих информацию ru.wikipedia.org дает такое определение. и знания, интегрируя их в единое информационное Электро́нная библиоте́ка – упорядоченная пространство». коллекция разнородных электронных документов (в 1.2 Цифровые библиотеки или информационные том числе книг, журналов), снабженных средствами навигации и поиска. Может быть веб-сайтом, где системы? постепенно накапливаются различные тексты (чаще С другой стороны, ясно, что цифровую литературные, но также научные и любые другие, библиотеку можно считать информационной вплоть до компьютерных программ) и медиафайлы, системой. А почему бы не считать любую каждый из которых самодостаточен и в любой информационную систему цифровой библиотекой? момент может быть востребован читателем. Любая информационная система в конце концов Электронные библиотеки могут быть имеет дело с цифромым контентом. Есть ли все-таки универсальными, стремящимися к наиболее разделительная линия, выделяющая цифровые широкому выбору материала (как Библиотека библиотеки из общего класса информационных Библиотека Максима Мошкова или Либрусек), и систем? более специализированными, как Фундаментальная В [1, 2, 4] описаны некоторые проблемы ЭБ, электронная библиотека или проект Сетевая основными из которых являются следующие: Словесность. - Проблема интеграции разнородной Возникает ряд вопросов. Что значит информации (электронных ресурсов, упорядоченная коллекция? Что значит 2 пользовательских профилей, таксономий) на основе  Поиск во многих системах синтаксического и различных метаданных, содержащих выразительные семантического взаимодействия. семантические описания.  Нахождение ответов, а не только документов; - Проблема поддержки взаимодействия с рассуждения и логический вывод». другими информационными системами (и не  Интеграция многих форматов сохранения. толькоЭБ) либо с помощью метаданных, либо на уровне коммуникации или с помощью обеих  Интеграция библиотек, архивов, музеев а возможностей. При этом в качестве единого языка также баз данных и других информационных взаимодействия между системами может систем. использоватьсяязык RDF (Resource Description  Интеграция чтение / просмотр / Framework). прослушивание, доступ к базе данных, обработка - Проблема обеспечения надежного, удобного и данных и создание. адаптируемого поиска и интерфейсов просмотра  Интеграция издательских и электронных документов, усиленных работой с коммуникационных платформ». семантикой [7].  Сервисы Распространение и уведомления. «ЦБ можно охарактеризовать диапазоном целей, Современные цифровые библиотеки должны помочь которым она служит, или областью в которой он своим пользователям в доступе к метаданным в работает, например, обучение, образование, различных форматах, позволяющих, среди других, электронное правительство, электронная коммерция построения мэшапы сервисов и контента. (B2B или B2C), развлечения, и более специфические  Сервисы безопасности и политики Assurance. цели, такие как обеспечение информации, связанной Библиотека должна приспосабливаться к различным с работой, поддержка домашних заданий студентов, усилениям политики; она должна обеспечить гибкие поддерживая внутренней работы организации, механизмы аутентификации и контроля доступа. поддержка клиентов организации, поддержка связи между пользователями и т.д.» [5].  Сервисы сохранения. Цифровая библиотека должна обеспечить управление версиями, «1. ЦБ имеет много функций и должна архивирования (резервного копирования и интегрировать поддержку информационного поиска, восстановления) а также, отслеживания задачи пользовательской работы, производство происхождения (особенно в контексте открытого информации и сотрудничество. мирового подхода семантических и социальных 2. ЦБ связывает многие виды информационных технологий), и отслеживание истории событий, объектов в различных форматах (в том числе связанных с информационными объектами. Должно документы и базы данных) во всех средствах быть обеспечено, что отношения между объектами и массовой информации в сложную структуру» [5]. дополненая информация поддерживаются Рассмотрим еще несколько определений ЦБ в сервисами сохранения. контекте информационных систем.  Сервисы обеспечения качества. Особое «Термин Цифровая библиотека (ЦБ) внимание следует уделять качеству сервисов на используется для диапазона систем, от цифрового основе метаданных; семантическая цифровая объекта и хранилищ метаданных, системы ссылка- библиотека должны обеспечить эффективность, связь, архивов и систем управления контентом до безопасность и семантику поддержки метаданных. сложных систем, которые объединяют в себе Эффективность может быть достигнута, например, передовые цифровые библиотечные услуги и путем жесткого кодирования части метаданных; поддержку научных исследований и практических ограничений на действия, которые могут быть сообществ» [5]. выполнены над метаданными, могут повысить Ничего специфичного для ЦБ в этих уровень безопасности. Семантика метаданных определениях нет, это все также относится и к можно определить через значения новых информационным системам. концепций». Рассмотрим, как некоторые авторы определяют Из вышеприведенного можно видеть, что при функции ЦБ [5]. таких определениях любую информационную систему можно рассматривать как цифровую «Цифровые библиотеки сталкиваются со библиотеку. многими проблемами, в том числе:  Поиск текста, изображения, звука и составных 2. Что такое семантическая цифровая объектах мультимедиа. библиотека  Семантически улучшенный поиск для извлечения из свободного текста и изображения и Само по себе слово «семантический» означает не лучшего использования проставленных более, чем «смысловой», т.е. в отрыве от контекста пользователем меток. не означает ничего. Этот термин (когда-то используемый в теории языков программирования)  Многоязычный поиск. стал активно употребляться в контексте «семантический WEB» в противовес 3 «несемантическому WEB», основанному на Опять происходит некая подмена. Онтологии в гиперссылках. Фактически сегодня под современном понимании могут использоваться в «семантической моделью WEB» имеется в виду трех целях: 1) как модель данных более высокого использование RDF модели для представления уровня по сравнению с использовавшимися моделями информции. Но что такое RDF модель? Это всего раньше, а именно моделью «сущность-связь» и навсего использование бинарных отношений, т.е. объектной; 2) для поддержки интеграции данных в связей, между объектами и соответствующие пространстве Интернет и 3) для реализации словари RDF, обобщающие и стандартизующие их восзможности осуществления логического вывода. использование. Это внесло колоссальный прорыв в Для реализации 1-й цели в ЦСБ онтологии технологии WEB. Но в конце концов, практически используются в той же мере, в какой они все данные, в частности, конечно, и данные используются для разработки информационных цифровых библиотек, хранятся сегодня в системных в прикладных областях. Для реализации реляционных базах данных, также представляющих 2-й цели отологии активно используются в той же собой отношения, только вообще говоря, мере, в какой они используются для интеграции многоместные. данных в Интернет. Для 3-й цели в приложении к Термин «семантический» не вносит ничего ЦСБ онтологии не используются. нового в технологии цифровых библиотек. В контексте ЦБ упоминаются соц. сети, Единственное, что может быть тут стоит отметить, обучающие системы, архивные системы и их связь с что в обычных цифровых библиотеках эти связи пользователями. Все это было и не называлось ЦБ. между объектами используются недостаточно «Основной целью семантической цифровой активно, хотя в рамках формата MARC, библиотеки является предоставление нахождения разработанного Библиотекой Конгресса США, информации превосходящее решения, предусмотрены так называемые «авторитетные» обеспечиваемые текущими цифровыми файлы, хранящие инофрмацию о персонах и библиотеками. Пользователи должны иметь организациях. Но эти данные недостаточно возможность использовать взаимосвязанную формализованы, чтобы их легко можно было информацию о ресурсах в процессе просмотра, использовать для установления всех необходимых фильтрацию или нахождение подобных связей. информационных объектов. Средства уточнения Поэтому термин «Цифровые семантические запроса должны адаптировать свои результаты для библиотеки» осмысленно употреблять только в решений, соответствующим пользовательским контексте WEB, а именно имея в виду интеграцию профайлам; средства должны использовать сложные цифровых библиотек в контекст семантического семантические отношения между результатами. WEB». А это означает: Наконец, семантическая цифровая библиотека  Разработку стандартов обмена RDF должна предлагать различные рекомендательные информацией. В качестве примера можно привести сервисы, например, на основе контекста и ресурса онтологии MADS и MODS, разработанные (ресурсов) или аннотации на основе совместной Библиотекой Когресса США для авторитетных фильтрации. Поисковая система должна позволять файлов и библиографических записей. использовать информацию о различных типах носителей, сложных объектах, потокового и  «семантическую» интеграцию библиотек пространственно-временных ресурсах. В случае между собой, т.е. возможность, способность ресурсов со сложными аннотациями важно цифровых библиотек обмениваться такой поддерживать поиск на основе содержимого вместе информацией. с алгоритмами поиска, основанными на сходстве. В  «погружение» цифровых библиотек в случае гетерогенных конкурентных сетей контент- семантический WEB, т.е. интеграцию с другими, провайдеров, семантическая цифровая библиотека небиблиотечными данными, например, с соцсетями. должна осуществлять алгоритмы запроса,  Взаимодействие с данными из Linked Open основанные на торговле, для поддержки Data (LOD), например, извлечение данных из LOD в пользователей в их поиске» [3]. библиотеку и наоборот, публикация собственных «Одной из наиболее отличительных данных в LOD. особенностей семантических цифровых библиотек «Включение семантических данных и обработки является дополнительное пополнение аннотаций в DL предполагает использование метаданных исходной информации, представляемые в ходе объектов в такой библиотеке и обеспечение доступа процесса загрузки ресурса. Ожидается, что пользователей к семантически более мощным семантические цифровые библиотеки могут поисковым системам. Метаданные, как правило, обеспечить как автоматизированные, так и выражается в Синтаксисе RDF» [3]. пользовательские аннотации. Последние должны использовать силу социальных сетей, то есть Интересно отметить еще одно аннотации сообщества, пометки, и рейтинг» [3]. обстоятельство. В контексте цифровых семантических библиотек часто упоминают онтологии. Насколько это важно и характерно именно для цифровых семантических библиотек? 4 Заключение Libraries / Editors: Sebastian Ryszard Kruk, Bill McDaniel. – Springer, 2009. Резюмируя вышеприведенный краткий обзор, [4] A.A. Shiri. Digital library research: current можно остановиться на следующих определениях. developments and trends // Library Review. – Электронная Библиотека (ЭБ, АБИС) – средство 2003. –Vol. 52. – P. 198–202. автоматизации работы обычных, «книжных» [5] Dagobert Soergel. Digital Libraries and библиотек, основанное как правило на технологиях Knowledge Organization // Semantic Digital MARC. Libraries / Editors: Sebastian Ryszard Kruk, Bill Цифровая Библиотека (ЦБ) – информационная McDaniel. – Springer, 2009. система, ориентированная на действия (поиск, [6] Sukhdev Singh. Digital Library: Definition to доступ и т.д.) с цифровым контентом (тексты, аудио, Implementation [Электронный ресурс]. – видео и т.д.). В этом смысле ЦБ може быть, а может http://arizona.openrepository.com/arizona/bitstrea и не быть ЭБ. m/ 10150/106534/1/ lecture_rcc_26jul03.pdf Семантическая Цифровая Библиотека (СЦБ) – [7] Ле Хоай, А.Ф. Тузовский, Разработка ЦБ, ориентированная на интеграцию в Semantic семантических электронных библиотек. Web. Доклады ТУСУРа, № 2 (24), часть 2, декабрь 2011. Литература Semantic digital libraries. What is it? [1] Ding Hao. A semantic search framework in peer- to-peer based digital libraries. – NTNU, Norway, Vladimir Serebryakov 2006. In recent years, considerable attention is paid to the [2] Sebastian Ryszard Kruk, Adam Westerki, and so-called “semantic digital libraries”. What is it? In this Ewelina Kruk. Architecture of Semantic Digital // paper, based on analysis of projects and publications an Semantic Digital Libraries / Editors: Sebastian attempt is made to define concepts such as “electronic Ryszard Kruk, Bill McDaniel. – Springer, 2009. library”, “digital library”, “semantic digital library”. [3] Sebastian Ryszard Kruk and Bill McDaniel. Goals of Semantic Digital Libraries // Semantic Digital 5