=Paper=
{{Paper
|id=Vol-1297/1-5_paper-1
|storemode=property
|title=Что такое семантическая цифровая библиотека
(Semantic Digital Libraries. What Is It?)
|pdfUrl=https://ceur-ws.org/Vol-1297/1-5_paper-1.pdf
|volume=Vol-1297
}}
==Что такое семантическая цифровая библиотека
(Semantic Digital Libraries. What Is It?)
==
Что такое семантическая цифровая библиотека
© В.А. Серебряков
Вычислительный Центр РАН,
Москва
serebr@ccas.ru
библиографических форматов США и Канады, и
Аннотация призванный стать «Библиографическим форматом
В последние годы в литературе значительное 21 века». MARC 21 является эволюцией исходного
LC MARC. Последующие издания были
внимание уделяется так называемым
«семантическим цифровым библиотекам». Что это опубликованы в 1990 году, 1994 и 2000 года.
такое? В работе на основе анализа проектов и MARC21 поддерживается библиотекой конгресса
США, и используется в основном в США и
публикаций делается попытка определить такие
понятия, как «электронная библиотека», «цифровая Великобритании. В настоящее время существуют
библиотека», «семантическая цифровая две группы, ответственные за рассмотрение и
пересмотр формата MARC 21: Комитет Marbi
библиотека».
(машиночитаемая библиографическая информация)
1 Что такое библиотека и Консультативный комитет MARC. Каждый год
появляется новое официально опубликованное
Прежде всего необходимо определить, что такое издание MARC 21 в Интернете с учетом изменений
цифровые библиотеки (в отличие от «электронных» в библиотечной среде.
библиотек, под которыми будем понимать В 1977 году был выпущен формат UNIMARC,
программное обеспечение обычных, «книжных» который был призван стать посредником между
библиотек, (часто назывемое АБИС – любыми национальными стандартами MARС.
автоматизированная библиотечная информационна Формат UNIMARC включает поля, необходимые
система). Переходя от электронных библиотек к для описания монографий, сериальных изданий,
цифровым, можно было бы сказать, что цифровая нотных записей, видео, изображений и прочих
библиотека – это электронная с цифровым документов. Эти поля делятся на общие,
контентом. Это было так в первое время, однако использующиеся при описании любого вида
затем контент стал включать живопись, видео и т.д. документа, и специфические, используемые только
Так что такое определение устарело. для описания их определенных видов. Этот формат
Электронная библиотека сегодня – это прежде поддерживается международной организацией
всего формат MARC. Машиночитаемая IFLA, и используется в основном в Европе и Азии.
каталогизация (MARC) – это идея разработки общей Программное обеспечение обычной, «книжной»
системы описания ресурсов библиотек. Она берет библиотеки состоит из нескольких базовых
начало от работ библиотеки Конгресса еще в 1960-е компонент, которые можно разделить на два блока:
годы по разработке формата LC MARC для блок работы с читателями, включающий проверку
собственных нужд, когда начали использовать обслуживание прав читателя, выдачу, прием и заказ
компьютеры. MARC-запись стала электронным книг и т.д., и блок обслуживания фонда, куда
аналогом бумажного каталога и карточки, который условно можно отнести заказ и покупку литературы,
может быть создан в Библиотеке Конгресса и списание, постановку на учет (включая подготовку
продаваться в библиотеки, которым не придется библиографических записей) и т.д.
тратить свои ресурсы для создания почти
идентичного набора уже предложенной 1.1 Что такое цифровая библиотека
информации. Даже если библиотека не имеет
собственной компьютерной системы, совместимой с Самое простое определение, которое можно дать
MARC, она может приобрести напечатанные на – «Цифровая библиотека – это электронная
компьютере каталожные карточки, заполненные в библиотека с цифровым контентом». Более
соответствии с библиографическими записями в неопределенно можно сказать, что ЦБ – это
MARC файлах Библиотеки Конгресса. Формат информационная система, основным назначением
MARC введен в 1987 году, а в 1999 году появился которой является доступ к цифровым материалам.
формат MARC21, созданный в результате слияния Здесь подчеркивается, что организация самой
информационной системы может быть
произвольной, важно, что вся эта организация
Труды 16-й Всероссийской научной конференции нацелена на доступ к цифровому контенту (тексты,
«Электронные библиотеки: перспективные методы и видео, аудио и т.д.). Wikipedia определяет цифровую
технологии, электронные коллекции» — RCDL-2014, библиотеку так: «Цифровая библиотека – это
Дубна, Россия, 13–16 октября 2014 г. библиотека, в которой коллекции хранятся в
1
цифровых форматах (в отличие от печатного, разнородных? Средствами навигации снабжены
микроформата или другого носителя) и собираются документы? Только навигации и поиска, т.е.
с помощью компьютеров». никаких связей нет. Что значит «Может быть веб-
Еще одним предшественником ЦБ были сайтом»? А может не быть? Т.е. может быть не
библиотеки программ. Изначально они были привязана к Интернет. «Постепенно
предназначены для размещения и использования накапливаются», а если не постепенно? Почему
объектов операционных систем: библиотеки для чаще литературные? Самодостаточен, т.е. в
связывания объектного кода, библиотеки исходного некотором роде отсутствуют связи между
кода, компилированного объектного кода для ресурсами. Библиотека Мошкова и
повторного использования. Они возникли из Фундаментальная электронная библиотека
потребностей ОС, чтобы находить и загружать радикально отличаются друг от друга: первая
компоненты, и того факта, что существующие просто набор файлов, вторая пронизана ссылками
файловые системы не обеспечивали работу в (HTML).
реальном времени. Возникшая структура остается «Под электронными библиотеками понимаются
по-существу и сегодня; за справочником элементов информационные системы, которые
библиотеки, который дает имена и другие автоматизируют решение основных проблем
метаданные содержащихся объектов, следуют в том организации работы с документами» [7].
же наборе данных или файле двоичные данные для В соответствии с таким определенем наилучшей
каждого объекта, на который ссылается элементы электронной библиотекой является система
каталогов. документооборота.
Часто в связи с ЦБ используется термин В [4] дается следующее определение ЦБ (в
«коллекция», под которым имеют в виду оригинале «Электронной библиотеки»).
определенным образом организованный набор как
«Электронные библиотеки – это организации, в
правило однородных цифровых объектов.
том числе специализированный персонал,
«Основой цифровой библиотеки является представляющие доступ читателей к электронным
коллекция цифровых объектов, которые ресурсам. Кроме того они выполняют отбор,
представляют интерес как таковые (в первую структурирование, предоставление
очередь для чтения, прослушивания, просмотра интеллектуального доступа, интерпретацию,
людьми, но и для использования программами), а не распространение, сохранение целостности и
просто указания на другие объекты. Примеры: обеспечение сохранности в течение длительного
Коллекция оцифрованных книг (в отличие от времени наборов электронных документов для
просто интернет-каталога), удобного доступа к ним определенным сообществам
Коллекция биографий (в отличие от базы специалистов.
данных персонала), В соответствии с данным определением
основными компонентами ЭБ являются:
Коллекция устных историй,
специалисты, информационные ресурсы
Набор программных модулей (многие так и (документы) и информационные технологии.
рассматривают DL)» [5].
Электронные библиотеки реализуют набор
Рассмотрим теперь определения цифровых функций для обеспечения читателям полного
библиотек, приводимые различными авторами и их доступа к множеству распределенных и
критику. разнородных документов, содержащих информацию
ru.wikipedia.org дает такое определение. и знания, интегрируя их в единое информационное
Электро́нная библиоте́ка – упорядоченная пространство».
коллекция разнородных электронных документов (в
1.2 Цифровые библиотеки или информационные
том числе книг, журналов), снабженных средствами
навигации и поиска. Может быть веб-сайтом, где системы?
постепенно накапливаются различные тексты (чаще С другой стороны, ясно, что цифровую
литературные, но также научные и любые другие, библиотеку можно считать информационной
вплоть до компьютерных программ) и медиафайлы, системой. А почему бы не считать любую
каждый из которых самодостаточен и в любой информационную систему цифровой библиотекой?
момент может быть востребован читателем. Любая информационная система в конце концов
Электронные библиотеки могут быть имеет дело с цифромым контентом. Есть ли все-таки
универсальными, стремящимися к наиболее разделительная линия, выделяющая цифровые
широкому выбору материала (как Библиотека библиотеки из общего класса информационных
Библиотека Максима Мошкова или Либрусек), и систем?
более специализированными, как Фундаментальная
В [1, 2, 4] описаны некоторые проблемы ЭБ,
электронная библиотека или проект Сетевая
основными из которых являются следующие:
Словесность.
- Проблема интеграции разнородной
Возникает ряд вопросов. Что значит
информации (электронных ресурсов,
упорядоченная коллекция? Что значит
2
пользовательских профилей, таксономий) на основе Поиск во многих системах синтаксического и
различных метаданных, содержащих выразительные семантического взаимодействия.
семантические описания. Нахождение ответов, а не только документов;
- Проблема поддержки взаимодействия с рассуждения и логический вывод».
другими информационными системами (и не Интеграция многих форматов сохранения.
толькоЭБ) либо с помощью метаданных, либо на
уровне коммуникации или с помощью обеих Интеграция библиотек, архивов, музеев а
возможностей. При этом в качестве единого языка также баз данных и других информационных
взаимодействия между системами может систем.
использоватьсяязык RDF (Resource Description Интеграция чтение / просмотр /
Framework). прослушивание, доступ к базе данных, обработка
- Проблема обеспечения надежного, удобного и данных и создание.
адаптируемого поиска и интерфейсов просмотра Интеграция издательских и
электронных документов, усиленных работой с коммуникационных платформ».
семантикой [7]. Сервисы Распространение и уведомления.
«ЦБ можно охарактеризовать диапазоном целей, Современные цифровые библиотеки должны помочь
которым она служит, или областью в которой он своим пользователям в доступе к метаданным в
работает, например, обучение, образование, различных форматах, позволяющих, среди других,
электронное правительство, электронная коммерция построения мэшапы сервисов и контента.
(B2B или B2C), развлечения, и более специфические Сервисы безопасности и политики Assurance.
цели, такие как обеспечение информации, связанной Библиотека должна приспосабливаться к различным
с работой, поддержка домашних заданий студентов, усилениям политики; она должна обеспечить гибкие
поддерживая внутренней работы организации, механизмы аутентификации и контроля доступа.
поддержка клиентов организации, поддержка связи
между пользователями и т.д.» [5]. Сервисы сохранения. Цифровая библиотека
должна обеспечить управление версиями,
«1. ЦБ имеет много функций и должна
архивирования (резервного копирования и
интегрировать поддержку информационного поиска,
восстановления) а также, отслеживания
задачи пользовательской работы, производство
происхождения (особенно в контексте открытого
информации и сотрудничество.
мирового подхода семантических и социальных
2. ЦБ связывает многие виды информационных технологий), и отслеживание истории событий,
объектов в различных форматах (в том числе связанных с информационными объектами. Должно
документы и базы данных) во всех средствах быть обеспечено, что отношения между объектами и
массовой информации в сложную структуру» [5]. дополненая информация поддерживаются
Рассмотрим еще несколько определений ЦБ в сервисами сохранения.
контекте информационных систем. Сервисы обеспечения качества. Особое
«Термин Цифровая библиотека (ЦБ) внимание следует уделять качеству сервисов на
используется для диапазона систем, от цифрового основе метаданных; семантическая цифровая
объекта и хранилищ метаданных, системы ссылка- библиотека должны обеспечить эффективность,
связь, архивов и систем управления контентом до безопасность и семантику поддержки метаданных.
сложных систем, которые объединяют в себе Эффективность может быть достигнута, например,
передовые цифровые библиотечные услуги и путем жесткого кодирования части метаданных;
поддержку научных исследований и практических ограничений на действия, которые могут быть
сообществ» [5]. выполнены над метаданными, могут повысить
Ничего специфичного для ЦБ в этих уровень безопасности. Семантика метаданных
определениях нет, это все также относится и к можно определить через значения новых
информационным системам. концепций».
Рассмотрим, как некоторые авторы определяют Из вышеприведенного можно видеть, что при
функции ЦБ [5]. таких определениях любую информационную
систему можно рассматривать как цифровую
«Цифровые библиотеки сталкиваются со
библиотеку.
многими проблемами, в том числе:
Поиск текста, изображения, звука и составных 2. Что такое семантическая цифровая
объектах мультимедиа.
библиотека
Семантически улучшенный поиск для
извлечения из свободного текста и изображения и Само по себе слово «семантический» означает не
лучшего использования проставленных более, чем «смысловой», т.е. в отрыве от контекста
пользователем меток. не означает ничего. Этот термин (когда-то
используемый в теории языков программирования)
Многоязычный поиск.
стал активно употребляться в контексте
«семантический WEB» в противовес
3
«несемантическому WEB», основанному на Опять происходит некая подмена. Онтологии в
гиперссылках. Фактически сегодня под современном понимании могут использоваться в
«семантической моделью WEB» имеется в виду трех целях: 1) как модель данных более высокого
использование RDF модели для представления уровня по сравнению с использовавшимися моделями
информции. Но что такое RDF модель? Это всего раньше, а именно моделью «сущность-связь» и
навсего использование бинарных отношений, т.е. объектной; 2) для поддержки интеграции данных в
связей, между объектами и соответствующие пространстве Интернет и 3) для реализации
словари RDF, обобщающие и стандартизующие их восзможности осуществления логического вывода.
использование. Это внесло колоссальный прорыв в Для реализации 1-й цели в ЦСБ онтологии
технологии WEB. Но в конце концов, практически используются в той же мере, в какой они
все данные, в частности, конечно, и данные используются для разработки информационных
цифровых библиотек, хранятся сегодня в системных в прикладных областях. Для реализации
реляционных базах данных, также представляющих 2-й цели отологии активно используются в той же
собой отношения, только вообще говоря, мере, в какой они используются для интеграции
многоместные. данных в Интернет. Для 3-й цели в приложении к
Термин «семантический» не вносит ничего ЦСБ онтологии не используются.
нового в технологии цифровых библиотек. В контексте ЦБ упоминаются соц. сети,
Единственное, что может быть тут стоит отметить, обучающие системы, архивные системы и их связь с
что в обычных цифровых библиотеках эти связи пользователями. Все это было и не называлось ЦБ.
между объектами используются недостаточно «Основной целью семантической цифровой
активно, хотя в рамках формата MARC, библиотеки является предоставление нахождения
разработанного Библиотекой Конгресса США, информации превосходящее решения,
предусмотрены так называемые «авторитетные» обеспечиваемые текущими цифровыми
файлы, хранящие инофрмацию о персонах и библиотеками. Пользователи должны иметь
организациях. Но эти данные недостаточно возможность использовать взаимосвязанную
формализованы, чтобы их легко можно было информацию о ресурсах в процессе просмотра,
использовать для установления всех необходимых фильтрацию или нахождение подобных
связей. информационных объектов. Средства уточнения
Поэтому термин «Цифровые семантические запроса должны адаптировать свои результаты для
библиотеки» осмысленно употреблять только в решений, соответствующим пользовательским
контексте WEB, а именно имея в виду интеграцию профайлам; средства должны использовать сложные
цифровых библиотек в контекст семантического семантические отношения между результатами.
WEB». А это означает: Наконец, семантическая цифровая библиотека
Разработку стандартов обмена RDF должна предлагать различные рекомендательные
информацией. В качестве примера можно привести сервисы, например, на основе контекста и ресурса
онтологии MADS и MODS, разработанные (ресурсов) или аннотации на основе совместной
Библиотекой Когресса США для авторитетных фильтрации. Поисковая система должна позволять
файлов и библиографических записей. использовать информацию о различных типах
носителей, сложных объектах, потокового и
«семантическую» интеграцию библиотек пространственно-временных ресурсах. В случае
между собой, т.е. возможность, способность ресурсов со сложными аннотациями важно
цифровых библиотек обмениваться такой поддерживать поиск на основе содержимого вместе
информацией. с алгоритмами поиска, основанными на сходстве. В
«погружение» цифровых библиотек в случае гетерогенных конкурентных сетей контент-
семантический WEB, т.е. интеграцию с другими, провайдеров, семантическая цифровая библиотека
небиблиотечными данными, например, с соцсетями. должна осуществлять алгоритмы запроса,
Взаимодействие с данными из Linked Open основанные на торговле, для поддержки
Data (LOD), например, извлечение данных из LOD в пользователей в их поиске» [3].
библиотеку и наоборот, публикация собственных «Одной из наиболее отличительных
данных в LOD. особенностей семантических цифровых библиотек
«Включение семантических данных и обработки является дополнительное пополнение аннотаций
в DL предполагает использование метаданных исходной информации, представляемые в ходе
объектов в такой библиотеке и обеспечение доступа процесса загрузки ресурса. Ожидается, что
пользователей к семантически более мощным семантические цифровые библиотеки могут
поисковым системам. Метаданные, как правило, обеспечить как автоматизированные, так и
выражается в Синтаксисе RDF» [3]. пользовательские аннотации. Последние должны
использовать силу социальных сетей, то есть
Интересно отметить еще одно
аннотации сообщества, пометки, и рейтинг» [3].
обстоятельство. В контексте цифровых
семантических библиотек часто упоминают
онтологии. Насколько это важно и характерно
именно для цифровых семантических библиотек?
4
Заключение Libraries / Editors: Sebastian Ryszard Kruk, Bill
McDaniel. – Springer, 2009.
Резюмируя вышеприведенный краткий обзор, [4] A.A. Shiri. Digital library research: current
можно остановиться на следующих определениях. developments and trends // Library Review. –
Электронная Библиотека (ЭБ, АБИС) – средство 2003. –Vol. 52. – P. 198–202.
автоматизации работы обычных, «книжных» [5] Dagobert Soergel. Digital Libraries and
библиотек, основанное как правило на технологиях Knowledge Organization // Semantic Digital
MARC. Libraries / Editors: Sebastian Ryszard Kruk, Bill
Цифровая Библиотека (ЦБ) – информационная McDaniel. – Springer, 2009.
система, ориентированная на действия (поиск, [6] Sukhdev Singh. Digital Library: Definition to
доступ и т.д.) с цифровым контентом (тексты, аудио, Implementation [Электронный ресурс]. –
видео и т.д.). В этом смысле ЦБ може быть, а может http://arizona.openrepository.com/arizona/bitstrea
и не быть ЭБ. m/ 10150/106534/1/ lecture_rcc_26jul03.pdf
Семантическая Цифровая Библиотека (СЦБ) – [7] Ле Хоай, А.Ф. Тузовский, Разработка
ЦБ, ориентированная на интеграцию в Semantic семантических электронных библиотек.
Web. Доклады ТУСУРа, № 2 (24), часть 2, декабрь
2011.
Литература
Semantic digital libraries. What is it?
[1] Ding Hao. A semantic search framework in peer-
to-peer based digital libraries. – NTNU, Norway, Vladimir Serebryakov
2006. In recent years, considerable attention is paid to the
[2] Sebastian Ryszard Kruk, Adam Westerki, and so-called “semantic digital libraries”. What is it? In this
Ewelina Kruk. Architecture of Semantic Digital // paper, based on analysis of projects and publications an
Semantic Digital Libraries / Editors: Sebastian attempt is made to define concepts such as “electronic
Ryszard Kruk, Bill McDaniel. – Springer, 2009. library”, “digital library”, “semantic digital library”.
[3] Sebastian Ryszard Kruk and Bill McDaniel. Goals
of Semantic Digital Libraries // Semantic Digital
5