=Paper= {{Paper |id=Vol-1297/1-5_paper-1 |storemode=property |title=Что такое семантическая цифровая библиотека (Semantic Digital Libraries. What Is It?) |pdfUrl=https://ceur-ws.org/Vol-1297/1-5_paper-1.pdf |volume=Vol-1297 }} ==Что такое семантическая цифровая библиотека (Semantic Digital Libraries. What Is It?) == https://ceur-ws.org/Vol-1297/1-5_paper-1.pdf
        Что такое семантическая цифровая библиотека
                                      © В.А. Серебряков
                                  Вычислительный Центр РАН,
                                            Москва
                                        serebr@ccas.ru
                                                         библиографических форматов США и Канады, и
                  Аннотация                              призванный стать «Библиографическим форматом
   В последние годы в литературе значительное            21 века». MARC 21 является эволюцией исходного
                                                         LC    MARC.      Последующие      издания    были
внимание       уделяется     так     называемым
«семантическим цифровым библиотекам». Что это            опубликованы в 1990 году, 1994 и 2000 года.
такое? В работе на основе анализа проектов и             MARC21 поддерживается библиотекой конгресса
                                                         США, и используется в основном в США и
публикаций делается попытка определить такие
понятия, как «электронная библиотека», «цифровая         Великобритании. В настоящее время существуют
библиотека»,       «семантическая       цифровая         две группы, ответственные за рассмотрение и
                                                         пересмотр формата MARC 21: Комитет Marbi
библиотека».
                                                         (машиночитаемая библиографическая информация)
1 Что такое библиотека                                   и Консультативный комитет MARC. Каждый год
                                                         появляется новое официально опубликованное
   Прежде всего необходимо определить, что такое         издание MARC 21 в Интернете с учетом изменений
цифровые библиотеки (в отличие от «электронных»          в библиотечной среде.
библиотек, под которыми будем понимать                      В 1977 году был выпущен формат UNIMARC,
программное обеспечение обычных, «книжных»               который был призван стать посредником между
библиотек,     (часто   назывемое     АБИС       –       любыми национальными стандартами MARС.
автоматизированная библиотечная информационна            Формат UNIMARC включает поля, необходимые
система). Переходя от электронных библиотек к            для описания монографий, сериальных изданий,
цифровым, можно было бы сказать, что цифровая            нотных записей, видео, изображений и прочих
библиотека – это электронная с цифровым                  документов. Эти поля делятся на общие,
контентом. Это было так в первое время, однако           использующиеся при описании любого вида
затем контент стал включать живопись, видео и т.д.       документа, и специфические, используемые только
Так что такое определение устарело.                      для описания их определенных видов. Этот формат
   Электронная библиотека сегодня – это прежде           поддерживается     международной     организацией
всего     формат      MARC.      Машиночитаемая          IFLA, и используется в основном в Европе и Азии.
каталогизация (MARC) – это идея разработки общей            Программное обеспечение обычной, «книжной»
системы описания ресурсов библиотек. Она берет           библиотеки состоит из нескольких базовых
начало от работ библиотеки Конгресса еще в 1960-е        компонент, которые можно разделить на два блока:
годы по разработке формата LC MARC для                   блок работы с читателями, включающий проверку
собственных нужд, когда начали использовать              обслуживание прав читателя, выдачу, прием и заказ
компьютеры. MARC-запись стала электронным                книг и т.д., и блок обслуживания фонда, куда
аналогом бумажного каталога и карточки, который          условно можно отнести заказ и покупку литературы,
может быть создан в Библиотеке Конгресса и               списание, постановку на учет (включая подготовку
продаваться в библиотеки, которым не придется            библиографических записей) и т.д.
тратить свои ресурсы для создания почти
идентичного      набора     уже     предложенной         1.1 Что такое цифровая библиотека
информации. Даже если библиотека не имеет
собственной компьютерной системы, совместимой с             Самое простое определение, которое можно дать
MARC, она может приобрести напечатанные на               – «Цифровая библиотека – это электронная
компьютере каталожные карточки, заполненные в            библиотека с цифровым контентом». Более
соответствии с библиографическими записями в             неопределенно можно сказать, что ЦБ – это
MARC файлах Библиотеки Конгресса. Формат                 информационная система, основным назначением
MARC введен в 1987 году, а в 1999 году появился          которой является доступ к цифровым материалам.
формат MARC21, созданный в результате слияния            Здесь подчеркивается, что организация самой
                                                         информационной         системы       может     быть
                                                         произвольной, важно, что вся эта организация
Труды 16-й Всероссийской научной конференции             нацелена на доступ к цифровому контенту (тексты,
«Электронные библиотеки: перспективные методы и          видео, аудио и т.д.). Wikipedia определяет цифровую
технологии, электронные коллекции» — RCDL-2014,          библиотеку так: «Цифровая библиотека – это
Дубна, Россия, 13–16 октября 2014 г.                     библиотека, в которой коллекции хранятся в



                                                     1
цифровых форматах (в отличие от печатного,                 разнородных? Средствами навигации снабжены
микроформата или другого носителя) и собираются            документы? Только навигации и поиска, т.е.
с помощью компьютеров».                                    никаких связей нет. Что значит «Может быть веб-
   Еще одним предшественником ЦБ были                      сайтом»? А может не быть? Т.е. может быть не
библиотеки программ. Изначально они были                   привязана      к      Интернет.       «Постепенно
предназначены для размещения и использования               накапливаются», а если не постепенно? Почему
объектов операционных систем: библиотеки для               чаще литературные? Самодостаточен, т.е. в
связывания объектного кода, библиотеки исходного           некотором роде отсутствуют связи между
кода, компилированного объектного кода для                 ресурсами.       Библиотека       Мошкова        и
повторного использования. Они возникли из                  Фундаментальная       электронная       библиотека
потребностей ОС, чтобы находить и загружать                радикально отличаются друг от друга: первая
компоненты, и того факта, что существующие                 просто набор файлов, вторая пронизана ссылками
файловые системы не обеспечивали работу в                  (HTML).
реальном времени. Возникшая структура остается                «Под электронными библиотеками понимаются
по-существу и сегодня; за справочником элементов           информационные           системы,          которые
библиотеки, который дает имена и другие                    автоматизируют решение основных проблем
метаданные содержащихся объектов, следуют в том            организации работы с документами» [7].
же наборе данных или файле двоичные данные для                В соответствии с таким определенем наилучшей
каждого объекта, на который ссылается элементы             электронной    библиотекой     является    система
каталогов.                                                 документооборота.
   Часто в связи с ЦБ используется термин                     В [4] дается следующее определение ЦБ (в
«коллекция», под которым имеют в виду                      оригинале «Электронной библиотеки»).
определенным образом организованный набор как
                                                              «Электронные библиотеки – это организации, в
правило однородных цифровых объектов.
                                                           том     числе    специализированный      персонал,
   «Основой цифровой библиотеки является                   представляющие доступ читателей к электронным
коллекция     цифровых       объектов,   которые           ресурсам. Кроме того они выполняют отбор,
представляют интерес как таковые (в первую                 структурирование,                  предоставление
очередь для чтения, прослушивания, просмотра               интеллектуального     доступа,     интерпретацию,
людьми, но и для использования программами), а не          распространение, сохранение целостности и
просто указания на другие объекты. Примеры:                обеспечение сохранности в течение длительного
    Коллекция оцифрованных книг (в отличие от             времени наборов электронных документов для
просто интернет-каталога),                                 удобного доступа к ним определенным сообществам
    Коллекция биографий (в отличие от базы                специалистов.
данных персонала),                                            В соответствии с данным определением
                                                           основными      компонентами      ЭБ      являются:
    Коллекция устных историй,
                                                           специалисты,       информационные          ресурсы
    Набор программных модулей (многие так и               (документы) и информационные технологии.
рассматривают DL)» [5].
                                                              Электронные библиотеки реализуют набор
   Рассмотрим теперь определения цифровых                  функций для обеспечения читателям полного
библиотек, приводимые различными авторами и их             доступа    к    множеству    распределенных      и
критику.                                                   разнородных документов, содержащих информацию
   ru.wikipedia.org дает такое определение.                и знания, интегрируя их в единое информационное
   Электро́нная библиоте́ка – упорядоченная                пространство».
коллекция разнородных электронных документов (в
                                                           1.2 Цифровые библиотеки или информационные
том числе книг, журналов), снабженных средствами
навигации и поиска. Может быть веб-сайтом, где             системы?
постепенно накапливаются различные тексты (чаще               С другой стороны, ясно, что цифровую
литературные, но также научные и любые другие,             библиотеку можно считать информационной
вплоть до компьютерных программ) и медиафайлы,             системой. А почему бы не считать любую
каждый из которых самодостаточен и в любой                 информационную систему цифровой библиотекой?
момент может быть востребован читателем.                   Любая информационная система в конце концов
Электронные         библиотеки       могут      быть       имеет дело с цифромым контентом. Есть ли все-таки
универсальными,       стремящимися     к    наиболее       разделительная линия, выделяющая цифровые
широкому выбору материала (как Библиотека                  библиотеки из общего класса информационных
Библиотека Максима Мошкова или Либрусек), и                систем?
более специализированными, как Фундаментальная
                                                              В [1, 2, 4] описаны некоторые проблемы ЭБ,
электронная библиотека или проект Сетевая
                                                           основными из которых являются следующие:
Словесность.
                                                              - Проблема       интеграции      разнородной
   Возникает      ряд     вопросов.    Что    значит
                                                           информации         (электронных         ресурсов,
упорядоченная        коллекция?      Что      значит



                                                       2
пользовательских профилей, таксономий) на основе             Поиск во многих системах синтаксического и
различных метаданных, содержащих выразительные           семантического взаимодействия.
семантические описания.                                      Нахождение ответов, а не только документов;
   - Проблема поддержки взаимодействия с                 рассуждения и логический вывод».
другими информационными системами (и не                      Интеграция многих форматов сохранения.
толькоЭБ) либо с помощью метаданных, либо на
уровне коммуникации или с помощью обеих                      Интеграция библиотек, архивов, музеев а
возможностей. При этом в качестве единого языка          также баз данных и других информационных
взаимодействия      между     системами     может        систем.
использоватьсяязык RDF (Resource Description                 Интеграция    чтение    /   просмотр    /
Framework).                                              прослушивание, доступ к базе данных, обработка
   - Проблема обеспечения надежного, удобного и          данных и создание.
адаптируемого поиска и интерфейсов просмотра                 Интеграция        издательских             и
электронных документов, усиленных работой с              коммуникационных платформ».
семантикой [7].                                              Сервисы Распространение и уведомления.
   «ЦБ можно охарактеризовать диапазоном целей,          Современные цифровые библиотеки должны помочь
которым она служит, или областью в которой он            своим пользователям в доступе к метаданным в
работает,    например,   обучение,    образование,       различных форматах, позволяющих, среди других,
электронное правительство, электронная коммерция         построения мэшапы сервисов и контента.
(B2B или B2C), развлечения, и более специфические            Сервисы безопасности и политики Assurance.
цели, такие как обеспечение информации, связанной        Библиотека должна приспосабливаться к различным
с работой, поддержка домашних заданий студентов,         усилениям политики; она должна обеспечить гибкие
поддерживая внутренней работы организации,               механизмы аутентификации и контроля доступа.
поддержка клиентов организации, поддержка связи
между пользователями и т.д.» [5].                            Сервисы сохранения. Цифровая библиотека
                                                         должна     обеспечить     управление     версиями,
   «1. ЦБ имеет много функций и должна
                                                         архивирования     (резервного    копирования    и
интегрировать поддержку информационного поиска,
                                                         восстановления)     а     также,     отслеживания
задачи пользовательской работы, производство
                                                         происхождения (особенно в контексте открытого
информации и сотрудничество.
                                                         мирового подхода семантических и социальных
   2. ЦБ связывает многие виды информационных            технологий), и отслеживание истории событий,
объектов в различных форматах (в том числе               связанных с информационными объектами. Должно
документы и базы данных) во всех средствах               быть обеспечено, что отношения между объектами и
массовой информации в сложную структуру» [5].            дополненая      информация        поддерживаются
   Рассмотрим еще несколько определений ЦБ в             сервисами сохранения.
контекте информационных систем.                              Сервисы обеспечения качества. Особое
   «Термин       Цифровая      библиотека     (ЦБ)       внимание следует уделять качеству сервисов на
используется для диапазона систем, от цифрового          основе метаданных; семантическая цифровая
объекта и хранилищ метаданных, системы ссылка-           библиотека должны обеспечить эффективность,
связь, архивов и систем управления контентом до          безопасность и семантику поддержки метаданных.
сложных систем, которые объединяют в себе                Эффективность может быть достигнута, например,
передовые цифровые библиотечные услуги и                 путем жесткого кодирования части метаданных;
поддержку научных исследований и практических            ограничений на действия, которые могут быть
сообществ» [5].                                          выполнены над метаданными, могут повысить
   Ничего специфичного для ЦБ в этих                     уровень безопасности. Семантика метаданных
определениях нет, это все также относится и к            можно    определить   через   значения   новых
информационным системам.                                 концепций».
   Рассмотрим, как некоторые авторы определяют              Из вышеприведенного можно видеть, что при
функции ЦБ [5].                                          таких определениях любую информационную
                                                         систему можно рассматривать как цифровую
   «Цифровые библиотеки сталкиваются со
                                                         библиотеку.
многими проблемами, в том числе:
    Поиск текста, изображения, звука и составных        2. Что такое семантическая цифровая
объектах мультимедиа.
                                                         библиотека
    Семантически улучшенный поиск для
извлечения из свободного текста и изображения и             Само по себе слово «семантический» означает не
лучшего       использования       проставленных          более, чем «смысловой», т.е. в отрыве от контекста
пользователем меток.                                     не означает ничего. Этот термин (когда-то
                                                         используемый в теории языков программирования)
    Многоязычный поиск.
                                                         стал    активно   употребляться     в    контексте
                                                         «семантический      WEB»         в     противовес



                                                     3
«несемантическому     WEB»,    основанному     на        Опять происходит некая подмена. Онтологии в
гиперссылках.     Фактически      сегодня     под        современном понимании могут использоваться в
«семантической моделью WEB» имеется в виду               трех целях: 1) как модель данных более высокого
использование RDF модели для представления               уровня по сравнению с использовавшимися моделями
информции. Но что такое RDF модель? Это всего            раньше, а именно моделью «сущность-связь» и
навсего использование бинарных отношений, т.е.           объектной; 2) для поддержки интеграции данных в
связей, между объектами и соответствующие                пространстве Интернет и 3) для реализации
словари RDF, обобщающие и стандартизующие их             восзможности осуществления логического вывода.
использование. Это внесло колоссальный прорыв в          Для реализации 1-й цели в ЦСБ онтологии
технологии WEB. Но в конце концов, практически           используются в той же мере, в какой они
все данные, в частности, конечно, и данные               используются для разработки информационных
цифровых     библиотек,   хранятся    сегодня    в       системных в прикладных областях. Для реализации
реляционных базах данных, также представляющих           2-й цели отологии активно используются в той же
собой    отношения,    только   вообще     говоря,       мере, в какой они используются для интеграции
многоместные.                                            данных в Интернет. Для 3-й цели в приложении к
   Термин «семантический» не вносит ничего               ЦСБ онтологии не используются.
нового в технологии цифровых библиотек.                     В контексте ЦБ упоминаются соц. сети,
Единственное, что может быть тут стоит отметить,         обучающие системы, архивные системы и их связь с
что в обычных цифровых библиотеках эти связи             пользователями. Все это было и не называлось ЦБ.
между объектами используются недостаточно                   «Основной целью семантической цифровой
активно, хотя в рамках формата MARC,                     библиотеки является предоставление нахождения
разработанного Библиотекой Конгресса США,                информации           превосходящее         решения,
предусмотрены так называемые «авторитетные»              обеспечиваемые          текущими        цифровыми
файлы, хранящие инофрмацию о персонах и                  библиотеками.     Пользователи     должны     иметь
организациях. Но эти данные недостаточно                 возможность      использовать      взаимосвязанную
формализованы, чтобы их легко можно было                 информацию о ресурсах в процессе просмотра,
использовать для установления всех необходимых           фильтрацию       или      нахождение      подобных
связей.                                                  информационных объектов. Средства уточнения
   Поэтому термин «Цифровые семантические                запроса должны адаптировать свои результаты для
библиотеки» осмысленно употреблять только в              решений,     соответствующим      пользовательским
контексте WEB, а именно имея в виду интеграцию           профайлам; средства должны использовать сложные
цифровых библиотек в контекст семантического             семантические отношения между результатами.
WEB». А это означает:                                    Наконец, семантическая цифровая библиотека
    Разработку    стандартов    обмена   RDF            должна предлагать различные рекомендательные
информацией. В качестве примера можно привести           сервисы, например, на основе контекста и ресурса
онтологии MADS и MODS, разработанные                     (ресурсов) или аннотации на основе совместной
Библиотекой Когресса США для авторитетных                фильтрации. Поисковая система должна позволять
файлов и библиографических записей.                      использовать информацию о различных типах
                                                         носителей, сложных объектах, потокового и
    «семантическую» интеграцию библиотек                пространственно-временных ресурсах. В случае
между собой, т.е. возможность, способность               ресурсов со сложными аннотациями важно
цифровых     библиотек обмениваться  такой               поддерживать поиск на основе содержимого вместе
информацией.                                             с алгоритмами поиска, основанными на сходстве. В
    «погружение»   цифровых     библиотек    в          случае гетерогенных конкурентных сетей контент-
семантический WEB, т.е. интеграцию с другими,            провайдеров, семантическая цифровая библиотека
небиблиотечными данными, например, с соцсетями.          должна     осуществлять      алгоритмы      запроса,
    Взаимодействие с данными из Linked Open             основанные     на     торговле,   для    поддержки
Data (LOD), например, извлечение данных из LOD в         пользователей в их поиске» [3].
библиотеку и наоборот, публикация собственных               «Одной       из      наиболее     отличительных
данных в LOD.                                            особенностей семантических цифровых библиотек
   «Включение семантических данных и обработки           является дополнительное пополнение аннотаций
в DL предполагает использование метаданных               исходной информации, представляемые в ходе
объектов в такой библиотеке и обеспечение доступа        процесса загрузки ресурса. Ожидается, что
пользователей к семантически более мощным                семантические      цифровые     библиотеки    могут
поисковым системам. Метаданные, как правило,             обеспечить как автоматизированные, так и
выражается в Синтаксисе RDF» [3].                        пользовательские аннотации. Последние должны
                                                         использовать силу социальных сетей, то есть
   Интересно       отметить         еще      одно
                                                         аннотации сообщества, пометки, и рейтинг» [3].
обстоятельство.     В     контексте     цифровых
семантических библиотек часто упоминают
онтологии. Насколько это важно и характерно
именно для цифровых семантических библиотек?



                                                     4
Заключение                                                        Libraries / Editors: Sebastian Ryszard Kruk, Bill
                                                                  McDaniel. – Springer, 2009.
   Резюмируя вышеприведенный краткий обзор,                   [4] A.A. Shiri. Digital library research: current
можно остановиться на следующих определениях.                     developments and trends // Library Review. –
   Электронная Библиотека (ЭБ, АБИС) – средство                   2003. –Vol. 52. – P. 198–202.
автоматизации работы обычных, «книжных»                       [5] Dagobert Soergel. Digital Libraries and
библиотек, основанное как правило на технологиях                  Knowledge Organization // Semantic Digital
MARC.                                                             Libraries / Editors: Sebastian Ryszard Kruk, Bill
   Цифровая Библиотека (ЦБ) – информационная                      McDaniel. – Springer, 2009.
система, ориентированная на действия (поиск,                  [6] Sukhdev Singh. Digital Library: Definition to
доступ и т.д.) с цифровым контентом (тексты, аудио,               Implementation [Электронный ресурс]. –
видео и т.д.). В этом смысле ЦБ може быть, а может                http://arizona.openrepository.com/arizona/bitstrea
и не быть ЭБ.                                                     m/ 10150/106534/1/ lecture_rcc_26jul03.pdf
   Семантическая Цифровая Библиотека (СЦБ) –                  [7] Ле Хоай, А.Ф. Тузовский, Разработка
ЦБ, ориентированная на интеграцию в Semantic                      семантических электронных библиотек.
Web.                                                              Доклады ТУСУРа, № 2 (24), часть 2, декабрь
                                                                  2011.
Литература
                                                                 Semantic digital libraries. What is it?
 [1] Ding Hao. A semantic search framework in peer-
     to-peer based digital libraries. – NTNU, Norway,                           Vladimir Serebryakov
     2006.                                                       In recent years, considerable attention is paid to the
 [2] Sebastian Ryszard Kruk, Adam Westerki, and              so-called “semantic digital libraries”. What is it? In this
     Ewelina Kruk. Architecture of Semantic Digital //       paper, based on analysis of projects and publications an
     Semantic Digital Libraries / Editors: Sebastian         attempt is made to define concepts such as “electronic
     Ryszard Kruk, Bill McDaniel. – Springer, 2009.          library”, “digital library”, “semantic digital library”.
 [3] Sebastian Ryszard Kruk and Bill McDaniel. Goals
     of Semantic Digital Libraries // Semantic Digital




                                                         5