=Paper= {{Paper |id=None |storemode=property |title=Онтологическое моделирование и публикация данных об особо охраняемых природных территориях (Ontological Modeling and Publishing Data on Protected Natural Parks) |pdfUrl=https://ceur-ws.org/Vol-934/paper34.pdf |volume=Vol-934 |dblpUrl=https://dblp.org/rec/conf/rcdl/KuznetcovSTUM12 }} ==Онтологическое моделирование и публикация данных об особо охраняемых природных территориях (Ontological Modeling and Publishing Data on Protected Natural Parks) == https://ceur-ws.org/Vol-934/paper34.pdf
Онтологическое моделирование и публикация данных об
     Особо Охраняемых Природных Территориях

     © К.А. Кузнецов             © В.А. Серебряков            © К.Б. Теймуразов
                © Е.С. Устинова                        © Д. А. Малахов
                   Вычислительный центр им. А.А.Дородницына РАН,
                                      г.Москва
  K.Kuznetcov@gmail.com            serebr@ccas.ru               kbt@intring.ru
            jane.echo90@gmail.com                  dimon-malakhov@yandex.ru

                                                          существует развитая культура свободного
                  Аннотация                               обмена данными, имеются многочисленные
                                                          сервисы и инструменты обмена данными.
   В статье рассматриваются проблемы
   публикации данных об Особо Охраняемых               Благодаря перечисленным выше особенностям
   Природных     Территориях    (ООПТ)   в             наборы пространственных данных достаточно легко
   пространстве Linked Open Data (LOD).                переносятся из традиционного гипертекстового Веб
   Предлагается онтология данных об ООПТ,              в Семантический Веб. На практике это означает
   соответствующая      отечественным    и             простоту включения геопространственных наборов
   международным стандартам предметной                 данных в проект Linking Open Data [3], целью
   области и удовлетворяющая рекомендациям             которого является наполнение сети Интернет
   проекта LOD. Также описана методика                 данными в стандартных форматах Semantic Web [9],
   публикации и связывания данных об ООПТ              а также устанавливание связей между данными из
   с данными из внешних источников.                    различных источников. Таким образом формируется
                                                       единое пространство данных Linked Open Data.
1 Введение                                             Проект    носит     рекомендательный     характер,
                                                       описывает набор технологий и методик для работы
Интенсивный       прогресс     информационных          с семантическими данными. Публикация данных в
технологий привел к тому, что все большие и            пространстве Linked Open Data позволяет увеличить
большие объемы пространственных данных (т.е.           степень   повторного     использования     данных,
данных о пространственных объектах, включающих         понизить степень дублирования данных, повысить
сведения об их местоположении и свойствах)             ценность данных за счет связывания их с другими
становятся доступными в сети Интернет. Можно           данными      и    облегчить     их    потребление
отметить    следующие     важные     особенности       заинтересованными сторонами. По состоянию на
пространственных данных:                               осень 2011 года географические данные составляют
 Пространственные данные состоят из двух              примерно 20% от всех опубликованных в
  частей – географической информации, которая          пространстве Linked Open Data данных, 10%
  может быть представлена в векторном или              наборов данных пространства Linked Open Data
  растровом виде и снабжена метаданными, и             используют термины из словарей Basic Geo
  непространственных     атрибутов,    которые         Vocabulary и GeoNames [8]. Таким образом,
  определяют    семантику    пространственного         публикация наборов пространственных данных в
  объекта;                                             пространстве Linked Open Data является актуальным
 Общие пространственные данные зачастую               направлением развития геоинформатики.
  являются фактором, связывающим воедино
  данные из различных предметных областей;             2 Постановка задачи
 Геоинформационное сообщество выработало ряд  Работа посвящена конкретной тематической области
  стандартов на пространственные данные и      геопространственных данных – особо охраняемым
  метаданные. Большинство доступных в сети     природным территориям (ООПТ). Целью работы
  пространственных данных следуют им;          является разработка прикладной схемы для
                                               описания пространственных данных ООПТ,
 В отличие от многих других предметных
                                               построение демонстрационной базы геоданных на
  областей, в геоинформационном сообществе
                                               основе полученной схемы и создание приложения
                                               для публикации данных в пространстве Linked Open
  Труды 14-й Всероссийской научной конференции Data. Разрабатываемая прикладная схема должна:
  «Электронные библиотеки: перспективные методы и
                                                         Удовлетворять    требованиям   федерального
  технологии, электронные коллекции» — RCDL-2012,
  Переславль-Залесский, Россия, 15-18 октября 2012 г.     законодательства РФ, затрагивающим вопросы
                                                          ООПТ [12];

                                                 215
 Быть совместимой с распространенными в мире            Должен быть создан класс «Особо охраняемая
  стандартами на публикацию пространственных              природная территория» («ООПТ»), имеющий
  данных и данных об ООПТ в частности;                    обязательное свойство «граница», содержащее
 Основываться на имеющихся в наличии наборов             пространственные данные;
   данных об ООПТ «Валдайский национальный               Класс «ООПТ» должен иметь обязательный
   парк» и «Национальный парк “Таганай”».                 атрибут «категория» типа перечисление;
Для хранения данных необходимо разработать               Класс «ООПТ» должен иметь необязательное
схему реляционной базы данных и ее отображение в          свойство «граница охранной зоны», содержащее
прикладную схему, создать механизм загрузки               пространственные данные;
данных в виде SHP-файлов в базу данных.                  Класс «ООПТ» должен иметь обязательный
Для публикации данных в пространстве Linked Open          атрибут «статус» типа перечисление;
   Data необходимо, согласно рекомендациям
                                                         Должен быть создан класс «Функциональная
   проекта Linking Open Data:                             Зона» с обязательным атрибутом «назначение
 Описать прикладную схему на языке OWL [9] с             зоны» типа перечисление и обязательным
   использованием терминов распространенных в             свойством       «граница»,      содержащим
   пространстве Linked Open Data словарей;                пространственные данные;
 Обеспечить механизм идентификации объектов             Класс «ООПТ» должен иметь необязательное
   ООПТ при помощи HTTP URI;                              свойство «выделеныеЗоны» неограниченной
 Обеспечить механизм генерации RDF/XML                   кардинальности типа «Функциональная Зона».
  документов с представлением объектов ООПТ;
                                                        3.1 Используемые международные стандарты
 Обеспечить механизм дереференсирования этих
  URI, т.е. предоставления соответствующих              В результате анализа международных стандартов
  RDF/XML документов в ответ на HTTP запросы;           выяснилось, что на настоящий момент в мире
                                                        наиболее широко распространены следующие
 Установить и поддерживать связи со внешними           стандарты на публикацию пространственных
  ресурсами пространства Linked Open Data.              данных: стандарты серии 19100 технического
                                                        комитета ISO/TC 211 [10], стандарты OGC (Open
3 Модель данных                                         Geospatial Consortium, Inc.), а также наборы
Первым этапом решения поставленной задачи               стандартов CEN (Европа) и FGDC (США). Эти
является разработка онтологии ООПТ. Разработка          стандарты во многом похожи между собой, и
осуществлялась следующим образом. Сначала были          практически      полностью       совместимы.     Из
проанализированы имеющиеся наборы данных,               международных стандартов на публикацию данных
отечественная      нормативно-правовая         база     об ООПТ распространение получила только
предметной области, а также международные               спецификация данных INSPIRE (Infrastructure for
стандарты, и была составлена концептуальная             Spatial Information in Europe) [6]. Инициатива
модель     предметной    области.    Затем    были      INSPIRE на законодательном уровне устанавливает
проанализированы      распространенные            в     стратегию         развития         общеевропейской
пространстве Linked Open Data словари и наборы          инфраструктуры пространственных данных, а также
данных, релевантные предметной области, из них          стандартные наборы пространственных метаданных
были     отобраны    термины,     соответствующие       и правила взаимодействия пространственных
концептуальной модели. На их основе была создана        сервисов. В числе определяемых стандартами
онтология, которая была дополнена новыми                INSPIRE тематических наборов метаданных есть и
терминами для полного соответствия модели.              стандарт, смежный тематике ООПТ - INSPIRE Data
При анализе имеющихся в наличии наборов данных          Specifiaction on Protected Sites. Стандарт является
о национальных парках были выявлены четыре              последовательной,         четко      проработанной
группы объектов - информация об объекте                 структурой, составленной ведущими европейскими
«охраняемая территория» (границы парка, охранной        специалистами по геоматике и согласуется с
зоны, функциональное зонирование территории             международной серией стандартов ISO 19100 –
парка), информация об охраняемых объектах (места        Geographic Information. Спецификации содержат
обитания охраняемых биологических видов), прочие        формализованное описание модели предметной
нетематические    объекты     (железные     дороги,     области в виде UML диаграмм классов и
газопроводы и т.п.) и вспомогательные объекты,          предполагают      использование      языка    GML
связанные с тематическими.                              (Geography Markup Language) для кодирования
                                                        данных.      Спецификация       INSPIRE     хорошо
Затем был проанализирован федеральный закон №
                                                        совместима с принципами Linked Open Data - HTTP
33-ФЗ «Об особо охраняемых природных                    URI идентификаторы удовлетворяют требованиям
территориях» от 14 марта 1995 г. [12] В результате      INSPIRE, UML схемы INSPIRE и GML изоморфны
были       сформулированы        требования       к     RDF, принципы связывания ресурсов соответствуют
концептуальной модели:
                                                        определенным в стандарте INSPIRE Generic



                                                  216
                                    Рис. 1 Схема данных об ООПТ
Conceptual Model понятиям связей. Исходя из этого   INSPIRE «Full» была получена концептуальная
при разработке онтологии ООПТ было решено           модель данных об ООПТ, представленная на Рис.1
использовать стандарт INSPIRE Data Specifiaction on (серым цветом выделены добавленные элементы,
Protected Sites и связанные с ним стандарты Data    атрибуты исходной схемы опущены).
Specification on Geographical Names (названия       Спецификация данных INSPIRE Data Specification
пространственных объектов) и Guidelines for the     on Geographical Names описывает          понятия,
encoding      of    spatial  data   (кодирование    связанные с географическими названиями, то есть
пространственных данных). Спецификация данных       именами собственными, применяющимися для
INSPIRE по охраняемым территориям содержит 3        обозначения    существующих         естественных,
прикладных схемы, формализованные в виде UML        техногенных      и      культурных      объектов.
диаграмм классов – «Simple», «Full» и «Natura       Спецификация определяет минимальное ядро,
2000». В качестве основы для онтологии была         необходимое      для       описания      названий
выбрана схема «Full», как обеспечивающая            пространственных объектов, и расширенную схему
максимально полный набор классов и атрибутов для    для наборов пространственных данных, несущих
описания предметной области. Было произведено       лингвистический      характер.      В      случае
сопоставление между элементами схемы данных         концептуальной модели данных об ООПТ
INSPIRE, элементами имеющихся в наличии             достаточно использовать ядро спецификации.
наборов данных, и требованиями, накладываемыми
законодательством РФ. В результате из схемы



                                                217
              Рис. 2 Ядро прикладной схемы INSPIRE Data Specification on Geographical Names
Наконец,     согласно     спецификации      INSPIRE   является потомком класса SpatialThing онтологии
«Guidelines for the encoding of spatial data»,        W3C Basic Geo. Однако в онтологии GeoNames
геометрия пространственных объектов должна быть       отсутствуют аналоги классов GeographicalName и
представлена согласно стандарту ISO 19107, в          SpellingOfName спецификации INSPIRE, из этого
котором определены различные геометрические           следует, что класса Feature недостаточно для
объекты. Учитывая требования INSPIRE и                представления класса NamedPlace в онтологии
специфику имеющихся данных в концептуальной           ООПТ. Более подходящих онтологий для описания
модели данных должны быть представлены классы         географических имен в пространстве Linked Open
Point, Polygon, LinearRing, MultiPolygon. Класс Point Data не выявлено. Поэтому в разрабатываемую
должен быть описан двумя или тремя координатами.      онтологию добавлены классы GeographicalName и
Класс LinearRing описывается последовательностью      SpellingOfName, разработанные самостоятельно на
Point. Класс Polygon описывается несколькими          основании спецификации INSPIRE.
LinearRing , один из которых - внешняя граница,       Тем не менее, класс словарь Geonames широко
другие образуют внутреннюю границу и должны           используется в пространстве Linked Open Data для
быть внутри внешней границы. Класс MultiPolygon       классификации пространственных объектов при
представляет из себя коллекцию не пересекающихся      помощи       свойств      geonames:featureClass      и
Polygon.                                              geonames:featureCode.      Поэтому      все    классы,
                                                      моделирующие         пространственные        объекты,
3.2 Онтология ООПТ в пространстве Linked              относящиеся к области ООПТ (лесничество,
Open Data                                             охранная зона и т.п.) были унаследованы от
В результате анализа пространства Linked Open Data    geonames:Feature.      Кроме      того,     добавлено
были найдены следующие словари и наборы               ограничение на класс ProtectedSites онтологии,
данных, релевантные предметной области ООПТ:          моделирующий Охряняемую Территорию, которое
                                                      фиксирует его код в таксономии Geonames
 Набор данных о пространственных объектах и их
                                                      (L.RESW, “wildlife reserve”):
    названиях GeoNames [11] (в дальнейшем
    используется префикс geonames);                   oopt:ProtectedSites subclassOf (geonames:featureClass
                                                      value geonames:L)
 Набор данных о биологических видах GeoSpecies
    [5] (префикс geospecies);                         oopt:ProtectedSites subclassOf (geonames:featureCode
                                                      value geonames:L.RESW)
 RDF словарь W3C Basic Geo Vocabulary
    (префикс geo) [9];                                Для      описания      геометрии        воспользуемся
                                                      существующей онтологией NeoGeo. Словарь
 RDF словарь NeoGeo Geometry Ontology                NeoGeo      является     результатом      обсуждений
    (префикс neogeo) [7].                             относящихся с гео-данным и предназначен для
В пространстве Linked Open Data самой                 унификации интеграции данных в области
распространенной       онтологией для       описания  геометрии. В онтологии NeoGeo ней описаны
географических       имен     является     онтология  классы Geometry, Polygon, LineString, LinearRing,
GeoNames, в ней определен класс geonames:Feature,     MultiPolygon, BoundingBox. Онтология использует
совпадающий по семантике с классом NamedPlace         класс Point, определенный в онтологии W3C Basic
спецификации INSPIRE Data Specification on            Geo. В W3C Basic Geo подразумевается система
Geographical Names, имеющий свойства geonames         координат WGS84. Так как данные об ООПТ не
:alternateName типа string, описывающие варианты      обязательно     ограничиваются      этой     системой
географических имен. Класс Feature при этом           координат, необходимо добавить необязательное



                                                   218
                                         Рис. 3 Онтология ООПТ
свойство SC_CRS к классу Point, являющееся            классов и свойств онтологии представлена на Рис.3
идентификатором системы координат, описанным в        (некоторые классы-классификаторы опущены).
стандарте ISO 19111. В случае, если значение
свойства не указано, считается что система            4 Публикация и связывание данных
координат WGS84. В стандарте ISO 19107 это поле       После того, как онтология разработана, необходимо
определено у всех объектов геометрии, но в нашей      опубликовать данные в пространстве Linked Open
ситуации это избыточность данных и возможность        Data в терминах полученной онтологии. Для этого
неоднозначности данных. Например, если Polygon        исходные данные из SHP-файлов были загружены в
выражается через несколько классов Point, которые     реляционную     базу данных       с    поддержкой
имеют разные системы координат. Поэтому мы            пространственных типов данных (PostGIS). Схема
ограничиваемся классом Point. Так же необходимо       реляционной базы данных была разработана
добавить свойство point в класс LineString, которое   вручную на основе онтологии и структуры SHP-
показывает, что точка принадлежит ломаной.            файлов. Для публикации данных из реляционной
Свойство должно быть помечено как обратное для        базы данных в RDF\XML виде был выбран D2R
свойства partOf класса Point.                         Server [2], как наиболее простое некоммерческое
Онтология      GeoSpecies     используется      для   решение для публикации RDF документов,
классификации ареалов обитания животных (при          поддерживающие дереференсирование HTTP URI
помощи                              классификатора    ресурсов. Файлы отображения, необходимые для
geospecies:BBC_Habitat_Classification)   и    видов   работы D2R Server были сгенерированы им
животных      (при      помощи      классификатора    автоматически и затем доработаны вручную для
geospecies:TaxonConcept). Остальные классы и          совместимости с онтологией.
свойства онтологии были созданы самостоятельно
на основе спецификации INSPIRE. Диаграмма



                                                 219
                                      Рис. 4 Схема хранилища связей
                                                        между набором данных об ООПТ и заданным
4.1 Связывание данных
                                                        внешним набором данных. Затем приложение
Согласно рекомендациям проекта Linking Open Data        траверсирует     RDF      представления    внешних
опубликованные данные должны быть связаны с             ресурсов, находя связи owl:sameAs, rdf:seeAlso и
данными из других наборов пространства Linked           skos:closeMatch с ранее связанными ресурсами (т.е.
Open Data. В терминах RDF это означает, что RDF         связи следующих порядков). Связи группируются
представления объектов из набора данных об ООПТ         по     внешним      наборам     данных,     которые
содержат RDF-тройки, субъектом которых является         идентифицируются при помощи их VoID-
ресурс из этого набора данных, а объектом – ресурс      дескрипторов [1]. Глубина поиска задается в
из стороннего набора данных. Предикат же тройки         конфигурации. Найденные связи сохраняются в
определяет тип связи. В работе рассматриваются          реляционной      базе    данных,    откуда     затем
только     предикаты,     осуществляющие      связь     публикуются при помощи D2R Server.
идентичных       объектов     -    owl:sameAs     и     Внешние наборы данных для поиска связей
skos:closeMatch.     Заметим,     что     проблема      попадают в две основные категории – наборы
использования owl:sameAs для установления связей        данных     о    растениях/животных      и    наборы
в пространстве Linked Open Data здесь не                пространственных данных. Связи с наборами из
рассматривается.                                        первой категории устанавливаются достаточно
Было разработано прототипное приложение,                просто на основании латинских наименований
которое в полуавтоматическом режиме генерирует          видов. В качестве исходных наборов для генерации
связи набора данных об ООПТ со внешними                 связей используются Geospecies, DBPedia, Bio2RDF.
наборами      данных.      Приложение      работает     Связи с наборами пространственных данных могут
следующим образом. На первом этапе определяется         быть установлены либо по наименованиям
целевой набор данных для поиска связей, и для           объектов, либо по координатам ресурсов.
этого набора вручную создается файл конфигурации        Наименования пространственных объектов ООПТ
связывания на языке SILK LSL [4], который               включают наименования собственно охраняемый
содержит сведения о доступе к внешнему набору           территорий («Валдайский национальный парк») и
данных и правила связывания, состоящие из путей к       наименования ареалов обитания (названия рек, озер
сравниваемым свойствам в rdf-документе и                и т.п.). Для установления связей по координатам
метрикам, по которым оценивается близость               используются          пространственные         меры
значений     заданных      свойств.     Приложение      идентичности языка SILK LSL. Для генераций
запускается вручную, и при помощи Silk Link             связей    первого      уровня    по    координатам
Discovery Framework генерирует прямые связи



                                                  220
используются наборы данных Geonames и Linked          Литература
Geo Data.
                                                       [1] Alexander K., Cyganiak R., Hausenblas M., Zhao
Перечисленные выше наборы данных являются
                                                           J. Describing linked datasets. In Proceedings of
центрами кластеров данных своих предметных
                                                           the WWW2009 Workshop on Linked Data on the
областей в пространстве Linked Open Data. Связав
набор данных об ООПТ с этими наборами данных               Web, 2009.
мы получаем цепочки связей, ведущий от данных об       [2] Bizer C., Cyganiak R. D2R Server - Publishing
ООПТ к данным из других предметных областей.               Relational Databases on the Semantic Web. Poster
Однако эти наборы данных не содержат исходящих             at the 5th International Semantic Web Conference,
связей с другими прикладными наборами данных об            Athens, USA, 2006. http://www4.wiwiss.fu-
ООПТ, поэтому установить дальнейшие связи                  berlin.de/bizer/pub/Bizer-Cyganiak-D2R-Server-
невозможно. На настоящий момент тематических               ISWC2006.pdf
наборов данных об ООПТ в пространстве Linked           [3] Heath T., Bizer C. Linked Data: Evolving the Web
Open Data не существует, поэтому генерация                 into a Global Data Space (1st edition). Synthesis
исходящих связей с выбранными наборами                     Lectures on the Semantic Web: Theory and
позволяет достичь приемлемого уровня связанности           Technology, 1:1, 1-136. Morgan & Claypool,
со внешними ресурсами. Однако разработки в этом            2011. http://linkeddatabook.com/editions/1.0/
направлении ведутся, и в скором времени следует        [4] Volz J., Bizer C., Gaedke M., Kobilarov G.
ожидать появления в пространстве Linked Open Data          Discovering and maintaining links on the web of
различных наборов данных об ООПТ.                          data. In Proceedings of the International Semantic
                                                           Web Conference, pages 650–665, 2009.
5 Заключение                                           [5] Сайт GeoSpecies Knowledge Base:
Результатом    проделанной     работы    является          http://about.geospecies.org/
онтология данных об ООПТ, соответствующая              [6] Сайт INSPIRE - Infrastructure for Spatial
требования       законодательства     РФ        и          Information in Europe
удовлетворяющая стандартам INSPIRE, а также                http://inspire.jrc.ec.europa.eu/
простейшая система публикации и связывания             [7] Сайт NeoGeo Geometry Ontology:
данных в пространстве Linked Open Data,                    http://geovocab.org/geometry.html
использующая разработанную онтологию.                  [8] Сайт State of the LOD Cloud:
Разработанная онтология может быть взята за                http://www4.wiwiss.fu-berlin.de/lodcloud/state/
основу при публикации в пространстве Linked Open       [9] Сайт World Wide Web Consortium (W3C):
Data пространственных данных из других                     http://www.w3.org/TR/owl-features/
прикладных областей, в особенности, тех, которые
                                                      [10] Сайт коммитета ISO/TC 211
попадают под различные спецификации INSPIRE.
                                                           http://www.isotc211.org/
Система публикации и связывания может быть
адаптирована для любой предметной области.            [11] Сайт проекта GeoNames:
                                                           http://www.geonames.org/
 Направления дальнейших работ включают:
                                                      [12] Федеральный закон. № 33-ФЗ «Об особо
 Улучшение механизма публикации данных, так,              охраняемых природных территориях» от 14
   например, данные могут быть дополнены voiD-             марта 1995 г (по состоянию на 01.01.2010)
   дескрипторами, а набор данных зарегистрирован           http://www.legis.ru/misc/doc/312/
   в каталоге CKAN;
 Разработка пользовательского веб-интерфейса         Modeling Ontology and Publishing Data on
   для просмотра и загрузки данных;                               Protected Sites
 Исследование      вопроса     автоматической
  генерации онтологии, схемы реляционной базы            K. Kuznetcov, V. Serebriakov, K. Teymurazov, E.
  данных и правил отображения между ними по                           Ustinova, D. Malakhov
  прикладной GML схеме;                                   The paper deals with problems of publishing of data
 Улучшение механизма генерации связей;               on Protected Sites in Linked Open Data space. We
                                                      introduce an OWL ontology for data on Protected Sites,
 Добавление    возможности   интеграции    и         which follows legislative system of Russian Federation
  совместной публикации в пространстве Linked         and Linking Open Data project recommendations. The
  Open Data данных из различных независимых           ontology uses common RDF vocabulary terms and
  источников данных об ООПТ.                          adapts INSPIRE data model. We also present system for
                                                      publishing this data and interlinking it with data from
                                                      other RDF data sources.




                                                221