=Paper=
{{Paper
|id=None
|storemode=property
|title=Онтологическое моделирование и публикация данных об особо охраняемых природных территориях
(Ontological Modeling and Publishing Data on Protected Natural Parks)
|pdfUrl=https://ceur-ws.org/Vol-934/paper34.pdf
|volume=Vol-934
|dblpUrl=https://dblp.org/rec/conf/rcdl/KuznetcovSTUM12
}}
==Онтологическое моделирование и публикация данных об особо охраняемых природных территориях
(Ontological Modeling and Publishing Data on Protected Natural Parks)
==
Онтологическое моделирование и публикация данных об Особо Охраняемых Природных Территориях © К.А. Кузнецов © В.А. Серебряков © К.Б. Теймуразов © Е.С. Устинова © Д. А. Малахов Вычислительный центр им. А.А.Дородницына РАН, г.Москва K.Kuznetcov@gmail.com serebr@ccas.ru kbt@intring.ru jane.echo90@gmail.com dimon-malakhov@yandex.ru существует развитая культура свободного Аннотация обмена данными, имеются многочисленные сервисы и инструменты обмена данными. В статье рассматриваются проблемы публикации данных об Особо Охраняемых Благодаря перечисленным выше особенностям Природных Территориях (ООПТ) в наборы пространственных данных достаточно легко пространстве Linked Open Data (LOD). переносятся из традиционного гипертекстового Веб Предлагается онтология данных об ООПТ, в Семантический Веб. На практике это означает соответствующая отечественным и простоту включения геопространственных наборов международным стандартам предметной данных в проект Linking Open Data [3], целью области и удовлетворяющая рекомендациям которого является наполнение сети Интернет проекта LOD. Также описана методика данными в стандартных форматах Semantic Web [9], публикации и связывания данных об ООПТ а также устанавливание связей между данными из с данными из внешних источников. различных источников. Таким образом формируется единое пространство данных Linked Open Data. 1 Введение Проект носит рекомендательный характер, описывает набор технологий и методик для работы Интенсивный прогресс информационных с семантическими данными. Публикация данных в технологий привел к тому, что все большие и пространстве Linked Open Data позволяет увеличить большие объемы пространственных данных (т.е. степень повторного использования данных, данных о пространственных объектах, включающих понизить степень дублирования данных, повысить сведения об их местоположении и свойствах) ценность данных за счет связывания их с другими становятся доступными в сети Интернет. Можно данными и облегчить их потребление отметить следующие важные особенности заинтересованными сторонами. По состоянию на пространственных данных: осень 2011 года географические данные составляют Пространственные данные состоят из двух примерно 20% от всех опубликованных в частей – географической информации, которая пространстве Linked Open Data данных, 10% может быть представлена в векторном или наборов данных пространства Linked Open Data растровом виде и снабжена метаданными, и используют термины из словарей Basic Geo непространственных атрибутов, которые Vocabulary и GeoNames [8]. Таким образом, определяют семантику пространственного публикация наборов пространственных данных в объекта; пространстве Linked Open Data является актуальным Общие пространственные данные зачастую направлением развития геоинформатики. являются фактором, связывающим воедино данные из различных предметных областей; 2 Постановка задачи Геоинформационное сообщество выработало ряд Работа посвящена конкретной тематической области стандартов на пространственные данные и геопространственных данных – особо охраняемым метаданные. Большинство доступных в сети природным территориям (ООПТ). Целью работы пространственных данных следуют им; является разработка прикладной схемы для описания пространственных данных ООПТ, В отличие от многих других предметных построение демонстрационной базы геоданных на областей, в геоинформационном сообществе основе полученной схемы и создание приложения для публикации данных в пространстве Linked Open Труды 14-й Всероссийской научной конференции Data. Разрабатываемая прикладная схема должна: «Электронные библиотеки: перспективные методы и Удовлетворять требованиям федерального технологии, электронные коллекции» — RCDL-2012, Переславль-Залесский, Россия, 15-18 октября 2012 г. законодательства РФ, затрагивающим вопросы ООПТ [12]; 215 Быть совместимой с распространенными в мире Должен быть создан класс «Особо охраняемая стандартами на публикацию пространственных природная территория» («ООПТ»), имеющий данных и данных об ООПТ в частности; обязательное свойство «граница», содержащее Основываться на имеющихся в наличии наборов пространственные данные; данных об ООПТ «Валдайский национальный Класс «ООПТ» должен иметь обязательный парк» и «Национальный парк “Таганай”». атрибут «категория» типа перечисление; Для хранения данных необходимо разработать Класс «ООПТ» должен иметь необязательное схему реляционной базы данных и ее отображение в свойство «граница охранной зоны», содержащее прикладную схему, создать механизм загрузки пространственные данные; данных в виде SHP-файлов в базу данных. Класс «ООПТ» должен иметь обязательный Для публикации данных в пространстве Linked Open атрибут «статус» типа перечисление; Data необходимо, согласно рекомендациям Должен быть создан класс «Функциональная проекта Linking Open Data: Зона» с обязательным атрибутом «назначение Описать прикладную схему на языке OWL [9] с зоны» типа перечисление и обязательным использованием терминов распространенных в свойством «граница», содержащим пространстве Linked Open Data словарей; пространственные данные; Обеспечить механизм идентификации объектов Класс «ООПТ» должен иметь необязательное ООПТ при помощи HTTP URI; свойство «выделеныеЗоны» неограниченной Обеспечить механизм генерации RDF/XML кардинальности типа «Функциональная Зона». документов с представлением объектов ООПТ; 3.1 Используемые международные стандарты Обеспечить механизм дереференсирования этих URI, т.е. предоставления соответствующих В результате анализа международных стандартов RDF/XML документов в ответ на HTTP запросы; выяснилось, что на настоящий момент в мире наиболее широко распространены следующие Установить и поддерживать связи со внешними стандарты на публикацию пространственных ресурсами пространства Linked Open Data. данных: стандарты серии 19100 технического комитета ISO/TC 211 [10], стандарты OGC (Open 3 Модель данных Geospatial Consortium, Inc.), а также наборы Первым этапом решения поставленной задачи стандартов CEN (Европа) и FGDC (США). Эти является разработка онтологии ООПТ. Разработка стандарты во многом похожи между собой, и осуществлялась следующим образом. Сначала были практически полностью совместимы. Из проанализированы имеющиеся наборы данных, международных стандартов на публикацию данных отечественная нормативно-правовая база об ООПТ распространение получила только предметной области, а также международные спецификация данных INSPIRE (Infrastructure for стандарты, и была составлена концептуальная Spatial Information in Europe) [6]. Инициатива модель предметной области. Затем были INSPIRE на законодательном уровне устанавливает проанализированы распространенные в стратегию развития общеевропейской пространстве Linked Open Data словари и наборы инфраструктуры пространственных данных, а также данных, релевантные предметной области, из них стандартные наборы пространственных метаданных были отобраны термины, соответствующие и правила взаимодействия пространственных концептуальной модели. На их основе была создана сервисов. В числе определяемых стандартами онтология, которая была дополнена новыми INSPIRE тематических наборов метаданных есть и терминами для полного соответствия модели. стандарт, смежный тематике ООПТ - INSPIRE Data При анализе имеющихся в наличии наборов данных Specifiaction on Protected Sites. Стандарт является о национальных парках были выявлены четыре последовательной, четко проработанной группы объектов - информация об объекте структурой, составленной ведущими европейскими «охраняемая территория» (границы парка, охранной специалистами по геоматике и согласуется с зоны, функциональное зонирование территории международной серией стандартов ISO 19100 – парка), информация об охраняемых объектах (места Geographic Information. Спецификации содержат обитания охраняемых биологических видов), прочие формализованное описание модели предметной нетематические объекты (железные дороги, области в виде UML диаграмм классов и газопроводы и т.п.) и вспомогательные объекты, предполагают использование языка GML связанные с тематическими. (Geography Markup Language) для кодирования данных. Спецификация INSPIRE хорошо Затем был проанализирован федеральный закон № совместима с принципами Linked Open Data - HTTP 33-ФЗ «Об особо охраняемых природных URI идентификаторы удовлетворяют требованиям территориях» от 14 марта 1995 г. [12] В результате INSPIRE, UML схемы INSPIRE и GML изоморфны были сформулированы требования к RDF, принципы связывания ресурсов соответствуют концептуальной модели: определенным в стандарте INSPIRE Generic 216 Рис. 1 Схема данных об ООПТ Conceptual Model понятиям связей. Исходя из этого INSPIRE «Full» была получена концептуальная при разработке онтологии ООПТ было решено модель данных об ООПТ, представленная на Рис.1 использовать стандарт INSPIRE Data Specifiaction on (серым цветом выделены добавленные элементы, Protected Sites и связанные с ним стандарты Data атрибуты исходной схемы опущены). Specification on Geographical Names (названия Спецификация данных INSPIRE Data Specification пространственных объектов) и Guidelines for the on Geographical Names описывает понятия, encoding of spatial data (кодирование связанные с географическими названиями, то есть пространственных данных). Спецификация данных именами собственными, применяющимися для INSPIRE по охраняемым территориям содержит 3 обозначения существующих естественных, прикладных схемы, формализованные в виде UML техногенных и культурных объектов. диаграмм классов – «Simple», «Full» и «Natura Спецификация определяет минимальное ядро, 2000». В качестве основы для онтологии была необходимое для описания названий выбрана схема «Full», как обеспечивающая пространственных объектов, и расширенную схему максимально полный набор классов и атрибутов для для наборов пространственных данных, несущих описания предметной области. Было произведено лингвистический характер. В случае сопоставление между элементами схемы данных концептуальной модели данных об ООПТ INSPIRE, элементами имеющихся в наличии достаточно использовать ядро спецификации. наборов данных, и требованиями, накладываемыми законодательством РФ. В результате из схемы 217 Рис. 2 Ядро прикладной схемы INSPIRE Data Specification on Geographical Names Наконец, согласно спецификации INSPIRE является потомком класса SpatialThing онтологии «Guidelines for the encoding of spatial data», W3C Basic Geo. Однако в онтологии GeoNames геометрия пространственных объектов должна быть отсутствуют аналоги классов GeographicalName и представлена согласно стандарту ISO 19107, в SpellingOfName спецификации INSPIRE, из этого котором определены различные геометрические следует, что класса Feature недостаточно для объекты. Учитывая требования INSPIRE и представления класса NamedPlace в онтологии специфику имеющихся данных в концептуальной ООПТ. Более подходящих онтологий для описания модели данных должны быть представлены классы географических имен в пространстве Linked Open Point, Polygon, LinearRing, MultiPolygon. Класс Point Data не выявлено. Поэтому в разрабатываемую должен быть описан двумя или тремя координатами. онтологию добавлены классы GeographicalName и Класс LinearRing описывается последовательностью SpellingOfName, разработанные самостоятельно на Point. Класс Polygon описывается несколькими основании спецификации INSPIRE. LinearRing , один из которых - внешняя граница, Тем не менее, класс словарь Geonames широко другие образуют внутреннюю границу и должны используется в пространстве Linked Open Data для быть внутри внешней границы. Класс MultiPolygon классификации пространственных объектов при представляет из себя коллекцию не пересекающихся помощи свойств geonames:featureClass и Polygon. geonames:featureCode. Поэтому все классы, моделирующие пространственные объекты, 3.2 Онтология ООПТ в пространстве Linked относящиеся к области ООПТ (лесничество, Open Data охранная зона и т.п.) были унаследованы от В результате анализа пространства Linked Open Data geonames:Feature. Кроме того, добавлено были найдены следующие словари и наборы ограничение на класс ProtectedSites онтологии, данных, релевантные предметной области ООПТ: моделирующий Охряняемую Территорию, которое фиксирует его код в таксономии Geonames Набор данных о пространственных объектах и их (L.RESW, “wildlife reserve”): названиях GeoNames [11] (в дальнейшем используется префикс geonames); oopt:ProtectedSites subclassOf (geonames:featureClass value geonames:L) Набор данных о биологических видах GeoSpecies [5] (префикс geospecies); oopt:ProtectedSites subclassOf (geonames:featureCode value geonames:L.RESW) RDF словарь W3C Basic Geo Vocabulary (префикс geo) [9]; Для описания геометрии воспользуемся существующей онтологией NeoGeo. Словарь RDF словарь NeoGeo Geometry Ontology NeoGeo является результатом обсуждений (префикс neogeo) [7]. относящихся с гео-данным и предназначен для В пространстве Linked Open Data самой унификации интеграции данных в области распространенной онтологией для описания геометрии. В онтологии NeoGeo ней описаны географических имен является онтология классы Geometry, Polygon, LineString, LinearRing, GeoNames, в ней определен класс geonames:Feature, MultiPolygon, BoundingBox. Онтология использует совпадающий по семантике с классом NamedPlace класс Point, определенный в онтологии W3C Basic спецификации INSPIRE Data Specification on Geo. В W3C Basic Geo подразумевается система Geographical Names, имеющий свойства geonames координат WGS84. Так как данные об ООПТ не :alternateName типа string, описывающие варианты обязательно ограничиваются этой системой географических имен. Класс Feature при этом координат, необходимо добавить необязательное 218 Рис. 3 Онтология ООПТ свойство SC_CRS к классу Point, являющееся классов и свойств онтологии представлена на Рис.3 идентификатором системы координат, описанным в (некоторые классы-классификаторы опущены). стандарте ISO 19111. В случае, если значение свойства не указано, считается что система 4 Публикация и связывание данных координат WGS84. В стандарте ISO 19107 это поле После того, как онтология разработана, необходимо определено у всех объектов геометрии, но в нашей опубликовать данные в пространстве Linked Open ситуации это избыточность данных и возможность Data в терминах полученной онтологии. Для этого неоднозначности данных. Например, если Polygon исходные данные из SHP-файлов были загружены в выражается через несколько классов Point, которые реляционную базу данных с поддержкой имеют разные системы координат. Поэтому мы пространственных типов данных (PostGIS). Схема ограничиваемся классом Point. Так же необходимо реляционной базы данных была разработана добавить свойство point в класс LineString, которое вручную на основе онтологии и структуры SHP- показывает, что точка принадлежит ломаной. файлов. Для публикации данных из реляционной Свойство должно быть помечено как обратное для базы данных в RDF\XML виде был выбран D2R свойства partOf класса Point. Server [2], как наиболее простое некоммерческое Онтология GeoSpecies используется для решение для публикации RDF документов, классификации ареалов обитания животных (при поддерживающие дереференсирование HTTP URI помощи классификатора ресурсов. Файлы отображения, необходимые для geospecies:BBC_Habitat_Classification) и видов работы D2R Server были сгенерированы им животных (при помощи классификатора автоматически и затем доработаны вручную для geospecies:TaxonConcept). Остальные классы и совместимости с онтологией. свойства онтологии были созданы самостоятельно на основе спецификации INSPIRE. Диаграмма 219 Рис. 4 Схема хранилища связей между набором данных об ООПТ и заданным 4.1 Связывание данных внешним набором данных. Затем приложение Согласно рекомендациям проекта Linking Open Data траверсирует RDF представления внешних опубликованные данные должны быть связаны с ресурсов, находя связи owl:sameAs, rdf:seeAlso и данными из других наборов пространства Linked skos:closeMatch с ранее связанными ресурсами (т.е. Open Data. В терминах RDF это означает, что RDF связи следующих порядков). Связи группируются представления объектов из набора данных об ООПТ по внешним наборам данных, которые содержат RDF-тройки, субъектом которых является идентифицируются при помощи их VoID- ресурс из этого набора данных, а объектом – ресурс дескрипторов [1]. Глубина поиска задается в из стороннего набора данных. Предикат же тройки конфигурации. Найденные связи сохраняются в определяет тип связи. В работе рассматриваются реляционной базе данных, откуда затем только предикаты, осуществляющие связь публикуются при помощи D2R Server. идентичных объектов - owl:sameAs и Внешние наборы данных для поиска связей skos:closeMatch. Заметим, что проблема попадают в две основные категории – наборы использования owl:sameAs для установления связей данных о растениях/животных и наборы в пространстве Linked Open Data здесь не пространственных данных. Связи с наборами из рассматривается. первой категории устанавливаются достаточно Было разработано прототипное приложение, просто на основании латинских наименований которое в полуавтоматическом режиме генерирует видов. В качестве исходных наборов для генерации связи набора данных об ООПТ со внешними связей используются Geospecies, DBPedia, Bio2RDF. наборами данных. Приложение работает Связи с наборами пространственных данных могут следующим образом. На первом этапе определяется быть установлены либо по наименованиям целевой набор данных для поиска связей, и для объектов, либо по координатам ресурсов. этого набора вручную создается файл конфигурации Наименования пространственных объектов ООПТ связывания на языке SILK LSL [4], который включают наименования собственно охраняемый содержит сведения о доступе к внешнему набору территорий («Валдайский национальный парк») и данных и правила связывания, состоящие из путей к наименования ареалов обитания (названия рек, озер сравниваемым свойствам в rdf-документе и и т.п.). Для установления связей по координатам метрикам, по которым оценивается близость используются пространственные меры значений заданных свойств. Приложение идентичности языка SILK LSL. Для генераций запускается вручную, и при помощи Silk Link связей первого уровня по координатам Discovery Framework генерирует прямые связи 220 используются наборы данных Geonames и Linked Литература Geo Data. [1] Alexander K., Cyganiak R., Hausenblas M., Zhao Перечисленные выше наборы данных являются J. Describing linked datasets. In Proceedings of центрами кластеров данных своих предметных the WWW2009 Workshop on Linked Data on the областей в пространстве Linked Open Data. Связав набор данных об ООПТ с этими наборами данных Web, 2009. мы получаем цепочки связей, ведущий от данных об [2] Bizer C., Cyganiak R. D2R Server - Publishing ООПТ к данным из других предметных областей. Relational Databases on the Semantic Web. Poster Однако эти наборы данных не содержат исходящих at the 5th International Semantic Web Conference, связей с другими прикладными наборами данных об Athens, USA, 2006. http://www4.wiwiss.fu- ООПТ, поэтому установить дальнейшие связи berlin.de/bizer/pub/Bizer-Cyganiak-D2R-Server- невозможно. На настоящий момент тематических ISWC2006.pdf наборов данных об ООПТ в пространстве Linked [3] Heath T., Bizer C. Linked Data: Evolving the Web Open Data не существует, поэтому генерация into a Global Data Space (1st edition). Synthesis исходящих связей с выбранными наборами Lectures on the Semantic Web: Theory and позволяет достичь приемлемого уровня связанности Technology, 1:1, 1-136. Morgan & Claypool, со внешними ресурсами. Однако разработки в этом 2011. http://linkeddatabook.com/editions/1.0/ направлении ведутся, и в скором времени следует [4] Volz J., Bizer C., Gaedke M., Kobilarov G. ожидать появления в пространстве Linked Open Data Discovering and maintaining links on the web of различных наборов данных об ООПТ. data. In Proceedings of the International Semantic Web Conference, pages 650–665, 2009. 5 Заключение [5] Сайт GeoSpecies Knowledge Base: Результатом проделанной работы является http://about.geospecies.org/ онтология данных об ООПТ, соответствующая [6] Сайт INSPIRE - Infrastructure for Spatial требования законодательства РФ и Information in Europe удовлетворяющая стандартам INSPIRE, а также http://inspire.jrc.ec.europa.eu/ простейшая система публикации и связывания [7] Сайт NeoGeo Geometry Ontology: данных в пространстве Linked Open Data, http://geovocab.org/geometry.html использующая разработанную онтологию. [8] Сайт State of the LOD Cloud: Разработанная онтология может быть взята за http://www4.wiwiss.fu-berlin.de/lodcloud/state/ основу при публикации в пространстве Linked Open [9] Сайт World Wide Web Consortium (W3C): Data пространственных данных из других http://www.w3.org/TR/owl-features/ прикладных областей, в особенности, тех, которые [10] Сайт коммитета ISO/TC 211 попадают под различные спецификации INSPIRE. http://www.isotc211.org/ Система публикации и связывания может быть адаптирована для любой предметной области. [11] Сайт проекта GeoNames: http://www.geonames.org/ Направления дальнейших работ включают: [12] Федеральный закон. № 33-ФЗ «Об особо Улучшение механизма публикации данных, так, охраняемых природных территориях» от 14 например, данные могут быть дополнены voiD- марта 1995 г (по состоянию на 01.01.2010) дескрипторами, а набор данных зарегистрирован http://www.legis.ru/misc/doc/312/ в каталоге CKAN; Разработка пользовательского веб-интерфейса Modeling Ontology and Publishing Data on для просмотра и загрузки данных; Protected Sites Исследование вопроса автоматической генерации онтологии, схемы реляционной базы K. Kuznetcov, V. Serebriakov, K. Teymurazov, E. данных и правил отображения между ними по Ustinova, D. Malakhov прикладной GML схеме; The paper deals with problems of publishing of data Улучшение механизма генерации связей; on Protected Sites in Linked Open Data space. We introduce an OWL ontology for data on Protected Sites, Добавление возможности интеграции и which follows legislative system of Russian Federation совместной публикации в пространстве Linked and Linking Open Data project recommendations. The Open Data данных из различных независимых ontology uses common RDF vocabulary terms and источников данных об ООПТ. adapts INSPIRE data model. We also present system for publishing this data and interlinking it with data from other RDF data sources. 221