Концептуальное моделирование предметных областей с интенсивным использованием данных © Н. А. Скворцов © Л. А. Калиниченко © Д. Ю. Ковалев Институт проблем информатики ФИЦ ИУ РАН, Москва nskv@mail.ru leonidandk@gmail.com dm.kovalev@gmail.com Аннотация 1 Введение Исследования в различных предметных областях, Исследовательские задачи критически зависят от особенно в направлениях естественных наук, растущих и дополняющих одна другую массивных связаны сегодня с обработкой больших объёмов коллекций данных, собираемых в результате данных наблюдений, экспериментов и наблюдений, экспериментов и моделирования. моделирования. При организации исследований с Одновременно растёт качество данных и интенсивным использованием данных соответственно глубина требуемого анализа данных. целесообразно определять спецификации Подходы к исследованиям, при которых для решения предметных областей, включающие определения задач производился выбор источников данных и понятий предметных областей средствами формулирование задач в их терминах, стали онтологий и абстрактное представление данных об трудоёмкими при множестве неоднородных объектах предметных областей и их поведении источников данных и большом количестве способов средствами концептуальных схем, разделяемых и их анализа. Если программы, реализующие решение поддерживаемых работающими в этих предметных задач анализа данных, зависят от конкретных областях сообществами. Исследовательские источников данных, это препятствует инфраструктуры опираются на спецификации масштабированию для неоднородных и массивных предметных областей и предоставляют реализации источников данных, накоплению реализаций методов, применимых над такими спецификациями, методов анализа данных, их интероперабельности и накапливаемых и развиваемых сообществами повторному использованию в различных исследователей. Средства проведения исследованиях [1]. экспериментов в инфраструктурах исследований От поиска и связывания источников данных для также поддерживаются концептуальными решения поставленных задач акцент исследований спецификациями, которые обеспечивают основу для смещается в направлении анализа доступных проведения измерений, изучения свойств сущностей массивных коллекций данных для нахождения предметной области, применения методов данной новых знаний в предметной области исследования предметной области, описания и проверки гипотез. [2]. Разрабатываются научные методы оценки На примере предметной области астрономии характеристик объектов по наблюдаемым показаны принципы построения концептуальных параметрам, методы обобщения, классификации, спецификаций и их использования при анализе выявления и исследования интересующих данных. сущностей и явлений, средства генерации и Работа выполнена при частичной поддержке проверки научных гипотез, специализированные РФФИ (гранты 16-07-01028, 16-07-01162, 15-29- процедуры в определённых направлениях науки, 06045, 14-07-00548). обеспечивается их автоматизированное применение над данными массивных коллекций и доступность для сообществ, работающих в инфраструктурах исследований. Для разностороннего изучения конкретных типов Труды XVIII Международной конференции сущностей реального мира оказывается важным DAMDID/RCDL’2016 «Аналитика и управление совместное использование средств исследований и данными в областях с интенсивным концептуальных спецификаций, определяющих как использованием данных», Ершово, 11-14 октября семантику сущностей и явлений в предметной 2016 области, так и семантику применяемых в ней 7 методов. Поэтому одной из задач сообществ, Концептуальные определения предметных занимающихся исследованиями в определённой областей для проведения исследований включают предметной области, является концептуализация следующие описания: предметной области для построения таких  понятия сущностей, фигурирующих в спецификаций и связывания с ними данных, предметной области в качестве исследуемых реализаций методов и процессов. или связанных с ними; Для обеспечения науки методами и средствами,  понятия, определяющие характеристики и применимыми к объектам предметных областей, в поведение объектов предметной области; работе предлагается подход к концептуализации  понятия, соответствующие научным предметных областей для их исследования. Он методам, корреляциям, существующим в опирается на явное описание семантики сущностей и предметной области исследования; процессов при формулировании постановок и реализаций алгоритмов решения научных задач,  понятия, определяющие подходы к обеспечивая их семантическое соответствие наблюдению объектов и моделированию спецификациям предметной области. В свою сущностей предметной области, проведению очередь, различные источники данных, в том числе научных экспериментов. научных данных, семантически отображаются в Языковые средства представления формальных концептуальные спецификации предметной области онтологий включают понятия, отношения понятий и исследования. Аналитические задачи ограничения, связанные с понятиями, обычно формулируются также в терминах концептуальных выраженные в подмножестве логики предикатов, спецификаций предметной области и решаются с отображаемом в некоторую дескриптивную логику использованием отображённых в них данных и или другие формальные модели. Скалярные типы методов. данных в онтологиях предпочтительно не В настоящей работе показано, каким образом использовать, так как они отражают некоторые концептуальные спецификации предметных отношения, которые на онтологическом уровне областей, поддерживаемые заинтересованными лучше описывать явно для однозначной сообществами, могут быть использованы для интерпретации понятий. Также в онтологиях организации исследований. В статье для этого традиционно не используются средства используются концептуальные спецификации спецификации методов. Однако ограничения, предметных областей из области астрономии. связанные с поведением объектов предметной Следующий раздел посвящён принципам области, необходимо специфицировать и в определения спецификаций предметных областей онтологии. Это делается посредством определения исследований. В разделе 3 описаны подходы к понятий, соответствующих разного рода накоплению научных методов и перспективы корреляциям характеристик сущностей и процессам. построения инфраструктур исследований на основе Процесс концептуализации предметной области коллекций методов. Раздел 4 посвящён помимо определения понятий включает разработку использованию спецификаций предметных областей концептуальных схем предметных областей, для проведения экспериментов, описания и проверки отличающихся от онтологий, в первую очередь, научных гипотез, организации потоков работ в своим назначением [24]. Они определяют не просто инфраструктурах исследовательских сообществ для понятия предметной области, а структуры манипулирования данными и методами при представления информации об объектах предметных проведении экспериментов. областей и спецификации поведения для манипулирования объектами. Однако, если разработаны онтологии, то концептуальные схемы 2 Средства спецификации предметных составляются согласно знаниям об сущностях, областей зафиксированным в этих онтологиях. Принципы составления концептуальных схем предметных Процесс концептуализации предметных областей на основе определений онтологий описаны областей, в первую очередь, предполагает в [3]. Языковые средства спецификации разработку онтологий в исследовательских концептуальных схем включают определения сообществах для формализации и систематизации абстрактных типов данных, представляющие знаний о характерных для этих областей сущностях информацию о состоянии объектов и и явлениях. Члены сообществ действуют в рамках характеризующихся наборами атрибутов, значения онтологического обязательства, определённого которых соответствуют определённым типам такими онтологиями, то есть используют понятия данных от простых скалярных до объектных типов и предметных областей непротиворечивым образом по ассоциаций. С типами и атрибутами типов могут отношению к теориям, специфицируемым быть связаны метаданные, определяющие их онтологиями. Для обеспечения такого подхода собственные характеристики. Множества важна автоматизация контроля непротиворечивости однотипных объектов могут составлять классы. результатов действий при любых манипуляциях Поведение объектов предметной области понятиями предметной области. выражается методами типов. 8 Любые структуры или информационные объекты использована вместо уточняемой. В частности, при целесообразно сопровождать метаинформацией о разработке спецификаций концептуальных схем том, с какими понятиями онтологии они связаны, предметных областей на основе онтологии чтобы фиксировать их семантику и необходимо, чтобы онтология уточнялась систематизировать в соответствии с ней ресурсы, спецификациями схем. Для обоснования этого язык имеющиеся в арсенале исследователей онтологий и язык концептуальных схем должны определённой предметной области. быть отображены в язык абстрактных машин Формальность спецификации онтологий и системы вывода B, обеспечивающей доказательство концептуальных схем принципиально важна для уточнения [19-21]. При этом понятия, определяющие обеспечения семантической интеграции зависимости и процессы, отображаются в операции, информационных ресурсов и воспроизводимости которые должны уточняться операциями типов в программ над спецификациями предметной области. концептуальной схеме. Данные о том, какие Без доказательного подхода использование элементы схемы сформированы в соответствии с спецификаций предметной области мало отличается понятиями онтологии, сохраняются в схеме в от умозрительного связывания элементов схем при качестве метаданных. Таким образом, явно интеграции ресурсов. Формального обоснования в специфицируется семантика элементов схем с точки концептуальном подходе требуют такие задачи, как, зрения понятий предметной области. например: Онтологии и концептуальные схемы предметных  проверка внутренней непротиворечивости областей разрабатываются и поддерживаются спецификаций онтологий и концептуальных сообществами, работающими в этих областях, таким схем предметной области: образом, чтобы быть достаточными для нужд научных групп. Средства и состав концептуальных  контроль интероперабельности спецификаций предметных областей в сообществе совмещаемых или замещаемых направлены на семантическую интероперабельность спецификаций; взаимодействующих компонентов, повторное  проверка соответствия разрабатываемых использование информационных ресурсов и спецификаций концептуальных схем воспроизводимость программ за счёт привязки к знаниям, отражённым в онтологии; семантике предметной области. Поэтому как на  обнаружение спецификаций уровне онтологий, так и на уровне концептуальных информационных ресурсов, семантически схем предъявляются высокие требования к полноте и соответствующих спецификациям формальности спецификаций. предметной области; Оценивая использование концептуальных спецификаций на примере области астрономии,  проверка соответствия используемых необходимо отметить, что в рамках альянса информационных ресурсов спецификациям Международной виртуальной обсерватории предметной области. разрабатываются соответствующие стандарты. От выбранного формализма языка спецификации Известны онтологии [4, 5], однако они созданы на зависит возможность применения средств основе тезаурусов и не содержат многих автоматического вывода. В частности, существенных понятий и отношений, которые дескриптивные логики используются в качестве необходимы для работы исследователей, не основ диалектов языка онтологий OWL. Для отражают ограничений состояния и поведения спецификаций, приводимых к дескриптивным объектов, явлений и научных экспериментов в логикам, перечисленные выше задачи разрешимы. предметной области. Нет хорошо формализованных Спецификации в моделях, основанных на онтологий, направленных на логический вывод. логиках, целесообразно представлять в К концептуальным спецификациям в астрономии унифицированном виде, в частности, в диалектах относятся также разрабатываемые стандарты языка RIF [17]. Помимо прочего, язык RIF может концептуальных схем наиболее общих областей, использоваться для выражения правил над которые затрагиваются практически в каждой спецификациями на языке OWL, что позволяет астрономической задаче, в частности: определять формальные спецификации поведения  Space-Time Coordinate Metadata [6] – схема объектов предметной области и алгоритмы решения свойств различных систем координат; задач напрямую над онтологиями OWL. В  Photometry Data Model [7] – схема и формат мультидиалектной архитектуре в зависимости от сериализации фотометрической используемых диалектов RIF для рассуждений над информации, определяющий также функции спецификациями используются соответствующие им калибровки и преобразования между системы вывода [23]. разными фотометрическими системами; Для языков, выразимых в логике предикатов  VOEvent [8] – схема описания наблюдаемых первого порядка, те же задачи могут быть решены в объектов и астрофизических явлений, интерактивном режиме при помощи доказательства включающая идентификацию объектов, уточнения спецификаций программ [18]. наблюдателей, место, время и средства Уточняющая спецификация может быть наблюдения. 9 Схемы, как и онтологии Международной allValuesFrom(Value)) restriction(hasUnit виртуальной обсерватории, не описывают объекты и allValuesFrom(MeasurementUnit)) научные методы специфических областей и, в restriction(hasError основном, не включают ограничений целостности и allValuesFrom(MeasurementError) спецификаций поведения объектов. maxCardinality(1)) restriction(isMeasurementOf Концептуализация необходима не только в allValuesFrom(AstrObject) наиболее общих областях, затрагиваемых maxCardinality(1))) астрономией, таких как фотометрия и Class(MeasurementUnit спектроскопия, но и в областях, представляющих restriction(hasScaleFactor allValuesFrom(ScaleFactor) интерес для более узких кругов исследователей, а maxCardinality(1)) также на границе между областями, где чаще всего restriction(hasProjection возникает сотрудничество научных коллективов и allValuesFrom(ScaleProjection) maxCardinality(1))) повторное использование результатов исследований. Class(MeasurementError При этом важно описание как объектов restriction(isErrorOf исследования, так и методов исследования и allValuesFrom(Measurement) проведения экспериментов в таких областях. maxCardinality(1))) Class(StatisticalError Прототип1 разработанной авторами статьи partial MeasurementError) онтологии в области астрономии, определяющей Class(SystematicError некоторые специфические области наряду с partial MeasurementError) общеупотребимыми понятиями, представлен на Class(Value restriction(isValueOf языке OWL [9]. allValuesFrom(Measurement) Модульная структура онтологии, по сути, maxCardinality(1))) описывает взаимодействующие предметные области ObjectProperty(isValueOf в рамках астрономии. Она включает области, domain(Value) range(Measurement) определяемые разными объектами исследования, inverseOf(hasValue)) методами наблюдения и моделирования, подходами ObjectProperty(isMeasurementOf к исследовательскому процессу в целом. По мере domain(Measurement) range(AstrObject) расширения затрагиваемых областей и круга задач, inverseOf(hasMeasurement)) решаемых взаимодействующими группами ObjectProperty(isErrorOf исследователей, в онтологии развиваются различные domain(MeasurementError) модули. range(Measurement) inverseOf(hasError)) Разработана онтология для спецификации Модуль астрономических объектов определяет научных экспериментов, формирующая понятия, связанные с характеристиками, общими для междисциплинарные базисные понятия. Она произвольных астрономических объектов. включает: 1) онтологию характеристик измерений Спецификация понятия астрономического объекта объектов исследования, включающую такие понятия (AstrObject) включает связи с другими понятиями как единицы измерений, погрешности, законы онтологии: его координатами, измерениями разного распределения значений и другие; 2) онтологию рода физических параметров, связью с составными взаимозависимостей измерений объектов, объектами, к которым данный объект принадлежит в необходимую для введения понятийного аппарата качестве компонента, и другими: для спецификации поведения объектов и Class(AstrObject включающую понятие корреляции измерений и его restriction(hasIdentifier подпонятия, определяющие понятия функции, allValuesFrom(Identifier)) метода, закона, гипотезы и другие. restriction(hasCoordinate allValuesFrom(Coordinate)) Рассмотрим некоторые спецификации на языке restriction(inEpoch OWL. В части онтологии, определяющей понятия, allValuesFrom(Epoch) используемые для проведения научных maxCardinality(1)) restriction(hasMeasurement экспериментов, определены несколько модулей. allValuesFrom(Measurement)) Среди них модуль, содержащий базовые понятия, restriction(hasMorphology относящиеся к измерениям параметров исследуемых allValuesFrom(Morphology) объектов, включает понятие измерения maxCardinality(1)) restriction(hasProcess (Measurement), связываемое с объектом allValuesFrom(Process)) исследования (AstrObject) отношением restriction(isComponentOf isMeasurementOf, понятия значений параметров, allValuesFrom(CompoundObject))) единиц измерений, точности измерений, Онтологический модуль, описывающий характеризуемой статистической и систематической предметную область звёзд, включает понятие ошибками. звёздного объекта (StellarObject) как точечной Class(Measurement сущности в Галактике, самостоятельного или restriction(hasValue являющегося компонентом составного объекта, 1 http://ontology.ipi.ac.ru/ontologies/astront/ 10 понятие звезды (Star) как одиночного звёздного понятий онтологии, описывающих зависимости объекта, понятие кратной звезды как звёздного характеристик объектов, а также понятий процессов. объекта, состоящего из компонентов, а также ряд Они рассматриваются в следующем разделе. специфических понятий характеристик звёзд: Class(StellarObject partial AstrObject 3 Организация коллекций научных restriction(hasMorphology данных и методов hasValue(PointObject))) Class(Star Сегодня активно развиваются библиотеки partial StellarObject) методов в специализированных областях Конкретные виды измерений определяются как исследований в астрономии, в инфраструктурах подпонятия понятия Measurement в совместных исследований, где помимо данных в специализированных модулях онтологии, в которых доступ исследовательскому сообществу они используются. Модуль астрофизических предоставляются всевозможные сервисы, а также параметров астрономических объектов содержит средства их поиска и описания для правильного общие физические характеристики объектов, такие использования. как температура, масса, размеры, светимость. В Одной из первых систем, предоставляющих частности, масса является общей характеристикой технологии для работы сообществ в области астрономических объектов: астрономии была сеть AstroGrid [12]. Она Class(Mass partial Measurement) представляла собой инфраструктуру для решения Представим себе понятие массы звезды задач виртуальной обсерватории и состояла из (StarMass), являющееся подпонятием понятия масса множества узлов, содержащих всевозможные (Mass). Оно использует понятия разных модулей, сервисы и ресурсы. Архитектура AstroGrid включала ограничивая тип описываемых сущностей как звёзды реестр, представляющий собой коллекцию и определяя в качестве единицы измерения массу метаданных, описывающих ресурсы, которые могут Солнца. использоваться при решении задач. Это позволяло Class(StarMass организовать поиск доступных коллекций данных и partial Mass методов по метаданным. Проект был закрыт, в restriction(isParameterOf allValuesFrom(Star)) первую очередь, по причине медленного развития restriction(hasUnit сети. Организация узлов сети оказалась сложной для hasValue(SunMass))) широкого распространения в астрономическом При переходе от онтологии к концептуальной сообществе. схеме необходимо сформировать структуры для Проект WF4Ever [13] направлен на сохранение представления информации об объектах предметной результатов научных исследований над данными, с области. В мультидиалектной архитектуре помимо этой целью разработаны средства курирования спецификаций OWL используется язык СИНТЕЗ объектов исследования как комплексных объектов, [10] для реализации на основе применения включающих документы, данные, сервисы, потоки предметных посредников. В то время как OWL работ. В рамках этого же проекта развивается является разрешимым языком для задачи включения, библиотека сервисов [14], которые обеспечивают для языка СИНТЕЗ отработано доказательство доступ к существующим астрономическим веб- уточнения спецификаций. В представление на языке сервисам и к данным каталогов, преобразование СИНТЕЗ также могут быть отображены между разными стандартными представлениями и спецификации в диалекте RIF BLD. Также манипулирование таблицами при соединении разработано отображение языка OWL в язык разных источников данных, и используются в СИНТЕЗ [11]. качестве элементов потоков работ. Библиотека Пример спецификации концептуальной схемы на получила признание научного сообщества, в первую языке СИНТЕЗ, построенной в соответствии с очередь, за счёт простоты построения процессов онтологической спецификацией, определяет обработки данных без программирования. структуру представления информации о звёздах с В проекте EUDAT [22] ставится задача атрибутом, хранящим массу звезды и метаданными, построения инфраструктуры доступа к научным определяющими единицу её измерения в массах данным. Семантические подходы к её организации Солнца: включают ведение репозиториев словарей, { Star; включающих термины широкого круга научных in: type; crd: Coordinate; областей. Помимо словарей общего назначения, mass: Float; определяющих такие атрибуты как название, авторы, metaslot научная дисциплина, определяются иерархии in: measurement; hasUnit: SunMass; терминов, именующих научные дисциплины, end научные методы и объекты. Специфические для } предметных областей словари разрабатываются Спецификации концептуальных схем требуют научными сообществами. Эти описания также определения методов и функций. Такие используются для организации информационно- спецификации формируются в схеме на основе поисковой системы, обеспечивающей поиск 11 релевантных задаче сервисов. Поиск может allValuesFrom(Measurement)) restriction(hasRegression производиться одновременно по терминам разных allValuesFrom(RegressionFunction)) словарей на пересечении исследований разных restriction(hasRMSDeviation научных сообществ. Европейская виртуальная allValuesFrom(RMSDeviation)) обсерватория представлена в проекте как одна из restriction(isCausal allValuesFrom(TruthValue))) областей исследования, и её решения сравниваются Class(Hypothesis с подходами EUDAT. partial Correlation В ближайшей перспективе в области астрономии restriction(explains появятся источники данных, объёмы которых allValuesFrom(Phenomenon)) restriction(derivedFrom намного превышают сегодняшние. Такие проекты allValuesFrom(Hypothesis)) как широкоугольный телескоп LSST и космическая restriction(competesWith обсерватория Gaia будут генерировать потоковые allValuesFrom(Hypothesis)) restriction(hasProbability данные наблюдений. Для их обработки заранее allValuesFrom(Probability)) готовятся каналы передачи данных для их restriction(hasPValue локализации в местах исследований, решаются allValuesFrom(Probability)) вопросы доступа к данным различных научных restriction(hasQuality allValuesFrom(TruthValue))) учреждений, а также разрабатываются Class(Law общедоступные средства обработки данных и partial Hypothesis средства их эффективного поиска [15]. Restriction(hasQuality Для эффективного взаимодействия внутри hasValue(True))) сообщества, имеющего доступ к данным, и во Посредством понятий на уровне онтологии избежание появления множество разрозненных декларативно описываются научные методы, работ кооперация исследователей в подобных гипотезы, законы, модели, процессы, эксперименты, проектах должна основываться на обеспечении связанные с характеристиками объектов предметной доступа к разработке планов исследований, области. Понятие гипотезы определяется как специализированным методам и результатам анализа разновидность статистически подтверждаемых данных. Таким образом, помимо накопления данных, корреляций. Для статистического подтверждения необходимо накопление доступных методов, гипотез, с одной стороны, используется алгоритмов и инструментов обработки, готовых к моделирование, обеспечивающее их математическое применению над большими массивами данных. описание, а с другой стороны, – эксперимент для Концептуализация предметной области в рамках сравнения результатов моделирования с данными сообщества и семантические подходы позволяют наблюдения объектов исследуемых объектов. систематизировать методы предметной области в Понятия научных методов, законов и гипотез исследовательских инфраструктурах. И научные определяются как подпонятия корреляции данные, и научные методы связываются со измерений с указанием ограничений конкретных спецификациями предметных областей, к которым зависимых величин. Их понятийное описание не они относятся. зависит от конкретных реализаций и представлений, Во всякой предметной области накапливаются будь то таблиц значений или коэффициентов, знания и законы предметной области, точных математических формул, функций специфические методы, направленные на распределения, программ или других возможных определённые виды анализа сущностей, способов описания. фигурирующих в предметной области. Помимо Рассмотрим спецификации концептуализации этого, должен быть доступен широкий круг гипотезы начальной функции масс в составе аналитических методов и инструментов общего Безансонской модели Галактики [25] на основе назначения, применяемых вне рамок специфической онтологических спецификаций предметной области, предметной области. К таким методам относятся, приведённых выше. Эта гипотеза связана с например, численные, статистические методы, предположением о достаточно постоянном методы машинного обучения и другие. распределении звёзд разной массы в некотором В рамках онтологических моделей, традиционно ограниченном объёме пространства Галактики. не имеющих средств спецификации методов, Другими словами, гипотеза предполагает концептуализация поведения объектов может зависимость количества звёзд от их массы в определяться понятиями, отражающими зависимые фиксированном объёме пространства, которому характеристики объектов и процессы. Одним из принадлежат эти звёзды: Class(InitialMassFunction модулей разрабатываемой онтологии является partial Hypothesis модуль, определяющий взаимозависимости restriction(isCorrelationOf измерений. Под понятием корреляции (Correlation) ObjectSomeValuesFrom(StarMass)) restriction(isCorrelationOf подразумевается корреляция определённых ObjectSomeValuesFrom( параметров измерения у объектов предметной intersectionOf( области: Quantity Class(Correlation restriction(hasElement restriction(isCorrelationOf allValuesFrom(Star)))))) 12 На основе онтологии коллекции различных { IMF; in: type; реализаций методов могут быть систематизированы supertype: Hypothesis; по различным признакам, соответствующим draw_mass: { in: function; понятиям онтологий: исследуемым объектам, params: { +mass/Real, –quantity/Real } }; характеристикам объектов, свойствам, зависимым от } данной характеристики, известным методам и Если в онтологической спецификации гипотезам и другим. Соответственно, по любому из определялось направление зависимости (функция), в таких признаков исследователями может соответствии с ним определяются и входные и производиться поиск существующих реализаций выходные параметры. Иначе выбор направления научных методов для их повторного использования. определяется нуждами решаемой задачи. В предусловии и постусловии функции определяются ограничения, соответствующие онтологическим 4 Средства проведения научных определениям. Ограничения в онтологии, связанные экспериментов с измерениями, единицами измерений, точностью измерений, помогают сформировать структуру Применение методов, собранных в коллекции, метаданных для сопровождения измерений в при исследованиях в предметной области концептуальной схеме. Таким образом, происходит в соответствии с определёнными концептуальные спецификации предметной области сценариями. Так, автоматизированный запуск используются для моделирования закономерностей анализа данных может происходить при появлении Галактики и исследования моделей. данных с определёнными свойствами или Представленный абстрактный тип данных может определённого типа для обогащения данных об быть реализован разными способами для объектах определёнными характеристиками, организации проверки гипотезы. Существующие которые в свою очередь могут использоваться для реализации моделей, соответствующих гипотезе, дальнейших исследований. могут быть найдены в коллекции методов по Методика исследования обычно состоит из онтологическим описаниям. Для конкретной определённых шагов, включающих очистку и анализ реализации определяется подтип данной данных, построение научных гипотез, спецификации. моделирование в соответствии с гипотезами и С другой стороны, та же спецификация типа проверку моделей на данных наблюдений. используется для проверки гипотезы на данных Эксперименты над данными формулируются на экспериментов. Для этого используются данные из основе создания новых методов и повторного множества источников, которые интегрированы в использования существующих реализаций методов в концептуальную схему предметной области. Подтип спецификациях потоков работ. вышеприведённой спецификации строится таким Инфраструктуры поддержки научных образом, чтобы по входным данным получать исследований, помимо возможности использования данные наблюдения, соответствующие выходным коллекций данных и реализаций методов в параметрам. Проверка гипотезы производится с определённых предметных областях, должны помощью сравнения результатов моделирования с содержать средства проведения научных результатами, полученными на данных реальных экспериментов. В частности, это касается источников. возможности формулирования и проверки научных Реализация моделей и экспериментов может гипотез. использовать доступные методы общего назначения, Использование концептуальных спецификаций такие как методы машинного обучения или при формулировании и тестировании гипотез даёт те численные методы, однако спецификации онтологий же преимущества, что и при управлении и схем, принятых в сообществе, от них не зависят. коллекциями методов и решении научных задач над Эффективность исследований, проводимых ними. сообществом предметной области, зависит не только На уровне концептуальных спецификаций от доступности данных наблюдения, реализаций понятиям методов и законов и гипотез приводятся в методов и моделей, но также от планирования соответствие методы и правила. Спецификации экспериментов, в котором учитываются ограничений понятий зависимых величин онтологические знания об изучаемых объектах и уточняются предусловиями и постусловиями взаимозависимостях их характеристик (гипотезах и методов. законах). Так на основе знаний, специфицированных в Концептуальные спецификации могут быть понятии, описывающем гипотезу начальной использоваться при генерации гипотез. Генерация на функции масс могут быть созданы абстрактные типы основе поиска корреляций в данных требует данных концептуальной схемы для моделирования и проверки семантического соответствия проверки гипотез. Тип будет включать определение коррелирующих параметров объектов. Не связанные интерфейса функции с параметрами, друг с другом хотя бы опосредованно параметры в соответствующими отношениям в понятии спецификациях понятий с меньшей долей зависимости. вероятности рассматриваются как коррелирующие. 13 При взаимодействии разных гипотез в одной [5] IVOAО Ontology. – University of Maryland, 2010. модели взаимное влияние их параметров, – URL: http://www.astro.umd.edu/~eshaya/astro- участвующих в гипотезах, может быть учтено на onto/ основе знаний онтологии о зависимости друг от [6] Space-Time Coordinate Metadata for the Virtual друга разных измерений. Эти зависимости могут Observatory быть исследованы и их реализации найдены Version 1.33. – IVOA, 2011. – URL: посредством семантического поиска с http://www.ivoa.net/documents/ latest/STC.html использованием онтологии. Ограничения [7] IVOA Photometry Data Model. Version 1.0. – концептуальных схем при этом могут гарантировать IVOA, 2013. – URL: согласованность модели. http://www.ivoa.net/documents/PHOTDM/ Для моделирования и проверки гипотез над концептуальными схемами разрабатываются потоки [8] Sky Event Reporting Metadata (VOEvent). Version работ, которые реализуют процесс моделирования, 2.0. – IVOA, 2011. – URL: проверки гипотез, их корректировки для подбора http://www.ivoa.net/Documents/VOEvent/ параметров моделей, наилучшим образом [9] OWL 2 Web Ontology Language. Document повторяющих результаты, полученные на реальных Overview (Second Edition).} -- W3C, 2012. -- данных. URL: http://www.w3.org/TR/owl-overview/ [10] L. A. Kalinichenko, S. A. Stupnikov, D. O. Заключение Martynov. SYNTHESIS: a Language for Canonical Information Modeling and Mediator Definition for В статье рассмотрены вопросы концептуализации Problem Solving in Heterogeneous Information предметных областей для организации научных Resource Environments. Moscow: IPI RAN, 2007. исследований над данными. Развитие инфраструктур – 171 p. поддержки научных исследований, в основе которых лежат концептуальные спецификации предметных [11] L. A. Kalinichenko, S. A. Stupnikov. OWL as Yet областей, развиваемые и поддерживаемые Another Data Model to be Integrated. Advances in сообществами, работающими в этих областях, Databases and Information Systems: Proc. II of the позволяет избежать зависимости программ от 15th East-European Conference. – Vienna: структуры источников данных, обеспечить Austrian Computer Society, 2011. – P. 178-189. интероперабельность различных методов при [12] AstroGrid. – URL: http://www.astrogrid.org/ совместной работе, повысить надёжность [13] K. Belhajjame, et al. Workflow-Centric Research результатов за счёт использования формальных Objects: A First Class Citizen in the Scholarly непротиворечивых спецификаций. Рассмотрены Discourse // ESWC2012 Workshop on the Future возможности концептуального анализа предметной of Scholarly Communication in the Semantic Web области для формализации научных гипотез и их (SePublica2012). – Heraklion, 2012. тестирования на основе данных наблюдений. [14] N. A. Walton, et al. Taverna and workflows in the Литература virtual observatory // Astronomical Data Analysis Software and Systems ASP Conference Series. – [1] Д. О. Брюхов, А. Е. Вовченко, Л. А. Vol. 394. – 2007. – P. 309. Калиниченко. Поддержка повторного [15] M. Luric, T. Tysoc. LSST Data Management: использования спецификаций потоков работ за Entering the Era of Petascale Optical // Astronomy. счет обеспечения их независимости от Highlights of Astronomy. – Vol. 16. – 2015. – P. конкретных коллекций данных и сервисов // 675. Всероссийская конференция «Электронные [16] N. A. Skvortsov, et al. Conceptual approach to библиотеки» RCDL 2013. – CEUR Workshop astronomical problems // Astrophysical Bulletin. – Proceedings, 2013. – Т. 1108. – С. 61-69. Vol. 71, No. 1. – Springer, 2016. [2] The Fourth Paradigm: Data-Intensive Scientific [17] Rule interchange format: The framework // Web Discovery. T. Hey, et al (Eds). – Microsoft Research. – Redmond, 2009. Reasoning and Rule Systems: 2nd Conference (International) Proceedings, LNCS 5348. – Berlin– [3] А. Е. Вовченко, В. Н. Захаров, Л. А. Heidelberg: Springer Verlag, 2008. – P. 1-11. Калиниченко и др. От спецификаций требований к концептуальной схеме // Труды [18] Abrial J.R. The B Book - Assigning Programs to 12-й Всероссийской научной конференции Meanings. - Cambridge: Cambridge University Электронные библиотеки: перспективные Press, 1996. методы и технологии, электронные коллекции [19] Н. А. Скворцов. Применение уточнения RCDL 2010. – Казань: КФУ, 2010. – С. 375-381. понятий в решении задач манипулирования [4] Ontology of Astronomical Object Types. Version онтологиями // RCDL’2007. – Переславль- 1.20. – IVOA, 2009. – URL: Залесский: УГП, 2007. – С.225-229. http://www.ivoa.net/documents/latest [20] Н. А. Скворцов. Использование системы /AstrObjectOntology.html интерактивного доказательства для 14 отображения онтологий // RCDL'2006. – Milky Way, 2003, Astron. Astrophys., 409:523 Ярославль: ЯрГУ, 2006. – С. 65-69. ADS [21] С. А. Ступников. Отображение спецификаций, выраженных средствами ядра канонической Conceptual modeling of subject domains модели, в язык AMN // Системы и средства in data intensive research информатики: Спец. вып. Формальные методы и модели в композиционных инфраструктурах Nikolay A. Skvortsov, Leonid A. Kalinichenko, распределенных информационных систем. Под Dmitry Yu. Kovalev ред. И. А. Соколова. М.: ИПИ РАН, 2005. C. 69- 95. Nowadays research of various scopes especially in [22] H. Schentz, Y. le Franc. Building a semantic natural sciences requires manipulation of big volumes of repository using B2SHARE // EUDAT 3rd data generated by observation, experiments and Conference. – 2014. modeling. Organization of data-intensive research [23] L. A. Kalinichenko, S. A. Stupnikov, E. A. assumes definition of domain specifications including Vovchenko, D. Y. Kovalev. Rule-based Multi- concepts (specified by ontologies) and formal dialect Infrastructure for Conceptual Problem representation of data describing domain objects and Solving over Heterogeneous Distributed their behavior (using conceptual schemes), shared and Information Resources // Advances in Intelligent maintained by communities working in the respective Systems and Computing. – Springer, 2013. – V. domains. Research infrastructures are based on domain 241. – P. 61-68. specifications and provide methods applied to such specifications, collected and developed by research [24] М. Р. Когаловский, Л. А. Калиниченко. communities. Tools for organizing experiments in Концептуальное моделирование в технологиях research infrastructures are also supported by conceptual баз данных и онтологические модели. // specifications of measuring and investigating object Онтологическое моделирование: состояние и properties, applying of research methods, describing and направления исследований и применения. - М. testing of hypotheses. Astronomy as a sample data ИПИ РАН, 2008. intensive domain (DID) is chosen to demonstrate [25] A. C. Robin, C. Reylé, S. Derrière and S. Picaud. A building of conceptual specifications and usage of them synthetic view on structure and evolution of the for data analysis. 15