Метаданные о научных методах для обеспечения их повторного использования и воспроизводимости результатов © Н. А. Скворцов, Д. О. Брюхов, Л. А. Калиниченко, Д. Ковалёв, С. А. Ступников Институт проблем информатики РАН Москва nskv@ipi.ac.ru интероперабельность, возможность Аннотация повторного использования и обеспечить В науках с интенсивным использованием воспроизводимость результатов, полученных при их применении. данных предъявляются высокие требования к обработке больших объёмов данных Работа выполнена при поддержке РФФИ набором научных методов для получения (гранты 11-07-00402-а, 13-07-00579-а) и вторичной информации и новых знаний об Президиума РАН (программа 16П, проект исследуемых объектах. При этом важной 4.2). оказывается доступность реализаций научных методов, применяемых в 1 Введение предметной области для организации Получение колоссальных объёмов данных, обработки данных и решения задач. подлежащих анализу научным сообществом, Обеспечение электронного хранения, рождает качественное изменение в подходах к повторного использования и построению информационных систем для обработки воспроизводимости результатов данных и поддержки научных исследований. Науки экспериментов становятся неотъемлемыми с интенсивным использованием данных [1] атрибутами реализаций научных методов. В призваны выявить полезные знания из объёма статье исследуется состав метаданных, накопившихся ранее данных и потока которыми должны сопровождаться появляющихся данных. Это требует постоянного процессы, специфицирующие или автоматического применения широкого реализующие научные методы, для ассортимента известных методов, включая оценку обеспечения их повторного использования существенных свойств и параметров объектов, и воспроизводимости результатов. проверку научных гипотез, выявление результатов, Компоненты процессов и данные подтверждающих или опровергающих сопоставляются с понятиями предметной экспериментальные модели и так далее. Результаты области, сопровождаются информацией об применения научных методов сохраняются и их происхождении и качестве, системы становятся источником данных для работы других тестов описывают разновидности ситуаций, методов в данной области и сопряжённых в которых методы должны работать проблемных областях. определённым образом. На примере открытой среды MyExperiment, Информационные системы в науках с организующей и предоставляющей доступ к интенсивным использованием данных комбинируют коллекции научных потоков работ, организацию информации в исследуемой области и показано, как расширение состава организацию цифрового хранения и применения метаданных потоков работ позволяет научных методов, используемых в данной организовать в коллекции семантический предметной области. Научные методы могут поиск релевантных решаемой задаче представлять собой описание процессов обработки научных методов, проверить найденные данных. Реализации методов разрабатываются в реализации методов на виде сервисов и потоков работ над доступными данными. Спецификации определяют, какие Труды 15-й Всероссийской научной конференции входные данные необходимы для работы методов, «Электронные библиотеки: перспективные методы и что и по каким алгоритмам они реализуют и какие технологии, электронные коллекции» — RCDL-2013, результаты выдают. Потоки работ могут быть Ярославль, Россия, 14-17 октября 2013 г. вложенными, то есть, вызывать друг друга в качестве подпроцессов. 70 Коллекции научных методов разрабатываются и предметной области и удобной в использовании, занимают своё место в инструментах научного будет являться вкладом в развитие науке. сообщества. В качестве примеров можно привести Данное исследование имеет целью разработку системы поддержки исследований в области метаданных и методов работы с ними, которые астрономии. Проект VizieR [3] собирает должны сопровождать научные данные и всевозможные каталоги, организует их поиск и реализации научных методов для достижения их поиск в них, предоставляет набор сервисов, которые повторного использования и воспроизводимости наиболее востребованы астрономическим результатов научных экспериментов. В разделе 2 сообществом. Однако до сих пор набор сервисов, обсуждаются требования к доступным реализациям реализующих какие-либо астрономические методы, научных методов, исходным данным и получаемым достаточно ограничен. Этой информационной результатам исследований в свете наук с системой благодаря доступности данных интенсивным использованием данных. Раздел 3 пользуются практически все, кто работает с посвящён связанным проектам и решениям. В астрономическими данными. Среда виртуальной разделе 4 более подробно описаны некоторые обсерватории Astrogrid [10], поддерживает аспекты реализации проекта MyExperiment, удалённый доступ не только к данным, но и к выбранного для демонстрации возможностей сервисам различного назначения. Расширение инфраструктуры поддержки научных исследований Astrogrid средствами предметных посредников [12] с расширенным набором метаданных спецификаций позволило описывать в grid-среде спецификации научных потоков работ. Раздел 5 описывает предметных областей для формулирования и собственно предлагаемый набор метаданных, решения классов научных задач. Открытая сопровождающих доступные научные данные и коллекция научных потоков работ MyExperiment [6] реализации научных методов. В разделе 6 объединяет тысячи пользователей и потоков работ и демонстрируется использование предложенных десятки проектов, в том числе в области метаданных для организации поиска и повторного астрономии, предоставляющих или использующих использования научных методов в инфраструктуре накопленные потоки работ. поддержки научных исследований. Для того, чтобы подобные коллекции методов развивались и использовались научным 2 Требования к реализации научных сообществом, должна выйти на новый уровень вся методов в среде поддержки научных инфраструктура поддержки научных исследований. Необходимо развитие и повсеместное исследований использование сообществами общедоступных Вначале необходимо представить требования, спецификаций предметных областей исследований и которые предъявляются к научным данным и развитие семантических подходов решения задач с методам для создания инфраструктуры поддержки их использованием. Источники данных и научных исследований, позволяющей развивать реализации научных методов должны спецификации предметных областей и коллекции систематизироваться и связываться со научных данных и методов и использовать их спецификациями предметной области. Это реализации в исследованиях. позволяет упростить интеграцию информационных и методических ресурсов, автоматизировать многие 1. Под спецификацией предметной области, шаги в обработке данных, которые до сих пор доступной и принимаемой сообществом решались посредством ручных манипуляций всякий исследователей, можно понимать набор связанных раз при решении новых задач. Реализации научных формальных онтологий предметной области методов требуют разработки таким образом, чтобы исследования и смежных с ней областей. В упростить или даже автоматизировать их соответствии с онтологиями могут создаваться семантический поиск и использование в согласии со концептуальные схемы предметной области, спецификациями предметной области. Данные и необходимые для организации информационных методы необходимо сопровождать информацией об структур и спецификации методов, используемых в их происхождении, точности, полноте. В цели обработке данных. разработки и реализации методов должны Для развития семантических подходов к изначально закладываться возможность их решению научных задач данные, информационные повторного использования в данной и смежных ресурсы и реализации научных методов необходимо областях, возможности воспроизведения связывать со спецификациями предметной области. результатов при одинаковых исходных данных. Агентами научного сообщества могут выступать Создание инфраструктуры научных исследований, как исследователи, так и информационные системы. позволяющей использовать методы повторно, Поэтому спецификации, описывающие методы и освободит исследователей от усилий, прилагаемых данные, должны обеспечивать понимание сегодня для интеграции неоднородных человеком и возможность машинной обработки. В информационных ресурсов и реализации локально этой связи необходимо использовать разработки, методов их обработки. Вместо этого само связанные с семантическим вебом [9]. накопление методической базы, доступной, надёжной, согласованной со спецификациями 71 2. Научные методы и данные должны быть предоставляет их описание, позволяет их запускать. отрыты и доступны для использования научным Интерфейсы среды соответствуют стандарту сообществом, работающим и решающим задачи в связанных открытых данных [11] и имеют данной предметной области. Результаты работы соответствующие интерфейсы для этого. Тем методов также должны быть доступны для временем, у данной среды есть ряд недостатков, использования. Для этого они должны быть препятствующих возможности повторного надлежащим образом специфицированы и использования и воспроизведения результатов опубликованы в общедоступных коллекциях. исполнения потоков работ. Коллекции собирают и систематизируют То, что спецификации потоков работ информацию и обеспечиваются средствами публикуются в виде файлов, сгенерированных в семантического поиска. форматах сторонних редакторов потоков работ, с 3. Важным принципом реализации научных одной стороны, позволяет использовать различные методов является их независимость от источников средства для их создания, с другой стороны, данных. Подмена источников данных другими является причиной неоднородности и релевантными источниками надлежащего качества невозможности автоматизации использования должна быть проста и не должна сказываться на опубликованных реализаций. В частности, работоспособности методов. спецификации потоков работ, созданные в наиболее 4. Для обеспечения повторного использования и используемом в данной среде внешнем редакторе данные, и методы необходимо сопровождать Taverna [7], разбираются средой для выделения информацией об их происхождении. Она включает входных и выходных данных, визуализации аутентификацию методов и данных, их источники, структуры потоков работ, однако не имеет историю их развития и трансформации от создания интерфейсов доступа к внутренней структуре до момента использования. С другой стороны, потоков работ. реализации методов должны сохранять информацию Данные для экспериментов и результаты, о происхождении обрабатываемых данных и связанные с потоками работ, в MyExperiment также обеспечивать дополнение этой информации в отданы на откуп внешним редакторам. В частности, соответствии с манипуляциями, производимыми Taverna поддерживает включение в спецификацию ими над данными. потока работ тестового примера для исполнения. 5. Для оценки возможности повторного Для подтверждения воспроизводимости результатов использования данных, методов и результатов этого недостаточно, так как невозможна расчётов или экспериментов необходима спецификация различных случаев и альтернативных информация об их качестве: точности и полноте путей прохождения потока работ. открытых данных, точности и полноте результатов, В среде MyExperiment нет требования обеспечиваемых научными методами. независимости методов от источников данных или 6. Обеспечение повторного использования также возможности подмены источников, и в коллекции предполагает необходимость достаточно подробных есть множество потоков работ, которые по своей спецификаций требований к их входным и сути являются не реализациями методов, а выходным данным. сервисами, предоставляющими данные из специфических источников данных по некоторым 7. Обеспечение воспроизводимости результатов входным параметрам. работы методов подразумевает под собой средства описания среды, необходимой для исполнения Хотя MyExperiment декларирует расширяемость предоставляемых методов, спецификации онтологии, на которой построена схема поддерживаемых стандартов, а также наборы информационной системы, на деле связи тестов, обеспечивающих проверку работы методов в спецификаций потоков работ с какими-либо различных ситуациях. описаниями предметной области исследования сделать посредством существующих интерфейсов 3 Связанные работы невозможно. В среде поддерживаются только вербальные пояснения к потокам работ и теги, и Интересной разработкой с точки зрения обеспечивается возможность поиска по ним. накопления научных методов является среда В Taverna поддерживаются спецификации разработки и сбора научных потоков работ происхождения данных. Однако предназначены MyExperiment [6]. Она организована как социальная метаданные о происхождении только для записи сеть, позволяющая регистрировать исследователей, пути прохождения данных внутри исполненного включать их в различные тематические группы, потока работ. Для достоверной проверки публиковать потоки работ, реализованные в возможности повторного использования данных различных сторонних системах, описывать этого явно недостаточно, так как невозможно эксперименты, связанные с вызовом потоков работ, отследить историю их получения и преобразования составлять объекты исследования (фактически от момента создания. К тому же доступа через проекты), состоящие из потоков работ, документов, интерфейсы MyExperiment к имеющимся данным о файлов данных, ссылок. Среда MyExperiment пути преобразования данных в потоке работ нет. обеспечивает поиск потоков работ по метаданным, 72 Проект wf4ever [4] предоставляет набор средств состоящий из компонентов. Данные, Входы, выходы для поддержки повторного использования, проверки и соединения каждого узла в потоке работ применимости, воспроизводимости и других описываются понятиями Input, Output и Link свойств потоков работ. Среди описаний в проекте соответственно и объединяются базовым понятием возможно специфицировать происхождение, IOComponent. внутреннюю структуру потоков работ, возможности Объект исследования в MyExperiment доступа, жизненный цикл, развитие, представляет собой контейнер, содержащий файлы многоверсионность и другие аспекты. Потоки работ (например, данные, документы), внешние ссылки и могут проверяться на полноту, непротиворечивость, потоки работ. Для хранения потоков работ как доступность и совместимость источников данных. целостного объекта служат понятие Для этого предоставляются необходимые структуры AbstractWorkflow и его подпонятия Workflow и данных и интерфейсы пользователя. В данном WorkflowVersion. Аналогично спецификациям проекте в качестве экспериментальной базы взята файлов соответствуют понятия AbstractFile с коллекция потоков работ MyExperiment. подпонятиями File и FileVersion. Такая организация Спецификации предметов исследования и потоков позволяет создавать многоверсионные объекты. работ можно импортировать из MyExperiment, Понятия файлов и потоков работ объявляются дополнить спецификациями, предоставляемыми имеющими суперпонятия Annotatable. С помощью проектом, и использовать набор сервисов для этого понятия с ними могут быть связаны несколько поддержки жизненного цикла потоков работ. видов аннотаций, среди которых комментарии, Проект не предполагает больших продвижений в цитирования, теги и другие. Теги используются в сторону семантических подходов к обеспечению качестве описания потоков работ и файлов для доступа к потокам работ, а направлен больше на поиска в коллекции MyExperiment. анализ самих потоков. В частности, одной из целей экспериментов ставится анализ того, почему многие Сами метаобъекты, описывающие потоки работ, из потоков работ в среде MyExperiment на хранятся в реляционной базе, но реализована сегодняшний момент попросту не запускаются. генерация их представления в модели RDF как экземпляров онтологии MyExperiment. Каждый 4 Среда поддержки коллекции научных метаобъект имеет в системе свой уникальный идентификатор URI. Например, идентификатор потоков работ MyExperiment конкретного потока работ выглядит так: На примере среды разработки и публикации http://www.myexperiment.org/workflows/3514/. научных потоков работ MyExperiment мы будем Для разработчиков приложений над показывать, какие метаданные необходимо MyExperiment доступны несколько интерфейсов. К добавлять к спецификациям потоков работ для метаинформации MyExperiment можно задавать обеспечения их повторного использования и http-запросы через REST-интерфейс. Java-интерфейс воспроизводимости результатов. Поэтому более MyJPI представляет собой REST-интерфейс, подробно остановимся на реализации сред обёрнутый в классы языка Java. Наконец, MyExperiment реализован интерфейс точки доступа SPARQL, Для хранения метаинформации о потоках работ в позволяющий задавать запросы к метаинформации среде MyExperiment используется база данных, MyExperiment и получать RDF-данные в схема которой специфицирована набором модулей соответствии со схемой, заданной онтологией, в онтологии. В этих модулях определены средства нескольких форматах с учётом или без учёта описания внутренней структуры накапливаемых автоматического вывода по правилам RDF Schema. потоков работ, спецификации пользователей, групп, Однако все упомянутые интерфейсы имеют аннотаций и других необходимых метаобъектов. ограничение: в них не реализован доступ к Рассмотрим часть из них, представляющую интерес внутренней структуре потоков работ, несмотря на для данного исследования. то, что она определяется онтологией как Для хранения метаобъектов о различных видах компоненты потоков работ. Посредством компонентов потоков работ создано базовое программных интерфейсов можно получить ссылку понятие WorkflowComponent. Его подпонятие на поток работ как файл Taverna. Этот файл NodeComponent описывает узлы потоков работ. подлежит разбору уже средствами Taverna для Разновидности узлов представлены понятиями: получения данных о внутренней структуре потоков Source – узлы-источники, приносящий в поток работ работ. Это означает, что в рамках запроса на данные на обработку, Sink – узлы окончания потока получить внутреннюю структуру потока работ не работ, в которые приходят данные результатов удастся. исполнения потока работ., и Processor – узлы, В составе объектов исследования, помимо исполняющие сервисы обработки данных. В свою файлов (документации, данных), ссылок, потоков очередь, типы исполнительных узлов описываются работ и аннотаций, поддерживаемых в подпонятиями. В частности, WSDLProcessor MyExperiment, для обеспечения требований, соответствует вызову веб-сервиса. DataflowProcessor изложенных в разделе 2, должны содержать также специфицирует вложенный поток работ, также исчерпывающие наборы тестов, учитывающие 73 различные ситуации, и соответствующие данные подпонятия понятий онтологии, но без введения результатов тестов при разных входных условия. новых понятий и свойств в онтологию. Таким образом, для создания среды Мы рассматриваем предметную область исследований, обеспечивающей семантический звёздной астрономии, включающую понятия поиск методов, повторное использование и одиночных звёзд, кратных систем звёзд. С ними воспроизводимость, в MyExperiment требуется связаны модули с описанием понятий астрометрии, расширение интерфейсов доступа к структуре фотометрии, астрофизики как понятий смежных потоков работ и поддержка систем тестов с областей. Эти модули используются в большинстве результатами. В целом, это возможно, так как задач в области астрономии вне зависимости от MyExperiment является проектом с окрытым кодом. того, какие задачи они решают. Однако на данном этапе исследование проводилось В частности, в модуле астрометрии определены с использованием оригинального сервера следующие понятия: MyExperiment, соответственно, средства со стороны MyExperiment не менялись.  Coordinate  CoordinateSystem 5 Расширение состава метаданных,  EquatorialCoordinateSystem сопровождающих публикуемые данные и  CoordinateSystemComponent научные методы  Epoch Для поиска объектов исследования, релевантных  RightAscension решаемой задаче, в MyExperiment предназначены  Declination только их текстовые описания и аннотации тегами.  и другие. Причём связаны они, могут быть только с потоками работ в целом или файлами, исходя из их Понятия имеют иерархию, описание структуры с суперпонятия Taggable. Для коллекции методов и помощью связей и ограничений. потоков работ, обеспечивающей их повторное В онтологию предметной области включены использование, этого, безусловно, недостаточно. также более специфические модули, определяющие Мы производим расширение состава хранимых знания о парах и компонентах кратных звёзд, метаданных об объектах исследования, потоках параметрах орбит двойных звёзд, параметрах работ и их компонентах, для реализации кривой светимости затменных звёзд и других. Такие семантических подходов работы с методами модули используются в более узких классах задач, в предметной области. Спецификации расширенного частности, связанных с определёнными видами состава метаданных оформляются в виде набора астрономических объектов. онтологий разного назначения. Описанные В качестве примера отнесения данных или онтологические модули находятся в открытом компонентов потоков работ к понятиям онтологии доступе по адресу: предметной области, метаобъект с данными о http://ontology.ipi.ac.ru/ontologies/astront, – и могут координате прямого восхождения (RA_J2000) использоваться для накопления метаданных в астрономического объекта может быть связан с соответствии с их определениями. Для хранения понятием онтологии RightAscension, но для более метаданных, связанных с конкретными точного описания такой метаобъект должен стать метаобъектами MyExperiment, используется экземпляром выражения (подпонятия) в терминах отдельная база экземпляров RDF. онтологии, ограничивающего класс множеством Для реализации семантических подходов к экземпляров x таких, что x принадлежит Right поиску потоков работ, релевантных решаемой Ascension, и существует координата y, система задаче, их повторному использованию и координат у которой экваториальная, и у которой обеспечению воспроизводимости, в первую очередь, есть компоненты: x и эпоха, равная J2000. Выбор необходимо развивать спецификации предметной простого или более точного стиля описания области, в которой собирается коллекция методов. метаданных в дальнейшем влияет на качество Поиск потоков работ, отвечающих требованиям поиска метаобъектов в терминах онтологии. задачи, необходимо связывать с онтологией Наряду с модулями онтологии предметной предметной области, которой принадлежит области в нашем подходе спецификации коллекция и в которой решается задача. Для этого метаданных пополняются также метаобъекты, описывающие потоки работ, специализированными онтологиями, объявляются экземплярами классов понятий описывающими требования к происхождению онтологии предметной области. Отнесение данных, их качеству и среде исполнения. метаобъекта к классу понятия в терминах онтологий В качестве онтологии происхождения данных реализуется посредством отношения rdf:type. Для используется в соответствии с рекомендацией W3C более сложных описаний в терминах онтологии онтология PROV-O [2]. В её основе лежат понятия метаобъекты могут становиться экземплярами агента (Agent), деятельности (Activity) и сущности неименованных классов, определённых как (Entity). Агентами могут быть человек (Person), 74 организация (Organization) или программа обеспечения воспроизводимости экспериментов, в (SoftwareAgent). Вариации отношений их многом выразимы средствами онтологии экземпляров друг с другом описывают различные происхождения данных. события и ситуации, которые необходимо Также в среде MyExperiment требуется фиксировать при преобразовании, перемещении, разработка поддержки систем тестов. До сих пор изменении статуса данных. Например, метаданные они описываются только некоторыми об исходных данных, которые использовались исследователями и неформально, в поле описания процессом, выражается отношением used, потока работ, либо в файлах, включённых в связывающего агента и деятельность; информация коллекцию объекта исследования. После реализации об инструменте, который был использован для такой поддержки входные и выходные данные генерации результата, выражается отношением тестов, должны связываться wasAttributedTo, связывающего сущность и Для соответствия разработанным требованиям к программу и так далее. Посредством такой публикации научных методов необходимо онтологии можно задавать метаданные об авторстве обеспечение определённых метаобъектов и принадлежности данных и методов, прослеживать MyExperiment метаданными в терминах упомянутых историю преобразования данных от онтологий. первоначального источника до текущего состояния, сопровождать реальные данные и методы другой Метаданными в терминах онтологии предметной подобной информацией. области должны сопровождаться: Приведём пример спецификации происхождения  файлы, потоки работ как целостные объекты; данных для потока работ wf3514, обращающегося к  входные узлы в качестве предусловий; внешнему сервису resolve_coordinates (Sesame Name  выходные узлы в качестве спецификаций их Resolver) для локализации астрономического постусловий; объекта на небе по его имени. Результирующие данные потока resolve_coordinates_outputTable  узлы обработки данных; могут содержать информацию в виде триплетов об  их входы и выходы. инструменте, которым созданы данные и о потоке Таким образом, производится описание работ: семантики компонентов потоков работ в онтологии, wf3514:resolve_coordinates на основе которого появится возможность поиска rdf:type prov:SoftwareAgent . потоков работ, релевантных задачам, по понятиям, wf3514:resolve_coordinates_outputTable соответствующим потокам в целом, по соответствию семантики входных и выходных rdf:type prov:Entity; узлов, по семантике узлов обработки, по семантике prov:wasAttributedTo блоков и потоков данных внутри потоков работ. wf3514:resolve_coordinates; Помимо поиска появляется возможность prov:wasGeneratedBy wf3514:wf3514 . верификации потоков работ и их использования. Ещё одна часть спецификации необходимых Метаданными в терминах онтологии метаданных, онтология качества данных DQ [5], происхождения сопровождаются: содержит набор факторов качества данных,  сами потоки работ как описания научных определяемых измерениями в многомерном методов, требующих прояснения пространстве значений и метриками качества в этих происхождения; измерениях. В качестве примера взяты измерения  обрабатывающие компоненты потоков работ полноты данных (Completeness), объёма данных как определённые научные сервисы; (Data Volume), возраста данных (Timeliness),  данные, направляемые на обработку в потоке точности (Accuracy), целостности (Consistency), работ, находящиеся в процессе обработки и меры доверия (Confidence). Состав измерений и результирующие. метрики для их реализации сильно зависят от предметной области исследования. С одним Любые данные, входящие в объект исследования объектом может одновременно быть связано в виде файлов или участвующие в потоках работ, несколько значений качества в разных измерениях. должны быть соотнесены с онтологиями Экземпляры понятий данной онтологии предметной области, происхождения, качества связываются с потоками работ и файлами в целом, данных. любыми компонентами потоков работ, сервисами и Некоторые аспекты качества данных могут быть их параметрами, а также с самими данными. связаны с методами и потоками работ в целом как Метрики оценки качества также могут различными, спецификациями качества, ожидаемого от работы но они согласовываются и специфицируются методов. сообществом, работающим в предметной области. Тесты и их результаты снабжаются связями с Спецификации сред воспроизведения также онтологией предметной областью, причём могут требовать определения некоторой структуры особенности различных ситуаций, представляемых метаданных. Однако, данные, необходимые для разными тестами, желательно отражать в 75 ограничениях понятий. Результаты тестов должны Соответственно, он включает в себя требования к иметь метаданные происхождения, связанные с выборке из точки доступа MyExperiment историей выполнения тестов в потоках работ. метаобъектов класса Workflow, к которым относятся метаобъекты класса Sink. В языке запросов SPARQL 6 Применение метаданных для для обращения к распределённым точкам доступа обеспечения повторного использования используются средства федеративных запросов с помощью конструкции SERVICE. и прямого и воспроизводимости результатов указания адреса точки доступа MyExperiment. работы научных методов Остальные требования относятся к тем же RDF- ресурсам, но опрашивается база RDF-экземпляров с Онтологии предметной области исследования, метаданными. Одно из них относится к метаданным происхождения данных, качества данных, сред в терминах онтологии астрономии, а именно, исполнения фактически определяют разные ракурсы принадлежность выходных данных потока работ взгляда на описываемые объекты исследования и понятию AstrObject,. А другое – к метаданным в научные методы. Метаданные в терминах терминах онтологии происхождения данных, а определённых онтологий – не зависимые друг от именно, какой инструмент используется для друга проекции на объект исследованияв контектсе генерации данных. Таким образом, один запрос знаний данной онтлогии. Запросы в терминах использует термины MyExperiment, термины каждой из этих онтологий, могут выдать потоки онтологии предметной области и термины работ или их компоненты, соответствующие происхождения данных, а результатом запроса определённым требованиям с точки зрения являются найденные в коллекции научных методов конкретной онтологии. потоки работ, релевантные сформулированным в Для хранения метаданных используется база запросе требованиям. RDF-триплетов на основе Jena. В ней хранятся Подобное использование метаданных позволяет экземпляры в соответствии со структурой, решать многие задачи, связанные с семантическим определённой описанными выше онтологиями. Для подходом к обеспечению интероперабельности работы с базой экземпляров используется язык научных методов, их повторным использованием и запросов SPARQL. обеспечением. При решении научных задач и поиске На основе метаданных о связи с предметной релевантных задаче реализаций научных методов областью можно решать задачи поиска релевантных возникнет необходимость предъявления требований методов: одновременно с нескольких ракурсов. Таким образом, понадобится обрабатывать запросы,  по понятиям, связанным с потоками работ в включающие конъюнктивно требования целом; одновременно в терминах нескольких онтологий.  по соответствию требованиям задачи понятий, Пример запроса. связанных с входными и выходными данными потоков работ, то есть, по спецификации в prefix rdf: терминах онтологии того, что мы имеем и того, какие данные мы имеем, и того, что хотим prefix mecomp: получить в результате работы метода;  по присутствию в потоке работ компонентов- prefix astrobjects: стадий, которые необходимы для решения задач;  по другим возможным критериям, prefix prov: формулируемым с использованием понятий предметной области. SELECT ?workflow WHERE Возможно производить семантический контроль { ?output rdf:type astrobjects:AstrObject . используемых методов и принятых решений: ?output prov:wasGeneratedBy ?workflow .  проверку семантики данных между всеми ?output prov:wasAttributedTo :resolve_coordinates. компонентами потока работ; SERVICE  проверку корректности использования подпроцессов по их входным и выходным { ?output mecomp:belongs-to-workflow ?workflow . параметрам; ?output rdf:type mecomp:Sink }  соответствие семантики входного компонента } семантике входных данных, либо выходных Такой запрос к базе RDF-экземпляров выясняет, данных выходным компонентам; какие потоки работ из коллекции MyExperiment  соответствие семантики данных, проходящих из возвращают астрономические объекты, обращаясь выхода одного компонента на вход другой, по за ними в сервис resolve_coordinates (с точки зрения принципу спецификаций пред- и постусловий: онтологии происхождения данных). 76 постусловие выхода предыдущего компонента [2] The PROV Ontology. W3C Recommendation. – должно быть строже предусловия входа W3C, 2013. – URL: http://www.w3.org/TR/prov- последующего компонента. o/. Видно, что обеспечение семантической [3] VizieR. – URL: http://vizier.u-strasbg.fr/cgi- интероперабельности за счёт соотнесения задач, bin/VizieR данных и методов со знаниями предметной области [4] Wf4Ever project. – URL: http://www.wf4ever- является основой для обеспечения повторного project.org/ использования научных методов. [5] S. Geisler, S. Weber, Ch. Quix. Ontology-based Обеспечение качества данных, достоверности, data quality framework for data stream полноты и других аспектов, связанных с applications. // Proc. of the 16th International надёжностью данных и методов, реализуется с Conference on Information Quality (ICIQ-11). – помощью использования онтологиями качества 2011. данных и их происхождения. [6] Goble C. A., De Roure D. C. myExperiment: Возможности метаданных происхождения social networking for workflow-using e-scientists данных также сложно переоценить. С их помощью // Proceedings of the 2nd workshop on Workflows осуществляется: in support of large-scale science. – ACM, 2007. –  контроль реальных источников данных и их С. 1-2. качества в соответствии с требованиями задачи; [7] D. Hull, K. Wolstencroft, R. Stevens, C.A. Goble, M.R. Pocock, P. Li, T. Oinn. Taverna: A tool for  контроль за соответствием требованиям building and running workflows of services, решения задачи используемых открытых Nucleic Acids Research, 34 (Web-Server-Issue), реализаций научных методов 2006, pp. 729–732.  контроль прохождения тестов по [8] L. Moreau. Provenance-Based Reproducibility in определённому пути в потоках работ и the Semantic Web. // Web Semantics: Science соответствия качества получаемых данных Services and Agents on the World Wide Web. – 9, требованиям задачи (2). – 2011. – P. 202-221.  проверка требований воспроизводимых [9] Shadbolt N., Hall W., Berners-Lee T. The экспериментов к исполняемой среде. semantic web revisited //Intelligent Systems, Таким образом, воспроизводимости результатов IEEE. – 2006. – Т. 21. – №. 3. – С. 96-101. способствует ведение метаданных происхождения [10] Walton N. A. et al. AstroGrid: A place for your для каждой манипуляции, производимой при science //Astronomy & Geophysics. – 2006. – Т. прохождении экспериментов. При воспроизведении 47. – №. 3. – С. 3.22-3.24. результатов возможно отследить обратную цепочку [11] Yu L. Linked open data //A Developer’s Guide to манипуляций и повторить её. the Semantic Web. – Springer Berlin Heidelberg, Спецификации требований к исполняемой среде, 2011. – С. 409-466. необходимой для проведения эксперимента, [12] А. Е. Вовченко, Л. А. Калиниченко, С. А. формулируются в терминах происхождения данных. Ступников Семантический грид, основанный на концепции предметных посредников. // 7 Заключение Труды четвертой международная конференция "Распределённые вычисления и Грид- В статье проанализированы требования к средам технологии в науке и образовании" Grid2010, поддержки научных исследований для обеспечения Дубна, ОИЯИ, 2010. – c. 309-318. повторного использования научных методов и воспроизводимости результатов их работы. Предложен набор метаданных, которые должны Scientific Methods Metadata for Provision сопровождать данные и методы с этой целью. of the Methods Reuse and Result Метаданные определяются в терминах онтологий и Reproducibility включают привязку описаний научных методов и потоков работ к знаниям предметной области и N. A. Skvortsov, D. O. Briukhov, L. A. Kalinichenko, также снабжение информацией о происхождении и D. Kovalev, S. A. Stupnikov качестве данных. Показан путь использования этих Data-intensive sciences are characterized by the метаданных. constantly growing needs for specific data analysis methods intended for producing new knowledge related Литература to the investigated areas. Development of new data analysis methods becomes a significant, inseparable part [1] The Fourth Paradigm: Data-Intensive Scientific of research. Digital preservation, reuse and Discovery. Tony Hey, Stewart Tansley, and reproducibility of computer experiment results become Kristin Tolle, Eds. Microsoft Research, Redmond, inherent attributes of scientific discovery. The paper WA, 2009. 286 pp. investigates metadata structure to be attached to the processes specifying or implementing scientific data analysis methods for their reuse and result 77 reproducibility. Process components and data are scientific workflows as an illustration, we demonstrate referred to the domain concepts and need to be supplied how the extension of its metadata could have allowed to with the information about data provenance and quality. organize the semantic search for methods relevant to a Specific test collections are needed to describe kinds of problem, to verify interoperability, reusability and cases in which methods must behave in an anticipated reproducibility of processes implementing the methods. way. Using the open myExperiment environment . organizing and providing access to the collection of 78