Поддержка повторного использования спецификаций потоков работ за счет обеспечения их независимости от конкретных коллекций данных и сервисов © Брюхов Д.О. © Вовченко А.Е. © Калиниченко Л.А. ИПИ РАН, Москва brd@ipi.ac.ru itsnein@gmail.com leonidk@synth.ipi.ac.ru системы с интенсивным использованием данных Аннотация имеют существенное пересечение с быстро Статья рассматривает вопросы организации развиваемой областью, именуемой «Big Data». исследований в науках с интенсивным Вместе с тем, в НИИД «ученые, вместо того, использованием данных (НИИД). чтобы заниматься исследованиями, затрачивают Конкретно в ней изучается проблема большую часть своего времени на поиск данных, повторного использования потоков работ в манипулирование, обмен данными. И такое научных исследованиях. В статье положение все время усугубляется» (наблюдение представлен подход к встраиванию DoE Office of Science Data Management Challenge в предметных посредников в среду для USA). совместных исследований в НИИД. Этот Наиболее заметны следующие проблемы подход позволяет создавать методы и организации исследований в НИИД: алгоритмы решения задач независимо от 1) Создаваемые в НИИД методы анализа конкретных реализаций ресурсов (данных и данных и алгоритмы решения задач как правило сервисов). За счет обеспечения ориентированы на конкретные коллекции данных, независимости потоков работ от находящиеся в поле зрения конкретных ученых в конкретных коллекций данных и сервисов конкретный момент. Из-за этого отсутствует существенно упрощается возможность возможность повторного использования таких повторного использования потоков работ. методов, алгоритмов и их реализаций над другими данными, в других коллективах НИИД. 1 Введение 2) Отсутствует практика накопления и Науки с интенсивным использованием данных повторного использования методов анализа данных, (НИИД) развиваются в рамках новой парадигмы алгоритмов решения задач и их реализаций в научных исследований (так называемой 4-й научном сообществе НИИД. Фактически опыт парадигмы [14]), согласно которой новые знания проведения исследований, методы решения задач образуются в результате анализа разнообразных анализа данных в НИИД не накапливаются. данных, накопленных в результате проведения 3) В НИИД отсутствует практика измерений, наблюдений, моделирования, формирования ИТ-базированных, согласованных в вычислений. Формулирование этой парадигмы сообществах концептуальных определений научных явилось результатом осознания все возрастающей областей (включающих их структуру, понятия, роли данных для развития науки, научных открытий спецификации методов, задач, техник проведения практически во всех научных областях. Данные измерений и экспериментов, и пр.). становятся ключевым источником получения Данная статья подготовлена в рамках проекта 1, знаний в НИИД. При этом объем, разнообразие и ориентированного на преодоление названных качество накапливаемых данных быстро растет проблем. Для преодоления проблемы (2) отчасти благодаря быстрому развитию техники предлагается использовать потоки работ как наблюдений и измерений различных природных явлений и процессов, введению в практику новых методов и инструментов наблюдения. Поэтому 1 Проект “Обеспечение повторного использования реализаций методов анализа информации и алгоритмов Труды 15-й Всероссийской научной конференции решения задач в научных областях с интенсивным «Электронные библиотеки: перспективные методы и использованием данных" в рамках программы технологии, электронные коллекции» — RCDL-2013, фундаментальных исследований Президиума РАН № 16 Ярославль, Россия, 14-17 октября 2013 г. «Фундаментальные проблемы системного программирования» 61 универсальное средство определения и реализации ученым программную поддержку для создания, методов анализа данных, алгоритмов решения задач обмена и запуска потоков работ в различных и их композиций. Опыт проведения исследований с системах управления потоками работ (ASKALON, интенсивным использованием данных в научном Galaxy, GWES, Kepler, LONI Pipeline, MOTEUR, сообществе НИИД предлагается накапливать в виде Pegasus, P-GRADE, ProActive, Triana, Taverna, WS- потоков работ и их метаописаний. Средства PGRADE). накопления спецификаций потоков работ Системы управления потоками работ в науке реализованы при этом на основе обоснованного поддерживают доступ к широкому набору уже выбора одного из существующих международных существующих баз данных и сервисов анализа проектов подобных систем (таких как myExperiment данных в различных областях науки (в биологии, [4], Wf4Ever [11], VisTrails [10], Trident [9], и др.). астрономии, социальных науках, и др.), Одним из существенных недостатков таких использование которых позволяет упростить проектов является отсутствие возможности процесс создания потоков работ. использования в них концептуальных определений Репозитории потоков работ позволяют ученым коллекций данных, обрабатываемых потоками работ находить интересующие их потоки работ, (проблема 3), и, как следствие этого, воспроизводить результаты этих потоков работ, ориентированность потоков работ на конкретные повторно использовать существующие потоки работ коллекции данных, что препятствует возможности для решения задач в рамках названных выше повторного использования спецификаций потоков ограничений. работ и их реализаций над другими данными в других исследованиях НИИД (проблема 1). В статье Для конкретизации рассмотрения в данной показано, как преодолеть названные недостатки за статье предполагается использовать myEхperiment с счет введения концептуальных спецификаций в ориентацией на систему управления потоками работ практику определения потоков работ и задания Taverna [6]. Taverna – это система управления отображений в них конкретных коллекций данных потоками работ, которая может быть использована в на основе техники предметных посредников. Тем различных областях науки. Она предоставляет самым удается обеспечить независимость набор сервисов для создания и выполнения накапливаемых для повторного использования разнообразных потоков работ. Taverna была создана спецификаций потоков работ от конкретных в рамках проекта myGrid [7]. коллекций данных, а также при необходимости применить интеграцию конкретных коллекций 3 Проблемы повторного использования данных для образования адекватных потоков работ концептуальных коллекций. Taverna предоставляет средства для поиска (по 2 Среды для публикации и повторного тегам) потоков работ в среде myExperiment. Найденные потоки работ можно запускать как с использования потоков работ исходными значениями входных параметров, В настоящем разделе дан краткий обзор систем, предоставленными разработчиками, так и с обеспечивающих публикацию и повторное произвольными значениями. Это позволяет использование спецификаций потоков работ. воспроизвести результаты исследования других ученых с целью возможного повторного Особо стоит выделить среду для совместных использования разработанных потоков работ. Тем исследований myExperiment [4], в которой ученые не менее зачастую повторное использование может могут публиковать потоки работ для решения задач. оказаться невозможным. Среда myExperiment была введена в 2007 году и в настоящее время является одной из самых больших Спецификация потока работ в Taverna задается в репозиториев потоков работ (в ней содержится виде направленного графа. Потоки работ в Taverna более 2000 потоков работ), используется тысячами реализуют модель потоков данных (data flow model). ученых в различных областях науки. Среда Таким образом,.поток работ состоит из сервисов, myExperiment позволяет публиковать потоки работ в представляющих собой программные компоненты различных системах управления потоками работ. (такие как веб-сервисы), и направленных связей Для ряда систем управления потоками работ (таких, между ними, выражающих зависимости по данным. как Taverna [6], Galaxy [8], Trident [9]) Taverna поддерживает широкий набор как поддерживаются дополнительные возможности локальных, так и удаленных сервисов в различных такие, как управление метаданными, извлечение областях науки. В частности, Taverna обеспечивает информации об используемых сервисах, доступ к произвольным WSDL и REST сервисам; к визуализация потоков работ. конкретным веб сервисам, таким как BioMoby [15], BioMart [12] и SoapLab [16]; к локальным Java Другим примером репозитория потоков работ сервисам (BeanShell скрипты); к базам данных является проект ER-flow [5] (проект FP7 "Building a посредством JDBC. Taverna поддерживает European Research Community through Interoperable использование вложенных потоков работ. Это Workflows and Data"), являющийся продолжением позволяет встраивать уже существующие потоки проекта SHIWA. Проект ER-flow предоставляет 62 работ (возможно разработанные другими учеными) таблицы, добавить ключи, и др.). Также, для при создании новых потоков работ. повышения производительности взгляды можно Одной из главных проблем повторного материализовать. BioMart автоматически обновляет использования потоков работ в Taverna является материализованные взгляды в случае изменения зависимость спецификаций потоков работ от исходных данных в ресурсе. Кроме того, можно конкретных коллекций данных и/или сервисов. В устанавливать связи между различными базами Taverna каждый сервис настраивается на доступ к данных (по ключам), образуя их федерацию. конкретным сервисам и базам данных. Это не С концептуальной точки зрения схемы BioMart позволяет повторно использовать такие потоки сервисов определяются на основе схем ресурсов. работ, если необходимо, например, обрабатывать Это подход известен в литературе как GAV [2] и другие коллекции данных. Также, если какой-либо обладает рядом недостатков, основным из которых из сервисов или база данных в настоящий момент является слабая масштабируемость, т.к. добавление недоступны, то весь поток работ не сможет быть (удаление) одного из ресурсов влечет за собой выполнен. изменение федеративной схемы. Инструментарий Данная статья нацелена прежде всего на решение Taverna предоставляет доступ не к BioMart порталу, проблемы повторного использования потоков работ а к отдельным BioMart сервисам. Чтобы добавить в Taverna над базами данных. Taverna поддерживает новую операцию в поток работ, выбирается ряд способов доступа к базам данных из потока конкретный BioMart сервис, с конкретной схемой, и работ: формулируется конкретный запрос, что также затрудняет повторное использование потока этого 1. Создание веб сервиса, реализующего доступ работ. к базе данных. Доступ к этому веб сервису из потока работ осуществляется по протоколу SOAP; Основное отличие предлагаемого в настоящей работе подхода заключается в поддержке 2. Полная реализация интерфейса расширения концептуальной схемы предметной области для (extension point) Taverna, включающего поддержку спецификации потоков работ и введении языка запросов к базе данных и графический промежуточного слоя предметных посредников, интерфейс для конструирования запросов и обеспечивающего отображение схем произвольных предоставления пользователю метаданных конкретных ресурсов (баз данных и сервисов) в подключаемой базы данных. В Taverna этот подход концептуальную схему, интеграцию ресурсов. реализован для сервиса BioMart [12] и в плагине Благодаря этому спецификация потоков работ не AstroTaverna [13]; требует изменения при изменении ресурсов, что 3. Использование существующих сервисов является необходимым условием обеспечения BioMart для доступа к подключаемой базе данных; повторного использования потоков работ. 4. Использование JDBC сервиса для доступа к базам данных. 4 Инфраструктура предметных Возможность подключения нового ресурса через посредников как средство решения BioMart заслуживает отдельного рассмотрения. проблем повторного использования BioMart (а точнее BioMart портал) представляет собой систему управления данными, 4.1 Концепции инфраструктур предметных ориентированную на выполнение разнообразных посредников запросов над биологическими данными. В портале системы можно найти нужные ресурсы по Основной идеей инфраструктуры решения задач метаданным, а также задать к ним запрос и получить над неоднородными информационным ресурсами результат. Также запросы могут быть заданы над является введение промежуточного слоя между несколькими конкретными базами данных, ресурсами и потребителями информации, зарегистрированными в портале. Данные из BioMart образуемого предметными посредниками [1]. могут быть получены посредством веб страницы, Каждый предметный посредник поддерживает графического или консольного инструментария, или спецификацию предметной области для решения из программ посредством веб-сервисов либо некоторого класса задач. напрямую через perl или java АПИ. Посредники реализуют подход к решению задач, С другой стороны, BioMart (а точнее BioMart ориентированный на проблему. В рамках подхода, сервис) представляет собой адаптер, ориентированного на проблему (подхода, унифицирующий интерфейс различных баз данных, «движимого приложением»), формулируется таких как MS SQL Server, PostgreSQL, MySQL, DB2, концептуальная спецификация задачи, включающая Oracle. По сути, любая (из поддерживаемых) база базовые сущности и понятия предметной области, данных может быть оформлена как BioMart сервис, функции, процессы и пр. Такое определение после чего полученный сервис подключается к предметной области, представляет собой порталу. С точки зрения схемы ресурса, при спецификацию предметного посредника для создании BioMart сервиса возможно определение решения класса задач. Сущности и понятия взглядов (SQL views) над исходной схемой для ее предметной области, определенные таким образом, модификации (удалить атрибуты, убрать какие-то не зависят от существующих информационных 63 ресурсов. В терминах предметной области подключаются к посреднику посредством формулируются программы для решения задачи на адаптеров. языке правил посредника и на языках Концептуальные коллекции с технической точки программирования. Для решения конкретной задачи зрения могут быть использованы точно также как выявляются инфраструктуры, содержащие ресурсы, обычные базы данных в Taverna. С помощью необходимые для ее решения (например, гриды, предметных посредников в виде концептуальных облачные инфраструктуры, репозитории данных, и коллекций могут быть оформлены любые базы др.). Далее, идентифицируются ресурсы, данных. Главное отличие концептуальных релевантные задаче, используя реестры доступных коллекций от обычных заключается в том, что их инфраструктур. Релевантные задаче ресурсы схема остается неизменной независимо от набора регистрируются в предметных посредниках, фактически используемых ресурсов. В результате, задающих отображение схем ресурсов в запросы к концептуальной коллекции, и концептуальную спецификацию. следовательно, поток работ остаются неизменными Таким образом, при изменении набора ресурсов, при изменении набора конкретных ресурсов. Таким спецификация алгоритма решения задачи остается образом может быть получена спецификация потока неизменной, и может быть повторно использована работ, определяемая в терминах предметной на другом наборе коллекций данных. области предметного посредника и не зависящая от конкретных ресурсов. Это решает одну из основных 4.2 Обеспечению независимости потоков работ от проблем повторного использования потоков работ. данных на основе предметных посредников 5 Пример применения подхода к Как было отмечено выше, все сервисы в потоках работ Taverna определены в терминах конкретных обеспечению независимости сервисов и баз данных, что не позволяет задавать спецификации потоков работ на основе спецификации потоков работ независимо от конкретных ресурсов. задачи определении вторичных По сути, посредники представляют собой стандартов виртуальные базы данных, и в потоках работ В этом разделе мы рассмотрим предлагаемый Taverna их можно подключать аналогично обычным нами подход на задаче определения вторичных базам данных. Возможны 2 способа подключения стандартов для фотометрической калибровки посредников к Taverna: посредством веб сервиса и оптических компонентов космических гамма- посредством разработанного плагина всплесков [3], поставленной Институтом (соответствующие 1-му и 2-му способам, Космических Исследований РАН. Задача рассмотренным в разделе 3). При первом способе заключается в том, что по координатам площадки, над посредником создается веб сервис, требуется найти в ней звезды, удовлетворяющие реализующий интерфейс посредника. Доступ к ряду условий (не переменные, точечные, с посреднику из потоков работ Taverna хорошими изученными параметры). Такие звезды осуществляется посредством этого веб сервиса по называется «стандартами» и могут быть протоколу SOAP. Вторым способом подключения использованы для калибровки новых поступающих предметных посредников к Taverna может являться данных. разработка специального плагина под средство разработки потоков работ Taverna Workbench. 5.1 Описание схемы посредника для задачи Taverna предоставляет возможность создания определения вторичных стандартов подобных плагинов, посредством интерфейса расширения (extension point), для добавления и На Рис. 1 представлена схема посредника, расширения функциональности Taverna Workbench. разработанная для решения этой задачи. Она Этот плагин сможет предоставлять графический включает в себя описание концептов, необходимых интерфейс для помощи в конструировании запросов для решения задачи, таких как: экваториальные к предметным посредникам и интерфейс для координаты (CoordEQJ); фотометрическую систему доступа к метаданным предметного посредника. (PhotometricSystem); фотометрическую полосу Все доступные в Taverna ресурсы, используемые (Passband); магнитуду в некоторой фотометрической в качестве узлов в потоках работ, могут быть системе (Magnitude); абстрактный астрономический использованы также посредством посредников. В объект (Astronomical Object); звезду (Star); стандарт частности, предметные посредники поддерживают (Standard); изображение (Image). Также схема использование WSDL сервисов в виде функций. посредника содержит функции, необходимые для Конкретные веб-сервисы (например, BioMoby, решения задачи, включая: метод кросс- BioMart и SoapLab) также могут быть использованы идентификации (matchObjects); метод вычисления из посредника. BeanShell скрипты могут быть цветового индекса (colorIndex); метод проверки типа оформлены в виде программ на Java над объекта по некоторому эталонному каталогу предметным посредником, либо в виде функции (каталогам) (checkType); метод проверки, является предметного посредника. Базы данных ли звезда переменной на основе данных из многих других ресурсов (isVariable). 64 Рис. 1 Схема посредника для задачи определения вторичных стандартов Представленная схема не зависит от конкретных является площадка на небесной сфере, в которой ресурсов, используемых для решения задачи. произошел гамма-всплеск. Площадка Каталоги SDSS, USNOB-1, 2MASS, GSC, UCAC – характеризуется центром с координатами queryRA, основные ресурсы, используемые для извлечения queryDE и радиусом radius. Программа посредника стандартов. Именно среди этих каталогов состоит из восьми последовательных правил. отбираются все звезды, удовлетворяющие Правило 1 – В первом правиле среди всех параметрам. Каталоги VSX, ASAS, GCVS, NSVS астрономических объектов выбираются те, что используются для проверки факта переменности попадают в указанную площадку. При этом нас выбранных стандартов. Список ресурсов может со интересуют только координаты (ra, de), звездные временем меняться, но при этом схема посредника величины в различных полосах (magnitudes), тип останется неизменной и методы решения задач объекта (objectType), собственное движение определения вторичных стандартов также останутся (properMotion) и качество данных (quality). Это неизменными. правило на языке правил посредников (язык СИНТЕЗ [17]) выглядит следующим образом: 5.2 Программа решения задачи определения r(x/[ra, de, name, magnitudes, objectType, вторичных стандартов properMotion, quality]) Задача определения стандартов была :- astronomicalObject(x1/[ra: spatialCoord.ra, de: сформулирована в виде программы spatialCoord.de, name, objectType, properMotion, (последовательности правил) над схемой, quality, magnitudes]) рассмотренной выше. Параметром программы & ra < queryRA + radius & ra > queryRA - radius 65 & de < queryDE + radius & de > queryDE - radius :- r6(x/ra, de, name, magnitudes]) Правило продуцирует коллекцию r, состоящую & showStadards(ra, de, radius, magnitudes, im) из астрономических объектов (astronomicalObject), содержащих необходимые атрибуты и 5.3 Описание Веб сервиса для доступа к удовлетворяющих ограничениям на координаты, посреднику для задачи определения вторичных указанные в теле правила. стандартов Правило 2 – Во втором правиле отсеиваются Для доступа к предметному посреднику решения неизолированные объекты. Изолированные объекты задачи определения стандартов был разработан Веб – это объекты, в некоторой окрестности которых на сервис. Этот веб сервис включает в себя следующие небесной сфере не наблюдается других объектов: методы, реализующие описанные выше правила: getIsolated(r1, r2); executeQuery – выполняет правило посредника Правило 3 – В третьем правиле среди ранее [17]. Этим правилом достаются кандидаты в выбранных объектов отсеиваются галактики, и стандарты. В качестве правила используется выбираются звезды с очень малым собственным комбинация из описанных выше правил 1-3 (раздел движением и качественными фотометрическими 5.2). Данные возвращаются в формате SynthClass 2. данными: getVariableStarsFromCatalogues - получает из r3(x/[ra, de, name, magnitudes]) посредника коллекцию переменных звезд в :- r2(x1/[ra, de, name, objectType, properMotion, заданной области из каталогов переменных звезд quality, magnitudes]) (правило 5). Данные возвращаются в формате & checkType(ra, de, 'Galaxy', nType) & nType = false SynthClass. & objectType = Star & properMotion < 0.01 getVariableStarsByMagnitudes - получает из & quality < 0.01 посредника коллекцию переменных звезд в Правило 4 - В четвертом правиле используются заданной области, определяя переменная ли она по объекты, полученные в первом правиле. Среди магнитудам (правило 1 и 4). Данные возвращаются в объектов этого класса выбираются только те, для формате SynthClass. которых верно, что они переменные. Переменность removeVariableStars - получает коллекцию определяется с помощью функции стандартов, и коллекцию переменных (аналог isVariableByMagnitude. правил 6 и 7 реализованных одной функцией). Из r4(x/[ra, de, name]) первой удаляются те объекты, которые содержатся :- r1(x1/[ra, de, name, magnitudes]) во второй. & isVariablebyMagnitudes(ra, de, isVar) & isVar = true removeStarsWithAnomalyMagnitudes - отсеивает Правило 5 - В пятом правиле выбираются аномальные звезды из входной коллекции объектов. переменные звезды из каталогов переменных звезд: Это дополнительный метод, не описанный выше в GCVS, VSX, NSVS, ASAS. правилах. Был добавлен по настоянию астрономов r4(x/[ra, de, name]) для обеспечения большей точности результата. :- variableStar(x1/[ra: spatialCoord.ra, de: getAladinCandidates – по полученной коллекции spatialCoord.de, name]) объектов возвращает изображение (аналоги правила Правило 6 - В шестом правиле, производится 8), которое может быть открыто специалистом из кросс-идентификация объектов из класса программы Aladin [19], популярной среди кандидатов в стандарты (результат правила 3), и астрономов. класса переменных звезд, посредством вызова функции xmatch. xmatch(r3, r4, r5); Правило 7 - В седьмом правиле из класса кандидатов в стандарты, полученного после кросс- идентификации, выбираются только те объекты, для которых не нашлось близко расположенного переменного объекта (distance > 0.01). На практике, это означает что кандидат в стандарты – не переменный объект. r6(x/[ra, de, name magnitudes]) :- r5(x1/[ra, de, name, magnitudes, distance]) & distance > 0.01 Правило 8 – В предыдущем правиле построена коллекция r6, содержащая стандартные звезды. В 2 Формат представляет собой расширение заключительном правиле стандарты маркируются на стандартного для виртуальной обсерватории изображение площадки гамма-всплеска, и представления таблиц VOTable [18]. Расширения предоставляются пользователю для утверждения. обеспечивают возможность представления r7(im/Image) коллекций объектов сложной структуры. 66 Рис. 2 Поток работ решения задачи вторичных стандартов в среде Taverna функции преобразования входных и выходных 5.4 Описание потока работ решения задачи параметров методов в формат XML. определения вторичных стандартов в среде Результатом выполнения этого потока работ Taverna является изображение Aladin [19] с наложенным на него списком стандартов. На Рис. 3 показан пример На Рис. 2 представлен поток работ решения результата, получаемого специалистом. Результат задачи вторичных стандартов в среде Taverna. включает в себя изображение, а также отмеченные Входными параметрами его являются координаты на изображении объекты – кандидаты в стандарты, площадки на небесной сфере, в которой произошел удовлетворяющие всем требованиям. гамма-всплеск. 5 Заключение Поток работ представляет собой набор вызовов методов Веб сервиса, описанного выше. Также в Предлагаемый подход по встраиванию потоке работ присутствуют вспомогательные предметных посредников в среду организации исследований в НИИД позволяет упростить 67 Рис. 3 Изображение найденных кандидатов в стандарты решение ряда проблем таких, как: накопление А.С., Скворцов Н.А., Ступников С.А. методов анализа данных, алгоритмов решения задач Применение средств виртуальной и их реализаций в научном сообществе; обсерватории для выбора вторичных воспроизведение и повторное использование таких стандартов поля при фотометрии оптического алгоритмов и методов; формирование ИТ- послесвечения гамма-всплесков // Труды базированных концептуальных определений Всероссийской астрономической конференции научных областей; использование методов и средств ВАК-2010 «От эпохи Галилея до наших дней». высокоуровневых декларативных определений – САО РАН: Нижний Архыз. – 2010. методов анализа данных и алгоритмов решения [4] De Roure, D., Goble, C. and Stevens, R. (2009) задач в НИИД. Хотя статья рассматривает The Design and Realisation of the myExperiment предлагаемый подход применительно к конкретной Virtual Research Environment for Social Sharing среде myExperiment и системе управления потоками of Workflows. Future Generation Computer работ Taverna, предлагаемый подход может быть Systems 25, pp. 561-567 аналогично использован в других средах с другими [5] Mark Santcroos. Experiences from workflow системами управления потоками работ. sharing using the SHIWA Workflow Repository for application porting to DCI. EGI Community Литература Forum Book of Abstracts, EGI, Manchester, UK, [1] Брюхов Д.О., Вовченко А. Е., Захаров В.Н., 2013. Желенкова О.П., Калиниченко Л.А., Мартынов [6] Katherine Wolstencroft, Robert Haines, Donal Д.О., Скворцов Н.А., Ступников С.А. Fellows, Alan Williams, David Withers, Stuart Архитектура промежуточного слоя Owen, Stian Soiland-Reyes, Ian Dunlop, предметных посредников для решения задач Aleksandra Nenadic, Paul Fisher, Jiten Bhagat, над множеством интегрируемых неоднородных Khalid Belhajjame, Finn Bacall, Alex Hardisty, распределенных информационных ресурсов в Abraham Nieva de la Hidalga, Maria P. Balcazar гибридной грид-инфраструктуре виртуальных Vargas, Shoaib Sufi, and Carole Goble. The обсерваторий // Информатика и ее применения. Taverna workflow suite: designing and executing – М., 2008. – Т. 2, Вып. 1. – С. 2-34. workflows of Web Services on the desktop, web [2] Alon Y. Halevy. Answering Queries Using Views: or in the cloud. Nucleic Acids Research, First A Survey. VLDB Journal, 10(4), 2001. published online May 2, 2013. [3] Вовченко А.Е., Вольнова А.А., Денисенко Д.В., [7] myGrid project http://www.mygrid.org.uk/ Калиниченко Л.А., Куприянов В.В., Позаненко 68 [8] Goecks, J, Nekrutenko, A, Taylor, J and The [16] Martin Senger, Peter Rice, Tom Oinn. Soaplab - a Galaxy Team. Galaxy: a comprehensive approach unified Sesame door to analysis tools, for supporting accessible, reproducible, and Proceedings, UK e-Science, All Hands Meeting transparent computational research in the life 2003, Editors - Simon J Cox, p.509-513, ISBN - sciences. Genome Biol. 2010 Aug 25;11(8):R86. 1-904425-11-9, September 2003. [9] Roger Barga, Jared Jackson, Nelson Araujo, Dean [17] Kalinichenko L.A., Stupnikov S.A., Martynov Guo, Nitin Gautam, Yogesh Simmhan. The D.O. SYNTHESIS: a Language for Canonical Trident Scientific Workflow Workbench. Information Modeling and Mediator Definition for Proceeding of the 2008 Fourth IEEE International Problem Solving in Heterogeneous Information Conference on eScience, Pages 317-318, Resource Environments. Moscow: IPI RAN, 2007. December 07-12, 2008. [18] VOTable Format Definition [10] Steven P. Callahan, Juliana Freire, Emanuele http://www.ivoa.net/documents/VOTable/ Santos, Carlos E. Scheidegger, Claudio T. Silva [19] Aladin Sky Atlas http://aladin.u-strasbg.fr/ and Huy T. Vo. VisTrails: Visualization meets Data Management. Proceedings of ACM Support of the workflow specifications SIGMOD 2006. reuse by ensuring its independence of the [11] Wf4Ever project http://www.wf4ever-project.org/ specific data collections and services [12] Kasprzyk A. BioMart: driving a paradigm change in biological data management. Database (Oxford) © Briukhov D.O., Vovchenko A.E., Kalinichenko L.A. 2011. Institute of Informatics Problems (IPI RAN) [13] Walton N. A., Witherwick D. K., Oinn T., Benson K. M. Taverna and workflows in the virtual observatory, Astronomical Data Analysis Software The paper is devoted to the problem of organization and Systems ASP Conference Series, Vol. 394, of the research process in the data-intensive sciences Proceedings of the conference held 23-26 (DIS). It is focused on the problem of the workflow September, 2007, p 309. reuse. The paper presents an approach of embedding the [14] The Fourth Paradigm: Data-Intensive Scientific subject mediators into the environment for collaborative Discovery. Tony Hey, Stewart Tansley, and research in DIS. This approach provides independence Kristin Tolle, Eds. Microsoft Research, Redmond, of problem solving methods and algorithms of the WA, 2009. 286 pp. source data and services. It is shown that the independence of workflow from particular data [15] M. D. Wilkinson, D. Gessler, A. Farmer, L. Stein. collections and services constitutes a necessary The BioMOBY Project Explores Open-Source, requirement for the workflows re-use. Simple, Extensible Protocols for Enabling Biological Database Interoperability. In Proceedings of the Virtual Conference on Genomics and Bioinformatics (2003). 69