Высокоуровневая формализация предметной области для консолидации информационных ресурсов в области неорганического материаловедения © В.А. Дударев1,2 © Н.Н. Киселева1 1 Институт металлургии и материаловедения им. А.А. Байкова РАН, 2 Национальный исследовательский университет «Высшая школа экономики», Москва, Россия vic@imet.ac.ru kis@imet.ac.ru Аннотация. Обоснована актуальность интеграции информационных систем по свойствам неорганических веществ и материалов. Отмечено, что консолидация возможна только на основе формализации предметной области. Введены основные определения и предложена формализация содержимого информационных систем по свойствам неорганических веществ и материалов на базе трех моделей: вербальной, теоретико-множественной и объектно-ориентированной. Ключевые слова: интеграция информационных систем, неорганическая химия. High-level Formalization of Problem Domain for Inorganic Materials Science Information Resources Consolidation © V.A. Dudarev1,2 © N.N. Kiselyova1 1 Institution of Russian Academy of Sciences A.A. Baikov Institute of Metallurgy and Materials Science RAS, 2 National Research University Higher School of Economics, Moscow, Russia vic@imet.ac.ru kis@imet.ac.ru Abstract. Information systems on inorganic substances and materials properties integration actuality is grounded. It's noted that consolidation is possible on basis of subject domain formalization only. The paper introduces principal terms definitions and proposes high-level formalization of information systems on inorganic substances properties contents by means of three models: verbal, set-theoretical and object-oriented. Keywords: information system integration, inorganic chemistry. Разработка специализированных 1 Введение информационных систем (ИС) по свойствам Современные исследования во многих областях неорганических веществ и материалов (СНВМ) науки отличаются интенсивным накоплением и является необходимым для успешного развития обработкой больших массивов данных. Развитие многих наукоемких областей современной неорганической химии, как науки, привело к промышленности, например, электроники и огромному числу исследовательских работ, машиностроения, т. к. позволяет выбрать направленных на всестороннее исследование свойств оптимальные материалы для решения возникающих различных классов неорганических веществ. задач. Поэтому во многих развитых странах Результаты этих исследований, как правило, вкладываются значительные инвестиции в создание оформляются в виде текстов научных работ, что на и развитие ИС СНВМ и расчетных систем, в том данном этапе развития информационных технологий числе, на основе машинного обучения [1], которые (ИТ) делает практически невозможным являются по сути инфраструктурным фундаментом компьютерный анализ и обработку имеющихся не только для инновационной промышленности, но и публикаций с целью извлечения из них знаний и для самой науки о материалах. фактов. 2 Трудности доступа к информации по Труды XIX Международной конференции СНВМ «Аналитика и управление данными в областях с интенсивным использованием данных» Необходимо отметить, что не существует ИС (DAMDID/ RCDL’2017), Москва, Россия, 10–13 СНВМ, которая содержала бы все требуемые для октября 2017 года 225 анализа данные, и часто информация распределена СНВМ могут быть описаны с помощью иерархии по нескольким ИС СНВМ, поэтому на практике понятий (система → вещество → модификация) в доступ к такой распределенной по разнообразным виде дерева (Рис. 1). источникам информации и ее всесторонний анализ Обозначим сущности второго уровня общим даже для специалиста являются проблемой, решение термином «вещество», понимая под этим термином которой неизбежно связано с двумя задачами. Во- совокупность дискретных образований, обладающих первых, для поиска необходимой информации массой покоя (т. е. атомы, молекулы и то, что из них требуется знать, как минимум, перечень ИС СНВМ, построено). Итак, при описании химических в которых может содержаться искомая информация. сущностей можно использовать три уровня: система, Во-вторых, специалисту необходимо, имея доступ к вещество и кристаллическая (полиморфная) целевым ИС, осуществить поиск необходимой модификация (далее – модификация). При этом информации и ее всесторонний анализ. каждый последующий уровень уточняет Решение первой задачи поиска нужной ИС СНВМ (конкретизирует) информацию об описываемом облегчается за счет использования химическом объекте. специализированной ИС Information Resources on Inorganic Chemistry (IRIC), описывающей информационные ресурсы по неорганической химии и материаловедению. По своей сути IRIC является попыткой систематизации наиболее значимых ИС СНВМ [2]. Система реализована в виде веб- приложения и круглосуточно доступна по адресу Рисунок 1 Вершина иерархии понятий химических http://iric.imet-db.ru/ на русском и английском языках. сущностей в неорганической химии Для решения второй задачи – обеспечения доступа к ИС СНВМ с возможностью быстрого Приведем кратко определения основных поиска требуемой информации – необходима терминов, использованных в иерархии понятий. интеграция ИС в данной предметной области, что Химическая система (элементы, определяющие является не только большой организационной, но и качественный состав) – система, образованная технической проблемой. химическими элементами. Она может быть описана как множество атомов, образующих химическую 3 Вербальное описание предметной систему. Более строго, химическая система – это области совокупность микро- и макроколичеств веществ, способных под воздействием внешних факторов Для успешной консолидации любых ИС (условий) к превращениям с образованием новых необходимо, прежде всего, формализовать описание химических соединений. Например, химическая предметной области, которому должны система, в которую входят элементы медь, галлий и соответствовать интегрируемые ИС. теллур, обозначается как Cu-Ga-Te. Отличительной особенностью многих ИС СНВМ Химическое соединение – однородное вещество является узкая предметная направленность, постоянного или переменного состава с качественно обусловленная спецификой области исследования. отличным от свойств образующих его элементов Поэтому такие системы хранят информацию только химическим или кристаллохимическим строением. о тех веществах и их характеристиках, которые Соединение образовано из атомов нескольких относятся к исследуемой предметной области. В химических элементов, связанных химической качестве примера можно привести ИС по фазовым связью. На фазовой диаграмме область гомогенности диаграммам систем с полупроводниковыми фазами соединения отделена (при всех температурах и «Диаграмма» [3] и ИС по веществам с особыми давлениях) от области компонентов или твердых акустооптическими, электрооптическими и растворов на их основе. Элементы в соединении не нелинейнооптическими свойствами «Кристалл» [4]. могут быть разделены простым механическим Эти системы ориентированы на специалистов- способом, а лишь химической обработкой, материаловедов в области химии и нагреванием, электрическим током и т. д. материаловедения полупроводников и диэлектриков. Раствор – макроскопически гомогенная смесь Таким образом, в разных информационных двух или более компонентов, состав которой при системах представлены различные характеристики данных внешних условиях может непрерывно (будем далее называть их свойствами) различных меняться в некоторых пределах. веществ и материалов (будем далее называть их Гетерогенная смесь – механическая смесь сущностями). Значения свойств определяются, в разнородных компонентов, в которой при заданных первую очередь, составом неорганических веществ условиях отсутствует химическое взаимодействие. (набором химических элементов, входящим в их Кристаллическая (полиморфная) модификация – состав, и их соотношением, т. е. качественным и форма пространственной организации твердого количественным составом), а также часто вещества. физические свойства зависят от кристаллической Указанные выше химические определения структуры образовавшейся твердой фазы. Поскольку являются в значительной степени нечеткими ИС СНВМ тесно связаны с химией, то сущности в ИС (размытыми). Поэтому иногда трудно провести 226 границу между, например, упорядоченным твердым (или химическая система – качественный состав раствором и соединением. вещества), вещество (количественный состав Необходимо отметить, что описание сущностей и вещества) и модификация. При этом каждый их свойств в разных ИС по свойствам веществ последующий уровень уточняет (конкретизирует) происходит с разной степенью детализации. Так, описание объекта. Следовательно, все оболочки например, в ИС «Диаграмма» описание большинства интегрируемых ИС СНВМ должны оперировать свойств химических сущностей ведется на уровне этими тремя типами объектов при ссылке на химических систем. А в ИС «Кристалл» некоторые химические сущности. При этом стоит учитывать, свойства описаны на уровне химических веществ что если характеризуется определенная (например, температура плавления, растворимость и кристаллическая модификация, то определена также пр.), а некоторые свойства представлены на уровне и химическая система с веществом, модификация конкретных модификаций (например, нелинейно- которого представляется, т.е. если описание оптические коэффициенты, показатели преломления химической сущности ведется на уровне и пр.). модификаций, то все вышележащие уровни Очевидно, что свойства, указанные для (вещество и система) считаются описанными. химических сущностей на уровне систем, Следует заметить, что обратное неверно: при распространяются на все химические вещества этой известном описании химической системы вещество и системы и их модификации. Аналогично свойства, модификация не определены. Однако необходимо заданные на уровне химических веществ, понимать, что при описании сущности на уровне распространяются на все химические модификации системы все описанные свойства автоматически этого вещества. Данные замечания важны в распространяются на все вещества и модификации, контексте формального моделирования предметной образованные в рамках этой системы. Это во многом области напоминает наследование в объектно- ориентированном программировании (ООП). 4 Формальное описание предметной области в терминах теории множеств При консолидации ИС возникают синтаксические и структурные конфликты из-за того, что ИС используют данные, различные по синтаксическому описанию и структуре. В ряде ИС используются реляционные системы управления базами данных (СУБД), в других – иерархические СУБД. В Рисунок 2 Иерархия химических сущностей, последнее время нередко строятся ИС, которые рассматриваемая в контексте интегрированной ИС используют форматы JSON (JavaScript Object СНВМ Notation), XML (eXtensible Markup Language) или какие-либо его известные приложения, например, Воспользуемся теорией множеств для описания RDF для хранения информации. В ИС, разработка сущностей рассматриваемой предметной области, которых велась довольно давно, нередко можно учитывая, что каждый последующий уровень в встретить собственные двоичные форматы для иерархии уточняет (дополняет) описание объекта. хранения и обработки данных. Все это многообразие Обозначим множество химических систем S, моделей данных и схем представления, а также множество химических веществ C, а множество обработки информации приводит к тому, что ИС в кристаллических модификаций M. Тогда химическая том виде, в котором они существуют, зачастую система будет обозначаться s (s∈S), химическое являются несовместимыми с другими программными продуктами. Следует отметить, что вещество обозначим c (c∈C), а кристаллическую изначально при проектировании ИС СНВМ модификацию – m (m∈M). взаимодействие с внешней программной средой не Химическая система s может быть представлена предусматривалось вовсе. как множество химических элементов ei: Разрешить синтаксические и структурные s={e1,e2,…,en}. Химическое вещество c конфликты можно за счет введения общей схемы определяется не только множеством атомов представления информации и обмена данными, (химических элементов), но и их количественным построенной согласно описанию предметной вхождением в состав вещества, раствора или смеси. области. Как уже было отмечено выше, при описании химических сущностей можно использовать три Поэтому вещество c может быть представлено уровня: система, вещество и кристаллическая кортежем (s,f), где s∈S, а f является отображением модификация. Указанная иерархия химических множества атомов (химических элементов), которые сущностей, которая рассматривается в контексте образуют вещество, на множество пар R*×R*, интегрированной ИС, представлена на Рис. 2. задающих соответственно минимальное и Таким образом, в общую схему предметной максимальное вхождения заданного элемента в области закладывается три типа объектов, вещество, раствор или смесь c. Значит, соответствующих химическим сущностям: система f: ei→(R*min,R*max), где R*=R+∪{x}. 227 R+ – множество неотрицательных действительных сущностей, перейдем к краткому изложению чисел, а R* – это множество R+, расширенное предлагаемого представления свойств химических сущностей. Как было отмечено, в интегрируемых ИС элементом x. Элемент x служит для обозначения содержится информация по свойствам химических неизвестного числа, так как при обозначении смесей, сущностей, например, плотность, растворимость, где вхождение компонентов может варьироваться, теплопроводность, ширина запрещенной зоны и т. п. принято использовать x для обозначения При этом для каждой химической сущности в базе неизвестного, например, Fe1-xSex. R*min и R*max – данных (БД) ИС нередко содержится несколько соответственно, минимальная и максимальная записей для описания значения свойства. Это концентрации химического элемента ei в веществе c. обусловлено разными обстоятельствами. Во-первых, В случае, когда концентрация конкретного информация, содержащаяся в БД ИС, может быть химического элемента ei в веществе c фиксирована, взята из различных источников, при этом данные нередко расходятся. Это объясняется различными R*min=R*max. Химическая модификация m может способами измерения, точностью измеряющей быть представлена кортежем (s, f, mod), где s∈S, аппаратуры и т. д. Таким образом, в ИС СНВМ f : ei→(R*min, R*max), а mod – строковое приводится несколько вариантов значения, обозначение кристаллической модификации например, плотности соединений. Во-вторых, вещества, принятое в интегрированной ИС (одно из значения рассматриваемых свойств зачастую зависят значений перечисления (enum) сингоний: {Triclinic, от внешних условий, при которых проводились Monoclinic, Orthorhombic, Tetragonal, Trigonal, измерения. Например, такие параметры, как Hexagonal, Cubic}). растворимость и ширина запрещенной зоны, зависят от температуры. Другими словами, свойства часто 5 Формальное описание предметной являются функциями от различных аргументов, области на объектно-ориентированном число которых, строго говоря, не фиксировано. Это языке означает, что разные свойства могут иметь разную структуру представления данных. Более того, одно и При использовании объектно-ориентированного то же свойство в разных ИС СНВМ может языка достаточно просто могут быть описаны фактически являться функцией от разного числа формализмы предметной области, описанной выше. аргументов, и поэтому невозможно будет В качестве подтверждения данного тезиса предложить универсальный формат представления рассмотрим формализацию с использованием языка заданного свойства для всех ИС. Это во многом C# (свободно доступная версия 6.0 может быть объяснено тем фактом, что при https://github.com/vicdudarev/ChemicalHierarchy). детальном исследовании какого-либо свойства число Не рассматривая детально предложенную таких функциональных зависимостей от внешних реализацию, остановимся кратко на переходе от параметров может возрастать. Следовательно, если системы к веществу – дополнении информации о такое свойство будет подробно рассмотрено в качественном составе количественным описанием. В некоторой ИС СНВМ, которая еще не включена в предлагаемой реализации химическая система (класс общую интегрированную ИС, то при ее включении в ChemicalSystem) описывается в качестве состав интегрированной ИС возникнет проблема одномерного массива типа ChemicalElement[], где согласования форматов представления указанного ChemicalElement – класс для представления свойства. Таким образом, невозможно заранее химического элемента (содержит обозначение предусмотреть все зависимости и заложить их в элемента и его атомный номер). На уровне описания общий формат представления данных для даже количественного состава вводится наследуемый от отдельно взятого конкретного свойства, не говоря о ChemicalSystem класс ChemicalSubstance, представлении свойств в целом. расширяющий описание количественным составом, В связи с вышеуказанным необходим некоторый представленным в виде одномерного массива типа механизм, позволяющий гибко представлять Quantity[], где Quantity – простейший класс, значения свойств в рамках интегрированной ИС. В содержащий пару значений Min и Max. Отметим, что настоящее время существует ряд широко в конструкторах классов выполняются все проверки используемых языков описания произвольных на корректность задаваемых значений. Например, в форматов данных, среди наиболее распространенных конструкторе объектов класса ChemicalSubstance – JSON и XML. С помощью этих языков удобно проверяется, что размер массива количественного описывать различные структуры данных, они описания совпадает с размером массива являются межплатформенными форматами и качественного описания, унаследованного от поддерживаются большинством языков и библиотек ChemicalSystem. Таким образом, развитые [5]. На сегодняшний день представление данных с возможности объектно-ориентированных языков помощью таких языков является фундаментом для позволяют корректно реализовать предлагаемую в обеспечения взаимодействия различных разделе 4 формализацию. программно-аппаратных платформ. В настоящее 6 Представление свойств сущностей время все большее количество информации в современных промышленных системах Рассмотрев формализацию описания химических представляется в форматах JSON и XML. 228 Использование этих форматов является вещество → модификация), на наш взгляд, является целесообразным еще и потому, что они приемлемым компромиссом между сложностью используются в качестве основы функционирования реализации интегрированной ИС и детальностью веб-сервисов. описания информации, представленной в отдельных Для разрешения семантических и структурных интегрируемых ИС СНВМ. конфликтов необходимо стандартизировать форматы представления описанных химических Поддержка сущностей и свойств в рамках интегрированной ИС Работа выполнена при частичной финансовой на языках XML и JSON, т. е. необходимо разработать поддержке РФФИ, проекты 16-07-01028, 17-07-01362 форматы соответствующих документов для и 15-07-00980. представления химических сущностей, их свойств и другой информации. Это позволит обмениваться Литература информацией между звеньями интегрированной ИС. [1] Киселева, Н.Н.: Компьютерное 7 Заключение конструирование неорганических соединений. Использование баз данных и методов Проблема интеграции ИС вообще и ИС СНВМ, в искусственного интеллекта. М.: Наука (2005) частности, чрезвычайно актуальна, поскольку доступ [2] Киселева, Н.Н., Дударев, В.А.: ко всей совокупности данных о веществах позволяет Информационная система по ресурсам рассматривать такой консолидированный неорганической химии и материаловедения. информационный источник в качестве объекта для Вестник Казанского технологического всестороннего анализа и извлечения новых знаний. университета, 17 (19), сс. 356-358 (2014) В неорганическом материаловедении на первом этапе наиболее реалистичными являются попытки [3] Христофоров, Ю.И., Хорбенко, В.В., интеграции, основанные на учете специфики Киселева, Н.Н. и др.: База данных по фазовым предметной области. Предложенное выше диаграммам полупроводниковых систем с формальное описание предметной области – доступом из Интернет. Изв. вузов. Материалы неорганического материаловедения – ни в коем электронной техники, (4), сс. 50-55 (2001) случае не претендует на глубину проработки, [4] Киселева, Н.Н., Прокошев, И.В., Дударев, В.А. которая бы удовлетворила материаловеда. В каждой и др.: Система баз данных по материалам для из многочисленных областей материаловедения электроники в сети Интернет. Неорган. существует множество своих особенностей, учесть материалы, 42 (3), сс. 380-384 (2004) которые в большей или меньшей степени возможно [5] Christophides, I., Koffina, G., Serfiotis, V, Tannen, при построении онтологий этих областей, A.: Integrating XML Data Sources using RDF/S основанных на сложных таксономиях. Schemas: The ICS-FORTH Semantic Web Важно понимать, что сложность реализации ИС Integration Middleware (SWIM), Deutsch Dagstuhl напрямую зависит от сложности формального Seminar: Semantic Interoperability and Integration описания предметной области. В этом смысле (2004) предложенная формальная модель (система → 229