=Paper= {{Paper |id=None |storemode=property |title=Цифровая библиотека научных статей по количественной спектроскопии (Digital Scientific Library of Quantitative Spectroscopy Publications) |pdfUrl=https://ceur-ws.org/Vol-934/paper33.pdf |volume=Vol-934 |dblpUrl=https://dblp.org/rec/conf/rcdl/ApanovichVAPF12 }} ==Цифровая библиотека научных статей по количественной спектроскопии (Digital Scientific Library of Quantitative Spectroscopy Publications) == https://ceur-ws.org/Vol-934/paper33.pdf
              Цифровая библиотека научных статей по
                 количественной спектроскопии

               © З.В. Апанович                           © П.С. Винокуров
                          Институт систем информатики СО РАН
                                      Новосибирск
             apanovich@iis.nsk.su                    vinokurov.pasha@gmail.ru

      © А.Ю.Ахлёстин                  © А.И. Привезенцев                             © А.З.Фазлиев
                               Институт оптики атмосферы СО РАН
                                             Томск
          lexa@iao.ru                                                                  faz@iao.ru


                                                              На практике системы поиска ресурсов в научных
                  Аннотация                                цифровых библиотеках опираются на тексты статей
                                                           на естественном языке. Большая часть поисковых
   В докладе обсуждается подход к постро-
                                                           систем не использует формализованные понятия
   ению цифровой библиотеки научных статей
                                                           предметных областей, содержащиеся в искомых
   для предметной области, в которой фактоло-
                                                           ресурса в явном или неявном виде, по простой
   гическая часть существенно превосходит
                                                           причине: большинство понятий не формализовано.
   понятийную. На примере библиотеки статей
                                                           Задачу поиска с учетом терминологии предметной
   по количественной спектроскопии показано
   как использование модели публикации                     области решают с помощью информационно-
   (статьи), содержащей решение задач пред-                поисковых тезаурусов (см., например, [4]). В таком
   метной области и свойства этого решения,                подходе терминология предметной области формиру-
   приводит к автоматической каталогизации                 ется с учетом лингвистических особенностей языка и
                                                           онтологических отношений терминов предметной
   решений.
                                                           области. Существенной сложностью в формировании
   Особое внимание в работе уделено визуа-                 терминологии является ее изменение во времени. Как
   лизации индивидов онтологии, характери-                 правило, такими изменениями пренебрегают и
   зующих пары источников информации.                      ограничиваются только онтологическими отношени-
   Визуализация позволяет давать качествен-                ями верхнего уровня или, если требуется детализация,
   ную оценку состоятельности решений задач                онтологиями предметной области. Прикладные
   спектроскопии в случае анализа данных                   онтологии [5] характеризуют наиболее динамичную
   большого объема.                                        часть знаний и требуют для их представления
   Авторы благодарны РФФИ (гранты 11-07-00660              описания с большим количеством деталей.
   и 11-07-0038) и РАН (проект РАН 15/10) за                  В докладе рассматривается онтология источников
   финансирование работы.
                                                           информации, связанных с публикациями по коли-
                                                           чественной спектроскопии. В этой предметной
1 Введение                                                 области причиной динамичного изменения термино-
   Систематизация ресурсов библиотечного фонда в           логии является прогресс в измерительной аппаратуре,
библиотеках основана на библиографических записях,         инициирующий создание все более сложных матема-
определяемых тем или иным стандартом [1]. В                тических моделей молекул для изучения новых
большинстве библиотек научные статьи не являются           диапазонов волновых чисел и параметров спектраль-
единицами хранения. В цифровых библиотеках                 ных линий.
научные публикации в журналах, трудах конферен-            При выполнении грантов и проектов авторы
ций или сборниках статей являются единицами                собрали опубликованные решения шести задач в
хранения, и, как правило, в таких библиотеках              количественной спектроскопии для атмосферных
содержатся системы поиска статей, основанные на            молекул (вода [6], диоксид углерода [7], аммиак [8],
библиографических записях, относящихся к статьям.          метан [9], сероводород [10] и т.д.). Части
В работе [2, 3] описаны функциональные требования          публикаций, содержащие решения одной из шести
к библиотечным записям.                                    задач количественной спектроскопии, были выделе-
                                                           ны и загружены в информационные системы,
 Труды 14-й Всероссийской научной конференции              каждая из которых включала в себя молекулы
 «Электронные библиотеки: перспективные методы и           определенной симметрии. Созданные системы
 технологии, электронные коллекции» — RCDL-2012,           содержат все опубликованные решения задач в
 Переславль-Залесский, Россия, 15-18 октября 2012 г.       рамках моделей данных, описанных в работе [11].



                                                     205
                                                                года по настоящее время. Выбранная модель
                                                                предметной области [13] содержит решения шести
                                                                задач спектроскопии, имеющих определяющее
                                                                значение для прикладных предметных областей
                                                                таких как астрономия, оптика атмосферы,
                                                                спектроскопия и т.д.
                                                                   Основой для построения модели является
                                                                допущение о том, что публикация содержит факты,
                                                                являющиеся решениями ряда задач спектроскопии.
                                                                Эти факты разделены на две группы. К первой
Рис.1 Модель публикации. а) – оригинал публикации, б) –         группе относятся такие решения задач, которые
решение задачи спектроскопии и в) – свойства решения            можно отнести к одной молекуле и одному методу
задачи спектроскопии.                                           решения. Ко второй группе относятся все остав-
                                                                шиеся решения.
   Каждое такое решение является частью
публикации, а в количественной спектроскопии
                                                                   Извлеченные из публикаций факты являются
основной частью, так как содержит наибольшее
                                                                частями и представляются в цифровой библиотеке в
число типизованных фактов. В простом случае
                                                                форме первичных или составных источников дан-
выбирая модель публикации или ее части, можно
                                                                ных. С каждым источником данных связывается
ограничиться решением задач спектроскопии, что
                                                                источник информации, содержащий свойства соот-
соответствует публикации таких решений на сайтах
                                                                ветствующего решения задачи спектроскопии. На
и FTP. База данных по молекуле диоксида углерода,
                                                                рис.1 схематически показано представление модели
описанная в предыдущей части статьи, и содер-
                                                                в виде двух частей с помощью интерфейсов
жащая опубликованные решения задач, может быть
                                                                представления данных и информации.
рассмотрена как модель электронной библиотеки.
Решение задачи, дополненное свойствами, может                      Для формирования источника данных использу-
служить более точной формальной моделью                         ется реляционная модель данных, а источника
публикации. В спектроскопии такой набор свойств                 информации – язык онтологий OWL DL. Представ-
был предложен в [12].                                           ление источников информации в виде индивидов
                                                                онтологии является основой для автоматической
   Ниже рассмотрена модель публикации для пред-
                                                                каталогизации решений задач спектроскопии.
метной области «Количественная спектроскопия».
Она может применяться и для других предметных                      Рис.1 б) демонстрирует отображение данных
областей в которых фактологическая часть значи-                 соответствующей публикации в информационной
тельно превышает понятийную. Эта модель                         системе, а рис.1 в) – представление автоматически
позволяет автоматизировать процесс каталогизации                сгенерированных в ИС свойств этого решения.
научных статей и их частей. Рассмотрен пример
библиотеки по количественной спектроскопии.                     2.1 Независимые части публикации (первичные
Наконец, представлены примеры визуализации                      источники данных)
индивидов, характеризующих индивидуальные
свойства решений задач спектроскопии и парных                      Разнообразие молекул, для которых решались
отношений между источниками данных.                             задачи, выделенные в работе [11], и методов,
                                                                которыми они решались, достаточно большое. По
   Целью выполненной работы являлось построе-
                                                                этой причине в одной публикации могут быть
ние цифровой библиотеки, в рамках которой возмо-
                                                                приведены решения нескольких задач разными
жен дифференцированный поиск достоверных
                                                                методами и для разных молекул или их изотопо-
информационных ресурсов или недостоверных
                                                                логов. При систематизации данных, извлеченных из
ресурсов в предметной области по принятым в ней
                                                                публикаций, такое смешение создает много проб-
критериям. Для достижения цели построена модель
                                                                лем. По этой причине в работе используется
публикации, выбраны языки спецификации данных,
                                                                информационный объект, представляющий ориги-
информации и знаний, созданы источники данных и
                                                                нальные данные публикации, относящиеся к одной
информации. Показано, что анализ достоверности
                                                                молекуле, одной задаче спектроскопии и одному
значительного количества источников данных
                                                                методу решения.
существенно проще при графическом представле-
нии парных отношений.                                              Определение 1. Все части опубликованного
                                                                решения задачи количественной спектроскопии,
2 Модель публикации                                             дополненные названием молекулы, библиографи-
                                                                ческой ссылкой и названием метода решения задачи
    Создание модели публикации для цифровой                     (или ссылкой на описание метода) называются
библиотеки научных статей связано с задачей                     первичным источником данных.
автоматической каталогизации информационных                        Мы предполагаем, что пустые решения не
ресурсов по количественной спектроскопии. Имею-                 публикуются. С другой стороны решения задач
щаяся у авторов коллекция статей уже превышает                  могут содержать данные измерений, которые со
8000 публикаций, относящихся к периоду с 1926



                                                          206
временем устаревают или неверные решения.
Источник данных, содержание которого целиком
отклонено экспертами будем называть ничтожным.
Количество таких источников в современной
спектроскопии незначительно.
   Формализованный первичный источник данных
содержит решение задачи и обладает свойствами
[14] (isSolutionOf, hasMethod, isRelatedToSubstance и
hasReference), имеющими кардинальность равную
1. Важной характеристикой источника данных
является независимость значений этих свойств от
времени. Ключевым свойством в определении                     Рис.2 Соотношения между публикациями, источниками
источника данных является hasReference. Значение              данных и источниками информации.
этого свойства должно быть определено явно и                  свойства, значения которых вычисляются автомати-
являться публикацией.                                         чески. Как правило, источник информации включает
   В количественной спектроскопии, наряду с                   в себя некоторые высказывания из публикации,
журналами, монографиями, отчетами и трудами                   содержащей источник данных, который этот
конференций, в последнее десятилетие появились                источник информации описывает. Большая часть
публикации решений задач в Вебе. Необходимость                источника информации характеризует знания,
публикации в Вебе обусловлена значительными их                содержащиеся в публикации в неявном виде.
объемами (превышающими сотни Гб.) Примерами
                                                                 Перечень дополнительных свойств определяется
таких ресурсов являются спектральные данные,
                                                              исследователем, исходя из информационных задач,
размещенные в Европе [15,16], России [17], США
                                                              которые ему необходимо решать. В нашей работе
[18,19] и т.д.
                                                              таких задач две. Это задача семантического поиска
   Первичные источники данных, относящиеся к                  и задача автоматического построения экспертного
одной публикации, не имеют общих данных. Этот                 массива данных. Заметим, что первичные источники
факт схематично представлен на рис.2а, где овалом             информации, относящиеся к одной публикации, не
обозначена публикация, а треугольниками – источ-              содержат идентичных высказываний. Различие
ники данных. В публикации по количественной                   между публикацией и первичным источником
спектроскопии может содержаться не один первич-               информации может быть существенно меньшим по
ный источник данных.                                          сравнению с различием между публикацией и
                                                              первичным источником данных. Различие обуслов-
2.2 Составные источники данных (агрегации
                                                              лено теми дополнительными свойствами решения
первичных данных в статьях)                                   задачи в публикации, которые вошли в определение
   Определение 2. Информационный объект, обла-                того или иного источника информации. Например,
дающий базовыми свойствами первичного источ-                  такими дополнительными свойствами могут быть
ника данных, кардинальность любого из которых                 описание достоверности решения задачи, описание
отличается от единицы, называется составным                   стандартных отклонений исходного источника
источником данных.                                            данных от других источников данных и т.д.. Кроме
                                                              того, высказывания, содержащиеся в первичном
   Примером составного источника данных явля-
                                                              источнике информации, могут не содержаться в
ется любой экспертный массив спектральных
                                                              публикации. Это утверждение демонстрируется на
данных (например, Hitran [19]).
                                                              рис.2b, на котором шестиугольником обозначен
2.3 Источник информации                                       источник информации.
                                                                 В данной работе изучаются конкретные
   Первичный источник можно наделять допол-                   источники информации, всегда связанные с источ-
нительными свойствами. Перечень и число этих                  ником данных (другими словами кардинальность
свойств зависит от информационных задач, для                  свойства hasDataSource, доменом которого является
решения которых используются такие свойства.                  класс источников информации, равна 1).
Источник данных с дополнительными свойствами
назовем источником информации.                                   На рис.2с показан случай, когда источник инфор-
                                                              мации содержит высказывания из другой публика-
   Определение 3. Первичный источник данных,                  ции.
наделенный дополнительными свойствами, называ-
ется первичным источником информации извлечен-
ной из публикации.                                            3 Цифровая библиотека научных статей
Источник информации представляет собой набор                     Накопление и распространение опубликованных
свойств и их значений, относящихся к источнику                научных статей в значительной мере ограничено
                                                              законодательством разных стран. Это обстоятель-
данных. Для ряда информационных задач, напри-
                                                              ство приводит к тому, что для значительной части
мер, задачи поиска достоверных решений задач                  исследователей научные факты недоступны. С
количественной спектроскопии, можно выбрать                   появлением сети Интернет проблема доступа к



                                                        207
опубликованным данным постепенно решается. Это                 операционной системой, доступной пользова-
связано с тем, что для большинства исследователей              телю);
интерес представляют фактологические части пуб-               использование данных для того, чтобы при-
ликаций, например, результаты измерений в                      обрести или получить доступ к описанному
естественных науках. Подобные наборы фактов все                объекту (например, для размещения заказа на
чаще накапливаются в базах данных, доступных в                 покупку издания, передачи запроса копию
сети Интернет.                                                 книги из библиотечной коллекции или чтобы
   Однако, в большинстве случаев, целью сбора                  получить онлайновый доступ к электронному
данных является создание экспертных массивов.                  документу, хранящемуся в удаленном компью-
Такой подход характерен для исследователей,                    тере)».
работающих в прикладных, по отношению к                       Подобные требования можно распространить на
фундаментальным научным дисциплинам, областях.             источники информации, введенные выше. Они в
   Библиотечная деятельность ориентирована на              предложенной модели публикации играют роль
организацию всей содержащейся в статьях инфор-             библиографической записи, содержа в себе значи-
мации в формах, удобных для исследователя. Как             тельную часть свойств, присущих ей. Однако
правило, эта деятельность ограничена поддержкой            источники информации также содержат то, что не
систем поиска информации.                                  присуще библиографическим записям.
   На наш взгляд цифровые научные библиотеки                  В первую очередь речь идет о свойствах ориен-
могут сосредоточиться на автоматической интегра-           тированных на описание качества данных, раз-
ции цифровой информации, связанной с научными              мещенных в статьях и о корреляциях данных,
публикациями. Такая интеграция должна быть тесно           извлеченных из разных публикаций.
связанной с решением задачи проверки непротиво-
речивости интегрируемой информации.                        3.2 Каталоги – таксономии классов онтологии
                                                           информационных ресурсов предметной области
   Решение задачи интеграции требует переосмыс-
ления используемых на практике структур библио-               Исследование функционального назначения
графической записи, а, следовательно, и уточнения          библиографической записи предназначалось для
функциональных требований к ним.                           облегчения работы при автоматизации процесса
                                                           каталогизации информационных ресурсов.
3.1 Библиографическое описание – источник                     С другой стороны, возникший почти на
информации                                                 десятилетие позже подход Semantic Web ориенти-
                                                           рован на более широкий круг задач систематизации
    В начале 90-х в Швеции состоялся семинар по            ресурсов в глобальной информационной системе
библиографическим записям. Одним из результатов            (Web). Более того, при реализации подхода были
семинара была резолюция об определении функцио-            созданы соответствующие средства для представ-
нальных требований к библиографическим записям.            ления ресурсов с разной степенью детализации. Эта
Созданная позже модель такой записи была попыт-            детализация позволяет строить в автоматическом
кой формирования логической основы понимания               режиме таксономии классов, а машина вывода
правил библиографического описания.                        позволяет отслеживать наследственность и противо-
   В документе функциональные требования к                 речия, возникающие при создании таких таксоно-
записям [2] определены с точки зрения следующих            мий.
основополагающих задач пользователей при поиске               Выделенные концепты предметной области в
и использовании библиотечных каталогов:                    фактологической части статей, включенные в
   «использование данных для того, чтобы найти            модель публикации, позволяют строить их онтоло-
    материалы, которые соответствуют заявленным            гическое описание. Эти описания наряду с индиви-
    поисковым критериям (например, в контексте             дами содержат понятийную часть, представляемую
    поиска всех документов на данную тему или              таксономиями классов.
    пластинки, выпущенной под конкретным                      В рамках языка онтологий OWL DL можно стро-
    заглавием);                                            ить классы, накладывая ограничения на свойства.
   использование полученных данных для того,              Несложно построить в автоматическом режиме все
    чтобы идентифицировать объект (например,               классы по ограничениям на объектные свойства, т.к.
    для подтверждения соответствия документа,              число индивидов ограничено.
    зарегистрированного в записи, документу, кото-            На рис. 3 показан пример визуализации части
    рый искал пользователь, или для обнаружения            таксономии классов, характеризующий типы задач
    различий между двумя текстами или пластин-             спектроскопии, решения которых описываются
    ками с одинаковым заглавием);                          прикладной онтологией, и индивидов, связанных с
   использование данных, чтобы выбрать объект,            этими классами.
    который отвечает потребностям пользователя
    (например, выбрать текст на языке, который
    пользователь знает или вариант компьютерной
    программы, совместимой с компьютером и




                                                     208
4 Пример цифровой библиотеки. ИВС                         молекул. Отметим, что коллекция предназначена
                                                          для исследователей, занимающихся атмосферной
W@DIS                                                     спектроскопией.
   Примером цифровой библиотеки, использующей                Оцифрованные факты из публикаций импорти-
модель публикации, описанную выше, является               рованы в информационную систему и представляют
информационная система W@DIS. Эта система                 собой разные типы источников данных. При
основана на коллекции публикаций по количест-             импорте данных [20] в систему для каждого
венной спектроскопии. В настоящее время в                 источника данных автоматически создается источ-
коллекцию входит около восьми тысяч публикаций.           ник информации [14], содержащий описание
Большая часть этих публикаций не может быть               свойств импортированных решений задач спектро-
выложена в свободный доступ.                              скопии.
   Для решения ряда задач предметных областей,               Поскольку каждая конкретная публикация
связанных со спектроскопией, пользователям необ-          представляется в виде набора источников данных и
ходима только часть фактов, содержащихся в публи-         частей источников информации, относящихся к
кациях этой коллекции. Эти факты относятся к              каждому из источников данных, то каталогизацию
решениям шести задач спектроскопии, связанных с           публикаций можно заменить более детализи-
нахождением параметров состояний и переходов              рованной каталогизацией источников информации.




Рис.3 Представление таксономии классов и относящихся к ним источников информации

4.1 Визуализация индивидов онтологии                      ции индивидов обеих групп. Ниже подобная
                                                          визуализация обсуждается на примерах.
   Источники информации в ИС представлены с                  Визуализация отдельного источника информа-
помощью языка онтологий OWL DL. Их можно                  ции (здесь рассмотрена только визуализация
разделить на две группы. К группе независимых             свойств решений задач) позволяет оценить уровень
источников отнести те индивиды, которые                   детализации и информационные аспекты анализа
характеризуют свойства отдельного источника               данных, характеризуемых этими свойствами. Преж-
данных, а к другой группе, отнести индивиды,              де всего это относится к грубым ошибкам, относя-
описывающие свойства пары источников данных.              щимся к несоблюдению правил отбора.
   Для работы исследователя с этими индивидами               Визуализация индивида, описывающего свойства
необходимы инструментальные средства визуализа-           пары источников информации, предоставляет более
                                                          детальную информацию о качестве анализируемых




                                                    209
данных. Она позволяет определять рассогласование             Проиллюстрируем это на примере. На рис. 4
между данными, полученными разными группами               прямоугольники обозначают индивиды, а стрелки –
исследователей по ряду критериев (максимально             свойства. Внутри каждого прямоугольника выписа-
допустимая разница значений физических величин,           ны свойства и значения свойств, относящихся к
среднеквадратическое   отклонение,    нарушение           данному индивиду. Заметим, что индивид А0
порядка следования сравниваемых значений). В              является элементом класса T6-IS, А1 – элементом
количественной спектроскопии необходимость                класса OutputData_MD, А2 – элементом класса
визуализации отношений между источниками                  TransitionsQuantumNumbers_MD, А3 – элементом
информации обусловлена огромным количеством               класса EinsteinCoefficient_MD, А4 -   элементом
значений свойств, используемых при анализе                класса Wavenumbers_MD, В1 В2 – элементами
сравниваемых данных.                                      класса BandQuantumNumbersList.
 4.2. Независимые источники информации                       Семиугольником выделено свойство (число
                                                          переходов в источнике информации, отклоненных
   Демонстрируемые ниже примеры требуют                   экспертами), значение которого может меняться со
детального описания онтологии, которое приведено          временем. Треугольники описывают свойства,
в работе [14]. Опуская детали, сосредоточимся на          характерные только для исследуемой молекулы,
представлении структуры индивида, характери-              применяемой к ней нотации и процесса, в котором
зующего индивидуальные свойства описываемого              участвует молекула.
источника данных и представляющего источник                  Индивид, представленный на рис.4, является
информации. Заметим, что число узлов и листьев            библиографической записью, относящейся к реше-
остается неизменным при представлении такого              нию задачи о параметрах спектральных линий,
индивида в виде дерева.                                   извлеченному из статьи [21].




Рис.4 Представление индивида, характеризующего свойства решения обратной задачи по определению параметров
контура спектральной линии

4.3  Источники информации, относящиеся к                  такого источника информации для исследователя
парам источников данных                                   необходима по ряду причин. Во-первых, в спектро-
                                                          скопии принято сравнивать результаты эксперимен-
   Представление источника информации, характе-
                                                          тов, выполненных разными группами. Во-вторых,
ризующего свойства всех пар, включающих выбран-
                                                          таких парных отношений может быть нескольких
ный источник данных со всеми другими источни-
                                                          типов. В-третьих, число источников данных в ИС
ками данных, значительно сложнее. Визуализация
                                                          изменяется во времени (появляются новые работы



                                                    210
по измерению параметров состояний и переходов).            номером в базе данных, годом публикации и
В четвертых, увеличивается точность измерений,             первыми буквами фамилий авторов. Цвет вершины
следовательно, необходим пересмотр количествен-            соответствует типу задачи, решение которой
ных значений критериев, определяющих достовер-             описано в данной публикации, а радиус вершины –
ность фактов. В-пятых, число фактов при сравнении          ее степени, то есть количеству ребер, связывающих
источников данных может составлять десятки                 эту публикацию с другими публикациями. Посколь-
тысяч, что заставляет представлять их в                    ку разброс в степенях вершин может быть весьма
графическом виде. Пр           едставление этой            велик, для вычисления радиуса вершины исполь-
информации в текстовом виде громоздко и                    зуется логарифмическая зависимость от ее степени.
позволяет увидеть только локальную картину.                  Помимо элемента ds:RMSPair, пару публикаций
   С другой стороны,        методы визуализации            может описывать один элемент ds:BandRMSPair,
информации являются общепризнанным инструмен-              имеющий те же самые идентификаторы для
том представления глобального взгляда на абстракт-         публикаций и сообщающий, сколько общих
ные данные большого объема.                                «колебательно-вращательных         полос»        ==
   Для того чтобы представить реальную картину,            ds:RMSVibrationalBand имеется в указанных двух
дающую представление обо всех публикациях,                 публикациях.
принадлежащих данному набору и о связях между                  Каждая      общая     колебательная      полоса
этими публикациями, необходимо построить и                 описывается элементом ds:RMSVibrationalBand, в
визуализировать графовую модель имеющихся                  котором кроме авторов информации о парных
данных.                                                    публикациях есть идентификатор полосы, состоя-
   С этой целью генерировались графы, вершинами            щий из шести чисел (например _1_0_0_0_0_0_ ),
которых являются отдельные публикации, а                   квантовые числа.
ребрами свойства парных отношений, а затем                     В описании каждой общей полосы
осуществлялась визуализация этих графов. Прежде                           ds:RMSVibrationalBand
всего, следует отметить, что хотя, количество вер-         важны два свойства:
шин в этих графах не очень велико, эти графы                         ds:hasMaxDifferenceValueOfBand
имеют весьма высокую плотность. Плотность графа            (максимальная разность значений) и
определяется как отношение количества ребер в                        ds:hasRMSDeviationValueOfBand
данном графе, к количеству ребер полного графа с           (значение отклонения полосы)
тем же множеством вершин. Известно, что основной
                                                               Если hasMaxDifferenceValueOfBand > 0.05, или
проблемой при визуализации таких графов является
                                                           ds:hasRMSDeviationValueOfBand > 0.1, это может
большое количество пересечений ребер, которое
                                                           указывать на ошибку в данных.
слабо зависит от выбранного алгоритма визуали-
зации. То есть независимо от алгоритма визуали-                При этом, оценка максимальной разницы
зации, количество пересечений ребер, а значит, и           значений hasMaxDifferenceValueOfBand является
визуальная загруженность изображения велики.               более грубой, оценка максимального отклонения -
Известны подходы, когда для визуализации таких             более тонкой. Поэтому строится как минимум два
графов используются алгоритмы типа LinLog [22],            разных изображения графа, одно изображение
при котором сильно связанные вершины распола-              соответствует «плохим» максимальным разностям, а
гаются близко друг к другу, а слабо связанные              второе – «плохим» отклонениям.
вершины – далеко. Ребра графа при этом подходе                 Так же как в случае с радиусами вершин, раз-
вообще не изображаются, чтобы не загромождать              брос между количеством колебательно-вращатель-
изображение. В нашем случае такое решение абсо-            ных полос, общих для двух публикаций, тоже
лютно непригодно, потому что основная информа-             весьма велик и может меняться в диапазоне от
ция, которая интересует пользователя – это именно          одной полосы до миллиона. Понятно, что ширина
ребра. Пользователь заинтересован увидеть с                ребра должна каким-то образом зависеть от этого
первого взгляда, какое ребро (то есть, характерис-         количества полос, но пропорциональная зависи-
тика парного отношения) представляет собой                 мость при таком большом разбросе не совсем
достоверную информацию, то есть значения,                  уместна, изображение и так загромождено большим
соответствующие этой паре для колебательно-                количеством ребер. Поэтому все множество ребер
вращательных полос, а также увидеть, насколько             сортируется по количеству колебательно-враща-
эти значения совпадают (или не совпадают). По              тельных полос и вводится шкала, состоящая из пяти
этой же причине для визуализации данных этого              градаций, и каждое ребро попадает в один из
типа не подходит и метод создания жгутов ребер             классов. Ребру при визуализации приписывается
[23]. Поэтому основное внимание при выборе                 ширина, соответствующая его классу. Таким обра-
способа визуализации уделялось именно информа-             зом, ширина ребра соответствует количеству общих
ции, связанной с количеством «хороших» или                 колебательно-вращательных полос для одной
«плохих» колебательно-вращательных полос.                  RMSPair.
   Как уже было сказано, в качестве вершин графа               Помимо общего количества колебательно-
рассматриваются отдельные публикации. На                   вращательных      полос,    изображение     должно
изображении каждая публикация идентифицируется             показывать, сколько полос от общего количества




                                                     211
имеют либо «плохую» разность, либо «плохое»                  Что касается собственно алгоритма визуали-
отклонение. Для демонстрации этого свойства               зации, нами была сделана модификация алгоритма
используется градиентная раскраска каждого ребра.         Фрюхтермана-Рейнгольда. Дело в том, что силовые
   Если «плохих» ребер нет вообще, то ребро               алгоритмы такие как алгоритм Фрюхтерман-
разбивается на три части. В центре прозрачная             Рейнгольда [24] или Камада–Кавая [25] не
часть, по краям – серая. Прозрачная часть исполь-         применим к размещению вершин высокой степени в
зуется для уменьшения визуальной загруженности            центре изображения. Для графов, соответствующих
изображения.                                              данной проблеме, такое решение непригодно,
                                                          поскольку центральная часть и так загружена
   Если есть «плохие» ребра, каждое такое ребро
                                                          большим количеством ребер. Поэтому наша
разбивается на 5 частей, центральная часть – про-
                                                          модификация алгоритма «выталкивает» вершины
зрачная, две крайние, самые ближние к инцидент-
                                                          высокой степени на периферию изображения,
ным вершинам части, соответствуют «плохим»
                                                          позволяя проследить ребра, инцидентные этим
полосам. Ближе к центру расположены две сим-
                                                          вершинам.
метричные серые части, соответствующие «хоро-
шим» полосам. Длина красной части пропорции-
ональна количеству «плохих» полос.




Рис.5 Графическое представление парных отношений (среднеквадратическое отклонение между отдельными
колебательными полосами) между источниками информации на примере первичных источников данных, содержащих
решение обратной задачи T6 [26] для молекулы воды

   Остановимся на интерпретации графа изобра-             неудовлетворительному значению отклонения, а
женного на рис.5. Узлами графа являются источни-          серый цвет – удовлетворительному значению. У
ки информации. Цвет ребер соответствует одному            сравниваемых источников информации могут содер-
из двух вариантов: красный цвет соответствует             жаться несколько отдельных идентичных колеба-



                                                    212
тельных полос. В таком случае ширина линии,                       Н. Каспарова, Н. Ю. Кулыгина. – Москва : РГБ,
изображающей ребро, становится по величине                        2006. – [150] с.
пропорциональной числу идентичных колебатель-                 [3] Functional Requirements for Bibliographic
ных полос, а ребро раскрашивается в соответству-                  Records, UBCIM Publications – New Series Vol
ющие цвета пропорционально числу удовлетвори-                     19, Final Report, 1998.
тельных или неудовлетворительных значений.                        www.ifla.org/files/cataloguing/frbr/frbr.pdf
   Как следует из цветовой гаммы графа,                       [4] Лукашевич Н.В., Тезаурусы в задачах
представленного на рис.5 в публикациях включен-                   информационного поиска, М.: Из-во МГУ,
ных в ИВС существует значительное число перехо-                   2011, 512С.
дов молекулы воды среднеквадратические значения               [5] Oberle, D. Semantic management of middleware,
которых являются неудовлетворительными.                           Berlin: Springer, 2006. 268 pp.
                                                              [6] Privezentsev A., Fazliev A., Tsarkov D.,
4 Заключение                                                      Tennyson J. Computed Knowledge Base for
   В работе рассмотрен пример построения цифро-                   Description of Information Resources of Water
вой научной библиотеки публикаций. Основное                       Spectroscopy, Proc. of the 7th International
внимание было уделено описанию модели публика-                    Workshop on OWL: Experiences and Directions
ции в такой библиотеке. Предложено создавать                      (OWLED 2010), San Francisco, California, USA,
модели публикаций, содержащих количественную                      June 21-22, 2010. Edited by Evren Sirin, Kendall
информацию, состоящими из двух частей: результа-                  Clark, CEUR-WS Proc. Vol-614, [Электронный
тов решений задач и свойств этих решений. Пред-                   ресурс] – http://ceur-ws.org/Vol-614/
ставление свойств решений в форме индивидов                       owled2010_submission_6.pdf
прикладной онтологии позволяет автоматически                  [7] Lavrentiev N.A., Privesentsev A.I., Fazliev A.Z.,
строить детализированные таксономии классов,                      Filippov N.N. Complete set of published spectral
главным образом по ограничениям на свойства                       data on CO2 Molecule, Abstracts of the 22-nd
онтологии. Существенным является то, что при                      Colloquium on High Resolution Molecular
построении таксономий пустые классы в них не                      Spectroscopy, 2011, p.353.
включаются.                                                   [8] Voronina S.S., Yurchenko S.N., Fazliev
   Согласование фактологических частей публика-                   A.Z.Systematization of the published
ций осуществляется по выбранному набору свойств                   spectroscopic parameters of ammonia, Abstracts
решений задач предметной области. В количествен-                  of the 22-nd Colloquium on High Resolution
ной спектроскопии такие свойства связаны характе-                 Molecular Spectroscopy, 2011, p.163.
ристиками качества данных: удовлетворение прави-              [9] Козодоев А.В., Вельмужова И.А., Сенников
лам отбора, согласование значений данных в                        П.Г., Фазлиев А.З., Филиппов Н.Н.,
пределах ошибок измерений, согласование порядка                   Григорович Н.М. Систематизация
следования значений идентифицированных физи-                      опубликованных параметров спектральных
ческих величин. Рассмотрены примеры визуализа-                    линий молекул метана, силана и германа / //
ции всех индивидов характеризующих парные отно-                   Сборник тезисов Международного симпозиума
шения между источниками информации.                               «Атмосферная радиация и динамика»
   Наряду с автоматической обработкой данных                      (МСАРД – 2011) Санкт – Петербург, с.102-103.
важным является принятие исследователем решения              [10] Половцева Е.Р., Лаврентьев Н.А., Воронина
о качестве данных исходя их просмотра                             С.С., Науменко О.В., Фазлиев А.З.
визуализации свойств, характеризующих свойства                    Информационная система для решения задач
данных.                                                           молекулярной спектроскопии. 5.
   Заметим, что в рамках проекта РФФИ частью                      Колебательно-вращательные переходы и
авторов создаются цифровые библиотеки публика-                    уровни энергии молекулы H2S, Оптика атм. и
ций по атмосферной химии и радиации [26].                         океана. 2011, Т.24, №10, с. 898-905.
Поскольку эти предметные области содержат                    [11] Лаврентьев Н.А., Привезенцев А.И., Фазлиев
значительное число опубликованных данных созда-                   А.З. Базы знаний для описания
ваемые библиотеки создаются с помощью описан-                     информационных ресурсов в молекулярной
ной модели публикации, но для решений задач                       спектроскопии 2. Модель данных в
соответствующих предметных областей.                              количественной спектроскопии, Электронные
                                                                  библиотеки, 2011, т. 14, в.2.
Литература                                                        http://elbib.ru/index.phtml?page=elbib/rus/journal/
                                                                  2011/part2
 [1] MARC 21 Format for Bibliographic Data.
     http://www.loc.gov/marc/bibliographic                   [12] Козодоев А.В., Привезенцев А.И. Фазлиев А.З.
                                                                  Аннотирование информационных ресурсов в
 [2] Функциональные требования к библиографии-
                                                                  распределенной информационной системе
     ческим записям : окончат. отчет / Рос. библ.
                                                                  "Молекулярная спектроскопия", Электронные
     ассоц., Рос. гос. б-ка ; пер. с англ. [В. В.
                                                                  библиотеки, 2006, т. 9, в.3.
     Арефьев] ; науч. ред. пер.: Т. А. Бахтурина, Н.




                                                       213
     http://www.elbib.ru/index.phtml?page=elbib/rus/j                 strengths of 16O12C18O, 18O12C18O and 17O12C18O
     ournal/2006/ part3/KPF                                           between 2200 and 7000 cm-1, J. Quant. Spectrosc.
[13] Быков А.Д., Науменко О.Б., Синица Л.Н.,                          & Rad.Transfer., 2007, Volume 243, Issue 1,
     Родимова О.Б., Творогов С.Д., Тонков М.В.,                       Pages 43-61
     Фазлиев А.З., Филиппов Н.Н., Информацион-                   [22] З.В. Апанович, П.С. Винокуров, Т.А. Кислици-
     ные аспекты молекулярной спектроскопии,                          на. Методы и средства визуализации информа-
     Томск, Из-во ИОА СО РАН, 2008, 360 c.                            ционного наполнения больших научных порта-
[14] Привезенцев А.И., Царьков Д.В., Фазлиев А.З.,                    лов , Вестник НГУ Серия: Информационные
     Базы знаний для описания информационных                          технологии. 2011— том 9, выпуск 3, с. 5-14.
     ресурсов в молекулярной спектроскопии. 3.                   [23] A. Noack. Energy Models for Graph Cluste-
     Формирование базовой и прикладной онто-                          ring, Journal of Graph          Algorithms and
     логии, Электронные библиотеки, 2012, т. 15,                      Applications, 11(2):453-480, 2007.
     в.2.                                                        [24] Fruchterman T. M. J., Reingold E. M. Graph
     http://elbib.ru/index.phtml?page=elbib/rus/journal/              Drawing by Force-Directed Placement, Software -
     2012/part2                                                       Practice and Experience, 1991, Vol. 21, N11, P.
[15] Dubernet M.L., Boudon V., Culhane L. et al., Vir-                1129-1164.
     tual atomic and molecular data centre, J. Quant.            [25] Kamada, T., Kawai, S. An algorithm for drawing
     Spectrosc. & Rad. Transfer. 2010. v. 111, No 15.                 general undirected graphs, Information Processing
     p. 2151-2159.                                                    Letters,Vol. 31, 1989, pp. 7-15.
[16] Jacquinet-Husson N., Scott N.A., Chedin A. et al.,          [26] К. М. Фирсов, В.А. Фролькис, Ю. В. Воронина,
     The GEISA spectroscopic database: current and                    А.И. Козодоев, А. З. Фазлиев. Распределенная
     future archive for earth and planetary atmosphere                информационная система для атмосферных
     studies, J. Quant. Spectrosc. & Rad. Transfer.                   наук, Материалы 15 Всероссийской конферен-
     2008. v. 109. No 6. p. 1043-1059.                                ции «Интернет и современное общество»,
[17] Tashkun S.A. and Perevalov V.I. CDSD-4000:                       СПб., 10-12 октября 2012.
     High-Temperature Spectroscopic CO2, The 11th
     HITRAN Database Conference, June 16 – June                     Digital scientific library of quantitative
     18, 2010, Cambridge, 2010, p. 10.                                     spectroscopy publications
[18] Toth R.A., Brown L.R., Miller C.E., Devi V.
     Malathy and Benner D.Chris. Spectroscopic data-                       Zinaida Apanovich, Pavel Vinokurov,
     base of CO2 line parameters: 4300–7000 cm-1, J.                     Alexey Akhlyostin, Alexey Privezentsev,
     Quant. Spectrosc. & Rad. Transfer.2008, v. 109,                                 Alexander Fazliev
     No 6, p. 906-921.                                           A method of developing a digital library of scientific
[19] Rothman L.S., Gordon I.E., Barbe A. et al. The              articles for the domain in which the factological part is
     HITRAN 2008 molecular spectroscopic database,               significantly bigger than the notional one is being
     J. Quant. Spectrosc. & Rad.Transfer. 2009. v. 110,          discussed in the report. Using the example of a
     No 9. p. 533-572.                                           library of articles on quantitative spectroscopy we
[20] Ахлёстин А.Ю., Козодоев А.В., Лаврентьев                    demonstrate how the use of a publication (article) model
     Н.А., Привезенцев А.И., Фазлиев А.З. Базы                   containing domain problems solutions and their
     знаний для описания информационных ресур-                   properties leads to automated cataloguing of solutions.
     сов в молекулярной спектроскопии, 4.                        Visualization of ontology individuals characterizing the
     Программное обеспечение // Электронные                      pairs of information sources was of significant
     библиотеки, 2012, т. 15, в.3.                               importance in this work. Visualization allows one to get
     http://elbib.ru/index.phtml?page=elbib/rus/journal/         a qualitative estimation of consistency of spectroscopy
     2012/part3/AKLPF                                            problems' solutions in the case of analyzing huge
[21] R.A. Toth, C.E. Miller, L.R. Brown, V. Malathy              amount of data.
     Devi and D. Chris Benner, Line positions and




                                                           214