Средства визуального анализа информационного
         наполнения порталов, входящих в облако
                    Linked Open Data♣
                                        1                       1                   2
                      © З.В. Апанович , П.С. Винокуров , Т.А. Кислицина
                             1
                             Институт систем информатики СО РАН
                       2
                           Новосибирский государственный университет
                                     apanovich@iis.nsk.su


                 Аннотация                              которых расположены научные организации - вся
                                                        эта информация становится доступной в rdf/xml
   Благодаря быстрому развитию направления              формате. Важно также отметить, что эта
   Semantic Web в Интернете становятся                  информация эволюционирует во времени и
   доступными         большие        объемы             стремительно       увеличивается     в    объеме.
   структурированной            информации,             Исследование и анализ этих данных необходимы
   размещенной     на   научных    порталах,            для оптимизации процессов управления научными
   посвященных       различным      научным             исследованиями. Для обеспечения понимания этих
   направлениям. Наиболее       достоверным             стремительно расширяющихся данных нужны
   источником информации, посвященной                   новые инструменты.
   любому научному направлению, являются                   Одним из таких общепризнанных инструментов
   собственно      научные       публикации,            является визуализация информации с применением
   составляющие основное наполнение таких               графовых моделей. Следует заметить, что
   порталов. Эти данные нуждаются в                     осмысленные множества данных имеют разную
   средствах анализа, которые могли бы                  структуру, и требуют существенно различных
   способствовать упрощению их понимания и              стратегий при визуализации. Ранее нами были
   оптимизации научного менеджмента. В                  рассмотрены методы визуализации информации о
   данной работе демонстрируются средства               научном сотрудничестве, представимой при
   визуализации сетей соавторства и сетей               помощи сетей соавторства, извлекаемых из
   цитирования     на    примере     данных,            небольших      русскоязычных      информационных
   извлеченных    из    научных    порталов,            порталов,     посвященных       таким    научным
   входящих в облако Linked Open Data.                  направлениям как археология и компьютерная
                                                        лингвистика[1, 7]. Но эти данные имели достаточно
                                                        локальный характер и обладали сравнительно
1. Введение                                             небольшим объемом. Для того, чтобы опробовать
                                                        наши алгоритмы визуализации на общеизвестных
   В связи с бурно развивающимся направлением
                                                        данных большего объема, мы воспользовались
Semantic Web в Интернете становятся доступными
                                                        общеизвестными данными порталов, входящих в
большие объемы информации, посвященной
                                                        облако Open Linked Data[2,8]. В процессе
различным научным направлениям. В число таких           экспериментов с этими данными были реализованы
ресурсов входят    информационные системы и             новые алгоритмы визуализации, описанные ниже.
специализированные порталы.
   Наиболее       достоверным       источником
информации, посвященной любому научному                 2. Построение сетей соавторства и сетей
направлению, являются собственно научные                цитирования на основе Linked Open Data
публикации, составляющие основное наполнение               Прежде чем решать проблему анализа
научных порталов и цифровых библиотек. Самые            библиографических данных, необходимо решить
активные     и    влиятельные    исследователи,         проблему их получения. Задача сбора данных
организации, в которых они работают, и места, в         является весьма трудоемкой и ресурсозатратной. В
                                                        настоящее     время   функционирует     большое
                                                        количество информационных порталов, имеющих
Труды 13й Всероссийской научной конференции             различную структуру, основанных на разных
«Электронные библиотеки: перспективные методы и         онтологиях, что затрудняет доступ к ним.
технологии, электронные коллекции» - RCDL’2011,         Последнее время наметились большие сдвиги в
Воронеж, Россия, 2011.


                                                  113
унификации       доступа     к     библиографической            Agent".
информации, благодаря новому проекту сообщества
Semantic Web, который называется Linked Open
Data (LOD) [2]. В рамках этого проекта проделана
большая работа по объединению разрозненных
наборов данных в единое целое и обеспечению
единого механизма доступа [8]. В частности, в
рамках этого проекта предоставляется доступ к
большому           объему          структурированной
библиографической информации [4-6]. Множества
структурированных данных, посвященных научным
исследованиям, предоставлены такими известными
порталами как DBLP, Citeseer, CORDIS, NSF,
EPSRC, ACM, IEEE и др. Данные предоставляются
в формате RDF и имеют весьма внушительные
объемы. Например, RDF-данные, предоставленные
порталом Citeseer, содержат 8 146 852 троек RDF,
данные портала ACM насчитывают 12,402,336 троек
RDF, портал DBLP предоставил 28 384 790 троек
RDF. Пользователь может либо скачивать файлы в
формате RDF, либо генерировать данные при
помощи запросов sparql.                                         Рис. 1. Основные классы онтологии АКТ.
    Важно также отметить, что за последнее время
LOD-сообществом проделана огромная работа по                       Несмотря на то, что все хранилища
переводу всех этих множеств данных на единую                    библиографических данных облака LOD приведены
онтологию       AKT      Reference     Ontology    [3],         к единому словарю, данные, доступные в этих
представляющую собой объединение нескольких                     хранилищах, очень разнородны и опираются на
онтологий, таких как Support Ontology, Portal                   очень узкие подмножества большого словаря. Для
Ontology, Extensions Ontology и RDF Compatibility               описания реальных объектов используются, как
Ontology. Онтология Portal Ontology (Рис.1)                     правило, классы самого верхнего уровня иерархии.
является основной среди этих онтологий, она                     Так, например, для описания публикаций самыми
описывает такие понятия как организации, персоны,               ходовыми       классами    являются      “Publication-
проекты, публикации, географические данные и т.д.               Reference” и “Article-Reference”, при этом совсем не
Онтология AKT представляет собой весьма                         используются такие классы, как “Proceedings-Paper-
глубокую иерархическую структуру. Так, например,                Reference”, что затрудняет извлечение из базы
для описания публикаций имеется два корневых                    данных публикаций по одной заданной теме. Также,
класса "Information-Bearing-Object" и "Abstract-                многие поля, имеющиеся в этой богатой онтологии,
Information" . Подклассами класса "Information-                 остаются незаполненными при описании реальных
Bearing-Object" являются также классы "Recorded-                данных. Тем не менее, единый механизм доступа
Audio", "Recorded-Video", "Publication","Edited-                открывает большие возможности для работы с
Book",         "Composite-Publication",        "Serial-         этими данными. Достаточно просто извлечь из
Publication","Periodical-Publication","Book".      Все          любого репозитория облака LOD данные для
элементы этого класса имеют отношение ”has-                     построения сетей соавторства. Любая публикация,
publication-reference”, указывающее на объекты                  описанная в этих репозиториях, имеет название
класса "Publication-Reference", который является                публикации (отношение “has-title”) и авторов
подклассом класса "Abstract-Information". В свою                (отношение “has-author”). Поэтому простейшую
очередь класс "Publication-Reference" имеет в                   сеть соавторства для любого из перечисленных
качестве подклассов классы "Web-Reference",                     выше порталов можно сгенерировать с помощью
"Book-Reference",             "Edited-Book-Reference",          sprql -запроса следующего вида:
"Conference-Proceedings-Reference",        "Workshop-
Proceedings-Reference","Book-Section-Reference",                    CONSTRUCT{?y :co_author ?z}
"Article-Reference", "Proceedings-Paper-Reference",                 WHERE{
"Thesis-Reference" и "Technical-Report-Reference".                                ?x akt:has-author ?y ;
Эти объекты имеют такие отношения как: "has-                                         akt:has-author ?z ;
date", "has-title", "has-place-of-publication", "cites-                              a ?type .
publication-reference", akt:addresses-generic-area-of-                             FILTER(?y != ?z &&(?type =
interest” и др. Для описания организаций имеется                akt :Publication-Reference ) }.
класс "Organization", который является подклассом                   Для     выбора      данных      нужного объема
класса "Legal-Agent", а класс "Legal-Agent" является            используется модификатор запроса LIMIT N. В
подклассом класса "Generic-Agent". Точно так же                 настоящее время мы сравнительно легко извлекаем
класс "Person" является подклассом класса "Generic-             сети соавторства объемом 20-30 тысяч вершин.


                                                          114
              (а)                                                            (б)
Рис.2. Изображение связных компонент сетей соавторства, сгенерированных по данным портала DBLP.
Следует сказать, что при таком способе генерации             версия этого алгоритма, которая существенно
сетей соавторства их связность и плотность                   повышает качество кластеризации.
напрямую связаны с объемом. Например, для
портала DBLP[6] при установке лимита на                      3. Кластеризация и визуализация
количество ребер в сети соавторства, равном 10000,           больших сетей соавторства
наибольшая связная компонента этой сети имеет
всего 140 вершин и 191 ребро. Для анализа такой                  Для описания алгоритма напомним определение
сети достаточно обычного алгоритма размещения                модулярности:
Фрюхтерман-Рейнгольда[10]. Изображение этой                      Определим           симметричную       матрицу     e
небольшой компоненты связности показано на                   размерности k×k . Элемент ei j этой матрицы равен
рисунке 2(а).                                                отношению количества ребер, соединяющих два
   При возрастании лимита на объем сети до 50000             сообщества i и j, к общему количеству ребер в сети.
ребер, наибольшая связная компонента имеет уже               Также можно определить суммы по столбцам (или
3001 вершину и 4983 ребра. Для анализа таких                 по строкам ) ai = Σjeij , которые соответствуют
компонент связности необходимы специальные                   отношению количества ребер, соединяющих
алгоритмы. В предыдущих работах [1, 7] нами был              вершины в сообществе i, к общему количеству
представлен      алгоритм     кластеризации    сетей         ребер. Модулярность (modularity) выражается через
соавторства на основе принципа модулярности [13].            ai и eij:
На рисунке 2(а) показано изображение компоненты                  Q = ∑ (eii − ai )
связности сети соавторства содержащей, 140                             i           .
вершин и 191 ребро. После кластеризации нашим                    Экспериментально показано [9], что значение
алгоритмом, получилось 7 кластеров. Вершины,                 модулярности,         превышающее        0,3,   является
принадлежащие одному кластеру, раскрашены в                  указателем на реальное наличие сообществ в сети.
один цвет (в данном случае, один оттенок серого).                Прежний алгоритм выделения сообществ
Рисунок 2(б) показывает размещение большой                   применялся к каждой связной компоненте
компоненты связности сети соавторства, имеющей               сгенерированной            сети     соавторства.     Он
3001 вершину и 4983 ребра, после работы нашего               осуществлялся при помощи удаления ребер,
старого алгоритма кластеризации. Основным                    имеющих наибольшую реберную промежуточность.
недостатком этого алгоритма является то, что                 Для       оценки         реберной      промежуточности
принадлежность кластеру показана при помощи                  подсчитывались все кратчайшие пути между всеми
цвета вершин. Расстояние между вершинами                     парами      вершин,        и    определялось,    сколько
практически не зависит от того, какому сообществу            кратчайших путей проходит через каждое ребро.
принадлежит та или иная вершина, поэтому при                 Затем выбиралось ребро с наибольшим значением
большом       количестве     вершин     изображение          промежуточности и удалялось из сети соавторства.
становится          нечитабельным:         вершины,          Если в результате удаления очередного ребра
принадлежащие            разным         сообществам          происходило увеличение количества компонент
располагаются «вперемешку». Для улучшения                    связности, для нового разбиения подсчитывалась
визуализации      нам    нужен     такой   алгоритм          модулярность.         При       оценке     модулярности
размещения, который располагал бы вершины                    учитывались все ребра исходного графа. Если
одного сообщества близко друг к другу, а вершины             новое       найденное         значение     модулярности
разных сообществ-далеко друг от друга. В                     оказывалось выше, чем прежнее, то это состояние
настоящий момент реализована многоуровневая                  запоминалось,        и     процесс     удаления    ребер


                                                       115
продолжался до тех пор, пока разница между                    изображения используется трехуровневый алгоритм
текущим значением модулярности и наилучшим                    размещения. Сначала осуществляется глобальное
значением       не       станет      больше,      чем         размещение графа, вершинами которого являются
Параметр_останова. В этот момент процесс                      найденные сообщества. На этом этапе используется
кластеризации       завершался      и    компоненты,          стандартный силовой алгоритм [10]. В процессе
соответствующие         наилучшему        найденному          размещения считается, что идеальная длина ребра,
значению модулярности, выдавались в качестве                  соединяющего сообщества i и j, пропорциональна
результата кластеризации.                                     величине eij, количеству ребер между ними.
   Новая версия этого алгоритма состоит из грубой                Детальное изображение каждого сообщества
кластеризации и итеративного улучшения. На этапе              строится тоже при помощи силового алгоритма. Но
грубой кластеризации сеть соавторства разбивается             на этом этапе все вершины одной группы
на кластеры, состоящие из одной вершины, затем                располагаются примерно на одинаковом расстоянии
кластеры,     дающие        наилучшее     увеличение          друг от друга. Это идеальное расстояние
модулярности, попарно объединяются в кластеры                 существенно меньше того, что используется при
большего размера до тех пор, пока еще возможно                глобальном        размещении.     Оно      обратно
увеличение значения модулярности. Результаты                  пропорционально количеству членов сообщества.
попарного объединения кластеров хранятся в виде               Наконец, детальное           изображение каждой
бинарного дерева. Заметим, что получившийся в                 компоненты       подставляется     в    глобальное
результате первого шага набор кластеров не                    размещение компонент и заново отрисовываются
является оптимальным, вследствие того, что на                 все межкомпонентные ребра.
начальных этапах работы алгоритма возможно
объединение вершин из разных сильно связанных
сообществ. Поэтому на втором этапе применяется
алгоритм итеративного улучшения, идея которого
заимствована у Lin–Kernighan [12]. Алгоритм
работает следующим образом.
   Определим величину ∆Qv->D как число, на
которое изменится модулярность Q, если
переместить вершину v из ее текущего кластера в
кластер D.
Тогда      алгоритм        Жадного       Улучшения
кластеризации состоит из двух шагов:
   Шаг 1: Для каждой вершины v находится
кластер D с максимальным значением ∆Qv->D .Eсли                                      (а)
∆Qv->D > 0 вершину v перемещается в кластер D.
   Шаг 2: Повторяем Шаг 1 до тех пор, пока
найдется хотя бы одно перемещение, улучшающее
модулярность.
   Этот алгоритм перемещает по одной вершине из
одного кластера в другой, он не может переместить
сразу группу сильно связанных вершин. Поэтому
лучше всего этот алгоритм применять для
улучшения промежуточных результатов грубой
кластеризации. Для этого в бинарном дереве
кластеров,    полученном        на    этапе    грубой
кластеризации, выделим уровни, между которыми
количество кластеров отличается в 2 раза. Для
каждого такого уровня мы имеем набор текущих
кластеров, а в качестве перемещаемых вершин
используются        кластеры,      полученные      на
                                                                                      (б)
предыдущем       уровне      грубой    кластеризации.
                                                              Рис. 3. Пример разбиения на сообщества сети
Применяем      алгоритм       Жадного     Улучшения
                                                              соавторства, имеющей 5625 вершин и 10103 ребра.
Кластеризации. Этот шаг позволяет еще немного
улучшить значение модулярности.                                  На рис. 3(а) показан пример изображения сети
   После      выделения        научных      сообществ         соавторства, полученной прежним алгоритмом
необходимо       построить       изображение     сети         кластеризации     (количество   вершин      5625,
соавторства       с       найденными        научными          количество ребер 10103, модулярность 0,922, 197
сообществами. Мы хотим построить такое                        сообществ. На рис. 3(б) показано разбиение на
изображение, чтобы в нем легко просматривались                сообщества той же самой сети многоуровневым
найденные сообщества, а также и связи между                   алгоритмом (48 сообществ, модулярность 0,948) .
этими сообществами. Для построения такого


                                                        116
4. Визуализация сетей цитирования                          более детального изучения надо рассматривать это
                                                           изображение фрагментами. При возрастании
   Если для любого портала облака LOD не                   размеров сети цитирования, в особенности, при
составляет большого труда сгенерировать сеть               увеличении временного интервала, которому
соавторства любого заданного объема, ситуация с            принадлежат публикации сети цитирования, эта
сетями цитирования обстоит существенно сложнее.            задача становится весьма трудной для данного
Во-первых, построение списков цитируемой                   алгоритма изображения.
литературы требует гораздо больших технических
усилий, поэтому в открытом доступе эта
информация предоставляется только небольшим
количеством порталов. Среди порталов облака LOD
такими порталами являются Сiteseer и ACM[4, 5].
   Во-вторых, для генерации информативных сетей
цитирования нужны дополнительные усилия. В
случае портала Сiteseer нами применялась
двухуровневая схема генерации сетей цитирования,
а в случае портала ACM дополнительно
использовалась собственная онтология этого
портала, позволяющая выбирать публикации
относящиеся к определенному разделу науки.
   Наконец, следует отметить, что методы,
применяемые при визуализации сетей соавторства,
оказались мало пригодными в случае сетей
цитирования. Прежде всего, сеть цитирования
является ориентированным графом, поэтому для               Рис. 4. Изображение сети цитирования, извлеченной
понятного изображения этой сети желательно,                из RDF-данных портала Citeseer и содержащей 20
чтобы все ребра были направлены в одну сторону.            000 вершин.
Направление      ребер    может    соответствовать
хронологическому       порядку   публикаций.     В             Для того чтобы сделать возможным просмотр и
принципе, метод изображения иерархических                  анализ изменения сетей соавторства на больших
жгутов ребер [11], реализованный нами ранее,               промежутках времени, нами был реализован метод
соответствует этому требованию. Но применение              поуровневого размещения ориентированного графа
стандартного метода иерархических жгутов ребер             с минимизацией пересечений ребер [14]. Суть
затруднено тем фактом, что в такой базе данных как         данного метода состоит в том, что вершины-
Citeseer нет достаточно глубокой иерархии, на              публикации разбиваются на слои, соответствующие
которую можно было бы наложить сети                        различным годам. Индекс цитирования публикации,
цитирования.     На     основе   информации      о         т.е. ее значимость, отображается радиусом вершины
публикациях, мы в своих экспериментах строили              и интенсивностью ее цвета, что позволяет сразу
иерархию дат публикаций, которая имела всего 2             увидеть      самые       важные      публикации     за
уровня: год публикации - месяц публикации. В               определенный интервал времени.
результате получалось изображение, достаточно                  На рисунке 5 показано изображение сети
разреженное в центре и сильно перегруженное на             цитирования,         полученное       при     помощи
периферии, как это можно видеть на Рис. 4. На этом         поуровневого метода размещения. Вершины этой
рисунке показано изображение сети цитирования из           сети, соответствующие отдельным публикациям,
20 000 вершин, извлеченной из базы данных                  упорядочены хронологически по годам публикаций.
портала    Citeseer.   Временной    период    этих         Годы публикаций показаны прямоугольниками
публикаций с 1993 по 2003 год. Поскольку ребра в           разного цвета в верхней части изображения. Все
этой сети ориентированные, для облегчения задачи           публикации,       появившиеся      в    одном    году,
определения направления ребер их концы                     располагаются         в     вертикальном      столбце,
раскрашены в разные цвета. Входной конец ребра             соответствующем этому году. Ребра этой сети
(инцидентный цитируемой вершине-публикации)                соответствуют отношению цитирования. Каждое
раскрашен сиреневым цветом, а выходной конец               ребро сети цитирования соответствует отношению
ребра (инцидентный цитирующей публикации)                  akt:cites-publication-reference   и     ориентировано
раскрашен зеленым цветом. Можно заметить, что              справа налево. Чем больше ссылок в сети
наибольшее количество публикаций в этом                    цитирования имеется на некоторую публикацию,
множестве приходится на 1998 и 1989 годы. При              тем больше входных ребер имеет соответствующая
этом можно рассмотреть достаточно много ссылок             вершина, и тем больше ее радиус. Цвет каждого
на публикации этих лет (жгуты сиреневого цвета), а         ребра, соответствует цвету года цитирующей
также заметить, что публикации 2003 года весьма            публикации. Для того чтобы легче было отследить
немногочисленны, и от них идут жгуты зеленого              количество ссылок на одну и ту же публикацию,
цвета – ссылки на более ранние публикации. Для             используется процедура минимизации количества


                                                     117
                              (а)                                                    (б)
                           Рис. 5. Изменение значимости публикаций во времени.
пересечений ребер. В каждом вертикальном ряду                     Можно так же видеть, как появляется интерес к
осуществляется             сортировка        вершин,           публикации «Node-and-edge-deletion NP-complete
переставляющая каждую вершину в центр тяжести                  problems», причем она ссылается на ранее
вершин, расположенных в ближайшем к ней ряду                   доминировавшую       публикацию      «Linear-time
слева, с которыми она связана ребром цитирования.              algorithm for isomorphism of planar graphs», т.е.
Для того чтобы такие перестановки были                         образуется    цепочка     значимых     связанных
возможны, каждое длинное ребро цитирования                     публикаций.
разбивается фиктивными вершинами на короткие                      Помимо     всего    прочего,  такой    способ
ребра. Длинными считаются ребра-ссылки на                      визуализации, позволяет обнаруживать ошибки и
публикации, с момента появления которых до                     неточности в библиографических данных.
рассматриваемого момента прошло несколько лет.
Каждое короткое ребро соединяет вершины,                       5. Геометрический метод построения
расположенные в соседних вертикальных рядах.
Благодаря этой трансформации, ребра цитирования                жгутов ребер
одной и той же публикации образуют хорошо
различимые на рисунке жгуты. Также, в программе                   Проблемой       с    применением     обычного
реализована возможность отслеживания динамики                  поуровневого      метода    изображения     сетей
цитирования по годам. Для этого в верхней части                цитирования является то, что очень быстро
экрана     расположены        кнопки,   позволяющие            возникает    перегруженность    изображения,    а
перемещаться по изображению с заданными                        применение фильтрации, удаляющей малозначимые
интервалами времени. В данный момент размер                    публикации, искажает реальность: малозначимые
минимального интервала равен одному году. При                  публикации     вносят    основной    вклад    при
нажатии кнопки « >> » изображается вся                         определении значимости других публикаций.
имеющаяся сеть цитирования, а при нажатии « << »               Поэтому возникла необходимость в алгоритме
происходит очистка изображения.                                визуализации, который уменьшал бы визуальную
    Перемещение по изображению осуществляется                  загруженность изображения,      формируя жгуты
при помощи кнопок « <» и « > », позволяя                       ребер на основе их собственной геометрии, а не
наблюдать изменение сети цитирования во времени.               привнесенной извне иерархии [9]. Общая схема
Технически, эта возможность реализована при                    алгоритма выглядит следующим образом:
помощи фильтрации вершин и ребер сети                                 • Сгенерировать прямоугольную сетку
цитирования.                                                              размера NxN и наложить ее изображение
    На рисунке 5 показана изменяющаяся во                                 графа, построенное любым способом.
времени сеть цитирования для публикаций по                            • Для каждой ячейки прямоугольной
теории графов. Два рисунка покрывают фрагменты                            сетки вычислить основное направление
временного интервала с 1965 по 2005 год. В период                         ребер, пересекающих эту ячейку.
с 1965 по 1989 (Рис.5 (а)) среди публикаций по                        • Объединить       соседние    ячейки    с
теории графов доминирует «Linear-time algorithm for                       направлениями, отличающимися не
isomorphism of planar graphs». Эта вершина имеет                          более чем на пороговое значение a, в
самый большой радиус и большой коричневый                                 зоны.
шлейф. А в 2005 году (Рис.5(б)) публикация «A                         • Вычислить основное направление в
linear-time heuristic for improving network partition»                    каждой зоне, и перпендикуляр к
становится самой цитируемой.                                              основному направлению зоны.


                                                         118
      •   Построить      отрезки,    проходящие          кластеризации для сетей соавторства и новый метод
          перпендикулярно направлению зоны до            динамической визуализации сетей цитирования.
          пересечения с границей зоны.                   Генерируемые при помощи нашего метода
        • Использовать      полученные     точки         изображения наглядно представляют информацию
          пересечения с границей каждой зоны             по    цитированию       публикаций,     позволяют
          для построения новой сетки при помощи          анализировать и оценивать научный уровень работ,
          триангуляции.                                  продуктивность исследователей и показатели
        • Для     каждого    ребра   построенной         значимости отдельных публикаций. В настоящий
          триангуляции найти точки пересечений           момент ведется разработка метода геометрического
          с ребрами исходного изображения                группирования ребер, благодаря которому удастся
          графа. Вычислить центр среди этих              уменьшить визуальную перегруженность в графе, и
          точек.                                         работать с большими объемами данных.
        • Для каждого ребра графа G построить b-
          сплайн, проходящий через центральные           Литература
          точки ребер контрольной сетки, которые
                                                         [1] Апанович З.В., Кислицына Т.A. Расширение
          пересекает ребро графа G.
                                                             подсистемы           визуализации        наполнения
   На Рис. 6. показано применение алгоритма
                                                             информационного            портала       средствами
геометрических жгутов ребер к изображению,
                                                             визуальной аналитики // Проблемы управления
полученному      при    помощи      поуровневого
                                                             и моделирования в сложных системах: Труды
изображения сети цитирования, показанной на
                                                             XII Международной конференции (Самара, 21-
Рис.5б.
                                                             23 июня 2010 г.), С. 518-525, 2010.
                                                         [2] Данные         облака      Linked     Open     Data:
                                                             http://www.w3.org/wiki/TaskForces/CommunityPr
                                                             ojects/LinkingOpenData/DataSets.
                                                         [3] Описание онтологии AKT:
                                                             http://www.aktors.org/ontology.
                                                         [4] Данные портала ACM:
                                                             http://acm.rkbexplorer.com/.
                                                         [5] Данные портала CiteSeer:
                                                             http://citeseer.rkbexplorer.com/.
                                                         [6] Данные портала DBLP:
                                                             http://dblp.rkbexplorer.com/.
                                                         [7] Apanovich Z. V., Vinokurov P. S. Ontology based
                                                             portals and visual analysis of scientific
                                                             communities//First Russia and Pacific Conference
                                                             on Computer Technology and Applications, 6-9
   Рис. 6. Применение идеологии жгутов ребер к               September, 2010, Vladivostok, Russia, pp. 7-11,
    методу поуровневого размещения вершин.                   2010.
                                                         [8] Bizer, C., Heath, T. and Berners-Lee, T. Linked
   На настоящем этапе, имеется гораздо больше                Data - The Story So Far. //Int. J. Semantic Web Inf.
вопросов, связанных с этим методом, чем ответов              Syst., 5 (3), pp. 1-22, 2009.
на них. Как наилучшим образом выбрать                    [9] Cui W., Zhou H.,Qu H.,Wong P.C.,Li X.
направление прямоугольной сетки? Как зависит                 Geometry-Based Edge Clustering for Graph
направление жгутов ребер от размера сетки? Как               Visualization // IEEE Transactions on Visualization
выбрать наилучшее направление внутри каждой                  and Computer Graphics, vol.14 (6), pp.1277-1284,
зоны? Тем не менее, даже в настоящий момент                  2008.
можно констатировать, что этот алгоритм                  [10] Fruchterman T. M. J., Reingold E. M.:”Graph
существенно       уменьшает       загруженность              Drawing by Force-Directed Placement” Software -
изображения и, мы надеемся его развить до                    Practice and Experience, Vol. 21, N11, pp. 1129-
состояния, когда с его помощью можно будет                   1164, 1991.
диагностировать тенденции развития научного              [11] Holten     D.,     Hierarchical    Edge    Bundles:
направления.                                                 Visualization of Adjacency Relations in
                                                             Hierarchical Data// IEEE Transactions on
Заключение                                                   Visualization and Computer Graphics, v.12, n.5,
                                                             pp. 741-748, 2006.
   В данной работе рассмотрены методы                    [12] Lin, Sh., Kernighan, B. W. "An Effective Heuristic
извлечения сетей соавторства и сетей цитирования             Algorithm for the Traveling-Salesman Problem".
большого объема на примере баз данных,                       Operations Research, 21(2). pp. 498–516, 1973.
созданных в рамках проекта Linked Open Data, а
также    продемонстрированы      новый     метод


                                                   119
[13] Newman M. E. J., Girvan M. Finding and
    evaluating community structure in networks//
    Physical Review E, 69.26113. 2004.
[14] Sugiyama K., Tagawa S., Toda M. Methods for
    Visual Understanding of Hierarchical System
    Structures, //IEEE Trans. Systems, Man, and
    Cybernetics, pp. 109-125, 1981.

    Tools for Visual Analysis of Information
     Content of Portals Included in Linked
               Open Data Cloud
     © Z.V. Apanovich, T.A. Kislicyna, P.S.Vinokurov

    Due to the fast development of Semantic Web and
its new branch of Linked Open Data, large amounts of
structured information on various scientific areas
become available. Digital libraries, information systems
and portals based on ontologies are the most reliable
sources of this information that need careful
investigation in order to optimize management of
science. A generally accepted way to facilitate
understanding of such large and complex data sets is a
graph visualization. This paper is devoted to
visualization of citation networks extracted from
information portals and digital libraries based on
ontologies.
♣
    Работа выполнена при финансовой поддержке
Российского фонда фундаментальных исследований
(гранты № 09-07-00400 и 11-07-00388) и проекта РАН
2/12 «Формальные языки и методы спецификации,
анализа и синтеза информационных систем».


                                                           120