=Paper= {{Paper |id=None |storemode=property |title=Основанный на онтологии подход к интеграции геоинформационной системы с коллекциями электронных научных публикаций (Ontology-based Approach Towards Integration of Geographical Information System with Digital Collections of Scientific Publications) |pdfUrl=https://ceur-ws.org/Vol-934/paper4.pdf |volume=Vol-934 |dblpUrl=https://dblp.org/rec/conf/rcdl/VdovitsynP12 }} ==Основанный на онтологии подход к интеграции геоинформационной системы с коллекциями электронных научных публикаций (Ontology-based Approach Towards Integration of Geographical Information System with Digital Collections of Scientific Publications) == https://ceur-ws.org/Vol-934/paper4.pdf
        Основанный на онтологии подход к интеграции
         геоинформационной системы с коллекциями
              электронных научных публикаций

             © В.Т. Вдовицын                           © А.К. Полин
   Институт прикладных математических
                                                     Институт геологии
              исследований
                                              Карельского научного центра РАН
    Карельского научного центра РАН
                                   Петрозаводск
            vdov@krc.karelia.ru

                                                           имеются ссылки на соответствующие географичес-
                  Аннотация                                кие объекты.
    Предлагается онтологически-ориентирован-                   Существует ряд подходов к решению этой
    ный подход к интеграции геоинформацион-                проблемы [1–5]. При создании систем географи-
    ной системы с коллекциями электронных                  ческого поиска необходимо решать задачи,
    публикаций. В основу подхода положена                  связанные с обеспечением соответствия названий
    идея формирования для каждой публикации                географических объектов, указанных в запросе
    «географического» индекса, который допол-              пользователя, с соответствующими ссылками на эти
    няет ее «текстовой» индекс. Географи-                  названия, обнаруженными в текстах документов.
    ческий индекс формируется автоматически                При этом рассматриваются различные способы
    по онтологии географических названий                   построения географического индекса для текстовых
    региона, с использованием разработанной                документов с использованием онтологии географи-
    нами технологии систематизации и поиска                ческих названий объектов. Например, в статье [1]
    электронных публикаций. Реализация дан-                для построения географически-ориентированных
    ного подхода позволит пользователям, с                 систем информационного поиска предлагается
    одной стороны, по выделенным участкам                  онтология географических названий объектов (an
    карты автоматически получить доступ к                  ontology of place), которая может быть использована
    семантически связанным с этими участками               для определения меры семантического расстояния
    электронным документам. С другой сторо-                между географическими объектами при выполнении
    ны, по найденным по запросу пользователя               запросов. В статье [2] рассматривается проблема
    электронным публикациям осуществить                    идентификации и устранения неоднозначности
    автоматический переход к соответству-                  (disambiguation) названий географических объектов
    ющим участкам карты, к географическим                  в документах при определении географического
    объектам которых они имеют отношение.                  региона, к которому они имеют отношение.
    Работа выполнена при поддержке гранта                  Предлагается подход к решению этой проблемы,
    РФФИ № 12-07-00070-а.                                  основанный на применении т.н. географической
                                                           сигнатуры (определяется как эталонный список
1 Введение                                                 однозначных географических ссылок, обнаружен-
                                                           ных в документе), которая может быть использо-
    В настоящее время проблема разработки                  вана, в частности, для формирования географи-
эффективных методов и технологий интеграции                ческого индекса документа коллекции. В статье [3]
географических информационных систем (ГИС) с               предлагается структура индекса, которая включает
т.н.   «негеографическими»     информационными             как традиционный инвертированный индекс доку-
системами (электронными библиотеками) остается             мента, так и пространственный (space) индекс,
актуальной. Решение этой проблемы открывает для            сформированный по онтологии географических
пользователей новые возможности для организации            названий объектов. Предлагается архитектура
географического поиска в электронных коллекциях            системы географического информационного поиска,
документов, например, появляется возможность               которая на основе предложенной структуры
автоматического доступа по выделенному участку             географического индекса может выполнять как
карты к электронным документам, в тексте которых           простые, так и комбинированные пространственные
                                                           и текстовые запросы. Также следует отметить
Труды 14-й Всероссийской научной конференции               работы [4,5], в которых исследуются различные
«Электронные библиотеки: перспективные методы и            аспекты решения проблемы географической
технологии, электронные коллекции» — RCDL-2012,            привязки текстовых документов электронных
Переславль-Залесский, Россия, 15-18 октября 2012 г.        библиотек, в частности, посредством тезауруса.



                                                      15
   В данной статье рассматривается задача                  и набор логических условий (логических функций,
обеспечения более «тесной» интеграции ГИС с                описывающих связи научных терминов по опреде-
коллекциями электронных научных публикаций,                ленной тематике исследований), с помощью кото-
которая решается на основе разработанной техно-            рых осуществляется процесс отнесения публикаций
логии систематизации и поиска данных с примене-            к соответствующим рубрикам (в нашем случае – к
нием онтологии [6–10]. В основе подхода лежит              рубрикам ГРНТИ). Для формирования этих логии-
идея автоматического формирования для каждой               ческих условий, описывающих, по сути, содержание
публикации по онтологии географических названий            научных публикаций, используются термины
региона т.н. «географического» индекса, который            таксономий соответствующих научных предметных
дополняет ее «текстовой» индекс [3,8]. Реализация          областей и логические операторы: AND, OR, NOT.
данного подхода позволит пользователям, с одной               Процесс индексации также разбивается два
стороны, по выделенным участкам карты автома-              основных этапа. На первом этапе выполняется
тически получать доступ к семантически связанным           предварительная     обработка    текста    (каждая
с этими участками электронным документам. С                публикация переводится из формата PDF в формат
другой стороны, по найденным по запросу                    TXT; из текста удаляются «малоинформативные»
электронным публикациям, осуществить автомати-             слова; к тексту и терминам выделенного фрагмента
ческий переход к соответствующим участкам карты,           таксономии применяется алгоритм стемминга –
к географическим объектам которых они имеют                «Стеммер Портера»). На втором этапе осущест-
отношение.                                                 вляется последовательное сканирование обработан-
   В настоящее время в рамках развития сервисов            ного на предыдущем этапе текста публикации и
информационно-аналитической системы (ИАС)                  сопоставление каждого выделенного в тексте слова
«Природные ресурсы Карелии» осуществляется                 с терминами соответствующего фрагмента таксоно-
реализация и апробация предлагаемой технологии             мии, характеризующего содержание предметной
интеграции «негеографической» и географической             рубрики. По такой схеме последовательно
компонент системы [9,10].                                  обходится поддеревья всех рубрик, к которым была
                                                           отнесена публикация на этапе предметизации. При
2 Технология систематизации и поиска                       этом каждый раз производится поиск термина
электронных научных публикаций                             онтологии в тексте публикации и если обнаружива-
                                                           ется такое вхождение термина, то индексируется не
   Построение          эффективных           систем        только этот термин, но и все его предки из
информационного поиска на основе онтологий                 соответствующего поддерева рубрики. В результате
(ontology-based information retrieval) в настоящее         индекс публикации представляет собой упорядочен-
время     является   одним     из    перспективных         ную совокупность терминов таксономии, и на наш
направлений исследований и разработок [11–13].             взгляд более детально характеризует ее содержание
Такие системы информационного поиска исполь-               по сравнению со списком ключевых слов.
зуют онтологии, как для индексации информацион-               Онтология и база индексов публикаций
ных ресурсов, так и для организации семанти-               обеспечивают тематический поиск публикаций по
ческого поиска в больших массивах документов.              запросам пользователей. Нами           разработана
   В течение ряда последних лет нами                       технология построения и исполнения запросов, суть
разрабатывается     онтологически-ориентированная          которой заключается в следующем. Пользователю
технология систематизации и поиска электронных             сначала предлагается выбрать рубрику ГРНТИ,
публикаций. В отличие от традиционно исполь-               которая должна содержать интересующие его
зуемой для целей индексирования публикаций                 материалы. Далее ему предлагается соответ-
модели текста как «набор слов» («bag of words»             ствующий рубрике фрагмент таксономии, в котором
model) мы используем т.н. концептуальное                   он должен отметить интересующие его термины. С
индексирование (в нашем случае индекс публика-             использованием указанных терминов система
ции формируется не на наборе слов, а на основе             автоматически формирует запрос в виде логичес-
предметной онтологии, моделирующей содержание              кого выражения, определяющего конъюнктивные
определенного тематического множества публика-             и/или дизъюнктивные связи терминов.
ций). При этом в основу используемой нами                     Следует отметить, что поскольку поиск по
онтологии положены: рубрикатор (в нашем случае             запросу осуществляется в базе индексов (а не в
ГРНТИ);      набор    логических     условий    для        текстах электронных публикаций), запрос автомати-
автоматизации процесса предметизации публика-              чески расширяется включением в него конъюнкции
ций, а также таксономии терминов определенных              терминов от корня и дизъюнкции терминов и их
научных предметных областей, термины которых               синонимов вплоть до листьев от указанных
связаны отношениями классификации «род–вид»,               пользователем терминов. Тем самым обеспечи-
«агрегации», «часть–целое» и синонимии.                    вается повышение точности ответа на запрос за счет
   Процедура систематизации публикаций разделя-            конъюнкции терминов предыдущих уровней таксо-
ется на два основных этапа: предметизацию и                номии и полноты за счет дизъюнкции терминов
индексацию. В качестве информационной основы               одного уровня таксономии и их синонимов. Список
предметизации используются термины таксономии              названий найденных по запросу публикаций




                                                      16
   Рис. 1 Страница картографического сервиса


специальным образом ранжируется и выводится                электронных научных публикаций, базы данных,
пользователю      в    виде    гиперссылок      для        ГИС и т.п.), рациональное использование которой в
последующего просмотра или сохранения текстов              интересах развития науки, образования и экономики
публикаций в «личном» кабинете пользователя [6].           страны в целом остается проблемой. Для ее решения
   Использование базы индексов как результата              требуется разработка и применение интегриро-
систематизации публикаций непосредственно для              ванных информационных систем, обеспечивающих
их поиска обеспечивает с одной стороны устранение          накопление, систематизацию и эффективный доступ
полисемии терминов (т.е. устраняет многозначность          пользователей к разнородным информационным
терминов за счет «отсечения» других предметных             ресурсам. Одним из примеров такого рода систем
областей в процессе построения запроса), а с другой        является разрабатываемая нами информационно-
определяет конкретную предметную область                   аналитическая система «Природные ресурсы Каре-
запроса. Тем самым обеспечивается как релевант-            лии», которая включает две основные компоненты –
ность, так и пертинентность найденных системой по          сервисы накопления, систематизации и поиска
запросу документов.                                        электронной научной информации, а также набор
                                                           тематических карт, отражающих результаты
   Следует также заметить, что пользователю на
                                                           научных исследований, и необходимые для работы с
наш взгляд гораздо проще и точнее выразить свои
                                                           ними картографические сервисы [8–10]. Эта система
информационные потребности путем указания
                                                           предназначена для информационной поддержки
терминов в таксономии по сравнению с заданием
                                                           ученых и специалистов, как при проведении
списка ключевых слов. При этом ему не надо
                                                           научных исследований, так и для оценки состояния
формировать логические условия отбора данных с
                                                           окружающей среды и экологических последствий,
использованием логических операторов: AND, OR,
                                                           планируемых и проводимых на территории Карелии
NOT (система делает это автоматически). Детали
                                                           и сопредельных регионов мероприятий в сфере
разрабатываемой технологии более подробно
                                                           промышленности, лесного, сельского и рыбного
представлены в работах [6–10].
                                                           хозяйства.
3 Интеграция ГИС с электронными                               Картографический сервис ИАС «Природные
                                                           ресурсы Карелии» базируется на свободном
коллекциями научных публикаций в                           программном обеспечении. Для Web-сервера
ИАС «Природные ресурсы Карелии»                            используется Ubuntu Server v.7.10, а основой
                                                           картографического сервиса – MapServer v.4.10.3.
   В настоящее время в крупных научных центрах и
вузах накоплено огромное количество самой                     Первый этап работы с сервисом заключается в
разнообразной научной информации (коллекции                инициализации пользователя. После этого пользова-




                                                      17
  Рис. 2 Поиск научных публикаций по онтологии географических названий региона.

тель имеет возможность подготовки набора из                  публикаций для индексации этих электронных
картографического материала хранящегося в                    публикаций по онтологии географических названий
соответствующей базе данных и состоящего из                  региона. В результате применения процедуры
векторных (с атрибутивной информацией) и                     индексации к документам коллекции электронных
растровых электронных карт, а также космических              публикаций, каждой публикации, дополнительно к
снимков. Картографический материал системати-                ее «текстовому» индексу, приписывается еще и
зирован как по тематике (с выделением отдельных              «географический» индекс. В настоящее время при
тем), так и по масштабу. Основная страница                   построении онтологии географических названий ре-
картографического сервиса содержит стандартные               гиона использовались атрибутивные данные карты
инструменты просмотра картографической инфор-                Карелии масштаба 1:1000 000 (СевЗапАэроГеоде-
мации: масштабирование и сдвиг карты, окно                   зия, 2000–2001 гг.) по административным районам
обзора, установление уровня прозрачности тема-               Карелии, озерам, населенным пунктам и др. В
тических слоев, получение информации об объектах             качестве эксперимента, по сформированному нами
и выбор объектов в области. Легенда имеет древо-             фрагменту онтологии (города, поселки и озера
видную структуру и оформлена в виде всплыва-                 Карелии) были проиндексированы все научные
ющего (Рис. 1) окна.                                         публикации электронной библиотеки.
    На начальной стадии разработки географическая               На рис. 2 представлен пример поиска научных
(коллекции тематических научных карт) и                      публикаций, проиндексированных по выделенному
«негеографическая» (коллекции электронных науч-              фрагменту онтологии географических названий
ных публикаций) компоненты системы функцио-                  региона.
нировали практически независимо друг от друга.                  Онтология географических названий региона
Необходимость более «тесной» интеграции этих                 имеет иерархическую (древовидную) структуру (т.е.
компонент послужило для нас стимулом для поиска              соответствует административно-территориальному
эффективного решения этой проблемы.                          делению региона с включением названий природно-
   Проведенный анализ достаточно представитель-              культурных и др. объектов, расположенных на
ного массива электронных научных публикаций                  данной территории, а также их синонимов, с помо-
(http://www.krc.karelia.ru/rio_stats.php) по ресурсо-        щью которых на наш взгляд успешно решается
ведческим направлениям исследований ученых                   вопрос, связанный с историческим переимено-
КарНЦ РАН (биология, лесное хозяйство, геология,             ванием географических объектов).
водные ресурсы) показал, что в подавляющем                      Следует отметить, что в нашем случае «геогра-
большинстве текстов публикаций имеются ссылки                фический» индекс электронной публикации форми-
на названия географических объектов (т.е. названия           руется по той же схеме, что и «текстовый» индекс
населенных пунктов, болот, озер, рек, месторож-              публикации. Общая схема организации геогра-
дений и т.п.), с которыми связаны результаты                 фического поиска электронных научных публика-
проведенных исследований. Это обстоятельство                 ций в ИАС «Природные ресурсы Карелии» с
дало нам основания для применения разработанной              использованием географического индекса представ-
технологии систематизации и поиска электронных               лена на рис. 3.



                                                        18
                                                                         Номер
                                                            Документ                                Название документа
                                                                       коллекции

                               Идентификатор термина                               Лесобиологические исследования на Северо-Западе
                  Номер                                      5396         21       таежной зоны России: итоги и перспективы
     Документ                   таксономии (термин
                коллекции                                                          Природные очаги клещевого энцефалита на северо-
                                    таксономии)
                                                                                   западной периферии обитания таежного клеща Ixodes
        5396        21      9973 (Республика Карелия)        2790         21       pers ulcatus (Schulze, 1930)

        5396        21      3899 (39. География)
        5396        21      9977 (Города)
        5396        21      10223 (Медвежьегорск)
        5396        21      10225 (Петрозаводск)
        5396        21      10189 (Районы)
        5396        21      10193 (Кондопожский район)
        5396        21      10195 (Лахденпохский район)
        5396        21      10197 (Медвежьегорский район)
        5396        21      10199 (Олонецкий район)
        5396        21      10202 (Прионежский район)
                                                                           Название района
        2790        21      10211 (Муезерский)                           Кондопожский
        2790        21      9977 (Города)                                Лахденпохский
        2790        21      10220 (Кондопога)                            Медвежьегорский
        2790        21      10221 (Костомукша)                           Пряжинский
                                                                         Сегежский
        2790        21      10223 (Медвежьегорск)
                                                                         Беломорский
        2790        21      10225 (Петрозаводск)
                                                                         Олонецкий
        2790        21      10189 (Районы)                               Лоухский
        2790        21      10192 (Кемский район)                        Кемский
        2790        21      10198 (Муезерский район)                     Питкярантский                       Фрагмент
        2790        21      10204 (Пудожский район)                      Суоярвский
                                                                                                             атрибутивного
        2790        21      10199 (Олонецкий район)
                                                                                                             файла карты
                                                                         Прионежский
                                                                                                             (районы
        2790        21      10202 (Прионежский район)                    Калевальский
                                                                                                             Карелии)
                                                                         Муезерский
                                                                         Пудожский
                Фрагмент «географического»
                    индексного файла



        Рис. 3 Общая схема организации географического поиска электронных научных публикаций

    Такой подход к решению задачи обеспечения                            при необходимости, может запросить те участки
более «тесной» интеграции картографической ком-                          карты, с которыми найденные публикации
поненты ИАС с коллекциями электронных научных                            семантически связаны (в этом случае система
публикаций позволяет реализовать для пользователя                        осуществит прямое геокодирование с использо-
следующую схему доступа, как к ГИС-данным, так                           ванием онтологии географических названий
и к электронным научным публикациям.                                     региона и по географическому индексу найдет
 Географический поиск. Пользователь с                                   соответствующие участки тематической карты).
     помощью специального сервиса доступа к ГИС-
     данным выделяет на тематической карте                          4 Заключение
     интересующую его область (например, в виде                        В настоящее время данная технология исполь-
     прямоугольника). Система осуществляет обрат-                   зуется нами при разработке и развитии сервисов
     ное геокодирование (т.е. реализуется процедура                 информационно-аналитической системы «Природ-
     запроса всех названий объектов по указанным                    ные ресурсы Карелии» – http://ias.krc.karelia.ru.
     координатам с использованием онтологии                         Реализация предлагаемого подхода позволит поль-
     географических названий). Далее пользователь                   зователям ИАС по запросу находить нужную
     ИАС может осуществить поиск электронных                        научную информацию, которая относится к
     публикаций, семантически связанных с выде-                     конкретному географическому участку региона,
     ленными названиями географических объектов,                    используя при этом как текстовую, так и геогра-
     двумя следующими способами:                                    фическую формы поиска.
     1. Запустить процедуру поиска электронных                         Авторы приносят свои благодарности Ю.В.
         публикаций, в географических индексах                      Чирковой, Н.Б. Луговой и В.Г. Старковой за
         которых присутствуют названия указанных                    плодотворное обсуждение рассматриваемых вопро-
         географических объектов.                                   сов и реализацию исследовательского прототипа
     2. Обратиться к сервису доступа к электрон-                    технологии.
         ным публикациям и с его помощью
         получить нужные публикации, как по                         Литература
         интересующей его тематике, так и с учетом
         их связи с выделенными географическими                        [1] Christopher B. Jones, Harith Alani and Douglas
         объектами (в этом случае при формиро-                             Tudhope (2001) Geographical Information
         вании логического условия отбора данных                           Retrieval with Ontologies of Place. In Proceedings
         система автоматически добавит в условие                           of the International Conference on Spatial
         отбора дизъюнкцию названий соответству-                           Information Theory: Foundations of Geographic
         ющих географических объектов, указанных                           Information Science (COSIT), Morro Bay, CA,
         в запросе).                                                       USA, 322–335.
                                                                       [2] David S Batista, Mário J Silva, Francisco M
 Текстовый поиск. Пользователь с помощью
                                                                           Couto, Bibek Behera Geographic Signatures for
     сервиса доступа к электронным публикациям
                                                                           Semantic Retrieval //GIR’10 18-19th Feb. 2010,
     находит нужные ему по тематике публикации и,
                                                                           Zurich, Switzerland.



                                                              19
[3] Nieves R. Brisaboa, Miguel R. Luaces, Ángeles S.        [10] В.Т. Вдовицын, А.К. Полин Разработка и
    Places, Diego Seco Exploiting geo¬graphic                    развитие       картографического          сервиса
    references of documents in a geographical                    информационно-аналитической              системы
    information retrieval system using an ontology-              «Природные ресурсы Карелии» //Интернет и
    based index //Geoinformatica (2010) 14:307–331               современное общество. Сборник научных
    DOI 10.1007/s10707-010-0106-3.                               статей. Материалы XIV Всероссийской
[4] О.Л. Жижимов, Н.А. Мазов, Проблемы                           объединенной конференции «Интернет и
    географической привязки цифровых объектов                    современное общество». Санкт-Петербург, 12–
    в электронных библиотеках // Труды 12й Все-                  14 октября 2011 г. С. 36–39.
    российской научной конференции «Электрон-               [11] Miriam Fernandez, Ivбn Cantador, Vanesa Lуpez,
    ные библиотеки: перспективные методы и тех-                  David Vallet, Pablo Castells, Enrico Motta
    нологии,      электронные     коллекции»      –              Semantically enhanced Information Retrieval: An
    RCDL’2010, Казань, Россия, 2010 г. С. 207–                   ontology-based approach /Web Semantics:
    214.                                                         Science, Services and Agents on the World Wide
[5] Д.М.     Скачков,      О.Л.    Жижимов       Об              Web 9 (2011) 434–452.
    использовании ретроспективного геокодиро-               [12] Raquel Trillo, Laura Po, Sergio Ilarri, Sonia
    вания для географического поиска в электрон-                 Bergamaschi, Eduardo Mena Using semantic
    ных библиотеках // Труды 13й Всероссийской                   techniques to access web data //Information
    научной конференции «Электронные библио-                     Systems. 36 (2011). P. 117–133.
    теки: перспективные методы и технологии,                [13] Mauro Dragoni, Célia da Costa Pereira, Andrea
    электронные коллекции» – RCDL’2011, Воро-                    G.B. Tettamanzi An Ontological Representation of
    неж, Россия, 19–22 октября 2011 г. С. 51–58.                 Documents and Queries for Information Retrieval
[6] Вдовицын В.Т., Лебедев В.А. Ранжирование                     Systems /Proceedings of the 1-st Italian
    документов в системе поиска, основанной на                   Information Retrieval Workshop (IIR’10), January
    применении онтологии // Труды XIV Всеросс-                   27–28, 2010, Padua, Italy, http://ceur-ws.org/Vol-
    ийской научной конференции «Электронные                      560/paper18.pdf (дата обращения: 18.04.2012).
    библиотеки: перспективные методы и техно-
    логии, электронные коллекции». RCDL’2012,                  Ontology-oriented approach towards
    Переславль-Залесский. 15–18 октября 2012 г.               integration of geographical information
    (принята к печати).                                      system with digital collections of scientific
[7] В. Вдовицын, В. Лебедев Технологии
                                                                            publications
    систематизации и поиска электронной научной
    информации с применением онтологий //                             Vladimir Vdovitsyn, Aleksandr Polin
    Информационные ресурсы России. – 2010. –
    № 5. – С. 6 –10.                                            We suggest an ontology-oriented approach towards
                                                            integration of geographical information system with
[8] В. Вдовицын, В. Лебедев. Технологии
                                                            collections of digital publications. The approach rests on
    информационного        обеспечения     научных
                                                            the idea of supplying each publication with generated
    исследований в ИАС «Природные ресурсы
                                                            «geographical» index to complement its «textual»
    Карелии» // Информационные ресурсы России.
                                                            index. The geographical index will be generated
    № 1. 2012. C. 7–12.                                     automatically from the ontology of the region place
[9] Титов А.Ф., Вдовицын В.Т., Лебедев В.А.,                names applying the authors’ technology for
    Полин А.К. Информационно-аналитическая                  systematization and retrieval of digital publications.
    система поддержки и сопровождения иссле-                Through this approach users will be able to
    дований природных ресурсов региона //Труды              automatically access the digital documents semantically
    XII Всероссийской научной конференции                   related to the areas they highlight in the map. Vice
    «Электронные библиотеки: перспективные                  versa, they can be automatically redirected from the
    методы и технологии, электронные коллек-                digital publications found after their inquiry to the map
    ции». RCDL’2010, Казань. 13–16 октября                  areas corresponding to the geographical objects
    2010 г. С. 529–534.                                     relevant for the publications.




                                                       20