Географический поиск в информационных системах с использованием ретроспективного тезауруса © Д. М. Скачков © О. Л. Жижимов Институт вычислительных технологий Сибирского отделения РАН, г. Новосибирск danil.skachkov@gmail.com zhizhim@sbras.ru системы, к которым относятся, например, Аннотация электронные каталоги, базы данных научно- технической информации, архивы с информацией о В статье рассматривается задача поиска в информационных системах по географи- цифровых и нецифровых объектах. Но тот факт, что ческому аспекту и, в частности, поиск с эти системы не были предназначены для работы с географической информацией, еще не говорит, что использованием тезауруса ретроспектив- эта информация там не содержится. Любая статья ного геокодирования. Обсуждаются вопро- была где-то написана и опубликована, любой сы, связанные с особенностями географии- экспонат музея был где-то найден, тексты научных ческой привязки цифровых объектов. трудов зачастую содержат названия географических Приводится вариант реализации географии- объектов. И это только несколько примеров того, ческого поиска в информационной системе, что «негеографические» системы на самом деле а также результаты экспериментальной содержат географическую информацию. интеграции. Выполнено при частичной поддержке СО РАН Можно выделить следующие типы систем, (IV.31.1.1, ИП-2012-17, ПИП-2012-73), РФФИ информация в которых потенциально имеет геогра- (10-07-00302-а, 12-07-00472-а), Президиума РАН фическую компоненту: системы хранения инфор- (Проекты 2012-14.3, 2012-15.2), ФЦП шифр мации о цифровых и физических объектах (системы номер 2012-1.4-07-514-0022-004 хранения метаданных) и системы хранения собственно цифровых объектов. При этом первые 1 Географический аспект в цифровых отличаются от вторых только формализованной объектах структурой данных и формализованной семантикой наполнения. Ниже мы не будем делать различия До середины 1960 годов карты являлись всего между этими системами, в основном рассматривая лишь способом хранения символьной информации о подсистему метаданных, которые с необходимостью географических объектах. 1960-е годы были присутствуют в обоих типах систем после ознаменованы появлением географических инфор- каталогизации цифровых объектов. Для определен- мационных систем или ГИС. ГИС это информаци- ности, рассматриваемые информационные системы онная система, обеспечивающая сбор, хранение, будем относить к классу электронных библиотек. обработку и визуализацию пространственных Традиционные правила каталогизации физичес- данных и связанной с ними информации. Уже тогда ких и цифровых объектов предписывают создание было заявлено, что приоритетной задачей метаданных, ориентированных на структуру и картографии является не создание визуальных семантику стандартизованных схем данных. Для продуктов, а процессы сбора, преобразования и библиографической информации такими схемами обработки информации. И основаны эти процессы являются (MARC21, RUSMARC, МЕКОФ и др.). будут на компьютерных системах [1]. Сегодня, за Географический аспект объектов содержится в счет того что технологии шагнули далеко вперед, полях, которые связаны с некоторым географи- географические данные стали широко доступны. И ческим местом, временной аспект – в полях, за счет интернет сервисов, таких как Google которые связаны с некоторым событием. Maps™[10], стало возможным интегрировать функциональность ГИС в системы, которые для Географический и временной аспекты в этого не были предназначены изначально. Это так описании объекта, как правило, связаны, т.к. любое называемые «негеографические» информационные описанное событие характеризуется временем и местом. Труды 14-й Всероссийской научной конференции В качестве примеров каталогизируемой инфор- «Электронные библиотеки: перспективные методы и мации, содержащих данные о событиях, в библио- технологии, электронные коллекции» — RCDL-2012, графических массивах данных можно указать: Переславль-Залесский, Россия, 15-18 октября 2012 г. 121 • контент, т.е. информационное содержание некоторой геометрической областью на земной объекта (ключевые слова, аннотации, текст и пр.) поверхности. При наличии такой привязки в • события создания объекта (выполнение работы, информационных объектах электронной библио- съемка, написание, перевод и пр.) теки, задача поиска объектов, релевантных заданному региону, сводится к простейшей задаче • события публикации (издание, переиздание и проверки перекрытия геометрических областей, пр.) выполняемой математическими методами, а не • события хранения (помещение в репозиторий, методами, основанными на лексическом анализе. музей, библиотеку и пр.) Такой подход обеспечивает, во-первых, большую • события проведения мероприятия (конферен- релевантность результатов, по сравнению с тексто- ции, выставки, реставрация и пр.) вым поиском по названиям географических • и др. объектов, и, во-вторых, такая функциональность уже встроена во многие хранилища данных, чего 2 Географическая привязка в нельзя сказать об алгоритмах лексического анализа. Большая релевантность результатов, в данном информационной системе случае, следует из однозначности географических координат. Если мы будем производить текстовый 2.1 Ретроспективное геокодирование поиск по запросу «Алексеевка» (имея в виду К сожалению, прямое использование географии- деревню Алексеевка Московской области), то ческого аспекта каталогизированных в соответствии получим большое количество результатов не с действующими правилами каталогизации событий относящихся к нашему запросу, поскольку для географического поиска неэффективно [8]. Дело населенных пунктов с названием «Алексеевка» в в том, что географическая информация хранится в России великое множество, и названием «Алек- текстовых полях и пригодна только для простей- сеевка» нельзя однозначно идентифицировать шего поиска по географическому названию. Такой географический объект. В то же время, произведя поиск существенно не отличается от обычного поиск по географическим координатам 55°47′12.52″ текстового поиска. Но поиск по географическому с. ш. 38°18′33.02″ в. д. мы получим только аспекту информации имеет свои отличительные результаты, относящиеся к искомому географи- особенности. ческому объекту, в данном случае деревне Алексеевка в Ногинском районе Московской Рассмотрим следующую задачу: необходимо области. найти все научные статьи, которые были опубликованы на территории Новосибирской Способы географической привязки объектов области. При этом мы не можем просто произвести были подробно рассмотрены в [8-9]. Здесь и ниже поиск по словосочетанию «Новосибирская область», мы будем рассматривать способ привязки т.к. с одной стороны, в соответствии с правилами посредством тезауруса [12]. Такая привязка каталогизации в метаданных содержится только осуществляется с помощью добавления к записям название города, а с другой, - в данном географи- системы идентификатора или идентификаторов ческом регионе находится множество других объектов из соответствующего тезауруса. При этом объектов: города Новосибирск, Бердск, Барабинск, осуществляется привязка некоторой информации, Карасук и множество других населенных пунктов. содержащей место и время, т.е. ассоциированной с Таким образом, чтобы найти все релевантные статьи некоторым событием. Поэтому в рамках задачи мы должны составить список из всех населенных географического поиска наиболее целесообразно пунктов Новосибирской области, и производить использовать тезаурус ретроспективного геокоди- поиск по каждому из них. Более того, некоторые рования, описанный в [11]. Тезаурус ретроспектив- населенные пункты, существовавшие в прошлом, в ного геокодирования отличается от других настоящее время не существуют или были тезаурусов географических наименований наличием переименованы. Таким образом, к нашему списку информации об изменениях состояния географии- населенных пунктов мы должны добавить еще и ческих объектов с течением времени. Таким обра- населенные пункты, существовавшие в прошлом, а зом, учитывая, что в информационных системах также устаревшие названия населенных пунктов. зачастую хранятся данные относящиеся к Все становится еще сложнее, если необходимо прошедшим моментам времени, причем достаточно найти материалы, в которых упоминаются объекты отдаленным, видим, что только из тезауруса новосибирской области, т.е. не только населенные ретроспективного геокодирования мы можем пункты, но и реки, озера, улицы, железнодорожные получить наиболее достоверные данные о состоянии станции и подобные им объекты. Составить такой географических объектов во время определенных список вручную будет практически невозможно. событий. Одним из решений данной проблемы является 2.2 Индексация существующих данных географическая привязка объектов информационной системы. Под географической привязкой мы будем Естественно, наиболее интересна реализация понимать логическую связь цифрового объекта с событийного географического поиска для уже 122 существующих информационных массивов и 4. Переработка индекса в формат «номер систем. При использовании тезауруса эта процедура термина» – «позиция в тексте» – «номер слова из достаточно проста: необходимо добавить в струк- лексического словаря». туру записей базы метаданных информационной 5. Сбор статистики о длинах терминов для системы поля для хранения географических реализации поиска и идентификации составных идентификаторов записей и проиндексировать все терминов (т.е. терминов, состоящих более чем из записи идентификаторами терминов, входящих в одного слова). тезаурус географических наименований. При индек- 6. Сбор статистики о количестве вхождений сации следует учесть, что данные в электронных отдельных слов в термины для оптимизации поиска библиотеках могут содержать не только единичные путем исключения из рассмотрения терминов, упоминания географических объектов, но и мно- заведомо отсутствующих в тексте. жественные. Поэтому поля для хранения иденти- фикаторов объектов из тезауруса должны позволять II. Алгоритм построения индекса текстов хранить как один элемент, так и множество. аналогичен, но в нем отсутствует этап 3. Индексация данных информационной системы III. Заключительная стадия работы программной производится с помощью алгоритма, описанного в библиотеки – подсчет количества вхождений [4]. Приведем основные этапы данного алгоритма терминов в текст (тексты). Ее этапы: индексации. Первым этапом решения поставленной 1. Подсчет возможных комбинаций «текст» – задачи является извлечение из текста документа «термин», основанный на статистике вхождения всех географических названий, входящих в тезау- отдельных слов (см. этап 6 алгоритма индексации рус. Фактически, мы имеем дело с задачей коорди- терминов). натного индексирования текста терминами, входя- 2. Нахождение всех потенциально возможных щими в заданный словарь, при этом термины могут мест вхождения каждого термина в текст (тексты) состоять не только из одного, но и из нескольких на основе наличия хотя бы одного общего слова из (как правило, двух) слов, например, Новосибирская лексического словаря. Позиция каждого потенции- область, Белое море, Северная Двина и т.п. В [13] ально возможного вхождения фиксируется. описан алгоритм автоматического поиска и под- 3. Рассмотрение каждого из возможных мест счета ключевых слов из заданного словаря, пред- ставляющих собой словосочетания сложной струк- вхождений с точки зрения соответствия термину в туры, учитывающий морфологию русского языка. В целом. Актуальность вхождения определяется наличием рядом с соответствующей позицией основу алгоритма [5] положено использование двух индексов, содержащих триады других слов, входящих в термин. Существуют конфигурируемые варианты требований определе- «номер текста» – «позиция в тексте» – «номер ния актуальности вхождения (точный или неточный слова из лексического словаря» порядок слов, минимальное количество слов, и входящих в термин, возможность «прерывания» «номер термина» – «позиция слова в термине» – термина посторонними словами и т. п.). «номер слова из лексического словаря». 4. Исключение учета вхождений, поглощаемых При этом если первый индекс существует более длинными вхождениями. практически во всех информационно-поисковых 5. Сбор статистики вхождений для каждой пары системах, то введение второго индекса, позволяя- «текст» – «термин». ющее резко повысить эффективность алгоритма, Отметим, что при решении задачи извлечения имеет оригинальный характер. Индекс терминов географических названий этапы 3 и 4 актуальны наряду с их списком размещается в хранилище довольно редко, но все-таки их нельзя полностью данных программной библиотеки, реализующей исключить: например, практически равноупо- алгоритм, и пополняется по мере изменения этого требительны термины Новосибирский район и списка. Новосибирский сельский район, обозначающие Кратко опишем указанный алгоритм. один и тот же географический объект. I. Алгоритм построения индекса терминов Напрямую использовать тезаурус географичес- состоит из следующих этапов: ких наименования в данном алгоритме не 1. Разбиение термина на отдельные слова. получится, так как при анализе текстов необходимо учитывать морфологию русского языка. Словарь 2. Создание предварительного индекса, содержа- должен быть пополнен словоформами географичес- щего триады «номер термина» – «позиция слова в ких наименований. Автоматическая генерация термине» – «слово в символьном представлении». словоформ может быть осуществлена посредством 3. Добавление встретившихся неизвестных слов использования библиотеки морфологического в лексический словарь библиотеки, где им присваи- анализа phpМorphy [7]. Однако ранее проведенные с ваются идентификационные номера. ней эксперименты по генерации словоформ математических терминов, входящих в тезаурус предметной области «Математика» [6], показали 123 высокую, но отнюдь не стопроцентную правиль- ность генерации словоформ. Поэтому в тех случаях, 1 Электронная библиотека 6 2 5 кто алгоритмы библиотеки дают неправильный результат, следует прибегать к непосредственной генерации словоформ экспертом. 3 4 К сожалению, существует еще одна проблема, усложняющая задачу извлечения из текста доку- Тезаурус географических мента географических названий. Дело в том, что названий географические названия могут быть омонимичны другим словам, являющимися именами как нарица- Рис. 1. Сценарий географического поиска тельными: Орёл, Белая и т.п., так и собственными: в электронной библиотеке Киров, Кострома и т.п. Кроме того, нередко одно и 1) передача поискового запроса в информаци- то же название носят сразу несколько различных онную систему; географических объектов. Возникает необходимость отсеять из полученного набора слов омонимы гео- 2) выделение части поискового запроса, отно- графических названий, таковыми не являющиеся, а сящейся к географическому поиску; также установить, к какому конкретно географичес- 3) передача географического запроса в тезау- кому объекту относится найденное в документе рус; «многозначное» название. 4) получение из тезауруса списка идеентифи- Для выявления в тексте омонимов географии- каторов географических объектов, релевантных ческих названий, и для конкретизации значения данному поисковому запросу; «многозначных» названий, необходимо заранее в 5) формирование запроса информационной процессе работы с тезаурусом составить список системы на основе исходного запроса и полу- географических названий, имеющих такие омо- ченных идентификаторов географических нимы, и список «многозначных» названий. Если объектов и его выполнение; «многозначные» названия в тезаурусе выявляются 6) возврат результата. достаточно просто, путем его непосредственного анализа, то выявление омонимов «общего плана» - Пример 1 (запросы RPN в нотации PQF, задача более сложная. Наиболее общим приемом определения CIP из [3]): Найти все записи в базе выявления нарицательных омонимов является учет данных, которые соответствуют ресурсам, регистра первой буквы слова. Этот прием может опубликованным в Новосибирской области с 12 оказаться неэффективным, если омонимичное слово октября 2001 года по 10 января 2007 года (текстовое является первым словом в предложении, а также представление) если заголовок документа набран прописными @and буквами. В случае неоднократного вхождения @attr 1=59 @attr 2=3 @attr 4=108 такого слова в текст почти наверняка удастся {Новосибирская область} выявить его смысл путем анализа регистра первой @attr 1=31 @attr 2=16 @attr cip 4=210 {2001-10- буквы всех его вхождений. Если же омонимичное 12,2007-01-10} слово встречается только раз и притом в качестве первого слова в предложении, то относить его к Пример 2 (запросы RPN в нотации PQF): Найти географическим названиям вряд ли целесообразно все записи в базе данных, которые соответствуют хотя бы потому, что географические названия ресурсам, опубликованным в Новосибирской зачастую употребляются с предлогом указания области с 12 октября 2001 года по 10 января 2007 места или направления (т.е. не выступают в качестве года (геометрическое представление) первого слова предложения), а в случае возможной @and омонимии – и с указанием типа географического @attr 1=59 @attr cip 2=7 @attr cip 4=202 объекта (город Орёл, река Белая и т.п.) [4]. {((53.3590,75.2152),(57.2273,85.1248))} Результатом приведенного алгоритма будет @attr 1=31 @attr cip 2=16 @attr cip 4=210 список из идентификаторов записей нашего {2001-10-12, 2007-01-10} тезауруса. После записи полученных идентифи- каторов объектов в соответствующие поля, база Рассмотрим подробнее этапы выполнения метаданных информационной системы будет готова запросов: для географического поиска. 1. Передача запроса в информационную систему производится посредством интерфейса 2.3 Алгоритм поиска пользователя. Если для поиска текстовых данных Рассмотрим простейший способ реализации интерфейс ввода параметров существует в виде поиска в информационной системе, записи которой текстового поля и успешно используется достаточно проиндексированы географическими идентифика- давно, то для составления геометрического запроса торами (Рисунок 1): необходим интерфейс, позволяющий выбирать области на географической карте. Такой интерфейс 124 Рис. 2 Интерфейс создания поискового запроса предоставляет, например, сервис Google Maps [2]. запрос к библиографической базе данных. В Используя данный сервис можно реализовать результате его выполнения мы получаем список необходимый пользовательский интерфейс релевантных объектов. В приведенных примерах (Рисунок 2). запрос к библиографической базе данных будет Следует заметить, что в пользовательском выглядеть следующим образом (для обоих интерфейсе формирования запроса должна быть примеров): возможность указания временного интервала для @and искомых событий. @and @and . . . 2. Поскольку поисковый запрос может содер- @attr 1=59 @attr 2=3 @attr 4=108 {Новосибирск} жать не только географическую часть, на втором @attr 1=59 @attr 2=3 @attr 4=108 {Черепаново} этапе географическую и временную части следует выделить для обработки во внешней подсистеме, @attr 1=59 @attr 2=3 @attr 4=108 {Барабинск} реализующей сервисы информационной системы ... тезауруса. @and 3. Тезаурус принимает на вход поисковый @attr 1=31 @attr 2=4 @attr 4=5 {20011012} запрос со следующими параметрами: @attr 1=31 @attr 2=2 @attr 4=5 {20070110} • тип и название региона (пример 1) или тип Заметим, что при этом запрос сформирован в и координаты географического региона (пример 2); терминах набора Bib-1, который обычен для поиска • временной период события (необязатель- библиографической информации. ный). 6. Система возвращает список найденных 4. Тезаурус в ответ на запрос возвращает объектов и отображает их в интерфейсе список идентификаторов объектов, находящихся в пользователя. заданном географическом регионе. Если в парамет- Следует уточнить способы доступа к тезаурусу. рах поиска был указан временной интервал события, то возвращается список объектов, находящихся в В нашем случае тезаурус представляет собой базу заданном регионе в указанный период времени. данных, доступ к которой осуществляется по Например, идентификаторы населенных пунктов, протоколам Новосибирск, Барабинск, Черепаново … • Z39.50, 5. С использованием полученного списка • HTTP/XML/SOAP/SRW, идентификаторов географических объектов и • HTTP/SRU, параметров из оригинального запроса, формируется 125 Таблица 1. Некоторые точки доступа профиля RGeoThes Точка доступа Набор Тип Значение Тип определения геометрического объекта (точка, полигон) cip-1 4 201, 202 Координаты геометрического объекта cip-1 1 2059, 2060 cip-1 2 7,8,9,10 Тип определения события (временной интервал) cip-1 4 210 Временной интервал события cip-1 1 2062 cip-1 2 14,15,16,17,18 согласно профилю доступа RGeoThes, Таким образом, рассмотренная выше технология определенному в [12]. Профиль определяет ряд использования тезауруса позволяет существенно точек доступа к данным, находящимся в тезаурусе. расширить поисковые возможности «негеографи- В рамках данной задачи интересны следующие ческих» информационных систем в область геомет- точки доступа (Таблица 1). рического географического поиска с использова- Схемы и форматы извлечения записей из базы нием графических пользовательских интерфейсов, данных тезауруса соответствуют стандартным основанных на картографических сервисах. спецификациям упомянутых протоколов, например формат XML, схема ZThes. Таблица 2. Результаты поиска с применением географического тезауруса Заголовок Год публикации Международная конференция "Почва как связующее звено функционирования природных 2007 и антропогенно-преобразованных экосистем", Иркутск, 2-6 сентября 2006 Международная конференция "Ультрамафит-мафитовые комплексы складчатых областей 2007 докембрия" на Байкале п. Энхалук, 6-9 сент., 2006 Международная конференция по охране озера Байкал 2004 В Иркутске состоялась международная конференция "Управление земельными ресурсами 2006 с особым акцентом на защиту окружающей среды в районе озера Байкал" Международная конференция по экологии Сибири, пос. Листвянка, 24-27 августа 1993 г. 1994 В Иркутске состоялась международная конференция "Управление земельными ресурсами 2006 с особым акцентом на защиту окружающей среды в районе озера Байкал" Молодежная научная конференция по органической химии "Байкальские чтения 2000", 2000 Иркутск, 18-25 июля, 2000 Третья международная конференция "Энергетическая кооперация в Северо-Восточной 2003 Азии: предпосылки, условия, направления", Иркутск 9-13 сент., 2002 г Евроазиатская авиатранспортная научно-практическая конференция "Аэропорты Сибири и 2005 Дальнего Востока. Потенциал роста", Иркутск, 30 июня, 2005, проводимая в рамках 4 Байкальского экономического форума, Иркутск, 2005 12 Байкальская международная конференция "Методы оптимизации и их приложения", 2001 Иркутск, 24 июня - 1 июля, 2001 14 Байкальская международная школа-семинар "Методы оптимизации и их приложения" и 2008 3 Всероссийская научная конференция "Равновесные модели экономики и энергетики", Северобайкальск, 2-8 июля 2008 13 Байкальская Всероссийская конференция "Информационные и математические 2008 технологии в науке и управлении (ИМТ 2008)", Иркутск-Байкал, 7-17 июля 2008 12 Байкальская Всероссийская конференция "Информационные и математические 2009 технологии в науке, управлении, (ИМТ'2009)", Иркутск, июнь 2009 126 наименованиях не содержится вообще, то мы будем 3 Экспериментальная интеграция искать по словам «Байкал» и «конференция». В В качестве эксперимента, была произведена итоге получаем следующие результаты поиска интеграция географических метаданных в базу (Таблица 3). данных публикаций по исследованиям Байкальской Из данного примера видно, что поиск без природной зоны. Интерфейс формирования использования географических метаданных выдал поискового запроса представлен на рисунке 2. Задав не весь набор результатов, явно относящихся к примерную область байкальской природной указанному региону. Также видим, что поиск по территории, и указав ключевое слово в заголовке определенным регионам на поверхности земли «конференция» и временной интервал поиска с 1985 существенно затруднен в случае использования г. по 2011 г. мы получаем список всех записей, обычного текстового поиска – нам пришлось относящихся к данному региону и содержащих в заменить термин «Байкальская природная зона» на заголовке слово «конференция» (Таблица 2). более узкий термин «Байкал», чтобы найти хоть Теперь произведем поиск без использования что-то. И если в данном случае такой подход помог, географических метаданных. В данном случае, мы в силу того что большая часть конференций в должны искать по текстовому запросу: целевом регионе содержит в названии слово «Байкальская природная зона» и «конференция». Но «Байкал» в том или ином виде, то в иных случаях т.к. словосочетание «Байкальская природная зона» в такой подход может не сработать. Таблица 3. Результаты поиска без использования географических метаданных. Заголовок Год публикации Международная конференция "Ультрамафит-мафитовые комплексы складчатых областей 2007 докембрия" на Байкале п. Энхалук, 6-9 сент., 2006 Международная конференция по охране озера Байкал 2004 В Иркутске состоялась международная конференция "Управление земельными ресурсами 2006 с особым акцентом на защиту окружающей среды в районе озера Байкал" Молодежная научная конференция по органической химии "Байкальские чтения 2000", 2000 Иркутск, 18-25 июля, 2000 Евроазиатская авиатранспортная научно-практическая конференция "Аэропорты Сибири и 2005 Дальнего Востока. Потенциал роста", Иркутск, 30 июня, 2005, проводимая в рамках 4 Байкальского экономического форума, Иркутск, 2005 12 Байкальская международная конференция "Методы оптимизации и их приложения", 2001 Иркутск, 24 июня - 1 июля, 2001 14 Байкальская международная школа-семинар "Методы оптимизации и их приложения" и 2008 3 Всероссийская научная конференция "Равновесные модели экономики и энергетики", Северобайкальск, 2-8 июля 2008 13 Байкальская Всероссийская конференция "Информационные и математические 2008 технологии в науке и управлении (ИМТ 2008)", Иркутск-Байкал, 7-17 июля 2008 12 Байкальская Всероссийская конференция "Информационные и математические 2009 технологии в науке, управлении, (ИМТ'2009)", Иркутск, июнь 2009 технологии формирования информационной 3 Заключение инфраструктуры для поддержки междисциплинарных исследований, в том числе для В заключение заметим, что на основе описанной мониторинга природных и социальных процессов технологии сегодня формируется ряд территорий Сибири и Дальнего Востока» информационных систем в рамках научно- исследовательских проектов Сибирского отделения 3. Другие проекты. РАН: Литература 1. Интеграционный проект СО РАН 2012-17 «Создание сервисов и инфраструктуры научных [1] Abresch J., Hanson A., Heron S., Reehling P. Inte- пространственных данных для поддержки grating Geographic Information Systems into Lib- комплексных междисциплинарных научных rary Services: A Guide for Academic Libraries // исследований Байкальской природной зоны». http://elib.sbras.ru:8080/jspui/handle/SBRAS/336 2. Партнерский интеграционный проект СО 2 - ISBN 978-1-59904-726-3 РАН (с ДВО РАН) 2012-73 «Современные 127 [2] API Карт Google - Google Maps API — Google электронные коллекции» - RCDL’2010 (Казань, Developers Россия, 13.10 - 17.10.2010): Труды конферен- https://developers.google.com/maps/?hl=ru ции. - Казань: Казан. ун-т, 2010. - С.207-214. - [3] Catalogue Interoperability Protocol (CIP) ISBN 978-5-98180-838-8. Specification - Release B // [10] Карты Google http://maps.google.com/ CEOS/WGISS/ICS/CIP-B, Issue 2.4.75. - April [11] Скачков Д.М., Жижимов О.Л. Об интеграции 2005. географических метаданных посредством [4] Барахнин В.Б., Жижимов О.Л., Куперштох ретроспективного тезауруса // Информатика и А.А., Скачков Д.М., Федотов А.М. Алгоритм ее применения. – 2012. – № 3. (в печати). извлечения из текстовых документов географи- [12] Скачков Д.М., Жижимов О.Л. Об использова- ческих названий, отражающих содержание // нии ретроспективного геокодирования для Вестник НГУ. Сер.: Информационные техно- географического поиска в электронных биб- логии. - 2012. - Т.10. - № 1. - С.109-120. - ISSN лиотеках // XIII Всероссийская научная конфе- 1818-7900. ренция «Электронные библиотеки: перспектив- [5] Барахнин В.Б., Куперштох А.А. Алгоритм ные методы и технологии, электронные кол- координатного индексирования электронных лекции» - RCDL'2011 (Воронеж, Россия, 19.10 научных документов // Труды международной - 22.10.2011): Труды конференции. - Воронеж: конференции «Вычислительные и информа- Издательско-полиграфический центр Воронеж- ционные технологии в науке, технике и образо- ского государственного университета, 2011. - вании». Казахстан, Павлодар, 20-22 сентября С.51-58. - ISBN 978-5-9273-1875-9. 2006 г. Т. I. C.228-232. [13] Шокин Ю.И., Федотов А.М., Барахнин В.Б. [6] Барахнин В.Б., Нехаева В.А. Технология созда- Проблемы поиска информации. Новосибирск: ния тезауруса предметной области на основе Наука, 2010. предметного указателя энциклопедии // Вычис- лительные технологии. 2007. Т. 12. Geographical search in information systems Специальный выпуск 2. С.3-9. using retrospective thesaurus [7] Библиотека морфологического анализа phpМorphy. – http://phpmorphy.sourceforge.net Danil Skachkov, Oleg Zhizhimov [8] Жижимов О.Л., Мазов Н.А. Об использовании The problem of geographical search and search with географических координат при поиске библио- retrospective geocoding thesaurus in information графической информации // Научные и техни- systems is discussed. Issues related to binding of ческие библиотеки. - 2009. - № 1. - С.54-60. geographical metadata to digital objects are also [9] Жижимов О.Л., Мазов Н.А. Проблемы discussed. Description of geographical search algorithm географической привязки цифровых объектов implementation is included. Results of experimental в электронных библиотеках // XII Всероссий- implantation of geographical search into real database is ская научная конференция «Электронные биб- presented. лиотеки: перспективные методы и технологии, 128