=Paper= {{Paper |id=None |storemode=property |title=Оценка эффективности технологий систематизации и поиска электронной научной информации в ИАС "Природные ресурсы Карелии" (Evaluation of the Technology Effectiveness of the Systematization and Search of Digital Scientific Information in the IAS "Natural Resources of Karelia") |pdfUrl=https://ceur-ws.org/Vol-803/paper21.pdf |volume=Vol-803 |dblpUrl=https://dblp.org/rec/conf/rcdl/VdovitsynL11 }} ==Оценка эффективности технологий систематизации и поиска электронной научной информации в ИАС "Природные ресурсы Карелии" (Evaluation of the Technology Effectiveness of the Systematization and Search of Digital Scientific Information in the IAS "Natural Resources of Karelia") == https://ceur-ws.org/Vol-803/paper21.pdf
   Оценка эффективности технологий систематизации и
    поиска электронной научной информации в ИАС
            «Природные ресурсы Карелии»♣
                                   © В.Т. Вдовицын, В.А. Лебедев
                      Институт прикладных математических исследований
                              Карельского научного центра РАН
                                     vdov@krc.karelia.ru


                   Аннотация                                 поиска.
                                                                В данной работе предлагаются технологии
    В статье представлен подход к созданию и
                                                             систематизации и поиска электронной научной
    развитию информационно-аналитической
                                                             информации, разработанные и реализованные при
    системы (ИАС) поддержки и сопровожде-
                                                             построении и развитии ИАС «Природные ресурсы
    ния научных исследований природных ре-
                                                             Карелии», а также приводятся результаты
    сурсов региона. Основное внимание уделе-
                                                             проведенных       экспериментов    для    оценки
    но вопросам оценки эффективности разра-
                                                             эффективности      этих   технологий.  Наиболее
    ботанных технологий систематизации и по-
                                                             близкими по теме наших исследований и разработок
    иска электронной научной информации в
                                                             являются подходы, представленные, например, в
    ИАС с применением онтологий.
                                                             работах [2,8,15].
1. Введение
                                                             2. Архитектура ИАС «Природные
    В настоящее время разработки информационных              ресурсы Карелии»
систем для поддержки исследований в различных
областях науки и техники активно проводятся как у               Создание          информационно-аналитической
нас в стране, так и за рубежом [1,2,13,17]. При              системы для поддержки научной, аналитической и
построении      такого    рода    систем    особую           управленческой деятельности по природным
актуальность приобретают проблемы разработки и               ресурсам и окружающей среде Карелии необходимо
применения эффективных методов систематизации                и важно в первую очередь для координации и
и поиска разнородной (научные публикации,                    проведения        междисциплинарных       научных
тематические коллекции документов, базы данных,              исследований, выполняемых институтами КарНЦ
ГИС-системы и т.п.) электронной информации.                  РАН в рамках задач инвентаризации природных
Традиционные методы информационного поиска,                  ресурсов, при оценке состояния окружающей среды
основанные на использовании ключевых слов,                   и экологических последствий планируемых и
обладают рядом недостатков, связанных, например,             проводимых       на    территории    Карелии    и
с многозначностью (polysemous) используемых в                сопредельных регионов мероприятий в сфере
запросе терминов, а также недостаточным знанием              промышленности, лесного, сельского и рыбного
пользователями терминологии самой предметной                 хозяйства. Для достижения поставленной цели на
области. Одним из перспективных направлений                  наш взгляд следует в первую очередь обеспечить
исследований и разработок в плане повышения                  автоматизированный сбор, систематизацию и
эффективности информационного поиска является                эффективный доступ ученых и специалистов к
применение           методов       онтологического           необходимой научной информации. Исходя из
моделирования (ontology-based information retrieval)         решения этих задач, архитектура разрабатываемой
[5,7,8,12,14–16,18].         Такие         системы           нами системы в общем виде выглядит следующим
информационного поиска учитывают смысловое                   образом (Рис. 1).
содержание      терминов     запроса,   используют              Основные компоненты системы можно кратко
онтологии, как для индексации информационных                 описать следующим образом:
ресурсов, так и для организации семантического               •    Сервис поиска тематической электронной
                                                                  научной информации в сети Интернет. Этот
                                                                  сервис основан на применении тематического
Труды 13й Всероссийской научной конференции                       Веб-краулера [4], который в процессе своей
«Электронные библиотеки: перспективные методы и                   работы формирует в ИАС временное
технологии, электронные коллекции» – RCDL’2011,                   хранилище электронных научных публикаций,
Воронеж, Россия, 2011.                                            карт, космических снимков и соответствующих




                                                       152
            Рис.1 Архитектура ИАС «Природные ресурсы Карелии» – основные компоненты

    метаданных, полученных из сети Интернет в                   использованием онтологии; формирование
    результате тематического поиска.                            логического условия отбора данных с
•   Сервис      систематизации        электронной               использованием списка ключевых слов и
    научной       информации.        Осуществляет               логических операций – AND, OR, NOT;
    автоматическую                 систематизацию               выполнение процедуры поиска в хранилищах
    (предметизацию и индексацию) электронных                    системы с использованием логического
    научных публикаций с использованием                         условия отбора данных и базы индексов
    онтологии,     а    также    пополнение      и              публикаций; автоматическое ранжирование
    корректировку        хранилищ         системы:              результатов поиска по степени релевантности;
    космических        снимков,       ГИС-данных,               отбор и сохранение полученных результатов в
    электронных      научных     публикаций      и              «личном кабинете» пользователя.
    онтологий.      Процедура      систематизации             Таким образом, разрабатываемая нами система
    электронных      научных     информационных            должна обеспечить автоматизированный сбор
    ресурсов основана на применении технологии             тематической научной информации в сети
    продукционных экспертных систем (ЭС),                  Интернет, ее систематизацию (т.е. автоматическое
    которая содержит набор правил – продукций              разнесение электронных публикаций по их
    (условие – логическое выражение (описывает             содержанию к определенным предметным рубрикам
    содержание публикации), а действие –                   и формирование индексов), а также эффективный
    отнесение публикации к определенной рубрике            доступ пользователей к необходимой информации
    (в нашем случае – к определенным рубрикам              по запросам.
    ГРНТИ)). На входе ЭС – массив электронных
    публикаций (отобранный из временного                   3. Технологии систематизации и поиска
    хранилища      системы);    на     выходе    –         в ИАС «Природные ресурсы Карелии»
    распределение электронных публикаций по
    рубрикам ГРНТИ (предметизация). Далее, на                 В рамках создания ИАС «Природные ресурсы
    этапе индексации, с помощью онтологии                  Карелии» для решения задач систематизации и
    автоматически формируется база индексов                поиска научной электронной информации нами
    электронных публикаций.                                разрабатывается подход, основанный на совместном
•   Сервис запросов. Осуществляет поддержку                применении ГРНТИ и методов онтологического
    пользователей при составлении запроса к ИАС,           моделирования [6,9–11].
    которая включает: выбор ключевых слов с




                                                     153
   Онтологию можно определить как набор                          его целое> OR <объект его часть>
формализованных явных описаний терминов                          OR    <действующий   фактор>    OR
предметной области и отношений между ними                        <действие> OR <результат>) AND
(Gruber, T.R.). В нашем случае процедура                         <границы, ограничения>;
формирования       предметной      онтологии      по         •   <объект описания> AND (<тема> OR
выбранным направлениям естественных наук
                                                                 <пусто>);
заключается в следующем. По ресурсоведческим
направлениям исследований, развиваемым, в                    •   <дисциплина> AND (<характеристика>
частности, в КарНЦ РАН, устанавливается список                   OR <пусто>).
научных дисциплин и предметов их изучения. По
каждому      предмету      составляются       списки            Термины в угловых скобках (нетерминалы)
морфологических признаков и анатомических                    символически       представляют      номенклатуры
частей, списки свойств, списки классификаций и               терминов,     являющихся     частью    таксономии
классов по свойствам, списки взаимодействий и                терминов. Предполагается, что для каждой рубрики
воздействий между парами предметов (систем) и их             ГРНТИ это будут свои номенклатуры (хотя одна и
классов. Далее, устанавливаются парадигматические            та же номенклатура может входить в условия
отношения между терминами и, в соответствии с                разных рубрик); AND, OR и NOT – логические
ними, строится иерархическая структура связей                операции конъюнкции, дизъюнкции и отрицания.
терминов. Формирование предметной онтологии                  Основное требование к логическим условиям
проводится с привлечением ведущих ученых Центра              заключается в том, что они должны содержать все
и с учетом ранее созданных в других российских и             номенклатуры терминов, определяющие содержание
зарубежных организациях подобных предметных                  соответствующей рубрики, чтобы не «потерять»
онтологий.       Разработанная             онтология         релевантные публикации. Следует отметить, что на
представляется в виде базы данных. Для поддержки             первом этапе процесса систематизации (этапе
процессов создания и сопровождения онтологий                 предметизации) могут быть предметизированы и
разработаны      соответствующие       программные           нерелевантные публикации. На втором этапе (этапе
сервисы.                                                     индексации) предметизация уточняется.
   Систематизация публикаций необходима для их                  Следует также отметить, что логические условия
разделения по темам с целью сокращения времени               формируются для каждой рубрики индивидуально с
поиска    по     запросам     и   выполняется      с         использованием указанных схем. При этом в
использованием онтологии. Предполагается, что                зависимости от содержания рубрики, определяемого
массивы         публикаций          сопровождаются           экспертно, логическое условие может составляться
метаданными, в состав которых обязательно                    как комбинация из указанных схем. Ниже приведен
включаются заголовки публикаций и списки                     пример логического условия предметизации,
ключевых      слов.     Процесс      систематизации          представленного в виде правила-продукции ЭС.
разделяется на два этапа: предметизацию и                       IF (фитогеография OR фитоценология
индексацию. При этом в качестве информационной               OR геоботаника OR растительность OR
основы     предметизации      (кроме     таксономии          сообщество        OR           фитоценоз       OR
терминов) используется набор логических условий,             ценофлора)
с помощью которых осуществляется процесс                        THEN рубрика ГРНТИ – 34.29.35.
отнесения    публикаций      к    соответствующим            Растительность. Фитоценологии;
рубрикам ГРНТИ. Для формирования этих условий                   В настоящее время сформулирован ряд
используется ряд номенклатур из таксономии                   логических условий для предметизации публикаций
терминов.                                                    по биологии, почвоведению, лесному хозяйству и
   Для разработки логических условий нами                    водным ресурсам, относящихся к научным
проанализирован достаточно представительный                  направлениям КарНЦ РАН. По аналогичной схеме
массив научных публикаций сотрудников КарНЦ                  выполняется предметизация по всем имеющимся в
РАН. В результате проведенного анализа и                     информационной системе коллекциям публикаций.
консультаций специалистов были определены                    При этом метаданные публикаций помечаются для
следующие типы публикаций по характеру работ                 того, чтобы не предметизировать их повторно
безотносительно к ГРНТИ:                                     (например, после очередного пополнения коллекций
•    описание       результатов      экспериментов,          системы новыми публикациями). Публикации, для
     наблюдений, мониторинга и технологий;                   которых попытка         предметизации не дала
•    обобщенное описание объектов исследований,              результата, подвергаются повторной предметизации
     разработок;                                             при каждом запуске ЭС в расчете на возможное
•    состояние, проблемы и перспективы научных               пополнение/корректировку      набора   логических
     дисциплин, междисциплинарных исследований               условий предметизации (т.е. правил-продукций ЭС).
     (общие вопросы по дисциплинам, наукам).                    В процессе индексации в тексте каждой
   Для каждого типа публикаций разработана                   публикации ищутся термины соответствующего
обобщенная схема логического условия:                        рубрике фрагмента таксономии, и определяется их
•    <объект эксперимента> AND (<объект                      место в таксономии. Если при этом находится пара




                                                       154
                  Рис. 2. Поиск по таксономии, соответствующий рубрике «БИОЛОГИЯ»

терминов, лежащих на одной ветви таксономии (за           публикаций визуализируется на экран в виде
исключением пар, содержащих название рубрики),            гиперссылок для последующего просмотра или
то эта ветвь помещается в индекс. Так же                  сохранения текстов публикаций в «личном»
происходит со всеми найденными в тексте                   кабинете пользователя.
публикации терминами. В результате индекс                    В общем случае тематический запрос на поиск
представляет собой ряд строк (ветвей таксономии),         релевантных публикаций может быть достаточно
начиная с названия рубрики (корня) и включая все          сложным,     например,    «можно     ли   найти
термины таксономии вплоть до найденного                   жаропонижающее лекарственное растение на сухой
термина.                                                  опушке смешанного леса». Для обеспечения
   Таксономия терминов и база индексов                    построения «правильных» запросов и сокращения
публикаций обеспечивают тематический поиск                времени поиска нами      разработана технология
публикаций      по     запросам    пользователей.         построения запросов с использованием таксономии
Простейший вид запроса состоит в требовании               терминов, суть которой заключается в следующем.
найти все публикации, относящиеся к тематике              Пользователю сначала предлагается выбрать
одной    из    рубрик     ГРНТИ.    Пользователю          рубрику ГРНТИ, которая, по его мнению, должна
предлагается    сделать    выбор    рубрики    по         содержать материалы по его запросу (если этих
рубрикатору. После чего в базе индексов находятся         рубрик не одна, то придется построить несколько
записи, содержащие ее номер, и список названий            однотипных запросов). Далее ему предлагается




                                                    155
соответствующий рубрике фрагмент таксономии, в             построения       запросов,       основанная       на
котором он должен отметить интересующие его                соответствующей      систематизации      предметных
термины (Рис. 2).                                          областей. Существенно сокращает время поиска
   С использованием этих терминов формулируется            индексация текстов публикаций. В этом случае
запрос    в    виде    логического     выражения,          вместо полнотекстового поиска по всему массиву
определяющего конъюнктивные и дизъюнктивные                публикаций выполняется поиск в базе индексов, что
связи терминов. Поскольку поиск по запросу                 существенно быстрее.
осуществляется в базе индексов (а не в текстах                 Для    измерения     эффективности       методов
электронных публикаций), запрос автоматически              информационного поиска используется тестовый
расширяется включением в него конъюнкции                   набор данных, на котором строится оценка качества
терминов от корня и дизъюнкции терминов и их               [3]. Данный набор включает:
синонимов вплоть до листьев от указанных                   1. тестовую коллекцию документов;
пользователем      терминов.      Тем      самым           2. тестовое       множество        информационных
обеспечивается повышение точности отклика на                   потребностей пользователя, выражаемых в виде
запрос за счет конъюнкции терминов предыдущих                  запросов;
уровней таксономии и полноты за счет дизъюнкции            3. набор бинарных оценок для каждого найденного
терминов нисходящих уровней таксономии и их                    документа, характеризующих релевантность или
синонимов. Вид выражения выводится на экран для                нерелевантность данных документов к запросам.
того, чтобы пользователь мог его оценить и                     Для проведения экспериментов по оценке
скорректировать в случае необходимости.                    качества        информационных            технологий
   В настоящее время ранжирование документов в             систематизации и поиска информации в ИАС нами
отклике на запрос выполняется по следующим                 выбрана тестовая коллекция электронных научных
правилам. Первый ранг назначается документам, в            публикаций в области биологических наук в
которых полный набор терминов запроса                      количестве 1000 документов.
встречается в его заголовке и аннотации. Далее                 Для исследования качества предлагаемых
определяется встречаемость набора терминов                 методов систематизации и поиска информации в
запроса в тексте документов и вычисляется                  ИАС использовались традиционные метрики:
отношение этого числа к числу страниц текста. Если         полнота – r = a/(a+c); точность – p = a/(a+b) (где: a
это отношение не меньше половины, то документу             – найденные релевантные документы, b –
присваивается второй ранг, а если это отношение            найденные нерелевантные документы, c –
меньше 0.5 – третий ранг. После чего выполняется           ненайденные релевантные документы). Также мы
упорядочивание документов отклика в соответствии           используем показатель пертинентности, который
с назначенными рангами.                                    определяется отношением количества релевантных
                                                           документов,       отнесенных        к        рубрике,
4. Оценка эффективности работы                             соответствующей специальности или области
алгоритмов систематизации и поиска                         интересов пользователя (то есть к рубрикам ГРНТИ,
                                                           которые пользователь выбрал сам) к общему
   Эффективность системы поиска информации                 количеству документов в отклике на запрос [15].
характеризуется      следующими        основными           Выбор рубрики предоставляет наша технология, а
показателями: полнота, точность, пертинентность,           стандартные     интернет-поисковики       выполняют
а также затратами времени на поиск. Полнота                поиск по всему массиву документов. В результате в
поиска означает, что найдены все релевантные               отклике появляются документы из областей, не
запросу публикации в заданном массиве. Однако              интересующих пользователя, и пертинентность
сплошной просмотр всех публикаций в массиве                отклика падает. Например, на запрос «альгофлора»,
приводит к существенному увеличению времени                заданный гидробиологом, Яндекс выдает статьи по
поиска.    Для    уменьшения     этого    времени          альгофлоре почв и болот, что не соответствует
целесообразно      систематизировать       массив          потребностям гидробиолога. В то же время Яндекс
публикаций так, чтобы поиск выполнялся только в            не может раскрыть объем понятия альгофлора, и
определенной части массива. Точность поиска                ищет в текстах только этот термин. Наша
означает, что в отклике на запрос присутствуют             технология подразумевает выбор области интересов
именно те публикации, которые содержат наборы              (то есть предметных рубрик) до начала построения
терминов    запроса.    Пертинентность    отклика          запроса.    При    этом     запрос    автоматически
означает, что отобранные релевантные запросу               расширяется терминами, раскрывающими «объем»
публикации     соответствуют    информационным             термина     исходного     запроса.    Тем      самым
потребностям пользователя, его специальности,              обеспечивается полнота отклика на запрос и
области интересов и, в идеальном случае, не                достигается значение пертинентности близкое к
содержат публикации из других предметных                   единице. Обозначим пертинентность через P. Тогда,
областей. Одним из средств «борьбы» за точность и          P = a1/(a+b), где: a1 – количество пертинентных
пертинентность поиска является систематизация              документов, (a+b) – общее количество документов в
публикаций. Кроме того, повышению полноты и                отклике на запрос. Для оценки качества
точности    поиска     способствует    технология          ранжирования результатов запроса по степени




                                                     156
                                                                                                  Таблица 1

                                                               Поиск по Яндексу      Поиск по онтологии
                            Запрос
                                                                 r      p      P       r      p       P

    1   Недревесные лесные ресурсы                              0,40   0,47   0,30   0,74    0,94    0,78

    2   Альгофлора                                              0,41   0,68   0,61   0,89    0,77   0,77

    3   Лекарственные растения                                  0,60   1,00   1,00   1,00    1,00    1,00

    4   Паразиты рыб                                            0,90   0,91   0,91   0,91    0,98    0,98

    5   Действие физических факторов на растения                0,68   0,42   0,35   0,68    0,93    0,86

    6   Лесоводство. Методы ухода                               0,71   0,63   0,53   0,82    1,00    1,00

    7   Наземные позвоночные. Болезни, паразиты                 0,46   0,41   0,4    0,88    0,95    0,95


релевантности информационным потребностям                до 26% документов, релевантных соответствующим
пользователя можно использовать следующую                рубрикам. Это были документы, не содержавшие
метрику: Precision (n) = k/n (k – количество             терминов рубрик ни в названиях, ни в списках
релевантных документов среди первых n –                  ключевых слов. В основном это были сборники
документов отклика.                                      статей и отдельные статьи обзорного характера.
   Для    оценки    эффективности     поиска   с         Релевантные статьи, содержащиеся в этих
использованием        онтологии       выполнены          сборниках, в большинстве случаев, были уже ранее
эксперименты по поиску по ключевым словам (с             предметизированы      как    отдельные     статьи.
использованием поисковика Яндекс) и по                   Обобщающие статьи, хотя и содержат релевантные
разработанной нами технологии.                           термины, но содержание их текстов, как правило,
   Для проведения экспериментов были выбраны             не отличается новизной. Тем не менее, была
следующие запросы:                                       выполнена     коррекция    логических     условий
•    Недревесные лесные ресурсы.                         предметизации, в результате которой статьи из
•    Альгофлора.                                         «остатка»    оказались    предметизированы     по
•    Лекарственные растения.                             соответствующим рубрикам ГРНТИ. Однако пока
•    Паразиты рыб.                                       еще нет полной гарантии полноты предметизации,
•    Действие физических факторов на растения.           поэтому в технологию предметизации и индексации
•    Лесоводство. Методы ухода.                          включен дополнительный этап – индексация
                                                         «остатков» по всей имеющейся таксономии
• Наземные позвоночные. Болезни, паразиты                терминов, что, на наш взгляд, гарантирует полную
                                                         предметизацию всех электронных публикаций при
4.1 Оценка эффективности алгоритмов                      условии полноты самой таксономии.
предметизации и индексации
   Эффективность алгоритмов предметизации и              4.2 Оценка эффективности технологии поиска в
индексации определяется полнотой и точностью             ИАС
сформированных         логических        условий            Технология поиска основана на булевской
предметизации    (правил-продукций     ЭС)     и         модели оценки релевантности. Как было указано
таксономии терминов, определяющих содержание             выше, для оценки эффективности технологии
соответствующей предметной рубрики. На данный            поиска с использованием таксономии терминов
момент проведения исследований сформированы              было сформировано 7 запросов разной степени
таксономии терминов и логические условия                 сложности с целью оценки качества поиска, как по
предметизации для 32 предметных рубрик ГРНТИ.            сравнению с работой поисковика Яндекс, так и по
После выполнения предметизации и индексации              предложенной нами технологии поиска. Результаты
тестового массива документов были проведены              проведенных экспериментов сведены в таблице 1.
оценки релевантности их результатов. Анализ                 Из таблицы 1 видно, что в случае запросов,
массива предметизированных документов показал,           содержащих многозначные термины, поисковик
что все они релевантны соответствующим                   Яндекса выдает довольно скромные результаты в
предметным    рубрикам.    После    этого    был         плане полноты отклика на запрос за исключением
проанализирован «остаток» непредметизированных           отклика на запрос паразиты рыб. Последнее
документов тестового массива публикаций. По              объясняется тем, что словосочетание паразиты рыб
разным рубрикам в «остатке» было обнаружено от 0         встречается в заголовках и текстах почти всех




                                                   157
имеющихся релевантных запросу публикаций.                   нашем случае по ГРНТИ). Во-вторых, индекс
Словосочетание       лекарственные         растения         каждой публикации автоматически формируется с
встречается примерно в 90% публикаций, а                    использованием таксономии терминов и на наш
словосочетание недревесные лесные ресурсы                   взгляд более детально характеризует ее содержание
появляется в 40% публикаций. При поиске с                   по сравнению со списком ключевых слов. В-
использованием       онтологии     эти      запросы         третьих, в системе предусмотрена возможность (с
автоматически расширяются включением в их                   использованием             таксономии      терминов)
состав терминов, раскрывающих содержание                    автоматического расширения смысла многозначных
терминов запроса. Например, недревесные лесные              терминов запроса (например, полисемия терминов
ресурсы включает термины: пищевые (и список –               устраняется в процессе построения запроса за счет
ягод, грибов и орехов), лекарственные (и список             «отсечения»        других     предметных   областей).
лекарственных), рекреационные (и список –                   Процедура построения запроса в ИАС позволяет
туризм,    охота,     рыбалка).    Предварительно           пользователю выбрать по таксономии нужные
определено, что запрос альгофлора задан                     термины для формирования логического условия
гидробиологом, поэтому публикации по альгофлоре             отбора данных. При этом даже если пользователь
почв и болот для него не пертинентны (отсюда                указывает в запросе только один термин, запрос
следует довольно низкая оценка пертинентности               перед исполнением автоматически пополняется
поиска Яндексом). Низкая оценка полноты                     терминами названий предыдущих и последующих
объясняется тем, что Яндекс не имеет информации             уровней таксономии (и их синонимами), которые он
об объеме и содержании понятия альгофлора (в                прошел до выбора интересующего его термина.
таксономии термин альгофлора включает термины:                  Исследовательский прототип разрабатываемой
фитопланктон, перифитон, макрофит, а также                  системы, реализующий большую часть указанных
списки видов, входящих в их состав). В других               сервисов,         представлен      на    сайте     –
случаях оценки пертинентности довольно высокие.             http://ias.krc.karelia.ru.
Это объясняется тем, что в запросах использованы                Авторы выражают благодарность В.Г. Старковой
однозначные термины. Следует отметить, что во               и Н.Б. Луговой за реализацию предлагаемых
многих случаях запросы могут содержать                      технологий и сопровождение системы.
многозначные      термины     и    тогда     оценки
пертинентности отклика на запрос в поисковике               Литература
Яндекса могут резко упасть.
   Из рассмотренных примеров можно сделать                  [1] Jaudete Daltio, Claudia Bauzer Medeiros Aonde:
предварительный вывод о том, что эффективность                  An ontology Web service for interoperability
поиска с использованием онтологии, как и                        across biodiversity applications //Information
ожидалось нами, существенно выше, чем                           Systems 33 (2008) P. 724–753.
аналогичный поиск по Яндексу. В среднем                     [2] Hans-Michael Muller, Eimear E. Kenny, Paul W.
эффективность поиска с использованием онтологии                 Sternber      Textpresso:     An      ontology-based
по нашим оценкам выше: по полноте – в 1,8 раза, а               information retrieval and extraction system for
по точности и пертинентности – в 1,4 раза.                      biological literature / PLoS Biology 2 (11) (2004).
                                                            [3] Manning, C. An Introduction to Information
                                                                Retrieval / Christopher D. Manning, Prabhakar
5. Заключение
                                                                Raghavan, Hinrich Schьtze. – Cambridge,
   Таким образом, предварительные результаты                    England: Cambridge University Press. – April
проведенных     экспериментов     для    оценки                 2009. – P. 544 (84–133, 151–217, 443–481).
эффективности разработанных и реализованных                 [4] Najork, M. High-Performance Web Crawling / M.
технологий систематизации и поиска электронных                  Najork, A. Heydon // Kluwer Academic
публикаций в ИАС показали перспективность                       Publishers. – MA, USA. – 2002. pp. 25–45.
предлагаемого подхода. В настоящее время эти                    http://sw.deri.org/2008/01/webcontentsurvey/paper
технологии реализованы в ИАС не в полном объеме                 /paper.pdf
(предметизация      электронных      публикаций             [5] Roberto Navigli Word Sense Disambiguation: A
проводилась только по их названиям и без учета                  Survey // ACM Computing Surveys, Vol. 41, No.
соответствующих     списков   ключевых     слов,                2, Article 10, Publication date: February 2009, 69
требуется доработка (расширение, уточнение)                     pages       DOI      =     0.1145/1459352.1459355
предметных онтологий и логических условий                       http://doi.acm.org/10.1145/1459352.1459355
предметизации, также пока не реализован и                   [6] Kurt Sandkuhl, Alexander Smirnov, Vladimir
механизм ранжирования публикаций). Тем не менее,                Mazalov, Vladimir Vdovitsyn, Vladimir Tarasov,
они превзошли по качеству поиска Яндекс. Это                    Andrew Krizhanovsky, Feiyu Lin, Evgeny Ivashko
преимущество обусловлено на наш взгляд                          Context-Based Retrieval in Digital Libraries:
следующими основными причинами. Во-первых,                      Approach       and      Technological     Framework
массив электронных публикаций, в котором                        //Proceedings of the 11th All-Russian Research
осуществляется       поиск,      предварительно                 Conference «Digital Libraries: Advanced Methods
систематизирован по предметному рубрикатору (в                  and Technologies, Digital Collections» –




                                                      158
     RCDL’2009, Petrozavodsk, Russia, 2009. P 151–                 //Труды    XII     Всероссийской      научной
     157.                                                          конференции     «Электронные      библиотеки:
[7] Raquel Trillo, Laura Po, Sergio Ilarri, Sonia                  перспективные     методы      и   технологии,
     Bergamaschi, Eduardo Mena Using semantic                      электронные коллекции». RCDL’2010, Казань.
     techniques to access web data //Information                   13–16 октября 2010 г. С. 529–534.
     Systems. 36 (2011). P. 117–133.                          [18] Труды      Симпозиума         «Онтологическое
[8] David Vallet, Miriam Fernбndez, and Pablo                      моделирование». //Под ред. Л.А. Калиниченко.
     Castells An Ontology-Based Information Retrieval              – М.: ИПИ РАН, 2008. – 303 с.
     Model /Universidad Autуnoma de Madrid Campus
     de Cantoblanco / Tomбs y Valiente 11, 28049              Evaluation of the Technology Effectiveness
     Madrid                                                   of the Systematization and Search of Digital
[9] Вдовицын В.Т., Лебедев В.А. Онтологии для
     тематического поиска данных в коллекциях                  Scientific Information in the IAS «Natural
     электронной      библиотеки     //Труды        X                     Resources of Karelia»
     Всероссийской        научной        конференции                     © Vladimir Vdovitsyn, Viktor Lebedev
     «Электронные библиотеки: перспективные
     методы и технологии, электронные коллекции»              The article presents an approach to the creation and de-
     – RCDL'2008 (Дубна, 7–11 октября 2008 г.).               velopment of information-analytical system (IAS) of
     Дубна: ОИЯИ, 2008. C. 63–69.                             support and maintenance of scientific research of natu-
[10] В.Т. Вдовицын, В.А. Лебедев «Онтологическое              ral resources in the region. It emphasizes the assessment
     моделирование         контента       электронной         of the effectiveness of the developed technologies of the
     библиотеки КарНЦ РАН» //Труды КарНЦ РАН,                 systematization and search of e-science information in
     №      3.   2010.    Серия     «Математическое           the IAS using ontologies.
     моделирование          и       информационные
     технологии». Вып. № 1. С. 11–19.
[11] В. Вдовицын, В. Лебедев Технологии
                                                              ♣
     систематизации и поиска электронной научной                 The paper is based on research carried out as a part of the
     информации с применением онтологий                       project CoReLib supported by the Swedish Institute by grant #
     //Информационные ресурсы России. – 2010. –               00760-2010
     № 5. – С. 6 –10.
[12] А.Я. Гладун, Ю.В. Рогушина Применение
     тезауруса предметной области для повышения
     релевантности       поиска      в      Интернете
     //«Искусственный интеллект» 4’2005. С.742–
     752                                            –
     www.iai.dn.ua/public/JournalAI_2005_4/Razdel8/
     02_Gladun,_Rogushina.pdf
[13] Н.Н. Добрецов, И.И. Болдырев, Р.Д. Юсупов
     Гибридные информационные системы для
     поддержки междисциплинарных исследований
     //Вычислительные технологии. Том 12,
     Специальный выпуск 3, 2007. С. 29–41.
[14] Добров Б.В., Лукашевич Н.В. и др. Разработка
     лингвистической онтологии по естественным
     наукам для решения задач информационного
     поиска //Труды Седьмой Всероссийской
     научной        конференции         «Электронные
     библиотеки:      перспективные       методы    и
     технологии, электронные коллекции» –
     RCDL’2005, Ярославль, Россия, 2005 С. 70–79.
[15] Д.Е. Пальчунов Решение задачи поиска
     информации на основе онтологий //Бизнес
     информатика № 1–2008 г. С. 3–13.
[16] Россеева О.И., Загорулько Ю.А. Организация
     эффективного поиска на основе онтологий –
     http://www.dialog-
     21.ru/Archive/2001/volume2/2_49.htm
[17] Титов А.Ф., Вдовицын В.Т., Лебедев В.А.,
     Полин А.К. Информационно-аналитическая
     система      поддержки      и     сопровождения
     исследований природных ресурсов региона




                                                        159