=Paper= {{Paper |id=None |storemode=property |title=Ранжирование документов в системе поиска, основанной на применении онтологии (Document Ranking in Ontology-Based Information Retrieval System) |pdfUrl=https://ceur-ws.org/Vol-934/paper19.pdf |volume=Vol-934 |dblpUrl=https://dblp.org/rec/conf/rcdl/VdovitsynL12 }} ==Ранжирование документов в системе поиска, основанной на применении онтологии (Document Ranking in Ontology-Based Information Retrieval System) == https://ceur-ws.org/Vol-934/paper19.pdf
           Ранжирование документов в системе поиска,
              основанной на применении онтологии

                © В.Т. Вдовицын                     © В.А. Лебедев
 Институт прикладных математических исследований Карельского научного центра РАН
                                  Петрозаводск
                                vdov@krc.karelia.ru


                                                        поиска, основанной на применении онтологии. При
                  Аннотация                             этом учитываются как специфические особенности
                                                        самой технологии, так и некоторые известные
   В     работе    предлагается    алгоритм
                                                        приемы построения функций ранжирования [2].
   ранжирования документов, разработанный в
   плане развития технологии систематизации
   и поиска информации с применением онто-
                                                        2 Технология систематизации и поиска
   логии. При этом учитываются как специфи-             документов, основанная на применении
   ческие особенности самой технологии, так и           онтологии
   некоторые известные приемы построения
   функций ранжирования для систем поиска,                  Одним из перспективных направлений иссле-
   основанных на применении ключевых слов.              дований и разработок, направленных на повышение
                                                        эффективности информационного поиска, является
1 Введение                                              применение онтологий (ontology-based information
                                                        retrieval). Такие системы информационного поиска
   Разработка эффективных систем поиска в               учитывают смысловое содержание терминов
огромных     массивах     слабоструктурированных        запроса, используют онтологии, как для индексации
документов остается актуальной проблемой.               информационных ресурсов, так и для организации
Традиционные поисковые системы, которые                 семантического поиска в больших массивах
позволяют пользователю выразить свои информа-           документов. При этом исследуется и решается ряд
ционные потребности путем задания списка ключе-         проблем, связанных, например, с тем, какими
вых слов, обладают рядом существенных недостат-         преимуществами обладают системы информаци-
ков. К их числу следует отнести трудности,              онного поиска основанные на применении онтоло-
связанные в первую очередь с многозначностью            гии по сравнению с традиционными системами,
ключевых слов, недостаточным знанием терминоло-         осуществляющими поиск по ключевым словам? Как
гии предметной области, а также сложности форму-        выразить информационные потребности пользовате-
лирования запросов с использованием булевских           ля на онтологически-ориентированном языке
операторов [1]. С другой стороны, очень часто           (например, RDQL)? Исследуются также проблемы
поисковая система выдает по запросу пользователя        «неоднозначности» терминов, адаптации векторной
большой массив релевантных запросу документов и         модели поиска к особенностям онтологически-
далеко не всегда ранжирует их в соответствии с          ориентированного поиска, вопросы ранжирования
информационными потребностями пользователя.             найденных по запросу документов и др.
   Во многих поисковых системах используемые            Необходимо отметить, что проведенные многими
методы ранжирования документов, учитывающие             исследователями эксперименты по оценке эффек-
так называемые страничные факторы, базируются           тивности онтологически-ориентированных систем
на применении статистической информации о               поиска (по критерию – «точность/полнота»)
распределении ключевых слов в запросе и текстах         демонстрируют их преимущества по сравнению с
документов. Существуют различные подходы к              системами поиска по ключевым словам [3–5, 7].
построению функций ранжирования, например, в                В течение ряда последних лет нами
системах поиска, базирующихся на векторной моде-        разрабатывается и исследуется онтологически-
ли, проблема построения функции ранжирования            ориентированная технология систематизации и
документов в основном сводится к задаче опреде-         поиска электронных публикаций [7–10]. При этом
ления весовых коэффициентов терминов.                   под      онтологией     понимается   «формальное
   В данной работе предлагается подход к построе-       представление множества понятий предметной
нию алгоритма ранжирования документов в системе         области и связей между этими понятиями» [11].
                                                             В основу построенной онтологии положены:
Труды 14-й Всероссийской научной конференции            рубрикатор (в нашем случае ГРНТИ); набор
«Электронные библиотеки: перспективные методы и         логических условий предметизации документов (для
технологии, электронные коллекции» — RCDL-2012,
                                                        их распределения по соответствующим рубрикам
Переславль-Залесский, Россия, 15-18 октября 2012 г.
                                                        ГРНТИ); таксономия терминов определенной


                                                  106
научной предметной области, термины которой           которой заключается в следующем. Пользователю
связаны отношениями классификации «род–вид»,          сначала предлагается выбрать рубрику ГРНТИ,
агрегации, «часть–целое» и синонимии.                 которая, по его мнению, должна содержать
   Процесс систематизации публикаций разделя-         интересующие его материалы (если этих рубрик не
ется на два этапа: предметизацию и индексацию. В      одна, то придется построить несколько однотипных
качестве информационной основы предметизации          запросов). Далее ему предлагается соответству-
используются термины таксономии и набор логи-         ющий рубрике фрагмент таксономии, в котором он
ческих условий (логических функций, описываю-         должен отметить интересующие его термины. С
щих связи научных терминов по определенной            использованием указанных терминов система авто-
тематике исследований), с помощью которых             матически формирует запрос в виде логического
осуществляется процесс отнесения публикаций к         выражения, определяющего конъюнктивные и/или
соответствующим рубрикам (в нашем случае – к          дизъюнктивные связи терминов.
рубрикам ГРНТИ). Для формирования этих                   Следует отметить, что поскольку поиск по
логических условий, описывающих содержание            запросу осуществляется в базе индексов (а не в
публикаций, используются термины таксономии и         текстах электронных публикаций), запрос автома-
логические операторы: AND, OR, NOT.                   тически    расширяется       включением      в   него
   Ниже приведен пример логического условия           конъюнкции терминов от корня и дизъюнкции
предметизации, представленного в виде простого        терминов и их синонимов вплоть до листьев от
правила-продукции экспертной системы.                 указанных пользователем терминов. Тем самым
                                                      обеспечивается повышение точности ответа на
   IF (охлаждение OR температура OR влага OR
                                                      запрос за счет конъюнкции терминов предыдущих
влажность     OR     нестабильный   климат    OR
                                                      уровней таксономии и полноты за счет дизъюнкции
устойчивость OR стойкость OR выживаемость OR
                                                      терминов одного уровня таксономии и их
адаптация OR терморезистентность OR реакция)
                                                      синонимов. Список названий найденных по запросу
AND (растения OR пшеница OR картофель)
                                                      публикаций выводится пользователю в виде
   THEN рубрика ГРНТИ – 34.31.15. Действие            гиперссылок для последующего просмотра или
физических факторов на растения                       сохранения текстов публикаций в «личном»
   В настоящее время сформулирован ряд логи-          кабинете пользователя (рис.1).
ческих условий (правил-продукций) для предмети-          Таким образом, использование базы индексов
зации публикаций по некоторым направлениям            как    результата      систематизации      публикаций
биологии, почвоведения, лесному хозяйству и           непосредственно для их поиска обеспечивает с
водным ресурсам, относящихся к направлениям           одной стороны устранение полисемии терминов (т.е.
научных исследований институтов КарНЦ РАН.            устраняет многозначность терминов за счет «отсе-
   Процесс индексации состоит из двух основных        чения» других предметных областей в процессе
этапов. На первом этапе выполняется нормализация      построения запроса), а с другой определяет
текста – каждая публикация переводится из формата     конкретную предметную область запроса. Тем
PDF в формат TXT, из текста удаляются                 самым обеспечивается как релевантность, так и
«малоинформативные» слова, к тексту и терминам        пертинентность найденных системой по запросу
выделенного фрагмента таксономии применяется          документов.
алгоритм стемминга (в нашем случае – Стеммер          Следует также заметить, что пользователю на наш
Портера). На втором этапе осуществляется после-       взгляд гораздо проще и точнее выразить свои
довательное сканирование текста публикации и          информационные потребности путем указания
сопоставление каждого слова с терминами               терминов в таксономии по сравнению с заданием
выделенного фрагмента таксономии, характеризую-       списка ключевых слов. При этом ему не надо
щего содержание предметной рубрики. Т.е. в            формировать логические условия отбора данных с
процессе индексации последовательно обходятся         использованием логических операторов: AND, OR,
поддеревья всех рубрик, к которым была отнесена       NOT (система делает это автоматически).
публикация на этапе предметизации. При этом каж-
                                                         Апробация разработанной технологии прово-
дый раз производится поиск термина таксономии в
                                                      дится в рамках создания и развития информацион-
тексте публикации и если обнаруживается такое
                                                      но-аналитической системы «Природные ресурсы
вхождение термина, то индексируется не только
                                                      Карелии» – http://ias.krc.karelia.ru [12].
этот термин, но и все его предки из исследуемого
поддерева рубрики. Таким образом, индекс публи-          На основе разработанной онтологически-
кации представляет собой упорядоченную совокуп-       ориентированной технологии систематизации и
ность терминов таксономии, и на наш взгляд более      поиска информации можно построить ряд
детально характеризует ее содержание по сравне-       информационных систем различного функционала и
нию с традиционным списком ключевых слов.             назначения. Например, может быть разработана
                                                      информационная система для оперативной (в режи-
   Таксономия и база индексов публикаций
                                                      ме on-line) поддержки деятельности спортивных
обеспечивают тематический поиск публикаций по
                                                      журналистов. Для этого потребуется разработать
запросам пользователей. Нами          разработана
                                                      соответствующую предметную онтологию (рубри-
технология построения и исполнения запросов, суть
                                                      катор видов спорта, ряд логических условий пред-


                                                107
           Рис. 1. Поиск по онтологии, соответствующий рубрике «Сельское и лесное хозяйство».

метизации для распределения поступающих новос-        «личный кабинет» пользователя новыми найден-
тей по рубрикам, таксономию терминов предмет-         ными публикациями, релевантными его информаци-
ной области и их синонимов), а также сформировать     онным потребностям в соответствии с заданным
«персональный профиль» пользователя–журналис-         персональным профилем пользователя (при этом все
та, определяющий его информационные потреб-           найденные новые публикации получат помету NEW,
ности.                                                а по электронной почте пользователю могут
   В данной работе рассматривается модель             приходить уведомительные сообщения).
информационной системы, предназначенной для
систематизации,     поиска     и     ранжирования     3 Алгоритм ранжирования документов,
электронных научных публикаций, соответству-          основанный на применении онтологии
ющих информационным потребностям пользовате-
ля. Предполагается, что свои информационные              Первоначально мы        разрабатывали    схему
потребности такой пользователь выражает путем         ранжирования     документов,    основываясь     на
указания в таксономии терминов определенной           традиционном (статистическом) подходе. В общем
научной предметной области соответствующих            виде такая схема ранжирования выглядит
терминов. На их основе система автоматически          следующим образом. Первый ранг назначался
сформирует его «персональный профиль», который        документам, в которых полный набор терминов
будет использоваться для систематизации, поиска и     запроса входит в его название и аннотацию. Далее
ранжирования электронных научных публикаций.          определялась частота вхождения набора терминов
Массив публикаций может регулярно пополняться         запроса в тексте документов, и вычислялось
(например, с помощью тематического краулера), а       отношение этого числа к числу страниц текста. Если
система в автоматическом режиме будет пополнять       это отношение было не меньше половины, то



                                                108
документу присваивался второй ранг, а если это             T = (Tn,Тn-1,…,T1) – расширенный вектор
отношение получалось меньше 0.5 – третий ранг.         терминов (таких векторов может быть несколько,
После чего выполнялось упорядочивание докумен-         все они упорядочиваются по длине, чем «длиннее»
тов, полученных системой при формировании              вектор, тем «ценнее» должны быть найденные
ответа на запрос, в соответствии с назначенными        системой на основе данных терминов публикации);
рангами.                                                   (vn, vn-1, … , v1) – веса компонент вектора T (vn >
   В основу модифицированного алгоритма                vn-1 > … > v1 , значения весов можно вычислить,
ранжирования документов положено предполо-             например, по следующему правилу: vi = log210*i, i =
жение о том, что указанные пользователем (при          1,2, …, n);
формировании запроса или задании персонального             (ψ1,ψ2,…,ψm) – веса, приписанные определенным
профиля) в таксономии термины, расположенные           зонам публикации, куда могут входить термины
на «нижних» уровнях древовидной структуры              запроса (например, если мы учитываем вхождение
(представляющей таксономию), в большей                 термина в название публикации, список ключевых
степени определяют для него «ценность»                 слов, аннотацию, основной текст публикации, то в
публикации, чем термины, расположенные на              этом случае m = 4). Для научных публикаций
«верхних» уровнях этого дерева. Также мы               логично предположить, что ψ1 > ψ2, > ψ3 > ψ4 (т.е.
учитываем и тот факт, что «ценность» публикации        термины запроса, входящие в название публикации,
для пользователя во многом определяется и тем, в       являются более значимыми при ранжировании);
какой зоне текста публикации наиболее часто
                                                           {xji} – число вхождений данного термина в
появляется термины запроса (например, в научных
                                                       соответствующее поле публикации, j = 1, … , m;
статьях можно выделить следующие зоны: название,
                                                       i = 1, … , n;
ключевые слова, аннотация, основной текст и т.п.).
Если термин запроса появляется в названии и/или в          w – вес публикации, вычисленный с помощью
списке ключевых слов, то можно предположить, что       функции ранжирования.
эта публикация в большей степени соответствует              Тогда, функция ранжирования для оценки веса
информационным потребностям пользователя, чем          публикаций в нашем случае будет иметь следующий
иные публикации, в которых этого не зафиксиро-         вид:
вано (аналогичное предположение учитывается,                   n     4
например, в алгоритме OKAPI BM25F [13]).                   w = Σ vi *Σ ψj * xji                          (1)
   С учетом этих, на наш взгляд вполне разумных                i=1   j=1
предположений, предлагается модифицированный               На рис.2 приведен пример запроса, результаты
алгоритм ранжирования, разработанный для               выполнения которого упорядочены в соответствии с
рассматриваемой модели информационной системы,         предложенным в работе модифицированным
который можно представить, в самом общем виде,         алгоритмом ранжирования публикаций.
следующим образом.                                     Следует отметить, что в функции ранжировании (1)
   По сформулированному запросу (или по                учитывается встречаемость терминов запроса в
заданному профилю пользователя) формируется            соответствующих зонах публикации (например, в
расширенный вектор терминов T = (Tn,Тn-1,…,T1),        нашем случае учитывается число вхождений
где: T1 – корневой термин выделенного фрагмента        термина запроса в следующие выделенные зоны:
таксономии, а Tn – термин, расположенный на            название публикации, список ключевых слов,
«концевой» вершине дерева (представляющего             аннотацию и основной текст). Если в первых трех
таксономию терминов) и лежащий на соответ-             случаях достаточно использовать количество
ствующем пути дерева от «последнего» указанного        вхождений каждого термина в соответствующую
в запросе термина (промежуточные термины Тn-           зону публикации (таких вхождений будет немного –
1,…,T2 составляют путь в дереве). Таких векторов,      1 или 2), то количество вхождений термина в
сформированных по запросу, может быть несколько,       основной текст публикации зависит от размера
и все они упорядочиваются по убыванию длины.           конкретной публикации («большая» публикация
При этом каждый такой вектор определяет название       может содержать больше повторений одного и того
раздела, в который будут помещаться найденные          же термина, чем «маленькая», но, тем не менее,
системой по запросу публикации.                        являться более релевантной запросу пользователя).
   Предполагается, что в результате выполнения         В таких случаях обычно используют параметр «вес
запроса все найденные публикации распределяются        термина», который обозначим через ω4i (вес
по соответствующим разделам (наименование              термина i в 4 зоне – в тексте публикации) и
раздела формируется из списка терминов, указан-        определим его следующим образом: ω4i = 1 + log10
ных в векторе T), а внутри каждого раздела все         x4i, если x4i > 0; и 0 – в противном случае. С
публикации сортируются по значению их весов,           учетом этого формула (1) будет выглядеть
вычисленных с помощью предложенной функции             следующим образом:
ранжирования.
   Для построения функции ранжирования введем                 n          3
следующие обозначения:                                    w = Σ vi * (Σ ψj * xji + ψ4 * ω4i)             (2)
                                                              i=1     j=1



                                                 109
       Рис. 2. Пример поиска по онтологии, соответствующий рубрике «Сельское и лесное хозяйство», с
                  ранжированием найденных публикаций по предложенному алгоритму.


                                                          Для оценки эффективности предложенного
Таким     образом,    процедура    ранжирования        метода ранжирования нами запланированы и
публикаций в онтологически-ориентированной             проводится серия вычислительных экспериментов и
системе поиска состоит в следующем. Во-первых,         сравнение результатов работы нашей системы с
все    найденные     по    запросу    публикации       результатами    поисковой    системы     «Яндекс.
распределяются системой по разделам (при этом          Персональный поиск». В системе персонального
наименование каждого раздела формируется из            поиска «Яндекс» реализованы свои механизмы
соответствующего расширенного списка терминов          полнотекстового поиска документов по ключевым
запроса). Во-вторых, разделы упорядочиваются в         словам и ранжирование полученных результатов,
соответствии с длиной соответствующего вектора T.      детали которых нам не известны. Для проведения
В-третьих, внутри каждого раздела все найденные        вычислительного эксперимента были отобраны
публикации упорядочиваются в соответствии с их         электронные публикации, которые на этапе
весами, вычисленными с помощью построенной             предметизации были отнесены нашей системой к
функции ранжирования (2). Кроме того, в функцию        рубрикам «68.47.29. Лесопользование» (36 статей) и
ранжирования можно включить и дополнительные           «68.47.15. Лесоводство» (39 статей). При этом в
параметры     (например,    индекс   цитирования       предложенной     формуле     ранжирования      (2)
публикации, количество обращений к данной              учитывались значения весов терминов, входящих в
публикации и т.п.), которые также могут служить        название документа и в его основной текст (т.е.
основанием для их первоочередного просмотра.           значения весов терминов запроса, входящих в
                                                       аннотацию и список ключевых слов публикации на


                                                 110
                            Название публикации                                         Ранг публикации
  (в скобках указан вес публикации, вычисленный с помощью предложенного
                           алгоритма ранжирования)                                     Поиск по
                                                                                                 Яндекс
                                                                                      таксономии
Лесные ресурсы таежной зоны России: проблемы лесопользования и
лесовосстановления: Материалы Всеросс. науч. конф. с международ. участием                   1           3
(Петрозаводск 30.09-03.10.2009 г.) (66)
Основы лесного хозяйства для лесопользователей (54)                                         2           1
Рекомендации по устойчивому лесопользованию на осушаемых землях (44)                        3           4
Динамика лесопользования и состояние лесного фонда Карелии (38)                             4           7
Механизация восстановления леса в системе интенсивного лесопользования (37)                 5           2
Структура лесного фонда, динамика и перспективы лесопользования в Карелии
                                                                                            6           5
(36)
Проблемы интенсификации лесопользования в Республике Карелия (36)                           7           11
Социальные институты лесного хозяйства, их влияние на эффективность
                                                                                            8           9
лесопользования (вопросы теории и практики) (33)
Пространственно-временная динамика лесного фонда и лесопользования
                                                                                            9           8
европейской части РФ (32)
Научные разработки Института леса КарНЦ РАН и их реализация в области
                                                                                           10           13
лесопользования и лесовосстановления (30)
Системный подход к ключевым проблемам развития экономики
                                                                                           11           14
лесопромышленного комплекса Республики Карелия (26)
Выбор технологии лесозаготовок на основе экологической совместимости с
                                                                                           12           10
лесной средой (23)
Освоение заболоченных лесов как фактор интенсификации лесопользования в
                                                                                           13           6
Республике Коми (17)
Противоречия интеграционных процессов в лесопромышленном комплексе (13)                    14           12

           Рис. 3 Результаты ранжирования по запросу «68.47.29. Лесопользование. Заготовка древесины»

данный момент не учитывались при вычислении
веса публикации).                                          4 Заключение
   Результаты проведенного эксперимента (рис.3)               Предложенная онтологически-ориентированная
были показаны эксперту в данной предметной                 технология систематизации и поиска электронных
области, который оценил результаты ранжирования            научных публикаций позволяет на наш взгляд
публикаций, полученные нашей системой, как более           разработать эффективный метод их ранжирования,
релевантные его информационным потребностям,               который учитывает как специфические особенности
по сравнению с результатами Яндекса.                       самой технологии, так и известные приемы постро-
   Следует также отметить, что по запросу                  ения функций ранжирования, основанные на
«68.47.29. Лесопользование. Недревесные лесные             использовании статистической информации о
ресурсы» поисковая система Яндекс нашла всего 3            распределении терминов в запросе и текстах
документа, а при поиске по таксономии было                 публикаций.
найдено 17 документов. Такая разница в результатах             К специфическим особенностям технологии
поиска объясняется тем, что в нашем случае                 поиска, используемых нами при построении функ-
система, при поиске по таксономии, осуществляет            ции ранжирования, относится предположение о том,
автоматическое расширение запроса за счет                  что указанные в запросе термины, расположен-
включения в него терминов таксономии, связанных            ные на «нижних» уровнях древовидной структу-
с ним семантическими отношениями (в данном                 ры (представляющей таксономию), в большей
случае потомками термина «Недревесные лесные               степени определяют для пользователя «цен-
ресурсы» являются термины: «Лекарственные»,                ность» публикации, чем термины, располо-
«Пищевые» и т.д.).                                         женные на «верхних» уровнях этого дерева.
                                                              Указанные в запросе термины иерархически
                                                           связаны между собой определенными отношениями


                                                     111
(классификации, агрегации, часть-целое и синони-
мии) и в этом смысле они должны оказывать боль-                  [8] В.Т.      Вдовицын,      В.А.     Лебедев.     Оценка
шее влияние на качество ранжирования публикаций,                     эффективности технологий систематизации и
в отличие, скажем, от списка ключевых слов, в                        поиска электронной научной информации в ИАС
котором обоснованное выделение более значимых                        «Природные ресурсы Карелии» // Электронные
                                                                     библиотеки: перспективные методы и технологии,
для целей ранжирования терминов представляется
                                                                     электронные коллекции. Труды 13-й Всероссийской
затруднительным делом.                                               научной конференции RCDL’2011 (Воронеж, 19–22
   В настоящее время проводится ряд вычисли-                         октября 2011 г.), 2011. C. 309–316.
тельных экспериментов, результаты которых позво-                 [9] В. Вдовицын, В. Лебедев. Технологии систематиза-
лят более точно оценить значения параметров                          ции и поиска электронной научной информации с
предложенной функции ранжирования (1), а также                       применением онтологий // Информационные ресур-
предложенного метода ранжирования публикаций в                       сы России. № 5. 2010. C. 6–10.
целом.                                                          [10] Kurt Sandkuhl, Alexander Smirnov, Vladimir Mazalov,
                                                                     Vladimir Vdovitsyn, Vladimir Tarasov, Andrew Krizha-
   Авторы приносят свои благодарности Ю.В. Чир-
                                                                     novsky, Feiyu Lin, Evgeny Ivashko Context-Based
ковой, Н.Б. Луговой и В.Г. Старковой за плодо-                       Retrieval in Digital Libraries: Approach and Technolo-
творное обсуждение рассматриваемых вопросов и                        gical Framework //Proceedings of the 11th All-Russian
реализацию исследовательского прототипа техно-                       Research Conference «Digital Libraries: Advanced
логии.                                                               Methods and Technologies, Digital Collections» –
   Работа выполнена при частичной поддержке                          RCDL’2009, Petrozavodsk, Russia, 2009. P. 151–157.
гранта РФФИ № 12-07-00070а.                                     [11] Сайт Рабочей группы Симпозиума «Онтологическое
                                                                     моделирование» URL: http://ontology.ipi.ac.ru/index..
Литература                                                      [12] Титов А.Ф., Вдовицын В.Т., Лебедев В.А., Полин
                                                                     А.К. Информационно-аналитическая система под-
 [1] Manning, C. An Introduction to Information Retrieval /          держки и сопровождения исследований природных
     Christopher D. Manning, Prabhakar Raghavan, Hinrich             ресурсов региона //Труды XII Всероссийской науч-
     Schьtze – Cambridge, England: Cambridge University              ной конференции «Электронные библиотеки:
     Press. – April 2009. – P. 544.                                  перспективные методы и технологии, электронные
 [2] Robertson, S. E., & Zaragoza, H. (2009). The Probab-            коллекции». RCDL’2010, Казань. 13–16 октября
     ilistic Relevance Framework: BM25 and Beyond.                   2010 г. С. 529–534.
     Foundations and Trends in Information Retrieval, Vol.      [13] Dr. E. Garcia Tutorial on Okapi Simple BM25F –
     3, No. 4 (2009) 333–389.                                        URL:      http://www.miislita.com/information-retrieval-
 [3] David Vallet, Miriam Fernбndez and Pablo Castells An            tutorial/okapi-simple-bm25f-tutorial.pdf          (дата
     Ontology-Based Information Retrieval Model /Lecture             обращения: 18.04.2012).
     Notes in Computer Science, 2005, Volume 3532/2005,
     103–110.                                                       Document ranking in ontology-based
 [4] Raquel Trillo, Laura Po, Sergio Ilarri, Sonia Berga-              information retrieval system
     maschi, Eduardo Mena Using semantic techniques to
     access web data //Information Systems. 36 (2011). P.                  Vladimir Vdovitsyn, Viktor Lebedev
     117–133.
                                                                    We propose an algorithm for document ranking
 [5] Mauro Dragoni, Cйlia da Costa Pereira, Andrea G.B.
     Tettamanzi A conceptual representation of documents        produced as part of the work for development of the
     and queries for information retrieval system by using      ontology-based technology for data systematization and
     light ontologies /Expert Systems with Applications 39      retrieval. Both specific characteristics of the technology
     (2012) 10376–10388.                                        and some known methods for building ranking
 [6] Добров Б.В., Лукашевич Н.В. Онтология по естест-           functions for retrieval systems based on key words are
     венным наукам и технологиям ОЕНТ: структура,               taken into account.
     состав и современное состояние /Российский науч-
     ный электронный журнал «Электронные библио-
     теки», 2008–Том11–Выпуск 1.
 [7] В. Вдовицын, В. Лебедев. Технологии информа-
     ционного обеспечения научных исследований в
     ИАС «Природные ресурсы Карелии» // Информа-
     ционные ресурсы России. № 1. 2012. C. 7–12.




                                                          112