=Paper=
{{Paper
|id=Vol-1108/paper24
|storemode=property
|title=Разработка методов и средств контроля достоверности и актуальности фактографического наполнения информационных систем
(Developing Methods for Maintaining Data Reliability in an Information System Based on Facts)

|pdfUrl=https://ceur-ws.org/Vol-1108/paper24.pdf
|volume=Vol-1108
|dblpUrl=https://dblp.org/rec/conf/rcdl/Sery13
}}
==Разработка методов и средств контроля достоверности и актуальности фактографического наполнения информационных систем
(Developing Methods for Maintaining Data Reliability in an Information System Based on Facts)
==
<pdf width="1500px">https://ceur-ws.org/Vol-1108/paper24.pdf</pdf>
<pre>
Разработка методов и средств контроля достоверности и
    актуальности фактографического наполнения
              информационных систем

                                     © А.С. Серый
                  Институт Систем Информатики им. А.П. Ершова СО РАН
                                     Новосибирск
                                 Alexey.Seryj@iis.nsk.su


                                                          реляционных баз данных, лежащих в основе
                 Аннотация                                информационных систем [2]. В контексте данной
   В данном исследовании представлены                     работы понятия онтологии и концептуальной схемы
                                                          используются     как   равнозначные,      онтология
   методы и подходы к автоматизации
                                                          предметной области задается в виде базовых
   обработки входящего потока данных в
                                                          понятий, организованных в таксономию, и
   информационной системе, где информация
   — это множество          информационных                совокупности связей между ними. Данные, при
   объектов, соответствующих понятиям и                   этом,    представляются     в    виде    множества
                                                          разнотипных     информационных       объектов    —
   отношениям онтологии предметной области
                                                          экземпляров понятий и отношений онтологии. В
   системы.    Решаются      задачи    поиска
                                                          совокупности объекты образуют контент или
   референциальных связей и идентификация
                                                          информационное наполнение системы. Каждый
   объектов. Кроме того, предлагаются методы
   получения из трастовых метрик (trust                   объект определяется понятием или отношением
   metrics)    информационных        ресурсов             онтологии и, являясь экземпляром класса, имеет
                                                          заданную им структуру.
   соответствующих метрик для извлекаемых
   документов и той информации, которая                      Информационная система должна отображать
   заключена в извлекаемых из документов                  изменения, происходящие в ее предметной области.
   объектах. Предполагается, что такой подход             Очевидно, что накапливаемые в системе факты
   позволит обеспечить удаление утративших                (свойства или утверждения об объектах) могут
   доверие данных, тем самым, снизив долю                 оказаться неверными, противоречивыми или
   участия эксперта в процессе проверки                   некорректными.      Поддержание       контента    в
   информации и уменьшив количество                       актуальном состоянии повышает эффективность
   ошибок и противоречий в системе.                       исполнения системой своих функций, позволяет
                                                          менее расточительно использовать компьютерные
1 Введение                                                ресурсы и снижает вероятность возникновения
                                                          ошибок.
    В современном мире информационные системы
                                                             В    данной     работе     предложены      метод
занимают довольно обширную нишу. Глобальная
                                                          автоматической обработки входящего потока
Сеть непрерывно пополняется новой информацией:
                                                          информационных объектов и метод оценки
как     текстовой,  так    и    мультимедийной.
                                                          достоверности данных в информационной системе.
Пользователю все труднее становится найти то, что
было бы для него полезно. Отсюда и появление                 Входящим потоком данных в нашем случае
многочисленных        поисковых        сервисов,          считается множество информационных объектов,
информационных порталов, а также систем,                  источником     которых      являются      текстовые
аккумулирующих информацию, относящуюся к                  документы. Основными задачами данного этапа
некоторой ограниченной области знаний или                 являются поиск референциальных связей объектов и
предметной области.                                       разрешение      контекстной     омонимии       (или
                                                          идентификация) объектов. Контекстная омонимия
    Результаты исследований двух последних
                                                          зачастую сопровождает процесс автоматической
десятилетий привели к активному использованию
                                                          обработки текстов на естественном языке и
онтологий в качестве концептуальных схем
                                                          проявляется в наличии двух и более вариантов
Труды 15-й Всероссийской научной конференции
                                                          отождествления полученных из текста объектов с
«Электронные библиотеки: перспективные методы и           объектами базы данных информационной системы.
технологии, электронные коллекции» — RCDL-2013,           Разрешение референции предполагает поиск
Ярославль, Россия, 14-17 октября 2013 г.                  кореферентных информационных объектов, т.е.


                                                    194
описывающих одну и ту же внеязыковую сущность             объединяются в кластер, который в дальнейшем
предметной области, называемую референтом.                интерпретируется как единый объект        . В рамках
Разработано     множество      методов     поиска         одной итерации для каждого объекта q
референциальных связей языковых выражений в               выполняются действия, описанные в п. 2.1–2.3.
текстах, но, в силу сложности подобных задач              2.1 Вычисление степени сходства q со всеми
вообще и для русскоязычных текстов в частности,           объектами из его окрестности
они не всегда решаются целиком. Не охваченные в
                                                              Для сравнения объектов вводится коэффициент
процессе обработки текста случаи могут послужить
причиной появления информационных объектов,               сходства           (similarity index), где q1 и q2—
собранных на основе кореферентных выражений.              сравниваемые объекты.
Наличие подобных объектов во входящем потоке                               {                               (1)
данных нежелательно, т.к. снижает точность
идентификации. Разработанный для решения этой
задачи подход позволяет абстрагироваться от               Операция      вычисления      SI    не     является
технологии обработки текста, лишь налагая на              коммутативной, поэтому будем говорить, что
формат     объектов     некоторые     требования,         вычисляется степень сходства объекта q2 с объектом
определяемые способом описания онтологии                  q1. Объект q1 при этом называется эталоном, а q2 —
предметной области [3].                                   кандидатом.                             называется
   Задача поддержания актуальности данных                 таксономической близостью объектов q1 и q2 и
ставится разработчиками информационных систем             зависит       от      взаимного      расположения
повсеместно, однако используемые методы могут             соответствующих им классов онтологии в ее
сильно различаться. Универсальным методом                 иерархическом         древе,
можно назвать периодическую сверку с источником.          характеризует близость наборов свойств: атрибутов
В большей степени это относится к информационно-          и связей. Коэффициент k регулирует уровень
справочным системам. Перепись населения страны            влияния      онтологических      и    атрибутивно-
также можно назвать сверкой с источником и на             реляционных факторов на итоговую величину. Его
примере такой переписи можно увидеть, что                 значение определяется экспериментальным путем и
процедура перепроверки данных может быть весьма           может изменяться в зависимости от задачи.
продолжительной и дорогостоящей; более того,              Формулы для вычисления выражения (1) и его
перепроверка данных возможна не всегда.                   подвыражений подробно описаны в [6].
Предлагаемый в данной работе метод позволяет
                                                          2.2 Построение множества потенциальных
оценить достоверность данных в информационной
                                                          эквивалентов объекта q
системе, спроектированной на основе онтологии,
отслеживать его изменения и удалять информацию,               Множество      потенциальных      эквивалентов
которой более нельзя доверять.                            объекта q состоит из всех объектов                ,
                                                          удовлетворяющих условиям (2).
2 Поиск кореферентных объектов                                          {           |                     (2)
    Поиск кореферентных объектов рассматривается          Здесь        — это некоторая окрестность объекта q
как      подготовительный      этап    процедуры          в    списке     объектов    (изначально    объекты
идентификации и включает в себя установление              упорядочены по встречаемости в источнике). Размер
степени сходства объектов, построение множества           окрестности определяется исходя из правил и
гипотетических эквивалентов для каждого объекта и         экспериментальных наблюдений, в частности
объединение кореферентных объектов. Подход,               описанных в компании RCO [5, 6].
разработанный для решения этой задачи, опирается          2.3 Выбор эквивалента для q из множества его
на результаты работы группы исследователей из             потенциальных эквивалентов
университета Стэнфорда [4] по разрешению                      Эквивалентом объекта q считается ближайший к
референции между языковыми выражениями в                  нему объект из множества           с максимальным
текстах на английском языке, а также на                   либо близким к максимальному значением            .
исследования компании RCO [5] закономерностей             Если таковой отсутствует или не является
использования референции при построении связных           предшествующим объекту q, то говорим, что q
предложений на русском языке. Кроме того,                 упомянут в тексте впервые. Объект, состоящий в
концепты предметной области и их экземпляры,              кластере и не имеющий эквивалента, т.е.
представленные в системе, должны удовлетворять            соответствующий самому первому упоминанию,
ограничениям, описанным в [6].                            будем называть его глобальным эквивалентом или
    Разрешение      кореферентности      объектов         G-эквивалентом. В случае невозможности выделить
представляет собой итерационный процесс, где              единственный эквивалент, говорим, что объект q не
одной итерации соответствует единичный проход по          имеет эквивалента.
множеству входных объектов и проверка каждого из          2.4 Условия остановки и результат
них на наличие эквивалента — ближайшего
                                                              Итерации следует повторять до тех пор, пока
кореферентного объекта. В случае обнаружения для
                                                          существует возможность строить новые кластеры
объекта q эквивалентного объекта              они


                                                    195
или пополнять уже существующие. Первая                     if T =  then
итерация, не принесшая новых данных, считается             return Q
завершающей.                                               Q  T
   Интерпретация кластеров как обычных объектов            i i + 1
позволяет на каждом шаге процесса в полной мере            end while
использовать информацию о референциальных                  return Q
связях объектов, добытую на предыдущих шагах. За           end algorithm
счет интеграции внутри кластера информации обо
всех содержащихся в нем объектах такой подход                     Листинг 1. Поиск похожих объектов
повышает эффективность всего процесса в целом.
                                                               Результатом работы алгоритма будет множество
   Отношение        кореферентности      объектов,
                                                           Q объектов, совпадающих с заданным объектом q по
обозначим его , очевидно, является отношением
                                                           максимальному количеству атрибутов.
эквивалентности.     Множество      объектов
разбивается, таким образом, на непересекающиеся                Для того чтобы идентифицировать объект,
кластеры,     представляющие     собой     классы          необходимо сузить множество похожих объектов до
эквивалентности по отношению          , а после            одного, т.е. снять неопределенность. Алгоритм
объединения кореферентных объектов мощность                идентификации описан в листинге 2 (подробнее см.
совпадет с мощностью соответствующего фактор-              [7]). В описании алгоритма присутствуют
множества       . Ясно, что |   | | |. Снижение            следующие вспомогательные функции:
количества кореферентных объектов призвано                  Active(q) возвращает true, если q активен,
повысить эффективность следующего этапа —                    false – иначе
идентификации.                                              Activate(q) присваивает объекту активный
                                                             статус
3 Идентификация информационных                              Deactivate(q)      присваивает    объекту
объектов                                                     неактивный статус
                                                            Move_Object(q, Q) переносит объект q во
   Идентификация заключается в разрешении
контекстной омонимии входных объектов, когда                 м-во Q
входному объекту по его набору атрибутов можно              Move_Rel(r, R) переносит отношение r во
сопоставить несколько объектов из базы данных.               м-во R
   Предлагаемый подход предполагает наличие                 Filter(Q, R, i) удаляет из м-ва Q объекты,
«стартового»      списка      идентифицированных             имеющие не более i отношений, аналогичных
объектов, который, может быть получен с помощью              отношениям из R.
процедуры поиска по точному совпадению
минимального набора атрибутов, определяющих                algorithm ИДЕНТИФИКАЦИЯ ОБЪЕКТОВ
объект. Если был найден лишь один объект, то               var A множество идентифицированных
входной объект считается идентифицированным, и             объектов
дальнейший его анализ уже не требуется. В итоге                B множество неидентифицированных
множество информационных объектов разделяется                  объектов
на множество A идентифицированных объектов и                   FA, FB, DA, DB, Sb, i
множество B, куда входят те объекты, которые не                вспомогательные переменные
удалось идентифицировать «сходу».        Каждому           begin
объекту qB сопоставляется множество Q объектов             A  стартовое м-во
из базы данных — множество похожих объектов.                идентифицированных объектов
Строится оно путем сравнения q с объектами базы             B  м-во неидентифицированных
данных по различным подмножествам атрибутов.                объектов
Алгоритм построения множества похожих объектов              while B ≠ 
представлен      в      листинге      1.     Здесь           Choose b     B: Active(b) = true
Intersect(q, i)           возвращает      объекты,           if b then
совпадающие с q не менее чем по i атрибутам.                   return A
 algorithm ПОИСК ПОХОЖИХ ОБЪЕКТОВ                            FA связи b с объектами из A
 var q = {ak|k = 1,…, n} %объект,                            FB связи b с объектами из B
 включающий n атрибутов                                      Sb ПОИСК_ПОХОЖИХ_ОБЪЕКТОВ(b)
 Q результирующее множество объектов                         i  1
 T, i вспомогательные переменные
 begin                                                       while i ≤ |FI|& Sb ≠ 
                                                               Filter(Sb, FI, i)
 Q 
                                                               if q Sb then
 i  1                                                          Move_Object(b, A) %q – объект БД,
 while i ≤ n                                                    эквивалентный b
 T  Intersect(q, i)                                              d B: r(b,d) %r – связь объектов


                                                     196
     d и b                                                   непрерывным образом связана с экспертной
      DA связи d с объектами из A                           оценкой. Семейство функций вида (3) очевидно
      DB связи d с объектами из B                           обладает требуемыми свойствами.
       r    DB: r(b, d)
                                                                               (   )                         (3)
        Move_Rel(r, DA)
      if Active(d) = false then                                 Допустим, что нам известно среднее значение
        Activate(d)                                          допущенных при извлечении фактов ошибок. Пусть
     ВЫХОД ИЗ ЦИКЛА                                            — это среднее отношение допущенных ошибок к
    i  i + 1                                                общему числу извлеченных фактов. В простейшем
  end while                                                  случае мы считаем константной величиной, но в
  if b    A then                                             общем виде ничто не мешает обозначить ее       и
    Deactivate(b)                                            вычислять как функцию от некоторого аргумента. В
 end while                                                   дальнейшем для определенности будем считать
 return A                                                             .
end algorithm                                                   С помощью функций            и параметра
      Листинг 2. Идентификация объектов                      породим семейство вероятностных характеристик
                                                             документа .
   Фактически, для b B мы находим непустое
подмножество множества Sb, такое, что его
                                                                                       (   )                 (4)
элементы имеют наибольшее число связей,
аналогичных связям объекта b. Контекстная                       Далее, если не указано обратное, значение
омонимия для объекта b снимается, если это                   будет считаться равным единице, поэтому нижний
подмножество содержит единственный элемент.                  индекс будет опускаться. Если значения
                                                             вычислялись по умолчанию, то         (      ). При
4 Достоверность как показатель доверия
                                                                    в системе представлен только один источник
к информации                                                 документа , и отсутствует какая-либо информация
   Для того чтобы оценить полезность факта для               о его свойствах. Занижение значений    по причине
информационной системы, необходимо определить                неполноты знаний об источниках документов,
его трастовую метрику или достоверность. Фактом,             очевидно, повлияет и на достоверность фактов, в
в нашем случае, называется минимальное знание об             частности, ускоряя потерю актуальности. В
объекте, другими словами это либо значение                   предельно неблагоприятном случае (при            ),
атрибута объекта, либо его связь с другим объектом.          получим        , вместо       (при      ).
Достоверность (trustworthiness) определяет, до какой            Информация может со временем стать менее
степени может доверять данному факту рядовой                 актуальной      и,     соответственно,   менее
пользователь информационной системы. Для оценки              заслуживающей доверия пользователя. Косвенным
используются характеристики источников факта, и              признаком утери актуальности факта является
учитывается    время     его     существования     в         длительное отсутствие упоминаний факта в новых
информационной системе. Данные характеристики                документах. Введем следующую функцию          ,
описаны ниже.                                                зависящую от времени.
    Пусть F — некоторый факт,       — i-й документ,
упоминающий F. Обозначим экспертную оценку                                                                   (5)
документа      как             . Экспертная оценка              Будем      называть             темпоральным
характеризует уровень доверия эксперта к
                                                             множителем. Здесь        — это время, за которое
информации из документа        на основании знаний           значение достоверности понизится в l раз, из
об источнике этого документа и, возможно, какой-то           формулы (5) следует, что                 . Таким
дополнительной информации, которой располагает
эксперт. Границы интервала, в которых заключено              образом, величина       — это безразмерное время,
значение экспертной оценки, соответствуют                    равное отношению времени существования факта в
предельным случаям: полному доверию при                      системе на время, необходимое для понижения его
и, соответственно, полному недоверию при          .          достоверности в l раз. Значение      подбирается
Значение                соответствует   отсутствию           исходя из оценки экспертом скорости устаревания
информации об источнике у эксперта. Значения по              фактов в данной предметной области.
умолчанию в случае отсутствия экспертной оценки                 За основу модели достоверности факта был взят
    вычисляются по формуле               , где N—            неоднородный дискретный марковский случайный
                                                             процесс, имеющий       три состояния {          ,
количество различных источников, содержащих
                                                             определяющих текущий уровень доверия к факту:
документ .
                                                             «недоверие», «неопределенность» и «доверие»
    Введем         характеристику        источника,          соответственно. Вероятность пребывания в третьем
выражающую вероятность получения из него                     состоянии — это вероятность того, что факт
достоверного     знания.     Она    должна    быть           заслуживает доверия. Остальные две вероятности


                                                       197
имеют вспомогательный характер. Моментами                   вовлекается в следующий шаг процесса, при
времени процесса считаем поступление очередного             условии, что факт не устарел и не был исключен из
подтверждения факта, т.е. нового документа,                 системы за прошедшее время. Как любое линейное
упоминающего факт,        — случайная величина,             преобразование операторы Tt можно записать в
выражающая состояние факта в момент времени n.              виде матрицы:
   Обозначим      через      ̅       вектор-строку
распределения случайной величины       . Начальное                           [                 ]           (8)
распределение процесса задается предварительно:
̅                               . После n шагов
                                                            4.1 Калибровка параметров
вектор ̅ переходит в ̅        ̅       , где
           — матрица перехода за n шагов,                      Для проверки и калибровки параметров была
элементы которой вычисляются при помощи                     проведена серия экспериментов. Напомним, что
тождества Колмогорова-Чепмена, выполняющегося               значения координат вектора распределения ̅
для любого          , в том числе для          .            зависят от двух параметров. Это показатель степени
                    ∑                           (6)            семейства функций (3) величина      из формулы
   Вероятности вида             определяются                вычисления темпорального множителя (5).
матрицей перехода за один шаг или переходной                   В общем виде зависимость распределения по
матрицей, обозначаемой        .                             времени представляет собой множество точек в
                                                            четырехмерном евклидовом пространстве. Для
                                                            удобства визуализации разобьем его на три
                  [                      ]      (7)         двумерных зависимости — зависимость каждой из
                                                            координат вектора распределения по времени.
                                                               Эксперимент показал, что при увеличении
                                                            параметра        вектор ̅ сильнее реагирует на
Для учета влияния времени существования факта в             появление ненадежных источников с низкой
системе на вектор распределения было построено              экспертной оценкой. Однако, нежелательно, чтобы
семейство линейных операторов, обозначаемое Tt.             один отдельно взятый источник оказывал сильное
Один из операторов семейства Tt применяется к               влияние на ̅, т.к. в этом случае ошибка при оценке
вектору распределения, являющемуся результатом              источника может значительно исказить течение
последнего, на тот момент, шага случайного                  процесса. С учетом этих соображений оптимальным
процесса. Кроме того, этот же вектор, не                    для    очевидно является значение        .
претерпевший никаких темпоральных изменений,


                            Рис. 1 Экспериментальная калибровка параметров
   По результатам экспериментов установлены                 предпочитаемой скорости убывания актуальности
следующие значения параметров:                              факта во времени. Для различных видов фактов
       (предполагается, что время измеряется в              зависимость от времени, а, следовательно, и
сутках). На Рис. 1 показаны графики координат               значение , может быть задано индивидуально.
вектора ̅ для случайного процесса длительностью
200 и вышеуказанными значениями параметров. В               4.2 Критерии удаления ненадежных данных
силу дискретности процесса каждый график                       Изменение     достоверности    факта     F   в
представляет собой множество точек, поэтому для             информационной системе описывается цепочкой
наглядности точки соответствующих графиков были             пар          , где j — момент времени,         —
соединены между собой отрезками, сформировав,
                                                            достоверность в момент времени j, т.е. дискретным
таким образом, ломаные линии.
                                                            множеством. Принятие решения относительно факта
   Параметр     не оказывает влияния на случайный           на основе только текущего значения достоверности
процесс, его значение выбирается исходя из


                                                      198
неэффективно вследствие того, что достоверность                                           убывает
может опуститься ниже минимально допустимого                                              4. кривая убывает, а
значения в случае погрешности при оценке, низкого          C:   1. кривая выпукла         затем возрастает
авторитета выбранного источника и других                        вниз в начальной          5. кривая убывает,
возмущающих факторов, для уменьшения степени                    точке                     возрастает,    затем
влияния подобных возмущений            необходимо               2. кривая выпукла         снова убывает
анализировать окрестность текущей точки. Анализ                 вверх в нач. точке        6. кривая
дискретных     окрестностей     также     оказался                                        возрастает, убывает,
неэффективен, т.к. не позволяет принять решение в                                         затем         снова
случае колебаний достоверности вокруг среднего                                            возрастает
значения. В этом случае мы можем усреднить и
оценить значения в промежуточных точках,
аппроксимируя или интерполируя имеющееся                      Согласно такой нумерации кривая с номером,
множество точек, либо его подмножество, гладкой            например, 1.2.1 — это кривая, имеющая точку
кривой. Отдельные сегменты кривой позволяют                перегиба, выпуклая вниз в некоторой окрестности
оценить уровень доверия в заданной окрестности             начальной точки и убывающая на всей области
текущего момента времени без учета влияния более           определения.   Хотя    таким    образом    можно
ранней истории. Для решения этой задачи был                пронумеровать 24 кривые, всего их 16. Это
проведен анализ различных методов аппроксимации            обусловлено выбранным числом опорных точек и
и интерполяции кривыми и по его итогам выбран              порядком       кривой       и       подтверждено
метод аппроксимации B-сплайном [8, 9].                     экспериментальной проверкой выборки из ~10
Чтобы принять решение о дальнейшей судьбе факта,           миллионов хвостов, сгенерированных 500 тысячами
доверие к которому на текущий момент времени               случайных процессов. Для нас интересны, в первую
опустилось    ниже     минимально    допустимого,          очередь кривые вида *.1.* и *.2.*, поскольку они
предлагается    выделять     общую      тенденцию          показывают общую тенденцию.
поведения, основываясь при этом на анализе кривой             Строго убывающая кривая может уничтожить
аппроксимации хвоста из нескольких значений. С             факт, строго возрастающая — предотвратить его
учетом соображений о вычислительной сложности              удаление. Пусть MIN — минимально допустимый
было решено строить сплайн четвертого порядка без          уровень доверия, при котором на факт еще можно
кратных вершин, при этом число опорных точек               положиться без какой-либо дополнительной
должно быть не меньше четырех, что и определило            проверки,     F      —       некоторый      факт,
минимальный размер хвоста. Выбор хвоста                         {           } — -й хвост соответствующего
минимально возможной длины для экспериментов
                                                           ему случайного процесса,    это последние четыре
обусловлен,       во-первых,       соображениями
                                                           значения достоверности F. Рассмотрим граничные
производительности, во-вторых — относительно
                                                           случаи.
малым количеством возможных видов кривых, и,
кроме того, если вероятность погрешности при                  Допустим, что                      . Это первый
оценке одного значения достоверности равна p, то           граничный случай, при этом факт удаляется, если
вероятность погрешности на четырех значениях               кривая выражает тенденцию к убыванию, т.е. имеет
составит     , что дает нам ~6% вероятности                вид *.2.*. Если кривая имеет какой-либо другой вид,
погрешности при       .                                    факт остается в системе. Точно таким же образом
                                                           разрешаются промежуточные случаи, когда
    Какие тенденции может описывать кривая? Это
может быть тенденция к убыванию, что говорит в                                           или
пользу исключения факта, либо тенденция к                                            .    Второй    граничный
возрастанию. Также кривая может не иметь                   случай наступает, когда                           .
выраженной тенденции. Введенная нумерация                  Все значения находятся ниже минимального порога.
кривых отражает их форму и записывается в виде             Здесь на первый план выходят кривые вида *.1.*.
a.b.c, где            {           {                        Соответственно, если кривая строго возрастает, то
     {     .                                               факт F все равно не будет удален. Если кривая
A: 1. кривая       имеет B: 1. кривая возрастает           имеет вид, отличный от указанного, то факт
      точку перегиба         2. кривая убывает             исключается из информационной системы как
      2. кривая не имеет     3. кривая                     утративший доверие.
      перегибов              возрастает, а затем


                                                     199
                           Рис. 2 Различия полной и кусочной аппроксимации

   Новые хвосты могут вычисляться со смещением
в одну точку. На Рис. 2 показана полная                    Литература
аппроксимирующая кривая в сравнении с кривой,               [1] Когаловский М. Р. Перспективные технологии
составленной из отдельных хвостов [8, 10].                      информационных систем. — М.: ДМК Пресс;
Пунктиром обозначена ломаная линия, проведенная                 М: Компания АйТи, 2003. — 288 с.
через опорные точки. Для наглядности сегменты
                                                            [2] Когаловский М.Р. Системы доступа к данным
второй кривой построены со смещением в три точки
                                                                на основе онтологий // Труды Второго
по оси абсцисс, чтобы избежать наложения частей
                                                                симпозиума «Онтологическое моделирование»,
кривых друг на друга, и со смещением 0.1 по оси
                                                                Казань 2010 – М: ИПИ РАН, 2011. – С. 45–78
ординат (единица по шкале Oy относится к единице
шкалы Ox как 20/3).                                         [3] Загорулько Ю.А., Боровикова О.И., Кононенко
                                                                И.С., Сидорова Е.А. Подход к построению
5 Заключение                                                    предметной онтологии для портала знаний по
                                                                компьютерной лингвистике. // Компьютерная
   Предлагаемые методы и подходы призваны                       лингвистика и интеллектуальные технологии:
обеспечить автоматическую обработку входящего                   Труды международной конференции «Диалог
потока данных и смоделировать изменение                         2006». М.: РГГУ, 2006.
достоверности фактов в информационной системе,              [4] Heeyoung Lee, Yves Peirsman, Angel Chang,
предметная область которой формально описана с                  Nathanael Chambers, MihaiSurdeanu and Dan
помощью онтологии, а также описать механизм                     Jurafsky. Stanford’s Multi-Pass Sieve Coreference
удаления ненадежной информации из системы.                      Resolution System at the CONLL-2011 Shared
   Поиск     референциальных       связей   между               Task. // In Proc. of the 15th Conference on
объектами и идентификация помогают отсеять                      Computational Natural Language Learning:
нежелательные данные при пополнении системы, в                  Shared Task. Portland. Oregon. USA. 2011. P.
то время как контроль достоверности и механизм                  28–34.
отсеивания     утративших       доверие     фактов          [5] Ермаков А.Е. Референция обозначений персон
способствуют     сохранению       целостности    и              и организаций в русскоязычных текстах СМИ:
непротиворечивости информации, прошедшей эту                    эмпирические          закономерности          для
проверку. В особенности это касается фактов,                    компьютерного анализа. // Компьютерная
требующих регулярного подтверждения. Примером                   лингвистика и интеллектуальные технологии:
таких фактов являются статьи кодексов (уголовного,              Труды международной конференции «Диалог
гражданского,    налогового    и    пр.).  Каждое               2005». М: Наука, 2005. С. 131–135.
переиздание кодекса может подтвердить силу той              [6] Серый      А.С.,     Сидорова      Е.А.    Поиск
или иной статьи, либо скорректировать или удалить               референциальных          отношений        между
ее, вводя новые. Данные, не подтверждаемые в                    информационными объектами в процессе
течение долгого времени или подтверждаемые                      автоматического анализа документов // Труды
сомнительными источниками, постепенно будут                     XIV Всероссийской научной конференции
удаляться из информационной системы.                            RCDL-2012         Электронные        библиотеки:
   Предлагаемые     методы     применяются     при              перспективные       методы      и    технологии,
разработке     информационной        системы     с              электронные коллекции. – Переславль-
документально подтверждаемой информацией.                       Залесский, 2012. С.206–212
Ожидается,     что    результаты     практического          [7] Серый А.С., Сидорова Е.А. Идентификация
применения поспособствуют выявлению ошибок и                    объектов в задаче автоматической обработки
недочетов, укажут на особенности и дадут опыт                   документов. // Компьютерная лингвистика и
настройки процесса под различные виды фактов.                   интеллектуальные         технологии:      Труды


                                                     200
     международной конференции «Диалог 2011».                Developing methods for maintaining data
     М.: РГГУ, 2011. С. 580-591.                             reliability in an information system based
 [8] Ли, К. Основы САПР (CAD/CAM/CAE) /
                                                                                on facts
     Кунву Ли. – СПб. : Питер, 2004. – 560 с.
 [9] Роджерс,    Д.Ф. Математические основы                                     Alexey S. Sery
     машинной графики: пер с англ. / Д. Роджерс,
     Дж. Адамс. – М.:Мир, 2001. – 604 с.
                                                                The paper will discuss methods and approaches for
[10] Кокс, Д. Идеалы, многообразия и алгоритмы.
                                                            automating the process of the incoming data analysis in
     Введение     в    вычислительные       аспекты
                                                            ontology based information systems where data is
     алгебраической геометрии и коммутативной
                                                            presented as a set of information objects. It is proposed
     алгебры : пер.с англ. / Д. Кокс, Дж. Литтл, Д.
                                                            how to establish a referential identity or co-reference
     О`Ши ; под ред. В.Л. Попова. – М.: Мир, 2000.
                                                            between objects and how to maintain information
     – 687 с.
                                                            reliability, which means defining its trust metric and
                                                            monitoring up-to-dateness. The former depends on the
                                                            trust metrics of information sources, the latter — on the
                                                            lifetime mostly. The proposed trust management
                                                            technique also includes removing spotted unreliable
                                                            data from the system data storage, and by doing so
                                                            reduces expert participation in the data verifying
                                                            process and number of errors in the system.


                                                      201

</pre>