Метод обнаружения изменений структуры веб-сайтов в
         системе сбора новостной информации

 © А.М. Андреев                © Д.В. Березкин        © И.А. Козлов     © К.В. Симаков
                               МГТУ им. Н.Э. Баумана, г. Москва
 arkandreev@gmail.com        dmitryb2007@yandex.ru kozlovilya89@gmail.com skv@ixlab.ru

                  Аннотация                                2 Постановка задачи
   Работа посвящена решению задачи обнару-                 2.1 Функционирование системы сбора
   жения сбоев в работе системы сбора ново-
   стной информации, вызванных изменения-                      Существует множество подходов к организации
   ми структуры веб-сайтов. Приведены моде-                сбора открытых текстовых материалов с веб-сайтов.
   ли документа и набора документов, пред-                 Как правило, система сбора использует информа-
   ложен двухступенчатый метод обнаружения                 цию об HTML-разметке целевых страниц для поис-
   сбоев. Проведена экспериментальная оцен-                ка в них нужной информации [12]. Эта информация
   ка и даны направления по дальнейшему                    используется правилами распознавания, записывае-
   усовершенствованию предложенного под-                   мыми на принятом в системе формальном языке.
   хода.                                                   Распространение получили как ручной способ опи-
                                                           сания правил, когда правила распознавания форми-
1 Введение                                                 рует программист [13], так и автоматизированный
                                                           способ, когда правила формируются автоматически
     Сбор текстовой информации из открытых Ин-             на основе обучающей выборки, подготовленной
тернет-источников, ее унификация и накопление,             оператором [1,2,8]. Имея набор правил, система
являются задачами, с которыми приходится сталки-           сбора выполняет периодический опрос веб-сайтов в
ваться при разработке промышленных систем ин-              поисках новых материалов.
теллектуальной обработки текстов, например, клас-
                                                               В данной работе рассматривается система, вы-
са Text Mining. Без наличия актуальной базы, посто-
                                                           полняющая сбор новостей на основе правил, задан-
янно пополняющейся текстами целевой предметной
                                                           ных вручную программистом. Основные функцио-
области, невозможно эффективно использовать ме-
                                                           нальные элементы системы сбора представлены на
тоды автоматической обработки (такие как класте-
                                                           рис. 1.
ризация, полнотекстовый поиск, выявление скрытых
зависимостей).                                                 Web-
                                                                                    Система              Результат сбора
                                                            страница с               сбора
     В данной работе рассматривается решение зада-           текстом
чи качественного сбора новостной информации. К                                                                                  БД с текстами
                                                                                                                                  новостей
такой информации относится текст новости, а также            RSS-лента
                                                                                                        Очищенный Метаданные
                                                                                                           текст
сопутствующие метаданные, включающие название,                                    XPath
                                                                                                                  в XML форме


дату публикации, автора новости и др. Под качест-           Новостной Web-сайт   правила
                                                                                           Статистика


венным сбором в первую очередь подразумевается
очистка текста новости от окружающей его служеб-                  Рис.1. Функционирование системы сбора.
ной информации: меню сайта, рекламные баннеры,
блоки социальных сетей, комментарии пользовате-                Система сбора выполняет чтение RSS-ленты
                                                           сайта, откуда извлекается метаданные о каждой но-
лей и т.д.
                                                           вости: название, аннотация, время публикации и
     Основной акцент в данной статье делается на           URL текста новости. Далее по полученному URL
проблеме своевременного обнаружения изменения              осуществляется чтение страницы с текстом новости,
структуры опрашиваемых веб-сайтов, поэтому                 выполняется построение DOM-модели этой страни-
предлагаемый подход может быть использован не              цы, откуда и выполняется извлечение чистого текста
только для обработки новостных сайтов, он также            на основе имеющихся XPath правил. Результат сбо-
распространяется на сбор сообщений из электрон-            ра представляет собой чистый текст новости и
ных библиотек, блогов, форумов и социальных се-            XML-документ с метаданными. Далее эта информа-
тей.                                                       ция заносится в базу данных, где осуществляется
                                                           накопление и аналитическая обработка собираемых
Труды 14-й Всероссийской научной конференции               данных. Кроме этого, система выполняет постоян-
«Электронные библиотеки: перспективные методы и            ную регистрацию и накопление статистической ин-
технологии, электронные коллекции» — RCDL-2012,            формации о состоянии и структуре опрашиваемого
Переславль-Залесский, Россия, 15-18 октября 2012 г.        веб-сайта.


                                                      87
2.2 Задача обнаружения сбоев                              зует набор выделяемых из веб-страницы признаков.
                                                          Обучение классификатора осуществляется на пре-
    Все методы сбора информации из веб-сайтов,            допределенных наборах веб-страниц обоих классов.
использующих особенности разметки страниц, объ-           Преимуществом такого подхода является высокая
единяет то, что при изменении верстки сайта, воз-         скорость реакции детектора на сбой: «плохой» до-
никает необходимость перенастраивать правила              кумент будет выявлен непосредственно после его
распознавания. При выполнении круглосуточного             поступления. Однако этот метод имеет и серьезный
опроса целевых сайтов, своевременность обнаруже-          недостаток. Статьи, подвергающиеся анализу, могут
ния изменения верстки является весьма актуальной          сильно отличаться друг от друга. Так, иногда на
задачей, поскольку система сбора фактически пере-         вход детектора поступают «хорошие», но нетипич-
стает работать до тех пор, пока оператор не откор-        ные для данного источника новости. Если подобных
ректирует набор правил распознавания.                     документов не было в обучающей выборке класси-
    В простейшем случае при существенном изме-            фикатора, они не могут быть корректно распознаны,
нении структуры сайта система сбора станет выда-          и в результате происходит ложное срабатывание.
вать в качестве результата пустые текстовые доку-         При накапливании корректных документов и увели-
менты. Однако существуют достаточно сложные               чении обучающей выборки частота возникновения
ситуации, когда при изменении верстки система             таких ошибок постепенно уменьшается, но они про-
сбора начинает извлекать тексты не полностью, ли-         должают периодически возникать.
бо фрагменты из других участков сайта, например,          2. Анализ контрольной серии из нескольких по-
комментарии пользователей. Именно выявлению               следних загруженных веб-страниц. Данный подход
таких нетривиальных ситуаций посвящена данная             позволяет избавиться от ложных срабатываний. Да-
статья.                                                   же если в контрольную серию попало несколько
                                                          подозрительных статей, то усредненные характери-
2.3 Существующие подходы к решению задачи                 стики этой коллекции останутся близкими к харак-
                                                          теристикам эталонной обучающей выборки. Если же
    В работах, посвященных теме выявления сбоев
                                                          сомнительные документы будут поступать от ис-
систем извлечения данных [7,9,11], представлено
                                                          точника регулярно, то через некоторое время, когда
несколько подходов к решению вышеуказанной за-
                                                          в контрольной серии таких статей будет накоплено
дачи. Большинство из них основано на оценке ста-
                                                          достаточное количество, они будут составлять зна-
тистических характеристик документов, извлекае-
                                                          чительную долю анализируемого набора. В резуль-
мых системой. При этом оценке может подвергаться
                                                          тате характеристики контрольной серии изменятся,
как отдельно взятый документ [7] (в этом случае
                                                          и мы сможем обнаружить сбой. Такой подход к
вычисляется вероятность его корректности, которая
                                                          фиксации сбоев более надежен. Причём качество
затем сравнивается с задаваемым пользователем
                                                          проверки будет возрастать с увеличением количест-
пороговым значением), так и их набор [11] (оценке
                                                          ва документов в контрольной серии. Но это приве-
подвергается схожесть законов распределения слу-
                                                          дёт к возникновению значительной задержки между
чайных величин, соответствующих характеристикам
                                                          моментом, в который произошел сбой, и временем
документов из обучающей и тестовой выборок. Для
                                                          его обнаружения.
сравнения используется критерий согласия Пирсона
[20]).                                                        Предложенный в данной работе метод, сочетает
       В [11] также представлен подход, основанный        преимущества двух вышеописанных подходов (см.
на использовании методов machine learning для             рис. 2): быструю реакцию на сбой и высокое качест-
обучения системы обнаружения сбоев на наборах             во проверки.
корректных документов для последующего опреде-
ления правильности её работы на новых данных. В                                     Статистика
качестве таких методов используется, в частности,
одноклассовая классификация (выявление анома-
лий) [5].                                                                      Система обнаружения
                                                                                      сбоев
                                                                          Оперативный       Отложенный   Администратор
                                                          Система сбора
3 Принцип обнаружения сбоев                                                 детектор         детектор


    Для распознавания сбоев, связанных с измене-
нием верстки, в систему сбора встраивается подсис-
тема, осуществляющая контроль корректности по-
ступающих документов и выявляющая сбои в верст-
ке документов. Возможны два следующих подхода к
                                                                                     Правила
обнаружению сбоев.
1. Анализ одной загруженной веб-страницы. Суть                      Рис. 2. Предложенный подход.
данного подхода заключается в использовании клас-            Данный метод положен в основу подсистемы
сификатора, который определяет принадлежность             контроля корректности загружаемых документов.
веб-страницы к классу корректных или некоррект-           Подсистема представляет собой двухступенчатый
ных страниц. В своей работе классификатор исполь-         детектор сбоев. Один из его компонентов – «опера-


                                                     88
тивный детектор» – проверяет документы непо-                 4.2 Модель набора документов
средственно в момент их поступления и делает
предварительный вывод о вероятности сбоя. Если                   Для описания модели набора из нескольких до-
вероятность высока, выполняется проверка «отло-              кументов заметим следующее. Группы характери-
женным детектором», уточняющая этот результат.               стик (P,S,N,V) и (TH,TB,TS,TI,TO) имеют разную при-
                                                             роду. Характеристики первой группы описывают
4 Предложенные модели документов                             свойства текста документа, тогда как характеристи-
                                                             ки второй группы отражают свойства его разметки.
    В основе системы обнаружения сбоев лежит мо-             Для описания свойств набора из нескольких доку-
дель анализируемых данных. Два основных компо-               ментов, мы будем рассматривать эти группы харак-
нента системы работают с разными входными дан-               теристик отдельно.
ными и анализируют различные характеристики,                     Случайные величины группы (P,S,N,V) имеют
поэтому для каждого из них предложена своя мо-               разнородные области значений. Так величина N
дель: модель документа, подвергающаяся обработке             обычно принимает значения в диапазоне от 1 до 100,
«оперативным детектором» и модель набора доку-               величина V непрерывна, а значения дискретной ве-
ментов, анализируемая «отложенным детектором».               личины P могут достигать 105. В связи с этим, для
                                                             последующего анализа удобно все величины при-
4.1 Модель документа                                         вести к дискретному виду, а области их значений
    Под моделью документа понимается совокуп-                отобразить на множество фиксированной мощности.
ность его характеристик, учитываемых «оператив-              Для этого необходимо разбить область значений
ным детектором» при его обработке. При создании              каждой величины группы (P,S,N,V) на фиксирован-
детектора для системы сбора новостей выбор пара-             ное количество интервалов равной длины. Пусть m
метров производился с учетом некоторых особенно-             - количество таких интервалов. Это число выбирает-
стей функционирования системы. Статья извлекает-             ся в зависимости от объема выборки. Одним из наи-
ся из веб-страницы, где текст обычно разбит на па-           более распространенных способов определения оп-
раграфы (html-элемент <p>). Также внутри тексто-             тимального числа интервалов является формула
вых параграфов могут встречаться стилевые элемен-            Стерджесса:
ты разметки. С учётом этих факторов для оценки                                                               (2)
корректности новостей были выбраны следующие                     где n – количество документов в наборе[14].
характеристики:
                                                                 Для снижения вычислительной сложности алго-
 объем веб-страницы, содержащей статью (P);                 ритмов, использующих предлагаемую нами модель,
 суммарный размер параграфов статьи (S). Учиты-             в контексте набора из нескольких документов мы
  вается только текст, без html-элементов;                   будем рассматривать величины (P,S,N,V) независи-
 количество параграфов в статье (N);                        мо друг от друга. Поэтому, с точки зрения величин
 дисперсия размера параграфа в рамках статьи (V);           (P,S,N,V), модель для набора документов будет
 количество html-элементов различных типов,                 представлять собой следующие четыре статистиче-
  включенных в новость. Для сокращения типов                 ских ряда:
  html-элементов, они были сгруппированы по не-
  скольким категориям. Были выделены классы наи-
  более часто встречающихся элементов: «Гипер-                                                               (3)
  ссылки (H)» (в этот класс попал элемент href),                Где              –частота попадания в i-ый ин-
  «Текстовые блоки (B)» (br, div, span), «Формати-           тервал значения величины P, S, N и V соответствен-
  рование текста (S)» (i, b, u, em, strong), «Изобра-        но на выборке из n документов.
  жения (I)» (img). Остальные теги попали в класс                Для учета в модели (3) величин (TH,TB,TS,TI,TO)
  «Прочее (O)». Для каждой категории был введен              рассмотрим другой подход к представлению ин-
  параметр (соответственно, TH,TB,TS,TI и TO), значе-        формации о html-элементах. В i-ом документе вы-
  ние которого равно количеству элементов соответ-           борки встречается определенное количество тэгов
  ствующего класса, включенных в новость.                    каждой из выделенных нами пяти категорий H, B, S,
                                                             I и O. Обозначим эти количества
    В отличие от дисперсии, среднее значение раз-            соответственно. Просуммируем их по всем доку-
мера параграфа не включено в число параметров,               ментам выборки и получим следующие значения
поскольку оно может быть выражено через пара-
метры S и N - суммарный размер и количество пара-
графов соответственно.                                                           , которые образуют пятиэле-
                                                             ментный статистический ряд                      ,
    Таким образом, каждый документ характеризу-              который мы будем рассматривать в качестве модели
ется рядом параметров (в нашем случае – девятью),            набора документов, с точки зрения, частоты встре-
поэтому, с точки зрения детектора, документ пред-            чаемости в нем тэгов из пяти выделенных катего-
ставлен девятимерным случайным вектором, эле-                рий.
ментами которого являются значения перечислен-
ных характеристик:                                               Таким образом, модель набора документов
                                                             представляет собой совокупность из следующих
               X=(P,S,N,V,TH,TB,TS,TI,TO)     (1)            пяти статистических рядов:


                                                        89
                                                              Таким образом, обучение оперативного детекто-
                                                          ра сводится к выделению таких областей, а класси-
                                                          фикация статей на корректные и некорректные – к
                                               (4)        определению, попадает ли документ в одну из выде-
                                                          ленных областей.
5 Оперативный детектор
                                                              Рисунок 3 демонстрирует применение предло-
                                                          женного подхода для определения корректности
5.1 Принцип работы оперативного детектора
                                                          объектов с двумерными векторами характеристик,
    Быстродействующий компонент детектирующей             но аналогичным образом может осуществляться
системы представляет собой бинарный классифика-           классификация и в случае большей размерности
тор, который на основании значений параметров             векторов. Однако с ростом размерности для форми-
документа делает вывод о его корректности или не-         рования плотных областей требуется существенно
корректности.                                             увеличивать обучающую выборку. Учитывая пред-
    Такие популярные подходы к решению задачи             полагаемые объемы наборов документов (десятки
бинарной классификации как нейронные сети [22],           тысяч новостей), при использовании девяти харак-
опорные векторы [3], логистическая регрессия [10]         теристик добиться высокой плотности при сохране-
могут быть использованы лишь при наличии обу-             нии небольшого количества выделяемых зон невоз-
чающей выборки с большим количеством как пози-            можно.
тивных, так и негативных примеров. Но при обуче-              Таким образом, описанная в (1) модель доку-
нии оперативного детектора в большинстве случаев          мента в виде 9-мерного вектора оказывается не-
получить такую выборку невозможно: количество             удобной для непосредственного использования опе-
«хороших» документов при сборе новостей намного           ративным детектором, поэтому в неё были внесены
больше числа «плохих». В некоторых случаях в              изменения. Заменим девятимерный вектор X на на-
обучающей выборке может вообще не содержаться             бор векторов меньшей размерности (Y1, Y2, … , Yk),
некорректных документов. Поэтому было решено              каждый из которых содержит некоторое подмноже-
проводить обучение классификатора на позитивных           ство элементов X. Будем выбирать этот набор векто-
примерах, но при этом его работа была организова-         ров исходя из следующих соображений:
на следующим образом: в режиме проверки доку-                 нужно по возможности использовать векторы
ментов детектор должен считать корректными лишь                наименьшей размерности (двумерные) для по-
статьи, похожие на элементы обучающей выборки.                 лучения максимальной плотности кластеров
Определим эту схожесть в терминах выбранной мо-             нужно избегать использования векторов, кото-
дели документа.                                                рые могут оказаться бесполезными для некото-
    Каждый документ представлен девятимерным                   рых источников
вектором. Рассмотрим двумерную проекцию мно-                  Второй пункт относится, прежде всего, к харак-
жества таких векторов, соответствующих набору             теристикам,      отражающим    количество     html-
новостей с сайта kp.ru, на плоскость, задаваемую          элементов, включенных в новость. Сайты обычно
параметрами N (количество параграфов в статье) и P        применяют для оформления новостей лишь неболь-
(объем веб-страницы, содержащей статью) (рис. 3).         шой набор тэгов, при этом некоторые группы html-
                                                          элементов могут не использоваться вовсе. Поэтому
                                                          только некоторые из параметров (TH,TB,TS,TI,TO) бу-
                                                          дут принимать ненулевые значения. Каждый сайт
                                                          использует собственный подход к оформлению но-
                                                          востей и выбору набора тэгов, что не позволяет оп-
                                                          ределить универсальный критерий полезности каж-
                                                          дой из этих характеристик и их совокупностей. По-
                                                          этому было решено все перечисленные величины
                                                          включить в пятимерный вектор Y1.
                                                              Каждый из оставшихся четырёх параметров яв-
                                                          ляется важной характеристикой структуры докумен-
 Рис. 3. Распределение значений параметров N и P.         та, поэтому в качестве элементов остальных векто-
    Точки не распределены в пространстве равно-           ров использовались все попарные сочетания вели-
мерно, они сгруппированы в некоторых областях.            чин P,S,N и V. Так были получены 6 двумерных век-
Новый документ, поступающий на проверку, можно            торов Y2, … ,Y7.
считать корректным, если соответствующая ему                  Таким образом, модель документа, подвергаю-
точка попадает в одну из таких областей. Если же          щаяся обработке «оперативным детектором», пред-
точка находится в отдалении от этих зон (как, на-         ставляет собой совокупность из следующих семи
пример, три точки в правой верхней части рисунка,         случайных векторов:
помеченные крестиком), то соответствующая статья
является подозрительной.

                                                                                                          (5)


                                                     90
5.2 Кластеризация документов                               варьировании размеров кластеров. Этот метод от-
                                                           вечает требованиям к виду формируемых класте-
    Выделение областей необходимо производить              ров, однако он имеет серьезный недостаток, харак-
таким образом, чтобы максимально облегчить по-             терный для всех иерархических методов – высокая
следующую проверку принадлежности точек этим               вычислительная сложность (O(n2)). Тем не менее, в
областям. Поэтому нет смысла выбирать зоны                 данной работе за основу был взят этот метод, в ко-
сложной формы – более эффективным решением                 торый были внесены следующие модификации.
является нахождение плотных групп точек и по-                Ограничим число элементов, подвергающихся
строение простых ограничивающих поверхностей             кластеризации методом средней связи, числом
для этих групп. Для разбиения всего множества до-        n.Тогда кластеризация N элементов (N>n) будет
кументов из обучающей выборки на группы нужно            осуществляться следующим образом.
решить задачу кластеризации. Существует множе-
ство подходов к кластерному анализу, и применение        1. Выбрать из множества документов n элементов.
различных алгоритмов к одним и тем же входным            2. Произвести кластеризацию этих элементов мето-
данным может дать совершенно разные результаты             дом средней связи.
[21,18]. Основным требованием, определяющим              3. Найти центроиды кластеров.
пригодность метода для кластеризации новостей,           4. Поместить центроиды в множество точек в каче-
является простая, гиперсферическая форма класте-           стве новых элементов.
ров, позволяющая получить с помощью простых              5. Повторять пункты 1-4 пока в множестве не оста-
ограничивающих поверхностей плотные области без            нется необходимое число элементов.
разреженных участков.                                    6. Определить принадлежность исходных элементов
                                                           найденным кластерам.
    Одним из наиболее популярных методов кла-                Для простоты будем считать, что при кластери-
стеризации является k-means – итеративный метод          зации всегда выделяется одинаковое число класте-
кластерного анализа, основная идея которого за-          ров k. Найдём значение n, обеспечивающее мини-
ключается в минимизации суммарного квадратично-          мальную вычислительную сложность алгоритма.
го отклонения точек кластеров от центроидов этих         При каждой итерации из множества удаляется n
кластеров [4,15]. Несмотря на низкую вычислитель-        элементов и вместо них туда помещается k новых,
ную сложность метод имеет существенный недоста-          то есть число элементов уменьшается на (n-k). Зада-
ток, связанный со спецификой обрабатываемых де-          чей алгоритма является замена N исходных элемен-
тектором данных. Некоторые из отдаленных точек –         тов на k центроидов кластеров, то есть уменьшение
«выбросов» являются, всё же, корректными статья-         числа элементов на (N-k). Поэтому выполнение кла-
ми, которые должны быть учтены при кластериза-
ции. Для достижения минимальной разреженности            стеризации n объектов нужно произвести          раз,
такие точки должны быть по возможности помеще-           и сложность алгоритма равна              . Функция
ны в отдельные кластеры. Однако этого сложно до-
биться с k-means, поскольку этот метод имеет тен-                        имеет минимум при n=2k. Таким
денцию к выделению кластеров схожего размера.            образом, на каждой итерации кластеризации выпол-
    Также широко распространены алгоритмы, ис-           няется замена старых 2k элементов на новые k эле-
пользующие иерархический подход к кластеризации          ментов. Результат кластеризации, произведенной
[19]. Они делятся на агломеративные (объединяю-          описанным способом при k=10, приведён на рис. 4.
щие объекты в множества) и дивизимные (разде-
ляющие единое множество объектов на подмноже-
ства). При этом есть возможность выбора любого
количества кластеров после осуществления класте-
ризации. Иерархические методы различаются по
принципу определения двух ближайших кластеров
[17]. Существует несколько подходов:
 Метод одиночной связи хорошо справляется с
  проблемой выбросов, но имеет тенденцию к обра-
  зованию кластеров в виде длинных цепочек эле-
  ментов. Такой подход эффективен в случае, когда
  кластеры имеют вытянутую или необычную фор-
  му, но для решения рассматриваемой задачи он               Рис. 4. Ограничивающие поверхности кластеров
  неприменим.                                               В качестве ограничивающих поверхностей для
 Метод полной связи склонен к выделению класте-         областей рассматривались гиперпараллелепипед,
  ров приблизительно равных размеров, что может          гиперсфера и гиперэллипсоид. Выбор был сделан в
  приводить к появлению небольших разреженных            пользу наиболее простых в построении гиперпарал-
  кластеров вместо плотных, но крупных.                  лелепипедов, показавших хорошие результаты при
 Метод средней связи имеет склонность к образо-         оценке плотности точек. Таким образом, каждый
  ванию гиперсферических кластеров, кроме того,          кластер задается набором пар (    ,    ), опреде-
  он даёт хороший результат при значительном             ляющих граничные значения соответствующего
                                                         гиперпараллелепипеда по параметру Z. Элемент


                                                    91
принадлежит кластеру, если для каждого параметра
Z выполняется                   , где z – значение
параметра Z для рассматриваемого элемента. При
классификации документ считается подозритель-
ным, если он не попадает ни в один из кластеров.
    Кластеризация и построение ограничивающих                         Рис. 5. Гистограммы выборок.
поверхностей и последующая классификация загру-              Для оценивания сходства выборок используется
жаемых документов производятся отдельно для ка-           относительная энтропия (расстояние Кульбака–
ждого из семи выделенных векторов (5). Таким об-          Лейблера, KLIC[6]). Для дискретных случайных
разом, результатом классификации является набор           величин с функциями вероятности p и q, прини-
из семи двоичных значений. Возможны различные             мающих значения в одном множестве         , это
подходы к принятию решения о корректности доку-           расстояние задается формулой
мента на основании этого набора. Например, статья
может считаться корректной, если она успешно                                                              (6)
прошла проверку не менее чем по k критериям из                Вместо функций вероятности используются час-
семи, где k–некоторое заданное значение. В разра-         тоты рядов (4). При этом p(x) соответствует эталон-
ботанной системе используется наиболее строгий            ной выборке, а q(x) – проверяемой.
подход с параметром k=7.
                                                              Результатом расчёта KLIC для рядов (4) являют-
6 Отложенный детектор                                     ся значения DP, DS, DN, DV, и DT соответственно.
                                                              После расчёта расстояния Кульбака – Лейблера
    Второй компонент системы обнаружения сбоев            встаёт вопрос: как по найденному значению опреде-
осуществляет оценку набора документов. Оценка             лить, произошел сбой или нет? Необходимо задать
осуществляется на основе статистических рядов (4),        некоторое пороговое значение K, такое, что наличие
которые можно рассматривать как приближения к             сбоя можно определить как
функциям вероятности соответствующих случайных
величин. Идея, лежащая в основе функционирова-                                                            (7)
ния отложенного детектора, заключается в следую-
щем: рассматриваемые нами случайные величины,                Данный порог не является фиксированной вели-
составляющие вектор (1), подчиняются некоторым            чиной, его значение зависит от числа документов в
законам распределения, которые при отсутствии             тестовой выборке. Поясним это утверждение на
сбоя остаются неизменными. Изменение же вёрстки           примере. Выберем множество            наборов до-
с высокой вероятностью повлияет на эти законы             кументов     различной мощности и вычислим для
распределения. Следовательно, две разных выборки,         каждого из них расстояние Кульбака – Лейбле-
состоящие из корректных документов, будут обла-           ра от эталонного закона распределения. Сопоста-
дать высокой степенью сходства. Если же одна из           вим натуральным числам j, соответствующим мощ-
них будет содержать «плохие» статьи, то различие          ностям наборов из множества            , числа Kj,
между выборками будет значительно сильнее. Та-            определяемые как
ким образом, задача детектора заключается в опре-                                                        (8)
делении степени сходства проверяемой выборки и
выборки, состоящей из гарантированно корректных               Рассмотрим зависимость максимального рас-
статей, сформированной в процессе обучения (назо-         стояния Кульбака – Лейблера от мощности набора.
вём её эталонной). На основе полученного результа-        На рис. 6 приведена зависимость для новостей с
та принимается решение о наличии/отсутствии сбоя.         kp.ru.
    Для примера рассмотрим три выборки случай-
ной величины S (суммарный размер параграфов ста-
тьи), соответствующие наборам новостей с сайта
lenta.ru: эталонную (а); тестовую выборку, состоя-
щую из «хороших» документов (б) и тестовую вы-
борку, содержащую некорректные статьи (в). В ка-
честве последних использовались новости с сайта
cnews.ru.
    На рис. 5 показаны гистограммы, соответствую-
щие этим выборкам. Первые две из них обладают
высокой степенью сходства, в то время как третья
значительно от них отличается.                                  Рис. 6. Зависимость максимального значения
                                                                        KLIC от мощности набора
                                                              При этом использовалась оценка характеристики
                                                          P, отражающей объем веб-страницы, но аналогичная
                                                          зависимость имеет место и для других характери-
                                                          стик. При построении зависимости значения j выби-


                                                     92
рались равномерно в пределах от 0 до размера обу-            ция имеет недостаток: МНК одинаково учитывает
чающей выборки. Наиболее точные результаты мо-               отклонение вычисленных данных от эксперимен-
гут быть получены, если в качестве наборов с мощ-            тальных для всех узлов аппроксимации. Однако
ностью j рассматривать все возможные j-                      значения функции в точках с наименьшими и наи-
элементные подмножества документов обучающей                 большими значениями аргументов могут отличаться
выборки, однако эта задача имеет неполиномиаль-              в тысячи раз, и отклонение, несущественное для
ную сложность, поэтому полный перебор возмож-                одних узлов, будет недопустимым для других. Это
ных комбинаций элементов был заменен анализом                может привести к значительному снижению точно-
наборов, состоящих из j последовательных элемен-             сти на больших наборах документов и увеличению
тов выборки. Количество таких наборов равно r-j+1,           частоты ложных срабатываний. Для минимизации
где r – размер выборки.                                      числа ложных срабатываний было решено подверг-
     Такой вид зависимости легко объясним: чем               нуть функцию преобразованию, которое бы обеспе-
больше выборка, тем меньше на неё влияют локаль-             чило выполнение условия          для всех узлов.
ные колебания значений параметров. Таким обра-               Для этого определим величину Δ:
зом, при выборе порогового значения необходимо                                                               (10)
учитывать мощность анализируемого набора. Для
этого необходимо определить пороговую функцию                    Увеличим коэффициент a0 на значение Δ. Те-
K=h(x), устанавливающую соответствие между ко-               перь график пороговой функции лежит не ниже всех
личеством документов в наборе и пороговым значе-             точек, использованных для аппроксимации. На ри-
нием для этого набора. Для приведенных выше чи-              сунке 7 приведены графики пороговой функции до
сел j значение h(j) должно быть максимально близко           (пунктирная линия) и после (сплошная линия) кор-
к Kj. Действительно: если h(j)<Kj, то появляется риск        рекции.
ложного срабатывания. Если же h(j) значительно
превышает Kj, то увеличивается вероятность ошиб-
ки пропуска сбоя (характеризующейся тем, что де-
тектор не распознает ситуации возникновения сбоя
в верстке опрашиваемого сайта). Таким образом,
необходимо построить аппроксимирующую функ-
цию по набору точек. При этом функция должна
быть пригодной для экстраполяции, поскольку диа-
пазон значений её аргумента ограничен размерами
обучающей выборки, проверяемый же набор доку-
ментов может иметь любую мощность.
     Анализ рис. 6 ведёт к предположению об обрат-                    Рис. 7. График пороговой функции
но пропорциональной зависимости значения Kj от j
и целесообразности использования аппроксими-                     С помощью приведённой пороговой функции на
                                                             основании показателей DP, DS, DN ,DV и DT получим
рующей функции вида                . Однако проведе-         набор из пяти двоичных значений: (FP, FS, FN,FV,FT).
ние подобного исследования для других источников             В зависимости от количества единиц в этом наборе
и параметров показывает, что такая функция не все-           и от того, какие именно критерии приняли единич-
гда даёт приемлемый результат: в некоторых случа-            ное значение, делается заключение о вероятности
ях зависимость имеет более сложный характер. Что-            сбоя. В разработанной системе используется сле-
бы сделать метод определения пороговой функции               дующий подход:
пригодным для различных случаев и при этом
                                                                количество единиц в наборе равно 0 или 1: низ-
учесть общую закономерность (постепенное умень-
шение значения функции при возрастании аргумен-                  кая вероятность (сбоя нет)
та), было решено использовать для аппроксимации                 2 или 3: средняя вероятность (нельзя с уверенно-
функцию                 , где коэффициенты ai опре-              стью судить о наличии или отсутствии сбоя)
деляются в процессе обучения. Выбор числа k про-                4 или 5: высокая вероятность (произошел сбой)
изводится эмпирическим путём. Необходимо обес-
печить возможность качественной аппроксимации                7 Взаимодействие детекторов
сложной зависимости (что невозможно при малых
k), но при этом по возможности избежать переобу-                 Отдельной задачей является организация взаи-
чения (возникающего при больших k). На основе                модействия двух детекторов с целью достижения
исследования зависимостей, характерных для раз-              максимально эффективного функционирования сис-
личных источников, было выбрано значение k=7.                темы отслеживания сбоев. Поскольку отложенный
Таким образом, пороговая функция имеет вид                   детектор осуществляет более качественный анализ и
                                                             менее склонен к ложным срабатываниям, он исполь-
                                                  (9)        зуется для контроля работы оперативного класси-
    Для определения параметров ai пороговой                  фикатора. Этот контроль подразумевает две основ-
функции использовался метод наименьших квадра-               ные функции:
тов [16]. Оптимальная, с точки зрения МНК, функ-


                                                        93
1) Проверка правильности результатов, полученных                     тельных статей в пределах текущей транзакции. Ес-
классификатором оперативного детектора.                              ли она ниже порогового значения, но не равна нулю,
2) Обучение классификатора. Если оперативный                         делается заключение о ложном срабатывании и вы-
детектор обнаружил подозрительный документ, а                        полняется переход к блоку переобучения. Если час-
отложенный детектор в результате проверки уста-                      тота выше порогового значения – к блоку отложен-
новил отсутствие сбоя, значит, произошло ложное                      ной проверки.
срабатывание. Это свидетельствует о недостаточной                         Работа блока отложенной проверки начинается
обученности оперативного детектора. Поэтому не-                      с оповещения отложенного детектора о необходи-
обходимо произвести его переобучение с использо-                     мости выполнения анализа. Выполнение проверки
ванием документов, определенных им в категорию                       непосредственно после получения оповещения не
подозрительных.                                                      имеет смысла, поскольку сбой может быть зафикси-
    Проверка результатов оперативного детектора с                    рован только после накапливания достаточного чис-
помощью отложенного позволяет избежать боль-                         ла некорректных статей. После поступления необ-
шинства ложных срабатываний и свести к миниму-                       ходимого числа документов отложенный детектор
му число ошибочных оповещений администратора                         выполняет проверку этого набора. Для её проведе-
системы о произошедших сбоях. Но в некоторых                         ния из базы данных извлекаются статистические
случаях ложные срабатывания могут быть обнару-                       ряды эталонных выборок и коэффициенты ai поро-
жены на более ранней стадии работы системы и                         говой функции. Результат проверки передается бло-
устранены без участия отложенного детектора. Для                     ку принятия решения.
этого оперативный классификатор был оснащен
                                                                         Блок принятия решения определяет дальнейшие
функцией самопроверки. Он способен самостоя-
                                                                     действия подсистемы в зависимости от результата
тельно отличить единичный выброс от массового
                                                                     отложенной проверки. Если она показала высокую
поступления некорректных статей путём анализа
                                                                     вероятность сбоя, администратор системы оповеща-
частоты появления таких статей среди последних
                                                                     ется о необходимости корректировки системы сбора
скачанных документов. Если эта частота меньше
                                                                     документов. Если вероятность сбоя низка, делается
заданного порогового значения (например, 50%),
                                                                     заключение о ложном срабатывании оперативного
делается вывод о ложном срабатывании и запуска-
                                                                     классификатора и выполняется переход к блоку пе-
ется переобучение. В качестве анализируемого на-
                                                                     реобучения. Если же результат анализа не позволяет
бора при самопроверке используется группа доку-
                                                                     с высокой долей уверенности судить о наличии или
ментов, полученных в рамках последней транзак-
                                                                     отсутствии сбоя, выполняется повторная отложен-
ции, т.е. при последней загрузке новостей с сайта.
                                                                     ная проверка.
    Рассмотрим итоговый метод обнаружения изме-
                                                                         На этапе переобучения для оперативного детек-
нений структуры веб-сайтов, реализованный в рабо-
                                                                     тора заново определяются кластеры и строятся ог-
те подсистемы обнаружения сбоев с учетом вы-
                                                                     раничивающие поверхности с использованием ново-
бранного подхода к реализации взаимодействия де-
                                                                     го, дополненного набора данных. Количество кла-
текторов. Этапы функционирования подсистемы
                                                                     стеров и граничные значения гиперпараллелепипе-
приведены на рис. 8.
                                                                     дов заносятся в базу данных.
                                 Документы


                                    Блок
                                                                     8 Экспериментальная проверка системы
               БД                              Оперативный
                               классификации
                                   Блок
                                                 детектор
                                                                         В рамках данной работы были проведены экспе-
                               самопроверки                          рименты, направленные на анализ качества работы
                                                                     разработанной системы обнаружения сбоев. Экспе-
                                                   Отложенный
          Блок отложенной                           детектор         рименты проводились на ПЭВМ со следующими
                                   БД
             проверки
                                                                     основными параметрами: процессор Intel Core 2 Duo
                                                                     1,8 ГГц, объем ОЗУ 2 Гб.
           Блок принятия                Блок
             решения                переобучения        БД               Для проведения экспериментов использовалась
                                                                     коллекция новостей, извлеченных со следующих
                           Администратор
                                                                     сайтов:    mail.ru,   itar-tass.com,  kp.ru, rbc.ru,
                                                                     kommersant.ru, ria.ru, rambler.ru. Для обучения ис-
                                                                     пользовалось в общей сложности 72888 корректных
           Рис. 8. Этапы обнаружения сбоев
                                                                     документов. При обучении оперативного детектора
   На этапе классификации оперативный детектор                       формировалось 10 кластеров.
проверяет поступающие статьи. Документы класси-
                                                                         Тестирование оперативного детектора произво-
фицируются на корректные и подозрительные. Не-
                                                                     дилось в течение трёх суток. При самопроверке бы-
обходимые для классификации данные о кластерах
                                                                     ло использовано пороговое значение, равное 10%.
и ограничивающих поверхностях извлекаются из
                                                                     Накопленные за время тестирования документы ис-
базы данных.
                                                                     пользовались в качестве тестовой выборки для от-
    После поступления от источника группы ново-                      ложенного детектора.
стей оперативный детектор выполняет самопровер-
                                                                         Целью первого эксперимента была оценка рабо-
ку: вычисляется частота детектирования подозри-
                                                                     ты системы на корректных данных. В качестве


                                                                94
входных данных использовались гарантированно                                            В рамках эксперимента проверке были подверг-
корректные статьи, полученные с использованием                                       нуты 356 некорректных статей. При первичной
правильных настроек системы сбора. Для проведе-                                      классификации все они были определены как подоз-
ния эксперимента использовалось в общей сложно-                                      рительные для каждого из семи источников. В ре-
сти 5169 документов.                                                                 зультате самопроверки никаких изменений произве-
Табл. 1. Ложные срабатывания оперативного детектора.                                 дено не было.
         Источник              ML         MT       MS       ND        NS                Отложенный детектор показал правильный ре-
             mail.ru          25296       2631     20       14        0              зультат для 4 источников из 7. Для оставшихся 3
        itar-tass.com         11548       560      76       0         0              источников он не смог сделать вывод о наличии или
             kp.ru            7220        218      24       4         1
                                                                                     отсутствии сбоя. В 8 случаях из 35 (22,85%) значе-
                                                                                     ние критериев было неверным. Данным ситуациям
             rbc.ru           3517        227      25       14        5
                                                                                     соответствуют значения 0 соответствующего крите-
       kommersant.ru          5288        260      47       4         0
                                                                                     рия в таблице 4.
             ria.ru           16519       1115     29       12        5
                                                                                        Если в ходе первого эксперимента система обна-
         rambler.ru           3500        158      15       17        13
                                                                                     ружения сбоев продемонстрировала свою работо-
             Всего:           72888       5169     34       65        24
                                                                                     способность при выполнении как оперативной, так и
Где ML - размер обучающей выборки, MT - размер                                       отложенной проверки корректных данных, то с за-
тестовой выборки, MS - средний размер анализируе-                                    дачей обнаружения сбоев она справилась значи-
мого набора документов при самопроверке, ND - ко-                                    тельно хуже. Возможной причиной низкого качества
личество подозрительных статей, NS - количество                                      работы системы при анализе некорректных доку-
подозрительных статей после самопроверки.                                            ментов является неудачный подход к определению
   В рамках эксперимента проверке были подверг-                                      результата проверки. Анализ результатов экспери-
нуты 5169 корректных статей. При первичной клас-                                     ментов показывает необходимость понижения поро-
сификации 65 из них (1,26%) были определены как                                      га фиксации сбоя. Кроме того, при проведении вто-
подозрительные. В результате самопроверки 41 из                                      рого эксперимента критерии FP, FS, FN, FV и FT были
них была переведена в категорию корректных. Ос-                                      приняты равнозначными, однако оказалось, что не-
тавшиеся 24 (0,46% от общего числа) были ошибоч-                                     которые из них показывают наличие сбоя значи-
но признаны некорректными.                                                           тельно точнее, чем другие. Так, критерии FP и FN
Табл. 2. Ложные срабатывания отложенного детектора.                                  приняли верное значение в 7 случаях из 7, а FV –
                                                                                     лишь в 3. Чтобы учесть различную значимость кри-
  Источник            ML     MT       FP FS FN FV FT             NF        PF
                                                                                     териев, для каждого из них может быть установлен
   mail.ru        25296      2631     0   0    0   0    0   0 из 5         L
                                                                                     весовой коэффициент, определяющий влияние зна-
 itar-tass.com    11548      560      0   0    0   0    0   0 из 5         L         чения соответствующего критерия на результат
    kp.ru             7220   218      1   0    0   0    0   1 из 5         L         проверки.
    rbc.ru            3517   227      0   0    0   0    0   0 из 5         L         Табл. 3. Оценка пропуска сбоев оперативным детектором.
kommersant.ru         5288   260      0   0    0   0    0   0 из 5         L               Источник                ML         MT       MS       ND            NS
    ria.ru        16519      1115     0   0    0   0    0   0 из 5         L                 mail.ru              25296    356         25   356               356
  rambler.ru          3500   158      0   0    0   0    0   0 из 5         L             itar-tass.com                     356              356               356
                                                                                                                  3500                 25
    Всего:        72888      5169     1   0    0   0    0   1 из 35
                                                                                                 kp.ru            11548    356         25   356               356
   NF - количество критериев, показавших наличие                                             rbc.ru               7220     356         25   356               356
сбоя, PF - заключение детектора: вероятность сбоя                                       kommersant.ru             16519    356         25   356               356
(L-низкая, M – средняя, H - высокая)
                                                                                                 ria.ru           3517     356         25   356               356
   Отложенный детектор показал правильный ре-                                              rambler.ru                      356              356               356
                                                                                                                  5288                 25
зультат при проверке тестовой выборки каждого
                                                                                             Всего:               72888   2492         25   2492              2492
сайта. Ошибочное значение критерия было зафик-
сировано лишь в 1 случае из 35 (2,86%).
   В рамках второго эксперимента оценивалась                                         Табл. 4. Оценка пропуска сбоев отложенным детектором.
способность системы обнаруживать сбои. Ввиду                                           Источник            ML       MT    FP FS FN FV FT              NF           PF
отсутствия для многих сайтов достаточного числа                                           mail            25296    356    1    1   1    0   0        3 из 5        M
негативных примеров, тестовые наборы были созда-                                        itar-tass         11548    356    1    1   1    0   0        3 из 5        M
ны искусственно: в качестве «плохих» документов                                            kp             7220     356    1    0   1    0   1        3 из 5        M
использовались комментарии к новостям, получен-                                           rbc             3517     356    1    1   1    0   1        4 из 5         H
ные с сайта championat.com. Такой выбор тестовых                                         kommers          5288     356    1    1   1    1   1        5 из 5
данных обусловлен тем, что возможным последст-                                                                                                                      H
                                                                                          ant
вием изменения верстки является извлечение из веб-                                         ria            16519    356    1    0   1    1   1        4 из 5         H
страниц не новостей, а текстов с других участков                                        rambler           3500     356    1    1   1    1   1        5 из 5         H
сайта, в частности, комментариев. Для проведения
                                                                                        Всего:            72888    2492   7    5   7    3   5 27 из 35
эксперимента использовалось 356 документов (для
всех источников использовался одинаковый тесто-
вый набор).


                                                                                95
Заключение                                                             [9] Nicholas Kushmerick. Wrapper verification. World Wide
                                                                            Web Journal, 3(2):79-94, 2000.
    В работе предложен метод обнаружения изме-                         [10] Lemeshow, David W. Hosmer, Stanley (2000). Applied
нений структуры новостных веб-сайтов. В основе                              logistic regression (2nd ed.). New York: Wiley
метода лежит двухуровневая проверка корректности                       [11] K. Lerman, Steven Minton, and Craig Knoblock. Wrap-
новостей, обеспечивающая быстроту реакции и вы-                             per maintenance: A machine learning approach. Journal
                                                                            of Artificial Intelligence Research, 18:149-181, 2003.
сокое качество оценки документов.                                      [12] Daniel Nikovski, Alan Esenther. Semi-Supervised Infor-
    В основе первичной классификации новостей                               mation Extraction FromVariable-LengthWeb-PageLists //
лежит проверка схожести документа с элементами                              International Conf. onEnterprise Information Systems –
обучающей выборки. Это позволяет системе адек-                              2009.
ватно реагировать на любые нетипичные для сайта                        [13] Ermelinda Oro, Massimo Ruffolo, Steffen Staab. SXPath
новости. Простота выполнения этой проверки дос-                             - Extending XPath towards Spatial Querying on Web
                                                                            Documents // Proceedings of the VLDB Endowment –
тигается с помощью предложенного метода класте-
                                                                            2011.–Vol. 4, No. 2 – P. 129–140.
ризации. Он относится к иерархическим методам, но                      [14] Sturges H. The choice of a class-interval., 1926, Journal
имеет меньшую вычислительную сложность по                                   of the American Statistical Association, Vol. 21, No. 153,
сравнению с другими алгоритмами этого класса.                               P. 65-66.
    Отложенная проверка корректности основана на                       [15] А.М. Андреев, Д.В. Березкин, В.В. Морозов, К.В.
сравнении законов распределения. Для правильной                             Симаков. Метод кластеризации документов тексто-
интерпретации полученного результата использует-                            вых коллекций и синтеза аннотаций кластеров //
                                                                            Электронные библиотеки: перспективные методы и
ся пороговая функция, полученная путём аппрокси-                            технологии, электронные коллекции: Труды 10-ой
мации методом МНК. Такой подход обеспечивает                                Всероссийской научной конференции (RCDL’2008). –
высокую точность проверки в независимости от                                Дубна, 2008. – С. 220–229.
размера оцениваемой выборки.                                           [16] Аппроксимация методом наименьших квадратов
    Проведенные эксперименты показали эффек-                                (МНК) [Электронный ресурс] – Режим доступа:
тивность совместного использования двух детекто-                            http://alglib.sources.ru/interpolation/linearleastsquares.ph
                                                                            p, свободный
ров. Предложенный подход был реализован в виде
                                                                       [17] Бериков В.Б., Лбов Г.С. Современные тенденции в
подсистемы отслеживания сбоев в системе сбора                               кластерном анализе. – Новосибирск: Институт мате-
новостной информации. Данная система успешно                                матики им. С.Л. Соболева
внедрена в Совете Федерации Федерального Собра-                        [18] Дюран Б., Оделл П. Кластерный анализ. М.: Стати-
ния РФ в рамках комплекса «Обзор СМИ», решаю-                               стика, 1977. 128 с.
щего задачу сбора, накопления и классификации                          [19] Жамбю М. Иерархический кластер-анализ и соответ-
новостей общественно-политической тематики.                                 ствия. М.: Финансы и статистика, 1988. 342 с.
                                                                       [20] Кендалл М., Стьюарт А. Статистические выводы и
Литература                                                                  связи. — М.: Наука, 1973
                                                                       [21] Мандель И.Д. Кластерный анализ. М.: Финансы и
[1] Tobias Anton. XPath-Wrapper Induction by generalizing                   статистика, 1988. 176 с.
    tree traversal patterns // Workshopwoche der GI-                   [22] Хайкин С. Нейронные сети: полный курс 2-еиздание.:
    Fachgruppen/Arbeitskreise       GI-Fachgruppen      ABIS,               Пер. сангл. М.: Вильямс, 2006. 1104 с.
    AKKD, FGML – 2005, p. 126–133.
[2] Boris Chidlovskii, Jon Ragetli and Maarten de Rijke.                         The method of detecting structure
    Wrapper generation by reversible grammar induction //                            changes of news websites
    Machine Learning: ECML 2000, Lecture Notes in Com-
    puter Science, 2000, Vol. 1810 – P. 96-108.
[3] NelloCristianini and John Shawe-Taylor. An Introduction                   Arkady Andreev, Dmitry Berezkin, Ilya Kozlov,
    to Support Vector Machines and other kernel-based                                     Konstantin Simakov
    learning methods. Cambridge University Press, 2000                     This article describes unsupervised method of detecting
[4] Jain A. Dubs R., Clustering methods and algorithms,1988            structure’s and markup’s changes of targeted websites. This
    // Prentice-Hall Inc.                                              problem arises when we deal with maintenance of real-life
[5] Hans-Peter Kriegel, Peer Kröger, Arthur Zimek. Outlier             HTML-wrapper applications.
    Detection Techniques. The Thirteenth Pacific-Asia Con-                  We have proposed two stages of detection – online and
    ference on Knowledge Discovery and Data Mining, 2009               offline. The former is based on clustering considering HTML-
[6] Kullback S., Leibler R.A. On information and sufficiency           document as a vector of some features. The later builds
    // The Annals of Mathematical Statistics. 1951. V.22.              statistical distributions of such features for learning and testing
    №1. P. 79-86.                                                      sets of HTML-documents. Comparing such distributions we
[7] Nicholas Kushmerick, Dan S. Weld, and Robert B.                    can make decision of structure’s or markup’s change.
    Doorenbos. Wrapper induction for information extrac-
    tion. In Proceedings of the Intl. Joint Conference on Arti-             We have carried out several experiments with data
    ficial Intelligence (IJCAI), pages 729-737, 1997.                  obtained from real wrapper. The result shows the robustness
[8] Nicholas Kushmerick. Wrapper induction: Efﬁciency and              of our approach.
    expressiveness // Artiﬁcial Intelligence – 2000. – №118.
    – P. 15–68.


                                                                  96