Подход к фильтрации запрещенного контента в веб- пространстве © Е.А. Сидорова1,2 © И.С. Кононенко1,2 ©Ю.А. Загорулько1,2 1 Институт систем информатики имени А.П. Ершова СО РАН, 2 Новосибирский государственный университет, Новосибирск, Россия lsidorova@iis.nsk.su irina_k@cn.ru zagor@iis.nsk.su Аннотация. Введение законодательного регулирования содержания информационных ресурсов обострило проблему автоматического обнаружения и блокировки запрещенного контента. Предложен подход к решению данной проблемы, в котором тематический анализ веб-сайтов дополняется жанровым, что позволяет выявить осуществляемую посредством веб-сайта деятельность и, благодаря этому, более точно распознать и локализовать запрещенный контент. Решение о наличии запрещенного контента на странице сайта принимается не только на основе анализа ее содержимого, но и на основе результатов анализа тематики и жанра сайта в целом. Разработаны программные средства и русскоязычные ресурсы для обнаружения запрещенного контента, относящегося к теме «Наркомания и наркотики». Ключевые слова: классификация веб-сайтов, фильтрация запрещенного контента, тематический анализ текста, жанровый анализ веб-сайтов. An Approach to Filtering Prohibited Content on the Web © E.A. Sidorova1,2 © I.S. Kononenko1 © Yu.A. Zagorulko1,2 1 A.P. Ershov Institute of Informatics Systems, 2 Novosibirsk State University, Novosibirsk, Russia lsidorova@iis.nsk.su irina_k@cn.ru zagor@iis.nsk.su Abstract. The institution of legislative regulation of the content of information resources has aggravated the problem of automatic detection and blocking of prohibited content. We propose an approach to solving this problem. In this approach, a thematic analysis of websites is complemented by a genre one, which allows identification of the activity carried out through a website and, therefore, brings about a more accurate recognition and localization of the illicit content. The decision on the presence of prohibited content on a website page is made on the basis of both analysis of the page text content and results of thematic and genre analysis of the site as a whole. Software and Russian-language resources for the detection of prohibited content related to the topic “Drug addiction and drugs” have been developed. Keywords: website classification, filtering prohibited content, thematic text analysis, website genre analysis. 1 Введение Введение законодательного регулирования содержания информационных ресурсов обострило Задача избирательного распространения проблему обнаружения и блокировки запрещенного информации, сформулированная Луном (Luhn) в контента, к которому относится любое запрещенное 1958 г., получила наименование «фильтрация» в государством для просмотра и ознакомления 1975 г. (Denning). Система фильтрации контролирует информационное наполнение ресурса или веб-сайта поток документов, отбирая в нем полезные (текст, мультимедиа, графика). При существующей документы в соответствии с некоторым критерием скорости прироста и обновления информации в (информационная потребность пользователя). Более полной мере контролировать ее содержание с полно задача определена в [5]: процесс фильтрации помощью модераторов-людей практически предназначен для отбора или удаления информации невозможно. из динамического потока данных. Современные подходы к автоматической фильтрации запрещенного контента чаще всего Труды XIX Международной конференции основаны на использовании списков ссылок на сайты «Аналитика и управление данными в областях с (URL-фильтрация) [13], распознавании ключевых интенсивным использованием данных» (DAMDID/ RCDL’2017), Москва, Россия, 10–13 октября 2017 года 64 слов из списка запрещенных, а также на основе 2. Представление информационного класса тематической классификации, например [6, 10]. (информационной потребности, категории, Указанные методы не дают требуемого качества: в профиля пользователя). первом случае списки составляются вручную и не 3. Сопоставление документа и класса с помощью позволяют оценивать новые сайты, во-втором случае алгоритмов, вычисляющих меру сходства. ключевые слова дают очень грубую оценку и либо Запрещенный контент − это любое ложно блокируют сайты с употреблением терминов содержательное наполнение веб-сайта, в других смыслах, либо недостаточно полно предоставление которого для просмотра и покрывают способы выражения запрещенной ознакомления запрещено государством. На информации. Что касается тематической территории РФ действует федеральный закон № 149- классификации, то, помимо большой зависимости от ФЗ «Об информации, информационных технологиях обучающей выборки, она не позволяет определить и о защите информации», в соответствии с которым цели, с которыми дается та или иная информация, устанавливаются основания для включения сайтов в что приводит к ложному срабатыванию фильтра, а список запрещённых. Список тематик блокируемых для огромных массивов интернет-данных это ресурсов открыт и включает, к примеру, такие типы недопустимо. запрещенного контента, как: контент, При рассмотрении различных методов предназначенный только для взрослых, пропаганда фильтрации [3, 5], таких, как Boolean Information против отдельного лица, группы или организации; Filtering, Vector Space Model, Neural Networks и т. п., материалы, связанные с наркотиками; контент, подчеркивается важность семантических проблем, связанный с оружием, и др. т. е. проблем неоднозначности терминов Для апробации предлагаемого подхода в качестве (синонимия, полисемия, омонимия), затрудняющих запрещенного рассматривался текстовый контент на сопоставление терминов в процессе содержательной русском языке, относящийся к теме «Наркомания и фильтрации. Для преодоления семантических наркотики». проблем, например, в [7], предложен метод, В силу высокой сложности задачи выявления основанный на лингвистической онтологии, в запрещенного контента предложенное решение качестве которой используется WordNet [2]. основано на совокупности различных методов Основным недостатком такого подхода является анализа текстов и интернет-документов, включая трудоемкость построения лингвистической методы машинного обучения и инженерный подход. онтологии для заданного языка и предметной Машинное обучение не является полностью области. автоматическим, оно также требует экспертной В предлагаемом нами решении используется деятельности по аннотированию обучающего комплексный подход, при котором решение о множества текстов метками классов. Однако запрещенности страницы принимается на основании сформированные автоматически (хотя и на основе не только ее тематики, но и прагматики, т. е. вида экспертной разметки) описания классов содержат деятельности, осуществляемой посредством сайта в много «шумящей» лексики, которая на этапе целом. Дополнение тематического анализа классификации текстов понижает точность работы жанровым, а также использование лексических алгоритма. признаков, позволяющих явным образом задать Инженерный подход предполагает создание семантику терминов, дает возможность более точно описаний классов с участием эксперта, который, распознать и локализовать запрещенный контент. используя ускоряющие его деятельность программные модули нормализации текста и 2 Задача фильтрации контента генерации частотных словарей, формирует ресурсы Фильтрация текстового контента традиционно для классификатора. Несмотря на трудоемкость рассматривается как разновидность реализации, инженерный подход обеспечивает информационного поиска. С другой стороны, высокое качество классификации текстов за счет фильтрацию можно рассматривать как особый экспертной фильтрации «шума» и дополнения случай классификации по двум категориям словарей (описаний классов) недостающей (релевантные и нерелевантные). В обзоре [4] лексикой, отсутствующей в обучающей коллекции. сформулированы сходства и различия Особенность предлагаемого решения состоит в информационного поиска, фильтрации и бинарной интеграции тематических и жанровых методов категоризации. Фильтрация, в отличие от поиска, классификации текстовых ресурсов на базе основана не на запросах, а на представлении инженерных правил принятия решения о наличии индивидуальных или групповых интересов (профиль вредоносного контента. Использование пользователя). Запрос – сиюминутный интерес, а тематических градаций в теме «Наркомания и профиль – долговременный (возможно меняющийся) наркотики» обеспечивает построение ее описания во интерес. всем многообразии и полноту классификации Базовое сходство всех направлений заключается контента. в наличии следующих компонентов: Необходимость использования жанровой 1. Представление веб-объекта (документа). классификации вызвана особенностями основной 65 темы и требованиями к принимаемому решению – Наркотики определению принадлежности контента к двум Распространение Изготовление Отрицательный классам: запрещенному контенту и незапрещенному. Пропаганда (употребление) контент Определение жанра позволяет уточнить решение, Транспортировка полученное на базе тематической классификации. ------------------------- Борьба Этому же способствуют используемые логические Лечение наркомании Положительный правила принятия решения о запрещенности Лекарства, в состав которых входят наркотики контент Химические исследования контента, построенные на основе результатов жанровой и тематической классификации. Рисунок 1 Фрагмент тематического рубрикатора В силу особенностей текстов исследуемой тематики традиционный алгоритм обработки текстов Выделяются такие жанры веб-ресурсов, как дополнен модулем анализа специальной Торговая площадка, Аптека, Сайт медицинской тематической и стилистически окрашенной лексики организации, Энциклопедический ресурс, Новостная – научная терминология, сленг наркоманов, лента, Персональная страница, Комментарий и т. п. обесценная лексика, жаргон интернет- Предметный словарь − структурированное пользователей, тематическая лексика на латинице и хранилище терминов (слов и словокомплексов), в транслите. котором содержится вся необходимая информация Для оптимизации времени работы приложения для предварительного отбора тематически алгоритм реализуется в два этапа: релевантных страниц, тематического и жанрового 1. предварительный анализ: установление наличия анализа текстового контента и принятия решения о в тексте лексики, характерной для заданной блокировке. тематики; Начальное наполнение словаря генерируется на 2. основной алгоритм: тематическая и жанровая этапе обучения с использованием размеченного классификации с принятием окончательного экспертами корпуса веб-страниц, относящихся к решения о запрещенности / незапрещенности исследуемой тематике, с применением контента. универсального морфоанализатора, снабженного Предусмотрена возможность обоснования функцией предсказания незнакомой лексики. полученных решений путем предоставления Дополнительными источниками тематической промежуточных результатов работы алгоритма лексики являются законодательно утверждённые фильтрации в понятной для конечного пользователя Правительством РФ перечни наименований форме: найденной лексики, полученной уточненной контролируемых наркотических средств, тематики, жанра и используемых решающих правил. психотропных веществ и их прекурсоров, а также соответствующих видов растений, которые 3 Модель знаний периодически пополняются и корректируются Предлагаемое нами решение основано на (примерно раз в год). Соответствующие документы использовании лингвистических и предметных доступны на официальных интернет-сайтах знаний и включает следующие ресурсы: правовой информации, таких, как www.consultant.ru 1. Рубрикаторы: тематический, жанровый (жанры и pravo.gov.ru. интернет-текстов), прагматический (жанры Далее осуществляется настройка предметного сайтов) и лексический (признаки терминов). словаря экспертами, которые выделяют в его составе 2. Предметный словарь, включающий специальные подсловари, используя систему тематическую и жанровую лексику. лексических признаков: тематическая лексика, 3. Жанровые шаблоны веб-текстов. научные термины, сленг наркоманов, термины на 4. Прагматические модели веб-сайтов. латинице, жанровая лексика и др. В задачу экспертов 5. Решающие правила. входит пополнение этих подсловарей, выявление Рассмотрим их подробнее. регулярных ошибок фильтрации и формирование Тематический рубрикатор вводит уточняющие правил для изменения состава и структуры словаря. подтемы для базовой тематики «Наркомания и Для создания и настройки словаря наркотики» и включает как запрещенные темы, так и использовалась технология создания незапрещенные (см. Рис. 1). терминологических словарей KLAN [12]. Назначение данного рубрикатора: Жанровые шаблоны веб-текстов формируются • отделить сайты по заданной тематике; на основе лексических маркеров жанра и условий их встречаемости в текстовом фрагменте. Маркеры • дать объяснение пользователю, почему сайт строятся на основе терминов словаря, при этом заподозрен или отнесен к запрещенным. используются возможности представления Жанровый рубрикатор предназначен для совместной встречаемости терминов, классификации веб-страниц и веб-сайтов по жанрам, альтернативности терминов в конкретной позиции что в дальнейшем используется как для уточнения (квазисинонимия), а также иерархической тематической классификации, так и для повышения вложенности маркеров друг в друга. Например, качества фильтрации на основе правил. страницы сайта типа Торговая площадка содержат следующие элементы: 66 • количественные конструкции (маркер: единица Отметим, что правила принятия решений можно измерения “гр”, “мгр”), было бы сформировать автоматически при • списки количественных конструкций (прайсы) с достаточном объеме обучающей выборки. маркерами из жанровой лексики: Эксперимент показал, что экспертные правила не противоречат правилам, сформированным Цены: 5гр. – 5 000 р, 10гр.–- 9 000 р автоматически по обучающей выборке. Таким • жанровая лексика: цена, товар, закладка. образом, можно рассматривать такой метод Шаблон веб-страницы составляется из маркеров, автоматического формирования правил как способ на которые накладываются позиционные условия на верификации правил, написанных экспертом. тип фрагмента (заголовок, ссылка, выделенный текст, текст). Как и при описании маркеров, 4 Фильтрация контента поддерживаются альтернативы и совместная Анализ текстового контента осуществляется в встречаемость маркеров. несколько этапов. К основным этапам относятся Рассмотрим для примера новостной шаблон: тематическая и жанровая классификация текста, «новостная лента»: [<_навигацияНовость, all_h>] жанровый анализ сайта и принятие решения о _навигацияНовость: [«главное за сутки»] запрещенности контента. [«главное за сегодня»][«главное за день»] Объем статьи не позволяет в полной мере [«все новости»][«основные новости»] раскрыть каждый этап обработки текста, поэтому мы [«последние новости»][«лента новостей»] сконцентрируемся на основных идеях и Содержательно данный шаблон описывает используемых подходах. следующее правило: если в одном из заголовков встретится один из маркеров группы 4.1 Классификация текста _навигацияНовость, то это новостная лента. Прежде всего, необходимо уметь выявлять Модель веб-сайта задается набором жанров веб- соответствие контента исследуемой тематике страниц, которые обязательно должны присутствовать на сайте и являются в совокупности (подозрительность текста). При принятии решения его отличительным признаком. Для каждого сайта о степени подозрительности контента необходимы: может быть задано несколько шаблонов. Например, а) Словарь тематической лексики, присутствие модель интернет-магазина представлена двумя которой в тексте позволяет предположить тему альтернативами: «Наркомания и наркотики». Словарь содержит слова [Магазин, Описание товара, ПредложениеТовара, и словосочетания данного лексико-семанти-ческого Корзина, Доставка, Оплата] поля, как специальные научные и нейтральные, так и [Магазин, Описание товара, ПредложениеТовара, жаргонные (сленг наркоманов). Эта лексика CтатусЗаказа] включает названия наркотиков, наркосодержащих Принятие решения осуществляется на основе лекарств и растений, названия состояний под воздействием наркотиков и т. п. решающих правил, в посылках которых описываются условия того, будет ли анализируемый контент б) Критерий для определения возможной запрещен или разрешен. Эти условия строятся на принадлежности к данной теме (степени термах, значениями которых являются конкретные подозрительности) текста, содержащего термины из тематики, жанры текста, жанры сайта и лексические словаря. Вычисление критерия опирается на степень признаки. Применяются правила двух видов: присутствия тематической лексики с учетом положительные и отрицательные, лексического признака однозначности/ характеризующие текст, соответственно, как неоднозначности (омонимичная, т. е. тематически разрешенный или запрещенный. Правилами неоднозначная лексика из рассмотрения на данном описываются, например, следующие экспертные шаге исключается). наблюдения: Для подозрительных текстов применяется уточняющая классификация в соответствии с a) Если анализируемому контенту приписан заданными рубриками с использованием весовых лексический признак <40> «Обсценная лексика», он отнесен к тематике [601] «Употребление характеристик терминов, вычисляемых как наркоманами» и жанру <401> «Торговая площадка» ожидаемая взаимная информация (EMI) [9]. Данная или (404) «Научная/информационная статья», то мера позволяет оценить, сколько информации о текст следует отнести к запрещенному контенту; классе – в теоретико-информационном смысле – b) Текст по теме [1102] «Выращивание содержит термин. Обучение и настройка алгоритма наркотических растений», написанный в жанре (407) классификации производилась с участием эксперта. «Словарная статья», относится к незапрещенному При оценке релевантности текста классу контенту. А текст по той же теме, представленный в (тематике) помимо веса термина учитывалась «зона ином жанре, может диагностироваться правилами текста», в которой встретился термин [1]: так, как запрещенный контент и т. п. например, вес терминов в заголовках удваивался. Экспертные правила, помимо полноты, обладают Способ взвешивания терминов, основанный на расчете EMI, дает улучшение на 5% по сравнению со высокой объяснительной способностью, что является существенным для нашей задачи. способом взвешивания типа TF*IDF. 67 4.2 Жанровый анализ удалось, то применяется классификация на основе методов машинного обучения. В отличие от основной массы подходов к фильтрации, которые реализуют только контент- 4.3 Принятие решения на основе правил анализ страниц ресурсов, т. е. тематический анализ по ключевым словам, либо ограниченный жанровый Решение о запрещенности/незапрещенности анализ (преимущественно по формальным контента принимается на основе следующих признакам, таким, как длина текста, количество параметров: букв, цифр и специальных признаков, количество 1. 𝑃̅𝑡 =(p(t1), p(t2), ..., p(ti ), ..., p(tNt)) – вектора ссылок и т. п. [8]), предложенный нами подход релевантности текстового контента тематикам осуществляет многоаспектный жанрово- рубрикатора, где Nt – число тематик в тематический анализ и классификацию. рубрикаторе, p(ti) – вероятность реализации Используемые в рамках данного подхода признаки тематики ti в анализируемом тексте, i = 1, ..., Nt; классификации явным или опосредованным образом ∑𝑁𝑡 𝑖=1 𝑝(𝑡𝑖 ) = 1; отражают не только тематику анализируемых 2. 𝑃̅𝑗 ⁡=(p(j1), ..., p(jNj)) – вектора релевантности ресурсов, но и такие коммуникативно- контента текста жанрам текста, заданным в прагматические аспекты жанра, как вид жанровом рубрикаторе, где Nj – число жанров деятельности, осуществляемой посредством ресурса, 𝑁𝑗 текста в рубрикаторе; ∑𝑖=1 𝑝(𝑗𝑖 ) = 1; включая цели и задачи деятельности и целевую 3. 𝑃̅𝑗𝑠 ⁡=(p(js1), ... ,p(jsNs)) – вектора релевантности аудиторию как ее участника, медийные свойства контента всего сайта жанрам сайта, заданным в ресурсов, стилистические особенности рубрикаторе, где Ns – число жанров сайта в используемых языковых средств. рубрикаторе; ∑𝑁𝑠 𝑖=1 𝑝(𝑗𝑠𝑖 ) = 1; Признаки жанрово-тематической классификации 4. VL=(v(lex1), …, v(lexLn)) – вектора наличия делятся на группы, каждая из которых отражает лексических признаков в текстовом контенте, определенный аспект классификации: 1. Жанрово-структурная классификация ресурсов где v(lexi ){0,1} – показатель присутствия/ на основе двухуровневой модели: отсутствия в тексте лексического признака lexi (например, сленга, обсценной лексики и т. п.);  Макроуровень – ресурс в целом; 5. 𝑃̅𝑅𝑢𝑙𝑒 – набора решающих правил вида ti & jk &  Микроуровень (компоненты ресурса: jsm & lexj, принимающих решение о страница, раздел, блок). запрещенности / незапрещенности 4. Жанрово-прагматическая классификация анализируемого контента в виде оценки mp, ресурсов (на основе прагматических аспектов вычисляемой как вероятность совместной содержания и представления): реализации темы ti, жанра текста jk, жанра сайта jsm и лексического признака lexj. в этом контенте.  Праксиологические (деятельностные) Оценка mp вычисляется по формуле 𝑝(𝑡𝑖 ) ∙ 𝑝(𝑗𝑘 ) ∙ аспекты (вид деятельности, которая 𝑝(𝑗𝑠𝑚 ) ∙ 𝑣(𝑙𝑒𝑥𝑗 ), т. е. это произведение осуществляется посредством ресурса); вероятностей указанных в правиле параметров,  Аспекты содержания и представления, взятых из векторов, описанных выше; связанные с каналом коммуникации 6. 𝑀 ̅ = (𝑀− , 𝑀+ ) – двухкомпонентный вектор (медийные свойства ресурсов). сумм оценок всех отрицательных и 5. Жанрово-стилистическая классификация положительных правил соответственно. ресурсов: Окончательное решение о запрещенности /  Лексико-стилистические аспекты незапрещенности контента принимается по содержания и представления критерию С: если 𝐶 = (𝑀 −⁡ −𝑀+⁡ ) > 0, то считается, (стилистические особенности используемых что контент запрещен. Настройка данного критерия языковых средств с акцентом на позволяет изменять результаты работы системы в стилистически окрашенные языковые сторону повышения либо полноты, либо точности средства). фильтрации. Представление о жанре закладывается на этапе 5 Архитектура системы фильтрации формирования обучающей выборки, которая целенаправленно отбирается и размечается запрещенного контента экспертами. Предлагаемая процедура жанровой Схема выявления запрещенного контента классификации совмещает статистический и представлена на Рис. 2. На вход системы фильтрации экспертный подходы к анализу жанра и опирается на запрещенного контента поступает контент сайта, метод вычисления меры принадлежности текста к представленный множеством веб-текстов (текстов с жанру [11]. Вначале применяется экспертный html-разметкой), либо обновление сайта – множество подход, в рамках которого осуществляется поиск в новых либо отредактированных веб-текстов сайта. тексте жанровых маркеров, т. е. сопоставление Веб-текст – это единица текстового контента сайта, тексту шаблонов, составленных экспертом. Если на хранящаяся в БД на сервере. Веб-страница, которую основе маркеров жанр веб-текста определить не видит пользователь при просмотре веб-сайта с 68 помощью веб-браузера на стороне клиента, рамках темы «Наркомания и наркотики». При формируется в общем случае из множества веб- уточняющей классификации используется текстов с добавлением незначащего для анализа обученный на размеченном корпусе текстов контента – элементов оформления страницы, предметный словарь. Результатом уточняющей баннеров, рекламы и т. п., а также медиа-контента. классификации являются векторы релевантности Обработка сайта начинается с анализа его текста темам и жанрам, которые сохраняются в структуры, затем формируется начальный индекс индексе сайта. сайта (в случае обновления сайта индекс После первичной обработки всех веб-текстов модифицируется), фиксируются зависимости между сайта осуществляется анализ его жанра. Каждый веб-текстами. После этого тексты сайта жанр сайта описывается одной или несколькими последовательно анализируются. моделями. Модель сайта фиксирует набор жанров текста, которые обязательно должны встретиться на сайте данного жанра. Данные модели составляются экспертами вручную на основе анализа структуры веб-сайтов обучающей коллекции. Вычисление оценки степени соответствия сайта какому-либо жанру осуществляется по моделям сайтов и оценкам, полученным для жанров веб-текстов сайта. Полученные оценки для жанра веб-сайта и составляющих его веб-текстов сохраняются в индексе сайта. Принятие решения о запрещенности сайта осуществляется на основе решающих правил, которые применяются только для подозрительных текстов. Особенностью параметра подозрительности текста является то, что он «распространяется» на все связанные тексты (связи между текстами фиксируются структурой сайта и хранятся в индексе сайта). Поэтому на стадии предварительной обработки осуществляется поиск всех Рисунок 2 Схема выявления запрещенного подозрительных текстов по связям и выполнение контента уточняющей классификации для тех из них, для которых она ранее не проводилась. Результатом Каждый веб-текст очищается от html-разметки применения правил к тексту является оценка (значащие элементы разметки, такие, как заголовки, запрещенности страницы. ссылки, выделение фрагмента стилем, сохраняются), Оценка запрещенности всего сайта определяется осуществляется лингвистический анализ текста, как максимум из оценок запрещенности по всем обеспечивающий поиск в нем терминов словаря, и текстам сайта. сбор статистической информации. Далее производится оценка тематической принадлежности 6 Результаты эксперимента текста к базовой теме «Наркомания и наркотики» – т. н. «оценка подозрительности» текста (текст Для оценки качества фильтрации были считается подозрительным, если его контент сформированы одна обучающая и две тестовых соответствует базовой теме). В определении коллекции, содержащие веб-тексты: подозрительности участвует только однозначная 1. Обучающая коллекция, состоящая из 468 веб- лексика, наличие которой позволяет снять текстов на русском языке, относящихся к теме возможную тематическую неоднозначность текста. «Наркомания и наркотики». Все тексты Для неподозрительных текстов дальнейшая оценка размечены экспертами. Разметка включает запрещенности не проводится, определяется лишь экспертную оценку запрещенности / жанр текста, который заносится в индекс сайта. незапрещенности контента, тематику, жанр веб- Жанровая классификация позволяет определить текста и жанр веб-сайта, на котором был жанр текста на основе словаря маркеров и размещен данный текст. структурного анализа текста в соответствии с 2. Тестовая коллекция веб-текстов, включающая разметкой. Если на основе маркеров и жанровых около 123 тыс. русскоязычных веб-страниц, часть шаблонов жанр веб-текста определить не удалось, то которых относится к теме «Наркомания и применяется уточняющая классификация на основе наркотики», но не содержит запрещенный методов машинного обучения. контент. Уточняющая классификация обеспечивает не 3. Коллекция собрана вручную на основе сайтов только определение жанра текста, но и уточнение Яндекс-каталога (https://yandex.ru/yaca). Тестовая (конкретизацию) его тематики в соответствии с коллекция веб-текстов, включающая 569 веб- типами противоправных и разрешенных действий в текстов на русском языке, содержащих 69 запрещенный контент по теме «Наркомания и фильтрации, в которой тематическая классификация наркотики». сочетается с жанровой и применяются решающие Полученные коллекции включают веб-тексты правила (отметим, что результаты, полученные различных функциональных стилей – от тематическим классификатором, использовались нормативных и официальных документов до здесь в качестве промежуточных.) сообщений и комментариев на форумах и в Таким образом, ошибка первого рода составила социальных сетях, – что позволяет адекватно 0,6%, ошибка второго рода – 13,01%. оценить качество фильтрации на всем многообразии Большая часть ошибок обоих типов связана с интернет-жанров. К сожалению, в открытом доступе неполнотой словаря. Так, возможны существенные отсутствуют размеченные коллекции текстов по лакуны в подсловарях латиницы и транслита данной тематике, чем объясняется небольшой объем (например, отсутствуют названия наркотиков 25i- первой и третьей коллекций, которые создавались nbome, JWH, нбоме, дживиаш). Не всегда в словаре нашими экспертами вручную. Объем веб-текстов в учтена возможная лексическая или лексико- коллекциях варьировался от 213 до 65655 Кб. морфологическая неоднозначность (например, доб. На основе обучающего корпуса текстов был может представлять в тексте наркотик или построен словарь, который в дальнейшем был сокращение от добавочный). дополнен терминами из специализированных Ложно-положительная оценка характерна для словарей. Словарь содержит более 50 тыс. терминов страниц, которые не проходят предварительный этап (без учета стоп-слов). Его общий количественный и фильтрации ввиду отсутствия однозначной качественный состав отражен в Таблице 1. тематической лексики. Так, не блокируются (отсеиваются как неподозрительные) страницы, Таблица 1 Терминологический состав словаря содержащие предложения или рекламу Лексем Слово- Подозри- Жанро- Сленг наркотических веществ, завуалированные путем комплексов тельных вых использования неоднозначной лексики (например, 24175 26540 5349 1895 3161 соли для ванн), а также намеренно искаженные (зашифрованные) тексты. Как видно из таблицы 1, ключевые слова для Ложно-отрицательная оценка характерна для предварительного отбора текстов по теме следующих типов веб-текстов: а) информационные («подозрительные», т. е. однозначные тематические статьи о наркотических веществах или растениях (в термины) составляют десятую часть объема словаря. частности, о выращивании декоративных растений), Оценка качества классификации была дана в виде жанр которых не определен как энциклопедическая/ показателей полноты (R), точности (P) и F-меры. словарная статья; б) новостные тематические тексты Рассматривалась бинарная классификация (1) и с позитивной окраской (Умеренное потребление уточняющая тематическая классификация (2). Оба алкоголя и амфетамина может улучшить память у сравниваемых метода основаны на машинном пожилых людей); в) тематически нейтральные обучении, но во втором случае используется страницы комментариев на форумах и в блогах с расширенный набор тем, причем для каждой из них вкраплением шутливых тематических комментариев указано, является ли она запрещенной или нет. (Наркотой там не барыжите, случайно? – реплика Таблица 2 Сравнение методов классификации при обсуждении вопросов информационной R P F-мера Скорость безопасности). (1) 52,0% 65,4% 57,9% ~ 0,07 мс Заключение (2) 72,6% 69,7% 71,1% ~ 0,10 мс Предложенный подход реализован в виде Как видно из Таблицы 2, использование приложения, интегрированного в платформу Plesk. уточняющего тематического рубрикатора, Приложение позволяет выявлять и блокировать построенного по специальной ориентированной на сайты, содержащие запрещенную информацию по задачу фильтрации методике, позволило улучшить теме «Наркомания и наркотики» и/или показатели полноты и точности в сравнении с осуществляющие незаконную деятельность по бинарной классификацией (когда контент сразу торговле, распространению, транспортировке, классифицируется на два класса – запрещенный и изготовлению и пропаганде наркотиков. незапрещенный), соответственно, на 20% и 10%. К преимуществам предложенного подхода Однако эти показатели все еще являются низкими. относятся, во-первых, глубокий анализ текстового Таблица 3 Оценка качества фильтрации контента веб-ресурса с учетом его тематических и Кол-во Правильных жанровых особенностей, во-вторых, совмещение (страниц) ответов (%) статистических и инженерных методов анализа Нейтральная текста, в частности, предложен уникальный метод ~ 123 тыс. 99.4% принятия решения о запрещённости контента на коллекция Отрицательная основе решающих правил, учитывающих результаты 569 86.99% его жанровой и тематической классификации, в- коллекция третьих, масштабируемость и технологичность В Таблице 3 приведены оценки работы системы разработанных программных средств, что позволяет 70 легко адаптироваться к различным предметным [3] Khozooii, N.S., Haratizadeh, S., областям посредством настройки базы знаний. Keyvanpour, M.R.: An Analytical Framework for В предложенном подходе, на наш взгляд, Web Information Filtering Techniques. Int. J. of достигнут баланс между ручной работой эксперта и Hybrid Information Technology, 6 (6), pp. 345-358 автоматическим обучением, где, во-первых, словари (2013) создаются и обучаются автоматически, а эксперты [4] Nanas, N.: Literature Review: Information Filtering пополняют их номенклатурными терминами и for Knowledge Management. The Open University, сленгом, во-вторых, неполнота жанровых 2001. http://kmi.open.ac.uk/publications/ pdf/kmi- (функциональных) описаний интернет-ресурсов 01-16.pdf (создаются экспертом) компенсируется поддержкой [5] Nouali O., Blache P. Automatic Classification and статистического жанрового классификатора, и Filtering of Electronic Information: Knowledge- наконец, решающие правила потенциально могут Based Filtering Approach. Int. Arab J. of строиться автоматически, а оценка применимости Information Technology, 1 (1), pp. 85-92 (2004) правила для каждого конкретного случая [6] Sebastiani, F.: Machine Learning in Automated оценивается по вероятностной формуле. Text Categorization. ACM Computing Surveys, 34 Дальнейшее развитие описанной технологии (1), pp. 1-47 (2002) связано с необходимостью автоматизации поддержки словаря в актуальном состоянии. [7] Shoval, P., Maidel, V., Shapira, B.: An Ontology Автоматизация возможна на базе жанрового анализа Content-based Filtering Method. Int. J. Information страниц, относящихся к жанрам «Нормативный Theories & Applications, 15, pp. 303-314 (2008) список» (отслеживание словарей официальных [8] Воронов, С.О., Воронцов, К.В.: Автоматическая наименований контролируемых веществ и растений) фильтрация русскоязычного научного контента и «Словарная статья» (отслеживание словарей методами машинного обучения и универсального и тематического сленга, обсценной тематического моделирования. Компьютерная лексики). Однако главным источником тематической лингвистика и интеллектуальные технологии: лексики по-прежнему остаются эксперты, т. к. По материалам ежегодной Межд. конф. интернет-словари тематического сленга «Диалог». 2015. http://www.dialog-21.ru/digests/ существенно отстают от происходящих в среде dialog2015/materials/pdf/VoronovSOVorontsovK наркоманов изменений лексики. V. pdf В качестве актуального направления [9] Маннинг, К.Д., Рагхаван, П., Шютце Х.: исследований по данной тематике также Введение в информационный поиск. М.: рассматривается возможность применения методов Вильяме, 528 с. (2011) сентимент-анализа для улучшения распознавания [10] Патент РФ № 2446460, МПК G06F21/20. Способ трудноуловимой темы пропаганды наркотиков, и система фильтрации веб-контента /Осипов представленной в информационных сообщениях, Г.С., Тихомиров И.А., Соченков И.В.; создающих привлекательный образ наркомана и патентообладатель ИСА РАН; заявл. 2010-11- процесса употребления наркотических веществ. 18; опубл. 27.03.2012 Благодарности [11] Сидорова, Е.А., Боровикова О.И.: Подход к жанровой классификации текстовых ресурсов. Работа выполнена при финансовой поддержке Информационные технологии и системы Министерства образования и науки Российской [Электронный ресурс]: Тр. Шестой Межд. науч. Федерации (договор № 02.G25.31.0054) и конф. ИТиС–2017: науч. электрон. изд. / отв. Российского фонда фундаментальных исследований ред. Ю.С. Попков, А.В. Мельников. Челябинск: (грант № 15-07-04144). Челяб. гос. ун-т, сс. 264-269 (2017) Литература [12] Сидорова, Е.А.: Подход к построению предметных словарей по корпусу текстов. [1] Cohen, William W., Singer, Y.: Context-sensitive Труды межд. конф. «Корпусная лингвистика – Learning Methods for Text Categorization. ACM 2008». СПб.: СПбУ, Факультет филол. и Transactions on Information Systems, 17, pp. 141- искусств, сс. 365-372 (2008) 173 (1999) [13] Стрекалов, И.Э., Новиков, А.А., Лопатин, Д.В.: [2] Goґmez, Josґe M., Giraґldez, I., De Buenaga, M.: Система формирования безопасности контента. Text Categorization for Internet Content Filtering. Вестник ТГУ, 20 (2), сс. 462-464 (2015) Inteligencia Artificial, Revista Iberoamericana de Inteligencia Artificial, 920, pp. 34-52 (2003) 71