=Paper=
{{Paper
|id=Vol-2022/paper55
|storemode=property
|title=
Представление новостных сюжетов с помощью событийных фотографий

(News Stories Representation Using Event Photos)

|pdfUrl=https://ceur-ws.org/Vol-2022/paper55.pdf
|volume=Vol-2022
|authors=Mikhail Postnikov,Boris Dobrov
|dblpUrl=https://dblp.org/rec/conf/rcdl/PostnikovD17
}}
==
Представление новостных сюжетов с помощью событийных фотографий

(News Stories Representation Using Event Photos)
==
<pdf width="1500px">https://ceur-ws.org/Vol-2022/paper55.pdf</pdf>
<pre>
          Представление новостных сюжетов с помощью
                   событийных фотографий
                    © М.М. Постников                                           © Б.В. Добров
              Московский государственный университет имени М.В. Ломоносова
                   факультет вычислительной математики и кибернетики,
                                     Москва, Россия
                        mihanlg@yandex.ru                           dobrov_bv@mail.ru
         Аннотация. Рассмотрена задача аннотирования новостного сюжета изображениями,
    ассоциированными с конкретными текстами сюжета. Введено понятие «событийной фотографии»,
    содержащей конкретную информацию, дополняющую текст сюжета. Для решения задачи применены
    нейронные сети с использованием переноса обучения (Inception v3) для специальной размеченной
    коллекции из 4114 изображений. Средняя точность полученных результатов составила более 94,7%.
         Ключевые слова: событийная фотография, новостные иллюстрации, перенос обучения.

            News Stories Representation Using Event Photos
                       © M.M. Postnikov                                     © B.V. Dobrov
  Lomonosov Moscow State University, Faculty of Computational Mathematics and Cybernetics,
                                     Moscow, Russia
                       mihanlg@yandex.ru                              dobrov_bv@mail.ru
           Abstract. The task of annotating a news story with images associated with specific texts is discussed
    in the article. The definition of “event photography” containing specific information supplementing text of a
    story is introduced. Neural networks (Inception v3) are used to solve a task for a special marked collection of
    4114 images using the transfer learning method. The average precision of the results is more than 94.7%.
           Keywords: event image, news illustration, transfer learning.


 1 Введение
    Распространение интернета, социальных сетей,
 развитие носимой электроники, внедрение хороших
 камер в каждый мобильный телефон – благодаря
 всем этим факторам, но не ограничиваясь ими,
 интернет становится главным источником новостей
 для современного человека, в то время как
 телевидение и печатные средства массовой                      Рисунок 1 Пример несобытийной (слева) и
 информации постепенно уходят на второй план. С                событийной (справа) фотографии для новости с
 развитием     технологий    растут    и   скорость            заголовком «в Краснодаре ГК СКИФ победил
 распространения информации, и ее количество.                  ставропольское «Динамо-Виктор» – 28:23»
    Иллюстрации      несут    значительную    часть               Для ответа на общий вопрос обычно требуется
 информации,      иногда   даже     большую,    чем            ответить на совокупность частных вопросов: «Кто?
 иллюстрируемый текст.                                         Где? Когда? Каким образом?» и т. д. Важно
    В данной работе рассмотрена задача определения             научиться отличать полезные изображения от тех,
 изображений, «полезных» для понимания новостных               которые не несут важной конкретной информации
 сообщений, иллюстрируемых ими. Как известно,                  (см. Рис. 1).
 новостные сообщения прежде всего содержат                        В рамках       данной   работы     событийной
 информацию о некотором событии и должны                       фотографией будем        называть изображение,
 отвечать на вопрос: «Что произошло?».                         используемое для иллюстрации новости, для
                                                               которого выполняются следующие требования:
                                                                  а) изображение соответствует тексту новостной
Труды XIX Международной конференции                            статьи;
«Аналитика и управление данными в областях с                      б) изображение является фотографией с места
интенсивным       использованием    данных»                    событий или могло бы ей быть (подразумевается
(DAMDID/ RCDL’2017), Москва, Россия, 10–13                     событие, описываемое в новостной статье).
октября 2017 года

                                                         359
   Например, фотографии с футбольного матча,                 обучающей               выборки          Ω⁡ = ⁡ 𝑇 𝑚 ⁡ × ⁡𝐼𝑚 ⁡× ⁡ 𝑌 𝑚 ⁡ =
места происшествия или встречи глав государств с             ⁡{(𝑡1 , 𝑖1 , 𝑦1 ), … , (𝑡𝑚 , 𝑖𝑚 , 𝑦𝑚 )}.
соответствующими новостными текстами являются                    Будем также считать, что задана неотрицательная
событийными. Если же на фотографии изображены                целочисленная функция потерь 𝐿(𝑦 , 𝑦), которая
                                                                                                                 ˜

логотип, рекламный баннер, вывеска, изображение              показывает, насколько отличается предсказанное
взято из фотобанка или фотография не соответствует                                                 ˜
новости, тогда данная иллюстрация не будет                   классификатором значение 𝑦 от истинного значения.
считаться событийной.                                           Обучающую выборку Ω разделим на две
   Задача является актуальной при создании                   непересекающиеся коллекции:
новостных агрегаторов по большому количеству                 • тренировочную (используется для обучения
источников.                                                     модели)
   Большой интерес для исследования представляют                       ⁡Ω𝑡𝑟𝑎𝑖𝑛 = (𝑡1 , 𝑖1 , 𝑦1 ), … , (𝑡𝑛 , 𝑖𝑛 , 𝑦𝑛 ) ;
социальные     сети    –   огромное     количество           • тестовую (используется для оценивания модели)
свидетельств очевидцев в первую очередь
публикуется в социальной сети, а затем уже может                   Ω𝑡𝑒𝑠𝑡 = (𝑡𝑛+1 , 𝑖𝑛+1 , 𝑦𝑛+1 ), … , (𝑡|Ω| , 𝑖|Ω| , 𝑦|Ω| ).
найти свое отражение в СМИ.                                     Задача классификации состоит в нахождении
   Идея работы состоит в том, чтобы попробовать              функции 𝐹 ∗ = 𝐹(𝑡𝑗 , 𝑖𝑗 ):
выделить ключевые объекты на изображении,                       𝐹 ∗ = argmin⁡𝐿(𝐹(𝑡𝑗 , 𝑖𝑗 ), 𝑦𝑗 ), (𝑡𝑗 , 𝑖𝑗 , 𝑦𝑗 ) ∈ ⁡ Ω𝑡𝑒𝑠𝑡 ,
сопоставить их с текстом и достичь желаемого                                   𝐹
результата. Для распознавания объектов на                    которая называется классификатором. Значение 𝐹 ∗
изображении использованы сверточные нейронные                может быть вещественным из диапазона [0;1], его
сети.                                                        можно считать вероятностью того, что изображение
   В последнее время сверточные нейронные сети               является событийным.
получили широкое распространение в обработке и                  Решение задачи можно рассматривать как
классификации изображений, благодаря чему                    решение следующих трех подзадач.
началась активная разработка фреймворков для
                                                             2.1 Детектор объектов
удобной работы с ними (tensorflow [15], theano [17],
keras [2] и др.), что снизило порог входа для                   На этапе обработки изображения построим
применения данных технологий. Но обучение                    модель, которая принимает на вход изображение, а
сложных моделей все еще отнимает значительное                возвращает вектор вероятностей присутствия
количество времени и средств. Например, обучать              определенных объектов на изображении.
большую нейронную сеть для классификации на
стандартном     персональном    компьютере      без
специальных компонентов можно и неделю, и месяц,
а то и больше. И даже на мощной системе это
занимает значительное количество времени [7, 9, 22].
   Существуют подходы, например, метод переноса
обучения [8], позволяющие существенно снизить
временные издержки. Современные нейронные сети
обработки изображений являются многослойными,
последующие      слои    комбинируют      признаки,
выделенные на предыдущих уровнях. Начальные
слои    ответственны за выделение базовых
примитивов изображения, следующие слои – за
выделение типовых фигур как комбинаций базовых
примитивов и т. д. Соответственно, можно
                                                             Рисунок 2 Пример изображения для детектирования
попробовать взять сеть, обученную до некоторого
уровня на одних коллекциях изображений, и                    объектов
дообучить ее на собственной коллекции (более                     Например, пусть на вход подается следующее
подробно см. в разделе 5).                                   изображение (см. Рис. 2). Пусть рассматривается
   Также в работе исследована возможность                    присутствие следующих классов: мотоцикл,
улучшения качества выделения событийного                     автомобиль,       человек,    домашнее      растение,
изображения     к   новостному сообщению          с          велосипед, автобус, поезд, птица, лодка, лошадь,
использованием текста новости.                               самолет, бутылка, телевизор, кресло, собака, кот,
                                                             стол, кровать, корова, овца. Результатом работы
2 Постановка задачи                                          детектора может быть следующий вектор
   Формальная постановка задачи выглядит                     вероятностей: [0.9984, 0.4156, 0.0144, 0.006, 0.003,
следующим образом.                                           0.0009, 0.0008, 0.0007, 0.0005, 0.0004, 0.0001, 0.0001,
   Пусть T – множество новостных текстов, I –                0, …, 0]. Значение на позиции i представляет собой
множество изображений, а Y={0, 1} – конечное                 вероятность присутствия объекта класса i из списка.
множество оценок. Существует неизвестная целевая             В данном случае мотоцикл присутствует на
                                                             изображении с вероятностью 99,9%, а автомобиль –
зависимость – отображение 𝐹:⁡𝑇⁡ × ⁡𝐼 → 𝑌, значения
                                                             с вероятностью 41,6%.
которой известны только на объектах конечной


                                                       360
2.2 Векторизация текста                                       формируются из всех фотографий, сделанных во
                                                              время события. Однако некоторые фотографии могут
   Для обработки текста будем обучать модель,
                                                              содержать не главные объекты, но окружение,
которая создает векторное представление новостного
                                                              которое, вообще говоря, не является специфичным
текста, поданного на вход классификатору.
                                                              именно для конкретного события (типа события).
2.3 Модель согласованности                                       В статье [1] приведены данные, что качество
                                                              распознавания конкретных событий по размеченным
   Финальный этап в работе классификатора                     коллекциям в настоящее время имеет следующие
объединяет в себе итоги предыдущих подзадач.                  характерные оценки (на коллекции WIDER [21], 60
Модель, используемая на этом этапе, принимает на              классов, 60 000 изображений): 42% корректных
вход два вектора – вектор, полученный в результате            ответов среди первых, 60% – среди первых пяти.
обработки изображения, и вектор, полученный в                    Таким образом, пока нет возможности с высокой
результате обработки текста. Промежуточные
                                                              степенью уверенности опереться на методы
представления векторов объединяются в единый
                                                              определения типа события по изображению,
вектор, а на выходе модели получается число из
                                                              использовать    методы    порождения     описания
интервала [0;1] – вероятность того, что входное               изображений. При этом в [19] определена
изображение является событийным для входной
                                                              характеристика «важности» того или иного типа
новостной статьи.
                                                              объекта для описания того или иного типа события,
3 Обзор                                                       например,          изображение            местных
                                                              достопримечательностей для альбома о путешествии
   Между        изображениями       и     текстовой           или изображения невесты и жениха для фотоальбома
информацией, которая может быть ассоциирована                 о свадьбе. Авторы [19] предлагают выделять
изображению, существуют достаточно сложные                    наиболее важные объекты путем выявления среднего
взаимосвязи в зависимости от контекста и решаемых             по большому количеству изображений о событиях
задач.                                                        одного типа.
   В настоящей статье рассматривается задача
выбора лучшего изображения среди возможных для                4 Модели
новостного текста с использованием информации об
                                                                 Для построения детектора объектов на
объектах, которые можно выделить на изображении,              изображении используется комбинация из двух
а также информации о связи текста с выделенными               моделей. Первая из них – обученная на большом
объектами.                                                    объеме    изображений     сверточная    нейросеть,
   Известны похожие постановки задач для решения
                                                              используемая для извлечения вектор-признаков с
проблем описания изображений текстом (Image                   изображения. Вторая модель – это основной
Caption), поиска изображений по текстовому запросу            классификатор, который преобразует полученные
(Visual Question Answering). Одним из направлений             вектор-признаки первой модели в нужные нам
решения задач, возникающих в данных областях,
                                                              «вероятностные» признаки.
является определение типа события, отображаемого
                                                                 Нейронная сеть – широко используемый метод
на картинке/фотографии [1]. Для этой цели
                                                              машинного обучения, показывающий отличные
создаются      коллекции      изображений      [21],          результаты в анализе изображений, текстов,
аннотируемых       либо    свободным     описанием
                                                              распознавании речи и других областях. В последнее
несколькими экспертами, либо тегами [3].                      время сверточные нейронные сети получили
   К      сожалению,      существует      несколько           большое распространение, и эта область машинного
фундаментальных проблем описания изображений                  обучения сейчас активно развивается.
текстом. Имеет место существенный семантический                  На вход первой нейронной сети подается
разрыв между семантикой изображения и                         изображение, на выходе получается некоторый
семантикой текста – обычно слишком много деталей
                                                              вектор-признак, который далее подается на вход
опущено. Эксперты, описывающие изображения,
                                                              основному классификатору.
могут по-разному их понимать, в том числе в силу
                                                                 В     качестве    основного     классификатора
разного жизненного опыта. Кто-то видит просто                 рассмотрим следующие модели:
мужчину, а кто-то – известного актера, кто-то видит
                                                              • логистическая регрессия;
просто темный диск, а кто-то – грампластинку, и т. д.
Кто-то может не описать тот или иной фрагмент                 • градиентный бустинг;
изображения, так как он показался ему                         • нейронная сеть.
неинтересным. Существующие иерархии концептов
для описания изображений пока существенно                     4.1 Логистическая регрессия
неполны.                                                         Логистическая регрессия – это линейный
   В результате в работе [18] отмечено, что только            алгоритм классификации с логистической функцией
20% проанализированных авторами описаний                      потерь. Часто эта модель используется в качестве
изображений не содержат ошибок, при этом 26%                  отправной точки (baseline).
описаний по мнению авторов не релевантны                                          𝑛
изображениям.                                                    𝑎(𝑥, 𝑤) = sign( ∑ 𝑤𝑗 𝑓𝑗 (𝑥) − 𝑤0 ) = sign⟨𝑤, 𝑥⟩,
                                                                                 𝑖=1
   Отметим также, что часто банки изображений                 где 𝑤𝑗 – вес j-го признака, 𝑤0 – порог принятия


                                                        361
решения, 𝑤 = (𝑤0 , 𝑤1 , … , 𝑤𝑛 ) – вектор весов, ⟨𝑤, 𝑥⟩ –         обобщающей способностью.
скалярное произведение признакового описания                         Градиентный бустинг, как и любой бустинг-
объекта на вектор весов. Считается, что 𝑓0 (𝑥) = −1,              алгоритм, последовательно строит базовые модели
            𝑚
                                                                  так, что каждая следующая улучшает качество всего
   𝐿(𝑤) = ∑ ln(1 + 𝑒xp−𝑦𝑖 ∗⟨𝑥𝑖,𝑤⟩ ) → min.
            𝑖=1                          𝑤                        ансамбля. Градиентный бустинг деревьев решений
   Логистическая регрессия – статистическая                       строит модель в виде суммы деревьев:
                                                                                               𝑀
модель, которая используется для предсказания
                                                                                𝑓(𝑥) = ℎ0 + ∑ 𝑏𝑗 ℎ(𝑥; 𝑎𝑚 ),
вероятности возникновения некоторого события по                                               𝑗=1
значениям множества признаков:                                    где ℎ0 – некоторое начальное приближение, 𝑏𝑗 ∈ 𝑅 –
   𝑃{𝑦|𝑥} = 𝜎(𝑦⟨𝑥, 𝑤⟩),    𝜎(𝑧) = 1/(1 + exp−𝑧 )⁡.                параметр, регулирующий скорость обучения и
   Модели обучаются на вектор-признаках – выходе                  влияние отдельных деревьев на всю модель, ℎ𝑗 (𝑥; 𝑎𝑛 )
первой нейронной сети.                                            – базовый алгоритм с вектором параметров 𝑎𝑛 .
   Как основной классификатор рассматривается                             𝑁
набор моделей логистических регрессий – для                          𝐿 = ∑ 𝐿(𝑦𝑖 , 𝑓𝑗 (𝑥𝑖 )) → min – некоторая функция
                                                                         𝑖=1               𝑎𝑖 ,𝑏𝑖
каждого выделенного класса используется своя                      потерь.
модель. Реализация логистической регрессии берется
                                                                     Модели обучаются на вектор-признаках – выходе
из библиотеки sklearn с параметрами по умолчанию
                                                                  первой нейронной сети.
[11, 12]. Результаты этих моделей затем
                                                                     Аналогично классификатору, использующему
объединяются в один вектор.
                                                                  логистическую регрессию, рассматривается набор
4.2 Градиентный бустинг                                           моделей градиентного бустинга – по одной на
                                                                  каждый класс. Реализация градиентного бустинга
   Градиентный бустинг – метод машинного                          берется из библиотеки sklearn с параметрами по
обучения, основанный на ансамбле деревьев                         умолчанию [10, 12]. Результаты этих моделей так же
решений, считающийся одним из наиболее                            объединяются в один вектор.
эффективных методов (с точки зрения качества
классификации)   и    обладающий    хорошей


Рисунок 3 Схема потока данных обучения моделей

                                                                  нашей задачи (при повышении оценки для одного
4.3 Нейронная сеть
                                                                  класса все остальные занижаются). Нами последний
   Рассмотрим нейросеть, на вход которой подается                 слой был заменен на Sigmoid, так как решается задача
вектор-признак с первой нейросети, а на выходе                    многозначной классификации.
получается вектор, описывающий вероятность                           Для обучения нейронной сети использована
присутствия классов на изображении.                               следующая функция потерь:
                                                                          ˜                                   ˜
   В проведенном исследовании использована                              𝐿(𝑦, 𝑦) = −(𝑦⁡log⁡𝑦 + (1 − 𝑦)log(1 − 𝑦))
следующая архитектура нейронной сети (см. Рис. 3,                 – бинарная кросс-энтропия.
детектор объектов). Такая архитектура используется
в финальных слоях модели VGG-16 [9], которые идут
сразу же за сверточными. В оригинале последний
слой – Softmax, который не очень подходит для


                                                            362
5 Методы                                                   6.1 CIFAR-10
                                                               CIFAR-10 – это коллекция размеченных
5.1 Обработка изображения                                  изображений, взятых из другого набора данных
   Для представления изображения в виде вектора            подназванием «80 million tiny images» [16].
используются модели, описанные в п. 4.1. Для                   Описание коллекции:
данного преобразования применяется метод,                  • 60000 размеченных изображений;
называемый переносом обучения (transfer learning).
   Перенос обучения – метод, позволяющий                   • 10 классов, 6000 изображений на класс (самолет,
                                                             автомобиль, птица, кошка, олень, собака,
применить знания, полученные в процессе решения
                                                             лягушка, лошадь, корабль, грузовик);
одной задачи, для решения другой схожей задачи.
Например, можно взять уже предобученную на                 • размер изображений фиксированный, 32х32;
большом объеме данных нейронную сеть и                     • один класс на одном изображении.
дообучить ее на своих данных. Применение данного           6.2 Pascal VOC2012
метода обычно позволяет сэкономить большое
количество ресурсов (как времени, так и                        Pascal VOC2012 – это коллекция размеченных
вычислительных ресурсов). В данной работе в                изображений,     которые были собраны для
качестве предобученной модели использована                 соревнования по распознаванию и классификации
Inception v3, обученная для ImageNet Large Visual          объектов [5].
Recognition Challenge на данных 2012 года [14].                Описание коллекции:
   В случае обработки изображений берется первая           • 11540 размеченных цветных изображений;
модель (предобученная нейросеть), на вход которой          • 20 классов, в среднем по 577 изображений на
подается изображение. Затем из этой сети                      класс (мотоцикл, автомобиль, человек, домашнее
извлекается некоторый слой, который и будет                   растение, велосипед, автобус, поезд, птица,
являться         промежуточным          векторным             лодка, лошадь, самолет, бутылка, телевизор,
представлением нашего изображения. Данный слой                кресло, собака, кот, стол, кровать, корова, овца);
обычно содержит большое количество признаков,              • размер изображений не фиксирован, но
помогающих решать задачу классификации. Далее                  максимальная длина сторон – 500 пикселей;
этот слой подается на вход уже второй модели
(линейной регрессии, градиентному бустингу или             • не менее одного класса на изображении.
другой нейронной сети). На выходе мы получаем              6.3 Коллекция изображений на базе ImageNet
вектор вероятностей присутствия объектов для
                                                              Для обучения детектора объектов нужно
каждого из классов.
                                                           просмотреть новостные иллюстрации, понять, какие
5.2 Обработка текста                                       объекты там чаще всего встречаются, и собрать
                                                           собственную коллекцию для обучения. Нами
   Для представления текста в векторном виде               выделено 38 классов объектов, которые чаще всего
используется TF-IDF. Для каждого документа из              встречаются в новостных иллюстрациях, и для них
коллекции его исходный текст токенизируется, а             была собрана коллекция изображений на базе
токены приводятся в начальную форму. Затем                 ImageNet [6].
считается       подокументная      частотность
преобразованных токенов и вычисляется TF-IDF                 Описание коллекции:
вектор для каждого документа.                              • 62357 размеченных цветных изображений;
5.3 Объединение текста и изображений                       • 38 классов, в среднем по 1640 изображений на
                                                             класс (воздушная техника, животное, баннер,
   Результаты обработки коллекции новостей с                 лодка, здание, церковь, концерт, конструкция,
изображениями по пп. 5.1 и 5.2 подаются на вход              толпа, документ, электронное устройство,
нейросети, которая комбинирует полученную                    огонь/дым, флаг, еда, в помещении, военная
информацию с двух входов и возвращает число в                воздушная техника, военный транспорт, гора,
диапазоне от 0 до 1 – вероятность того, что                  нефтегазовые строения, картина, человек,
изображение подходит для иллюстрации текста.                 растение, общественный транспорт, дорога,
Нами проверено, влияет ли использование                      корабль, снаружи, солдат, космический корабль,
текстовых признаков на качество определения                  спикер, транспорт специальных служб, спорт,
фотографии как событийной или же достаточно                  деловой костюм, телекамера, служебная форма,
использования только признаков, выделенных на                транспорт, военный корабль, вода, оружие);
изображении.
                                                           • размер изображений не фиксирован;
6 Исходные данные                                          • не менее одного класса на изображении.
   В качестве данных для обучения и отладки                6.4 Коллекция новостей
моделей были использованы как готовые наборы
данных, так и специально собранные для решения                В качестве обучающей коллекции для
поставленной задачи.                                       определения событийной фотографии был собран
                                                           набор новостей, содержащий 4114 примеров. В
                                                           результате разметки получилось 3100 позитивных и
                                                           1014 негативных примеров событийных фотографий.


                                                     363
Таблица 1 Значение AP для 4 моделей на наборе данных Pascal VOC2012


                                                                                                   Автомобиль
                                   Велосипед
               Самолет


                                                                         Бутылка


                                                                                       Автобус


                                                                                                                                      Корова
                                                                                                                            Кресло
                                                   Птица


                                                             Лодка


                                                                                                                 Кот
      GBC    0,9664              0,7670        0,8934       0,8090      0,5034       0,8747       0,8079        0,9050     0,7331    0,7241


                                                                                                                                                    mAP
       LR    0,9938              0,8769        0,9117       0,8795      0,5294       0,9105       0,8197        0,9140     0,7115    0,7402
       NN    0,9628              0,8738        0,9140       0,8885      0,6142       0,9089       0,8229        0,9148     0,7796    0,7466
      HCP*   0,9750              0,8430        0,9300       0,8940      0,6250       0,9020       0,8460        0,9480     0,6970    0,9020


                                                                                                                                      Телевизор
                                                             Мотоцикл


                                                                                       Растение
                                                                         Человек


                                                                                                                 Кровать
                                                   Лошадь
                                   Собака


                                                                                                                            Поезд
                                                                                                   Овца
               Стол


      GBC    0,7467              0,8729        0,8832       0,8748      0,8905       0,5145       0,7992        0,6076     0,8888    0,7276       0,7895
       LR    0,6350              0,8995        0,9458       0,9010      0,9010       0,5017       0,8122        0,6900     0,9034    0,7464       0,8112
       NN    0,7480              0,9188        0,9099       0,9212      0,9062       0,5559       0,8272        0,7716     0,9050    0,7847       0,8337
      HCP*   0,7410              0,9340        0,9370       0,8880      0,9330       0,5970       0,9030        0,6180     0,9440    0,7800       0,8420
                                                                                     сходится функция потерь нейросетевой модели на
7 Эксперименты                                                                       различных наборах данных. Поведение функций
7.1 Выбор модели для обработки изображений                                           довольно похожее, но на Pascal VOC2012 при более
                                                                                     медленной сходимости достигается лучшее качество.
   В качестве основной метрики была использована                                     Графики MAE (средней абсолютной ошибки) ведут
AP (average precision), определенная в статье [4] и                                  себя одинаковым образом (см. Рис. 5).
вычисляемая по следующей формуле:
                    1
             𝐴𝑃 = 11      ∑    𝑝𝑖𝑛𝑡𝑒𝑟𝑝 (𝑟),
                                 𝑟∈{0,0.1,...,1}
                         ˜
𝑝𝑖𝑛𝑡𝑒𝑟𝑝 (𝑟) = max⁡
              ˜ ˜
                  𝑝(𝑟) – интерполяция точности, где
             𝑟:𝑟≥𝑟
  ˜
𝑝(𝑟) – это измеренное значение точности для
                             ˜
значения полноты 𝑟, p(x) – кривая «точность–
полнота».
    Сравнения качества моделей на наборе данных
Pascal VOC2012 отображено в таблице1. Здесь также
приведены значения AP для модели HCP-2000C [20]                                      Рисунок 5 Зависимость значения MAE от итерации
на конкурсном тестовом множестве (не на том,                                         7.2 Обучение модели на собственном наборе
который был использован для сравнения моделей 1–                                     данных
3).
    Из полученных оценок можно сделать вывод, что                                       Убедившись, что модель работает и показывает
нейронная сеть с текущими параметрами лучше                                          хорошие результаты на готовых наборах данных,
подходит для решения поставленной задачи, в                                          нужно перейти к следующему этапу – обучению
дальнейшем будем рассматривать ее как основную                                       модели на собственной коллекции.
модель.                                                                              7.3 Применение моделей к новостям
                                                                                        Для этого обучается модель согласованности,
                                                                                     которая по входным данным определяет, является
                                                                                     изображение событийным или нет.
                                                                                        Обучим две модели, одна из которых принимает
                                                                                     на вход одно лишь векторное представление
                                                                                     изображения, а другая принимает на вход, помимо
                                                                                     прочего,         векторное          представление
                                                                                     соответствующего новостного текста. Во второй сети
                                                                                     каждый из двух векторов входа преобразуется в
Рисунок 4 Зависимость значения функции потерь от                                     вектор общей длины, затем конструируется новый
                                                                                     вектор,       получающийся          конкатенацией
итерации
                                                                                     поэлементного умножения и поэлементного
   На графике (см. Рис. 4) можно наблюдать, как
                                                                                     сложения предыдущих слоев. Финальный слой


                                                                               364
каждой сети – Softmax. На выходе нейросети                 Inception v3, когда несколько последних слоев
получаем два значения 𝑝1 , 𝑝2 в интервале [0;1],           обученной     нейронной      сети     заменяются
первое из которых – вероятность того, что                  специфическим классификатором для исследуемой
изображение не является событийным для этой                коллекции изображений.
фотографии, а второе – что является (𝑝1 + 𝑝2 = 1).            В проведенных экспериментах специфический
Для обучения нейронной сети использована                   классификатор на основе нейронных сетей несколько
                                ˜              ˜
следующая функция потерь: 𝐿(𝑦 , 𝑦) = −(𝑦⁡log⁡𝑦 +           превзошел логистическую регрессию и градиентный
               ˜                                           бустинг (однако для практических целей данные
(1 − 𝑦)log(1 − 𝑦 )) – софтмакс кросс-энтропия.             методы также можно использовать).
   На Рис. 6 показаны графики значения функции                На коллекции из 4114 изображений (из них 3100
потерь для каждой из двух моделей. Отметим, что            событийных), размеченной одним из авторов,
модель, использующая текст, имеет склонность к             достигнут результат 93,2% средней точности при
переобучению после ~1500 итераций.                         обучении только по изображениям и 94,7% при
                                                           использовании текстовой информации.
                                                              Целью дальнейших исследований являются
                                                           применение более сложных и современных моделей
                                                           классификации,      введение      дополнительных
                                                           признаков, выделенных на изображениях, оценка
                                                           применимости данной работы на таких источниках
                                                           новостей, как социальные сети, улучшение и
                                                           расширение собранных коллекций.
                                                           Литература
Рисунок 6 Зависимость значений средней точности
                                                            [1] Ahsan, U., Sun, C., Hays, J., Essa, I.: Complex
для различных моделей на тестовых данных
                                                                Event Recognition from Images with Few Training
                                                                Examples. Applications of Computer Vision
7.4 Результаты
                                                                (WACV), 2017 IEEE Winter Conference on,
   Следующие шаги после обучения детектора – его                pp. 669-678 (2017)
применение к новостным изображениям, получение              [2] Chollet, F. and others: Keras. https://github.com/
векторного представления изображений и перевод                  fchollet/keras
текстов в векторную форму. Примеры работы                   [3] Cui, Y., Liu, D., Chen, J., Chang, S.F.: Building a
программы изображены на Рис. 7 и 8.                             Large Concept Bank for Representing Events in
                                                                Video. arXiv preprint arXiv:1403.7591 (2014)
                                                            [4] Everingham, M., Van Gool, L., Williams, C.K.I.,
                                                                Winn, J., Zisserman, A.: The PASCAL Visual
                                                                Object Classes (VOC) Challenge: A Retrospective.
                                                                Int. J. of Computer Vision, 111 (1), pp. 98-136
                                                                (2015)
                                                            [5] Everingham, M., Winn, J.: The PASCAL Visual
                                                                Object Classes Challenge 2012 (VOC2012)
                                                                Development Kit (2012)
                                                            [6] ImageNet. http://image-net.org/index
Рисунок 7 Пример работы программы                           [7] Krizhevsky, A., Sutskever, I., Hinton, G.E.:
                                                                ImageNet Classification with Deep Convolutional
                                                                Neural Networks. Advances in Neural Information
                                                                Processing Systems, pp. 1097-1105 (2012)
                                                            [8] Oquab, M., Bottou, L., Laptev, I., Sivic, J.:
                                                                Learning and Transferring Mid-Level Image
                                                                Representations using Convolutional Neural.
                                                                Networks. М.: CVF (2014)
                                                            [9] Simonyan, K., Zisserman, A.: Very Deep
Рисунок 8 Пример работы программы                               5Convolutional Networks for Large-Scale Image
                                                                Recognition. arXiv preprint arXiv:1409.1556
8 Интерпретация результатов                                     (2014)
   В работе исследован метод ранжирования                  [10] Sklearn, GradientBoostingClassifier. http://scikit-
изображений для иллюстрации новостного сюжета, а                learn.org/stable/modules/generated/sklearn.ensemb
именно, выявления изображений, которые с большей                le.GradientBoostingClassifier.html
вероятностью содержат информацию, дополняющую              [11] Sklearn, LogisticRegression. http://scikit-learn.
текстовое сообщение. Представлен метод с                        org/stable/modules/generated/sklearn.linear_model
использованием переноса обучения результатов                    .LogisticRegression.html


                                                     365
[12] Sklearn.      OneVsRestClassifier.      http://scikit-              Expressions. arXiv preprint arXiv:1605.02688
     learn.org/stable/modules/generated/sklearn.multicl                  (2016)
     ass.OneVsRestClassifier.html                                   [18] van Mitenburg, E., Elliot, D.: Room for
[13] Srivastava, N., Hinton, G., Krizhevsky, A.,                         Improvement in Automatic Image Description: an
     Sutskever, I., Salakhutdinov, R.: Dropout: A Simple                 Error Analysis. arXiv preprint arXiv:1704.04198
     Way to Prevent Neural Networks from Overfitting.                    (2017)
     J. of Machine Learning Research, 15 (1), pp. 1929-             [19] Wang, Y., Lin, Z., Shen, X., Mech, R., Miller, G.,
     1958 (2014)                                                         Cottrell, G.W.: Event-specific Image Importance.
[14] Szegedy, C., Vanhoucke, V., Ioffe, S., Wojna, Z.,                   Proc. of the IEEE Conf. on Computer Vision and
     Shlens, J.: Rethinking the Inception Architecture                   Pattern Recognition, pp. 4810-4819 (2016)
     for Computer Vision. Proc. of the IEEE Conference              [20] Wei, Y., Xia, W., Huang, J., Ni, B., Dong, J.,
     on Computer Vision and Pattern Recognition,                         Zhao, Y., Yan, S.: CNN: Single-label to Multi-
     pp. 2818-2826 (2016)                                                label. arXiv preprint arXiv:1406.5726 (2014)
[15] TensorFlow: Large-scale machine learning on                    [21] Yang, S., Luo, P., Loy, C.C., Tang, X.: Wider Face:
     heterogeneous      systems.    http://tensorflow.org                A Face Detection Benchmark. Proc. of the IEEE
     (2015)                                                              Conf. on Computer Vision and Pattern Recognition,
[16] The CIFAR-10 dataset. https://www.cs.toronto.                       pp. 5525-5533 (2016)
     edu/~kriz/cifar.html                                           [22] Zeiler, M.D., Fergus, R.: Visualizing and
[17] Theano Development Team. Theano: A Python                           Understanding Convolutional Networks. European
     Framework for Fast Computation of Mathematical                      Conf. on Computer Vision. Springer, Cham, pp.
                                                                         818-833 (2014)


                                                              366

</pre>