=Paper=
{{Paper
|id=None
|storemode=property
|title=Аннотирование изображений электронной коллекции исторических фотографий
(Tagging of Digital Historical Images)

|pdfUrl=https://ceur-ws.org/Vol-934/paper49.pdf
|volume=Vol-934
|dblpUrl=https://dblp.org/rec/conf/rcdl/TalbonenR12
}}
==Аннотирование изображений электронной коллекции исторических фотографий
(Tagging of Digital Historical Images)
==
<pdf width="1500px">https://ceur-ws.org/Vol-934/paper49.pdf</pdf>
<pre>
   Аннотирование изображений электронной коллекции
              исторических фотографий

               А. Н. Талбонен                               А. А. Рогов
                  Петрозаводский государственный университет (ПетрГУ),
                                      Петрозаводск
              perhetal@onego.ru                         rogov@psu.karelia.ru


                                                        описан метод построения текстовых меток для
                Аннотация                               изображений, основанный на поиске нечетких
                                                        дубликатов для данного изображения в заранее
   В данной статье рассматриваются методы
   аннотирования изображений цифровых                   аннотированной коллекции большого объема.
   исторических коллекций за счет наличия                  В данной работе рассматриваются методы
   лиц с помощью эксперта и за счет текстур             аннотирования на основе текстурных характе-
   с помощью метода моментов. Предлага-                 ристик и наличия лиц людей на изображении.
   ется улучшенный метод обнаружения                    Анализ методов аннотирования проводился на
   лиц, основанный на комбинации алгорит-               коллекции исторических фотографий со строи-
   ма Виолы-Джонса и алгоритма локальных                тельства Беломорско-Балтийского канала и альбо-
   бинарных шаблонов.                                   ме Бродаца [7]. Особенностью исследования явля-
                                                        ется работа с изображениями низкого качества,
1 Введение                                              что свойственно коллекциям исторических фото-
                                                        графий.
   На данный момент существует множество
различных методов автоматического аннотирова-           2 Аннотирование на основе наличия
ния изображений. Все такие методы можно разде-
лить на 2 категории: алгоритмы аннотирования по
                                                        лиц на изображениях
всему изображению и алгоритмы аннотирования
по отдельным объектам на изображении. В алго-           2.1 Особенности задачи
ритмах аннотирования по объектам, будем назы-              Исходными данными для проведенных иссле-
вать изображением участок данного изображения,          дований является электронная коллекция черно-
содержащего искомый объект, а также изображе-           белых изображений строительства Беломорско-
ние данного объекта, используемое для обучения.         Балтийского канала (ББК) в формате JPEG,
Большинство алгоритмов аннотирования работа-            созданных около 80 лет назад. Коллекция насчи-
ют по одной общей схеме:                                тывает более 6 тыс. изображений. Преобладание
1. Выделение набора признаков для изображения           диапазона лиц размера 20-40 пикселей является
   или объекта.                                         следствием низкого качества, как оригинальных
2. Подбор коллекции изображений и обучение              фотографий, так и оцифрованных изображений.
   классификатора.                                         Для алгоритмов детектирования характерны
3. Классификация коллекции изображений, в               ложные срабатывания, когда определенный учас-
   результате которой каждому изображению бу-           ток изображения, не являющийся лицом, но
   дет соответствовать набор меток.                     содержащий некоторые локальные признаки, при-
                                                        знается классификатором как лицо. Как следствие,
   Методам поиска объектов на изображениях,             снижается точность результатов. При этом нали-
включая методы извлечения текстовых меток,              чие большого количества деталей и шумов
посвящено множество исследований. Известный             повышает вероятность ложного срабатывания.
семинар РОМИП собирает множество различных              Изменяя параметры алгоритма можно оказывать
работ по поиску и аннотированию изображений. К          влияние на вероятность обнаружения лица или
примеру, в статьях [4, 5] описаны методы                ложного срабатывания. Но при этом в рамках
решения однотипных задач поиска изображений             одного алгоритма можно повысить точность за
по содержанию: поиска нечетких дубликатов,              счет полноты и наоборот. Таким образом, можно
поиска изображений по образцу, которые рассмат-         наблюдать некоторую обратную зависимость, не
ривались на семинаре РОМИП-2010. Методы                 позволяющую повысить оба показателя. Для
поиска нечетких дубликатов и поиска изображе-           решения этой проблемы можно использовать
ний по образцу, описанные в данных статьях              дополнительную классификацию: сортировку
обладают наибольшими оценками полноты и                 результатов детектирования с наибольшей
точности [1], среди других методов, представ-           полнотой.
ленных на семинаре. Кроме того, в статье [4]


                                                  318
2.2 Общая схема аннотирования                              позволяет только обнаруживать объекты лиц, но
                                                           никак не сравнивать их между собой. Поэтому для
   В данной работе исследуется случай, когда               аннотирования изображений с помощью поиска
отсутствует какая-либо база данных лиц, необ-              лиц метод detectMultiScale было решено допол-
ходимая для автоматического распознавания лиц              нить другим методом, позволяющим сравнивать
на изображениях. В подобных условиях работа по             изображения лиц между собой.
аннотированию возлагается на эксперта. Однако
при наличии вспомогательных средств можно                     Некоторые программы, например, Google
автоматизировать данный процесс.                           Picasa, позволяют искать похожие лица, однако
                                                           это эффективно только для объектов с большими
   В данной статье предлагается следующий ме-              размерами.
тод аннотирования:
                                                              В работах [2, 6] было предложено исполь-
1. Извлечение объектов (лиц).                              зовать локальные бинарные шаблоны (ЛБШ, LBP)
2. Расчет попарных расстояний между объекта-               для распознавания лиц. В данной работе
   ми. Данный процесс имеет сложность выделе-              предлагается использовать LBP для повышения
                      2                                    точности и полноты метода detectMultiScale.
   ния памяти O( N ) , поэтому для экономии
   можно сохранять расстояния между несколь-               2.4 Распознавание объектов с помощью LBP
   кими ближайшими объектами, например, 10.
3. Аннотирование. Данный процесс является                     LBP, впервые описанный в [14], представляет
   итеративным и может выполняться до тех пор,             собой простой и мощный инструмент для
   пока все найденные объекты не будут помече-             распознавания различных элементов изображе-
   ны. Итерация включает в себя следующее:                 ния. В качестве пространства признаков исполь-
                                                           зуются гистограммы так называемых кодов LBP.
   a. Эксперт выбирает очередной непомечен-                Благодаря высокой скорости расчета некоторых
      ный объект, после чего система предлагает            типов кодов LBP стал широко применяться для
      выбрать один из ближайших объектов в                 распознавания образов.
      порядке возрастания расстояния до теку-
      щего объекта.                                           LBP представляет собой фильтр, обозначае-
   b. Если эксперт обнаруживает сходство меж-              мый как LBPP,R ( x, y) , который для каждой точ-
      ду объектами, система создает связь между            ки изображения рассчитывает код на основе
      ними.                                                значений точек в некоторой окрестности этой точ-
   c. Если текущий объект и связанные с ним                ки. В данном случае P – число точек, R – ради-
      объекты не имеют метки, эксперт помечает             ус окрестности.
      данные объекты: в качестве метки может
                                                              Точки окрестности обозначим как g i , где
      выступать ФИО. После этого система при-
      сваивает введенную метку всем связанным              i  0, P  1 . При этом координаты точки рассчи-
      объектам и далее они считаются поме-
                                                                                     i             i
      ченными.                                             тываются как ( R  cos(     ); R  sin( )) . Обо-
                                                                                    2            2
2.3 Обзор методов извлечения лиц                           значим изображение f ( x, y ) или f (g ) , если g
    На данный момент существует множество                  это точка. Пусть
алгоритмов распознавания лиц и соответствую-
щих коммерчески успешных систем, например,                                   1, f ( g i )  f ( g c )
                                                               si ( x, y )                           ,
Microsoft Kinect. Среди бесплатных систем, позво-
                                                                              0,         иначе
ляющих распознавать лица, можно выделить
Google Picasa [16]. Однако в обоих случаях алго-           где g c - точка с координатами ( x, y ) . Тогда
ритмы распознавания являются закрытыми и не
                                                                                        P 1
могут быть использованы в свободных проектах.
                                                                     LBPP,R ( x, y )   2i  si ( x, y) .
    В данной работе для обнаружения лиц исполь-                                         i 0
зуется алгоритм Виолы-Джонса [18]. Данный
алгоритм был выбран, потому что он обладает                Таким образом, последовательность si ( x, y ) , где
высокими показателями по сравнению с другими
бесплатными / широкодоступными алгоритмами
                                                           i  0, P  1 ,представляет собой двоичную
[9, 19].                                                   последовательность кода LBP. Следовательно,
    Широко распространенная библиотека openCV              LBPP,R ( x, y) [0,2 P  1] .
содержит реализацию данного алгоритма на
                                                              Для сравнения двух изображений в качестве
основе каскадных классификаторов в методе
                                                           векторов признаков используются гистограммы
detectMultiScale класса cv::CascadeClassifier [8].
                                                           кодов LBP. В общем случае для каждого изобра-
Изменяя параметры данного метода можно полу-
чать результаты поиска с определенной полнотой             жения строится гистограмма H (l ) для значений
и точностью. Кроме того, метод detectMultiScale


                                                     319
LBPP,R ( x, y) , где l  0, P  1 . Существует нес-                    го участка изображения как    H j , j  0, k 2  1 .
колько методов расчета расстояния между гис-                           Для каждого j -го участка задается вес w j . Тогда
тограммами. Например, расстояние Хи-квадрат:
                                                                       можно определить модифицированное (взвешен-
                       B 1
                            ( H (i)  H 2 (i)) 2                       ное) расстояние Хи-квадрат следующим образом:
     2 ( H1 , H 2 )   1                       ,
                              H1 (i)  H 2 (i)                                          k 2 1   B 1
                                                                                                     ( H1j (i)  H 2j (i)) 2
                                                                        ( H1 , H 2 )   w j  
                       i 0                                              2
                                                                         w
где B - число кодов.                                                                    j 0    i 0   H1j (i)  H 2j (i) ,
   Существуют также модификации фильтра,                               где B - число кодов LBP.
описанные в работах [10, 13-15]:                                          В частности, в [6] предлагается использовать
   Некоторые коды несут в себе больше                                  следующую матрицу для распознавания лиц
   информации, чем другие. Коды, в двоичной                            (рис. 1).
   циклической записи которых число переходов
   между последовательностями «1» и «0» не
   превышает двух, обозначаются как «uniform»,
   что соответствует слову «равномерный» [3].
   Для заданного P существует P  ( P  1)  2
   равномерных значений. Модифицированный
                  u2                                                   Рис.1 Матрица весов для распознавания лиц
   фильтр LBPP,R в этом случае возвращает коды
   равномерных значений, добавляя только один                          2.5 Эксперименты по извлечению лиц
   код для неравномерных значений.
                                                                          В процессе исследования коллекции было
                      индекс кода, если он равномерный,               обнаружено около 4 тыс. лиц. Для оценки
   LBPP,u2R ( x, y)  
                       P  ( P  1)  2,     иначе.                   качества найденных объектов по их размерам
4. Т.к. окрестность представляет собой круг, то                        было составлено общее распределение (рис. 2).
   можно найти группы кодов, инвариантных к
   повороту. Для каждого кода LBP существует
    P кодов, инвариантных к повороту, получае-
   мых путем циклического сдвига P -битового
   числа. Для каждой такой группы в фильтр
   попадает минимальное значение кодов данной
   группы. Задача определения количества кодов,
   инвариантных к повороту является нетриви-
                                                     ri
   альной. Фильтр обозначается как LBPP,R .
5. С учетом предыдущих двух свойств определя-
   ется также равномерный фильтр, инвариант-
                                                                       Рис. 2 Распределение размеров полной коллекции
   ный к повороту. Кодов LBP, обладающих
   одновременно двумя свойствами всего P  2 ,                            Для оценки полноты и точности необходимо
   которые отличаются друг от друга числом бит,
                                                                       произвести экспертную оценку тестовой выборки
                                                          riu2
   равных «1». В этом случае фильтр LBPP,R                             (экспертная коллекция). В экспериментах исполь-
   задается следующим образом:                                         зовалась выборка в 1070 изображений. Процесс
                                                                       оценивания был упрощен: вместо выделения всех
                     число единиц, если код равномерный               лиц, на изображениях автоматически выделялись
        R ( x, y )  
 LBPP,riu2
                      P  1,            иначе                         объекты полной коллекции, отсортированной
   В работе [14] был предложен метод сравнения                         вручную, после чего эксперту достаточно было
гистограмм лиц. Изображение лица разбивается                           отметить на изображении недостающие лица.
на k  k участков, для каждого из которых рас-                            Ручная сортировка осуществлялась быстрым
считывается гистограмма. Итоговая гистограмма                          методом, позволяющим сортировать 100 объектов
изображения лица определяется как конкатенация                         за 1 минуту. Кроме очевидных лиц и ложных
гистограмм участков изображения.                                       объектов, найденных в «полной» коллекции, были
   В работе [6] был предложен расширенный                              определены дополнительные правила оценивания.
метод сравнения гистограмм лиц, основанный на                          К ложным объектам относились лица, слабо
взвешенной матрице. Задается матрица весов                             различимые (не видно глаз или рта), и лица
                                                                       людей, повернувшихся к камере на угол больше
k  k , каждый элемент которой соответствует                           90 градусов. К лицам относились различные
участку изображения. Обозначим гистограмму j -                         изображения лиц: портреты, рисунки, бюсты.


                                                                 320
                                            Таблица 1 Результаты экспериментов по повышению точности и полноты
Название             Описание                            Лица      Ошибки     Полнота     Точность    F-мера
ЭК                   Экспертная коллекция                 793        0         1,000        1,000      1,000
ПК                   Полная коллекция                     540       973        0,681        0,357      0,468
ТК                   Точная коллекция                     439       289        0,554        0,603      0,577
LBP_24_1                riu2
                     LBP24,3 , E1                         529       484        0,667        0,522      0,586

LBP_24_2                riu2
                     LBP24,3 , E2                            492     294        0,620       0,626      0,623

LBP_24_W_Q_1            riu2
                     LBP24,3 , веса, сжатие, E1              522     364        0,658       0,589      0,622

LBP_24_W_Q_2            riu2
                     LBP24,3 , веса, сжатие, E 2             499     319        0,629       0,610      0,619

LBP_24_W_1              riu2
                     LBP24,3 , веса, E1                      506     292        0,638       0,634      0,636

LBP_24_W_2              riu2
                     LBP24,3 , веса, E 2                     483     226        0,609       0,681      0,643

LBP_16_1                 riu2
                     LBP16,3  , E1                           532     492        0,671       0,520      0,586

LBP_16_2                 riu2
                     LBP16,3  , E2                           512     332        0,646       0,607      0,626

LBP_16_W_Q_1             riu2
                     LBP16,3  , веса, сжатие, E1             520     370        0,656       0,584      0,618

LBP_16_W_Q_2             riu2
                     LBP16,3  , веса, сжатие, E 2            499     306        0,629       0,620      0,625

LBP_16_W_1               riu2
                     LBP16,3  , веса, E1                     510     305        0,643       0,626      0,634

LBP_16_W_2               riu2
                     LBP16,3  , веса, E 2                    488     230        0,615       0,680      0,646

   В процессе классификации объекты преобразо-               матрица весов (рис. 1), в других случаях вектор
вывались к размеру 64  64 . Эксперименты прово-             признаков сжимался до размера 200.
дились и использованием нескольких фильтров с                   В качестве множества лиц использовался набор
различными параметрами расчета гистограммы и с               из 18 изображений лиц. Кроме того, было задано 2
различными обучающими множествами. Для вычис-                множества ложных объектов (8 и 26 изображений,
ления векторов признаков использовались фильтры              E1 и E 2 соответственно).
    riu2      riu2
LBP16,3  и LBP24,3 . В одних случаях применялась


Рис. 3 Диаграмма сравнения полноты и точности обнаружения лиц


                                                       321
   Результатом каждого эксперимента являлась             размерами выше 100. В данном случае требуется
отдельная коллекция объектов. Полученные коллек-         отдельный подход.
ции оценивались полнотой и точностью, для расчета           Для экспериментов использовалась следующая
которых объекты коллекций сопоставлялись с               коллекция изображений (таблица 2), обозначим
объектами экспертной коллекции. Результаты               данный набор как T .
экспериментов, позволяющие сравнить качество
полученных коллекции с соответствующими                     При этом были обнаружены следующие пары
параметрами «полной» и «точной» коллекций,               лиц, соответствующих одному и тому же человеку:
представлены в таблице 1 и на рисунке 3. Описание        {3, 14}, {4, 13} и {7, 9}. Обозначим данное
                                                                                
каждого эксперимента содержит параметры фильтра          множество как T . Кроме того, очевидна пара
LBP, использованные методы расчета гистограмм, а         ложных объектов, которые должны быть близки
также множество ложных объектов.                                                            
                                                         друг к другу: {1, 15} ( T ). Дополним множества
   Проведенные эксперименты показали, что                T  и T  зеркально отраженными элементами
гистограммы, полученные с помощью фильтров               данных множеств.
    riu2      riu2
LBP16,3  и LBP24,3 , матрицы весов и расширенной            Для исследования работы различных фильтров
обучающей       выборки    обладают      наилучшей       LBP используется следующий алгоритм:
селективной способностью с точки зрения F-меры
                                                         1. Для каждого объекта t i  T находится ближай-
[1]. Кроме того, в большинстве случаев, расширение
                                                           ший к нему объект t i  T . Т.е.
                                                                                        *
обучающей       выборки    позволило      сократить
количество ошибок и, следовательно, точность и F-
меру отсортированной коллекции.                             ti*  arg min{ f (ti , t j ) | t j  T / ti }
                                                                      tj
2.6 Эксперименты по распознаванию лиц
                                                         2. Полученное таким образом множество пар
                                          Таблица 2         T P  { ti , ti* | ti T } сопоставляется с из-
                   Тестовое множество изображений
                               для распознавания лиц        вестными парами лиц и ложных объектов.
     1)          2)           3)          4)             3. Обозначим

                                                                           1,  ti , t j T  или  ti , t j T 
                                                            h(ti , t j )  
                                                                                           0, иначе
                                                         4. Будем      рассчитывать                   точность   следующим
     5)          6)           7)          8)                                     h(t , t )
                                                                                ti T
                                                                                            i
                                                                                                      *
                                                                                                      i

                                                           образом: Re 
                                                                               |T |  |T  |
                                                                                    


                                                                                                    Таблица 3
                                                                Результаты экспериментов по распознаванию лиц

     9)          10)          11)         12)                    Обозначение                              Точность Re
                                                                  LBP8,1                                  3/8

                                                                  LBP16,1                                 2/8

                                                                  LBP8,2                                  4/8

     13)         14)          15)         16)                     LBP16,2                                 4/8

                                                                  LBP8,3                                  4/8

                                                                  LBP16,3                                 6/8

                                                                 Взвешенный LBP16,3
                                                                                                ri        4/8
     17)         18)          19)                                Взвешенный LBP16,3
                                                                                                riu       3/8

                                                                 Взвешенный LBP16,3
                                                                                                u         5/8

                                                                 Взвешенный LBP16,3                       8/8
                                                            В процессе исследования были рассмотрены
   Современные исследования демонстрируют                различные варианты фильтров LBP. В таблице 3
высокие показатели точности распознавания лиц


                                                   322
приведены показатели точности использованных                                                           1
фильтров относительно заданного множества T .
                                                                                   M p ,q (i, j )              M p,q (a, b) (4),
                                                                                                      WF2 ( a ,b )W iF, j
   Таким образом, наибольшая точность достига-
ется для взвешенного фильтра LBP16,3 .                                            где     Wi ,Fj - окно размером WF с центром в
                                                                               точке (i, j ) .
3 Аннотирование на основе текстур
                                                                                  Степени моментов p и q задаются таким
3.1 Общая схема аннотирования                                                  образом, чтобы их сумма не превышала некоторого
   В данной работе рассматривается процесс                                     значения O , которое представляет собой порядок
аннотирования за счет текстур, который в общем                                 моментов. Число признаков, таким образом, зависит
случае включает в себя следующие шаги:                                         от O . В данной работе рассматривались моменты
1. Задается набор текстур, каждая из которых                                   порядка не выше 2-го.
   принадлежит одному из нескольких заданных                                      Другими параметрами для расчета характеристик
   классов.                                                                    являются размеры окон WM и WF и коэффициент
2. Каждому классу присваивается набор меток.                                    . Авторами данного метода были предложены
3. Для каждого изображения выполняется поиск                                   значения данных параметров: 9, 49 и 0.01
   текстур из заданного набора.                                                соответственно. К сожалению, данные значения
4. Для каждой найденной текстуры к изображению                                 были обоснованы методом «проб и ошибок» без
   добавляется набор меток соответствующего                                    какого-либо аналитического или практического
   класса.                                                                     обоснования. Поэтому в данной работе был
                                                                               проведен анализ влияния значений данных
   Для выполнения текстурного поиска требуется                                 параметров на результат сегментации.
классификатор. В данной работе предлагается клас-
сификатор на основе метода моментов.                                              Для экспериментов использовался алгоритм
                                                                               сегментации,     производный      от    алгоритма,
3.2 Метод моментов                                                             предложенного в [17].
                                                                               1. Тестовое изображение «склеивается» из несколь-
   В работе [17] был предложен метод
                                                                                  ких текстур (пример на рисунке 4). Каждая
сегментирования текстур на основе моментов и
                                                                                  текстура представлена квадратным участком.
описан соответствующий математический аппарат.
                                                                                  Площади участков текстур одинаковы.
Пусть f ( x, y) представляет собой изображение
                                                                               2. Рассчитываются характеристики, представляю-
длиной W и шириной H . Область значений                                           щие собой N изображений, где N – число
  f ( x, y) - [0;1], что соответствует области                                    характеристик.
 [0; 255] обычного монохромного изображения.                                   3. Случайно отбираются 6 % точек, равномерно
Метод моментов заключается в том, что для каждой                                  распределенных по изображению.
точки изображения f ( x, y) рассчитывается набор                               4. Для выбранных точек производится кластериза-
моментов и производных от них характеристик в                                     ция методом k-средних. Число кластеров соот-
пределах некоторого окна с центром в данной точке.                                ветствует числу текстур. Авторы метода предло-
Таким образом, формируется набор изображений,                                     жили алгоритм кластеризации CLUSTER [12].
соответствующих набору признаков.                                              5. Полученные центры кластеров как результат
    Момент M p ,q с размером окна WM рассчитыва-                                  работы алгоритма k-средних используются для
                                                                                  сегментации всего изображения. Каждому
ется следующим образом:                                                           пикселю ставится в соответствие номер того
     M p ,q (i, j )             f (a, b)  x  y (1),
                                                 p
                                                 a
                                                       q
                                                       b
                                                                                  кластера, к которому ближе всего располагается
                                                                                  соответствующий вектор признаков.
                            ( a ,b )WiM, j
                                                                               6. Определим точность сегментации  как доля
                       a i          bi                                          правильно сегментированных пикселей. По-
    где xa                  ; yb         (2),
                      WM / 2        WM / 2                                        скольку алгоритм k-средних произвольно опре-
                                                                                  деляет начальные центры кластеров, к алгоритму
    где      Wi ,Mj - окно размером WM с центром в                                добавляется промежуточный шаг, на котором
                                                                                  определяется соответствие номеру текстуры и
точке (i,j).                                                                      номеру кластера. Будем считать, что кластер с
   В той же работе [17] утверждалось, что набор                                   номером i будет соответствовать текстуре j ,
моментов в «чистом» виде не годится для сег-
                                                                                  если большая часть пикселей класса i будет
ментирования, поэтому автором был предложен
улучшенный набор признаков:                                                       располагаться внутри участка текстуры j .
                                                                                  Пример сегментации изображения (рис. 4),
                             | tanh( (M p,q (a, b)  M p,q )) | (3),
                    1
F p ,q (i, j )                                                                «склеенного» из 2-х текстур, представлен на ри-
                   WF2 ( a ,b )W iF, j
                                                                               сунке 5. Точность сегментации составила 95,3%.


                                                                         323
                                                            пикселя искомого изображения. Реализация формул
                                                            (1), (3), (4) прямым способом включает в себя 4
                                                            вложенных цикла. Следовательно, общая сложность
                                                                                      2   2
                                                            вычислений равна O( N M ), где N – линейный
                                                            размер изображения, M – размер окна для расчета
                                                            характеристик.      Проведенные       эксперименты
                                                            показали, что при N=128 и M=49 расчет
                                                            характеристик занимает в среднем 5-10 минут на
                                                            виртуальной машине при реализации на C++.
Рис. 4 Тестовое изображение, «склеенное» из 2-х текстур
альбома Бродаца [7.                                         Поэтому в данной работе метод расчета моментных
                                                            характеристик был изменен.
                                                                 Формула (1) представляет собой свертку с ядром
                                                            размера WM  WM , при этом значения ядра
                                                            рассчитываются по формуле (2). По аналогии со
                                                            сверткой 2-х непрерывных функций можно
                                                            вычислить свертку через преобразования Фурье.
                                                            Такой метод, в частности, реализован в функции
                                                            filter2D библиотеки openCV [11]. Для размера окна
                                                            больше 13x13 сложность данной функции равна
                                                                 2
Рис. 5. Пример бинарной сегментации изображения на          O( N log N ) и не зависит от размера окна. Для
рисунке 4.                                                  меньших размеров свертка рассчитывается прямым
                                                            способом, однако время вычислений по-прежнему
    Анализ результатов сегментации заключается в            остается небольшим. Обозначим ядро для формулы
сравнении значений точности для определенного               (1) как CM . В общем случае ядро также
набора параметров { WM , WF ,  }. В данной работе          представляет собой изображение.
были выбраны следующие диапазоны значений                      Формулы (3) и (4) включают в себя свертку с
параметров: [9; 49] с шагом 5 для WM и WF ,                 один и тем же ядром C F размера WF  WF . Данное
[0.005; 0.02] с шагом 0.005. Анализ осуществлялся           ядро     вычисляется     следующим      образом:
над изображением на рисунке 4.
                                                                             1
    В таблице 4 представлены результаты анализа,            CF ( x, y )        . Кроме того, в формуле (1)
отсортированные по убыванию точности сегмента-                              WF2
ции.                                                        используется преобразование с помощью логисти-
                        Таблица 4 Результаты анализа        ческой функции, которое можно выделить как
          влияния параметров на точность сегментации        отдельную         функцию         над      изображением:
                                                            T ( f ( x, y)) | tanh( ( f ( x, y))) | .
    WM           WF                          (%)
                                                               По аналогии со сверткой непрерывных функций
    9            49           0,01          95,285          обозначим    оператор    свертки        изображений
    9            39           0,005         95,1782         следующим     образом:    ( f  g )( x, y) . Тогда
    9            39           0,02          95,1752          f  g  filter 2D( f , g ) , где f представляет собой
    9            44           0,005         95,1355         исходное изображение, а g – ядро фильтра. С учетом
    9            49           0,015         95,1324         вышеперечисленных         обозначений       можно
                                                            переписать формулы для расчета моментных
    9            49           0,005         95,1141         характеристик следующим образом:
    9            44           0,01          95,0897
                                                                Fp,q  T ( f  CM  ( f  CM )  CF )  CF
    9            39           0,015         95,0745
    9            44           0,02          95,0714            Сложность преобразования T ( f ( x, y)) состав-
                                                                       2
    9            39           0,01          95,0592         ляет O( N ), поэтому общая сложность вычислений
                                                                               2
   Таким образом, экспериментально показана                 составляет O( N log N ). Для сравнения, на той же
правильность предложенных авторами значений                 виртуальной машине, время с теми же начальными
параметров.                                                 условиями время вычисления составляет меньше
                                                            секунды.
3.3 Технические аспекты реализации метода                      В экспериментах по поиску текстур на изобра-
моментов                                                    жении с помощью классификатора использовались
   С точки зрения теории поиск текстур требует              изображения размером 1216*960 пикселей. Среднее
вычисления значений характеристик для каждого               время расчета характеристик при таких исходных
                                                            данных составило 1 минуту.


                                                      324
3.4 Классификатор на основе метода моментов              С помощью эксперта вручную отмечаются вхож-
   Для поиска текстур предлагается следующий                                            1, T j найдено в I i
                                                         дения текстур Eij                                  . С другой
классификатор:                                                                                  0, иначе
                                                                                        
1. Для каждой текстуры в обучающей выборке               стороны с помощью классификатора автоматически
   рассчитывается центральный вектор (центр
                                                         определяются вхождения каждой текстуры Fij
   текстуры) как средний вектор среди векторов
   признаков всех пикселей данной текстуры.              (аналогично Eij ), После чего определяяется флаг
2. Для каждой текстуры задается параметр  ,
                                                         релевантности текстуры Rij (1-текстура T j найдена
   соответствующий максимально допустимому
   расстоянию от векторов признаков найденных            на изображении    I i и при этом обнаружена
   пикселей до центра соответствующей текстуры.
   Параметры  для каждой текстуры подбираются           экспертом), который рассчитывается как Eij  Fij .
   так, чтобы доля правильно классифицированных          Тогда полнота и точность поиска текстуры T j
   пикселей была наибольшей, а доля неправильно
   классифицированных пикселей наименьшей.               рассчитывается следующим образом:
3. Для каждого изображения вычисляются карты
   признаков (по числу компонент вектора). Соот-
                                                                 R        R      ij                        ij
                                                            Pr     ; Re i
                                                                              .                     i

                                                                 F        E
                                                               j                         j
   ветствующие точки карт признаков образуют
                                                                                   ij                        ij
   вектор признаков.                                                      i                         i
4. Для каждого изображения вычисляется карта                Аналогично можно рассчитать общую полноту и
   текстур. Размер карты соответствует размеру           точность поиска:
   изображения. Для каждой точки изображения
   определяется, к какой текстуре принадлежит                    R        R ij                        ij
   соответствующий вектор признаков. Если таких             Pr 
                                                                   i, j
                                                                    ; Re 
                                                                                             i, j
   текстур несколько, данная точка карты
   принимает в качестве значения номер ближай-
                                                                 Fi, j
                                                                           E ij
                                                                                             i, j
                                                                                                        ij

   шей текстуры. Если вектор признаков не соот-
                                                            На рисунке 6 представлены основные результаты
   ветствует ни одной из текстур, точка карты
                                                         эксперимента.
   принимает значение -1.
5. Точки полученной карты текстур объединяются
   в сегменты, которые состоят из соседних точек с
   одинаковым номером текстуры. Точки со
   значением -1 в сегменты не объединятся.
6. Для каждого сегмента определяется его размер.
   Если размер сегмента равен или превышает
   некоторое пороговое значение, считается, что
   соответствующая текстура найдена на текущем
   изображении. В данной работе использовалось
   пороговое значение размера сегмента 100.
                                                         Рис. 6 Результаты поиска текстур
3.5 Эксперименты по поиску текстур
   Для эксперимента было отобрано 100 изображе-          4 Заключение
ний из коллекции фотографий строительства                   В результате работы был предложен улучшен-
Беломорско-Балтийского канала. Для поиска                ный метод обнаружения лиц на основе алгоритма
использовались следующие текстуры:                       Виолы-Джонса, модификации алгоритма ЛБШ и
                                           Таблица 5     обучающей выборки. Несмотря на то, что в
         Изображения, использованные в эксперименте      экспериментах      использовались    относительно
                              по текстурному поиску      небольшие обучающие выборки, метод показал
                                                         более высокие характеристики по сравнению с
                                                         алгоритмом Виолы-Джонса. Кроме того, данный
                                                         метод ориентирован на объекты низкого разре-
                                                         шения. В дальнейшем планируется исследовать
                                                         метод на коллекциях более высокого разрешения.
           Крыша дома          Стена дома                   Предложен автоматизированный метод анно-
             ( T1 )             ( T2 )                   тирования изображений за счет лиц с помощью
                                                         эксперта на основе модификации алгоритма ЛБШ.
   Эксперимент заключается в выявлении вхожде-
                                                            Предложен классификатор и метод анноти-
ния каждой текстуры T j в каждое изображение I i .
                                                         рования изображений за счет текстур с помощью


                                                   325
метода моментов. В дальнейшем планируется моди-             [10] Guo Z., Zhang L., Zhang D. Rotation invariant
фицировать классификатор с целью повышения                       texture classiﬁcation using LBP variance (LBPV)
качества текстурного поиска.                                     with global matching // Pattern Recognition 43
    На основе результатов проведенных эксперимен-                (2010) pp. 706 –719.
тов был построен прототип поисковой системы по              [11] Image Filtering — opencv v2.1 documentation
поиску фотографий содержащих заданные объекты                    [Электронный ресурс]. URL:
в электронной коллекции исторических фотографий                  http://opencv.willowgarage.com/documentation/cp
со строительства Беломорско-Балтийского канала.                  p/image_filtering.html#cv-filter2d (дата
                                                                 обращения: 15.05.2011).
Литература                                                  [12] Jain A. K., Dubes R. C. Algorithms for Clustering
                                                                 Data. – Prentice Hall, Englewood Cliffs, New
 [1] Агеев. М, Кураленок И. Официальные метрики
                                                                 Jersey, 1988.
     РОМИП’2004 [Электронный ресурс]. URL:
     http://romip.ru/docs/romip_metrics.pdf      (дата      [13] Mäenpää T. The local binary pattern approach to
     обращения: 10.08.2012).                                     texture analysis – extensions and applications. –
                                                                 Infotech Oulu and Department of Electrical and
 [2] Маслий Р. В. Использование локальных бинар-
                                                                 Information Engineering, University of Oulu,
     ных шаблонов для распознавания лиц на полу-
                                                                 2003.
     тоновых изображениях // Наукові праці ВНТУ,
     2008, № 4. – Винницкий национальный                    [14] Ojala T., Pietikäinen M., Harwood D. A Compara-
     технический университет.                                    tive Study of Texture Measures with Classification
                                                                 Based on Feature Distributions // Pattern Recogni-
 [3] Петрук В. И., Самородов А. В., Спиридонов И.
                                                                 tion, vol. 29, pp. 51-59. – 1996.
     Н. Применение локальных бинарных шаблонов
     к решению задачи распознавания лиц // Вест-            [15] Ojala T., Pietikäinen M., Mäenpää T. A Generali-
     ник МГТУ им. Н. Э. Баумана. Сер. «Приборо-                  zed Local Binary Pattern Operator for Multireso-
     строение», 2011.                                            lution Gray Scale and Rotation Invariant Texture
                                                                 Classiﬁcation // Machine Vision and Media
 [4] Пименов В. Ю. Простые методы поиска изо-
                                                                 Processing Unit Infotech Oulu. – University of
     бражений по содержанию / Российский семи-
                                                                 Oulu.
     нар по Оценке Методов Информационного
     Поиска. Труды РОМИП 2010. – Казань: Казан.             [16] Picasa [Электронный ресурс]. URL:
     ун-т, 2010. – 210. с., с 69 – 79.                           http://picasa.google.com (дата обращения:
                                                                 15.06.2012).
 [5] Слесарев А. В., Мучник И. Б., Михалев Д. К.
     Яндекс на РОМИП 2010: Поиск похожих изо-               [17] Tuceryan M. Moment Based Texture Segmenta-
     бражений и дубликатов / Российский семинар                  tion // Pattern Recognition Letters, vol. 15, pp.
     по Оценке Методов Информационного Поиска.                   659-668, July 1994.
     Труды РОМИП 2010. – Казань: Казан. ун-т,               [18] Viola P., Jones M. Robust Real-time Object
     2010. – 210. с., с 148 – 153.                               Detection // Second International Workshop on
 [6] Ahonen T., Hadid A., Pietikäinen M. Face Recog-             Statistical and Computational Theories of Vision –
     nition with Local Binary Patterns // Machine Visi-          Modelling, Learning, Computing and Sampling. –
     on Group, Infotech Oulu.                                    Vancouver, Canada, 2001.
 [7] Brodatz P. Textures: a Photographic Album for          [19] Wechsler H. Reliable face recognition methods:
     Artists and Designers. – New York: Dover Publi-             system design, implementation and evaluation,
     cations, 1966.                                              Springer, 329 p. (2007).
 [8] Cascade Classification — opencv v2.1
                                                                 Tagging of digital historical images
     documentation [Электронный ресурс]. URL:
     http://opencv.willowgarage.com/documentation/cp                     A. N. Talbonen, A. A. Rogov
     p/cascade_classification.html#cv-
     cascadeclassifier-detectmultiscale (дата                   This article considers the methods of digital
     обращения: 15.05.2011).                                historical image annotation due to the presence of
                                                            people with expert help and textures by using the
 [9] Degtyarev N., Seredin O. Comparative Testing of
                                                            method of moments. An improved method of face
     Face Detection Algorithms. In: Elmoataz A.,
                                                            detection based on the combination of Viola-Jones
     Lezoray O., Nouboud F., Mammazz D., Meunier
                                                            algorithm and local binary patterns is proposed.
     J. (eds.) ICISP 2010. LNCS, vol. 6134, pp. 200 –
     209, Springer, Heidelberg (2010).


                                                      326

</pre>