=Paper= {{Paper |id=Vol-2033/44_paper |storemode=property |title=Классификация сельскохозяйственных культур по данным дистанционного зондирования Земли с использованием метода Гаусса (Classification of Agricultural Crops of Earth Remote Sensing Data Using Gaussian Based Methods) |pdfUrl=https://ceur-ws.org/Vol-2033/44_paper.pdf |volume=Vol-2033 |authors=Anastasia N. Safonova }} ==Классификация сельскохозяйственных культур по данным дистанционного зондирования Земли с использованием метода Гаусса (Classification of Agricultural Crops of Earth Remote Sensing Data Using Gaussian Based Methods)== https://ceur-ws.org/Vol-2033/44_paper.pdf
        CLASSIFICATION OF AGRICULTURAL CROPS OF EARTH REMOTE
              SENSING DATA USING GAUSSIAN BASED METHODS

                                       Anastasia N. Safonova

                           Siberian Federal University, Krasnoyarsk, Russia

                                               Abstract

       An algorithm for classifying crops using Gauss processes was developed to analyze the time series
of the vegetative index NDVI from Landsat 8 data. The algorithm uses a regression with zero mean and
square exponential core. A classification procedure is described and an example of the recognition of
species of cultures is given. The estimation of the accuracy of the determination of cultures by the
developed classifier is given.

      Keywords: Gaussian processes, regression, classification, Landsat, remote sensing of the Earth
  КЛАССИФИКАЦИЯ СЕЛЬСКОХОЗЯЙСТВЕННЫХ КУЛЬТУР ПО ДАННЫМ
ДИСТАНЦИОННОГО ЗОНДИРОВАНИЯ ЗЕМЛИ С ИСПОЛЬЗОВАНИЕМ МЕТОДА
                         ГАУССА

                                     Сафонова А.Н.
             Институт космических и информационных технологий Сибирского
                         федерального университета, Красноярск

      Разработан алгоритм классификации сельскохозяйственных культур с применением процессов
Гаусса для анализа временных рядов вегетационного индекса NDVI по данным спутника Landsat 8. В
алгоритме используется регрессия с нулевым средним значением и квадратом экспоненциального
ядра. Описана методика классификации и приведен пример распознавания видов культур. Дана оценка
точности определения культур разработанным классификатором.
      Ключевые слова: процессы Гаусса, регрессия, классификация, Landsat, дистанционное зондиро-
вание Земли.

      Введение. Огромное разнообразие доступных инструментов позволяет проводить эф-
фективные и недорогие наблюдения за состоянием сельскохозяйственных земель. Использо-
вание данных дистанционного зондирования Земли (ДЗЗ) для мониторинга агрокультурного
сектора позволяет контролировать площади пахотных земель и различных культур, произрас-
тающих на нем. В частности, с использованием спутниковой информации, собранной в разные
периоды времени можно отслеживать изменения состояния растительности и оценивать
темпы роста и тип культуры [1]. Существует несколько методов классификации изображений
для анализа сельскохозяйственных земель. Наиболее широко применяемые методы классифи-
кации объектов на снимках – метод максимального правдоподобия (MLS) и метод опорных
векторов (SVM). Оба метода демонстрируют неплохие результаты с использованием спутни-
ковой информации Landsat, например, в работе [2] с использованием первого метода точность
классификации нескольких классов составляет 93%, и 78% вторым методом. Также суще-
ствуют и иные результаты, так, например, в работе [3] с использованием метода MLS точность
классификации общего класса агрокультур составила около 45% и 77% методом SVM. Со-
гласно [4], общая точность классификации нескольких классов (пахотные культуры, зерновые,
рапс, корнеплоды, сад, лес, город) составила 62% методом MLS и 64% – по методу SVM. Од-
нако точность этих методов не всегда удовлетворительна для конкретных приложений и сним-
ков, что приводит к поиску новых методов классификации.
      Целью данной работы является реализация классического Гауссовского процесса с ис-
пользованием временны рядов пахотных земель по данным спутника Landsat для проведения
классификации видов сельскохозяйственных культур, выращенных на исследуемых участках.
      Исследуемая область. Исходной информацией являются данные американской спутни-
ковой съемки Landsat 8, снимающего до 400 сцен ежедневно [5]. В качестве обучающего
набора использовались безоблачные снимки в периоды активной вегетации за 2015-2016 гг., с
уровнем обработки 1Т (коррекция рельефа) и разрешением 8071×8161 пикселей. Изображения
использовались в формате GEOTIFF с проекцией UTM в системе координат WGS.
      Исследуемыми участками являются территории Сухобузимского района, расположен-
ного в центральный части Красноярского края России с общей площадью в 5,612 тыс. км 2.
Обучаемая территория составляет 219×196 пикселей или примерно 16 км2 площади на земной
поверхности (16 полей). Объектом исследования являются сельскохозяйственные культуры
ОАО Учхоз «Миндерлинское»: ячмень, пшеница, однолетние травы, многолетние травы.
      В качестве тестовых участков использовалась территория ЗАО Племзавод «Таежный»,
составляющие 546×627 пикселей, что соответствует площади на земной поверхности разме-
ром 135 км2 (54 поля). В тестовые поля входят следующие культуры: ячмень, пшеница, одно-
летние травы, многолетние травы (рис. 1).


                                                 225
                а – Обучающие данные




                                                                  Ячмень
                                                                  Пшеница
                                                                  Однолетние травы
                 б – Тестовые данные                              Многолетние травы
                                                                  Несколько культур
                                                                  Мголетние трав/пшеница
                                                                  Несолько культур/ячмень
                                                                  Пар
                                                                  Неизвстно




             2015                            2016
                              Рис. 1. Карты полей за 2015-2016 гг.
                а – ОАО Учхоз «Миндерлинское», б – ЗАО Племзавод «Таежный».


                                 (                          (
                            а)                         б)
                                                            (
                                                       в)




    Рис. 2. Космический снимок Landsat с захватом полей Сухобузимского района за 16.05.2016.
     а – исходное изображение; б – обучающий участок полей ОАО Учхоз «Миндерлинское»;
                     в – тестовый участок полей ЗАО Племзавод «Таежный».

     Верификация производилась на основе полевых данных, представленных на геоинфор-
мационном портале Института космических и информационных технологий Сибирского фе-
дерального университета [6]. Предварительная обработка спутниковой и наземной информа-
ции была выполнена с помощью программного продукта ENVI 5.2, а также географической
информационной системы QGIS 2.8.2. Предобработка состояла из нескольких этапов: объеди-
нение спектральных каналов; создание маски для всех участков на вегетационной карте полей;
обрезка космических снимков по созданным маскам. В качестве примера на рисунке 2 пред-
ставлен снимок за 16.05.2016.
     На этапе предварительной обработки было подготовлено 12 разновременных космиче-
ские снимков для обучения, и 9 в качестве тестовых данных.
     Алгоритм классификации базируется на использовании нормализованного относитель-
ного индекса растительности (NDVI). В качестве примера показатели NDVI для обучающего
набора представлены на рисунке 3 с вычислением среднего значения индекса для всех пиксе-
лей изображения соответствующего класса.


                                                 226
                         0.4




                  NDVI
                         0.2

                           0
                           120      140    160    180   200   220   240   120   140   160   180   200   220   240   260
                         0.4




                  NDVI
                         0.2

                           0
                           120      140    160    180   200   220   240   120   140   160   180   200   220   240   260
                         0.4
                  NDVI



                         0.2

                           0
                           120      140    160    180   200   220   240   120   140   160   180   200   220   240   260
                         0.4
                  NDVI




                         0.2

                             0
                             120    140    160    180   200   220   240   120   140   160   180   200   220   240   260



              Рис. 3. График усреднённого хода NDVI для обучающего набора данных.

      Таким образом на рис. 3 синие крестики представляют собой усредненные значения
NDVI для каждой культуры за 2015 и 2016 гг. Временной ход каждой культуры будет разли-
чен, значение NDVI близкое к 0,6 для снимков Landsat соответствует области снимка с густым
растительным покровом, а значения до 0,3 – областям со смешанным покровом, с незрелой
растительностью или окончанием жизненного цикла культур.
      Регрессия ГП. Далее мы использовали регрессию Гауссовских случайных процессов
(ГП) для моделирования временной зависимости данных, так как ГП являются непараметри-
ческими вероятностными моделями, которые хорошо подходят для моделирования времен-
ных рядов [7, 8]. Для этого построили временные ряды вида f t  ~ GP 0, k t , t  , которые взяты
из ГП с нулевым средним значением и квадратом экспоненциального ядра k  . Очевидно, что
отклонения NDVI от одного дня к другому должны быть небольшими, следовательно, среднее
значение и параметры ядра выбираются вручную. ГП содержат параметр шума, что позволяет
определить насколько жесткой должна быть подгонка заданной функции к точкам данных.
Серые области показывают неопределённость регрессии (Рис. 4). Видно, что области с мень-
шей плотностью данных имеют большую неопределенность.
                       0.4
                NDVI




                       0.2

                         0
                         120       140    160    180    200   220   240   120   140   160   180   200   220   240   260

                       0.4
                NDVI




                       0.2

                         0
                         120       140    160    180    200   220   240   120   140   160   180   200   220   240   260
                       0.4
                NDVI




                       0.2

                         0
                         120       140    160    180    200   220   240   120   140   160   180   200   220   240   260




                                                                          120   140   160   180   200   220   240   260


          Рис. 4. Обученная модель регрессии ГП по спутниковым данным за 2015-2016 гг.

     Таким образом, функция оценки, связанная с точками во времени t  извлекает из рас-
пределения Гаусса мульти-случайную величину (1):
                                       p y t   N  x , K t , t  ,         (1)

                                                                          227
где y  y1 , y 2 ..., y n  – значения зависимых функций, вычисляемых в точках t1 , t 2 ..., t n ,  –
средняя функция. Данная модель ГП близка к линейной регрессионной модели и выглядит
следующим образом (2):
                                                  k t1 , t1  k t1 , t 2       k t1 , t n  
                                                                                                  
                                                  k t 2 , t1  k t 2 , t 2     k t 2 , t n  
                                    K t , t                                                    .                           (2)
                                                                                      
                                                                                                  
                                                  k t , t  k t , t            k t m , t n 
                                                  m 1               m 2

    При оценке распределения мы определяем среднюю функцию и дисперсию для много-
мерных ГП обучающих наблюдений, используя стандартные результаты ГП (3, 4) [3].
                                    m    x  K  x, x K  x, x   y  x     x  ,
                                                                        1
                                                                                                                                (3)
                                    C   K  x, x  K  x, x K  x, x  K  x, x .
                                                                                  1
                                                                                  (4)
      Функциональной формой функции ядра является квадратичная экспоненциальная функ-
ция, включающая набор гиперпараметров, и имеющая следующий вид (5) [7]:
                                                      t  t j 2 
                            k ti , t j   h 2 exp    i      ,            (5)
                                                        
где h – амплитуда выходных данных,  – входной гиперпараметр времени, который контро-
лирует гладкость функции.
      Классификация. Далее мы построили простой классификатор, производительность ко-
торого прямо пропорциональна точности полученных данных. Временные данные из каждой
области в новом изображении сравниваются с полученной регрессионной моделью. Класси-
фикатор присваивает класс, который дает самую низкую среднеквадратичную ошибку между
контрольными точками и значениями регрессии в этих временных точках для каждой куль-
туры. Следовательно, мы имеем (6, 7):
                                                  class  arg min  k ,           (6)
                                                             k   i d ik ,
                                                                             2
                                                                                                                                (7)
где d – расстояние от обучающей модели для времени i  до того же временного значения в
тестовой модели. На рисунке 5 представлена классификация ГП за 2015-2016 гг.

           0.4
    NDVI




           0.2

            0
            120   140   160   180   200     220       240      260 120        140      160    180       200   220   240   260

           0.4
    NDVI




           0.2

            0
            120   140   160   180   200     220       240      260 120        140      160    180       200   220   240   260
           0.4
    NDVI




           0.2

            0
            120   140   160   180   200     220       240      260 120        140      160    180       200   220   240   260




                                                                    120       140      160    180       200   220   240   260

   Рис. 5. Классификация ГП по усредненным данным NDVI для разных культур за 2015-2016 гг.
                                                                   228
            Таблица 1. Матрица неопределенности и общей точности за 2015 год.
                                                       Тестовые данные
              Класс
                                      Ячмень     Пшеница     Многолетние травы    Всего
                       Ячмень           12           4                  0          16
  Обучающие          Пшеница             4           4                  0           8
    данные      Многолетние травы        0           0                 12          12
                        Всего           16           8                 12          36
                                Общая точность = 77.78%

           Таблица 2. Матрица неопределенности и общей точности за 2016 год.
                                                    Тестовые данные
           Класс                                      Однолетние Многолетние
                                Ячмень Пшеница                                    Всего
                                                        травы          травы
                  Ячмень          12          4           0               0         16
                 Пшеница           4          4           0               0          8
               Однолетние
 Обучающие                         0          6           0               1         7
                  травы
   данные
              Многолетние
                                   0          0           0               12        12
                  травы
                   Всего          16         14           0               13        43
                               Общая точность = 65.12%

      Следует отметить, что значения тестового изображения (зеленые кружки) аналогичны
значениям, полученным для обучающего набора, что приводит к высокой точности классифи-
кации. Тем не менее, для 2015 года наблюдается более высокие значения NDVI для многолет-
них трав в отличии от 2016 года, по причине включения нескольких типов культур, которые
могут иметь разные профили NDVI. Кроме того, необходимо отметить отсутствующие данные
в 2016 году этого же класса, которые расходятся с кривой обучения.
       Результаты исследования. В работе была проведена классификация сельскохозяй-
ственных культур на основе вегетационного индекса NDVI, временной ход которого был по-
лучен из спутниковых снимков Landsat, что является наиболее важным признаком, влияющим
на общую точность классификации культур метом Гаусса. Полученные результаты реализа-
ции метода представлены в таблицах 1 и 2, для 2015 и 2016 гг., соответственно.
      Следует заметить, что в 2015 году у нас не было данных для обучения по однолетним
травам, поэтому в данном случае мы рассматривали только 3 класса. Созданный алгоритм все-
гда отличал многолетние травы от ячменя и пшеницы, хотя последние два в свою очередь ча-
сто путаются по причине аналогичного профиля NDVI, что говорит о необходимости исполь-
зования дополнительной информации, такой как: погода, почва и др. Таким образом за 2015
год выявлена общая точность равная 77,78%.
      По результатам 2 таблицы общая точность равна 65,12%. В целом только первый класс
имеет удовлетворительную точность. Отметим, что пшеница часто относится к кладовому яч-
меню, поэтому, как и в предыдущем случае, здесь возникает необходимость в использовании
дополнительных данных. Кроме того, средние профили NDVI для 2016 года, по-видимому,
заметно отличаются от результирующей регрессии, как показано на рисунке 5. Значения NDVI
следует проверять индивидуально для обнаружения ошибок сбора данных или наличия облач-
ности, что может ухудшить производительность алгоритма.
      Заключение. Проведены исследования с использованием процессов Гаусса в задачах
классификации сельскохозяйственных культур по данным спутника Landsat. Результаты ис-
следования показывают, что ГП позволяет с точностью в 77% распознать такие культуры как,
ячмень и многолетние травы. Однако существуют также и проблемы в классификации, а
именно сложность в распознавании отдельных видов растительности в связи с идентичным
временным ходом NDVI, а также огромным наличием разновидностей, принадлежащих од-
ному классу. Следует также отметить, что отдельный анализ, проведенный путем объединения
                                             229
нескольких классов, а именно ячменя и пшеницы в класс – яровые культуры, показал, что об-
щая точность классификации методом Гаусса составляет 97% в 2015 году и 76% в 2016 году.
Таким образом, следует добавить, что ГП имеет большие перспективы в его дальнейшем ис-
пользовании в задачах классификации объектов по данным ДЗЗ.
     Работа выполнена при финансовой поддержке Российского Научного Фонда (проект
№ 16-11-00007).

                                                 ЛИТЕРАТУРА

[1]   C. Bishop. Pattern Recognition and Machine Learning / Springer, 2006.
[2]   R. Devadas, R. J. Denham, M. Pringle. Support vector machine classification of object-based date for
      crop mapping, using multi-temporal Landsat imagery // XXII Congress of ISPRS, 25 August -01 Sep-
      tember 2012, Melbourne, Australia.
[3]   R. H. Topaloglu, E. Sertel, N. Musaoglu. Assessment of classification accuracies of sentinel-2 and land-
      sat-8 data for land cover / use mapping // XXIII ISPRS Congress, 12-19 July 2016, Prague.
[4]   B. Waske, J. A. Benediktsson. Fusion of Support Vector Machines for Classification of Multisensor
      Data // IEEE Transactions on geoscience and remote sensing, Vvol. 45, No. 12, December, 2007.
[5]   Геологическая служба США. https://www.usgs.gov.
[6]   Система сельскохозяйственного мониторинга ИКИТ СФУ. http://activemap.ikit.sfu-kras.ru.
[7]   C. E. Rasmussen, C. K. I. Williams. Gaussian Processes for Machine Learning / London, 2006.
[8]   S. Roberts, M. Osborne, M. Ebden, S. Reece, N. Gibson and S. Aigrain. Gaussian processes for time-
      series modelling // Home | Philosophical Transactions of the Royal Society of London A 371, January
      4, 2013.




                                                        230