1 of 20

Основы работы с данными ДЗЗ:

Тематическое дешифрирование

Антон Новиков

anton.novikov@nextgis.com

2 of 20

Самые оперативные новости об обновлениях платформы и общение с командой в Telegram

@nextgis_chat — обсуждение любых тем вокруг

ПО и проектов NextGIS

@nextgis_ru — все важные новости платформы

Всегда открыты к общению по почте:

info@nextgis.com — общие вопросы

edu@nextgis.com — образование

support@nextgis.com — тех. поддержка

3 of 20

План вебинара

  1. Виды дешифрирования
  2. Настройка проекта в Semi-Automatic classification plugin
    1. Настройка зависимостей
    2. Настройка производительности
    3. Установка набора каналов (bandset)
  3. Неуправляемая классификация (кластеризация)
    • К-means
    • ISODATA
  4. Управляемая классификация
    • Создание эталонов
    • Дешифрирование
    • Оценка достоверности результатов дешифрирования
    • Дешифрирование с использованием инструментов NextGIS Toolbox

4 of 20

Ч.1 Виды дешифрирования

5 of 20

Ч.2 Настройка проекта в

Semi-Automatic classification plugin

  1. Настройка зависимостей

в случае отсутствия компонентов их необходимо установить через команду в OSGeo4W Shell

pip install -U [название компонента]

  1. Настройка производительности

Устанавливаем максимальное число потоков (ядер) и оперативной памяти

6 of 20

Ч.2 Настройка проекта в

Semi-Automatic classification plugin

      • Установка набора каналов (bandset)

7 of 20

Ч.3 Неуправляемая кластеризация

Используется для быстрого выделения кластеров

Смысл неконтролируемой классификации заключается в разделении всех пикселов изображения на группы (кластеры), название, спектральные характеристики и даже само существование которых предварительно неизвестны.

Критерием отнесения пикселов к тому или другому кластеру служит схожесть спектральных характеристик.

В задачу дешифровщика входит последующее определение соответствия выделенных кластеров классам земной поверхности, которое выполняется с использованием дополнительной информации — материалов наземных наблюдений, карт и т.д.

8 of 20

1. Кластеризация K-means

Достоинства:

  • простота использования;
  • быстрота использования;
  • понятность и прозрачность алгоритма.

Недостатки:

  • алгоритм слишком чувствителен к выбросам, которые могут искажать среднее.
  • алгоритм может медленно работать на больших базах данных.
  • Результат зависит от выбора исходных центров кластеров, их оптимальный выбор неизвестен

9 of 20

Алгоритмы группирования кластеров:��

Канал 1

Канал 2

Канал 2

Канал 1

minimum distance

spectral angle

10 of 20

2. Кластеризация ISODATA

По сравнению с методом К-средних:

  1. Не требует задавать количество кластеров.
  2. Менее чувствительный к выбросам метод.
  3. Так же не эффективен при выделении кластеров неправильной формы

11 of 20

Ч.4 Управляемая классификация

12 of 20

1. Создание эталонов

Спектральная диаграмма эталонов должна быть максимально разделена

Спектральные расстояния между центрами эталонов должны быть максимальны

13 of 20

2. Дешифрирование�Метод минимального расстояния

Для каждого пиксела вычисляются расстояния до центров (средних значений яркости) классов, затем ему присваивается название класса, расстояние до которого минимально.

Этот способ целесообразно использовать при ограниченном

числе классов в обучающей выборке.

Преимущества: математически прост

Недостаток: не учитывается распределение (дисперсия) спектральных

характеристик внутри эталонов

14 of 20

2. Дешифрирование �Метод максимального правдоподобия

Использует условие максимальной

вероятности отнесения пиксела к

тому или иному классу

В качестве «наиболее правдоподобного» значения параметра берут значение , максимизирующее вероятность получить при n опытах данную выборку.

15 of 20

Минимальное расстояние

Максимальное правдоподобие

Спектральный угол

Распределение диапазонов классов

пересекаются, но имеют разный диапазон

пересекаются, но имеют разный диапазон

имеют схожий диапазон

Форма распределения

простая (площадная)

неопределенной формы

простая

(линейная)

Количество классов

большое

среднее

малое

16 of 20

2. Дешифрирование �Метод случайного леса (RF)

Использует большое количество алгоритмов ветвления, каждое из которых само по себе даёт очень невысокое качество классификации, но за счёт их большого количества результат получается хорошим

17 of 20

Параметры метода случайного леса

Number of trees – количество деревьев (больше – лучше и дольше)

Minimum number to split - минимальное количество пикселей, необходимое для разделения внутреннего узла

Max features - количество объектов для разделения узла, если он пуст, учитываются все объекты; если sqrt — квадратный корень из всех объектов, если целое число — количество объектов; если число с плавающей запятой составляет часть всех функций

One-VS-rest – алгоритм выполняет классификацию «Один против остальных», которая в основном соответствует одному классификатору для каждого класса.

Полное описание тут

18 of 20

3. Оценка результатов дешифрирования

AREA BASED ERROR MATRIX

 

> Reference

V_Classified

1

2

3

4

5

6

7

8

9

Area

1

0,00

0,00

0,00

0,00

0,00

0,00

0,00

0,00

0,00

1,29E+08

2

0,00

0,00

0,00

0,00

0,00

0,00

0,00

0,00

0,00

9387000

3

0,08

0,00

0,09

0,01

0,04

0,02

0,00

0,00

0,00

9,03E+09

4

0,00

0,00

0,03

0,06

0,00

0,00

0,00

0,00

0,00

3,45E+09

5

0,00

0,00

0,00

0,01

0,19

0,01

0,00

0,00

0,00

7,65E+09

6

0,00

0,00

0,01

0,01

0,02

0,03

0,00

0,00

0,00

2,44E+09

7

0,06

0,00

0,01

0,04

0,19

0,02

0,02

0,00

0,03

1,34E+10

8

0,00

0,00

0,00

0,00

0,00

0,00

0,00

0,00

0,00

3294000

9

0,00

0,00

0,00

0,00

0,01

0,00

0,00

0,00

0,01

5,56E+08

Total

0,1455

0,0006

0,1434

0,1288

0,456

0,066

0,0214

0,0029

0,0353

3,67E+10

Overall accuracy [%] = 40.6367

Kappa hat classification = 0.2969

Для статистически достоверной оценки точности данных необходимо иметь набор контрольных данных с не менее чем 40 точек/пикселей на каждый класс

19 of 20

Литература:��Кластеризация�https://scikit-learn.ru/clustering/#k-means�https://studfile.net/preview/7754987/page:4/�https://nimar.narod.ru/algorytm/isodata/isodata.htm�https://tsamsonov.github.io/gen-course/slides/talk4_PointClustering.html#33��Классификация�https://semiautomaticclassificationmanual.readthedocs.io/pl/latest/remote_sensing.html#classification-algorithms�https://www.researchgate.net/publication/265324085_Evaluation_of_Remote_Sensing_Image_Classifiers_with_Uncertainty_Measures�https://www.sciencedirect.com/science/article/pii/S2772883822001388�https://ecampusontario.pressbooks.pub/remotesensing/chapter/chapter-6-classification/��

20 of 20

Спасибо за внимание!

Приглашаем к сотрудничеству!

Антон Новиков

anton.novikov@nextgis.com