Основы работы с данными ДЗЗ:
Тематическое дешифрирование
Антон Новиков
anton.novikov@nextgis.com
Самые оперативные новости об обновлениях платформы и общение с командой в Telegram
@nextgis_chat — обсуждение любых тем вокруг
ПО и проектов NextGIS
@nextgis_ru — все важные новости платформы
Всегда открыты к общению по почте:
info@nextgis.com — общие вопросы
edu@nextgis.com — образование
support@nextgis.com — тех. поддержка
План вебинара
Ч.1 Виды дешифрирования
Ч.2 Настройка проекта в
Semi-Automatic classification plugin
в случае отсутствия компонентов их необходимо установить через команду в OSGeo4W Shell
pip install -U [название компонента]
Устанавливаем максимальное число потоков (ядер) и оперативной памяти
Ч.2 Настройка проекта в
Semi-Automatic classification plugin
Ч.3 Неуправляемая кластеризация
Используется для быстрого выделения кластеров
Смысл неконтролируемой классификации заключается в разделении всех пикселов изображения на группы (кластеры), название, спектральные характеристики и даже само существование которых предварительно неизвестны.
Критерием отнесения пикселов к тому или другому кластеру служит схожесть спектральных характеристик.
В задачу дешифровщика входит последующее определение соответствия выделенных кластеров классам земной поверхности, которое выполняется с использованием дополнительной информации — материалов наземных наблюдений, карт и т.д.
1. Кластеризация K-means
Достоинства:
Недостатки:
Алгоритмы группирования кластеров:��
Канал 1
Канал 2
Канал 2
Канал 1
minimum distance
spectral angle
2. Кластеризация ISODATA
По сравнению с методом К-средних:
Ч.4 Управляемая классификация
1. Создание эталонов
Спектральная диаграмма эталонов должна быть максимально разделена
Спектральные расстояния между центрами эталонов должны быть максимальны
2. Дешифрирование�Метод минимального расстояния
Для каждого пиксела вычисляются расстояния до центров (средних значений яркости) классов, затем ему присваивается название класса, расстояние до которого минимально.
Этот способ целесообразно использовать при ограниченном
числе классов в обучающей выборке.
Преимущества: математически прост
Недостаток: не учитывается распределение (дисперсия) спектральных
характеристик внутри эталонов
2. Дешифрирование �Метод максимального правдоподобия
Использует условие максимальной
вероятности отнесения пиксела к
тому или иному классу
В качестве «наиболее правдоподобного» значения параметра берут значение , максимизирующее вероятность получить при n опытах данную выборку.
| Минимальное расстояние | Максимальное правдоподобие | Спектральный угол |
Распределение диапазонов классов | пересекаются, но имеют разный диапазон | пересекаются, но имеют разный диапазон | имеют схожий диапазон |
Форма распределения | простая (площадная) | неопределенной формы | простая (линейная) |
Количество классов | большое | среднее | малое |
2. Дешифрирование �Метод случайного леса (RF)
Использует большое количество алгоритмов ветвления, каждое из которых само по себе даёт очень невысокое качество классификации, но за счёт их большого количества результат получается хорошим
Параметры метода случайного леса
Number of trees – количество деревьев (больше – лучше и дольше)
Minimum number to split - минимальное количество пикселей, необходимое для разделения внутреннего узла
Max features - количество объектов для разделения узла, если он пуст, учитываются все объекты; если sqrt — квадратный корень из всех объектов, если целое число — количество объектов; если число с плавающей запятой составляет часть всех функций
One-VS-rest – алгоритм выполняет классификацию «Один против остальных», которая в основном соответствует одному классификатору для каждого класса.
Полное описание тут
3. Оценка результатов дешифрирования
AREA BASED ERROR MATRIX | ||||||||||
| > Reference | |||||||||
V_Classified | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | Area |
1 | 0,00 | 0,00 | 0,00 | 0,00 | 0,00 | 0,00 | 0,00 | 0,00 | 0,00 | 1,29E+08 |
2 | 0,00 | 0,00 | 0,00 | 0,00 | 0,00 | 0,00 | 0,00 | 0,00 | 0,00 | 9387000 |
3 | 0,08 | 0,00 | 0,09 | 0,01 | 0,04 | 0,02 | 0,00 | 0,00 | 0,00 | 9,03E+09 |
4 | 0,00 | 0,00 | 0,03 | 0,06 | 0,00 | 0,00 | 0,00 | 0,00 | 0,00 | 3,45E+09 |
5 | 0,00 | 0,00 | 0,00 | 0,01 | 0,19 | 0,01 | 0,00 | 0,00 | 0,00 | 7,65E+09 |
6 | 0,00 | 0,00 | 0,01 | 0,01 | 0,02 | 0,03 | 0,00 | 0,00 | 0,00 | 2,44E+09 |
7 | 0,06 | 0,00 | 0,01 | 0,04 | 0,19 | 0,02 | 0,02 | 0,00 | 0,03 | 1,34E+10 |
8 | 0,00 | 0,00 | 0,00 | 0,00 | 0,00 | 0,00 | 0,00 | 0,00 | 0,00 | 3294000 |
9 | 0,00 | 0,00 | 0,00 | 0,00 | 0,01 | 0,00 | 0,00 | 0,00 | 0,01 | 5,56E+08 |
Total | 0,1455 | 0,0006 | 0,1434 | 0,1288 | 0,456 | 0,066 | 0,0214 | 0,0029 | 0,0353 | 3,67E+10 |
Overall accuracy [%] = 40.6367 | ||||||||||
Kappa hat classification = 0.2969 | ||||||||||
Для статистически достоверной оценки точности данных необходимо иметь набор контрольных данных с не менее чем 40 точек/пикселей на каждый класс
Литература:��Кластеризация�https://scikit-learn.ru/clustering/#k-means�https://studfile.net/preview/7754987/page:4/�https://nimar.narod.ru/algorytm/isodata/isodata.htm�https://tsamsonov.github.io/gen-course/slides/talk4_PointClustering.html#33��Классификация�https://semiautomaticclassificationmanual.readthedocs.io/pl/latest/remote_sensing.html#classification-algorithms�https://www.researchgate.net/publication/265324085_Evaluation_of_Remote_Sensing_Image_Classifiers_with_Uncertainty_Measures�https://www.sciencedirect.com/science/article/pii/S2772883822001388�https://ecampusontario.pressbooks.pub/remotesensing/chapter/chapter-6-classification/��
Спасибо за внимание!
Приглашаем к сотрудничеству!
Антон Новиков
anton.novikov@nextgis.com