Настройка проекта и проверка данных
Вы выполните настройку проекта ArcGIS Pro и проверку входных данных. Но сначала вы изучите некоторые основы рабочего процесса машинного обучения, который вы будете использовать в этом руководстве.
О рабочем процессе машинного обучения
Фундаментальная концепция машинного обучения заключается в том, чтобы позволить компьютерам учиться на данных выборки и применять полученные знания к неизвестным данным. Один из способов сделать это — обучить регрессионную модель и использовать ее для прогнозирования новых результатов. Именно этот подход вы примените в этом руководстве.
Вы хотите спрогнозировать надземную биомассу (AGB) в нескольких округах Джорджии. Вам потребуются следующие данные:
- Данные целевой выборки - это будет набор известных значений AGB для местоположений выборки. Вы будете использовать данные точек, извлеченные из набора данных траектории спутникового лидара GEDI, как показано на следующем изображении.
- Независимые переменные - это будут данные, которые могут объяснить значения выборки AGB, а затем помочь спрогнозировать значения AGB для новых областей. Вы будете использовать мультиспектральные спутниковые изображения Landsat 9, данные цифровой модели рельефа (DEM) и дополнительные производные растровые слои. На следующих примерах изображений показаны снимки Landsat (слева) и растровые данные ЦМР (справа).
Мультиспектральные спутниковые снимки Landsat 9 были выбраны в качестве независимой переменной, поскольку спектральные характеристики сенсора позволяют воспринимать растительность, которая напрямую связана с биомассой. Цифровая модель рельефа (DEM) отражает топологическую изменчивость и сложность рельефа, также являющиеся факторами, влияющими на рост растительности.
Вы обучите модель, используя данные целевой выборки и независимые переменные в качестве входных данных. Во время обучения модель будет фиксировать взаимосвязи между значениями выборки и независимыми переменными. Как только вы будете удовлетворены моделью, вы сможете использовать ее для прогнозирования значений AGB во всем экстенте округов Джорджии. Эти выходные данные будут растровыми, как показано на следующем изображении, где более высокие значения AGB отображаются темно-зеленым цветом, а более низкие — белым или светло-зеленым.
Загрузка и открытие проекта
Для начала вы загрузите проект, содержащий все данные для этого руководства, и откроете его в ArcGIS Pro.
- Загрузите файл Estimate_Biomass.zip и найдите загруженный файл на своем компьютере.
Примечание:
Большинство веб-браузеров по умолчанию скачивают все в папку Загрузки.
Размер файла .zip составляет 2.9 Гб. Загрузка может занять несколько минут.
- Щелкните правой кнопкой файл Estimate_Biomass.zip и разархивируйте его на свой компьютер, например, на диск C.
- Откройте извлеченную папку Estimate_Biomass и дважды щелкните файл Estimate_Biomass.aprx, чтобы открыть проект в ArcGIS Pro.
- Если необходимо, войдите под учетной записью организации ArcGIS.
Примечание:
Если у вас нет доступа к ArcGIS Pro или учетной записи организации ArcGIS, см. варианты доступа к программному обеспечению.
Откроется проект.
На карте границы изучаемой области отображаются в виде полигона с оранжевым контуром. Эта территория содержит 20 округов Джорджии.
Проверка входных данных
Теперь вы изучите остальные входные данные проекта. Сначала вы добавите на карту снимок Landsat.
- Щелкните вкладку Вид на ленте. В группе Окна щелкните Панель Каталог.
- На панели Каталог разверните Папки, Estimate_Biomass и InputData.
- В разделе InputData раскройте LC09_L2SP_018038_20221004_20230327_02_T1.
Это сцена спутникового изображения Landsat 9, которая содержит семь спектральных каналов со значениями отражающей способности поверхности:
- Канал 1 — Побережья и аэрозоли
- Канал 2 — Синий
- Канал 3 — Зеленый
- Канал 4 — Красный
- Канал 5 — Ближний инфракрасный (NIR)
- Канал 6 — Коротковолновый инфракрасный порт (SWIR) 1
- Канал 7 — Коротковолновый инфракрасный (SWIR) 2
Примечание:
С помощью перетаскивания можно увеличить ширину панели, чтобы лучше видеть более длинные имена файлов.
Эти каналы будут использоваться в качестве независимых переменных. Теперь вы добавите на карту сцену Landsat.
- Щёлкните правой кнопкой LC09_L2SP_018038_20221004_20230327_02_T1_MTL.txt и выберите Добавить к текущей карте.
- Если появится запрос о вычислении статистики, щелкните Да.
Через несколько секунд на карте появится изображение. Вы дадите ему более короткое имя.
- На панели Содержание щелкните слой Surface Reflectance_LC09_L2SP_018038_20221004_20230327_02_T1_MTL, чтобы выбрать его, и щелкните его еще раз, чтобы переключиться в режим редактирования. Измените имя на Landsat9 и нажмите Enter.
Вы измените отображение снимков на естественные цвета - комбинацию красного, зеленого и синего каналов, чтобы цвета были близки к тем, которые обычно видит человеческий глаз.
- На панели Содержание убедитесь, что выбран слой Landsat9.
- На ленте во вкладке Растровый слой в группе Отображение щелкните кнопку Символы.
- На панели Символы установите следующие значения параметров:
- Для параметра Основные символы должно быть выбрано RGB.
- Для Красного выберите SRB4
- Для Зеленого установите SRB3
- Для Синего выберите SRB2
Отображение снимков обновится на естественные цвета.
- Закройте панель Символы.
Затем вы добавите на карту цифровую модель рельефа (ЦМР).
- На панели Каталог в папке InputData сверните LC09_L2SP_018038_20221004_20230327_02_T1.
- Щелкните правой кнопкой DEM.tif и выберите Добавить к текущей карте.
- В панели Содержание переименуйте DEM.tif в ЦМР.
- Изучите слой ЦМР на карте.
ЦМР содержит высотные данных. Более светлые тона показывают области с большей высотой, а более темные — с меньшей высотой.
Этот слой также будет использоваться в качестве независимой переменной. После этого вы изучите данные GEDI.
- На панели Каталог в разделе InputData раскройте папку GEDI_L4A.
Эта папка содержит восемь файлов GEDI, которые будут использоваться в качестве образцов с известными значениями AGB, то есть целей обучения. Обратите внимание, что это файлы траектории HDF5: это не растровые файлы, а данные траектории. Позже в рабочем процессе вы узнаете, как обрабатывать эти данные и отображать их на карте.
На панели Содержание есть еще два слоя данных. Вы уже видели слой AOI, который оконтуривает всю изучаемую область. Есть также слой Counties, который задает границы округов. Вы включите его.
- На панели Содержание щелкните стрелку рядом со слоем Counties, чтобы отобразить его легенду, и поставьте отметку рядом со слоем Counties, чтобы включить его.
- Просмотрите слои AOI и Counties (оранжевый и ярко-фиолетовый цвета) на карте.
Эти два слоя вы будете использовать позже при выполнении анализа.
- Поставьте отметки рядом со слоями Counties, ЦМР и Landsat9, чтобы отключить слои, поскольку для следующих шагов рабочего процесса они вам не понадобятся.
- На панели Инструменты быстрого доступа щелкните Сохранить, чтобы сохранить проект.
В этой части рабочего процесса после обзора рабочего процесса машинного обучения вы настроили проект ArcGIS Pro. После чего вы изучили входные данные: семиканальную сцену Landsat 9, растр ЦМР, данные GEDI и несколько слоев границ.
Обработка и извлечение данных GEDI
AGB представляет собой живую растительность над землей, измеряемую массой на единицу - обычно это мегаграмм (то есть метрическая тонна) на гектар. Физическое измерение AGB на земле для большой изучаемой области является трудоемким и практически невозможным. Оценка AGB с использованием данных дистанционного зондирования является хорошим альтернативным решением.
GEDI — это спутниковый лидар NASA, который измеряет трехмерную структуру поверхности Земли. Сюда входит высота леса и его вертикальная структура, то есть наложенные друг на друга слои деревьев и кустарников, которые вместе могут формировать большую или меньшую биомассу. GEDI фиксирует точки выборки вдоль трека сенсора. На основе этих измерений можно получить плотность надземной биомассы (AGBD), и продукт GEDI L4A содержит эти производные значения точек AGBD. На следующем примере изображения показаны треки GEDI, на которых были записаны образцы данных AGBD, поскольку они пересекаются в изучаемой области этого руководства.
Такие данные представляют собой файлы HDF5 со структурой траекторий и могут быть перенесены в ArcGIS в виде набора данных траектории, модели данных базы геоданных, предназначенной для управления коллекцией файлов траектории. Теперь вы создадите набор данных траектории, добавите в него предоставленные данные GEDI и извлечете соответствующие точечные данные AGBD, которые будут использоваться в качестве обучающих выборок позже в рабочем процессе.
Создание набора данных траектории
Сначала вы создадите пустой набор данных траектории в базе геоданных проекта.
- На панели Каталог раскройте папку Базы данных.
- Щелкните Estimate_Biomass.gdb правой кнопкой, щелкните Новый и выберите Набор данных траектории.
На панели Геообработка появится инструмент Создать набор данных траектории.
- Для параметра Имя набора данных траектории введите Gedi.
- Примите остальные значения по умолчанию и щелкните Запустить.
Набор данных траектории появится на панели Содержание. Он содержит подслои Контур и Точка.
Этот набор данных в настоящее время пустой и будет выступать в качестве контейнера для данных GEDI.
Добавление данных GEDI в набор данных траектории
Теперь вы добавите данные GEDI, предоставленные для этого рабочего процесса, в только что созданный пустой набор данных траектории.
- Переключитесь обратно на панель Каталог.
- На панели Каталог разверните базу геоданных Estimate_Biomass.gdb, щелкните правой кнопкой Gedi и выберите Добавить траектории.
Сначала вы настроите тип и свойства набора данных траектории.
- На панели Добавить данные в набор данных траектории для параметра Тип траектории выберите GEDI.
- В разделе Тип траектории щелкните кнопку Свойства.
- В окне Свойства типа траектории нажмите на вкладку Траектория.
Предоставленные данные GEDI относятся к типу L4A, поэтому вы установите свойства соответствующим образом.
- В разделе Фильтр продукта выберите GEDIL4A.
- В разделе Траектории по поверхности поставьте отметку Имя, чтобы выбрать все треки.
Данные GEDI собираются в виде восьми отдельных лучей, и вы хотите включить их все.
- В разделе Предопределенные переменные поставьте отметку для переменной Плотность надземной биомассы.
Это единственная переменная, которая вас интересует в этом наборе данных.
- Щелкните OK, чтобы сохранить свойства.
- На панели инструмента Добавить данные в набор данных траектории в разделе Входные данные выберите Папка и щелкните кнопку Обзор.
- В окне Входные данные раскройте Папки, Estimate_Biomass и InputData, щелкните GEDI_L4A и нажмите ОК.
- На панели инструмента Добавить данные в набор данных траекторий согласитесь со всеми значениями по умолчанию и щелкните Запустить.
Через несколько секунд данные GEDI добавляются в набор данных траектории и появляются на карте. Вы уменьшите масштаб, чтобы увидеть весь набор данных.
- На панели Содержание щелкните правой кнопкой слой Gedi и выберите Приблизить к слою.
Зеленые полигоны, пересекающие Северную Америку, представляют собой следы траекторий сенсора GEDI. Эти конкретные траектории были выбраны потому, что они пересекают изучаемую область.
- В панели Содержание щелкните правой кнопкой слой Контур и выберите Таблица атрибутов.
Появится таблица атрибутов Контур.
Каждая строка соответствует одной траектории и содержит информацию о ней. Например, поле Количество определяет число точек в каждой траектории.
- Закройте таблицу Контур.
Теперь вы посмотрите на отдельные точки, содержащиеся в траекториях.
- На панели Содержание включите слой AOI. Щелкните правой кнопкой слой AOI и выберите Приблизить к слою.
Подсказка:
Если слой траектории Gedi не отображается на карте, немного уменьшите масштаб.
- Выключите слой Контур и включите подслой Точка.
Отображение слоя точек может занять некоторое время, поскольку он содержит сотни тысяч точек.
- Увеличивайте масштаб выбранной вами области до тех пор, пока не увидите отдельные точки.
Каждая точка содержит значение AGBD.
Вы добавили данные GEDI в набор данных траектории и изучили их.
Извлечение релевантных точечных данных AGBD
Только точки GEDI в пределах изучаемой области имеют отношение к вашему рабочему процессу. Теперь вы извлечете точки, расположенные внутри границы AOI, с помощью инструмента Вырезание. Результатом будет слой точечных объектов.
- На панели Геообработка щелкните кнопку Назад.
- В поле поиска Геообработка введите Вырезание. В списке результатов щелкните инструмент Вырезать, чтобы открыть его.
- На панели инструмента Вырезание задайте следующие параметры:
- Для параметра Входные объекты или Набор данных выберите Точка.
- Для Вырезающих объектов выберите слой AOI.
- Для параметра Выходные объекты или набор данных введите в качестве выходного имени AGBD_observations.
- Щелкните Запустить.
Через несколько секунд точечный слой AGBD_observations будет добавлен на карту. Вы изучите его более подробно.
- На панели Содержание отключите слой Gedi, так как в этом рабочем процессе вам больше не понадобится.
- Щелкните правой кнопкой слой AGBD_observations и выберите Приблизить к слою.
Вы можете видеть, что слой AGBD_observations содержит только точки внутри изучаемой области.
- На панели Содержание щелкните правой кнопкой слой AGBD_observations и выберите Таблица атрибутов.
Появится Таблица атрибутов AGBD_observations.
Каждая строка соответствует точке, а поле AGBD содержит значение плотности надземной биомассы для каждой точки (в метрических тоннах на гектар). Всего слой содержит 106 159 точек.
- Закройте таблицу атрибутов AGBD_observations.
Теперь вы примените к этому слою импортированные символы, чтобы отобразить его более наглядно.
- На панели Геообработка щелкните кнопку Назад.
- Найдите инструмент Применить символы слоя и откройте его.
- В инструменте Применить символы слоя для параметра Входной слой выберите AGBD_observations.
- Возле опции Слой символов щёлкните кнопку Обзор. Перейдите к Папки > Estimate_Biomass > InputData и выберите файл слоя AGBD.lyrx.
- Щелкните Запустить.
Карта обновится.
Слой AGBD_observations теперь отображается со следующими символами: точки темно-зеленого цвета обозначают самые высокие, а точки светло-желтого цвета - самые низкие значения AGBD. Этот слой будет использоваться при обучении модели в качестве известных образцов или целей обучения.
- Нажмите Ctrl+S, чтобы сохранить проект.
В этой части рабочего процесса вы создали набор данных траектории и вставили в него переменную AGBD из данных траектории уровня GEDI 4A. После этого вы извлекли соответствующие точки AGBD в виде векторного слоя и настроили его символы.
Подготовка производных независимых переменных
Теперь вы подготовите дополнительные независимые переменные из исходной сцены Landsat 9 и растра ЦМР. В частности, вы создадите семь спектральных индексов, полученных из сцены Landsat 9, и один растр экспозиции склонов, полученный из ЦМР.
Создание спектральных индексов
Спектральный индекс объединяет различные спектральные каналы с помощью математической формулы, обычно вычисляя некоторый тип отношения. В результате получается новое растровое изображение, подчеркивающее определенное явление, например, растительность, воду, городскую застройку или влажность. Эти слои спектральных индексов предоставят дополнительную информацию для учета различных условий растительности, что, в свою очередь, поможет лучше прогнозировать значения AGB.
Примечание:
Подробнее об основных спектральных индексах.
Вы создадите несколько индексов, которые будут служить дополнительными независимыми переменными:
- NDVI – нормализованный относительный индекс растительности
- EVI – расширенный индекс растительности
- PVI – Перпендикулярный индекс растительности
- NBR – Нормализованный индекс гарей
- NDVI – нормализованный относительный индекс растительности
- NDBI – Нормализованный относительный индекс застройки
- MSI – Индекс дефицита влаги
Вы начнете с NDVI, который используется для того, чтобы отличить здоровую растительность от больной и от зон без растительности. Вы воспользуетесь функцией Арифметика канала.
- На панели Содержание выключите слой AGBD_observations.
- На ленте на вкладке Изображения в группе Анализ щелкните кнопку Функции растра.
- На панели Функции растра щелкните в строке поиска и введите Арифметика каналов.
- В списке результатов щелкните функцию растра Арифметика каналов, чтобы открыть ее.
- На панели функции растра Свойствах Арифметики каналов задайте следующие параметры:
- Для параметра Растр выберите Landsat9.
- Для параметра Метод выберите NDVI.
- Для параметра Индексы каналов введите 5 4, соответствующие ближнему инфракрасному и красному каналам, которые необходимы для расчета NDVI.
- Щелкните вкладку Общие, а для Имени введите NDVI.
- Щелкните Создать новый слой.
На карту добавляется новый слой с именем NDVI_Landsat9. Растр на карте содержит расчетные значения NDVI в диапазоне от -1 (отсутствие растительности) до 1 (здоровая растительность).
Затем вы создадите остальные слои спектрального индекса — EVI, NBR, PVI, NDWI и NDBI, выполнив те же действия.
- Повторите шаги с 4 по 7 со следующими настройками каналов:
Имя/Метод Описание (для справки) Индексы каналов Имена каналов EVI
Расширенный индекс растительности
5 4 2
NIR, red, blue
NBR
Нормализованный индекс гарей (используется для нахождения следов гарей)
5 7
NIR, SWIR 2
PVI
Перпендикулярный индекс растительности
5 4 0.3 0.5
NIR, красный (значения уклона и градиента)
NDWI
Нормализованный относительный водный индекс
5 3
NIR, зеленый
NDBI
Нормализованный относительный индекс застройки
6 5
SWIR 1, NIR
Для MSI (индекса дефицита влаги) функция растра Арифметика каналов не содержит опции MSI в разделе Метод. Вместо этого вы будете использовать опцию Определено пользователем для его расчета, явно задавая математическую формулу: B6 / B5, где каналы обозначаются B + [номер канала]. Итак, эта формула означает, что значение в канале SWIR 1 должно быть разделено на значение в канале NIR.
- Повторите шаги с 4 по 7, чтобы создать слой MSI, задав следующие параметры:
- Для параметра Растр выберите Landsat9.
- Для параметра Метод выберите Определен пользователем.
- В поле Индексы каналов введите B6 / B5.
- В разделе Общие, в поле Имя введите MSI.
В конце этого процесса все семь слоев индексов должны быть добавлены на карту и перечислены на панели Содержание.
Получение слоя экспозиции склонов из ЦМР
Теперь вы получите слой экспозиции склонов из слоя ЦМР, используя растровую функцию Aspect. Экспозиция - это направление, в которое обращен каждый склон (север, юг, восток, запад). Она важна в качестве независимой переменной, поскольку солнечное освещение будет меняться в зависимости от экспозиции, и это будет влиять на рост растительности.
- На панели Функции растра найдите и откройте функцию растра Экспозиция.
- На панели функции растра Экспозиция для параметра Растр выберите слой ЦМР.
- Щелкните Создать новый слой.
Новый слой с именем Aspect_DEM добавлен на карту.
В следующем разделе вы будете использовать все созданные вами слои независимых переменных в качестве входных данных для модели машинного обучения. Однако вам не нужно будет видеть их на карте, поэтому вы их отключите.
- На панели Содержание отключите все семь слоев спектральных индексов, а также слои ЦМР и Aspect_DEM.
- Нажмите Ctrl+S, чтобы сохранить проект.
В этой части рабочего процесса вы подготовили семь слоев, полученных из сцены Landsat, и один слой экспозиции склонов, полученный из ЦМР. Эти слои будут использоваться в качестве независимых переменных наряду со сценой Landsat и ЦМР при обучении модели регрессии.
Обучение регрессионной модели и прогнозирование плотности биомассы
Вы подготовили данные целевой выборки и независимые переменные. Теперь вы будете использовать все эти данные в качестве входных для обучения своей регрессионной модели и фиксации взаимосвязей между известными значениями AGBD и независимыми переменными. Затем вы проверите скорость работы своей модели, приступите к очистке данных и заново обучите свою модель для достижения более высокой производительности. Затем вы будете использовать полученную модель для прогнозирования значений AGBD по всей изучаемой области. И, наконец, вы просуммируете результаты, чтобы получить средний показатель AGBD по округам изучаемой области.
Регрессионная модель произвольных деревьев с обучением
Сначала вы обучите модель для прогнозирования биомассы с помощью инструмента Регрессионная модель произвольных деревьев с обучением. Регрессия произвольного леса — это подход машинного обучения, который основан на построении множества деревьев решений во время обучения.
- На панели Геообработка, если необходимо, щелкните кнопку Назад.
Примечание:
Если вы закрыли вкладку Геообработка, вы можете открыть ее снова, перейдя на ленту, на вкладку Анализ в группе Геообработка и нажав Инструменты.
- Найдите и откройте инструмент Регрессионная модель произвольных деревьев с обучением.
Вы зададите входные данные независимых переменных.
- На панели инструмента Регрессионная модель произвольных деревьев с обучением для параметра Входные растры добавьте Landsat9, DEM и все восемь слоев независимых переменных.
Внимание:
Вы должны использовать тот же порядок для этих слоев в инструменте Регрессионная модель произвольных деревьев с обучением, а затем в инструменте Прогнозировать, используя регрессионную модель.
Затем вы укажете на целевой данных выборки AGDB.
- Для параметра Целевой растр или точки выберите AGBD_observations.
- Для Поля целевого значения выберите AGBD.
Итоговой выходной моделью будет файл .ecd. Вы выберете для нее имя.
- Для параметра Выходной файл определения регрессии нажмите кнопку Обзор.
- В окне Выходной файл определения регрессии выберите Папки > Estimate_Biomass, а для параметра Имя введите Biomass_model.ecd и щелкните Сохранить.
Выходные данные также будут включать некоторые дополнительные вспомогательные файлы, которые вы можете использовать, чтобы понять точность модели. Вы зададите им имена.
- На панели инструмента Регрессионная модель произвольных деревьев с обучением разверните Дополнительные выходные данные.
- Для параметра Выходная таблица значимости щелкните кнопку Обзор, выберите Папки > Estimate_Biomass, а для параметра Имя введите Importance.csv.
- Для параметра Выходные точечные диаграммы нажмите кнопку Обзор, выберите Папки > Estimate_Biomass и в поле Имя введите Biomass_scatterplots.pdf.
Наконец, вы настроите параметры опций обучения.
- Разверните Опции обучения.
- Для параметра Процент образцов для тестирования введите 5 и согласитесь с остальными значениями по умолчанию.
Примечание:
Значение 5 процентов (вместо 10 по умолчанию) гарантирует, что для тестирования будет выделено меньше данных, и для обучения останется больше данных.
- Щелкните Запустить.
Через пару минут обучение модели завершится.
Обзор производительности модели
Чтобы понять скорость работы модели, вы изучите выходные данные инструмента Регрессионная модель произвольных деревьев с обучением. Рабочие процессы машинного обучения всегда итеративные. Вы должны понять, работает ли модель оптимально или очистка некоторых входных данных может еще улучшить ее производительность. В последнем случае вам потребуется переобучить модель, используя очищенные данные.
Сначала вы посмотрите на содержимое таблицы Importance.csv, в которой показано, какой вклад каждая независимая переменная внесла в прогнозирование целевых значений выборки в большей или меньшей степени. Вы создадите диаграмму, суммирующую эту информацию.
- На панели Содержание в разделе Автономные таблицы щелкните правой кнопкой слой таблицы Importance.csv, нажмите Создать диаграмму и выберите Линейчатая диаграмма.
Появятся панель диаграммы Importance.csv и панель Свойства диаграммы.
- В панели Свойства диаграммы задайте следующие параметры:
- В поле Категория или Дата выберите Explanatory_Variables.
- Для Агрегирования выберите <нет>.
- В разделе Числовые поля щелкните Выбрать, отметьте поле Важность и щелкните Применить.
На панели диаграммы Importance.cvs появится диаграмма Важность по Explanatory_Variable.
Вы можете заметить, что спектральные каналы Landsat, особенно SWIR 1 (Landsat9_6) и ближний инфракрасный диапазон (Landsat9_5), играют важную роль в объяснении (или прогнозировании) значений биомассы. Кроме того, существенный вклад вносят несколько индексов каналов, особенно MSI_Landsat9, PVI_Landsat9 и NDBI_Landsat9. С другой стороны, слои DEM и Aspect_DEM вносят наименьший вклад, что является важным, поскольку эта изучаемая область в основном представляет собой равнинную местность. Однако в других экстентах - с большим разбросом высот - значимость высотных данных может быть выше. Теперь вы просмотрите документ точечных диаграмм.
Примечание:
Алгоритм Произвольные деревья не является детерминированным, поэтому полученные результаты могут незначительно отличаться.
- Закройте панель диаграммы Importance.cvs.
- В File Explorer перейдите к папке Estimate_Biomass и дважды щелкните файл Biomass_scatterplot.pdf, чтобы открыть его.
В PDF-файле первая диаграмма рассеяния показывает для каждой точки выборки, используемой при обучении:
- Исходное известное значение (ось x).
- Прогнозируемое после завершения обучения значение (ось y).
Значение R2 в диапазоне от 0 до 1 служит индикатором производительности модели. Значение R2, равное 0,834, для эффективности обучения является приемлемым. Хотя большинство значений не превышает 1000, вы можете наблюдать отдельные чрезвычайно высокие значения, разбросанные от несколько меньших 1000 до превышающих 4000.
Вы думаете, что эти точки могут быть ошибочными выбросами, ухудшающими эффективность обучения модели. Чтобы определить, следует ли вам сохранить эти точки-экстремумы или удалить их из обучающих данных, вы изучите их на карте. Сначала вы посмотрите на гистограмму слоя AGBD_observations, чтобы выбрать более точный порог для точек выбросов.
- Закройте PDF и переключитесь обратно на ArcGIS Pro.
- На панели Содержание щелкните правой кнопкой слой AGBD_observations и выберите Таблица атрибутов.
- В таблице атрибутов щелкните правой кнопкой поле AGBD и выберите Визуализировать статистику.
Статистика для поля AGBD отображается на гистограмме под названием Распределение AGBD.
Гистограмма показывает распределение точечных объектов AGBD_observations по всем возможным значениям AGBD. Вы можете видеть, что значения большинства точек AGBD меньше 700, и только у нескольких точек значения превышают 1000. Вы выберете 1000 в качестве порога для определения точек выбросов.
Теперь вы измените отображение на карте, чтобы упростить изучение точек с высокими значения.
- На панели Содержание перетащите слой Landsat9 так, чтобы он расположился непосредственно над слоем Aspect_DEM, и включите слои AGBD_observations и Landsat9.
- Щелкните правой кнопкой слой AGBD_observations и выберите Символы.
- На панели Символы для параметра Основные символы выберите Единый символ.
Примечание:
Цвет символа может быть другим.
Эти символы облегчат просмотр выбранных вами точек на карте.
Подсказка:
Вы можете уменьшить размер панели диаграммы, чтобы увеличить размер карты.
Теперь вы выберете точки AGBD с высокими значениями.
- Убедитесь, что на панели Содержание выбран слой AGBD_observations.
- На вкладке Карта ленты, в группе Выборка, нажмите Выбрать по атрибуту.
- В окне Выбрать по атрибутам в разделе Выражение сформируйте выражение Где AGBD больше 1000.
- Нажмите OK.
Выбрано около 40 точек; они отображаются на карте голубым цветом.
Теперь вы отдельно изучите некоторые из этих точек.
- Нажмите вкладку AGBD_observations щелкните кнопку Показать выбранные записи внизу панели.
Только выбранные объекты перечислены в таблице.
- Дважды щелкните заголовок строки первого объекта.
На карте точка будет выделена желтым цветом.
- Увеличивайте масштаб, пока не увидите детали изображения внизу.
Точка попадает на некое не очень густое травяное поле, значение которого не должно превышать 1000. Соответственно, вы можете видеть, что соседние точки не показываются голубым, поскольку они не были выбраны. Это значит, что их значение AGBD менее 1000 и не является аномально высоким.
- В таблице атрибутов дважды щелкните заголовок строки третьего объекта.
Эта точка также попадает на какой-то тип травяного поля, значение которого не должно превышать 1000. Вы можете видеть, что эти точки с высокими значениями являются выбросами, которые являются ошибочными. Вы их удалите.
Очистка наблюдений AGBD и переобучение модели
Теперь вы удалите точки с высокими значениями. Вы также удалите точки со значением null, поскольку они бесполезны для обучения. Затем вы переобучите модель.
- На панели Содержание щелкните правой кнопкой AGBD_observations и выберите Приблизить к слою.
- На вкладке Карта ленты щелкните кнопку Выбрать по атрибуту.
В окне Выбрать по атрибутам первое выражение Где AGBD больше 1000 по-прежнему присутствует. Вы добавите второе выражение, чтобы выбрать объекты со значением null.
- В окне Выбрать по атрибуту щелкните кнопку Добавить условие.
- В качестве нового выражения сформируйте выражение Или AGBD is null и нажмите OK.
В таблице атрибутов AGBD_observations теперь выбрано более 20000 точек между аномально высокими значениями и значениями null.
- На панели инструментов Таблица атрибутов щелкните кнопку Удалить выборку.
- Когда вам будет предложено подтвердить намерение удалить данные, щелкните Да.
Вы сохраните эти изменения.
- На ленте, на вкладке Редактирование в группе Управление изменениями щелкните Сохранить.
Выбранные точки будут удалены из класса объектов AGBD_observations. Затем вы повторно запустите инструмент обучения с обновленными данными, чтобы получить более быстро работающую модель.
- На ленте на вкладке Анализ в группе Геообработка щелкните История.
Появится панель История, где содержится история всех инструментов, которые вы запускали в этом проекте.
- На панели История дважды щелкните Элемент Регрессионная модель произвольных деревьев с обучением.
Появится инструмент Регрессионная модель произвольных деревьев с обучением со всеми значениями параметров, которые вы использовали изначально.
Вы переименуете выходные данные, чтобы они не перезаписывали ранее полученные результаты.
- Для параметра Выходной файл определения регрессии переименуйте Biomass_model.ecd в Biomass_model2.ecd.
- Раскройте Дополнительные выходные данные, переименуйте Importance.csv в Importance2.csv и Biomass_scatterplots.pdf в Biomass_scatterplots2.pdf.
- Щелкните Запустить.
Через пару минут переобучение модели завершится.
- В File Explorer перейдите к папке Estimate_Biomass и дважды щелкните файл Biomass_scatterplots2.pdf, чтобы открыть его.
В PDF-файле на первой диаграмме рассеяния вы можете видеть, что производительность модели улучшилась до R2 = 0,888 (по сравнению с R2 = 0,834 ранее). Вы также можете заметить, что все значения на диаграмме теперь меньше 1000.
Вы также получили лучшие результаты на второй и третьей диаграммах рассеяния, найденных в PDF-файле, которые показывают производительность модели в тестовых точках.
- Закройте PDF и переключитесь обратно на ArcGIS Pro.
Создание прогноза биомассы
Теперь вы будете использовать модель для прогнозирования биомассы для всей изучаемой области. Вы сделаете это с помощью инструмента Прогнозировать, используя регрессионную модель. Входными данными будут те же независимые переменные, которые вы использовали для обучения модели (семиканальная сцена Landsat, слой DEM, слои спектрального индекса и слой экспозиции склонов).
- На панели Геообработка щелкните кнопку Назад.
- Найдите и откройте инструмента Прогнозировать, используя регрессионную модель.
- На панели инструментов Прогнозировать, используя регрессионную модель для параметра Входные растры добавьте Landsat9, DEM и все восемь производных слоев в том же порядке, что и раньше.
Внимание:
Важно, чтобы вы использовали тот же порядок для этих слоев в инструменте Прогнозировать, используя регрессионную модель, что и ранее в инструменте Регрессионная модель произвольных деревьев с обучением.
Теперь вы укажете обученную модель.
- Для параметра Входной файл определения регрессии щелкните кнопку Обзор, выберите Папки > Estimate_Biomass, щелкните Biomass_model2.ecd и нажмите OK.
Наконец, вы дадите имя выходным данным.
- Для параметра Выходной прогнозируемый растр введите Biomass_prediction.crf.
- Щелкните Запустить.
Через некоторое время полученный слой добавится к слою. Вы измените цветовую схему.
- На панели Содержание щелкните правой кнопкой символ Biomass_prediction.crf.
- В ниспадающем списке цветовых схем поставьте отметку Показать названия и щелкните цветовую схему Сине-зеленый (плавный переход).
- Выключите слои AGBD_observations и Landsat9.
- Выключите все полученные слои (спектральных индексов и экспозиции склонов).
- Изучите слой Biomass_prediction.crf на карте.
Темно-зеленые тона соответствуют областям с максимальной плотностью биомассы, а светлые или белые - с низкой плотностью или отсутствием биомассы.
Суммирование плотности биомассы по округам
Наконец, вы рассчитаете плотность биомассы по округам. Вы будете использовать полигональный слой Counties и инструмент Зональная статистика в таблицу, чтобы найти среднюю плотность биомассы по округу, и создадите диаграмму, чтобы получить обзор полученных результатов.
- На панели Содержание включите слой Counties.
Границы округов появятся на карте.
- На панели Геообработка щелкните кнопку Назад.
- Найдите и откройте инструмент Зональная статистика в таблицу.
- На панели инструмента Зональная статистика в таблицу задайте следующие параметры.
- Для параметра Входные векторные или растровые данные зон выберите CountiesCounties.
- Для параметра Поле зоны убедитесь, что выбрано Name.
- Для параметра Входной растр значений выберите Biomass_prediction.crf.
- В опции Выходная таблица введите Average_biomass_by_county.
- Для Тип статистики выберите Среднее.
- Примите остальные значения по умолчанию и щелкните Запустить.
Таблица Average_biomass_by_county добавится на панель Содержание.
- На панели Содержание в разделе Автономные таблицы щелкните правой кнопкой таблицу Average_biomass_by_county, нажмите Создать диаграмму и выберите Линейчатая диаграмма.
- На панели Свойства диаграммы на вкладке Данные установите следующие параметры:
- Для параметра Категория или дата выберите NAME.
- Для Агрегирования выберите <нет>.
- В разделе Числовые поля щелкните Выбрать, отметьте поле MEAN и щелкните Применить.
- Для Сортировки выберите Ось Y по убыванию.
- Щелкните панель Общие и задайте следующие параметры:
- Для Заголовка диаграммы введите Средняя биомасса по округам.
- Для Заголовка по оси X введите Округа.
- Для Заголовка по оси Y введите Плотность биомассы (в метрических тоннах на гектар).
- На панели диаграммы Average_biomass_by_county просмотрите диаграмму Средняя биомасса по округам.
На диаграмме видно, что в некоторых округах, таких как Телфэр, Хьюстон, Мейкон и Бен-Хилл, средняя плотность биомассы выше. Согласно отчету Управления энергетической информации США, почти половина домохозяйств Джорджии используют биомассу в качестве топлива, и 80 процентов из них живут в сельской местности. Оценка состояния биомассы в этих сельских округах поможет правительству разработать практическую политику снижения потребления биомассы, защиты лесов и сохранения биоразнообразия.
Примечание:
Вы также можете присоединить таблицу Biomass_by_county к слою Counties, чтобы создать тематическую карту, показывающую среднюю биомассу по округам. Для этого на панели Содержание щелкните правой кнопкой Counties, выберите Соединения и связи и укажите Добавить соединение.
- Нажмите Ctrl+S, чтобы сохранить проект.
В этом руководстве после настройки проекта и изучения данных вы подготовили набор данных траекторий, содержащий данные GEDI, и извлекли соответствующие точечные данные AGBD для изучаемой области. Вы применили функции растра для подготовки независимых переменных. После этого вы обучили модель для прогнозирования плотности биомассы. Вы проверите скорость работы модели, приступили к очистке данных и заново обучили модель для достижения ее более высокой производительности. Вы использовали эту более эффективную модель для прогнозирования плотности биомассы во всей изучаемой области. И, наконец, вы просуммировали результаты, получив средний показатель плотности биомассы по округам изучаемой области.
Для краткости этого рабочего процесса вы работали с относительно небольшой изучаемой областью. Чтобы применить аналогичный рабочий процесс к большим областям, которые занимают несколько сцен Landsat и включают изображения, содержащие облака или тени, рекомендуется сначала решить проблему удаления облаков и теней, а затем - скомпоновать эти изображения в набор данных мозаики. См. Рабочий процесс Python и рабочий процесс без написания кода для создания составного изображения без облаков на основе спутниковых снимков. Кроме того, учитывая, что данные, используемые в этом руководстве, также доступны на таких облачных платформах, как AWS или Microsoft Planetary Computer, вы можете использовать возможности прямого доступа к данным и облачных вычислений с помощью ArcGIS Pro. Дополнительную информацию см. в статье Облачное картографирование надземной биомассы с использованием данных Landsat и GEDI.
Вы можете найти больше учебных пособий в галерее учебных пособий.