Настройка проекта и проверка данных

Вы выполните настройку проекта ArcGIS Pro и проверку входных данных. Но сначала вы изучите некоторые основы рабочего процесса машинного обучения, который вы будете использовать в этом руководстве.

О рабочем процессе машинного обучения

Фундаментальная концепция машинного обучения заключается в том, чтобы позволить компьютерам учиться на данных выборки и применять полученные знания к неизвестным данным. Один из способов сделать это — обучить регрессионную модель и использовать ее для прогнозирования новых результатов. Именно этот подход вы примените в этом руководстве.

Вы хотите спрогнозировать надземную биомассу (AGB) в нескольких округах Джорджии. Вам потребуются следующие данные:

  • Данные целевой выборки - это будет набор известных значений AGB для местоположений выборки. Вы будете использовать данные точек, извлеченные из набора данных траектории спутникового лидара GEDI, как показано на следующем изображении.

    Точечные данные, извлеченные из набора данных траектории спутникового лидара GEDI

  • Независимые переменные - это будут данные, которые могут объяснить значения выборки AGB, а затем помочь спрогнозировать значения AGB для новых областей. Вы будете использовать мультиспектральные спутниковые изображения Landsat 9, данные цифровой модели рельефа (DEM) и дополнительные производные растровые слои. На следующих примерах изображений показаны снимки Landsat (слева) и растровые данные ЦМР (справа).

    Сцена Landsat 9 и растр ЦМР

Мультиспектральные спутниковые снимки Landsat 9 были выбраны в качестве независимой переменной, поскольку спектральные характеристики сенсора позволяют воспринимать растительность, которая напрямую связана с биомассой. Цифровая модель рельефа (DEM) отражает топологическую изменчивость и сложность рельефа, также являющиеся факторами, влияющими на рост растительности.

Вы обучите модель, используя данные целевой выборки и независимые переменные в качестве входных данных. Во время обучения модель будет фиксировать взаимосвязи между значениями выборки и независимыми переменными. Как только вы будете удовлетворены моделью, вы сможете использовать ее для прогнозирования значений AGB во всем экстенте округов Джорджии. Эти выходные данные будут растровыми, как показано на следующем изображении, где более высокие значения AGB отображаются темно-зеленым цветом, а более низкие — белым или светло-зеленым.

Растр прогнозируемых значений AGB

Загрузка и открытие проекта

Для начала вы загрузите проект, содержащий все данные для этого руководства, и откроете его в ArcGIS Pro.

  1. Загрузите файл Estimate_Biomass.zip и найдите загруженный файл на своем компьютере.
    Примечание:

    Большинство веб-браузеров по умолчанию скачивают все в папку Загрузки.

    Размер файла .zip составляет 2.9 Гб. Загрузка может занять несколько минут.

  2. Щелкните правой кнопкой файл Estimate_Biomass.zip и разархивируйте его на свой компьютер, например, на диск C.
  3. Откройте извлеченную папку Estimate_Biomass и дважды щелкните файл Estimate_Biomass.aprx, чтобы открыть проект в ArcGIS Pro.

    Estimate_Biomass.aprx

  4. Если необходимо, войдите под учетной записью организации ArcGIS.
    Примечание:

    Если у вас нет доступа к ArcGIS Pro или учетной записи организации ArcGIS, см. варианты доступа к программному обеспечению.

    Откроется проект.

    Исходный вид проекта

    На карте границы изучаемой области отображаются в виде полигона с оранжевым контуром. Эта территория содержит 20 округов Джорджии.

Проверка входных данных

Теперь вы изучите остальные входные данные проекта. Сначала вы добавите на карту снимок Landsat.

  1. Щелкните вкладку Вид на ленте. В группе Окна щелкните Панель Каталог.

    Кнопка Панель каталог

  2. На панели Каталог разверните Папки, Estimate_Biomass и InputData.

    Раскрыты Папки, Estimate_Biomass и InputData

  3. В разделе InputData раскройте LC09_L2SP_018038_20221004_20230327_02_T1.

    Это сцена спутникового изображения Landsat 9, которая содержит семь спектральных каналов со значениями отражающей способности поверхности:

    • Канал 1 — Побережья и аэрозоли
    • Канал 2 — Синий
    • Канал 3 — Зеленый
    • Канал 4 — Красный
    • Канал 5 — Ближний инфракрасный (NIR)
    • Канал 6 — Коротковолновый инфракрасный порт (SWIR) 1
    • Канал 7 — Коротковолновый инфракрасный (SWIR) 2

    Семь спектральных каналов Landsat 9

    Примечание:

    С помощью перетаскивания можно увеличить ширину панели, чтобы лучше видеть более длинные имена файлов.

    Увеличение ширины панели

    Эти каналы будут использоваться в качестве независимых переменных. Теперь вы добавите на карту сцену Landsat.

  4. Щёлкните правой кнопкой LC09_L2SP_018038_20221004_20230327_02_T1_MTL.txt и выберите Добавить к текущей карте.

    Опция меню Добавить к текущей карте

  5. Если появится запрос о вычислении статистики, щелкните Да.

    Через несколько секунд на карте появится изображение. Вы дадите ему более короткое имя.

  6. На панели Содержание щелкните слой Surface Reflectance_LC09_L2SP_018038_20221004_20230327_02_T1_MTL, чтобы выбрать его, и щелкните его еще раз, чтобы переключиться в режим редактирования. Измените имя на Landsat9 и нажмите Enter.

    Слой Landsat9 переименован

    Вы измените отображение снимков на естественные цвета - комбинацию красного, зеленого и синего каналов, чтобы цвета были близки к тем, которые обычно видит человеческий глаз.

  7. На панели Содержание убедитесь, что выбран слой Landsat9.
  8. На ленте во вкладке Растровый слой в группе Отображение щелкните кнопку Символы.

    Кнопка Символы

  9. На панели Символы установите следующие значения параметров:
    • Для параметра Основные символы должно быть выбрано RGB.
    • Для Красного выберите SRB4
    • Для Зеленого установите SRB3
    • Для Синего выберите SRB2

    Параметры Основных символов

    Отображение снимков обновится на естественные цвета.

    Отображение естественных цветов

  10. Закройте панель Символы.

    Кнопка закрытия панели Символы

    Затем вы добавите на карту цифровую модель рельефа (ЦМР).

  11. На панели Каталог в папке InputData сверните LC09_L2SP_018038_20221004_20230327_02_T1.

    Папка LC09_L2SP_018038_20221004_20230327_02_T1 свернута

  12. Щелкните правой кнопкой DEM.tif и выберите Добавить к текущей карте.

    Опция меню Добавить к текущей карте

  13. В панели Содержание переименуйте DEM.tif в ЦМР.

    Слой DEM.tif переименован

  14. Изучите слой ЦМР на карте.

    ЦМР содержит высотные данных. Более светлые тона показывают области с большей высотой, а более темные — с меньшей высотой.

    Слой ЦМР на карте

    Этот слой также будет использоваться в качестве независимой переменной. После этого вы изучите данные GEDI.

  15. На панели Каталог в разделе InputData раскройте папку GEDI_L4A.

    Папка GEDI_L4A развернута.

    Эта папка содержит восемь файлов GEDI, которые будут использоваться в качестве образцов с известными значениями AGB, то есть целей обучения. Обратите внимание, что это файлы траектории HDF5: это не растровые файлы, а данные траектории. Позже в рабочем процессе вы узнаете, как обрабатывать эти данные и отображать их на карте.

    На панели Содержание есть еще два слоя данных. Вы уже видели слой AOI, который оконтуривает всю изучаемую область. Есть также слой Counties, который задает границы округов. Вы включите его.

  16. На панели Содержание щелкните стрелку рядом со слоем Counties, чтобы отобразить его легенду, и поставьте отметку рядом со слоем Counties, чтобы включить его.

    Слой Counties включен

  17. Просмотрите слои AOI и Counties (оранжевый и ярко-фиолетовый цвета) на карте.

    Слои AOI и Counties на карте.

    Эти два слоя вы будете использовать позже при выполнении анализа.

  18. Поставьте отметки рядом со слоями Counties, ЦМР и Landsat9, чтобы отключить слои, поскольку для следующих шагов рабочего процесса они вам не понадобятся.

    Слои Counties, ЦМР и Landsat9 выключены

  19. На панели Инструменты быстрого доступа щелкните Сохранить, чтобы сохранить проект.

    Кнопка Сохранить

В этой части рабочего процесса после обзора рабочего процесса машинного обучения вы настроили проект ArcGIS Pro. После чего вы изучили входные данные: семиканальную сцену Landsat 9, растр ЦМР, данные GEDI и несколько слоев границ.


Обработка и извлечение данных GEDI

AGB представляет собой живую растительность над землей, измеряемую массой на единицу - обычно это мегаграмм (то есть метрическая тонна) на гектар. Физическое измерение AGB на земле для большой изучаемой области является трудоемким и практически невозможным. Оценка AGB с использованием данных дистанционного зондирования является хорошим альтернативным решением.

GEDI — это спутниковый лидар NASA, который измеряет трехмерную структуру поверхности Земли. Сюда входит высота леса и его вертикальная структура, то есть наложенные друг на друга слои деревьев и кустарников, которые вместе могут формировать большую или меньшую биомассу. GEDI фиксирует точки выборки вдоль трека сенсора. На основе этих измерений можно получить плотность надземной биомассы (AGBD), и продукт GEDI L4A содержит эти производные значения точек AGBD. На следующем примере изображения показаны треки GEDI, на которых были записаны образцы данных AGBD, поскольку они пересекаются в изучаемой области этого руководства.

Пример треков GEDI

Такие данные представляют собой файлы HDF5 со структурой траекторий и могут быть перенесены в ArcGIS в виде набора данных траектории, модели данных базы геоданных, предназначенной для управления коллекцией файлов траектории. Теперь вы создадите набор данных траектории, добавите в него предоставленные данные GEDI и извлечете соответствующие точечные данные AGBD, которые будут использоваться в качестве обучающих выборок позже в рабочем процессе.

Создание набора данных траектории

Сначала вы создадите пустой набор данных траектории в базе геоданных проекта.

  1. На панели Каталог раскройте папку Базы данных.
  2. Щелкните Estimate_Biomass.gdb правой кнопкой, щелкните Новый и выберите Набор данных траектории.

    Опция меню Набор данных траектории

    На панели Геообработка появится инструмент Создать набор данных траектории.

  3. Для параметра Имя набора данных траектории введите Gedi.

    Параметр Имя набора данных траектории

  4. Примите остальные значения по умолчанию и щелкните Запустить.

    Набор данных траектории появится на панели Содержание. Он содержит подслои Контур и Точка.

    Набор данных траектории на панели Содержание

    Этот набор данных в настоящее время пустой и будет выступать в качестве контейнера для данных GEDI.

Добавление данных GEDI в набор данных траектории

Теперь вы добавите данные GEDI, предоставленные для этого рабочего процесса, в только что созданный пустой набор данных траектории.

  1. Переключитесь обратно на панель Каталог.

    Панель Каталог

  2. На панели Каталог разверните базу геоданных Estimate_Biomass.gdb, щелкните правой кнопкой Gedi и выберите Добавить траектории.

    Опция меню Добавить траектории

    Сначала вы настроите тип и свойства набора данных траектории.

  3. На панели Добавить данные в набор данных траектории для параметра Тип траектории выберите GEDI.
  4. В разделе Тип траектории щелкните кнопку Свойства.

    Кнопка Свойства

  5. В окне Свойства типа траектории нажмите на вкладку Траектория.

    Предоставленные данные GEDI относятся к типу L4A, поэтому вы установите свойства соответствующим образом.

  6. В разделе Фильтр продукта выберите GEDIL4A.

    Значение GEDIL4A для Фильтра продукта

  7. В разделе Траектории по поверхности поставьте отметку Имя, чтобы выбрать все треки.

    Отметка Имя

    Данные GEDI собираются в виде восьми отдельных лучей, и вы хотите включить их все.

  8. В разделе Предопределенные переменные поставьте отметку для переменной Плотность надземной биомассы.

    Переменная Плотность надземной биомассы

    Это единственная переменная, которая вас интересует в этом наборе данных.

  9. Щелкните OK, чтобы сохранить свойства.
  10. На панели инструмента Добавить данные в набор данных траектории в разделе Входные данные выберите Папка и щелкните кнопку Обзор.

    Параметр Входные данные

  11. В окне Входные данные раскройте Папки, Estimate_Biomass и InputData, щелкните GEDI_L4A и нажмите ОК.

    Окно Входные данные

  12. На панели инструмента Добавить данные в набор данных траекторий согласитесь со всеми значениями по умолчанию и щелкните Запустить.

    Параметры инструмента Добавить данные в набор данных траекторий

    Через несколько секунд данные GEDI добавляются в набор данных траектории и появляются на карте. Вы уменьшите масштаб, чтобы увидеть весь набор данных.

  13. На панели Содержание щелкните правой кнопкой слой Gedi и выберите Приблизить к слою.

    Опция меню Приблизить к слою

    Зеленые полигоны, пересекающие Северную Америку, представляют собой следы траекторий сенсора GEDI. Эти конкретные траектории были выбраны потому, что они пересекают изучаемую область.

    Траектории GEDI на карте

  14. В панели Содержание щелкните правой кнопкой слой Контур и выберите Таблица атрибутов.

    Опция меню Таблица атрибутов

    Появится таблица атрибутов Контур.

    Таблица атрибутов Контур

    Каждая строка соответствует одной траектории и содержит информацию о ней. Например, поле Количество определяет число точек в каждой траектории.

  15. Закройте таблицу Контур.

    Кнопка закрытия таблицы атрибутов Контур

    Теперь вы посмотрите на отдельные точки, содержащиеся в траекториях.

  16. На панели Содержание включите слой AOI. Щелкните правой кнопкой слой AOI и выберите Приблизить к слою.

    Слой Контур траектории Gedi на карте

    Подсказка:

    Если слой траектории Gedi не отображается на карте, немного уменьшите масштаб.

  17. Выключите слой Контур и включите подслой Точка.

    Подслой Точка включен

    Отображение слоя точек может занять некоторое время, поскольку он содержит сотни тысяч точек.

    Точечный слой траектории Gedi на карте

  18. Увеличивайте масштаб выбранной вами области до тех пор, пока не увидите отдельные точки.

    Приближен слой Точка траектории Gedi

    Каждая точка содержит значение AGBD.

Вы добавили данные GEDI в набор данных траектории и изучили их.

Извлечение релевантных точечных данных AGBD

Только точки GEDI в пределах изучаемой области имеют отношение к вашему рабочему процессу. Теперь вы извлечете точки, расположенные внутри границы AOI, с помощью инструмента Вырезание. Результатом будет слой точечных объектов.

  1. На панели Геообработка щелкните кнопку Назад.

    Кнопка Назад

  2. В поле поиска Геообработка введите Вырезание. В списке результатов щелкните инструмент Вырезать, чтобы открыть его.

    Поиск инструмента Вырезание

  3. На панели инструмента Вырезание задайте следующие параметры:
    • Для параметра Входные объекты или Набор данных выберите Точка.
    • Для Вырезающих объектов выберите слой AOI.
    • Для параметра Выходные объекты или набор данных введите в качестве выходного имени AGBD_observations.

    Параметры инструмента Вырезание

  4. Щелкните Запустить.

    Через несколько секунд точечный слой AGBD_observations будет добавлен на карту. Вы изучите его более подробно.

  5. На панели Содержание отключите слой Gedi, так как в этом рабочем процессе вам больше не понадобится.

    Слой Gedi отключен

  6. Щелкните правой кнопкой слой AGBD_observations и выберите Приблизить к слою.

    Опции меню Приблизить к слою

    Вы можете видеть, что слой AGBD_observations содержит только точки внутри изучаемой области.

    Слой AGBD_observationsна карте

  7. На панели Содержание щелкните правой кнопкой слой AGBD_observations и выберите Таблица атрибутов.

    Появится Таблица атрибутов AGBD_observations.

    Каждая строка соответствует точке, а поле AGBD содержит значение плотности надземной биомассы для каждой точки (в метрических тоннах на гектар). Всего слой содержит 106 159 точек.

    Поле AGBD

  8. Закройте таблицу атрибутов AGBD_observations.

    Теперь вы примените к этому слою импортированные символы, чтобы отобразить его более наглядно.

  9. На панели Геообработка щелкните кнопку Назад.
  10. Найдите инструмент Применить символы слоя и откройте его.

    Поиск инструмента Применить символы слоя

  11. В инструменте Применить символы слоя для параметра Входной слой выберите AGBD_observations.
  12. Возле опции Слой символов щёлкните кнопку Обзор. Перейдите к Папки > Estimate_Biomass > InputData и выберите файл слоя AGBD.lyrx.

    Параметры инструмента Применить символы слоя

  13. Щелкните Запустить.

    Карта обновится.

    Слой AGBD_observations с новыми символами.

    Слой AGBD_observations теперь отображается со следующими символами: точки темно-зеленого цвета обозначают самые высокие, а точки светло-желтого цвета - самые низкие значения AGBD. Этот слой будет использоваться при обучении модели в качестве известных образцов или целей обучения.

  14. Нажмите Ctrl+S, чтобы сохранить проект.

В этой части рабочего процесса вы создали набор данных траектории и вставили в него переменную AGBD из данных траектории уровня GEDI 4A. После этого вы извлекли соответствующие точки AGBD в виде векторного слоя и настроили его символы.


Подготовка производных независимых переменных

Теперь вы подготовите дополнительные независимые переменные из исходной сцены Landsat 9 и растра ЦМР. В частности, вы создадите семь спектральных индексов, полученных из сцены Landsat 9, и один растр экспозиции склонов, полученный из ЦМР.

Создание спектральных индексов

Спектральный индекс объединяет различные спектральные каналы с помощью математической формулы, обычно вычисляя некоторый тип отношения. В результате получается новое растровое изображение, подчеркивающее определенное явление, например, растительность, воду, городскую застройку или влажность. Эти слои спектральных индексов предоставят дополнительную информацию для учета различных условий растительности, что, в свою очередь, поможет лучше прогнозировать значения AGB.

Примечание:

Подробнее об основных спектральных индексах.

Вы создадите несколько индексов, которые будут служить дополнительными независимыми переменными:

  • NDVI – нормализованный относительный индекс растительности
  • EVI – расширенный индекс растительности
  • PVI – Перпендикулярный индекс растительности
  • NBR – Нормализованный индекс гарей
  • NDVI – нормализованный относительный индекс растительности
  • NDBI – Нормализованный относительный индекс застройки
  • MSI – Индекс дефицита влаги

Вы начнете с NDVI, который используется для того, чтобы отличить здоровую растительность от больной и от зон без растительности. Вы воспользуетесь функцией Арифметика канала.

  1. На панели Содержание выключите слой AGBD_observations.

    Слой AGBD_observations выключен

  2. На ленте на вкладке Изображения в группе Анализ щелкните кнопку Функции растра.

    Кнопка Функции растра

  3. На панели Функции растра щелкните в строке поиска и введите Арифметика каналов.

    Поиск Арифметика каналов

  4. В списке результатов щелкните функцию растра Арифметика каналов, чтобы открыть ее.

    Кнопка функции растра Арифметика канала

  5. На панели функции растра Свойствах Арифметики каналов задайте следующие параметры:
    • Для параметра Растр выберите Landsat9.
    • Для параметра Метод выберите NDVI.
    • Для параметра Индексы каналов введите 5 4, соответствующие ближнему инфракрасному и красному каналам, которые необходимы для расчета NDVI.

    Панель функции растра Арифметика канала

  6. Щелкните вкладку Общие, а для Имени введите NDVI.

    Вкладка Общие Арифметики канала

  7. Щелкните Создать новый слой.

    На карту добавляется новый слой с именем NDVI_Landsat9. Растр на карте содержит расчетные значения NDVI в диапазоне от -1 (отсутствие растительности) до 1 (здоровая растительность).

    Слой NDVI_Landsat9 на карте

    Затем вы создадите остальные слои спектрального индекса — EVI, NBR, PVI, NDWI и NDBI, выполнив те же действия.

  8. Повторите шаги с 4 по 7 со следующими настройками каналов:

    Имя/МетодОписание (для справки)Индексы каналовИмена каналов

    EVI

    Расширенный индекс растительности

    5 4 2

    NIR, red, blue

    NBR

    Нормализованный индекс гарей (используется для нахождения следов гарей)

    5 7

    NIR, SWIR 2

    PVI

    Перпендикулярный индекс растительности

    5 4 0.3 0.5

    NIR, красный (значения уклона и градиента)

    NDWI

    Нормализованный относительный водный индекс

    5 3

    NIR, зеленый

    NDBI

    Нормализованный относительный индекс застройки

    6 5

    SWIR 1, NIR

    Для MSI (индекса дефицита влаги) функция растра Арифметика каналов не содержит опции MSI в разделе Метод. Вместо этого вы будете использовать опцию Определено пользователем для его расчета, явно задавая математическую формулу: B6 / B5, где каналы обозначаются B + [номер канала]. Итак, эта формула означает, что значение в канале SWIR 1 должно быть разделено на значение в канале NIR.

  9. Повторите шаги с 4 по 7, чтобы создать слой MSI, задав следующие параметры:
    • Для параметра Растр выберите Landsat9.
    • Для параметра Метод выберите Определен пользователем.
    • В поле Индексы каналов введите B6 / B5.
    • В разделе Общие, в поле Имя введите MSI.

    Параметры функции растра Арифметика канала для MSI

    В конце этого процесса все семь слоев индексов должны быть добавлены на карту и перечислены на панели Содержание.

    Семь слоев индексов на панели Содержание

Получение слоя экспозиции склонов из ЦМР

Теперь вы получите слой экспозиции склонов из слоя ЦМР, используя растровую функцию Aspect. Экспозиция - это направление, в которое обращен каждый склон (север, юг, восток, запад). Она важна в качестве независимой переменной, поскольку солнечное освещение будет меняться в зависимости от экспозиции, и это будет влиять на рост растительности.

  1. На панели Функции растра найдите и откройте функцию растра Экспозиция.

    Функция растра Экспозиция

  2. На панели функции растра Экспозиция для параметра Растр выберите слой ЦМР.

    Параметры функции растра Экспозиция

  3. Щелкните Создать новый слой.

    Новый слой с именем Aspect_DEM добавлен на карту.

    Слой Aspect_DEM на карте

    В следующем разделе вы будете использовать все созданные вами слои независимых переменных в качестве входных данных для модели машинного обучения. Однако вам не нужно будет видеть их на карте, поэтому вы их отключите.

  4. На панели Содержание отключите все семь слоев спектральных индексов, а также слои ЦМР и Aspect_DEM.
  5. Нажмите Ctrl+S, чтобы сохранить проект.

В этой части рабочего процесса вы подготовили семь слоев, полученных из сцены Landsat, и один слой экспозиции склонов, полученный из ЦМР. Эти слои будут использоваться в качестве независимых переменных наряду со сценой Landsat и ЦМР при обучении модели регрессии.


Обучение регрессионной модели и прогнозирование плотности биомассы

Вы подготовили данные целевой выборки и независимые переменные. Теперь вы будете использовать все эти данные в качестве входных для обучения своей регрессионной модели и фиксации взаимосвязей между известными значениями AGBD и независимыми переменными. Затем вы проверите скорость работы своей модели, приступите к очистке данных и заново обучите свою модель для достижения более высокой производительности. Затем вы будете использовать полученную модель для прогнозирования значений AGBD по всей изучаемой области. И, наконец, вы просуммируете результаты, чтобы получить средний показатель AGBD по округам изучаемой области.

Регрессионная модель произвольных деревьев с обучением

Сначала вы обучите модель для прогнозирования биомассы с помощью инструмента Регрессионная модель произвольных деревьев с обучением. Регрессия произвольного леса — это подход машинного обучения, который основан на построении множества деревьев решений во время обучения.

  1. На панели Геообработка, если необходимо, щелкните кнопку Назад.
    Примечание:

    Если вы закрыли вкладку Геообработка, вы можете открыть ее снова, перейдя на ленту, на вкладку Анализ в группе Геообработка и нажав Инструменты.

  2. Найдите и откройте инструмент Регрессионная модель произвольных деревьев с обучением.

    Поиск инструмента Регрессионная модель произвольных деревьев с обучением

    Вы зададите входные данные независимых переменных.

  3. На панели инструмента Регрессионная модель произвольных деревьев с обучением для параметра Входные растры добавьте Landsat9, DEM и все восемь слоев независимых переменных.

    Входные растры для инструмента Регрессионная модель произвольных деревьев с обучением

    Внимание:

    Вы должны использовать тот же порядок для этих слоев в инструменте Регрессионная модель произвольных деревьев с обучением, а затем в инструменте Прогнозировать, используя регрессионную модель.

    Затем вы укажете на целевой данных выборки AGDB.

  4. Для параметра Целевой растр или точки выберите AGBD_observations.
  5. Для Поля целевого значения выберите AGBD.

    Итоговой выходной моделью будет файл .ecd. Вы выберете для нее имя.

  6. Для параметра Выходной файл определения регрессии нажмите кнопку Обзор.

    Параметры Целевой растр и Выходной файл определения регрессии

  7. В окне Выходной файл определения регрессии выберите Папки > Estimate_Biomass, а для параметра Имя введите Biomass_model.ecd и щелкните Сохранить.

    Окно Выходной файл определения регрессии

    Выходные данные также будут включать некоторые дополнительные вспомогательные файлы, которые вы можете использовать, чтобы понять точность модели. Вы зададите им имена.

  8. На панели инструмента Регрессионная модель произвольных деревьев с обучением разверните Дополнительные выходные данные.
  9. Для параметра Выходная таблица значимости щелкните кнопку Обзор, выберите Папки > Estimate_Biomass, а для параметра Имя введите Importance.csv.
  10. Для параметра Выходные точечные диаграммы нажмите кнопку Обзор, выберите Папки > Estimate_Biomass и в поле Имя введите Biomass_scatterplots.pdf.

    Параметры Дополнительных выходных данных

    Наконец, вы настроите параметры опций обучения.

  11. Разверните Опции обучения.
  12. Для параметра Процент образцов для тестирования введите 5 и согласитесь с остальными значениями по умолчанию.

    Параметр Процент образцов для тестирования

    Примечание:

    Значение 5 процентов (вместо 10 по умолчанию) гарантирует, что для тестирования будет выделено меньше данных, и для обучения останется больше данных.

  13. Щелкните Запустить.

    Через пару минут обучение модели завершится.

Обзор производительности модели

Чтобы понять скорость работы модели, вы изучите выходные данные инструмента Регрессионная модель произвольных деревьев с обучением. Рабочие процессы машинного обучения всегда итеративные. Вы должны понять, работает ли модель оптимально или очистка некоторых входных данных может еще улучшить ее производительность. В последнем случае вам потребуется переобучить модель, используя очищенные данные.

Сначала вы посмотрите на содержимое таблицы Importance.csv, в которой показано, какой вклад каждая независимая переменная внесла в прогнозирование целевых значений выборки в большей или меньшей степени. Вы создадите диаграмму, суммирующую эту информацию.

  1. На панели Содержание в разделе Автономные таблицы щелкните правой кнопкой слой таблицы Importance.csv, нажмите Создать диаграмму и выберите Линейчатая диаграмма.

    Опция меню Линейчатая диаграмма

    Появятся панель диаграммы Importance.csv и панель Свойства диаграммы.

  2. В панели Свойства диаграммы задайте следующие параметры:
    • В поле Категория или Дата выберите Explanatory_Variables.
    • Для Агрегирования выберите <нет>.
    • В разделе Числовые поля щелкните Выбрать, отметьте поле Важность и щелкните Применить.

    Параметры свойств диаграммы

    На панели диаграммы Importance.cvs появится диаграмма Важность по Explanatory_Variable.

    Диаграмма Важность по Explanatory_Variable

    Вы можете заметить, что спектральные каналы Landsat, особенно SWIR 1 (Landsat9_6) и ближний инфракрасный диапазон (Landsat9_5), играют важную роль в объяснении (или прогнозировании) значений биомассы. Кроме того, существенный вклад вносят несколько индексов каналов, особенно MSI_Landsat9, PVI_Landsat9 и NDBI_Landsat9. С другой стороны, слои DEM и Aspect_DEM вносят наименьший вклад, что является важным, поскольку эта изучаемая область в основном представляет собой равнинную местность. Однако в других экстентах - с большим разбросом высот - значимость высотных данных может быть выше. Теперь вы просмотрите документ точечных диаграмм.

    Примечание:

    Алгоритм Произвольные деревья не является детерминированным, поэтому полученные результаты могут незначительно отличаться.

  3. Закройте панель диаграммы Importance.cvs.

    Кнопка закрытия панели диаграммы Importance.cvs.

  4. В File Explorer перейдите к папке Estimate_Biomass и дважды щелкните файл Biomass_scatterplot.pdf, чтобы открыть его.

    Файл Biomass_scatterplot.pdf

    В PDF-файле первая диаграмма рассеяния показывает для каждой точки выборки, используемой при обучении:

    • Исходное известное значение (ось x).
    • Прогнозируемое после завершения обучения значение (ось y).

    Диаграмма рассеяния в PDF

    Значение R2 в диапазоне от 0 до 1 служит индикатором производительности модели. Значение R2, равное 0,834, для эффективности обучения является приемлемым. Хотя большинство значений не превышает 1000, вы можете наблюдать отдельные чрезвычайно высокие значения, разбросанные от несколько меньших 1000 до превышающих 4000.

    Максимально высокие значения на диаграмме рассеяния

    Вы думаете, что эти точки могут быть ошибочными выбросами, ухудшающими эффективность обучения модели. Чтобы определить, следует ли вам сохранить эти точки-экстремумы или удалить их из обучающих данных, вы изучите их на карте. Сначала вы посмотрите на гистограмму слоя AGBD_observations, чтобы выбрать более точный порог для точек выбросов.

  5. Закройте PDF и переключитесь обратно на ArcGIS Pro.
  6. На панели Содержание щелкните правой кнопкой слой AGBD_observations и выберите Таблица атрибутов.

    Опция меню Таблица атрибутов

  7. В таблице атрибутов щелкните правой кнопкой поле AGBD и выберите Визуализировать статистику.

    Опция меню Визуализировать статистику

    Статистика для поля AGBD отображается на гистограмме под названием Распределение AGBD.

    Диаграмма Распределение AGBD

    Гистограмма показывает распределение точечных объектов AGBD_observations по всем возможным значениям AGBD. Вы можете видеть, что значения большинства точек AGBD меньше 700, и только у нескольких точек значения превышают 1000. Вы выберете 1000 в качестве порога для определения точек выбросов.

    Теперь вы измените отображение на карте, чтобы упростить изучение точек с высокими значения.

  8. На панели Содержание перетащите слой Landsat9 так, чтобы он расположился непосредственно над слоем Aspect_DEM, и включите слои AGBD_observations и Landsat9.

    Слои AGBD_observations и Landsat9 включены.

  9. Щелкните правой кнопкой слой AGBD_observations и выберите Символы.

    Меню опции Символы

  10. На панели Символы для параметра Основные символы выберите Единый символ.

    Основные символы со значением Единый символ.

    Примечание:

    Цвет символа может быть другим.

    Эти символы облегчат просмотр выбранных вами точек на карте.

    Карта с новыми символами

    Подсказка:

    Вы можете уменьшить размер панели диаграммы, чтобы увеличить размер карты.

    Изменение размера панели диаграммы и карты

    Теперь вы выберете точки AGBD с высокими значениями.

  11. Убедитесь, что на панели Содержание выбран слой AGBD_observations.

    Выбран слой AGBD_observations

  12. На вкладке Карта ленты, в группе Выборка, нажмите Выбрать по атрибуту.

    Кнопка Выбрать по атрибуту

  13. В окне Выбрать по атрибутам в разделе Выражение сформируйте выражение Где AGBD больше 1000.

    Выражение Где AGBD больше 1000

  14. Нажмите OK.

    Выбрано около 40 точек; они отображаются на карте голубым цветом.

    40 точек будет выбрано на карте.

    Теперь вы отдельно изучите некоторые из этих точек.

  15. Нажмите вкладку AGBD_observations щелкните кнопку Показать выбранные записи внизу панели.

    Кнопка Показать выбранные записи

    Только выбранные объекты перечислены в таблице.

  16. Дважды щелкните заголовок строки первого объекта.

    Заголовок строки первого объекта

    На карте точка будет выделена желтым цветом.

  17. Увеличивайте масштаб, пока не увидите детали изображения внизу.

    Точки выделены желтым

    Точка попадает на некое не очень густое травяное поле, значение которого не должно превышать 1000. Соответственно, вы можете видеть, что соседние точки не показываются голубым, поскольку они не были выбраны. Это значит, что их значение AGBD менее 1000 и не является аномально высоким.

  18. В таблице атрибутов дважды щелкните заголовок строки третьего объекта.

    Заголовок строки третьего объекта

    Эта точка также попадает на какой-то тип травяного поля, значение которого не должно превышать 1000. Вы можете видеть, что эти точки с высокими значениями являются выбросами, которые являются ошибочными. Вы их удалите.

Очистка наблюдений AGBD и переобучение модели

Теперь вы удалите точки с высокими значениями. Вы также удалите точки со значением null, поскольку они бесполезны для обучения. Затем вы переобучите модель.

  1. На панели Содержание щелкните правой кнопкой AGBD_observations и выберите Приблизить к слою.
  2. На вкладке Карта ленты щелкните кнопку Выбрать по атрибуту.

    В окне Выбрать по атрибутам первое выражение Где AGBD больше 1000 по-прежнему присутствует. Вы добавите второе выражение, чтобы выбрать объекты со значением null.

  3. В окне Выбрать по атрибуту щелкните кнопку Добавить условие.

    Кнопка Добавить условие

  4. В качестве нового выражения сформируйте выражение Или AGBD is null и нажмите OK.

    Выражение Или AGBD is null

    В таблице атрибутов AGBD_observations теперь выбрано более 20000 точек между аномально высокими значениями и значениями null.

    Выбрано более 20000 точек

  5. На панели инструментов Таблица атрибутов щелкните кнопку Удалить выборку.

    Кнопка Удалить выборку

  6. Когда вам будет предложено подтвердить намерение удалить данные, щелкните Да.

    Вы сохраните эти изменения.

  7. На ленте, на вкладке Редактирование в группе Управление изменениями щелкните Сохранить.

    Кнопка Сохранить на вкладке Редактирование

    Выбранные точки будут удалены из класса объектов AGBD_observations. Затем вы повторно запустите инструмент обучения с обновленными данными, чтобы получить более быстро работающую модель.

  8. На ленте на вкладке Анализ в группе Геообработка щелкните История.

    Кнопка История

    Появится панель История, где содержится история всех инструментов, которые вы запускали в этом проекте.

  9. На панели История дважды щелкните Элемент Регрессионная модель произвольных деревьев с обучением.

    Элемент Регрессионная модель произвольных деревьев с обучением на панели История

    Появится инструмент Регрессионная модель произвольных деревьев с обучением со всеми значениями параметров, которые вы использовали изначально.

    Регрессионная модель произвольных деревьев с обучением с исходными параметрами

    Вы переименуете выходные данные, чтобы они не перезаписывали ранее полученные результаты.

  10. Для параметра Выходной файл определения регрессии переименуйте Biomass_model.ecd в Biomass_model2.ecd.
  11. Раскройте Дополнительные выходные данные, переименуйте Importance.csv в Importance2.csv и Biomass_scatterplots.pdf в Biomass_scatterplots2.pdf.

    Переименованные выходные файлы

  12. Щелкните Запустить.

    Через пару минут переобучение модели завершится.

  13. В File Explorer перейдите к папке Estimate_Biomass и дважды щелкните файл Biomass_scatterplots2.pdf, чтобы открыть его.

    Файл Biomass_scatterplots2.pdf

    В PDF-файле на первой диаграмме рассеяния вы можете видеть, что производительность модели улучшилась до R2 = 0,888 (по сравнению с R2 = 0,834 ранее). Вы также можете заметить, что все значения на диаграмме теперь меньше 1000.

    Новая версия диаграммы рассеяния

    Вы также получили лучшие результаты на второй и третьей диаграммах рассеяния, найденных в PDF-файле, которые показывают производительность модели в тестовых точках.

  14. Закройте PDF и переключитесь обратно на ArcGIS Pro.

Создание прогноза биомассы

Теперь вы будете использовать модель для прогнозирования биомассы для всей изучаемой области. Вы сделаете это с помощью инструмента Прогнозировать, используя регрессионную модель. Входными данными будут те же независимые переменные, которые вы использовали для обучения модели (семиканальная сцена Landsat, слой DEM, слои спектрального индекса и слой экспозиции склонов).

  1. На панели Геообработка щелкните кнопку Назад.
  2. Найдите и откройте инструмента Прогнозировать, используя регрессионную модель.

    Поиск инструмента Прогнозировать, используя регрессионную модель

  3. На панели инструментов Прогнозировать, используя регрессионную модель для параметра Входные растры добавьте Landsat9, DEM и все восемь производных слоев в том же порядке, что и раньше.

    Входные растры инструмента Прогнозировать, используя регрессионную модель

    Внимание:

    Важно, чтобы вы использовали тот же порядок для этих слоев в инструменте Прогнозировать, используя регрессионную модель, что и ранее в инструменте Регрессионная модель произвольных деревьев с обучением.

    Теперь вы укажете обученную модель.

  4. Для параметра Входной файл определения регрессии щелкните кнопку Обзор, выберите Папки > Estimate_Biomass, щелкните Biomass_model2.ecd и нажмите OK.

    Наконец, вы дадите имя выходным данным.

  5. Для параметра Выходной прогнозируемый растр введите Biomass_prediction.crf.

    Параметр Выходной прогнозируемый растр

  6. Щелкните Запустить.

    Через некоторое время полученный слой добавится к слою. Вы измените цветовую схему.

  7. На панели Содержание щелкните правой кнопкой символ Biomass_prediction.crf.

    Символ Biomass_prediction.crf

  8. В ниспадающем списке цветовых схем поставьте отметку Показать названия и щелкните цветовую схему Сине-зеленый (плавный переход).

    Цветовая схема Сине-зеленый (плавный переход)

  9. Выключите слои AGBD_observations и Landsat9.

    Слои AGBD_observations и Landsat9 выключены.

  10. Выключите все полученные слои (спектральных индексов и экспозиции склонов).
  11. Изучите слой Biomass_prediction.crf на карте.

    Темно-зеленые тона соответствуют областям с максимальной плотностью биомассы, а светлые или белые - с низкой плотностью или отсутствием биомассы.

    Слой Biomass_prediction.crf на карте

Суммирование плотности биомассы по округам

Наконец, вы рассчитаете плотность биомассы по округам. Вы будете использовать полигональный слой Counties и инструмент Зональная статистика в таблицу, чтобы найти среднюю плотность биомассы по округу, и создадите диаграмму, чтобы получить обзор полученных результатов.

  1. На панели Содержание включите слой Counties.

    Слой Counties включен

    Границы округов появятся на карте.

    Границы округов на карте

  2. На панели Геообработка щелкните кнопку Назад.
  3. Найдите и откройте инструмент Зональная статистика в таблицу.

    Поиск инструмента Зональная статистика в таблицу

  4. На панели инструмента Зональная статистика в таблицу задайте следующие параметры.
    • Для параметра Входные векторные или растровые данные зон выберите CountiesCounties.
    • Для параметра Поле зоны убедитесь, что выбрано Name.
    • Для параметра Входной растр значений выберите Biomass_prediction.crf.
    • В опции Выходная таблица введите Average_biomass_by_county.
    • Для Тип статистики выберите Среднее.

    Параметры инструмента Зональная статистика в таблицу

  5. Примите остальные значения по умолчанию и щелкните Запустить.

    Таблица Average_biomass_by_county добавится на панель Содержание.

  6. На панели Содержание в разделе Автономные таблицы щелкните правой кнопкой таблицу Average_biomass_by_county, нажмите Создать диаграмму и выберите Линейчатая диаграмма.

    Опция меню Столбчатая диаграмма

  7. На панели Свойства диаграммы на вкладке Данные установите следующие параметры:
    • Для параметра Категория или дата выберите NAME.
    • Для Агрегирования выберите <нет>.
    • В разделе Числовые поля щелкните Выбрать, отметьте поле MEAN и щелкните Применить.
    • Для Сортировки выберите Ось Y по убыванию.

    Вкладка Данные Свойств диаграммы

  8. Щелкните панель Общие и задайте следующие параметры:
    • Для Заголовка диаграммы введите Средняя биомасса по округам.
    • Для Заголовка по оси X введите Округа.
    • Для Заголовка по оси Y введите Плотность биомассы (в метрических тоннах на гектар).

    Вкладка Общие Свойств диаграммы

  9. На панели диаграммы Average_biomass_by_county просмотрите диаграмму Средняя биомасса по округам.

    Диаграмма Средняя биомасса по округам

    На диаграмме видно, что в некоторых округах, таких как Телфэр, Хьюстон, Мейкон и Бен-Хилл, средняя плотность биомассы выше. Согласно отчету Управления энергетической информации США, почти половина домохозяйств Джорджии используют биомассу в качестве топлива, и 80 процентов из них живут в сельской местности. Оценка состояния биомассы в этих сельских округах поможет правительству разработать практическую политику снижения потребления биомассы, защиты лесов и сохранения биоразнообразия.

    Примечание:

    Вы также можете присоединить таблицу Biomass_by_county к слою Counties, чтобы создать тематическую карту, показывающую среднюю биомассу по округам. Для этого на панели Содержание щелкните правой кнопкой Counties, выберите Соединения и связи и укажите Добавить соединение.

  10. Нажмите Ctrl+S, чтобы сохранить проект.

В этом руководстве после настройки проекта и изучения данных вы подготовили набор данных траекторий, содержащий данные GEDI, и извлекли соответствующие точечные данные AGBD для изучаемой области. Вы применили функции растра для подготовки независимых переменных. После этого вы обучили модель для прогнозирования плотности биомассы. Вы проверите скорость работы модели, приступили к очистке данных и заново обучили модель для достижения ее более высокой производительности. Вы использовали эту более эффективную модель для прогнозирования плотности биомассы во всей изучаемой области. И, наконец, вы просуммировали результаты, получив средний показатель плотности биомассы по округам изучаемой области.

Для краткости этого рабочего процесса вы работали с относительно небольшой изучаемой областью. Чтобы применить аналогичный рабочий процесс к большим областям, которые занимают несколько сцен Landsat и включают изображения, содержащие облака или тени, рекомендуется сначала решить проблему удаления облаков и теней, а затем - скомпоновать эти изображения в набор данных мозаики. См. Рабочий процесс Python и рабочий процесс без написания кода для создания составного изображения без облаков на основе спутниковых снимков. Кроме того, учитывая, что данные, используемые в этом руководстве, также доступны на таких облачных платформах, как AWS или Microsoft Planetary Computer, вы можете использовать возможности прямого доступа к данным и облачных вычислений с помощью ArcGIS Pro. Дополнительную информацию см. в статье Облачное картографирование надземной биомассы с использованием данных Landsat и GEDI.

Вы можете найти больше учебных пособий в галерее учебных пособий.