工程设置和数据检查
您将设置 ArcGIS Pro 工程并检查输入数据。 但首先,您将学习本教程中使用的机器学习工作流的一些基础知识。
了解机器学习工作流
机器学习的基本概念是驱使计算机从样本数据中学习,并将所学知识应用于未知数据。 其中一种方法是训练回归模型并使用该模型来预测新结果。 您将在本教程中使用此方法。
您希望预测佐治亚州多个县的地上生物量 (AGB)。 您将需要以下数据:
- 目标样本数据 - 将为样本位置的一组已知 AGB 值。 您将使用从 GEDI 卫星激光雷达轨迹数据集中提取的点数据,如以下示例图像所示。
- 解释性变量 - 将为可以解释 AGB 样本值,然后可以帮助预测新区域的 AGB 值的数据。 您将使用 Landsat 9 多光谱卫星影像、数字高程模型 (DEM) 数据和其他派生的栅格图层。 以下示例图像显示了 Landsat 影像(左)和 DEM 栅格数据(右)。
之所以选择了 Landsat 9 多光谱卫星影像作为解释变量,是因为该传感器的光谱特性将响应植被,而植被与生物量直接相关。 数字高程模型 (DEM) 将捕捉拓扑变异性和地形复杂性,这些也是影响植被生长的因素。
您将使用目标样本数据和解释变量作为输入来训练模型。 在训练过程中,模型将捕捉样本值和解释变量之间的关系。 如果您对该模型感到满意,则可使用该模型来预测整个乔治亚州各县的 AGB 值。 此输出将为一个栅格,如以下示例图像所示,其中较高的 AGB 值显示为深绿色,较低的值显示为白色或浅绿色。
下载并打开工程
首先,您将下载一个包含本教程数据的工程,并在 ArcGIS Pro 中将其打开。
- 下载 Estimate_Biomass.zip 文件并在您的计算机中找到已下载的文件。
注:
大多数 Web 浏览器默认将文件下载到计算机的 Downloads 文件夹中。
.zip 文件为 2.9 GB,下载可能需要几分钟时间。
- 右键单击 Estimate_Biomass.zip 文件并将其解压缩到计算机上的某个位置,例如 C 盘。
- 打开提取的 Estimate_Biomass 文件夹并双击 Estimate_Biomass.aprx 以在 ArcGIS Pro 中打开该工程。
- 如果出现提示,请登录 ArcGIS 组织账户。
检查输入数据
现在,您将检查该工程中提供的其余输入数据。 首先,您需要向地图添加 Landsat 图像。
- 单击功能区上的视图选项卡。 在窗口组中,单击目录窗格。
- 在目录窗格中,展开 Folders、Estimate_Biomass 和 InputData。
- 在 InputData下,展开 LC09_L2SP_018038_20221004_20230327_02_T1。
这是 Landsat 9 卫星影像场景,其中包含 7 个具有表面反射值的光谱波段:
- 波段 1 - 沿海气溶胶
- 波段 2 - 蓝色
- 波段 3 - 绿色
- 波段 4 - 红色
- 波段 5 - 近红外 (NIR)
- 波段 6 - 短波红外 (SWIR) 1
- 波段 7 - 短波红外 (SWIR) 2
注:
可以进行拖动以扩展窗格的宽度,以便更好地查看较长的文件名。
这些波段将用作解释变量。 现在,您需要向地图添加 Landsat 场景。
- 右键单击 LC09_L2SP_018038_20221004_20230327_02_T1_MTL.txt 并选择添加至当前地图。
- 如果系统提示您计算统计数据,请单击是。
几分钟后,图像将显示在地图上。 您需要将其重命名为更短的名称。
- 在内容窗格中,单击 Surface Reflectance_LC09_L2SP_018038_20221004_20230327_02_T1_MTL 以将其选中,然后再次单击以进入编辑模式。 将名称更改为 Landsat9,然后按 Enter 键。
您需要将图像渲染更改为自然色,即红色、绿色和蓝色波段的组合,其显示的颜色接近人眼通常看到的颜色。
- 在内容窗格中,确保 Landsat9 处于选中状态。
- 在功能区上,单击栅格图层选项卡,在渲染组中,单击符号系统按钮。
- 在符号系统窗格中,设置以下参数值:
- 对于主符号系统,确保 RGB 处于选中状态。
- 对于红色,选择 SRB4
- 对于绿色,选择 SRB3
- 对于蓝色,选择 SRB2
图像渲染随即更新为自然色渲染。
- 关闭符号系统窗格。
接下来,您需要向地图添加数字高程模型 (DEM)。
- 在目录窗格的 InputData 文件夹中,折叠 LC09_L2SP_018038_20221004_20230327_02_T1。
- 右键单击 DEM.tif 并选择添加至当前地图。
- 在内容窗格中,将 DEM.tif 图层重命名为 DEM。
- 检查地图上的 DEM 图层。
DEM 将提供高程数据。 较浅色调指示高程较高的区域,较深色调指示高程较低的区域。
该图层也将用作解释变量。 接下来,您将查看 GEDI 数据。
- 在目录窗格的 InputData 下,展开 GEDI_L4A 文件夹。
此文件夹包含 8 个 GEDI 文件,这些文件将用作具有已知 AGB 值的样本或训练目标。 请注意,这些文件是轨迹 HDF5 文件:它们不是栅格文件,而是轨迹数据。 您将学习如何处理此数据并在后续工作流中将其显示在地图上。
内容窗格中还包含其他 2 个数据图层。 您已看到 AOI 图层,该图层描绘了整个研究区域。 另一个为 Counties 图层,该图层提供了县边界。 您需要将其打开。
- 在内容窗格中,展开 Counties 图层旁的箭头以显示其图例,然后选中 Counties 图层旁的框以将其打开。
- 查看地图上的 AOI 和 Counties 图层(橙色和亮紫色)。
您将在后续分析中使用这两个图层。
- 单击 Counties、DEM 和 Landsat9 图层旁的框以将其关闭,因为您在接下来的工作流步骤中将不需要这些图层。
- 在快速访问工具栏上,单击保存以保存您的工程。
在此部分工作流中,概述机器学习工作流后,您设置了 ArcGIS Pro 工程。 然后,您对输入数据进行了检查:七波段 Landsat 9 场景、DEM 栅格、GEDI 数据和一些边界图层。
处理并提取 GEDI 数据
AGB 代表地面以上的活体植被,以单位质量来衡量,通常为每公顷兆克(即公吨)。 在一个较大范围的研究区域内对地面上的 AGB 进行物理测量非常耗费人力,并且几乎是不可能的。 相比之下,利用遥感数据估算 AGB 是一个良好的替代解决方案。
GEDI 是 NASA 的一项卫星激光雷达任务,用于测量地球表面的 3D 结构。 其中包括森林冠层高度及其垂直结构,即树木和灌木的堆叠层,它们可能共同构成或多或少的生物量。 GEDI 将沿传感器的轨迹捕获采样点。 根据这些测量结果,可以得出地上生物量密度 (AGBD),并且 GEDI L4A 产品包含这些得出的 AGBD 点值。 以下示例图像显示了 GEDI 轨迹,在其中捕获了样本 AGBD 数据,因为它们在本教程的研究区域中相交。
此类数据以轨迹结构化的 HDF5 文件形式提供,并可以作为轨迹数据集引入 ArcGIS,轨迹数据集是一种地理数据库数据模型,用于管理轨迹文件集合。 现在,您将创建一个轨迹数据集,向其中添加提供的 GEDI 数据,并提取相关 AGBD 点数据,这些点数据将在后续工作流中用作训练样本。
创建轨迹数据集
首先,您将在工程地理数据库中创建一个空的轨迹数据集。
- 在目录窗格中,展开数据库。
- 右键单击 Estimate_Biomass.gdb,单击新建,然后选择轨迹数据集。
在地理处理窗格中,随即出现创建轨迹数据集工具。
- 对于轨迹数据集名称,键入 Gedi。
- 接受其他默认值,然后单击运行。
该轨迹数据集随即出现在内容窗格中。 其中包含 Footprint 和 Point 子图层。
此数据集目前为空,将作为 GEDI 数据的容器。
向轨迹数据集添加 GEDI 数据
现在,您需要将为此工作流提供的 GEDI 数据添加至刚刚创建的空轨迹数据集。
- 切换回目录窗格。
- 在目录窗格中,展开 Estimate_Biomass.gdb 地理数据库,右键单击 Gedi 并选择添加轨迹。
首先,您将设置轨迹数据集类型和属性。
- 在向轨迹数据集添加数据窗格中,对于轨迹类型,选择 GEDI。
- 在轨迹类型下,单击属性按钮。
- 在轨迹类型属性窗口中,单击轨迹选项卡。
提供的 GEDI 数据属于 L4A 类型,因此您需要相应地设置属性。
- 在产品过滤器下,选择 GEDIL4A。
- 在地面轨迹下,选中名称旁的复选框以选择所有轨迹。
GEDI 数据被捕获为八个不同的波束,您希望将其全部包含在内。
- 在预定义变量下,选中地上生物量密度变量的复选框。
这是您对此数据集感兴趣的唯一变量。
- 单击确定保存属性。
- 在向轨迹数据集添加数据工具窗格中的输入数据下,选择文件夹,然后单击浏览按钮。
- 在输入数据窗口中,展开 Folders、Estimate_Biomass 和 InputData,单击 GEDI_L4A,然后单击确定。
- 在向轨迹数据集添加数据工具窗格中,接受所有默认值,然后单击运行。
几分钟后,GEDI 数据将添加至轨迹数据集,并显示在地图上。 您需要缩小视图以查看整个数据集。
- 在内容窗格中,右键单击 Gedi 图层并选择缩放至图层。
横跨北美洲的绿色面表示 GEDI 传感器轨迹的轨迹。 选择这些特定轨迹是因为其在研究区域上相交。
- 在内容窗格中,右键单击 Footprint 图层,然后选择属性表。
Footprint 属性表随即出现。
每行将对应一条轨迹,并且包含有关该轨迹的信息。 例如,Count 字段用于指示每条轨迹中的点数量。
- 关闭 Footprint 表。
现在,您将查看轨迹中包含的各点。
- 在内容窗格中,打开 AOI 图层。 右键单击 AOI 图层并选择缩放至图层。
提示:
如果该 Gedi 轨迹图层未显示在地图上,请稍微缩小地图视图。
- 关闭 Footprint 图层,然后打开 Point 子图层。
该点图层可能需要一些时间才能显示,因为其包含数十万个点。
- 放大至所选区域,直到您能够看到各点为止。
每个点将包含一个 AGBD 值。
您向轨迹数据集添加了 GEDI 数据并对其进行了检查。
提取相关 AGBD 点数据
仅研究区域内的 GEDI 点与您的工作流相关。 现在,您将使用裁剪工具来提取位于 AOI 边界内的点。 输出将为一个点要素图层。
- 在地理处理窗格中,单击后退按钮。
- 在地理处理搜索框中,键入 Clip。 在结果列表中,单击裁剪工具以将其打开。
- 在裁剪工具窗格中,设置以下参数:
- 对于输入要素或数据集,选择 Point。
- 对于裁剪要素,选择 AOI 图层。
- 对于输出要素或数据集,键入 AGBD_observations 作为输出名称。
- 单击运行。
几分钟之后,AGBD_observations 点图层将添加到地图中。 您将更仔细地对其进行检查。
- 在内容窗格中,关闭 Gedi 图层,因为您在此工作流中不再需要该图层。
- 右键单击 AGBD_observations 图层并选择缩放至图层。
可以看出,AGBD_observations 图层仅包含研究区域内的点。
- 在内容窗格中,右键单击 AGBD_observations 图层并选择属性表。
AGBD_observations 属性表随即出现。
每行将对应一个点,并且 AGBD 字段将提供每个点的地上生物量密度值(以每公顷公吨为单位)。 此图层中共存在 106,159 个点。
- 关闭 AGBD_observations 属性表。
接下来,您需要将已导入的符号系统应用于此图层,以便更加有效地对其进行可视化。
- 在地理处理窗格中,单击后退按钮。
- 搜索应用图层的符号系统工具并将其打开。
- 在应用图层的符号系统工具中,对于输入图层,选择 AGBD_observations。
- 对于符号系统图层,单击浏览按钮。 浏览至 Folders > Estimate_Biomass > InputData,然后选择 AGBD.lyrx 图层文件。
- 单击运行。
地图随即更新。
现在,将使用相应符号系统显示 AGBD_observations 图层,其中深绿色色调的点指示最高 AGBD 值,浅黄色色调的点指示最低 AGBD 值。 在模型训练过程中,此图层将用作已知样本或训练目标。
- 按 Ctrl+S 以保存工程。
在此部分工作流中,您创建了一个轨迹数据集,并将来自 GEDI 4A 级轨迹数据的 AGBD 变量导入其中。 然后,您提取了相关 AGBD 点作为要素图层,并对其进行了符号化。
准备派生解释变量
现在,您将根据初始 Landsat 9 场景和 DEM 栅格准备其他解释变量。 具体来说,您将创建 7 个源自 Landsat 9 场景的光谱指数以及 1 个源自 DEM 的坡向栅格。
生成光谱指数
光谱指数可通过数学公式组合不同的光谱波段,通常用于计算某种类型的比率。 生成的输出是一个新的栅格图像,该图像将强调特定的现象,如植被、水体、城市发展或水分。 这些光谱指数图层将提供附加信息来解释不同的植被状况,从而有助于更好地预测 AGB 值。
注:
了解有关常见光谱指数的详细信息。
您将创建多个指数,这些指数将用作附加解释变量:
- NDVI - 归一化差值植被指数
- EVI - 增强型植被指数
- PVI - 垂直植被指数
- NBR - 归一化燃烧比率
- NDWI - 归一化差值水体指数
- NDBI - 归一化差值建筑指数
- MSI - 水分胁迫指数
您将从 NDVI 开始,该指数用于区分健康植被与不健康植被或者缺乏植被。 您将使用波段算术栅格函数。
- 在内容窗格中,关闭 AGBD_observations 图层。
- 在功能区影像选项卡的分析组中,单击栅格函数按钮。
- 在栅格函数窗格的搜索框中,键入 Band Arithmetic。
- 在结果列表中,单击波段算术栅格函数以将其打开。
- 在波段算术属性栅格函数窗格中,设置以下参数:
- 对于栅格,选择 Landsat9。
- 对于方法,选择 NDVI。
- 对于波段指数,键入 5 4,对应于 NDVI 计算所需的近红外和红色波段。
- 单击常规选项卡,对于名称,键入 NDVI。
- 单击新建图层。
随即将名为 NDVI_Landsat9 的新图层添加至地图。 地图中的栅格包含已计算的 NDVI 值,其范围介于 -1(缺乏植被)和 1(健康植被)之间。
接下来,您将按照相同的步骤创建其余光谱指数图层 - EVI、NBR、PVI、NDWI 和 NDBI。
- 使用以下波段设置重复步骤 4 到 7:
名称/方法 描述(供参考) 波段索引 波段名称 EVI
增强型植被指数
5 4 2
近红外、红色、蓝色
NBR
归一化燃烧比率(用于标识火灾后迹地)
5 7
NIR、SWIR 2
PVI
垂直植被指数
5 4 0.3 0.5
NIR、红色(以及坡度和斜率值)
NDWI
归一化差值水体指数
5 3
NIR、绿色
NDBI
归一化差值建筑指数
6 5
SWIR 1、NIR
对于 MSI(水分胁迫指数),波段算术栅格函数在方法下不包含 MSI 选项。 您将改为使用用户定义选项进行计算,明确的数学公式为:B6 / B5,其中波段由 B + [波段编号] 表示。 因此,此公式意味着应将 SWIR 1 波段除以 NIR 波段。
- 使用以下参数重复步骤 4 至 7 以创建 MSI 图层:
- 对于栅格,选择 Landsat9。
- 对于方法,选择用户定义。
- 对于波段指数,键入 B6 / B5。
- 在常规下,对于名称,键入 MSI。
在此过程结束时,所有 7 个指数图层应添加至地图,并在内容窗格中列出。
从 DEM 派生坡向图层
现在,您将使用坡向栅格函数从 DEM 图层派生坡向图层。 坡向将指示每个下坡坡度所面对的方向(北、南、东、西)。 它作为解释变量具有相关性,因为太阳照度将根据坡向值而变化,这将影响植被的生长。
- 在栅格函数窗格中,搜索并打开坡向栅格函数。
- 在坡向栅格函数窗格中,对于栅格,选择 DEM 图层。
- 单击新建图层。
随即将名为 Aspect_DEM 的图层添加至地图。
在下一部分中,您将使用已创建的所有解释变量图层作为机器学习模型的输入。 但是,您无需在地图上查看这些图层,因此现在需要将其关闭。
- 在内容窗格中,关闭所有 7 个光谱指数图层以及 DEM 和 Aspect_DEM 图层。
- 按 Ctrl+S 以保存工程。
在此部分工作流中,您准备了 7 个源自 Landsat 场景的图层以及 1 个源自 DEM 的坡向图层。 当训练回归模型时,这些图层将与 Landsat 场景和 DEM 一起用作解释变量。
训练回归模型并预测生物量密度
现在,您已准备好目标样本数据和解释变量。 接下来,您将使用所有这些数据作为输入来训练回归模型并捕获已知 AGBD 值和解释变量之间的关系。 然后,您将检查模型的性能,进行一些数据清理,并重新训练模型以获得更高的性能。 接下来,您将使用生成的模型来预测整个研究区域的 AGBD 值。 最后,您将汇总结果以获得研究区域内各县的平均 AGBD。
训练随机树回归模型
首先,您将使用训练随机树回归模型工具来训练模型以预测生物量。 随机森林回归是一种机器学习方法,该方法通过在训练时构建大量决策树来运行。
- 如有必要,请在地理处理窗格中,单击后退按钮。
注:
如果您已关闭地理处理选项卡,则可以在功能区分析选项卡的地理处理组中,通过单击工具以将其重新打开。
- 搜索并打开训练随机树回归模型工具。
您将定义解释变量输入。
- 在训练随机树回归模型工具窗格中,对于输入栅格,添加 Landsat9、DEM 和所有 8 个派生的解释变量图层。
警告:
现在,您应该在训练随机树回归模型工具以及稍后的使用回归模型进行预测工具中针对这些图层使用完全相同的顺序。
然后,您将指向 AGDB 目标样本数据。
- 对于目标栅格或点,选择 AGBD_observations。
- 对于目标值字段,选择 AGBD。
生成的输出模型将为 .ecd 文件。 您需要为其选择名称。
- 对于输出回归定义文件,单击浏览按钮。
- 在输出回归定义文件窗口中,浏览至文件夹 > Estimate_Biomass,对于名称,键入 Biomass_model.ecd,然后单击保存。
输出还将包括一些其他辅助文件,可以使用这些文件来了解模型的精度。 您将设置其名称。
- 在训练随机树回归模型工具窗格中,展开其他输出。
- 对于输出重要性表格,单击浏览按钮,浏览至文件夹 > Estimate_Biomass,对于名称,键入 Importance.csv。
- 对于输出散点图,单击浏览按钮,浏览至文件夹 > Estimate_Biomass,对于名称,键入 Biomass_scatterplots.pdf。
最后,您还将设置训练选项参数。
- 展开训练选项。
- 对于测试样本百分比,键入 5,并接受其他默认值。
注:
值 5%(而非默认值 10%)可确保留出更少的数据用于测试,而将留出更多的数据用于训练。
- 单击运行。
几分钟后,模型训练随即完成。
查看模型性能
要了解模型性能,您现在需要查看训练随机树回归模型工具的输出。 机器学习工作流通常是迭代的。 您必须确定模型的性能是否最佳,或者清理一些输入数据是否能够提高其性能。 在后一种情况下,您将需要使用清理后的数据重新训练模型。
首先,您将查看 Importance.csv 表的内容,该表显示了每个解释变量对预测目标样本值的贡献程度。 您将创建一个条形图来汇总该信息。
- 在内容窗格的独立表下,右键单击 Importance.csv 表图层,单击创建图表并选择条形图。
随即出现 Importance.csv 图表窗格和图表属性窗格。
- 在图表属性窗格中,设置以下参数:
- 对于类别或日期,选择 Explanatory_Variables。
- 对于聚合,选择 <无>。
- 在数值字段下,单击选择,选中 Importance字段,然后单击应用。
在 Importance.cvs 图表窗格中,随即显示 Importance by Explanatory_Variable 图表。
可以观察到 Landsat 光谱波段,特别是 SWIR 1 号 (Landsat9_6) 和近红外线 (Landsat9_5) 在解释(或预测)生物量值方面发挥着至关重要的作用。 此外,多个波段指数也做出了重大贡献,尤其是 MSI_Landsat9、PVI_Landsat9 和 NDBI_Landsat9。 另一方面,DEM 和 Aspect_DEM 图层的贡献最小,这是合理的,因为此研究区域大部分是平坦地形。 但是,在其他高程变化较大的范围内,高程数据的重要性可能会更高。 接下来,您将查看散点图文档。
注:
随机树算法不是决定性的,因此您获得的结果可能会略有不同。
- 关闭 Importance.cvs 图表窗格。
- 在 File Explorer 中,浏览至 Estimate_Biomass 文件夹,然后双击 Biomass_scatterplot.pdf 文件将其打开。
在 PDF 中,第一个散点图显示了在训练中使用的各个采样点:
- 原始已知值(x 轴)。
- 训练完成后的预测值(y 轴)。
R2 值的范围为 0-1,用作模型性能的指标。 训练性能的 R2 值为 0.834 是可以接受的。 但是,虽然大多数值都集中在 1000 以下,但是可以观察到一些极高的值,这些值分散在从略低于 1000 到超过 4000 的范围内。
您怀疑这些点可能为错误的异常值,这些值会降低模型的学习性能。 要决定是保留这些极值点,还是从训练数据中将其移除,您需要在地图上进行查看。 首先,您将查看 AGBD_observations 图层的直方图,为异常值点选择更精确的阈值。
- 关闭 PDF 并切换回 ArcGIS Pro。
- 在内容窗格中,右键单击 AGBD_observations 图层并选择属性表。
- 在属性表中,右键单击 AGBD 字段并选择可视化统计数据。
AGBD 字段的统计数据显示在名为 Distribution of AGBD 的直方图中。
直方图显示了 AGBD_observations 点要素在所有可能的 AGBD 值中的分布。 可以看出大多数点的 AGBD 值均小于 700,只有少数点的值大于 1000。 您将选择 1000 作为定义异常值点的阈值。
现在,您将修改地图上的显示,以便更加轻松地探索高值点。
- 在内容窗格中,拖动 Landsat9 图层以将其置于 Aspect_DEM 的正上方,然后打开 AGBD_observations 和 Landsat9 图层。
- 右键单击 AGBD_observations 图层并选择符号系统。
- 在符号系统窗格中,对于主符号系统,选择单一符号。
注:
符号的颜色可能会有所不同。
借助此符号系统,可以更加轻松地查看您在地图上选择的点。
提示:
可以缩小图表窗格的大小以增加地图的大小。
现在,您将选择高值 AGBD 点。
- 在内容窗格中,确保选择 AGBD_observations 图层。
- 在功能区地图选项卡的选择组中,单击按属性选择。
- 在按属性选择窗口的表达式下,构建表达式 Where AGBD is greater than 1000。
- 单击确定。
大约选择了 40 个点,这些点在地图上显示为青蓝色。
现在,您将单独查看其中一些点。
- 单击 AGBD_observations 选项卡,然后单击窗格底部的显示所选记录按钮。
现在,该表中仅列出所选要素。
- 双击第 1 个要素的行标题。
在地图上,该点将以黄色高亮显示。
- 进行放大,直到您能够看到下方影像详细信息为止。
该点位于某种不太茂密的草地上,其 AGBD 值不应超过 1000。 相反,您可以看到相邻的点未显示为青色,因为这些点未处于选中状态。 这意味着其 AGBD 值低于 1000,并且不是异常高。
- 在属性表中,双击第 3 个要素的行标题。
该点同样位于某种草地上,其值不应超过 1000。 可以看出,这些高值点均为错误的异常值。 您需要将其删除。
清理 AGBD 观测值并重新训练模型
现在,您将删除高值异常值点。 您还将删除具有空值的点,因为这些点对于训练毫无用处。 然后,您将重新训练模型。
- 在内容窗格中,右键单击 AGBD_observations 并选择缩放至图层。
- 在功能区的地图选项卡上,单击按属性选择按钮。
在按属性选择窗口中,第 1 个子句 Where AGBD is greater than 1000 仍然存在。 您将添加第 2 个子句以选择具有空值的要素。
- 在按属性选择窗口中,单击添加子句按钮。
- 对于新子句,构建表达式 Or AGBD is null,然后单击确定。
现在,已在 AGBD_observations 属性表中选择了超过 20,000 个点,这些点介于异常高值和空值之间。
- 在属性表工具栏中,单击删除选择按钮。
- 当系统提示您确认是否要删除数据时,请单击是。
您将保存这些编辑内容。
- 在功能区编辑选项卡的管理编辑内容组中,单击保存。
将从 AGBD_observations 要素类中删除所选点。 接下来,您将使用已更新的数据重新运行训练工具,以获得性能更高的模型。
- 在功能区分析选项卡的地理处理组中,单击历史记录。
随即出现历史记录窗格,其中包含您在该工程中迄今为止已运行的所有工具的历史记录。
- 在历史记录窗格中,双击训练随机树回归模型条目。
随即出现训练随机树回归模型工具,其中包含您最初使用的所有参数值。
您需要重命名输出,以使其不会覆盖原始结果。
- 对于输出回归定义文件,将 Biomass_model.ecd 重命名为 Biomass_model2.ecd。
- 展开其他输出,将 Importance.csv 重命名为 Importance2.csv,然后将 Biomass_scatterplots.pdf 重命名为 Biomass_scatterplots2.pdf。
- 单击运行。
几分钟后,将重新训练模型。
- 在 File Explorer 中,浏览至 Estimate_Biomass 文件夹,然后双击 Biomass_scatterplots2.pdf 文件将其打开。
在 PDF 中的第 1 个散点图中,可以看到模型性能已提升为 R2=0.888(之前为 R2=0.834)。 您也会注意到,图中的所有值现在均低于 1000。
您还在 PDF 中的第 2 个和第 3 个散点图中获得了更好的结果,这些结果显示了测试点上的模型性能。
- 关闭 PDF 并切换回 ArcGIS Pro。
创建生物量预测
现在,您将使用该模型来预测整个研究区域的生物量。 您将通过使用回归模型预测工具来执行此操作。 输入将为用于模型训练的相同解释变量(七波段 Landsat 场景、DEM 图层、光谱指数图层和坡向图层)。
- 在地理处理窗格中,单击后退按钮。
- 搜索并打开使用回归模型预测工具。
- 在使用回归模型预测工具窗格中,对于输入栅格,按照与之前相同的顺序添加 Landsat9、DEM 和所有 8 个派生图层。
警告:
当使用使用回归模型预测工具时,确保按照之前在训练随机树回归模型工具中使用的相同顺序对这些图层进行排序。
现在,您将指向经过训练的模型。
- 在输入回归定义文件中,单击浏览按钮,浏览至文件夹 > Estimate_Biomass,单击 Biomass_model2.ecd,然后单击确定。
最后,您将命名输出。
- 对于输入预测栅格,键入 Biomass_prediction.crf。
- 单击运行。
几分钟后,随即将生成的图层添加至该图层。 现在,您需要更改配色方案。
- 在内容窗格中,右键单击 Biomass_prediction.crf 符号。
- 在配色方案下拉列表中,选中显示名称框,然后单击蓝-绿(连续) 配色方案。
- 关闭 AGBD_observations 和 Landsat9 图层。
- 关闭所有派生图层(光谱指数图层和坡向图层)。
- 在地图上,查看 Biomass_prediction.crf 图层。
深绿色色调指示生物量密度最高的区域,浅色或白色色调指示生物量密度低或者不存在。
按县汇总生物量密度
最后,您将计算每个县的生物量密度。 您将使用 Counties 面图层和以表格显示分区统计工具来确定每个县的平均生物量密度,然后生成图表以提供结果概览。
- 在内容窗格中,打开 Counties 图层。
县边界随即显示在地图上。
- 在地理处理窗格中,单击后退按钮。
- 搜索并打开以表格显示分区统计工具。
- 在以表格显示分区统计工具窗格中,设置以下参数:
- 对于输入栅格或要素区域数据,选择 Counties。
- 对于区域字段,确认选择 Name。
- 对于输入值栅格,选择 Biomass_prediction.crf。
- 对于输出表,键入 Average_biomass_by_county。
- 对于统计类型,选择平均值。
- 接受所有默认值,然后单击运行。
随即将 Average_biomass_by_county 表添加至内容窗格。
- 在内容窗格的独立表下,右键单击 Average_biomass_by_county 表,单击创建图表,然后选择条形图。
- 在图表属性窗格的数据选项卡中,设置以下参数:
- 对于类别或日期,选择 NAME。
- 对于聚合,选择 <无>。
- 在数值字段下,单击选择,选中 MEAN字段,然后单击应用。
- 在排序下,选择 Y 轴降序。
- 单击常规窗格并设置以下参数:
- 对于图表标题,键入 Average biomass by county。
- 对于 X 轴标题,键入 Counties。
- 对于 Y 轴标题,键入 Biomass density (in metric tons per hectare)。
- 在 Average_biomass_by_county 图表窗格中,查看 Average biomass by county 图表。
在条形图中,可以看出一些县(例如泰尔费尔、休斯顿、梅肯和本希尔)的平均生物量密度较高。 根据美国能源信息署的报告,佐治亚州近一半的家庭使用生物质作为燃料,其中 80% 发生在农村地区。 了解这些农村县的生物量状况将有助于政府制定切实可行的政策,以减缓生物质消耗并保护森林和生物多样性。
注:
您也可以将 Biomass_by_county 表连接到 Counties 图层,以创建用于显示各县平均生物量的专题地图。 为此,请在内容窗格中右键单击 Counties,单击连接和关联,然后选择添加连接。
- 按 Ctrl+S 以保存工程。
在本教程中设置工程并检查数据之后,您准备了包含 GEDI 数据的轨迹数据集并提取了研究区域的相关 AGBD 点数据。 您使用了栅格函数来准备解释变量。 然后,您训练了一个模型以预测生物量密度。 您检查了该模型的性能,进行了一些数据清理,并重新训练了该模型以获得更高的性能。 您使用了这个性能更好的模型来预测整个研究区域的生物量密度。 最后,您汇总了结果以获得研究区域内每个县的平均生物量密度。
为了简化此工作流,您使用了一个相对较小的研究区域。 要将类似工作流应用于多个 Landsat 场景中所表示的较大区域,并包括包含云或阴影的图像,建议您首先解决云和阴影去除问题,然后将这些图像组合为镶嵌数据集。 有关根据卫星影像创建无云图像合成的信息,请参阅 Python 工作流和无代码工作流。 此外,考虑到本教程中使用的数据也可以从诸如 AWS 或 Microsoft Planetary Computer 等云平台访问,您可以利用 ArcGIS Pro 的直接数据访问和基于云的计算功能。 有关详细信息,请查阅使用 Landsat和 GEDI 数据进行基于云的地上生物量制图文章。
您可以在教程库中找到更多教程。