准备训练数据

您将使用空间统计方法估计全球海草栖息地,该方法使用一组已知海草存在的位置和一组海洋测量值。 根据这些数据,“仅存在预测”工具通过实施最大熵(或 Maxent)机器学习技术,在给定海洋测量值的情况下估计其他位置出现海草的概率。 要执行此分析,您需要清理和准备数据。 首先,您将创建代表美国海岸线周围海草存在的点。 然后,您将生成表示海洋测量值的插值表面,以用作模型的预测变量。

下载并浏览数据

首先,您将下载海草数据并进行探索。

  1. 下载海草栖息地预测 ArcGIS Pro 工程包。
  2. 双击 SeagrassPrediction.ppkx 文件,在 ArcGIS Pro 中打开工程。

    全球地图随即打开。 内容窗格中有四个要素类:

    • Global ocean measurements - 生态海洋单位点数据,其中包括深度最高可达 90 米的海洋测量。
    • USA seagrass - 海草生长的面数据。 USA seagrass 中的每个面都是一个确定的海草栖息地。
    • USA shallow waters - 用作模型训练的研究区域的美国大陆的浅海测深面。
    • Global shallow waters - 用于预测全球海草的全球浅滩测深面。

    数据图层位于适合全球分析的平等地球投影坐标系中。

  3. 内容窗格中,取消选中 Global ocean measurements 图层。

    关闭 Global ocean measurements 图层。

    浅水区域以浅蓝色显示。

    浅蓝色区域代表世界各地的浅水测深区,其水深适于海草栖息。

  4. 在功能区上,单击地图选项卡,在导航部分中单击书签,然后单击 Florida

    地图随即缩放至佛罗里达州。

    亮绿色区域是已确定的海草栖息地。 您将使用有关美国大陆周围已知海草存在位置的信息来预测世界上可能存在海草栖息地的其他位置。 由于这是全球范围的预测,因此它不适用于确定较小区域的海草栖息地,例如,确定特定海湾内最有可能出现海草的位置。 稍后,您将学习如何将模型重新用于其他预测方案。

  5. 内容窗格中,选中 Global ocean measurements 图层以将其重新打开。

    再次显示测量图层。

    这些 Global ocean measurements 点用于显示生态海洋单位 (EMU) 十年平均值、50 年平均值数据值。 大多数数据点位于海草观测图层的范围外。 要使用“仅存在预测”工具开发性能良好的预测模型,需要已知海草区域中的许多点以及相应的海洋测量数据。 如果仅使用位于海草面范围内 EMU_Global_90m 点的子样本,则观测结果过于稀少。

    为解决此问题,您将在已知海草栖息地内创建一组随机点来训练模型。 您还将根据 Global ocean measurements 变量对表面进行插值,并使用随机海草栖息地点对插值测量值进行采样。 全球海洋测量变量包括:temp(温度)、盐度、dissO2(溶解氧)、硝酸盐、磷酸盐、硅酸盐和 srtm30(深度)。

    首先,您将美国海草面分解为一个多部件要素,并在已知海草存在的区域内创建一组 5000 个随机点。

创建训练点

接下来,您将创建“仅存在预测”工具需要的训练数据,以模拟海草生长与海洋条件之间的关系。 将提供两种类型的训练数据:代表已知海草存在位置的点和代表七个预测变量(海洋测量)的栅格。 您将在 USA seagrass 面的范围内创建随机点。 由于您希望在这些栖息地区域覆盖的区域内创建特定数量的随机点,因此您需要在创建点之前将此图层中的许多面融合为一个面。

  1. 单击功能区中的分析,然后单击地理处理部分中的工具
  2. 地理处理窗格的搜索框中,输入 pairwise dissolve
  3. 在搜索结果中,单击成对融合工具以将其打开。

    打开“成对融合”工具。

  4. 对于输入要素,单击下拉列表,然后单击 USA seagrass 图层。
  5. 接受默认的输出要素类名称 USAseagrass_PairwiseDissolve
  6. 接受其他参数的默认值,并确认已选中创建多部件要素框。

    “成对融合”的参数

  7. 单击运行

    工具完成后,新要素图层 USAseagrass_Dissolve 将添加到地图,并在内容窗格中列出。 您将使用此版本的海草图层,因此建议删除原始图层以保持工作空间清洁并减少混乱。

  8. 右键单击 USA seagrass 图层,然后单击移除

    移除 USA seagrass 图层。

    现在您将生成海草存在位置随机点。

  9. 地理处理窗格中,单击返回箭头,然后在搜索框中键入 create random points
  10. 在搜索结果中,单击创建随机点工具。

    创建随机点工具

  11. 针对输出点要素类,输入 USA_Train
  12. 对于约束要素类,单击下拉列表,然后选择 USAseagrass_PairwiseDissolve
  13. 对于点数 [值或字段],将值更改为 5000

    创建随机点参数

  14. 单击运行

    随机点将显示在地图中。

    随机点将被添加到地图中。

    现在,您有一个包含 5000 个点的新要素类,这些点位于美国海岸线周围已知的海草栖息地区域内,您将使用它来训练仅存在预测模型。 目前,没有与这些位置相关的环境变量。 该信息存储在 Global ocean measurements 点的位置。 为解决此问题,您将为在 Global ocean measurements 点采样的环境变量创建连续插值表面。

对环境栅格进行插值

Global ocean measurements 要素类包含来自生态海洋单位数据集的数据。 该图层包含需要作为仅存在预测中的预测变量的属性。 其中一些变量包括盐度、海洋温度和硝酸盐含量。 您将使用经验贝叶斯克里金法 (EBK) 地统计方法为存储在 Global ocean measurements 图层中的环境值创建插值栅格表面。 之后,您将在 USA_Train 点对这些栅格的值进行采样,以便仅存在预测模型可以访问每个训练点位置的解释性数据。

  1. 地理处理窗格中,单击后退箭头,然后在搜索框中输入 empirical bayesian kriging

    搜索“经验贝叶斯克里金法”工具。

  2. 右键单击搜索结果中的经验贝叶斯克里金法工具,然后单击批处理

    以批处理模式打开 EBK 工具。

    批处理经验贝叶斯克里金法页面随即显示。

  3. 对于选择批处理参数,单击下拉列表,然后选择 Z 值字段

    选择“Z 值字段”。

  4. 将其他参数保留为默认值,然后单击下一步
  5. 对于输入要素,单击下拉列表,然后单击 Global ocean measurements
  6. 对于批处理 Z 值字段,单击添加多个按钮。

    单击下拉列表,然后单击“添加多个”。

    随即显示字段列表。

  7. 选中以下七个海洋测量变量的框:tempsalinitydissO2nitratephosphatesilicatesrtm30,然后单击添加

    选中七个环境变量字段的复选框。

    单击添加时,字段将添加到工具窗格中。

    字段随即添加到工具中。

  8. 输出栅格更改为 EBK_%Name%

    将输出栅格更改为 EBK_%Name%。

    这将为每个字段创建一个名为 EBK_ 加上字段名称的栅格。

  9. 对于输出像元大小,将值更改为 25000
  10. 对于半变异函数模型类型,单击下拉列表,然后单击线性

    像元大小和半变异函数模型类型

  11. 展开附加模型参数部分,然后将各局部模型中的最大点数设置为 50
  12. 模拟半变异函数的数量设置为 50

    将点数和半变异函数数量设置为 50。

    这些设置通过限制每个模型中的点数和模拟半变异函数的数量来帮助提高 EBK 预测的速度。 增加这些值可能会提高预测的精度,但也会增加工具的处理时间。 要更好地理解这些参数,请参阅什么是经验贝叶斯克里金法?帮助页面。

  13. 展开搜索邻域参数部分,然后将搜索邻域设置为标准圆形,并将最小相邻要素数减少到 3

    设置搜索邻域参数。

    使用标准圆形搜索邻域可减少工具处理时间。 限制最小相邻要素数要求可确保:即使只有几个相邻要素,也可以估计未知位置的值。 有关这些参数和其他参数的详细信息,请参阅经验贝叶斯克里金法工具文档。

  14. 单击运行

    由于此工具将以批处理模式运行以生成七个单独的全局插值栅格,因此运行需要花费一些时间(大约五分钟)。

    该工具将完成并显示警告,指示多个要素忽略了 NODATA 值。 这不是问题。

    批处理经验贝叶斯克里金法工具运行完成后,所有海洋测量表面均会添加到地图中。 它们都应与显示硝酸盐浓度 EBK 模型的以下表面类似。

    EBK nitrate 图层

  15. 单击保存工程

    保存工程。

通过生成代表美国海岸线周围海草栖息地区域内海草存在位置的随机点,您已使用经验贝叶斯克里金法创建解释性栅格,以准备用于建模的数据。 接下来,您将使用训练数据创建一个模型来预测全球海草栖息地的存在概率。


预测栖息地并优化结果

现在您已经准备好数据,将使用“仅存在预测”工具来创建模型并进行预测。 仅存在预测使用最大熵方法 (MaxEnt),这是一种特别适合物种分布建模的机器学习方法,因为它可以处理缺失数据不可用的情况。

执行仅存在预测

您将使用仅存在预测 (MaxEnt) 地理处理工具来训练模型以预测海草栖息地并创建预测栅格,以显示世界海岸线周围海草栖息地的存在概率。 您将评估模型诊断并迭代建模过程以改进模型。

  1. 地理处理窗格中,单击返回箭头,然后在搜索框中键入 presence
  2. 在搜索结果中,单击仅存在预测 (MaxEnt)

    打开“仅存在预测”工具。

  3. 对于输入点要素,单击下拉列表,然后单击 USA_Train 图层。

    输入点要素随即设置为 USA_Train。

  4. 对于解释性训练栅格,单击添加多项按钮。

    单击“添加多项”按钮。

    随即出现栅格图层列表。

  5. 选中以下七个海洋测量栅格的复选框:EBK_dissO2EBK_nitrateEBK_phosphateEBK_salinityEBK_silicateEBK_srtm30EBK_temp,然后单击添加

    添加解释栅格。

    单击添加时,栅格将添加到工具窗格中。

    栅格已添加到工具中。

    这些均为连续测量栅格,因此未选中分类复选框。 该工具还将接受分类训练变量,您需要选中该框。

  6. 对于解释变量扩展(基函数),选中以下复选框:原始(线性)平方(二次)成对交互(乘积)平滑步长(铰链)

    已选中解释变量扩展,基函数

    基函数用于转换(或扩展)解释变量以将海草存在与感兴趣变量之间更复杂的关系纳入模型。 选择多个基函数以在模型中包含变量的所有转换版本,然后使用规则化从中选择性能最佳的变量。 在此情况下,您将选择除“离散步长”选项之外的所有选项,因为“平滑步长”和“离散步长”相对相似,仅选择其中之一可以节省处理时间。 查看工具文档以获取有关每个基函数的详细信息。

  7. 对于节数研究区域,接受默认值 10凸包

    接受“节数”和“研究区域”的默认值。

    节数是与平滑步长(铰链)基函数相关的设置,它可以指定变量的最小值和最大值之间的相等间隔数,同时创建正向铰链和反向铰链变换变量。 凸包设置意味着研究区域将被指定为所有输入训练点的凸包。 该工具可在研究区域中不包含存在点的区域内生成背景点,以代表可能不存在海草。

  8. 选中应用空间细化复选框。 将最小最近邻距离设置为 2,并为单位选择公里。 验证细化的迭代次数是否设置为 10

    空间细化部分

    这些设置通过移除彼此指定距离内的存在点和背景点来帮助最大程度地减少潜在的样本偏差,从而确保区域不会在空间上过度采样。 背景点之间的距离受解释栅格空间分辨率的影响,因此在这种情况下使用 2 公里的距离可防止与海草存在区域相比背景区域的过度采样。 使用多次迭代的细化允许工具对细化处理过程进行多次尝试,并选择保留最多训练点的选项。

  9. 请将输出训练模型文件框留空。

    您希望保存一个模型文件以便稍后共享分析结果,但需要在确定模型表现良好后再保存。

  10. 展开高级模型选项部分,并验证存在与背景的相对权重设置为 100存在概率转换(链接函数)C-log-log存在概率中断值0.5

    高级模型选项部分

    存在与背景的相对权重值 100 表示未知海草是否可能存在于工具生成的背景点位置。

    在这种情况下,可将 C-log-log 用于存在概率转换,因为这样海草在位置方面的模糊性最小(即海草没有移动或无需考虑迁移)。 存在概率中断值 0.5 表示概率大于 0.5 的位置被归类为存在。

  11. 展开训练输出部分,对于输出训练要素,键入 trainfeatures1

    此输出要素类将包含用于生成模型的训练要素(在本例中为存在点和背景点)。

  12. 对于输出响应曲线表,键入 rc1
  13. 对于输出灵敏度表,键入 sensitivity1

    训练输出部分

    输出响应曲线表输出灵敏度表有助于了解模型的性能。

  14. 展开预测选项部分,对于输出预测栅格,键入 seagrass_predict1

    预测选项部分

    此输出栅格将显示模型对海草栖息地存在可能性的预测。

  15. 确保匹配解释栅格表包含预测训练栅格的匹配值。

    匹配解释栅格部分

    先前,您指定了用于在美国沿海数据点上训练模型的解释栅格;现在,您将使用相同的栅格进行全球预测。 在某些情况下,您可能希望使用不同的解释栅格进行预测。 例如,您可以使用相同的海洋测量变量,但使用未来 50 年的预测值来评估气候变化如何影响海草栖息地和范围。

  16. 选中允许超出数据范围的预测框。

    由于您仅使用来自美国沿海地区的数据来训练模型,因此需要允许超出数据范围的预测才能进行全球预测。

    注:

    像这样在数据范围之外进行预测会导致预测的可靠性降低,尤其是在值远远超出训练数据范围的区域。

    稍后当您查看南极洲等地的预测结果时,请记住这一点,该区域的条件与美国海岸区别很大。

  17. 展开验证选项部分,对于重采样方案,单击下拉列表并选择随机,然后接受组数的默认值 3

    验证选项部分

    这些参数指示工具对模型进行 K 折交叉验证。

    该工具差不多做好运行准备了。 您将添加一个环境设置来限制在运行它之前处理的区域。

  18. 在工具窗格顶部,单击环境选项卡。

    单击环境选项卡。

  19. 向下滚动,在栅格分析部分,对于掩膜,单击下拉列表,然后选择 Global shallow waters 图层。

    为掩膜选择 Global shallow waters 图层。

    因为海草生长在浅水区,将处理过程限制在浅水区可以节省时间。

  20. 单击运行

    运行该工具将需要花费一些时间(大约两分钟)。

  21. 内容窗格中,取消选中复选框以关闭除 seagrass_predict1 图层和底图之外的所有图层。

    注:
    您可以按住 Ctrl 键并单击复选框以同时打开或关闭多个图层。 有关更多键盘快捷键的信息,请参阅文档。

    seagrass_predict1 图层和底图

    该地图显示了预测的海草栖息地区域,其中使用深紫色符号表示海草存在概率最高的区域。 在某些地区,预测可能不那么准确,例如南极洲,该区域的解释变量超出了训练范围。

评估预测

运行预测后,您将评估结果并确定是否需要对预测模型进行更改。 查看模型诊断并更新预测后,您将保存模型文件以与希望复制或扩展您的分析的其他人共享。

查看海草栖息地的预测区域,您如何确定所创建的模型是否有效,或者是否准确预测了感兴趣变量?

seagrass_predict1 图层和底图

在许多情况下,无法仅依据预测结果进行判断。 要评估您的模型,您需要查看训练数据和模型诊断。

  1. 内容窗格中,选中该框以打开 trainfeatures1 图层。
  2. 右键单击 trainfeatures1,然后单击缩放至图层

    缩放到 trainfeatures1 图层。

    显示了 trainfeatures1 图层。

    使用灰色和绿色点表示该工具创建的背景训练点,用于收集海草栖息地可能存在或不存在的位置的数据。

    这些数据点存在一个主要问题。 绝大多数位于陆地上空,这对于用于预测海草栖息地的模型来说没有意义。 这是模型的概念性问题,它强调了拥有特定领域知识并理解每个工具参数以确保正确指定模型的重要性。

    接下来,您将检查模型诊断以查看模型的执行情况。

  3. 地理处理窗格的底部,单击查看详细信息

    查看详细信息。

    注:
    打开历史记录窗格,右键单击仅存在预测 (MaxEnt),然后单击查看详细信息,可以访问详细信息窗口。

    详细信息窗口提供了有关您创建的模型及其性能的重要信息。 它还包含来自工具运行的所有警告。 在这种情况下,警告对于您的分析来说不是问题。

  4. 单击消息,然后向下滚动到模型汇总表。

    模型汇总表。

    此表显示了模型在给定存在概率中断值(在本例中为 0.5)和 AUC 值下的遗漏率。 AUC 为 ROC (Receiver Operating Characteristic) 曲线下的面积,它通过比较真假阳性率来衡量模型的性能。 较低的遗漏率和接近 1 的 AUC 值表明模型性能更好。

    注:
    您结果中的遗漏率和 AUC 值可能存在细微差异,这是由于 EBK 插值差异较小,具体取决于您的计算机硬件。

    模型 AUC(接近 1)很高,这表示性能较好,但是遗漏率(大于 0.15)也略高。 您还可以在详细信息窗口中查看其他信息以更好地了解模型,包括回归系数和交叉验证汇总。

    交叉验证汇总表和警告

    交叉验证汇总表显示 % 存在 - 已正确分类位于 82% 到 86% 的范围内。

    您将评估的模型的最后一个方面是响应曲线和灵敏度表。

  5. 关闭详细信息窗口。
  6. 内容窗格中,向下滚动到独立表部分,然后在 rc1 表下的图表部分中,双击连续变量的部分响应图表。

    双击“连续变量的部分响应”图表。

    连续变量的部分响应图表可视化每个解释变量值的变化对存在概率的影响,同时保持所有其他变量不变。

    “连续变量的部分响应”图表随即打开。

  7. 单击 EBK_SALINITY 图表。

    EBK_SALINITY 图表在右侧放大显示。

    单击较小的图表可以更好地查看右侧较大图表中的变量。 EBK_SALINITY 图表显示海草栖息地存在的概率在较小盐度值范围内急剧上升。

  8. 关闭连续变量的部分响应图表。
  9. 独立表部分 sensitivity1 表下的图表部分中,双击遗漏率图表,然后双击 ROC 图图表。
  10. 单击图表窗格的选项卡并拖动它们以排列图表,以便您可以一起进行查看。

    “遗漏率”和“ROC 图”图标一起显示。

    这两个图表为您先前查看的遗漏率和 AUC 诊断提供了更多背景信息。

  11. 遗漏率图表上,单击并拖动一个框以选择 0.5 中断值附近的点。

    在“遗漏率”图表上选择数据点。

    0.5 中断值是您在模型中使用的默认值。

    通过单击并拖动,可以选择“遗漏率”图表上的点,从而研究更改存在概率中断值对背景点分类的影响。

    降低中断值会增加归类为可能存在的背景点的比例。

  12. 关闭图表。

    您已经查看了模型结果并检查了一些上下文诊断数据。 现在,您将调整模型以处理在陆地上设置训练点的概念问题。

使用更好的研究区域重新运行模型

第一次运行模型时,在 USA_Train 要素图层中的点的凸包范围内创建了一组经过训练的分类点。 虽然这些点位于浅水区,但它们之间的大部分区域都被陆地占据。 现在,您将重新运行模型,但这次会将训练的分类点放置限制在浅水中的区域。

  1. 单击分析选项卡,然后在地理处理部分中单击历史

    打开地理处理历史记录。

  2. 历史记录窗格中,双击最上面的结果仅存在预测 (MaxEnt)

    打开从地理处理历史运行的“仅存在预测 (MaxEnt)”工具。

    以这种方式打开工具时,将填入所有先前的参数。

    注:
    重新填充地理处理窗格中的所有参数值可能需要一些时间。

    您只会更改一些工具参数。

  3. 仅存在预测 (MaxEnt) 工具上,向下滚动到研究区域参数,单击下拉列表,然后单击面研究区域

    选择面研究区域选项。

    工具验证完成后,将出现一个新参数。

  4. 对于研究区域面,单击下拉列表,然后单击 USA shallow waters

    选择 USA shallow waters 图层作为研究区域面图层。

    这会将可能的海草栖息地存在和不存在测试位置的区域限制在美国大陆周围的浅水沿海地区。

  5. 对于输出训练模型文件,键入 seagrass_model

    片刻之后,将填充工程文件夹结构中的路径,并将 .ssm 文件扩展名添加到模型名称中。

    训练好的模型文件名和路径

    您将在本教程的下一部分中使用该模型文件。

    注:
    通常情况下,您会在保存模型文件之前评估新模型以确保结果合适,但您现在将输出它以节省时间。

  6. 展开训练输出部分,并使用 2 更新输出名称以指示这是第二次运行。

    • 输出训练要素trainfeatures2
    • 输出响应曲线表rc2
    • 输出灵敏度表sensitivity2

    更新训练输出以显示这是模型第二次运行。

  7. 展开预测选项部分并使用 2 更新输出预测栅格名称以指示这是第二次运行。

    • 输出预测栅格seagrass_predict2

    更新输出预测栅格名称以显示这是第二次运行模型。

  8. 单击运行

    运行该工具将需要花费一些时间(大约两分钟)。

    工具完成后,图层将添加到内容窗格中。

  9. 内容窗格中,取消选中复选框以关闭除 seagrass_predict2 图层和底图之外的所有图层。

    第二组预测结果

  10. 内容窗格中,选中该框以打开 trainfeatures2 图层。
  11. 右键单击 trainfeatures2 图层,然后单击缩放至图层

    训练要素均位于浅水面内。

    训练要素(存在和背景位置)位于非陆地、沿海地区。

  12. 仅存在预测 (MaxEnt) 工具上,单击查看详细信息

    查看详细信息。

  13. 单击消息,然后向下滚动到模型汇总表。

    第二模型汇总报告

    检查遗漏率AUC 值。 请注意,AUC 与之前的模型相似,但遗漏率要低得多,表明模型性能更好。

    交叉验证汇总表显示 % 存在 - 已正确分类位于 95% 到 96% 的范围内。

    交叉验证汇总表

    您还可以浏览此新模型的灵敏度和响应曲线图表,并将它们与先前的模型进行比较。

  14. 关闭详细信息窗口。

比较预测

接下来,您将直观地比较两个模型的预测。

  1. 在功能区上,单击地图选项卡,在导航部分中单击书签,然后单击 Europe
  2. 内容窗格中,关闭除 seagrass_predict2seagrass_predict1Light Gray Base 之外的所有图层的可见性。

    两个海草预测图层随即在“内容”窗格中打开。

  3. 内容窗格中,单击 seagrass_predict2 图层。

    选择 seagrass_predict2 图层。

    栅格图层上下文选项卡随即出现在功能区上。 当在内容窗格中选择栅格图层时,此选项卡可用。

  4. 在功能区上,单击栅格图层选项卡。

    单击“栅格图层”菜单。

  5. 比较组中,单击卷帘工具。

    单击“卷帘”工具。

  6. 在地图窗格中,单击并在地图上向下拖动卷帘工具。

    使用“卷帘”工具在地图上单击并拖动。

    “卷帘”工具随即显示所选图层下方的图层。

    卷帘工具以交互方式隐藏所选图层并显示其下方的图层。 您可以使用此工具来探索您的第一次和第二次预测之间的差异。

    注意波罗的海周围的差异。 在初始模型中,波罗的海海草栖息地存在的预测概率非常低,例如,尤其是在丹麦哥本哈根附近。 在第二个模型中,该区域的预测概率增加。 海草草甸是波罗的海重要的碳热点,尤其是在丹麦周围的某些受保护海湾中,因此这有助于提高对新模型性能的置信度。

    您通常会继续探索模型预测并将它们与美国沿海水域以外的其他已知海草位置进行比较,但出于本教程的目的,您已准备好继续共享模型。

您使用 MaxEnt 预测了全球沿海地区的海草栖息地分布,使用仅存在预测工具迭代调整了参数,从而确保已正确指定模型。 接下来,您将记录模型并将其共享。


共享您的模型

现在,预测已经完成且已评估结果,下一步是使建模本身更加透明和可重现。 第二次运行仅存在预测工具时,您生成了一个空间统计模型 (.ssm) 文件。

您将向此文件添加变量描述和单位,以便模型得到完整记录并准备以进行共享。 无论您是否计划共享模型文件,在记录中维护记录模型文件,都有助于重新访问先前的分析,了解预期的输入变量及其单位,并查看模型的执行情况。 您可能还想与其他人共享该模型,例如希望在他们所在地区复制您的分析或通过使用更高分辨率的数据分析局部区域来构建您的工作的同事。

记录模型文件

要记录模型文件,请完成以下步骤:

  1. 地理处理窗格中,单击后退箭头,在搜索框中键入 describe spatial,然后在结果中单击描述空间统计模型文件

    搜索并打开“描述空间统计模型文件”工具。

  2. 对于输入模型文件,单击浏览按钮并展开工程文件夹SeagrassPredictionp30 文件夹。
  3. 单击 seagrass_model.ssm 文件,然后单击确定

    浏览至 seagrass_model.ssm 文件并将其打开。

    随即出现一条信息消息,提供有关模型的基本信息,包括模型类型和要预测的变量。

    有关模型的信息

  4. 单击运行
  5. 工具完成后,单击查看详细信息

    查看工具运行的详细信息。

  6. 展开详细信息窗口并查看其内容。

    模型参数详细信息

    提供了有关模型的许多详细信息,包括模型的创建日期、模型类型、预测变量和响应,以及模型特征和诊断,包括 AUC遗漏率

    最重要的是,输入位置和值不会在模型文件中公开,因此即使输入数据敏感(例如濒危鸟类的筑巢位置),您也可以共享模型。

    不存在关于要预测的变量和解释性训练栅格的描述单位字段的信息。 如果不了解每个变量代表内容及其单位,其他用户将无法使用此模型文件。 想象一下,如果用户假设该模型的温度测量单位是华氏度,而实际单位是摄氏度,他们的预测就会不正确。

    接下来,您将填写此缺失信息。

  7. 关闭详细信息窗口。
  8. 地理处理窗格中,单击后退箭头并在搜索框中输入 set spatial statistics,然后单击设置空间统计模型文件属性

    打开“设置空间统计模型文件属性”工具。

  9. 对于输入模型文件,单击浏览按钮并单击 seagrass_model.ssm 文件,然后单击确定

    列出了模型中使用的变量和栅格名称。 可以通过描述单位框向模型文档添加信息。

    浏览到模型文件。

  10. 要预测的变量部分的仅存在下,对于描述,键入 Seagrass habitat presence

    变量描述

  11. 要预测的变量部分的仅存在下,对于单位,键入 None

    对于 Presence-Only,单位为 None。

  12. 解释训练栅格部分中,将每个变量的描述单位填写如下:
    • 对于 EBK_DISSO2描述Dissolved oxygen单位ml/l
    • 对于 EBK_NITRATE描述Nitrates单位μmol/l
    • 对于 EBK_PHOSPHATE描述Phosphates单位μmol/l
    • 对于:EBK_SALINITY描述Salinity单位None
    • 对于 EBK_SILICATE描述Silicates单位μmol/l
    • 对于:EBK_SRTM30描述Depth单位Meters
    • 对于 EBK_TEMP描述Temperature单位°C

    解释训练栅格描述信息

  13. 滚动回工具顶部并单击输入模型文件框。

    这应会触发对您输入的变量的验证。 在某些情况下,如果在运行工具之前未触发工具验证,这些值会丢失。

  14. 单击运行
  15. 单击查看详细信息

    通过“设置空间统计模型文件属性”工具查看详细信息。

    该工具报告字段已更新。

    “描述”和“单位”已更新。

  16. 关闭详细信息窗口。
  17. 在地理处理历史中,双击描述空间统计模型文件工具。
  18. 单击运行,然后单击查看详细信息

    详细信息已更新。

    您已确认现已正确记录变量描述和单位,并且模型文件已准备好通过电子邮件、共享驱动器共享或在线共享。 可以保留此模型文件,以在将来运行其他预测或与可能希望运行其他预测的其他人共享。 例如,该预测使用了生态海洋单位 (EMU) 十年平均(50 年平均)数据,但另一位研究人员可能希望使用预测的海洋测量值进行预测,以了解海草分布在海洋变暖条件下可能发生的变化。

  19. 关闭详细信息窗口。

在本教程中,您准备了训练数据并创建了机器学习模型来预测全球沿海地区的海草栖息地。 您还通过记录模型文件与想要复制或构建您的工作的其他人共享,使您的分析可重现和可扩展。 推广开放科学是保护工作的重要组成部分,包括海草及其支持的生态系统。 本教程使用了一种简化的海草建模方法,在某些情况下,工具参数设置针对处理速度进行了优化。 以下资源提供了有关模拟海草栖息地的现实世界工作的详细信息:

  • Aydin, Orhun, Carlos Osorio-Murillo, Kevin A. Butler, and Dawn Wright. 2022. "Conservation Planning Implications of Modeling Seagrass Habitats with Sparse Absence Data: A Balanced Random Forest Approach." Journal of Coastal Conservation 26 (3): 22. https://doi.org/10.1007/s11852-022-00868-1.
  • Bertelli, Chiara M., Holly J. Stokes, James C. Bull, and Richard K. F. Unsworth. 2022. "The Use of Habitat Suitability Modelling for Seagrass: A Review." Frontiers in Marine Science 9. https://www.frontiersin.org/articles/10.3389/fmars.2022.997831.
  • McKenzie, Len J., Lina M. Nordlund, Benjamin L. Jones, Leanne C. Cullen-Unsworth, Chris Roelfsema, and Richard K. F. Unsworth. 2020. "The Global Distribution of Seagrass Meadows." Environmental Research Letters 15 (7): 074041. https://doi.org/10.1088/1748-9326/ab7d06.
  • Wang, Ming, Yong Wang, Guangliang Liu, Yuhu Chen, and Naijing Yu. 2022. "Potential Distribution of Seagrass Meadows Based on the MaxEnt Model in Chinese Coastal Waters." Journal of Ocean University of China 21 (5): 1351–61. https://doi.org/10.1007/s11802-022-5006-2.