使用基于森林的分类技术
建模物种分布的一种方法是使用常见的机器学习算法:随机森林。 ArcGIS Pro 中的基于森林的增强分类与回归工具提供两种算法以供选择:随机森林算法的改编版本或极限梯度提升 (XGBoost) 算法。 在本模块中,您将使用基于森林的算法,该算法根据作为训练数据集的一部分提供的已知值来训练模型,然后可将其用于预测未知值。 您将运行该工具两次,第一次用于训练初步模型并评估其精度,第二次用于改进模型并生成栅格预测图层。
设置工程
首先,您将下载物种分布建模所需的数据。 已将数据共享为工程包,可以在 ArcGIS Pro 中下载并打开此数据。 已对数据进行提取、裁剪和投影(处理过程如下所述)。 有关如何针对物种分布建模准备自己的数据的详细信息,请参阅教程针对物种分布建模准备数据。
- 下载教程数据。
- 双击 Hurricane_Elsa 工程包以打开 ArcGIS Pro。 如有必要,请使用获得许可的 ArcGIS 帐户进行登录。
此工程包含物种分布建模所需的数据。
- 野猪观测点来自 iNaturalist Observations。 Sus_scrofa_California 图层恰好包含这些观测点。 Sus_scrofa_California_absence_presence 图层还包含伪缺失点,即尚未观察到野猪的点,这是基于森林的回归建模的要求。
- 从 Bioclimate Baseline 1970-2000 图层中提取了代表有关温度和降水的 19 个环境变量的生物气候数据。 已将其投影至 NAD 1983 California (Teale) Albers (Meters) 并将其裁剪至加利福尼亚州。 经过裁剪的图层略微延伸至州边界之外,以确保可以提取位于州边界上或附近的观测点或伪缺失点的环境数据。
- 高程和坡度数据源自 USGS EROS Archive - Digital Elevation - Global Multi-resolution Terrain Elevation Data 2010,已将其投影至 NAD 1983 California (Teale) Albers (Meters) 并将其裁剪至加利福尼亚州。
- 土地覆被数据提取自 USA NLCD Land Cover,已将其投影至 NAD 1983 California (Teale) Albers (Meters) 并将其裁剪至加利福尼亚州。
训练基于森林的增强分类与回归模型
基于森林的增强分类与回归工具根据作为训练数据集的一部分提供的已知值来训练模型,然后可将其用于预测未知值。 可以在三种模式下运行此工具:仅训练、预测要素和预测栅格。 在本部分中,您将使用训练模式来创建初步模型。 运行该工具后,其将创建一系列图表和其他输出,帮助您评估模型的精度,并制定有关如何对其进行改进的决策。
- 在地理处理窗格中,搜索并打开基于森林的增强分类与回归工具。
您将运行该工具两次,第一次用于分析输入数据,第二次用于调整输入以获得更好的模型。 在生成预测之前,可以使用此选项评估模型的精度。 此选项将在消息窗口和变量重要性图表中输出模型诊断。
- 对于预测类型,选择 Train only并确保模型类型设置为 Forest-based。
基于森林的模型依赖于基于训练数据创建的多棵决策树。 决策树是一种类似流程图的图表,它使用已知结果的特征,并根据一系列决策确定未知数据点与其相匹配的可能性。 每棵决策树可以生成自己的预测并对结果进行投票。 模型将考虑所有决策树的投票,以预测或分类未知样本的结果。 另一个选项为梯度提升模型,该模型将使用原始数据按顺序创建每棵决策树。 每棵树都会更正之前的树的错误。
- 对于输入训练要素,选择 Sus_scrofa_California_absence_presence。 对于要预测的变量,选择 Presence 字段,然后选中将变量视为类别变量框。
此分析同时需要存在点和缺失点。 在 Presence 字段中,观察到野猪的位置将标注数字 1。 所有其他点将标注数字 0。 由于难以明确证明物种迁移的真正缺失,因此该图层将包含伪缺失点,或者一组随机采样的点,这些点表示未观察到野猪的位置。
- 选中包含所有预测概率框。
该参数将生成一个输出,其显示了类别变量中所有类别的概率。 在本例中,其将显示在给定位置缺失和存在的概率。
接下来,您将添加解释性数据。 解释变量可以来自字段,也可以根据距离要素计算解释变量或者从栅格中提取解释变量。 可以使用这些解释变量类型的任意组合,但所选输入类型将影响可用输出。 由于您希望最终输出是显示存在预测的栅格表面,因此您将使用解释训练栅格选项。
- 对于解释性训练栅格,单击添加多个。 选中相应复选框以添加所有 19 个生物气候变量、CA_Elevation、CA_Slope 和 CA_NCLD,然后单击添加。
- 在 CA_NLCD 变量旁,选中类别变量框。
模型的参数已设置完成。 现在,您将从训练运行中创建输出,由此可帮助您评估和改进预测模型。
- 展开其他输出部分。 对于输出训练要素,键入 fbbcr_output_trained。
此输出将通过显示已正确和错误分类的输入数据集数量来测试预测的精度。
- 对于输出变量重要性表格,键入 fbbcr_variable_importance。
输出变量重要性表格值包含模型中使用的解释变量及其重要性。 它将帮助您评估在模型初始运行中使用的众多解释变量中,对于预测野猪存在最重要的解释变量。 它还会创建一个图表,其中显示了运行过程中变量重要性的分布。
- 对于输出分类性能表格(混淆矩阵),键入 fbbcr_class_performance。
仅当因变量为类别变量并且部分输入数据用于验证时,此输出才可用。 输出表格将显示基于验证数据的每个类别中的真阳性 (TP)、真阴性 (TN)、假阳性 (FP) 和假阴性 (FN) 的数量。
- 展开高级模型选项组。
此组中的选项称为超参数,用于控制建模中使用的决策树的数量以及树的特征。 例如,增加森林或增强模型中的树数通常会导致模型预测更加精确,但计算模型所需的时间将更长。 较小的最小叶子大小值会导致模型易受到数据噪点的影响。 要更好地了解可能需要进行调整的参数,您将首先使用默认参数运行模型。 使用优化参数设置将帮助您进行这些调整。
- 选中优化参数框。
可以从多种优化方法中进行选择。 为了缩短处理时间,您将使用默认随机搜索(快速) 方法并优化模型精度。 对于优化目标(目标),您也可以选择其他多个选项,这些选项侧重于优化模型性能的各种指标。
- 对于参数集的运行次数,键入 10。
对于每个搜索点,随机搜索(稳健) 方法将使用 10 个不同的随机种子来构建模型,选取一组具有中位模型性能的超参数值,然后移至下一个搜索点。 该工具将搜索所有候选搜索点,然后选择一组具有最佳模型性能的超参数值。
- 对于模型参数设置,添加以下超参数:
- 参数:Number of Trees
- 下限:100
- 上限:500
- 间隔:10
注:
当输入超参数时,您可能会看到错误 110535 的错误指示符。 当完成输入超参数和测试条件后,错误将得到解决。
- 展开验证选项部分。 将验证的运行次数设置为 25。
该工具运行的次数越多,您对模型的信心则越高。 每次验证运行时,将采用不同的 10% 的数据来测试模型。 借助该工具的诊断,您可以比较训练运行与验证运行的精度得分。 您也可以更好地了解每个变量对整体预测的重要性。
- 对于输出验证表格,键入 fbbcr_out_validation。
此表格随附一个图表,其中显示了精度得分的分布。 该图表有助于评估模型的稳定性或者其是否需要改进。
- 单击运行。
当工具运行完成后,fbbcr_output_trained 图层随即添加至地图。
已创建的输出表将添加至内容窗格的独立表下。
注:
默认情况下,基于森林的模型每次运行都会对不同的随机训练数据样本进行采样,因此如果多次运行该工具,可能会得到不同的结果。
解释并改进随机森林模型
运行一次该工具后,您将使用工具诊断、图表和训练输出来评估该模型预测野猪存在的准确性。 您应该评估两个方面以决定要改进的参数:模型性能和解释数据相关性。 工具诊断将提供一系列统计数据,例如“模型袋外误差”和“分类诊断”,这些统计数据可帮助您评估是否应该更新参数或超参数。 Top Variable Importance 表格也会报告对预测影响最大的解释变量,由此可移除多余的数据。
当训练模型时,最佳做法是多次运行模型,测试不同的参数以进行改进。 由于时间原因,本教程仅限于运行两次该工具。 有关输出的附加分析,请参阅文档文章基于森林的增强分类与回归的工作原理。
注:
您的结果可能与本部分中给出的所有示例有所不同。 这种差异是由于工具执行的随机采样造成的。
- 当基于森林的增强分类与回归工具完成运行后,请单击地理处理窗格底部的查看详细信息。
注:
如果您已关闭地理处理窗格,您也可以从地理处理历史记录访问详细信息。 在功能区上,单击分析选项卡。 在地理处理组中,单击历史记录。 在历史记录窗格中,右键单击基于森林的增强分类与回归工具并选择查看详细信息。
该工具的详细信息包含所用参数的记录以及可帮助您解释结果的消息。
- 如有必要,请单击详细信息窗口中的消息选项卡。
第一个表格将显示模型特征,或者用于指定基于森林的模型的超参数。 由于您允许对参数进行优化,因此可能会使用比默认值 100 更多的树来运行该模型。 您的模型所使用的确切数量将有所不同,具体取决于其所采集的随机样本。
注:
该工具的警告表明读取某些输入要素时存在问题。 由于输入栅格的分辨率和范围(为了缩短处理时间并减小文件大小,会将这些栅格裁剪到加利福尼亚州),无法从栅格中将一些靠近海岸的观测点的信息提取到这些点。
- 向下滚动至 Model Out of Bag Errors 表格。
模型袋外误差 (OOB) 可帮助您评估模型的精度。 MSE(均方误差)基于模型精确预测要预测的变量值的能力。 将针对所用树数的一半以及所用树总数来计算这些误差。 如果针对两种树数所解释的误差和变异百分比相似,则可能无需增加所使用的树数。 由于要预测的变量为类别变量,因此将根据未看到森林中树子集的树中每个类别的错误分类百分比来计算 OOB 误差。
- 请注意 Top Variable Importance 表格中最重要的变量。
由于您使用的解释变量较多,因此每个变量的重要性将相对较低,但该表格仍然是一种非常有用的方法,由此可确定可能对野猪存在产生最大影响的变量。 您将使用此表格的结果,以及使用 fbbcr_variable_importance 输出创建的 Summary of Variable Importance 表格以减少下次运行该工具时使用的变量数量。
- 将 Training Data: Classification Diagnostics 表格中的得分与 Validation Data: Classification Diagnostics 表格中的得分进行比较。
Training Data: Classification Diagnostics 表格将报告模型在训练数据上的性能,验证表格将报告模型在未知数据上的性能。 如果模型在训练数据上的性能良好,但在验证数据上的性能非常差,则表明模型中可能存在过度拟合。 通常,F1-Score 和 MCC 越接近 1,则模型的性能越佳。
- 在 Validation Data: Classification Diagnostics 表格中,比较 Sensitivity 和 Accuracy 值。
此表格中报告的统计数据是模型性能的衡量标准。 敏感性是指将某个观察到的类别的要素正确预测为该类别的次数的百分比,准确性是在该类别的总观测次数中正确识别某个类别的次数。 这两个值均接近于 1,这意味着模型在验证运行期间已精确地对大多数点进行了分类。 可以通过打开使用 fbbcr_class_performance 表格创建的 Validation Performance 图表以图形格式查看敏感性信息。
- 关闭详细信息窗口。 在内容窗格的 fbbcr_output_trained 图层下,右键单击 Prediction Performance 图表并选择打开。
Prediction Performance 图表随即打开。 每个条柱代表预测类别,子条柱的颜色将反映实际类别。 该图表可用于显示模型正确预测感兴趣变量的频率以及出现问题的点。 由于您在选中包含所有预测概率参数的情况下运行模型,因此该图层中的每个点还包含野猪缺失或存在的概率。
虽然此图表显示了模型在输入训练要素上的性能,但使用 fbbcr_out_validation 表格创建的 Validation Accuracy 图表显示了模型在验证数据上的性能。
- 在 Prediction Performance 图表的 0 条柱中,单击较小的子条柱,其中显示了代表存在但被错误分类为缺失点的点。
将在地图上选择错误分类为“缺失”点的点。 这些点分散在整个州内。
- 在地图上,单击其中一个错误分类的点。 在弹出窗口中,向下滚动至 Probability 属性。
在显示的所选点中,根据该点的环境属性,缺失的概率为 57%,存在的概率为 42%。
- 在内容窗格的独立表下,对于 fbbcr_variable_importance 表格,双击 Distribution of Variable Importance 图表。
由于您已运行 25 次模型以进行验证,每次针对输入数据的不同子集,因此变量的重要性略有不同。 虽然变量的重要性有所不同,但前 12 个变量的重要性相当高:BIO15_Precipitation_Seasonality、BIO11_Mean_Temperature_of_Coldest_Quarter、 CA_Elevation、BIO3_Isothermality、CA_NLCD、BIO18_Precipitation_of_Warmest_Quarter、BIO6_Min_Temperature_of_Coldest_Month、BIO8_Mean_Temperature_of_Wettest_Quarter、CA_Slope、BIO1_Annual_Mean_Temperature、BIO14_Precipitation_of_Driest_Month 和 BIO12_Annual_Precipitation。
您将重新运行该工具,重点关注以上 12 个解释变量。 移除不太重要的解释变量将有助于降低过度拟合模型的可能性。
- 在地理处理窗格中的基于森林的增强分类与回归工具中,将预测类型更改为 Predict to Raster。
- 对于解释训练栅格,移除 Bioclimate 1、3、6、8、11、12、14、15、18、CA_Elevation、CA_NLCD 和 CA_Slope 之外的所有栅格。
- 对于输出预测表面,键入 fbbcr_feral_swine_prediction。
- 对于已在附加输出、高级模型选项和验证选项类别中创建的所有输出,请在输出名称末尾添加 suffix _top12。
由此将重新创建预测表面的每个输出,以便比较两个模型,从而确保您正在改进预测。
- 单击运行。
- 在内容窗格中,取消选中 fbbcr_output_trained 图层以将其关闭。 关闭评估模型首次运行时打开的所有表格和图表。
- 使用您所了解的关于模型诊断和输出表格的知识来评估新模型。
用于评估此模型的整体统计数据(包括 MSE、F-1 得分和 MCC)应有所改善。 与第一个模型不同,这次运行更倾向于错误地预测存在,而非预测缺失。 对于野猪来说,这可能是有益的,因为野猪种群适应性强,能够在各种条件下生存。
- 在内容窗格中,取消选中 fbbcr_output_trained_top12 图层以将其关闭。
fbbcr_feral_swine_prediction 图层是一个栅格,其中根据环境特征显示了可能存在野猪的位置。
在本部分中,您运行了两次基于森林的增强分类与回归工具以训练初步模型,并在生成栅格预测图层之前评估其准确性。 实际上,此过程可能需要两次以上的迭代才能达到预期的结果。 接下来,您将使用最大熵法来执行类似建模并比较结果。
使用 MaxEnt 技术
ArcGIS Pro 中用于物种分布建模的另一种方法是仅存在预测 (MaxEnt),该方法使用最大熵算法在已知存在位置和解释变量的情况下对现象的存在进行建模。 与基于森林的模型一样,可以多次运行仅存在预测以评估和改进模型,并生成物种存在的预测界面。 与基于森林的模型不同,您不需要同时包含存在点和缺失点(或者,在许多情况下为存在点和伪缺失点)的数据集,因此栅格表面将显示物种在某个区域中存在的概率,而非二元存在或缺失分类。
训练仅存在预测模型
在本部分中,您将使用仅存在预测工具的训练功能来生成初步模型。 由于您已使用基于森林的分类确定了最重要的解释变量,因此您也将在此工具中将其用作解释变量。
- 在地理处理窗格中,搜索并打开仅存在预测 (MaxEnt) 工具。
与许多回归技术(包括基于森林的增强分类与回归工具)不同,仅存在预测不需要背景点或伪缺失点。 与随机森林工具一样,特定类型的输入要素将产生不同的输出。 在本例中,由于您希望生成另一个栅格表面,因此您仅需要使用观测点。
- 对于输入点要素,选择 Sus_scrofa_CA 图层。
- 对于解释性训练栅格,单击添加多个。 选中相应复选框以添加与上次运行随机森林工具相同的变量:Bioclimate 1、3、6、8、11、12、14、15、18、CA_Elevation、CA_NLCD 和 CA_Slope。 单击添加。
虽然您可以使用所有 19 个生物气候变量运行此工具,但使用诸如随机森林等工具来了解变量对模型的重要性是一种较好的做法。 在构建模型时,必须在简化模型以减少过度拟合与创建足够强大的模型以进行准确预测之间找到平衡。
- 在 CA_NLCD 变量旁,选中类别变量框。
接下来,您将选择变量扩展。 不同的扩展可以帮助理清变量之间的关系。 随机森林模型中无需扩展,因为该算法可以自动处理因变量和解释变量之间的非线性关系。 可以使用解释变量扩展(基函数)参数在工具的一次运行中选择多个基函数,然后在模型中使用解释变量的所有变换版本。 通过规则化选择表现最佳的变量,规则化是一种在模型拟合和模型复杂性之间实现折衷的变量选择方法。
- 对于解释变量扩展(基函数),选中相应复选框以选择原始(线性)、平方(二次)和成对交互(乘积)。
原始(线性)函数是唯一适用于类别数据(例如土地覆被)的函数。 平方函数用于创建一种二次关系,可以更好地模拟物种与环境因素的关系,因为每个变量内都存在可形成物种理想栖息地的特定范围。 例如,在降雨量适中的区域生长的物种并不适合沙漠条件或雨林;该关系为抛物线型。 随着降雨率的增加,该物种栖息地适宜性的可能性也随之上升,而当降雨率超过某个点时,该物种栖息地适宜性的可能性会再次下降。 成对函数也有利于对环境条件进行建模,因为该函数可以表示环境条件之间的关系。
- 对于研究区域,选择面研究区域并选择 California 州边界图层作为研究区域面。
- 选中应用空间细化参数。
空间细化将应用于观测点和背景点,以减少潜在的采样偏差。 由于野猪观测数据由人员使用 iNaturalist 进行采集,因此可能会对有人员居住的区域以及存在使用 iNaturalist 应用程序来识别和报告各种物种的人员的区域都表现出偏见。 空间细化可以通过移除彼此靠近的点来降低偏差的影响,这些点可能代表对同一动物的多次目击,或者代表人与动物更有可能发生互动的保护区(例如国家公园)等。
- 对于最小最近邻距离,选择 1 千米作为该距离。
接下来的参数是模型的超参数。
- 如有必要,请展开高级模型选项。 对于存在与背景的相对权重,键入 1。
- 对于存在概率变换(链接函数),选择 Logistic。
在两个可用的存在概率变换函数中,当存在不是绝对值时,Logistic 是更好的选择。 例如,由于野猪可能不会停留在被观测到的地点,而是四处游荡以寻找食物和栖息地,因此 Logistic 函数是合适的。 由于您已选择使用 Logistic 函数,因此存在与背景的相对权重参数应该较低。 在本例中,您将为存在点和伪缺失点赋予相同的权重。
现在,您还需要接受存在概率中断值 0.5 - 此工具首次运行的诊断将帮助您确定是否需要不同的中断值来改进未来的运行。
现在,您可以选择希望该工具输出的诊断和图表。 该工具将输出组织为训练和预测输出。 主要区别在于训练输出对应于模型训练和选择中使用的数据,而预测输出对应于模型尚未暴露的数据。
- 展开训练输出组。 对于输出训练要素,键入 pop_output_trained。
此输出的结果将为一个要素类,其中包含训练模型中使用的点以及 3 个用于附加解释的图表。 该输出将符号化输入存在点和任何背景点,通过模型分类与观测分类之间的比较来创建这些点,由此提供了一种分析模型预测的可视化方法。
现在,您将跳过输出训练栅格。 运行初始模型并了解其在输入点要素上的性能后,即可创建栅格表面。 首次运行时,您将创建一个响应曲线表以显示每个输入栅格对预测的影响,以及一个灵敏度表,由此将帮助您确定存在概率中断值参数的良好值。
- 对于输出响应曲线表,键入 pop_response_curve;对于输出灵敏度表,键入 pop_sensitivity。
- 展开验证选项组。 对于重采样方案,选择随机,并将组数参数设置为 5。
重采样方案参数允许该工具进行交叉验证以评估模型的稳定性。 可将这些点随机分为五组,在执行交叉验证时,每组将被排除一次。
- 单击运行。
工具完成运行后,会将输出图层和表格添加至内容窗格。 随即将 pop_output_trained 图层添加至地图。
解释并改进仅存在预测模型
运行一次该工具后,您将使用工具诊断、图表和训练输出来评估该模型预测野猪存在的准确性。 工具诊断可帮助您评估模型的准确性,并报告正确分类的存在点和背景点的数量。 虽然初始训练运行的所有统计数据和输出都可以帮助您改进模型的各个方面,但在本部分中,您将重点关注“曲线下面积”和“遗漏率”统计数据,由此将帮助您为下次运行该工具确定合适的“存在概率中断值”参数。
注:
当训练模型时,最佳做法是多次运行模型,测试不同的参数以进行改进。 由于时间原因,本教程仅限于运行两次该工具。 有关输出的其他分析,请参阅文档文章仅存在预测 (MaxEnt) 的工作原理。
- 在内容窗格中,取消选中除了 pop_output_trained、California 边界图层以及底图之外的所有图层以将其关闭。
- 在地理处理窗格底部,单击查看详细信息以打开工具诊断。
针对此工具显示了一些警告。 与之前一样,一些靠近州边界的点可能没有可用的栅格信息。 未细化任何背景点,考虑到研究区域的大小,这并不一定是个问题。 最后,Land Cover 数据集中的其中一个类别(永久冰雪类别)的数据点少于 8 个。 可以使用 Explanatory Variable Category Diagnostics 表进一步探索此问题。
要查看的第一个表为 Count of Presence and Background Points 表,该表显示了模型的准确性。
- 在 Count of Presence and Background Points 表中,比较 Number of Presence Points 行以确定用于训练模型的点数以及被正确分类为存在的点数。
这两列的数值越接近,则模型的性能越好。 您也希望评估 Number of Background Points 行。 由于您将存在与背景的相对权重参数设置为 1,因此该数值应该相对较低。
Model Characteristics 表格用于记录所使用的模型参数。
- 在 Model Summary 表中,评估 AUC 值。
AUC,即曲线下面积统计数据,用于描述模型在将已知存在位置估计为存在以及将已知背景位置估计为背景方面的能力。 该值越高(最大值为 1),则模型的性能越好。 AUC 统计数据与遗漏率结合使用,用于显示被错误地分类为存在概率较低的存在点的百分比。 您将使用通过 pop_sensitivity 表格创建的图表进一步评估这两个统计数据。
- 向下滚动至 Regression Coefficients 表格。
此表格用于报告模型中最终使用的变量。 大多数变量以 product 一词作为前缀,表明通过成对交互(乘积)扩展对所使用的许多变量进行了变换。
最后两个表显示了采样数据所表示的数值范围。 在最后一个表格中,您可以查看 NLCD 数据并确定采样不足,由此导致以上所示警告的类别。
- 在 Explanatory Variable Category Diagnostics 表格中,确定采样值少于 8 个的类别。
在本示例中,类别 12 具有 4 个采样点。 根据 NLCD 图层的项目详细信息,类别 12 代表常年冰雪覆盖,加利福尼亚州的此类覆盖相对较少。 由于样本数量大致与现实世界中这种特定类型的土地覆被的存在相对应,因此您无需担心样本量。
接下来,您将查看为评估模型而创建的经过训练的要素和表格。 pop_output_trained 图层显示了模型中所使用的所有点。 存在点显示为已被模型预测正确或错误地分类。 背景点被分类为潜在的存在点或剩余的背景点。
- 关闭详细信息窗口。
- 在内容窗格的 pop_output_trained 图层下,双击 Classification Result Percentages 图表。
该图表显示了观测到的和预测的分类的比较。 您将首先分析模型正确分类的存在点的百分比。
- 在图表窗格的 Presence 列中,指向 Presence – Correctly Classified 子栏以显示数据的数字摘要。
在示例图像中,65.68% 的存在点已被正确分类。 这对于模型性能来说相当不错,但仍有改进空间。
改进该模型的方法之一是重新访问存在概率中断值参数。 您将使用 Omission Rates 和 ROC Plot 图表来确定此参数的更优值。
- 关闭 Classification Result Percentages 图表。
- 在内容窗格的独立表下,对于 pop_sensitivity 表,双击 Omission Rates 和 ROC Plot 图表以将其打开。
- 单击并拖动 ROC Plot 图表,以便您能够同时看到该图表和 Omission Rates 图表。
- 在 Omission Rates 图表中,选择默认存在概率中断值 0.5,并注意 ROC 图的 y 轴上的结果灵敏度。
在示例图像中,概率中断值为 0.5 导致遗漏率为 0.343,灵敏度为 0.657。 遗漏率是被模型错误分类为不存在的已知存在点的百分比。
结合使用 Omission Rates 和 ROC Plot 图表可以直观地显示不同的存在概率中断值参数值如何生成错误分类的存在点的不同比率。 虽然遗漏率接近 0 通常比较好,但减小中断值也会增加被分类为存在点的背景点的数量,从而降低模型的特异性。 由于野猪是适应性较强的食腐动物,在本例中,找到更多它们可能能够生存的区域将非常有用,因此您需要在特异性和灵敏度之间寻求一种平衡,从而显示更多存在点。
- 在 ROC Plot 图表上,单击 y 轴上值大约为 0.9 的点之一。
在示例模型中,灵敏度 0.9 将导致遗漏率为 0.098%。 为了获得此结果,您需要使用中断值 0.24 重新运行该工具。
- 在地理处理窗格中,对于存在概率中断值,键入 0.24。
- 对于已在训练输出组中创建的所有输出,在输出名称末尾添加后缀 _ppc。
您还将生成输出预测栅格。
- 对于输出训练栅格,键入 pop_trained_raster_ppc 并单击运行。
- 在内容窗格中,关闭除了 pop_trained_raster_ppc 图层、California 边界图层以及底图之外的所有图层。
- 使用您所了解的关于模型诊断和输出表格的知识来评估新模型。
与您之前已完成的基于森林的分析一样,这种建模方法通常需要两次以上的迭代。 利用您对参数和超参数的理解,您可以继续进行更改并比较输出的准确性,直到您找到适合您的数据和情况的最佳组合为止。
比较随机森林和 MaxEnt
本教程中使用的两种分析均可用于建模物种分布。 根据您的分析目标、可用的数据以及其他因素,您可以选择使用其中一种或两种方法进行您自己的建模。 与所有统计和分析方法一样,基于森林的分类和 MaxEnt 也有优缺点需要考虑。 在本部分中,您将比较已生成的输出预测表面并回顾这两种建模方法的一些优点。
- 在内容窗格中,打开 fbbcr_feral_swine_prediction 图层。
- 单击 pop_trained_raster_ppc 图层以将其选中。
- 在功能区上,单击栅格图层选项卡。 在比较组中,单击卷帘按钮。
- 在地图上,单击并来回拖动光标以比较两个栅格预测表面。
预测表面相似,这对于模型的准确性来说是一个积极的信号。
当使用空间统计方法进行预测时,您应该考虑每种方法的一些优势和局限性,以确保您根据分析目标和可用数据选择最佳方法。
基于森林的分类与回归
该方法的优势 其他注意事项 可以捕获因变量和解释变量之间未知或更复杂的关系。
需要存在点和缺失点(或伪缺失点)。
无需像仅存在预测那样指定关系。
虽然变量重要性有助于我们理解每个解释变量对模型的贡献,但解释变量重要性可能比较困难。 例如,您不知道此关系是正向还是负向。
仅存在预测
该方法的优势 其他注意事项 它为仅存在建模而设计,因此您无需准备缺失点。
您需要假设因变量和解释变量之间的关系。
在决定如何使用存在与背景的相对权重参数对背景点进行加权时,提供了更大的灵活性。
空间细化参数可用于控制缺失点。
输出栅格表面可提供有关野猪栖息地概率的更多详细信息,而非有关存在或不存在的二元决策。
在本教程中,您使用了两种分析技术对加利福尼亚州的野猪物种分布进行建模。 作为一种入侵物种,野猪对该州的生态系统和农业构成威胁。 这些建模技术可广泛应用于其他物种和现象。