显示数据

首先,您需要向地图添加数据表,作为具有属性的一组点要素。 在工作流的后面,可在建模过程中包含数据空间特征。

创建要素

您将下载带有房屋销售数据表的 ArcGIS Pro 工程包,然后根据其创建要素类。

  1. 下载金县房屋价格工程包。
  2. 浏览至已下载工程包的位置,双击 King_County_House_Prices.ppkx 工程将其在 ArcGIS Pro 中打开。 如果收到系统提示,请使用您获得许可的 ArcGIS 帐户登录。
    注:

    如果您没有 ArcGIS Pro 的访问权限或者 ArcGIS 组织帐户,请参阅软件访问权限选项

    工程随即打开。 地图的范围为华盛顿州金县。 在内容窗格的独立表部分中,有一个名为 kc_house_data.csv 的项目。

    该文件是一个逗号分隔值 (.csv) 文件,即一种经常用于交换数据表的格式。 文件的第一行包含字段名的逗号分隔列表,随后每行包含这些字段中每个字段的逗号分隔值。 在许多数据科学或机器学习工作流中,首要步骤之一就是使用笔记本将此文件读取到数据框中。 在本教程中,您需要将数据加载到地理数据库中作为一组点要素,然后使用 ArcGIS Pro 作为数据科学工作站。

    该表即会在地图视图下打开并显示。 您可以看到表字段名称和其中一些值。

  3. 在功能区上,单击分析选项卡。 在地理处理组中,单击工具

    工具按钮

    将出现地理处理窗格。

  4. 地理处理窗格的搜索框内,输入 XY 表转点
  5. 在工具搜索结果中,单击 XY 表转点

    搜索结果中的“XY 表转点”工具

  6. XY 表转点工具窗格中,对于输入表,选择 kc_house_data.csv
    注:

    如果当前使用的是非美式英语区域设置,使用随附的 kc_house_data_table 地理数据库表,而不是 .csv 文件。 在使用 XY 表转点工具导入 .csv 文件时,语言环境可能会影响输出字段的数据类型。 要从 .csv 文件中获取点并控制导入属性的数据类型,可以先将 .csv 文件导入到地理数据库表中,然后设置表转表工具中每个字段的数据类型。

  7. 对于输出要素类,输入 kc_house_data

    X 字段参数已使用 .csv 表中的 long 字段进行填充,而 Y 字段参数使用 lat 字段进行填充。 此数据集不含 Z 字段值,因此您可以将该参数留空。

    接下来,您需要为数据设置适当的坐标系。

  8. 对于坐标系,请单击选择坐标系按钮。

    “选择坐标系”按钮

    随即显示坐标系窗口。

  9. 在搜索框中,输入 HARN,然后按 Enter 键。
  10. 展开 Geographic Coordinate SystemNorth AmericaUSA and territories。 单击 NAD 1983 HARN

    NAD 1983 HARN 坐标系

  11. 单击确定。 在 XY 表转点工具窗格中,单击运行

    该工具随即运行。 完成后,点即会添加至地图。

  12. 关闭地理处理窗格。 关闭 kc_house_data.csv 表视图。

更改符号系统

在浏览数据之前,您需要更改默认符号系统。

  1. 内容窗格的 kc_house_data 下,单击点符号。

    “内容”窗格中的默认点符号

  2. 符号系统窗格的选项卡中,单击圆圈 3 符号。

    “圆形 3”符号

  3. 单击属性选项卡。 在外观下,对于颜色,选择孔雀石绿
    提示:

    在颜色选取器中,指向颜色查看颜色名称。

    颜色选取器中的孔雀石绿

  4. 对于大小,选择 4 磅。 单击应用

    地图上的符号随即更改。

    包含已符号化点的地图

  5. 关闭符号系统窗格。
  6. 快速访问工具栏上,单击保存按钮以保存您的工程。

    快速访问工具栏上的“保存”按钮

    注:

    可能会出现一条消息,警告您使用 ArcGIS Pro 当前版本保存此工程文件将使您无法在较早版本中再次将其打开。 如果您看到此消息,单击以继续。

浏览数据

接下来,您将浏览数据。 首先,您需要熟悉其属性字段及其含义。 然后,您将创建散点图矩阵,并探索属性之间的关系。

  1. 内容窗格中,右键单击 kc_house_data 图层,然后选择属性表

    该属性表包含 20 个属性字段,用于描述房屋和销售价格。 字段将在下表中列出:

    字段名字段描述

    date

    销售日期

    price

    最终交易金额

    bedrooms

    卧室数量

    bathrooms

    浴室数量

    sqft_living

    居住空间大小(以平方英尺为单位)

    sqft_lot

    地块大小(以平方英尺为单位)

    floors

    楼层数量

    waterfront

    房子是否位于海滨(1:是,0:否)

    查看

    房屋视图的分类变量

    condition

    房屋状况的分类变量

    grade

    基于金县分级系统的整体房屋等级

    sqft_above

    房屋面积,不含地下室(以平方英尺为单位)

    sqft_basement

    地下室面积(以平方英尺为单位)

    yr_built

    房屋建成年份

    yr_renovated

    房屋经过翻新的年份(如果经过翻新)

    zipcode

    房屋邮政编码

    lat

    房屋的纬度

    long

    房屋的经度

    sqft_living15

    2015 年居住空间大小(以平方英尺为单位)

    sqrt_lot15

    2015 年地块大小(以平方英尺为单位)

    一些字段包含特定值的代码。 下表介绍了 condition 字段的代码:

    编码条件描述

    1

    不佳

    需要大量维修。 房屋状况正在严重恶化。

    2

    一般

    需要立即进行一些维修。 需要进行大量延期维护。

    3

    平均值

    根据装修的年限,房屋的正常保养量。

    4

    良好

    超出房屋年限标准的条件。 这表示需要格外注意并已对其进行维护。

    5

    很好

    出色的家庭维护和更新;不是完全翻新。

    grade 字段包含不同系列的代码,下表介绍了这些代码:

    编码描述

    1–3

    达不到最低建筑物标准;通常为小房间或劣质结构。

    4

    通常为较旧的低质量建筑物。 此房屋不符合规范。

    5

    降低建造成本和工艺。 此房屋面积较小,设计简单。

    6

    目前符合建筑规范的最低等级。 使用了低质量的材料和简单的设计。

    7

    建造和设计的平均等级。 这在楼层和较旧的细分中很常见。

    8

    在建筑和设计方面略高于平均水平。 这种质量的房屋通常在外部和内部装饰中都使用较好的材料。

    9

    建筑设计更好,具有额外的外部和内部设计及质量。

    10

    这种质量的房屋通常具有高质量特征。 装修工程更好,并且可以在楼层平面图和更大的建筑面积中看到更多设计质量。

    11

    定制设计和更高质量的装修工程,增加了实木设施、浴室固定装置和更多豪华选择。

    12

    定制设计和优秀的建筑商。 所有材料均具有最高质量,并提供所有便利。

    13

    通常定制设计和建造,接近豪宅水平。 这些房屋拥有大量最高质量的橱柜、木质装饰以及高大的大理石门厅。

    view 字段使用以下代码:

    编码描述

    0

    Unknown

    1

    一般

    2

    平均值

    3

    良好

    4

    优秀

    下一步将探索数据以确定每个变量的值分布,并确定任何属性是正相关还是负相关。 散点图矩阵是一种通常用于此类数据探索的可视化技术。

  2. 关闭属性表。
  3. 内容窗格中,右键单击 kc_house_data,指向创建图表,然后选择散点图矩阵
  4. 图表属性窗格中,对于数值字段,单击选择。 通过 sqft_basement,检查 price 中的所有字段。

    为散点图矩阵选择的数值字段

  5. 单击应用

    图表视图将更新,以包含所选字段的散点图。

    显示变量对之间的关系的散点图矩阵

    注:

    可通过指向每个散点图查看其名称。 也可以拖动视图边界以增加图表大小。

    该图表汇总了成对的不同变量之间的关系。 通过单击下三角中的其中一个图表,可以使用散点图矩阵来探索关系;单击图表后,将在右上方显示较大版本的图表。

    为什么该图表对分析非常有用?

    您将用于开发评估模型的第一个回归模型是广义线性回归 (GLR)。 GLR 要求预测变量和目标变量线性相关。 您将使用此图表以查找与要预测的变量线性相关的房地产特征:房屋的销售价格。

    Price 是散点图矩阵下三角部分中的第一列。 第一列中的图表显示了不同房地产特征与房屋销售价格之间的关系。

  6. 单击 pricesqft_living 的散点图(从顶部开始的第一列第三行)。

    散点图列表中的 price 和 sqft_living 散点图

    矩阵拐角视图中的预览图将更新,以显示 pricesqft_living 的加大散点图视图

    price 和 sqft_living 的散点图

    居住空间大小 (sqft_living) 与价格之间存在正向线性关系。 居住空间的增大通常对应于房屋价格的增大。 该变量是 GLR 模型的良好候选项。

  7. 单击 bathroomsprice 的散点图(从顶部开始的第一列第二行)。

    price 和 bathrooms 的散点图

    浴室数量与价格之间的关系并未呈现很强的线性关系。 这表明浴室数量对该地区房屋销售价格的影响程度低于居住空间。

  8. 单击 bedroomsprice 数的散点图(从顶部开始的第一列第一行)。

    price 和 bedrooms 的散点图

    这两个变量之间似乎存在正线性关系。 但是,通过目测难以评估线性关系的强度。

  9. 图表属性窗格中,选中显示线性趋势框。

    “显示线性趋势”已选中

    单击此选项可向每个散点图添加最佳拟合线。

  10. 单击 pricesqft_living 的散点图。

    图表现在具有最佳拟合线和关联的 R2 测量。

    price 和 sqft_living 的散点图,其中包含最佳拟合线和 R2 值

    R2或 R2 是一个百分比值,用于指示根据两个变量的关系解释的数据变化量。 R2 的绝对值接近 1 表示较强的正线性关系,而值接近零表示较弱的线性关系。

    R2 为 0.49 时,表示 sqft_livingprice 之间的关系考虑了 sqft_livingprice 散点图中变化量的 49%。

  11. 图表属性窗格的矩阵布局下,对于右上角,选择 Pearson 相关系数。 对于对角线,选择字段名称

    矩阵布局的 Pearson 相关系数

    图表将更新,以显示 Pearson 相关系数值以及散点图图表。

    显示线性趋势和 Pearson 相关系数值的图表

    Pearson 相关系数 (Pearson's r) 用于量化变量之间的线性关系,或一个变量对另一个变量的影响。 Pearson's r 的绝对值接近 1 表示较强的正线性关系,而值接近零表示较弱的线性关系。

  12. 如有必要,单击 pricesqft_living 数的散点图。

    price 和 sqft_living 的散点图

    pricesqft_living 的 Pearson 相关系数值同样以黑色轮廓高亮显示。

    Pearson 相关系数的符号用于量化两个变量之间的关系类型。 Pearson 相关系数值为 0.7 时表示变量之间存在正线性关系。 正关系表示 sqft_living 的增大对应于 price 的增大,反之亦然。 负 Pearson 相关系数值表示一个变量的增大对应于另一变量的减小。

    散点图矩阵中的所有房地产特征均与价格成正关系。

  13. 单击 bathroomsprice 的散点图。

    Pearson 相关系数为 0.53 表示浴室数量与价格之间的正线性关系较弱。

  14. 单击 bedroomsprice 散点图。

    Pearson 相关系数为 0.31 表示卧室数量与价格之间的正线性关系较弱。 对于低于 1,000,000 美元的价格,卧室数量和价格呈现出不同的模式。 如果价格超过 1,000,000 美元,则这两个变量之间似乎存在较强的线性关系。

    这是分段关系的一个示例:当变量超过特定边界后,关系将发生变化。 分段关系的存在表明基于树的方法(例如基于森林的分类与回归)可能会导致评估更加精度。 目前请记住这一点;稍后,您将描述线性回归的变量。

    到目前为止,您已创建了一种理解变量之间关系的方法。 您的最初目标是构建一个精确的线性模型,用于将房屋的属性与其销售价格相关联。 可通过以下方式来实现此目标:

    • 查找与价格具有强线性关系的房地产特征。
    • 确保房地产特征彼此之间没有强线性关系(以避免多重共线性)。

    散点图矩阵可以进一步汇总多个关系,以便您能够描述要在分析中使用的房地产特征。

  15. 关闭 kc_house_data 图表视图和图表属性窗格。 保存工程。

您已检查了数据以准备执行线性回归分析。 您发现 sqft_living 与目标变量(房屋的销售价格)具有最强的相关性。 如果彼此之间显示较强关系的其他房地产特征与 sqft_living 位于相同线性系统中,则其可能会引发问题。 如果两个或多个房地产特征表现出多重共线性,则意味着您的变量在讲述同一故事。 例如,分析居住空间的总面积是否也表示卧室和浴室的数量非常重要,不同区域可能有所不同。 如果不解决多重共线性,则其可能会使您的模型结果偏斜。

接下来,您将创建 sqft_living 与房屋销售价格之间关系的线性模型。 如果模型的性能不佳,则可以将同样与房屋的销售价格密切相关的 grade 变量添加到线性系统中。


通过探索性回归确定市场驱动力

接下来,您将使用探索性回归来探索房地产特征与房屋销售价格之间的关系。 在探索性回归中,您正试图寻找一个模型,该模型能够精确地对房屋销售价格进行建模,并使您深入了解变量之间的关系,无论这些关系是正关系还是负关系。

创建广义线性回归模型

您将创建的第一种回归模型为广义线性回归 (GLR) 模型。 您将使用其中一个 ArcGIS 空间统计地理处理工具。

  1. 打开地理处理窗格。
    提示:

    要打开地理处理窗格,在功能区上,单击分析选项卡。 在地理处理组中,单击工具

  2. 地理处理窗格搜索框中,输入 generalized linear
  3. 单击广义线性回归(空间统计工具)工具。

    空间统计工具中的广义线性回归工具

    注:

    有些工具会在地理处理窗格搜索结果中以相似或相同的名称出现两次。 确保从正确的工具箱中选择工具,该工具将在工具名称旁边列出。

    您可使用广义线性回归工具来预测不同类型的因变量。 要使用的正确模型取决于因变量的类型。 由于您要预测连续变量(销售价格),因此将使用高斯模型来预测房屋的销售价格。

    如果您预测的目标变量为 0 或 1(二进制变量),例如房屋销售价格是否超过 500,000 美元,则可以使用此工具的二进制(逻辑)选项。

    如果目标变量为计数,例如竞标房屋的人数,则可以使用此工具的计数(泊松)选项。

  4. 广义线性回归工具窗格中,输入以下参数:
    • 对于输入要素,选择 kc_house_data
    • 对于因变量,选择 price
    • 对于模型类型,确认选择连续(高斯)

    广义线性回归参数

    接下来,您将选择回归模型的解释变量。 在散点图矩阵的探索中,您确定了 sqft_living 是一个非常好的变量,可用于预测房屋的销售价格。

  5. 对于解释变量,选中 sqft_living 对应的框。
  6. 对于输出要素,键入 valuation_sqft_living_glr

    您将创建多个 GLR 模型,因此建议您为不同的输出指定有意义的名称。 此名称用于指示预测变量和方法。

    您将不会在预测选项部分中定义任何输入。 目前,您将执行探索性回归,以定义一个模型来描述给定房地产特征的房屋价格。 换句话说,您正在努力了解房屋销售价格背后的潜在驱动因素。 在此阶段,您无需考虑将价格(预测)分配给尚未分配销售价格的房屋。 稍后,您将预测新房屋的销售价格,该工具的这一部分将非常有用。

  7. 单击运行

    该工具随即运行,完成后将显示警告:警告 001605:使用了以米为单位的弦距离来分析地理坐标(度、分、秒)的距离。

    之所以使用弦距离测量值是因为它们计算速度较快,并且可以准确估算实际测地线距离。 如果您的研究区域超过 30 度,则请确保投影数据。 弦距离无法准确估算超出 30 度左右的测地线距离。

    此工具的一种输出为标准化残差图。

    图层 valuation_sqft_living_glr 的标准化残差图

    深绿色和深紫色表示房屋的预计销售价格与房屋的实际销售价格之间存在较大程度的不匹配。

  8. 内容窗格的 valuation_sqft_living_glr 图层下,双击 Relationship between Variables 图表。

    Relationship between Variables 图表将显示由 GLR 执行的预测以及实际数据点。

    valuation_sqft_living_glr 的 Relationship between Variables 图表

    理想情况下,数据点应接近直线。 数据点越接近直线,则两个变量之间的关系越强。

    在此图表中,绿色表示房屋销售价格的低估,其中房屋的实际价格高于模型预测的价格。 紫色表示高估,其中预测价格高于房屋的实际价格。

  9. 关闭图表窗格和图表属性窗格。

    标准化残差地图中,深绿色的点似乎聚集在水体周围。 回归模型系统地低估了接近水体的房屋的销售价格。 与内陆房屋相比,居住空间大小的微小变化似乎可能导致水体对房屋价格产生较大变化。

    接下来,您将根据 GLR 输出评估全局诊断。

  10. 在功能区分析选项卡的地理处理组中,单击历史记录

    “历史记录”按钮

    将出现地理处理历史窗格。

  11. 地理处理历史记录窗格中,右键单击广义线性回归,然后选择查看详细信息

    查看上次运行 GLR 的详细信息

    将显示 GLR 工具结果详细信息窗口。

  12. 在 GLR 工具结果详细信息窗口中,单击消息选项卡。
    提示:

    您可以通过拖动窗口边缘来展开窗口。

    GLR 诊断部分中,校正可决系数值为 0.492830。 这是 pricesqft_living 的散点图上显示的相同 R2 值。

    GLR 诊断消息

    联合 F 统计量联合卡方统计量Koenker (BP) 统计量具有显著性,其中 P 值(Prob(>卡方))大约为 0(由于四舍五入而近似)。 这表明此模型定义的关系随机发生的概率约为 0。 换句话说,房屋的销售价格与 GLR 建模的居住空间面积之间存在具有统计显著性的关系。

  13. 关闭广义线性回归 (GLR)(空间统计工具)窗口和历史记录窗格。
  14. 保存工程。

您使用了 GLR 来确定 sqft_living 变量和 price 之间存在显著关系。 您还发现了 GLR 模型低估了接近水体的房屋的房屋价值。 接下来,您将通过添加另一个变量来解决这种低估,从而寻求改进的 GLR 模型。 您将使用 ArcGIS Online 中的数据在地理层面上丰富您的预测。


使用地理数据增强分析

接下来,您将添加来自 ArcGIS Online 的地理数据图层并使用它来增强您的 GLR 模型。

查找水体

由于您刚刚创建的 GLR 模型低估了水体附近房屋的价值,因此您需要将水体数据添加到地图中,并将其合并到 GLR 模型中。 可通过 GeoEnrichment 等方法使用地理信息增强数据的能力是 ArcGIS Pro 作为数据科学工作站的重要优势。

  1. 单击功能区上的视图选项卡。 在窗口组中,单击目录窗格

    “目录窗格”按钮

  2. 目录窗格中,单击门户选项卡,然后单击 ArcGIS Online 按钮。

    “目录”窗格上“门户”选项卡中的“ArcGIS Online”按钮

  3. 搜索 USA water bodies owner:esri_dm
  4. 右键单击 USA Detailed Water Bodies 图层包,然后选择添加至当前地图
    注:

    要区分 USA Detailed Water Bodies 图层包与 USA Detailed Water Bodies 要素图层,指向搜索结果中的项目。 可以使用图层包或要素图层完成工作流,但是要素图层存在可见性限制,导致其无法在当前地图范围内可见。

    “添加到当前地图”选项

    图层随即添加到地图。

  5. 放大至位于数据的中北部的大型湖泊,该湖泊在东海岸和西海岸被深蓝绿色的点包围。

    地图上的大型湖泊

  6. 单击功能区上的地图选项卡。 在选择组中,单击选择按钮。

    选择按钮

  7. 在地图上,单击湖泊。

    湖泊在地图中已选中

    蓝色轮廓用于高亮显示湖泊要素,表明该要素处于选中状态。

  8. 内容窗格中,右键单击 USA Detailed Water Bodies,然后选择属性表
  9. 在表底部,单击显示所选记录按钮。

    显示所选记录按钮

    单个所选要素将显示在表中。

    表中显示的所选要素

    水体要素服务将此数据表示为具有湖泊/池塘FTYPE 变量(表示要素类型)的面。 GLR 模型始终低估了华盛顿湖泊周围的房屋价值。 要素服务还包含诸如沼泽和溪流等水体类型,但是它们对销售价格的影响低于该地区中的湖泊。 您将在分析中使用与湖泊/池塘类型水体的距离。

  10. 地图选项卡的选择组中,单击按属性选择

    “按属性选择”按钮

  11. 按属性选择窗口中,确认已将输入行设置为 USA Detailed Water Bodies 并将选择类型设置为新建选择
  12. 表达式下,构建表达式 Where FTYPE is equal to Lake/Pond

    选择要素类型为“湖泊/池塘”的图层

  13. 单击应用
    注:

    请勿关闭按属性选择图层工具。

    所有湖泊/池塘要素将在地图上高亮显示。

    在地图上高亮显示的湖泊/池塘要素

    许多小的湖泊和池塘附近没有深蓝绿色点的聚类。 这表明较小的湖泊和池塘对 GLR 模型结果的影响与大型湖泊和池塘不同。 您将向选择表达式添加一个子句,以仅选择较大的水体。

  14. 按属性选择窗口中,单击添加子句

    “添加子句”按钮

    将使用 And 操作符将此新子句连接到第一个子句。 这对于此选择是正确的,但是对于其他工程,您可以使用 Or 操作符。

  15. 使用表达式构建器构建表达式 And SQKM is greater than or equal to

    已添加表达式子句

    该县中另一个较大湖泊的面积为 19.34 平方千米。 上述子句将过滤掉较小的水体。

  16. 单击 SQL 开关。 在 SQKM >= 的后面,输入 19.00

    19.00 已添加至 SQL 模式下的表达式

  17. 单击确定

    选择将发生变化,仅高亮显示 19 平方千米面积山的湖泊和池塘。 根据属性表,现在已选中 689 个要素。

  18. 关闭属性表。

导出湖泊要素

您只想分析选定要素,而不想分析图层中的其他要素。 接下来,您需要使用复制要素工具将所选要素导出到新要素类。

  1. 地理处理窗格中,单击后退按钮。 搜索并打开复制要素工具。
  2. 复制要素工具窗格中,对于输入要素,选择 USA Detailed Water Bodies。 对于输出要素类,输入 LargeLakes

    复制要素工具参数

    输入要素参数下将显示一条消息,告知您输入图层具有选择并显示将处理的选定记录数。 USA Detailed Water Bodies 图层包含整个美国的水体,但是您仅对华盛顿金县境内的水体感兴趣。 您需要更改工具的处理范围以将复制的要素限制为在 kc_house_data 图层范围内的要素。

  3. 单击环境选项卡。
  4. 处理范围部分中,对于范围,选择 kc_house_data

    范围参数

  5. 单击运行
    注:

    不要在运行工具后关闭地理处理窗格;您很快会返回该窗格。

    LargeLakes 图层将添加到内容窗格中。

    您不再需要 USA Detailed Water Bodies 图层,因此可以将其移除。

  6. 内容窗格中,右键单击 USA Detailed Water Bodies,然后选择移除
  7. 保存工程。

在 GLR 模型中使用与湖泊的距离

现在,您已捕获大型湖泊要素,可以使用它们在地理层面上丰富您的 GLR 模型。 空间统计工具箱中的回归工具允许您在分析中包含距离要素。 这些工具将自动计算从每个点到最近距离要素的欧氏距离,并将该距离用作输入变量。

  1. 地理处理窗格中,单击位于工具窗口底部的打开历史记录

    “打开历史记录”按钮

  2. 历史记录窗格中,右键单击广义线性回归,然后单击打开

    “打开”选项

    该工具将以上次运行广义线性回归 (GLR) 工具的参数打开。

    您将添加与湖泊的距离以增强 GLR 模型。

  3. 对于解释距离要素,选择 LargeLakes
  4. 对于输出要素,键入 valuation_sqft_living_d2lake_glr

    作为解释距离要素添加的 LargeLakes

  5. 单击运行

    工具随即运行,其结果将添加到地图中。 接下来,您将目视比较两次运行 GLR 工具的结果。

  6. 内容窗格中,确认已选择 valuation_sqft_living_d2lake_glr 图层。
  7. 单击要素图层选项卡。 在比较组中,单击卷帘

    卷帘按钮

  8. 单击位于该县北部的地图,然后在数据上拖动卷帘工具。
    注:

    根据在地图上的单击位置,可向上和向下或向左和向右卷帘。 可通过任一方式比较两个图层。

    在地图上拖动“卷帘”工具

    由于 valuation_sqft_living_d2lake_glr内容窗格中处于选中状态,因此在地图上拖动卷帘工具时,该工具将显示其下方的内容。

    对于两次运行 GLR,湖泊周围区域仍具有最高标准化残差。

  9. 单击功能区上的地图选项卡。 在导航组中,单击浏览
  10. 内容窗格中,双击 valuation_sqft_living _glrvaluation_sqft_living_d2Lake_glr 图层的标准化残差分布图表。
  11. 在图表窗格中,拖动其中一个图表的选项卡,然后将其停靠在图表窗格的右侧。

    图表停靠区

    现在您即可并排比较图表。 这两个分布图非常相似。

    标准化残差分布图表

    相似性表明通过增加与湖泊的距离并未改善估算误差。 如果包含与湖泊距离的 GLR 模型的效果更佳,则可以预期具有绿色和紫色暗色调的位置将更少(这些位置的标准误差更高)。

    添加距离要素并未改善 GLR 模型至少具有两个可能的原因: 首先,在 GLR 中计算的距离要素为欧氏距离或直线距离。 由于该区域中的大多数行驶均沿道路网络,因此直线距离可能不是从房屋到湖泊的道路行驶距离的合理表示。 其次,居住空间的大小及与水体变量的距离与房屋销售价格之间的关系可能不是线性关系。 对于这种情况,GLR 可能是一个过于简单的模型。

  12. 关闭标准化残差分布图表和图表属性窗格。
  13. 内容窗格中,取消选中 valuation_sqft_living_d2lake_glrvaluation_sqft_living_glr 图层并将其折叠。
  14. 保存工程。

您添加了与湖泊的距离作为 GLR 的变量,并将结果与原始 GLR 模型结果进行了比较。 由 GLR 建模的简单线性关系可能不适用于此数据集。 接下来,您将尝试更复杂的模型。


创建地区化的常规线性回归模型

接下来,您需要将县划分为多个区域,并针对每个区域运行单独的 GLR 分析。

检查数据中的区域

首先,您需要更改数据的符号系统以查找区域。

  1. 内容窗格中,右键单击 kc_house_data 图层,然后选择符号系统
  2. 符号系统窗格中,设置以下参数:
    • 对于主符号系统,选择分级色彩
    • 对于字段,选择 price
    • 对于,选择 10
    • 对于配色方案,单击显示名称复选框,然后选择黄-绿-蓝(连续)

    价格地图的自然间断点符号系统

    通过这种方式对数据进行可视化显示了独特的空间聚类,其中南部和西北部的聚类价格较低,而靠近水域的聚类价格较高。 与水域的邻近性在确定该区域的销售价格中起着至关重要的作用,并且价格在特定邻域中会逐渐变化。

    接下来,您将定义数据驱动的评估邻域,并在每个区域中执行 GLR。

  3. 打开地理处理窗格,如有必要,单击后退按钮。 搜索空间约束多元聚类工具并将其打开。

    您将使用此工具为具有相似居住空间大小的房屋确定具有相似市场价值的区域。

  4. 空间约束多元聚类工具中,输入以下参数:
    • 对于输入要素,选择 kc_house_data
    • 对于输出要素,输入 price_regions
    • 对于分析字段,选中 pricesqft_living
    • 对于空间约束,确认选择修剪型 Delaunay 三角测量
    • 对于聚类数评估输出表,输入 num_clusters

    “空间约束多元聚类”工具参数

    注:

    如果您未指定聚类数量,则该工具将自动选择可生成最均匀区域的数量。

  5. 单击运行
    注:

    如果该工具运行失败,保存工程,然后关闭 ArcGIS Pro 并重新打开。 打开工程,然后再次运行该工具。

    工具随即开始运行,并将新图层添加到地图中。

    空间约束多元聚类工具结果

    注:

    在运行该工具后,不要关闭地理处理窗格。 您很快会返回该窗格。

    结果中仅包含两个聚类。 您将检查优化的伪 F 统计量图表,以了解对数据进行聚类的其他方式。

  6. 内容窗格的独立表下,双击优化的伪 F 统计量图表

    优化的伪 F 统计量图表

    在此绘图中,您要寻找图表中的弯头或趋势,在这些位置添加其他区域不会显著降低聚类同质性。 在图表中,共有 8 个区域存在弯头。 在第八个区域后面,聚类数持续降低。

    这次您将针对 8 个区域重新运行该工具。 地理处理窗格已打开并显示该工具以及之前用于运行它的参数。

  7. 关闭图表和图表属性窗格。
  8. 地理处理窗格中,对于聚类数,输入 8

    聚类数参数

    您需要保持其他参数不变。 通过保持相同的输出名称,新工具输入将替换旧输出。

  9. 单击运行

    price_regions 图层即会添加至地图。 它包含八个聚类。

    具有 8 个聚类的空间约束多元聚类结果

  10. 内容窗格中的 price_regionsCharts 下,双击空间约束多元聚类箱形图

    空间约束多元聚类箱形图

    图表中的颜色与地图上聚类的颜色相匹配。 蓝色、绿色、黄色、棕色和紫色聚类的 pricesqft_living 高于第三个四分位数。 与绿色和棕色相比,蓝色对应于居住空间较小但价格较高的聚类。 该颜色可能指示该城镇的所需部分。 在地图上,蓝色聚类对应华盛顿湖东侧的区域。 在此聚类中,居住空间大小可能不是房屋销售价格的主要驱动因素。

    绿色区域位于华盛顿湖的一个岛上,与蓝色聚类相比,其居住空间更大,但价格却更低。

    对于价格低于第三个四分位数的区域,粉色聚类比红色和灰色聚类便宜,而平均居住空间大小与红色聚类相同。 这可能表明在粉红聚类中,对于相同居住空间大小,人们可以获得更便宜的房屋。 这可能也指示线性模型不起作用的原因。

  11. 关闭图表和图表属性窗格。

针对每个区域运行 GLR

接下来,您将在每个区域中执行 GLR。 要执行此操作,可按属性为每个聚类选择点集,然后针对每个选择运行 GLR。 因为存在 8 个区域,所以使用 ModelBuilder 来自动化过程将更加有效。

  1. 在功能区上,单击分析选项卡。 在地理处理组中,单击 ModelBuilder

    ModelBuilder 按钮

    模型视图随即显示。

  2. 单击 price_regions 图层并将其从内容窗格拖动到模型画布上。

    模型中的 price_regions 图层

  3. 在功能区的 ModelBuilder 选项卡的插入组中,单击迭代器,然后选择迭代要素选择

    迭代要素选择选项

  4. 在模型画布中,将箭头从 price_regions 拖动到迭代要素选择

    将 price_regions 连接到“迭代要素选择”的箭头

    随即显示下拉菜单。

  5. 在下拉菜单中,选择输入要素

    “输入要素”选项

    迭代要素选择项目和连接的项目将改变颜色。 接下来,您将调整工具参数,以便工具对八个聚类 ID 值中的每个值进行循环处理,并为每个值创建一个选择。

  6. 双击迭代要素选择
  7. 迭代要素选择窗口的按字段分组下,将字段设置为聚类 ID

    “按字段分组”参数设置为“聚类 ID”

  8. 单击确定

    迭代器具有两个输出。 I_price_regions_CLUSTER_ID 是所选要素图层,Value 是一个变量,用于保存当前选择的值。 在此情况中,值为每个聚类的 ID 值。

    接下来,您将广义线性回归工具附加到迭代器的输出。 由于迭代器循环浏览每个聚类,因此将针对每个聚类运行该工具。

  9. 地理处理窗格中,单击后退按钮。 搜索广义线性
  10. 在搜索结果列表中,将广义线性回归(空间统计工具)工具拖动到模型画布上迭代器的绿色 I_price_regions_CLUSTER_ID 输出旁。
  11. 在模型画布上,将箭头从 I_price_regions_CLUSTER_ID 拖动到广义线性回归,然后选择输入要素

    该工具将连接到输出。

    输出和 GLR 工具连接

    接下来,您需要调整 GLR 工具参数。

  12. 双击广义线性回归

    输入要素参数将设置为 price_regions:1,因为您已将迭代器的输出连接到该工具。

  13. 对于因变量,选择 price。 对于解释变量,选中 sqft_living

    因变量和解释变量

  14. 对于输出要素,输入 valuation_sqft_living_glr_region_%Value%

    输出要素参数

    在输出要素名称的末尾使用文本 %Value% 将变量 Value 的内容添加到该名称。 利用此命名方案,迭代器的每个循环将具有与正在分析的聚类相关的唯一名称。

  15. 单击确定
  16. 在功能区 ModelBuilder 选项卡的视图组中,单击自动布局

    自动布局按钮

    模型元素将自动排列。

    模型元素自动排列的模型

    输出预测要素输出已训练模型文件椭圆仍为灰色,因为这是您当前未使用的工具可选输出。

  17. ModelBuilder 选项卡的插入组中,单击实用程序,然后选择采集值

    “采集值”选项

    采集值输出值输出表实用程序即会添加至模型画布。

  18. 在模型画布上,将箭头从 valuation_sqft_living_glr_region_%Value% 拖动到采集值,然后选择输出值
    提示:

    如有必要,可选择任何对象并进行拖动,以重新定位。

  19. 右键单击输出值,然后单击添加至显示

    “添加至显示”选项

    现在,您的模型即可运行。

  20. 在功能区的 ModelBuilder 选项卡的运行组中,单击验证

    随即对模型进行验证。 现在,可随时运行该模型。

  21. ModelBuilder 选项卡的运行组中单击运行

    在模型运行时,工具项目将变为红色,指示其当前正在运行,并且模型结果窗口将显示每次运行 GLR 模型的结果。

    GLR 结果图层组(共有八个)随即添加到地图和内容窗格中。

查看模型结果

接下来,您将检查模型结果并重命名图层以更方便理解。

  1. 内容窗格中,对于 Output Values:valuation_sqft_living_glr_region_1,在图表下,双击变量之间的关系.

    Output Values:valuation_sqft_living_glr_region_1 图层的“变量之间的关系”图表

    随即显示图表视图。

    “变量之间的关系”图表

    此聚类的 R2 值已从 0.49 提高为 0.67 左右。 可以打开其他图层的图表,以查看其他区域的 R2 值。

  2. 关闭图表视图和图表属性窗格。
  3. 关闭模型视图。 单击保存模型。

    地图视图将再次变为活动状态。

    多区域 GLR 结果地图

    华盛顿湖周围地区的预测更加准确;但是其他地区(例如西雅图西区)的房屋价格被显著低估(深绿色)。 区域化模型存在放大问题的风险,这些问题与回归中的异常值相关。 下表汇总了每个区域的总体 R2:

    区域

    R 方值

    区域 1

    0.667345

    区域 2

    0.511873

    区域 3

    0.573594

    区域 4

    0.785343

    区域 5

    0.672591

    区域 6

    0.587296

    区域 7

    0.369590

    区域 8

    0.587235

    这些区域中每个区域的整体模型质量均高于您在整个数据集上运行的 GLR 模型的结果,但区域 7(包含异常值的较大区域)除外。 包含多个区域的代价是失去数学模型的简约性。 估价师针对城市的不同地区具有不同的数学函数,用于解释不同的趋势。 您需要提高复杂度,并在一个模型中使用整个数据集来寻找用于解释华盛顿州金县房屋销售价格的模型。

    在继续之前,您需要通过对模型的输出进行分组来整理内容窗格。 名为 Model Builder 的图层组中已包含所有 Output Values 图层 您将更新组名称并从每个图层中移除输出值文本。

  4. 内容窗格中,单击 ModelBuilder 图层组名称将其选中,然后再次单击以编辑其名称。 将该组重命名为 Regional GLR Model
  5. 通过删除 Output Values: 文本对 Output Values:valuation_sqft_living_glr_region_8 重命名。
  6. 通过移除 Output Values: 文本对剩余 7 个图层重命名。 折叠所有八个图层。

    图层和图层组已在“内容”窗格中重命名

  7. 单击 valuation_sqft_living_d2lake_glr 图层,然后按住 Shift 键同时单击 valuation_sqft_living_glr 图层。
  8. 右键单击所选图层,然后选择分组。 将图层组重命名为 Global GLR Model

    已创建并重命名为 Global GLR Model 的图层组

  9. 单击功能区上的地图选项卡。 如有必要,在选择部分中,单击清除以清除任何选择。
  10. 保存工程。

目前为止,您已经尝试两次将空间特征纳入分析中。 首先,您使用了距水体的距离作为预测因子。 然后,根据房屋的销售价格和居住空间的大小创建了数据驱动的区域,并执行了 8 个空间离散的回归模型。

接下来,您将使用地理加权线性回归对房屋价格进行建模。


对空间变化关系进行建模

接下来,您将使用“地理加权线性回归”和“基于森林的分类与回归”对房屋价格进行建模。

“地理加权线性回归”是一个连续变化的线性回归模型,用于标识目标变量(销售价格)与多个解释变量(房地产特征)之间的关系。 在使用之前,您需要测试变量之间是否存在具有统计显著性的空间关系。

标识变量之间的空间关系

首先,您将运行局部二元关系工具。 此工具将使用基于熵的方法来发现空间关系。 如果数据子集中的两个变量之间存在显著关系,则随机选择数据可明显增大熵。 如果不存在显著关系,则随机选择数据不会明显增大熵。 换句话说,如果两个变量之间存在要破坏的关系,则需要引入熵或随机检验。

如果没有要破坏的关系,则随机化可能不会改变两个变量之间的关系。 您可以在 Guo (2010) 中了解有关使用熵来发现关系的想法的详细信息。

  1. 地理处理窗格中,搜索局并打开部二元关系工具。
  2. 局部二元关系工具中,设置以下参数:
    • 对于输入要素,选择 kc_house_data
    • 对于因变量,选择 sqft_living
    • 对于解释变量,选择 price
    • 对于相邻要素的数目,输入 50

    为什么选择 50 个相邻要素?

    如果存在这种空间关系,则邻域应该足够大,才能捕获变量之间的显著关系。 您可能需要尝试各种值,但相邻要素的数目为 50 所房屋已足够大,可以信任回归诊断程序以了解局部回归是否适用于此数据集;同时,并且对于金县而言,它占整个数据集的比例非常小,由此局部回归将不同于 GLR 模型。

    这是回归统计功能概念的应用,当人口(华盛顿州金县的所有房屋)在感兴趣变量之间存在显著关系时,可以通过概率找到显著最佳拟合线(拟合误差低)。

  3. 对于输出要素,输入 local_rlns_sqft_living_vs_price

    “局部二元关系”工具

  4. 单击运行

    该工具随即运行 local_rlns_sqft_living_vs_price 图层并将其添加至地图。

    运行局部二元关系工具后的地图

    此图层的符号将显示在内容窗格中。

    “局部二元关系”符号

    对于许多邻域中的许多点,价格和居住空间之间存在正线性关系。 由于在这个大型数据集中绘制了太多彼此接近的点,因此存在最后可能绘制出正线性关系的风险,这可能会使其似乎在结果中起主导作用。 需要检查工具的地理处理结果以查看每个类的数量。

  5. 地理处理窗格的底部,单击查看详细信息
  6. 如有必要,在局部二元关系(空间统计工具)详细信息窗口中,单击消息选项卡。

    工具结果表明,大约 71.6% 的点呈正线性关系。

    “局部二元关系”结果

    该结果表明地理加权回归 (GWR) 可以对 50 个房屋邻域大小的 sqft_livingprice 之间的空间关系进行建模。

    但是,GWR 不仅使用局部子集简单地将直线拟合到某个位置,而且还实现了地理加权方案,该加权方案将对在邻域中观察到的局部回归预测变量进行加权。 观察变量之间的显著线性局部关系表明 GWR 模型将捕获局部关系,但这并非保证。

  7. 关闭详细信息窗口。 在地图中,单击分类为呈正线性关系(采用粉色符号)的任意点。
    提示:

    如果您发现因点相互邻近难以单击点,则可以进行放大。

    点的弹出窗口将显示该位置及其邻域处的局部关系图表。

    正线性关系点的弹出窗口

  8. 关闭弹出窗口。 单击显示凹函数关系的点(具有橙色符号)。

    凹函数关系点的弹出窗口

  9. 关闭弹出窗口并保存工程。

    您可以使用线汇总两个位置,并且仅报告通过在标识为在其邻域中具有统计显著关系的位置上检验不同的回归模型而检测到的关系类型。

    华盛顿州金县的大多数地区在邻域 50 中显示出具有统计显著性的局部关系。 此处,50 是有意义的邻域大小。 但是,该工具无法自动确定正确的邻域值,对于不同的数据集,应探索不同的邻域大小。

    如果您针对自己的数据运行此分析,则现在将以不同的邻域大小来运行该工具,以探索 sqft_livingprice 之间空间关系类型的变化。 您发现拥有局部线性关系的邻域大小应在下一步中的地理加权回归 (GWR) 工具中使用。

执行地理加权回归

您将使用与上一节中确定的相同空间关系概念来定义 GWR 模型:邻域包含 50 所房屋。

  1. 地理处理窗格中,单击后退按钮。 搜索并打开地理加权回归 (GWR) 工具。

    此工具可以使用不同类型的核来控制局部回归模型中邻域的权重。

    下图显示了核的示例。 该线显示了高斯核,其中每个相邻要素都会在回归中获得权重,较远的相邻要素将会获得较低的权重。 双平方核使用距离或多个相邻要素将核截断。 此模式由图中填充的曲线部分表示。

    GWR 核图表

    您将仅使用 50 个最近的相邻要素,通过双平方核来分配权重。

  2. 地理加权回归 (GWR) 工具窗格中,设置以下参数:
    • 对于输入要素,选择 kc_house_data
    • 对于因变量,选择 price
    • 对于解释变量,选中 sqft_living
    • 对于输出要素,输入 valuation_sqft_living_gwr
    • 对于邻域类型,选择相邻要素数
    • 对于邻域选择方法,选择用户定义
    • 对于相邻要素的数目,输入 50

    地理加权回归工具参数

    您要使用用户定义的邻域数,因此您可以使用大小为 50 个房屋的邻域(这是您之前使用局部二元关系工具确定的邻域数)。

    此工具还可以使用手动间隔线性搜索选项或者黄金搜索优化算法来选择相邻要素。

  3. 展开附加选项并确认已将局部权重方案设置为双平方

    双平方加权方法可确保在每个位置精确使用 50 个(或您指定数量)相邻要素。 高斯选项将使用数据集中的所有位置作为相邻要素(即金县的所有房屋),并针对其距离对其进行反加权。 双平方方法使用相同的加权方案,但未使用来自金县的所有房屋数据,而仅在每个位置使用 50 所房屋的邻域。

    接下来,您将设置系数栅格工作空间,该空间应为地理数据库。 该工具将执行局部回归并计算预测变量和截距项的空间变化回归系数。 可将描述这些空间变化系数的栅格表面写入此工作空间。

  4. 对于系数栅格工作空间,单击浏览按钮。 在系数栅格工作空间窗口中,单击数据库,然后选择 myproject2.gbd

    系数栅格工作空间窗口

  5. 单击确定。 在地理处理窗格中,单击运行

    工具随即开始运行,三个新图层即会添加至地图。 这些图层中有两个为栅格图层,您需要将其关闭。

  6. 内容窗格中,取消选中 valuation_sqft_living_gwr_SQFT_LIVINGvaluation_sqft_living_gwr_INTERCEPT

    显示 valuation_sqft_living_gwr 图层的地图

    与 GLR 模型一样,此 GWR 模型同样低估了湖泊附近的房屋。 此外,与 GLR 模型不同,它还低估了海洋沿岸的房屋价值。

  7. 对于 valuation_sqft_living_gwr 图层,在图表下,双击标准化残差分布

    GWR 的标准化残差分布图表

    大多数点的标准化残差接近 0。 与 GLR 模型相比,该模型的高估和低估(标准化残差超过一个标准差)更少。

    根据曲线的尾部,与 GLR 相比,GWR 残差较大(大于两个标准差)的位置较少。 这表明与 GLR 模型相比,GWR 更好地捕捉了价格变化。

  8. 关闭图表和图表属性窗格。
  9. 地理处理窗格中,单击查看详细信息。 在详细信息窗口总,滚动至模型诊断部分。

    GWR 模型诊断

    R2 值为 0.89,校正后的 R2 (AdjR2) 为 0.87。 与您之前运行的 GLR 模型相比,R2 高得多,表明这是一个更精确的模型。

  10. 关闭详细信息窗口。
  11. 内容窗格中,按住 Ctrl 键并取消选中 valuation_sqft_living_gwr

    地图中的所有图层不再可见。

  12. 选中以下图层以使其可见:
    • 世界地形图
    • 世界山体阴影
    • valuation_sqft_living_gsr_SQFT_LIVING
    • LargeLakes
  13. 右键单击 valuation_sqft_living_gwr_SQFT_LIVING,然后选择符号系统
  14. 符号系统窗格中,对于配色方案,选择黄-绿(连续)
  15. 对于拉伸类型,选择直方图均衡化。 关闭符号系统窗格。

    使用直方图均衡化拉伸类型符号化的地图

    内容窗格显示 valuation_sqft_living_gwr_SQFT_LIVING 图层的图例。

    GWR 评估地图的图例

    所有局部回归系数均为正。 这意味着 GWR 在居住空间大小与房屋销售价格之间建模了正关系。

    在两个大型湖泊附近,房屋栅格的销售价格相对于居住空间大小都有较高的斜率,这表明与内陆地区相比,靠近水的房屋中居住空间的微小变化对应于价格的大幅增加。 这是可以预期的,因为这些区域的销售价格会受到视野的极大影响,而视野无法使用居住空间大小来捕获。

    不应考虑栅格东向的内陆部分。 由于空间异常值,研究区域将进行拉伸,并且此数据集东部缺少足够的数据来信任在内插时的基础系数面。 您不应该关注点稀疏分布的区域中的系数,因为该算法会在位置与数据点之间插入系数。

    如何进一步改进此模型? 是否需要使用距离要素或第二个预测变量?

  16. 取消选中 valuation_sqft_living_gwr_SQFT_LIVING 图层以将其关闭。 保存工程。

检验分级变量

根据先前数据可视化,分级是另一个与价格线性相关的变量。 首先,您将使用局部二元关系工具来探索分级变量是否与房屋销售价格空间相关。

  1. 地理处理窗格底部,单击打开历史记录。 在历史记录窗格中,右键单击局部二元关系,然后选择打开

    该工具随即打开,其中包含您之前设置的参数。

  2. 局部二元关系工具窗格中,更改以下参数:
    • 对于因变量,选择 grade
    • 对于输出要素,输入 local_rlns_grade_vs_price

    grade 变量的局部二元关系参数

  3. 单击运行

    该工具将运行并将向地图添加图层,以显示 gradeprice 之间的显著线性关系。

    grade 和 price 之间的 GWR 关系

    GWR 是一个线性模型,与 GLR 一样,因此您需要考虑多重共线性问题。 您将通过在 sqft_livinggrade 之间执行局部二元关系分析来检查两个预测变量之间是否存在强局部线性关系。

  4. 局部二元关系工具中,更改以下参数:
    • 对于解释变量,选择 sqft_living
    • 对于输出要素,输入 local_rlns_grade_vs_sqft_living
  5. 单击运行

    grade 和 sqft_living 之间的 GWR 关系

    此地图表示两个预测变量之间存在强局部线性关系。 它表明,对于邻域 50,分级和居住空间的平方英尺之间存在显著线性关系。 请记住,在 GLR 中,应避免使用线性相关的解释变量。 此地图表明,如果同时包含分级和居住区域的平方英尺,则在局部邻域为 50 个相邻要素时,GWR 模型可能会由于多重共线性而失败。

    接下来,您将尝试同时使用这两个变量,以查看该工具是否失败。

  6. 历史记录窗格中,右键单击地理加权回归 (GWR) 工具,然后选择打开

    该工具随即打开,其中包含您之前设置的参数。

  7. 地理加权回归工具中,更新以下参数:
    • 对于解释变量,选中 grade。 确认已选中 sqft_living
    • 对于输出要素,输入 valuation_sqft_living_grade_gwr

    具有 sqft_living、grade 和 price 的 GWR 工具参数

  8. 单击运行

    如预期的那样,该工具将失败。

  9. 地理处理窗格的底部,指向失败消息。

    将出现一个窗口,其中显示错误消息。 错误消息指示原因为多重共线性。

    GWR 工具错误消息

    GWR 的局限性在于其不适用于空间聚类变量,而这些变量在房屋属性中很常见。 结果表明,在使用当前 GWR 模型时,您无法使用这两个变量来本地预测房屋的销售价格。

    GWR 提供了简洁的空间回归模式;但是,当成对的预测变量之间存在高度相关性时,其无法使用。

执行基于森林的分类与回归

您拥有一个丰富的数据集,其中包含要合并到回归模型中的预测变量。 接下来,您将使用基于森林的分类与回归 (FBCR) 模型。 这种类型的模型不受多重共线性影响,因为它不是线性模型,并且可以对大量预测变量(空间和非空间房地产特征)和目标变量(销售价格)之间的关系进行建模。 目前,GLR 和 GWR 将使用线来模拟 sqft_livingprice 之间的关系。 在本地或全球范围内,房屋面积的单位增加对应于房屋价格的增加。

  1. 地理处理窗格中,单击后退按钮。 在空间统计工具箱中,搜索并打开基于森林的分类与回归工具。
  2. 基于森林的分类与回归工具窗格中,设置以下参数:
    • 对于预测类型,选择 Train only
    • 对于输入训练要素,选择 kc_house_data
    • 对于要预测的变量,选择 price

    基于森林的分类与回归工具的参数

  3. 解释训练变量下,对于变量,单击添加多项按钮并选中以下变量:
    • bedrooms
    • bathrooms
    • sqft_living
    • sqft_lot
    • floors
    • waterfront
    • 查看
    • condition
    • grade
    • sqft_above
    • sqft_basement

    解释训练变量(所选变量)

  4. 单击添加

    您必须指出每个预测变量是否为分类变量。 如有疑问,请可以检查属性表以确保标识所有分类变量。 该工具会自动将字符串字段检测为类别,但是对于数值类别(例如整数),则必须手动标识类别变量。 在此数据集中,bedroomsbathroomsfloorswaterfrontviewconditiongrade 是以整数形式存储的分类变量。

  5. 分类下,选中 bedroomsbathroomsfloorswaterfrontviewconditiongrade 对应的框。

    分类变量

  6. 对于解释训练距离要素,选择 LargeLakes

    此工具与 GLR 工具一样,可以自动计算与要素的距离并将该距离用作输入。

  7. 展开其他输出。 对于输出训练要素,输入 price_predicted,对于输出变量重要性表格,输入 variable_importance

    其他输出部分

    FBCR 将为数据的随机子集定义决策树,并且每棵树进行预测,称为投票。 森林将这些投票汇总为平均值,然后报告最终预测。 数据子集的随机性意味着基于森林的模型具有不同精度的结果。 通过多次运行模型并定义 R2 的分布,可以评估训练数据的随机子采样对输出结果的影响,换句话说,即基于森林的模型的稳定性。

    在本例中,您将定义 20 次验证运行。 与树的数量一样,始终需要运行更多的验证。 最后,您将计算售价预测的不确定性。

  8. 展开高级森林选项。 对于树数,键入 1000

    树数参数已设置为 1000

    需要多少棵树? 答案是您愿意等待该工具处理的数量。 如果使用更多的树,则基于森林的分类与回归对异常值将更可靠,对随机数据选择将更稳定。 接受其余高级选项的默认值。

  9. 展开验证选项。 对于验证的运行次数,输入 20
  10. 选中计算不确定性框。 对于输出验证表格,输入 validation_r2

    验证选项部分

  11. 单击运行

    该工具随即运行。

    注:

    运行该工具可能需要花费超过 30 分钟时间。 在该工具完成后,不要关闭地理处理窗格。

    在该工具完成后,您需要先根据 20 个模拟来研究 R2 的分布。

  12. 内容窗格中,向下滚动至独立表部分。 在 validation_r2 下,双击 Validation R2 图表。

    验证 R2 图表

    FBCR 模型的平均精度约为 0.79。 该模型似乎非常稳定,因为在 20 次运行中,R2 将在 0.74 和 0.83 之间变化。 您的数值可能稍有不同。

    接下来,您将研究变量重要性。

  13. 内容窗格独立表部分中的变量重要性下,双击变量重要性分布图表。

    变量重要性分布图表

    两个最重要的变量为 sqft_livinggrade。 它们在 Y(重要性)轴上的显示位置最高。 在此处,重要性对应于基于整个森林模型中的变量执行树分割的次数。 数字越高,表示基于变量的树分割数量越多,即指示变量对森林模型结果的影响较高。 此图表明,gradesqft_living 将在模型的不同运行之间切换其重要性等级。 与大型湖泊的距离是该模型中第三大影响因素。

    R2 低于具有一个变量的 GWR 模型。 如何改善此模型?

    一种方法是移除重要性较低的预测变量。 您希望移除对模型不重要的变量,由此将不会针对特定的树随机选择这些变量,但是会牺牲更重要的解释变量。

    根据变量重要性分布图表,bedroomsconditionfloorswaterfront 变量是最不重要的变量。 请将其移除。

  14. 关闭两个图表和图表属性窗格。
  15. 地理处理窗格的解释训练变量部分中,指向 bedrooms 变量,然后单击移除按钮。

    “移除”按钮

  16. 移除 conditionfloorswaterfront 变量。

    其余变量

  17. 请更改以下参数:
    • 其他输出下,对于输出训练要素,输入 output_reduced
    • 对于输出变量重要性表格,输入 variable_importance_reduced
    • 验证选项下,对于输出验证表格,输入 validation_r2_reduced
  18. 单击运行
    注:

    运行该工具可能需要花费几分钟时间。

  19. 在该工具运行成后,在地理处理窗格底部,单击查看详细信息。 在工具详细信息窗口中,单击消息选项卡。

    模型特征部分中的森林参数显示了树深度范围,该范围指示所有树在进行预测之前会进行 26 到 43 次分割。 这意味着决策树捕获了预测变量中的可变性,因为其对应于目标变量中的可变性。

    模型特征部分

    模型袋外误差部分表示向模型添加更多树的影响:

    模型袋外误差部分

    解释的 MSE 和变体在 500 棵树和 1000 棵树之间变化不大。 由于几乎没有变化,因此可以说您的模型拥有足够多的树并收敛至其最大精度。

    可能会出现高原效应,在这种情况下,您必须继续增加树的数量,直到 MSE 和变化百分比解释了显著增加(至少提高 10%)为止。 即使最初无法确保这些指标的稳定性,但是仍然可以通过增加树的数量再次进行检验,以查看 OOB 误差性能是否出现重大变化。 如果出现剧烈变化,则明确指示需要使用更多的树,直到性能稳定为止。

    最高变量重要性部分显示了驱动森林模型的变量。

    最高变量重要性部分

    与水体的距离是第三个最重要的变量。

    训练数据是森林中的树所使用的数据。 R 平方对应于森林已看到的预测数据。 训练 R2 表示森林模型学习训练数据中现有模式的程度。 但是,模型之前未见验证数据,并且验证 R2 指示模型用于预测时的性能。

    诊断部分

    R2 为 0.945 时,表示 FBCR 模型可以高精度预测用于定义模型的数据。 验证 R2 为 0.78 表示此模型具有可推广性,也就是说,它也可以高精度预测未见的数据点。

    在回归问题中,可以将这些训练指标用作模型潜在质量的指标。 在根据训练模型进行实际预测时,如果要预测没有真正答案的数据,则无法计算这些指标 这些诊断表明,在给定训练数据的情况下,该模型可以很好地预测在其创建过程中所使用的数据,并将其推广至以前未见的数据点。

  20. 关闭详细信息窗口。 在内容窗格中,对于 output_reduced 图层,双击预测间隔图表。

    Prediction Interval 图表

    该图显示了预测的不确定性范围,其中蓝线为实际预测(也映射在输出要素类中)。 对于价格超过 1,000,000 美元的房屋,不确定性范围将迅速扩大。 呈现此趋势是因为这种昂贵房屋的样本量较小。 对于价格超过 1,500,000 美元的房屋,不确定性范围更大,因为在此价格范围内,样本数量将更少。 在给定训练样本的情况下,该图是显示与预测相关的不确定性的有用方法。

  21. 关闭图表和图表属性窗格。 保存工程。

评估不确定性的空间分布

最后,您需要评估 FBCR 模型不确定性的空间分布。 目前,模型返回了 P95 和 P05,分别表示房屋价格的较高和较低估值,以量化基于模型的不确定性。 换句话说,结果中的不确定性归因于模型包含训练数据和 FBCR 模型。 如果该工具返回 100,000 美元作为预测,90,000 美元作为 P05,120,000 美元作为 P95,则意味着该模型预测为 100,000 美元,但是对训练数据进行微小更改可能会导致预测低至 90,000 美元或高达 120,000 美元。

这种不确定性对于量化非常重要,因为您并不总是知道您是否有足够的样本来精确地建模房屋销售价格。 您将添加一个新字段,以包含将从工具输出中得出的不确定性指标。 此指标将在一个字段中汇总三个值:P05、预测 (P50) 和 P95。

  1. 地理处理窗格中,搜索并打开添加字段工具。
  2. 添加字段工具窗格中,设置以下参数:
    • 对于输入表,选择 output_reduced
    • 对于字段名称,输入 uncertainty
    • 对于字段类型,选择双精度型(64 位浮点型)

    “添加字段”工具的参数

  3. 单击运行

    工具随即运行并添加字段,但是地图中不会出现更改。

  4. 地理处理窗格中,单击后退按钮。 搜索并打开计算字段(数据管理工具)工具。

    您需要将不确定性字段定义为:

    Uncertainty = (P95-P5)/P50

    该指标将量化不确定性窗口相对于预测幅度的宽度。

  5. 计算字段工具窗格中,设置以下参数:
    • 对于输入表,选择 output_reduced
    • 对于字段名称,选择 uncertainty
    • 表达式下,对于 uncertainty =,键入 (

    “计算字段”工具的参数

  6. 字段列中,双击 PRICE_P95

    PRICE_P95 字段

    文本 !Q_HIGH! 即会添加至方程式框。 此文本是由感叹号分隔的字段名称。

  7. 单击减号按钮,然后双击 PRICE_P05。 键入 )

    该表达式现在显示为:(!Q_HIGH! - !Q_LOW!)

  8. 单击除法按钮,然后双击 PRICE(Predicted)

    完整的表达式显示为:(!Q_HIGH! - !Q_LOW!) / !PREDICTED!

  9. 单击验证按钮。

    “验证”按钮

    随即显示一条消息,告知您表达式有效,意味着可以无错误运行。

  10. 单击运行

    该工具随即开始运行,并根据表达式计算字段。 不会对地图进行任何更改。

    接下来,您将对不确定性字段运行热点分析,以研究 FBCR 预测不确定性中是否存在空间模式。

  11. 地理处理窗格中,单击后退按钮。 搜索并打开优化的热点分析工具。
  12. 优化的热点分析工具窗格中,输入以下参数:
    • 对于输入要素,选择 ouput_reduced
    • 对于输出要素,输入 output_reduced_HotSpots
    • 对于分析字段,选择 uncertainty

    “优化的热点分析”工具参数

  13. 单击运行

    生成的地图显示,不确定性在数据集的南半部较高,而在北半部则较低。

    不确定性热点地图

  14. 保存工程。

    结果表明,华盛顿金县北部的销售价格预测不太可能随训练数据的随机变化而变化。

您已使用“地理加权线性回归”和“基于森林的分类与回归”对价格进行建模。 您还探索了结果的不确定性。 接下来,您将使用这些模型对新的采样点执行评估。


比较模型的预测

两个模型的 R2 均可接受,均高于 0.75(根据所需精度,该数值可能会更高)。 第一个是使用 sqft_living 构建的 GWR 模型,第二个是刚刚构建的 FBCR 模型。 一个模型非常简洁,而另一个模型具有更高的预测能力。

您的公司已在华盛顿州雷德蒙德建造了新房屋,这里是华盛顿州金县增长最快的房屋建造区域之一。 您将使用这些模型来执行评估并比较结果。

使用 GWR 执行评估

首先,您将应用 GWR 模型进行评估。 现在,您需要在预测模式下运行 GWR。 地理加权回归工具会将针对 kc_house_data 开发的模型应用于 new_homes 数据集。

  1. 地理处理窗格中,单击打开历史记录
  2. 历史记录窗格中,右键单击最近成功运行的地理加权回归 (GWR) 工具,然后选择打开
    注:

    要确定工具是否已成功运行,指向该工具。 随即显示的弹出窗口将声明工具是运行失败还是已完成但包含警告。

    该工具随即打开并显示您之前设置的参数。

  3. 对于解释变量,确认选中 sqft_living 并取消选中 grade。 对于输出要素,确认输出名称为 valuation_sqft_living_gwr
  4. 展开预测选项部分,然后更改以下参数:
    • 对于预测位置,选择 new_homes
    • 对于输出预测要素,输入 new_home_valuation_gwr

    已更新的预测选项参数

  5. 单击运行

    new_home_valuation_gwr 即会添加至地图和内容窗格。

  6. 内容窗格中,右键单击 new_home_valuation_gwr,然后选择缩放至图层。 一直缩小到可以看到图层位置的更多上下文。

    显示使用 GWR 预测模型显示新房屋评估的地图

使用 FBCR 执行评估

接下来,您需要使用 FBCR 预测值。 您将在预测模式下运行基于森林的分类与回归工具。

  1. 历史记录窗格中,右键单击最近成功运行的基于森林的分类与回归工具,然后选择打开
  2. 基于森林的分类与回归工具窗格中,对于预测类型,选择预测至要素

    预测类型参数

  3. 对于输入预测要素,选择 new_homes。 对于输出预测要素,键入 new_home_valuation_fbcr

    基于森林的分类与回归工具中的已更新参数

  4. 单击运行
    注:

    工具完成运行所需的时间可能超过 15 分钟。

    工具完成后,new_home_valuation_fbcr 图层即会添加至地图。

    使用 FBCR 的新房屋评估结果

  5. 保存工程。

使用直方图比较结果

您已经为规划的开发生成了两个售价估算值。 接下来,您将比较这些结果。 在预测模式下,您不会收到真实的结果,指示一个估算值。 您可以根据其邻域中价格方面的一致性来评估结果。

首先,您需要比较模型输出的直方图。

  1. 内容窗格中,右键单击 new_home_valuation_gwr 图层,指向创建图表,然后选择直方图
  2. 图表属性窗格的变量下,对于数值,选择预测 (PRICE)

    使用 GWR 模型的新房屋估价的图表属性窗格

  3. 使用 PRICE(Predicted) 属性,为 new_home_valuation_fbcr 图层创建直方图。
  4. 拖动 new_home_valuation_fbcr 图表并将其停靠在 new_home_valuation_gwr 图表的右侧。

    现在,可以并排比较图表。

    并排的图表

    价格范围和平均值相似。 对于给定的房地产特征,这些新房屋的均价约为 770,000 到 849,000 美元。 对于 GWR,该地区的房屋售价上限为 1,505,000 美元;对于 FBCR,则为 1,327,000 美元。

  5. 关闭两个图表窗口和图表属性窗格。

    对于该地区的房屋价格,kc_house_dataset GWR 估算更加合理。 这是 GWR 的优势之一;它会在考虑邻域的情况下分配值。 但是,kc_house_dataset 中的所有房屋均为已存在的房屋,其状况或等级低于这些新房屋。 FBCR 使用整个金县此类房屋的模式,根据整个数据集进行估算。

比较每平方英尺的估价

新房屋的属性存在较大差异。 要正确理解销售价格预测,您需要计算每平方英尺的价格。 您需要将来自 GWR 和 FBCR 的预测合并到一个要素类中,以进行进一步比较。

在连接预测值之前,您需要更新字段名称以相互区分。

  1. 内容窗格中,右键单击 new_home_valuation_gwr,指向数据设计,然后选择字段

    随即显示图层的字段视图。

  2. 字段视图的字段名称下,双击 PREDICTED。 输入 Predicted_GWR,然后按 Enter 键。

    即会更新字段名称

    字段名称已更新为 Predicted_GWR

  3. 别名下,双击 Predicted (PRICE)。 键入 GWR Prediction,然后按 Enter 键。
  4. 在功能区字段选项卡的更改组中,单击保存
  5. 内容窗格中,右键单击 new_home_valuation_fbcr,指向数据设计,然后选择字段。 更改以下字段:
    • 字段名称下,将 PREDICTED 更改为 Predicted_FBCR
    • 别名下,将 PRICE(Predicted) 更改为 FBCR Prediction

    字段名称已更新为 Predicted_FBCR,别名已更新为 FBCR Prediction

  6. 在功能区字段选项卡的更改组中,单击保存。 关闭这两个字段视图。

    接下来,您需要连接 GWR 结果和 FBCR 结果。

  7. 地理处理窗格中,搜索并打开空间连接工具。 设置以下参数:
    • 对于目标要素,选择 new_home_valuation_gwr
    • 对于连接要素,选择 new_home_valuation_fbcr
    • 对于输出要素类,输入 price_comparison
    • 展开字段。 在字段映射下,对于输出字段,单击移除按钮删除所有字段,SOURCE_IDsqft_livingPredicted_GWRPredicted_FBCR 除外。

    “空间连接”工具的参数

  8. 单击运行

    工具随即开始运行,新图层将添加到地图中。 接下来,您需要创建新字段来计算每个预测模型的每平方英尺预测价格。

  9. 内容窗格中,右键单击 price_comparison,指向数据设计,然后选择字段
  10. 字段视图中,单击单击此处添加新字段。 使用以下参数创建一个字段:
    • 对于字段名称,键入 GWR_PSQFT
    • 对于别名,键入 GWR (price per square foot)
    • 对于数据类型,选择双精度
  11. 使用以下参数创建另一个新字段:
    • 对于字段名称,键入 FBCR_PSQFT
    • 对于别名,键入 FBCR (price per square foot)
    • 对于数据类型,选择双精度

    您现在有两个新字段。

    GWR_PSQFT 和 FBCR_PSQFT 已添加到字段属性表。

  12. 在功能区字段选项卡的更改组中,单击保存。 关闭字段视图。

    在添加用于保存每平方英尺价格值的字段后,您需要基于预测值和各个房屋的居住空间面积来计算值。 您将创建一个表达式,用于将 GWR 预测的价格除以居住空间。

  13. 地理处理窗格中,搜索并打开计算字段(数据管理工具)工具。 设置以下参数:
    • 对于输入表,选择 price_comparison
    • 对于字段名称(现有或新建),选择 GWR (price per square foot)
    • 对于表达式,构建以下表达式:!Predicted_GWR! / !sqft_living!

    计算字段参数

  14. 单击运行

    您需要在更改某些参数后再次运行工具,才能反映 FBCR 而不是 GWR。

  15. 计算字段工具窗格中,将字段名称(现有或新建)更改为 FBCR (price per square foot)。 对于表达式,创建以下表达式:!Predicted_FBCR! / !sqft_living!

    此表达式用于将 FBCR Prediction 值除以居住面积。

  16. 单击运行

    在计算完两个字段后,您需要对其进行比较。 箱形图是比较两个分布的好方法。 您将使用箱形图来比较两种方法的每平方英尺估算价格。

  17. 内容窗格中,右键单击 price_comparison 图层,指向创建图表,然后选择箱形图
  18. 图表属性中,对于数值字段,单击选择。 选中 GWR (price per square foot)FBCR (price per square foot) 旁边的框,然后单击应用

    箱形图的变量

    箱形图将更新并显示 GWR 和 FBCR 模型估计的每平方英尺的价格。

    每平方英尺估算价格的箱形图

    FBCR (price per square foot) 的箱形图横杠上的长须表示少量房子的价格显著高于其他所有房子的价格。 GWR (price per square foot) 的箱形图的比 FBCR 的面积大,这表明预测的第一个和第三个四分位数相距较远。 换句话说,与 FBCR 相比,GWR 预测的每平方英尺价格变化更大。

    两种方法的每平方英尺中位数价格几乎相同。 FBCR 框内中位数线的位置指示预测的分布偏左,这意味着模型经常预测了较高的每平方英尺价格。 这一结果可能是由于金县的全球模式显示了与新房屋相关联的高价 - FBCR 分析中使用的等级变量提供的信息。 GWR 预测围绕平均值对称,显示更均匀的分布。

  19. 关闭箱形图和图表属性窗格。 保存工程。

映射 FBCR 预测不确定性

FBCR 和 GWR 预测的分布显示出相当大的差异。 您将研究预测点 FBCR 的不确定性。

  1. 右键单击 new_home_valuation_fbcr 图层,指向数据设计,然后单击字段
  2. 添加一个名为 P95_minus_P5 的字段,然后将类型设置为双精度型。 保存更改,然后关闭字段视图。
  3. 地理处理窗格中,打开计算字段工具,然后更改以下参数:
    • 对于输入表,选择 new_home_valuation_fbcr
    • 对于字段名称,选择 P95_minus_P5
    • 对于表达式,创建以下表达式:!Q_HIGH! - !Q_LOW!
  4. 单击运行
  5. 内容窗格中,关闭 price_comparisonnew_home_valuation_gwr 图层。
  6. 右键单击 new_home_valuation_fbcr,然后选择符号系统
  7. 符号系统窗格中,设置以下参数:
    • 对于字段,选择 P95_minus_P5
    • 对于,选择 10
    • 对于配色方案,选择绿色(连续)

    P95_minus_P5 图层的符号系统参数

  8. 符号系统窗格底部的选项卡中,单击更多,然后选择格式化所有符号

    格式化所有符号选项

  9. 如有必要,单击属性选项卡。
  10. 外观下,对于轮廓宽度,键入 0.5。 对于大小,输入 10

    格式化符号轮廓宽度和大小参数

  11. 单击应用

    图层已使用新的符号系统更新。

    Difference 地图

    深绿色表示预测的不确定性范围较高。 一些房屋的不确定性范围高达 170 万美元。

  12. 内容窗格中 new_home_valuation_fbcr 下的图表部分中,双击 Prediction Interval
  13. 图表属性窗格中,对于日期或数值,选择按预测值排序 ID。 对于数值字段,选择 FBCR PredictionPRICE_P05PRICE_P95

    Prediction Interval 图表

    除了价格高于 100 万美元的房屋之外,所有房屋的不确定性范围约为 40 万美元。 该模型显示,来自金县的训练数据的微小变化都会导致房屋的预计销售价格发生重大变化。 与 GLR 或 GWR 不同,FBCR 不会进行外推。 如果在训练中的训练数据最高价格为 120 万美元,则模型预测高于此价格的任何价格都将具有较高的不确定性。 而且,由于价格最高的房屋相对较少,因此此类房屋的不确定性将较高。

  14. 关闭图表和图表属性窗格。 保存工程。

在比较 FBCR 模型和 GWR 模型时,两种方法在本质上都不优于另一种方法。 它们只是满足了不同的评估需求。 GWR 模型定义了房屋销售价格的空间模型,并使用在地理上不断变化的权重来表示销售价格的 Hedonic 模型(Can,1992 年)。 相反,FBCR 定义了房屋属性与其全球销售价格之间的关系。 由于某些因素在没有空间变化的情况下,对全球房屋价格产生了一定影响,因此这对理解非常有价值(François 等, 2005 年)。

在此方法比较中,GWR 更适用于捕获与价格有关的空间变化。 它还适用于开发本地价格模型,在该模型中,预测的房屋价格对于该社区而言是合理的。 但是,由于多重共线性,您无法将等级变量用作 GWR 的预测因子。 相比之下,FBCR 通过使用华盛顿州金县所有地区的类似物来模拟新房屋状况的影响。 此模型会造成房屋价格较高,如果结构的等级非常高,并且开发人员考虑以比邻域中其他房屋高得多的价格将其列出,则这可能有意义。 FBCR 中的不确定性分析表明,可能需要重新评估价格高于 100 万美元的昂贵房屋的价格。 GWR 模型显示了华盛顿州雷德蒙德地区的合理价格,但未考虑新房屋的状况。

本教程中的工作流在 ArcGIS Pro 中使用不同的假设和复杂程度展示了回归模型。 可视化是回归分析的重要组成部分,用于理解重要变量并探索变量之间的关系。 GLR 是使用全局线性模型将探索性变量与目标变量相关联的最简单模型。 该模型非常有用,因为它是最容易理解的回归模型。

GWR 定义了随位置变化的线性模型。 GWR 将在每个位置处求解线性回归模型,其中将使用空间核对来自邻近要素的预测变量进行加权,邻近要素比较远要素对回归模型的影响更大。 GWR 系数表面也是一种可视化解释变量与目标变量之间关系的空间变化的有效方法。 局部二元关系 (LBR) 是探索两个变量之间空间关系类型的有用工具。 解释变量与目标变量之间的 LBR(定义了主要的局部线性关系)表明 GWR 模型将为有效模型。 定义大量线性关系的两个解释变量之间的 LBR 表明,如果在 GWR 模型中共同使用这些变量,则 GWR 可能存在多重共线性。

最后,基于森林的分类与回归 (FBCR) 模型定义了基于森林的模型,以将解释变量与目标变量相关联。 尽管算法比较复杂,但是 FBCR 仍然能够将各种解释变量与连续或离散的目标变量相关联。 FBCR 将产生有价值的诊断信息,例如变量重要性图,该图可以量化解释变量在回归模型中的影响。 尽管 FBCR 模型具有灵活性,但其仍对用于定义模型的训练数据非常敏感。 在销售价格示例中,如果某些价格范围不足,例如昂贵房屋(超过 100 万美元)的数量较少,则基于森林的模型在这些范围内并不准确。 此外,FBCR 无法预测训练数据集中超出目标变量范围的部分。

您可以在教程库中找到更多教程。