创建热点图
如果您需要资金来巩固债务,支付婚礼费用,度假,修理房屋或支付意外账单,您是否会申请在线贷款? 在过去的几年里,数百万人给出肯定回答。 如果您选择加入他们,您的利率会是多少? 大多数人认为信用评分差将导致利率更高。 这种假设是否有效?
纽约作家兼 GIS 新手 Jonathan Blum 希望了解更多信息。 根据美国 2007 年 8 月至 2015 年 9 月的贷款数据(由 LendingClub 提供并按 3 位邮政编码区域汇总),他打算确认人们在线贷款支付的平均利率是否因地理位置而有所不同。
首先,您将创建一个热点图,图中将显示具有统计显著性高利率或低利率的区域。
打开工程
您将下载并打开一个包含由 3 位邮政编码区域汇总的贷款数据的 ArcGIS Pro 工程。
- 下载 online-lending-data 压缩文件夹。
- 右键单击下载的文件夹,然后将其解压到容易找到的位置,例如 Documents 文件夹。
- 打开 online-lending-data 文件夹。
该文件夹包含带有数据的文件地理数据库、索引文件夹、ArcGIS Pro 工程文件和 ArcGIS 工具箱。
- 如果您计算机上已安装 ArcGIS Pro,请双击 OnlineLending 工程文件(可能具有 .aprx 扩展名)。 如果收到系统提示,请使用您获得许可的 ArcGIS 帐户登录。
注:
如果您没有 ArcGIS Pro 的访问权限或者 ArcGIS 组织帐户,请参阅软件访问权限选项。
该工程包含美国大陆的地图。 它具有州轮廓图层和包含贷款数据的 ZIP3 区域图层。 (ZIP3 区域是由标准 5 位邮政编码的前三位数字定义的几何)。
您将打开贷款数据的属性表以熟悉其数据。
- 在内容窗格中,右键单击 ZIP3 Loan Data 并选择属性表。
随即打开表。 每个 ZIP3 区域都包括一个标识符、已提交贷款申请总数、已发放贷款总数(接受的贷款)、所有已发放贷款的平均利率、所有已发放贷款的平均贷款等级排名以及家庭总数。
LendingClub 为其收到的每个贷款申请分配贷款等级,范围从 A1(最低利率)到 E5(最高利率)。 这些贷款等级被转换为简单的数字排名进行分析。 A1 贷款等级排名为 1,A2 贷款等级排名为 2,依此类推。 排名越高,贷款风险越大。
- 关闭表。
选择包含至少 30 笔贷款的地区
为了确保每个 ZIP3 区域报告的平均利率既可靠又具有代表性,您将着重分析包含至少 30 笔贷款获得资助的 ZIP3 区域。 首先,您将运行按属性选择图层地理处理工具,以选择包含 30 笔或更多已发放贷款的所有 ZIP3 区域。
- 在功能区上,单击分析选项卡。 在地理处理组中,单击工具。
将出现地理处理窗格。 此窗格包含大量可在数据图层上使用的工具。
- 在地理处理窗格中,搜索并选择按属性选择图层。
该工具随即打开。 您可以设置多个参数来更改其运行方式。 首先,您将选择运行该工具的表。
- 对于输入行,选择 ZIP3 Loan Data。
接下来,您将创建一个子句,以便选择包含 30 笔或更多贷款的 ZIP3 区域。
- 构建表达式 Where Number of loans issued is greater than or equal to 30。
- 单击运行。
选择包含 30 笔或更多已发放贷款的 ZIP3 区域。 接下来,您将创建仅包含所选 ZIP3 区域的图层副本。 您将能够使用复制的图层进行后续分析。
- 在地理处理窗格中,单击后退按钮。
返回到工具的可搜索列表。
- 清除现有搜索文本。 搜索并打开复制要素工具。
- 对于输入要素,选择 ZIP3 Loan Data。 对于输出要素类,保留默认文件路径并将输出名称更改为 ZIP3_Analysis_Data。
运行此工具时,将仅复制所选要素。 如果未选择任何要素,则将复制所有要素。
注:
默认情况下,输出图层将创建为地理数据库要素类。 此格式通常优于 shapefile 格式,因为 shapefile 属性字段名称可能会被截断,并且不支持某些功能。
- 单击运行。
ZIP3_Analysis_Data 图层将添加到内容窗格中。 您将使用其进行其余分析。 您不再需要 ZIP3 Loan Data 图层,因此您可以将其从地图中移除。
- 在内容窗格中,右键单击 ZIP3 Loan Data 图层,然后选择移除。
- 在快速访问工具栏上单击保存按钮。
分析利率热点
要创建平均贷款利率的热点图,您将使用热点分析 (Getis-Ord Gi*) 工具。 此工具可识别具有统计显著性的高值和低值聚类。
- 在地理处理窗格中,搜索并打开热点分析 (Getis-Ord Gi*) 工具。
- 对于输入要素类,选择 ZIP3_Analysis_Data。 对于输入字段,选择 Average Interest Rate。
- 对于输出要素类,将输出名称更改为 Interest_Rate_Hot_Spots。
热点分析 (Getis-Ord Gi*) 工具将分析其相邻要素上下文中每个要素值的统计显著性(在本例中,每个 ZIP3 区域的平均利率)。 空间关系的概念化参数将定义被视为相邻要素的要素。
ZIP3 区域的大小差异很大。 美国西部的区域通常远大于东部的区域。 因此,将相邻要素定义为与另一要素相邻的要素将导致分析比例在全国范围内不一致,从而使结果产生偏离。
此参数的默认选项,固定距离范围,通过与被分析要素的距离来定义相邻要素。 此参数的优势是可以保持研究区域中的分析比例一致,从而确保结果更精确。
- 对于空间关系的概念化参数,确认选择固定距离范围。
您还可以指定要素被视为相邻要素的距离。 如果未设置距离,则工具使用最小距离以确保每个要素至少具有一个相邻要素。 有时,此设置会导致某些要素只有一个相邻要素,而某些要素具有数千个相邻要素,这通常不是最佳选择。
对于此项分析,各条贷款记录已经聚合到 3 位邮政编码区域,因此使用最小有效分析距离适用。
- 将距离范围或距离阈值参数留空。
接下来,您将应用错误发现率校正,该校正会调整结果以考虑多重测试和空间依赖性。
- 选中应用错误发现率 (FDR) 校正。
- 单击运行。
该工具随即运行。 它将计算每个 ZIP3 区域以及所有相邻 ZIP3 区域的平均利率。 如果当地平均利率明显高于全国范围内所有 ZIP3 地区的平均利率,则被分析的 ZIP3 区域被指定为热点。 反之如果明显低于,则 ZIP3 区域被指定为冷点。 该工具运行结束后,新图层将添加到地图中。
注:
要了解有关热点分析的详细信息,请阅读主题热点分析 (Getis-Ord Gi*) 的工作原理。
地图上的红色区域是热点,而蓝色区域是冷点。 亚拉巴马州大部分地区的平均利率高于预期,而旧金山周边区域的利率低于预期。
- 保存工程。
您创建了 ZIP3 区域(至少包含 30 笔贷款)的平均利率热点图。 您创建的地图显示了具有统计显著性高值和低值利率聚类的区域。
评估热点图,Jonathan Blum 想知道为什么亚拉巴马州的利率高于旧金山周边区域的利率。 认为亚拉巴马州分配的贷款等级反映了贷款风险较高,这是否合理? 旧金山的风险借款人在亚拉巴马州应同样具有风险,这是否正确? 秉持着怀疑的态度,Jonathan 决定深入探究。
接下来,您将深入探究并对平均利率与平均贷款等级之间的关系进行建模。
创建回归模型
之前,您创建了一个平均利率值的热点图,以查看高值和低值利率的聚类。 接下来,您将使用广义线性回归 (GLR) 创建回归模型,以确定平均贷款等级排名对平均利率的预测程度。
回归模型将计算变量之间的关系。 如果平均贷款等级值有效预测平均利率值,则您的回归模型将具有高可决系数值。 此外,模型预测值和观测值之间的任何差值(称为残差)都将表现为空间随机模式。
执行回归分析
要创建回归模型,您将运行广义线性回归工具。
- 如有必要,请打开 OnlineLending 工程。
- 在地理处理窗格中,搜索并打开广义线性回归 (GLR)(空间统计工具)工具。
- 对于输入要素,选择 ZIP3_Analysis_Data。
回归模型必须具有单一因变量(您要解释的变量)以及一个或多个解释变量。 您的因变量应为平均利率。
- 对于因变量,选择 Average Interest Rate。 对于解释变量,选中 Average Loan Grade Rank。
该模型类型参数有三个选项:连续(高斯)、二进制(逻辑)和计数(泊松)。 您选择的选项基于因变量。 当您查看属性表时,了解到利率是带有小数位的连续值,而不是二进制值或离散计数。
- 将模型类型设置为连续(高斯)。
此模型类型将执行普通最小二乘法回归,该回归将提供因变量的全局模型并创建一个回归方程来表示它。
- 对于输出要素,将输出名称更改为 Average_Interest_Rates_vs_Loan_Grades。
- 单击运行。
该工具随即运行。 图层随即添加到地图。 三个图表将添加到内容窗格中。
该图层将映射回归模型的残差(模型的预测值高于或低于实际值)。 紫色区域是平均利率低于模型预测的位置,而绿色区域是利率高于模型预测的位置。
残差的空间模式并非随机的。 特别是整个密西西比州有大型 ZIP3 区域聚类,其中模型预测利率高于观测利率。
检查回归结果
您的回归分析还创建了一个报表和一些图表。 首先,您需要检查报表。
- 在地理处理窗格的底部,指向查看详细信息。
广义线性回归工具报表随即显示。
- 在广义线性回归工具报告中,向下滚动并展开消息以查看 GLR 诊断消息。
提示:
您可以拖动工具报表的边缘调整其大小。
目前,您只对校正可决系数值感兴趣。 可决系数值的范围为 0 到 100%(以小数表示),表明平均利率与平均贷款等级排名之间的相关性强度。
在 GLR 诊断下,校正可决系数值为 0.942152。
该值表明平均贷款等级 rank 值与平均利率值的比率约为 94%。 正如预期的一样,这是一个高校正可决系数值,表示相关性强。
接下来,您将打开显示变量之间关系的散点图。
- 关闭工具报表。 在内容窗格中,双击 Relationship between Variables 图表。
随即显示该图表。 图表属性窗格也随即显示。
该图表根据平均利率和平均贷款等级绘制了所有 ZIP3 区域。 大多数点遵循直线,这表示相关性很强。 线下方的紫色点代表模型低估了平均利率的 ZIP3 区域。
虽然线下方有多个残差,但这些残差仍表明平均利率增长与平均贷款等级增长之间存在正相关系。
- 关闭图表和图表属性窗格。 保存工程。
您使用了回归分析来解释基于平均贷款等级的平均利率。 然而,结果与 Jonathan Blum 的预期不同。 虽然他确实注意到平均贷款等级排名与平均利率之间存在紧密的关系,但他立即意识到残差地图中存在问题。 Jonathan 预计会出现偏高预计值和偏低预计值的随机模式,但整个州的低于预期利率并未呈现任何空间随机性。 显然,平均贷款等级排名并非该国内该地区平均利率的有效预测因子。
Jonathan 认为,得出密西西比州的低于预期利率十分重要。 它会使人产生有意偏见或差异性影响的想法。 当非有意歧视的贷款决策导致歧视性结果时,可能会产生差异性影响。 例如,如果某区域的少数邻域的平均房屋价值低于 20 万美元,则仅为 20 万美元以上的房屋贷款提供资金的策略可能会产生贷款歧视的意外影响。 对于贷款人的差异性影响难以避免,因为在多笔贷款获得资助之前无法发现这一影响。
接下来,您将使用地理加权回归来映射全国平均贷款等级与平均利率之间关系性强的位置以及关系性弱的位置。
地图相关性差异
之前,您将平均利率建模为平均贷款等级的函数。 您创建的残差地图表明平均贷款等级不是密西西比州平均利率的良好预测因子。
当两个变量之间的关系较强时,您可以通过一个变量预测另一个变量的值。 您在上一课程中使用的广义线性回归 (GLR) 方法使用单个系数总结了关系强度。 换句话说,该方法假设平均贷款等级与平均利率之间的关系对于国家/地区的每个 ZIP3 区域是相同的。 如果 Jonathan Blum 想要研究这种关系如何变化,并查看平均贷款等级排名对平均利率产生较大或较小影响的地点,则需要了解另一种称为广义加权回归 (GWR) 的回归技术。
GWR 会计算每个 ZIP3 区域的系数。 在系数较大的情况下,平均贷款等级排名的变化将对平均利率产生较大影响;当系数较小时,变化的影响较小。
接下来,您将创建 GWR 系数图,以确定这两个变量之间的关系较强以及较弱的地点。
找到最小近邻距离
GWR 仅使用附近的 ZIP3 区域为每个 ZIP3 区域校准局部回归模型。 它还可以对较近的要素进行加权,以便它们在校准期间比远处的要素具有更大的影响。 邻域类型和局部权重方案参数可确定校准过程包含或排除的相邻要素。
对于此工作流,您将尝试使用这些参数的所有四种组合,以查看哪种组合会产生最佳结果。 您可以通过工具获得建议的最小和最大搜索距离以及相邻要素数,但该工具将采取保守策略,至少需要 30 个相邻要素。 您看到平均利率与平均贷款等级之间的关系较强,几乎不存在异常值。 因此,您的最佳模型可能会使用比通过工具获得的建议值更小的距离以及更少的相邻要素数。 您会尝试 10 到 50 个相邻要素之间的距离。
- 如有必要,请打开 OnlineLending 工程。
- 在地理处理窗格中,搜索并打开计算近邻点距离工具。
您将使用此工具确定所有 ZIP3 区域至少包含 10 个相邻要素所需的最小距离。
- 输入以下参数:
- 对于输入要素,选择 ZIP3_Analysis_Data。
- 对于相邻要素,输入 10。
- 对于距离法,选择欧氏。
- 单击运行。
该工具运行,但没有新的图层或图表添加到地图或内容窗格中。
- 在地理处理窗格的底部,单击查看详细信息。
随即出现工具报表。 该报表会显示 ZIP3 区域至少包含 10 个相邻要素的最小距离、平均距离和最大距离(以米为单位)。 最小值为 17,802 米,最大值为 493,120 米。 最大值是每个 ZIP3 区域至少包含 10 个相邻要素所需的最小距离。
您将此值下舍入为 400,000,并在执行 GWR 时使用它。 接下来,您将进行相同的计算,以确定 ZIP3 区域包含 50 个相邻要素所需的距离。
- 关闭工具报表。 将相邻要素参数更改为 50,然后再次运行计算近邻点距离工具。
- 打开工具报表。
每个 ZIP3 区域至少包含 50 个相邻要素所需的距离为 1,137,020 米。 您将此值下舍入为 1,100,000,并在执行 GWR 时使用它。
- 关闭工具报表。
构建空间回归模型
您将使用不同参数运行四次地理加权回归 (GWR) 工具,并映射产生最佳结果的模型系数。
- 在地理处理窗格中,搜索并打开地理加权回归 (GWR) 工具。 展开其他选项。
首先,您会尝试将邻域类型设置为相邻要素数。 此选项会针对每个 ZIP3 区域(而不是固定距离)使用固定的相邻要素数。 当您想要使用相同数量的信息构建每个本地模型时,相邻要素数选项通常是最佳选择。 当要素均匀分布、待分析的面大小相同或者基础空间过程相同时,这是一个很好的选择。
- 输入以下参数:
- 对于输入要素,选择 ZIP3_Analysis_Data。
- 对于因变量,选择 Average Interest Rate。
- 对于模型类型,选择连续(高斯)。
- 对于解释变量,选中 Average Loan Grade Rank。
- 对于输出要素,将输出名称更改为 GWR_Average_Interest_Rate_vs_Average_Loan_Grade。
- 对于邻域类型,选择相邻要素数。
- 对于邻域选择方法,选择手动间隔。
- 对于最小相邻要素数,输入 10。
- 对于相邻要素的数目增量,输入 4。
- 对于增量数,输入 11。
- 对于局部权重方案,选择双平方。
借助这些参数,该工具将运行 10 个相邻要素,然后是 14 个,接下来是 18 个,最多达到 50 个(以 4 为增量递增 11 次)。 由于使用的是双平方选项,未被视为相邻要素的要素对结果没有影响,这对于具有强本地化空间过程的数据可能很重要。
- 单击运行。
该工具运行并生成报表(图层也会添加到地图中,但您稍后会看到它)。
- 单击查看详细信息。 必要时调整工具报表的大小。
在 10 到 50 个相邻要素范围内,数量每增加 4 个,即会创建一个模型。 系统会针对每个模型计算校正 Akaike 信息准则 (AICc) 诊断。 AICc 是衡量模型中的信息丢失的值。 AICc 值越低,模型运行状况越好。
在分析详细信息部分中,相邻要素数值可显示具有最低 AICc 的相邻要素数。 对于您的报表,该数字为 22。 在模型诊断部分中,AdjR2(校正可决系数)值表明该模型解释了平均利率值 97.19% 的变化,比 GLR 模型的校正可决系数值 (94.215%) 有所改善。
接下来,您将局部权重方案设置为高斯后,并再次运行该工具。 使用此设置时,所有相邻要素(最多接近 1,000 个)会影响模型,但前 10 个、14 个、18 个等要素后面的要素的影响要小得多。
- 关闭工具报表。 将局部权重方案更改为高斯后,然后再次运行地理加权回归 (GWR) 工具。
运行该工具时, GWR_Average_Interest_Rate_vs_Average_Loan_Grade 图层会被新结果覆盖。
- 单击查看详细信息。
借助高斯权重方案,性能最佳的模型包含 10 个本地相邻要素。 但是,AICc 值 (-1673.8710) 并不像使用 22 个相邻要素和双平方权重方案的模型 (-1839.6162) 那么小。 此外,校正可决系数值 (0.9594) 小于双平方选项 (0.9719) 生成的值。
虽然优于 GLR,但该模型并未达到预测的与先前的 GWR 模型相同的效果。 接下来,您将再次运行工具。 您将使用前面部分中计算的最小近邻距离,而不是使用特定相邻要素数。 对于每个包含 10 个相邻要素的 ZIP3 区域,您需要确定 400,000 米的距离。 对于每个包含 50 个相邻要素的 ZIP3 区域,所需距离为 1,100,000 米。
邻域类型的距离范围选项表示指定距离内的相邻要素可用于校准每个局部模型。 该选项的优点在于能够确保分析比例保持不变。 当您确信每个要素在指定距离范围内包含足够的相邻要素以创建可靠的局部模型时,非常适合使用该选项。
- 关闭工具报表。 对于地理加权回归 (GWR) 工具,更改以下参数:
- 将邻域类型更改为距离范围。
- 将最小搜索距离设置为 400000 米。
- 将搜索距离增量设置为 100000 米。
- 将增量数设置为 8。
借助这些参数,该工具将在 400,000 米与 1,100,000 米的范围内以 100,000 米为间隔创建模型。
- 运行该工具。 工具完成后,单击查看详细信息。
性能最佳的距离范围为 400,000 米,但结果仍然不如您尝试使用的第一个 GWR 模型(其 AICc 为 -1565.1312,其校正可决系数值为 0.9507)。
您将再次运行模型。 您将使用相同的距离范围参数,但会对局部权重方案进行更改。
- 关闭工具报表。 将局部权重方案更改为双平方后,再次运行地理加权回归 (GWR) 工具。
- 打开该报告。
此模型比前一个模型表现更好,但它仍然不如您尝试使用的第一个模型有效。 该模型的 AICc (-1843.3228) 略小于您尝试使用的第一个模型 (-1839.6162),并且其校正可决系数值也较小(0.9676 与 0.9719 相比)。
您已经确定产生最小 AICc 值的模型参数以及最大校正可决系数值。 这些诊断表明,使用固定数量的 22 个相邻要素和双平方权重方案执行 GWR 可以生成性能最佳的模型。 您可以使用类似的工作流来比较具有相同因变量的任何模型。
每次运行模型时,系统都会覆盖以前模型的结果。 您将使用与第一次运行时相同的参数运行模型,以便重新创建最佳结果输出。
- 关闭工具报表。 将邻域类型设置为相邻要素数、将邻域选择方法设置为用户定义,并将相邻要素数设置为 22 后,运行该工具。
- 保存工程。
映射模型系数
您已经确定产生最小 AICc 值的模型参数以及最大校正可决系数值(表明生成最佳模型)。 接下来,您将映射模型系数,以检查全国范围内平均利率与平均贷款等级之间的关系如何变化。
与 GLR 的地图输出相同,GWR 的地图输出可显示残差(模型预测值高于或低于实际平均利率值)。 输出图层还包含一个字段,其中包括每个 ZIP3 区域的系数值。 系数越大,平均利率与平均贷款等级之间的关系就越强。 映射此字段将深入了解全国范围内这些变量之间的关系。
- 在内容窗格中,右键单击 GWR_Average_Interest_Rate_vs_Average_Loan_Grade 图层并选择符号系统。
随即显示符号系统窗格。
注:
您可能需要将主符号系统更改为唯一值,并将其改回分级色彩,以显示新的符号系统。
- 将字段设置为 Coefficient (AVELOANGRADE)、将方法设置为分位数,并将类设置为 7。
- 对于配色方案,选择黄-橙-棕连续色带(或任何渐变色带,其表示按从最小到最大的顺序排列的数据)。
提示:
要查看配色方案的名称,请指向它。
- 关闭符号系统窗格。 在内容窗格中,将 State Boundaries 图层拖动至 GWR_Average_Interest_Rate_vs_Average_Loan_Grade 图层上方。
在地图上,较暗的区域是两个变量之间的关系较强的地点。 较亮的地区是关系较弱的地点。
- 保存工程。
该地图表明,利率不仅仅取决于贷款等级(至少并非所有地点如此)。 例如,在密西西比州和堪萨斯州的大部分地区,平均贷款等级与平均利率之间的关系较弱。 整个密西西比州的利率平均低于预期值。 然而,在堪萨斯州的大部分地区,利率均高于预期值。
这种模式具有实际的物质性后果。 贷款利率的差异会影响整个经济局势。 当由于高利率而获得贷款的机会受到限制时,人们倾向于减少开支,而企业往往会缩减规模。 当贷款利率较低时,人们更愿意借贷和消费,而企业更可能扩张。
一些研究人员在各种在线市场上发现了差异的证据。 Jonathan Blum 的探索性分析通过揭示与在线借贷相关的地理差异的证据,为这一研究领域做出了贡献。 然而,Jonathan 只考虑了贷款等级。 尽管 LendingClub 表明了贷款等级与利率之间的直接关系,您创建的地图表明还会涉及其他因素。 例如,一些研究人员发现,多达三分之一的借款人将选择融资时间最短的贷款,而不是利率最低的贷款。
Jonathan 是一名记者。 他的工作是报告和通报有关在线贷款的新兴辩论。 在本课程中创建的地图和分析是关键的故事讲述工具,可在他的工作中广泛使用。
在本课程中,您使用空间回归分析来对平均利率与平均贷款等级排名之间的关系进行建模,并测试假设的相关性。 您可以使用此工作流来测试其他假定的相关性。 例如,平均收入较高的社区可能会支付更高的平均所得税。 但这个观点始终正确吗? 全国哪个地方并不适用或更加符合? 生长条件最好的农业区的产量应该处于最高水平。 到处都存在这种情况吗? 如果不是,为什么? 假设教师与学生比例较高的学校的考试成绩较高,这不合理吗?
您还在等什么? 开始测试您自己假设的一些关系,看看您发现了什么。
您可以在教程库中找到更多教程。