为医疗保险支出制图
地图是重要的决策工具。 它能够帮助您确定问题区域并指示能够更好地利用资源的地区。 地图往往并不只讲述一个事实。 有时,您可以从不同角度发现同一数据集中的事实。 在本案例中,您就要考虑 2022 年医疗保险计划的人均费用。 这些费用在不同地区之间差别很明显。 绘制地图时,您需要决定如何对这些不同费用值进行分组。 哪些费用范围较高,哪些费用范围较低? 您的决定有助于创建空间模式,且这些模式可指引地图用户得出结论。 这也就需要考虑可视化数据以及查找可靠模式的最佳方法。
首先,您将比较一些分类(分组)数据的常用技术,并了解您的选择如何影响地图上的空间模式。 您将处理按县聚合的医疗费用数据。 “国家老年人医疗保险”是美国政府医疗保险计划一部分,涵盖 65 岁以上或满足特定医疗条件的约五千万民众。 美国医疗保险和医疗补助服务中心会为您提供“国家老年人医疗保险”计划的详细信息。
打开地图
在本节中,您可以打开地图,熟悉地图要素和属性并保存您自己的地图版本供日后工作使用。
- 打开按县划分的医疗保险支出地图。
一张地图随即出现在 Map Viewer 中,其中显示了美国的所有县。
该地图包含一个图层,其中包含每个县 2022 年的医疗保险支出数据。 您将使用此数据来设置地图的样式,以显示支出的高低水平。
- 如有必要,请登录 ArcGIS 组织账户。
注:
如果您没有组织账户,请参阅软件访问权限选项。
- 如有必要,在内容(深色)工具栏的底部,单击展开。
- 在内容工具栏上,单击图层。
该地图包含两个图层:State Boundaries(可见性已关闭)和 Medicare Spending by County。
- 在图层窗格中,对于 State Boundaries 图层,单击可见性按钮。
现在,您可以看到州界线与县边界的对齐位置。
接下来,您将探索 Medicare Spending by County 图层的弹出窗口。
- 在地图上,单击一个县。
将出现一个弹出窗口,显示县、州的名称以及 2022 年人均医疗保险支出金额。
您要处理的人均费用数据反映了标准化的风险调整费用。 该费用与实际费用在两个方面有所不同。 首先,标准化可校平国家不同地区间工资和商品与服务的费用差异。 其次,风险调整可考虑到年龄、性别、现有健康状态和其他相关人口统计因素间的差异。 全国范围内社会经济、人口统计和健康状况统一的情况下,标准化风险调整值是对实际费用的最准确评估。
- 单击其他若干地区以查看其弹出窗口,然后关闭打开的弹出窗口。
弹出窗口可以帮助您了解各个要素,但对于查看空间模式没有帮助。 要查看模式,必须将数据符号化。 您将在自己的地图版本中执行此操作以便保存更改。
- 在内容工具栏上,单击保存并打开按钮,然后选择另存为。
- 在保存地图窗口中,对于标题,输入 Medicare Costs per Capita in 2022 并添加您的姓名或姓名首字母。
注:
不能在 ArcGIS 组织中创建同名的两个图层。 可通过向图层名称添加您的姓名首字母以确保组织中的其他人也可以完成本教程。 在创建图层后,可以在地图中对其进行重命名以移除您的姓名首字母,这不会影响基础数据图层的名称。
- 单击保存。
您打开并浏览了一张包含 2022 年美国各县医疗保险支出的 Web 地图。 您已经保存了地图的副本,因此现在可以设置地图的样式来回答您的研究问题:该国哪些地方的医疗保险支出非常高?
按自然间断点设置样式
在地图上呈现空间模式的典型方法是将数据值的范围与色带相关联。 指定值范围有一些常用方法。 在本节中,您将使用自然间断点方法。
- 在内容工具栏中,单击图层。
- 在图层窗格中,确保已选择 Medicare Spending by County 图层。
图层名称旁的蓝线指示已选择此图层。
- 在设置(浅色)工具栏中,单击样式。
- 在样式窗格中,对于选择属性,单击字段。
- 在选择字段窗口中,单击人均标准付款,然后单击添加。
选择属性后,即可出现可用的绘制样式。 将自动应用建议的样式,并在样式窗格中以复选标记指示这些样式。
在地图上,已用蓝色阴影绘制县。 阴影越深表示该区域的 2022 年医疗保险支出越高。
为了更好地理解图层样式,您将探索图层的样式选项。
- 在更改样式窗格中,针对计数和数量(颜色),单击样式选项。
样式选项窗格将显示,其中具有您可以配置图层样式的所有方式。 样式选项窗格包括一个直方图,该直方图显示了用于设置图层样式的字段中的值的范围,以及用于符号化这些值的相应颜色。
直方图提供了许多关于如何设置数据和图层样式的有用信息。 直方图的顶部和底部显示了数据集中的最低值和最高值。 在直方图的一侧,中间值是数据的平均值。 高于和低于平均值的值是标准差值。
该样式当前使用连续的未分类方法,这意味着符号颜色只是从最小值渐变到最大值。
接下来,您将尝试使用分类方法。 通过对数据进行分类,即将数据分为类或组,可以更改每个类的范围和间隔。 通过使用不同的分类方法更改各个类,您可以创建具有不同外观的地图。
- 朝向样式选项窗格的底部,打开分类数据。 对于类数,键入 5。
选择五个类别可以在地图中提供更多的变化,而不会有太多的类别,这使得很难看出每个类别之间的差异。
在地图图例中,根据默认的自然间断点分类法,费用值的范围可分为五类。
自然间断点使用值范围中的聚类和间距来定义类。
自然间断点方法的一个特征是类之间的值范围可能不同。 在这里,最低类的值范围($4,244 至 $9,263)是 $5,019,而下一个类的值范围($9,263 至 $10,848)仅为 $1,585。 另一个特征是类可能具有不同成员数。 例如,最高类包括 118 个县,而最低类包括 536 个县。
考虑是否有空值也很重要。
- 在样式选项窗格的直方图下,打开显示超出范围或没有值的要素。
康涅狄格州的县现在显示为灰色。
2022 年,康涅狄格州改变了他们的县边界。 2022 年的医疗保险支出数据使用了不同于当前边界的边界,从而导致空值。 出于本教程的目的,您将从分析中排除这些数据。
注:
要了解有关康涅狄格州各县变化的更多信息,请参阅 2022 年ACS 的康涅狄格州的县的同级别单位的变化。
接下来,您将通过更改色带来调整图层样式。
- 在样式选项空格中,单击符号样式下的符号以更改该符号,并指定符号设置。
- 在符号样式窗口中,单击颜色的色带。 在色带窗口中,选择紫色 2。
提示:
要查看色带的名称,请指向该色带。
- 单击完成。
图层样式随即更新。
- 在样式选项窗格中,双击完成。
- 在内容工具栏上,单击保存并打开,然后选择保存以保存您的地图。
研究空间模式
您将查看 Medicare Spending by County 图层的图例,然后缩放至不同地理区域并打开弹出窗口,以此来研究地图上的空间模式。
- 在图层窗格中,单击 State Boundaries 图层的可见性按钮。
地图显示独特模式。 整个南部的支出率较高,特别是 Texas、Louisiana、Mississippi 和 Florida 州。 高水平的支出在大平原地区也很普遍,特别是在俄克拉荷马州和堪萨斯州。 该国其他地区也有孤立的高支出。
- 在内容工具栏中,单击图例。
图例显示了与每个颜色关联的值范围。 在任何分类方案中,分类间隔都很重要,因为它们指引地图用户作出判断:某地区费用高,而另一地区费用更高。 但是,事实上,不同类中提供的值对的差异可能比较小。
- 在内容工具栏上,单击书签,然后在书签窗格中,单击西南。
- 单击五个类中间的样式化县之一。
圣贝纳迪诺县报告 2022 年人均医疗保险支出为 $11,986。 中间类从人均 $10,848 到 $12,452 美元不等。
- 关闭弹出窗口。 单击内华达州最高类的县,观察弹出窗口信息。
在克拉克县,2022 年支出是 $12,660。 两个地区间的差异仅 $674,但足以将它们归为不同的类 - 至少根据自然间断点分类法是如此。
- 关闭弹出窗口。
- 缩放至中西部和东北部书签,并比较其他县的医疗保险支出。
与邻近的县相比,有些县的医疗保险支出非常高,例如爱荷华州南部的门罗县。 在某些情况下,与最低类中已设置样式的邻近县相比,最高类中已设置样式的县的花费确实显得惊人的高。 但是可能有一些例子,尽管类样式不同,但差别似乎不是很大。 还有其他方法可以为数据设置样式,从而更好地传达各县之间的差异。
- 完成浏览后,在书签窗格中,单击美国缩放回美国大陆。
- 在图层窗格中,关闭 State Boundaries 图层。
- 保存地图。
在下一节中,您将尝试不同的分类方法。
按其他方法分类数据
自然间断点不是唯一可用的分类方法。 您使用相等间隔和分位数方法时,会看到空间模式更改的程度。
- 在图层窗格中,确保 Medicare Spending by County 图层,然后在设置工具栏中,单击样式。
- 在样式窗格中,对于计数和数量(颜色)样式,单击样式选项。
- 在分类数据下,对于方法,选择相等间隔。
这些分类间隔是不同的。 相等间隔方法的明确特征是所有类之间的值范围相同。 在本案例中,范围约为 $4,307。 一个类可以有任意数量的县,甚至可以没有县。
尽管高值和低值的模式非常类似,还是会产生不同的印象。 极少数区域归为最低和最高类,使它们脱颖而出,并且地图在外观上更相近。
- 在样式选项窗格的方法中,对于方法,选择分位数。
这些类会再次发生变化。 分位数方法的明确特征是所有类具有相同数量的成员(在本案例中为 626 或 627 个县)。 类之间的值范围可能差别很大。 此处,最低类的值范围是 $5,266,而中间类的范围为 $714。
与之前的地图相比,分位数方法趋向于强调高和低,可能夸大其重要性。
您已查看的所有分类方法没有对错之分。 只要数据在值范围内连续且均匀分布,分位数和相等间隔方法均能提供准确的结果。 但是,通常情况并非如此。 数据中存在聚类和间距时,建议使用自然间断点方法。
这种情况下,数据为正态分布或钟形分布,如色带相邻的灰色条形图所示。 对于这种线性或均匀分布,建议使用分位数法。 由于要素被以同等数量分组到每个类中,因此如果您有分布不均的数据集,得到的地图往往具有误导性。
分位数方法也是确定资源分配的一种有用方式。 例如,如果您需要制定一项针对需求最大的支持区域的卫生政策,您可以使用具有五个类的分位数方法,最高类表示应首先获得此资金的前 20% 的县。
注:
要了解有关分类方法的详细信息,请参阅使用样式选项(地图查看器)- 分类方法和视频配置分区统计图。
- 在样式窗格中,单击完成。
- 保存地图。
如何分类数据的决策至少是部分主观的。 您可能喜欢地图的外观或可能想要传达特定的消息。 任何分类方法都没有错,每种方法都可能有助于强调其他方法无法显著体现的某方面数据。 但您可能疑惑是否可能更好地了解哪种空间模式稳定且可靠,了解哪些地方的确与众不同。
答案是肯定的:存在能够帮助您以更客观的方式分组并可视化数据的分析技术。 建议您在选择将用于演示或决策目的的分类方法之前,尝试多种分类方法。 接下来,您将研究热点分析并了解统计评估如何在数据中查找具有显著高值和低值的空间聚类。
分析医疗支出热点
在上一节中,您观察了地图上的空间模式如何根据数据分类方法不同而有所变化。 接下来,您将对数据执行热点分析以得出更多有关模式的更确切的结论。 热点分析通过统计测试查找与正常值明显不同的区域。
查找热点
在上一节中,您设计的地图显示了全国医疗保险支出金额的变化。 2022 年,南方和大平原各州的支出金额相对较高。 新英格兰州、中西部部分地区、西北部和落基山脉地区的支出较低。 但是通过不同的分类方法对地图进行样式化并不能告诉您是否存在统计上的显著差异。 查找热点工具使用 Getis-Ord Gi* 统计识别具有统计显著性的高值(热点)和低值(冷点)的空间聚类或数据计数。
- 如有必要,请确保您已登录 ArcGIS 组织帐户,并打开您的按县划分的医疗保险支出地图。
- 在内容(深色)工具栏上,单击图层。 在图层窗格中,单击 Spending by County 图层,以使其被选中。
- 在设置(浅色)工具栏中,单击分析。
- 在分析窗格中,单击工具。 在工具窗格的搜索栏上,输入 hot spot,然后按 Enter 键。
查找热点工具出现在结果列表中。
查找热点工具采用空间统计技术来识别空间模式,为高值或低值聚类的存在提供置信度。
- 在结果列表中,单击查找热点工具。
随即显示查找热点窗格。 在窗格顶部,工具名称旁边的帮助按钮将带您进入包含该工具的更多信息的网页。
第一个参数是输入要素。 输入要素组包含输入图层参数,该图层包含要执行热点分析的点或面要素。
- 在查找热点窗格中,对于输入要素,选择按县划分的医疗保险支出。
在热点设置部分中,分析字段为指定要针对高值(热点)和低值(冷点)聚类分析的字段。 您想要分析医疗保险支出的热点和冷点。
- 对于分析字段,选择人均标准付款。
其余设置可以保留为默认设置。 最后,您将提供工具运行时将创建的图层的名称。
- 对于输出名称,键入 Medicare Spending Hot Spots,并添加您的姓名或缩写。
- 单击估算配额。
配额是在 ArcGIS Online 中使用的货币。 将在进行特定事务时消耗配额,例如执行分析、存储要素和地理编码。
运行此工具需要 3.143 个配额。
注:
有关配额的详细信息,请参阅了解配额。 如果您的组织管理员为您启用查看该信息的功能,您即可了解 ArcGIS Online 账户中有多少剩余配额。 如果已启用,请在页面顶部单击您的用户名并选择我的设置。 在我的设置页面上,单击配额以查看您的帐户中剩余的配额数量。 如果未启用,请联系您的组织帐户管理员。
- 单击运行。
在工具运行时,您可以单击分析窗格中的历史记录选项卡,以查看其进度。
几分钟后,Medicare Spending Hot Spots 图层被添加到地图中。
在地图上,红色和蓝色区域分别代表较高费用和较低费用的统计显著性聚类。 在用白色符号表示的区域,支出金额并没有明显过高或过低。
显著性置信度揭示了研究区域中高值或低值被聚类的可能性。 置信度超过 90% 的热点和冷点意味着这种空间聚类可能不是由于随机机会,而是一些空间过程的结果。 更高的置信度增加了我们的确定性,即观察到的模式是由于特定的原因而发生的。
结果表明,在南方和大平原的几个州,事实上存在着统计意义上的高支出。 在本教程的前面的部分中,一个高支出热点并不明显,那就是新泽西州和纽约市周围的县。
- 在内容工具栏上,单击图例。
图层图例上的标签可对符号进行解释。 例如,置信度为 99% 的热点表示高成本聚类随机出现的概率仅为 1%。
符号上方的图例标题由图层表格的字段别名生成。 您会在教程中将此标题更改为有意义的标题。
- 保存地图。
使用查找热点分析工具,您可以更清楚地看到 2022 年医疗保险支出金额的统计上显著的差异。
更改图层符号系统
地图的用户会发现,查看与州界一同显示的热点和冷点比查看与县边界一同显示的热点和冷点更有帮助。
- 在图层窗格中,选择 Medicare Spending Hot Spots 图层,然后在设置工具栏上,单击样式按钮。
- 在样式窗格中,对于计数和数量(颜色)样式,单击样式选项。
- 在样式选项窗格中,单击符号样式按钮。
- 在符号样式窗口中,对于轮廓宽度,键入 0。
- 在样式选项窗格中,双击完成。
- 在图层窗格中,单击 State Boundaries 图层的可见性按钮。
- 将 State boundaries 图层拖动至图层窗格的顶部。
地图现在只显示州边界。
医疗保险支出的热点位于墨西哥湾地区、俄克拉荷马州、堪萨斯州和新泽西州。 主要的冷点区域位于西北部、落基山脉、中西部的部分地区、新英格兰州和弗吉尼亚州。
- 保存地图。
了解冷点结果
在本节中,您将进一步探索生成的热点图层,以更好地理解该工具所分析的内容。 首先,您将探索由查找热点工具生成的热点图层字段。
- 在图层窗格中,对于 Medicare Spending Hot Spots 图层,单击选项按钮并选择显示表。
随即显示该表。
提示:
为了更好地查看表中的字段名称,可以关闭窗格并折叠工具栏。 您还可以指向该字段名称以查看字段全名。
您将配置该表以显示您想要浏览的关键字段,并比较不同县的结果以更好地理解查找热点分析结果。
- 在表格顶部,单击“字段可见性”按钮。
- 在字段可见性窗口中,取消选中 Source_ID 和人均标准付款,然后单击完成。
表格中只有五个字段可见。
- 在地图上,单击红色的县。
所选特征以亮青色突出显示。
- 在表格中,单击显示所选按钮。
表格过滤以仅显示所选记录。
- 在地图上,单击一个蓝色的冷点县和一个无意义的白色县。
您单击的县会添加到过滤表中。 随着您对结果字段的了解越来越多,现在您有了三个不同的热点结果记录可以相互比较。
- 在表中,观察 GIPValue 和 GiZScore 字段。
字段名的 Gi 部分是指用于计算 z 得分和 p 值的 Getis-Ord Gi*(称为 G-i-星号)统计。 Gi* 将每个要素与其相邻要素相关联,然后将局部平均值与研究区域中所有要素的平均值进行比较,以计算该值聚类在整个研究区域中明显偏高或偏低的概率。 此工具通过在相邻要素的环境中查看每个要素来工作。
注:
要了解有关 Getis-Ord Gi* 统计的更多信息,请参阅热点分析 (Getis-Ord Gi*) 的工作原理。
字段别名末尾的数字 174529 是用于决定邻域大小的距离范围。
GiPValue 字段是 p 值,其中小于 0.01 的值表示具有 99% 置信度的统计显著性。 字段别名中的单词“固定”表示所使用的邻域法是固定距离范围。
GiZScore 字段是生成的 z 得分,它是标准差的测量值。 例如,z 得分为 2 表示该县的医疗保险支出金额比所有其他县高 2 个标准差。
注:
了解有关 z 得分和 p 值的详细信息。
- 请注意,红色热点记录的 z 得分为 7.29,p 值为 0.00。
提示:
如果您不记得哪个记录对应哪个县,您可以单击每个记录开头的复选框以在地图上高亮显示它们。
这意味着该县的医疗保险支出金额比全国所有其他县高出 7 个标准差以上。 较低的 p 值意味着有 99% 的置信度表示这个结果不是随机的。
- 对于同一条记录,请注意下一个字段 Gi_Bin。
Gi_Bin 字段标识具有统计显著性的热点和冷点的置信度。
- +/-3 图格中的要素反映了 99% 置信度的统计显著性。
- +/-2 图格中的要素反映了 95% 的置信度。
- +/-1 图格中的要素反映了 90% 的置信度。
- 图格 0 中要素的聚类在统计上不显著。
FDR 代表错误发现率,默认情况下,FDR 校正应用于在 Map Viewer 中查找热点。
FDR 校正降低了显著性阈值(p 值),以解决统计测试中常见的多重测试问题,以及由于对一个数据集中的所有要素进行重复测试而产生的空间依赖性。
注:
了解有关 FDR 校正的详细信息。
对于红色热点县记录,Gi_Bin 字段为 3,这意味着该县被确定为在 FDR 校正后具有统计上显著更高的医疗保险支出。
统计显著性字段是一个文本字段,可用作整体热点分析结果的标签。
- 利用你所学的知识,回答以下关于另外两条记录的问题:
- 对于 Gi_Bin 值为 0 的记录,哪个字段解释了为什么它在统计上不显著?
- 冷点县低于均值的标准差有多少?
- 哪个字段告诉您冷点记录有 99% 的置信度?
提示:
考虑在地图上选择更多位于 Gi_Bin +/- 1 或 2 中的县,以便在表中进行比较。
接下来,您将观察由查找热点分析工具生成的最后一个字段。
- 在表中,观察 NNeighbor 字段。
像其他字段一样,NNeighbor 字段名称也包括分析值的比例。 但是这个数字源自哪里?
为了更好地理解这些值,您将查看分析历史结果。
- 在设置工具栏中,单击分析。 在分析窗格中,单击历史记录选项卡。
- 对于查找热点工具历史项目,单击选项按钮,然后单击查看详细信息。
查找热点窗口将显示结果选项卡。
结果选项卡提供了重要的详细信息,例如确定了多少个异常值,以及这些异常值未包含在分析值的计算范围内。
默认情况下,该工具通过将距离平均到最近 30 个相邻要素来计算最佳固定距离范围。 此分析中使用的固定距离范围为 174,529 米,这是您在属性表的字段名称末尾看到的值。 对于每个要素,174,529 米缓冲区内的要素将被视为该要素的相邻要素。 此字段显示每个要素在 174,529 米的缓冲区内使用了多少个相邻要素。
在热点分析下,您还可以看到 FDR 校正确定了 3,123 个要素中的 2,127 个要素的统计显著性。
在本教程中,您探索了显示全国医疗保险支出最高的地方的分类方法。 使用查找热点工具,您进一步进行了分析,并确定了医疗保险支出高值和低值的统计显著区域。 您还探索了热点分析结果,以更好地理解分析工具中的结果字段和计算。
虽然这些地图并没有为美国某些地区的支出高或低提供因果解释,但它提供了医疗保健支出存在地理差异的洞察力。 创建地图通常会引发进一步的探索和新的问题。 例如,在本教程中创建的地图会提出一些问题,如为什么墨西哥湾沿岸地区各州的医疗保险支出特别高? 为什么新泽西是东北部唯一的热点?
还有其他空间统计方法可以帮助回答这些问题,例如回归分析。 回归分析是可帮助您了解数据中变量间关系的统计技术。 考虑通过应用更多的空间统计方法来进一步分析,以更好地理解为什么医疗保健在某些地区比在其他地区花费更多。
注:
要了解有关回归分析的更多信息,请浏览教程确定位置如何影响利率。
您可以在教程库中找到更多教程。