设计基于地图的可视化
铅是一种天然金属,尤其会对六岁以下的儿童造成负面健康影响。 这些影响包括发育迟缓、学习困难、行为问题和神经损伤,而且可能造成永久损伤和残疾。 您所在部门的领导需要使用地理信息来增强项目报告,并制定消除儿童铅中毒的决策。
首先,您将下载并浏览数据。 然后,您将使用保持数据完整性和空间模式的方法,在地图上符号化血铅水平数据,同时保护数据集中个体的隐私。
注:
本教程中的数据是虚构的。 它们专为演示本教程中的工作流而创建。 这些数据旨在在工作流中看起来合理,并且结构与您在此情况下可能使用的数据类似,但由于存在共享此类真实数据方面的法律限制,这些完全是虚构数据。 切勿依赖这些数据。 切勿根据这些数据得出结论或制定现实世界的决策。 切勿使用这些数据来训练人工智能或机器学习模型,结果将不准确。 该数据集中的地址是真实地址,目的是为了演示地理编码并提供可行的去识别数据,但该数据与这些地址没有真实关联。 数据集中与这些地址相关的任何名称或属性值都是虚构的,与这些位置的任何实际人员或情况无关。
浏览数据
首先,您需要下载并检查数据。
- 下载名为 Blood_Lead_Levels_Zipped_Folder.zip 的压缩工程数据。
- 在计算机上找到已下载的文件。 右键单击该文件夹并选择全部提取。

- 指定输出文件夹位置,然后单击提取。

此zip存档受密码保护。 随即显示密码窗口。
- 对于秘密,输入 I_Understand_This_Is_Fictitious_Data,然后单击确定。
注:
使用此密码表示您了解数据是虚构的。
文件将作为一个文件夹解压缩到您的计算机上。
- 打开解压的zip文件。
它包含一个名为 BloodLeadLevels.ppkx 的文件。 .ppkx 文件是 ArcGIS Pro 工程包,是用于共享工程的压缩文件,可以包含地图、数据和其他文件,您可以在 ArcGIS Pro 中将其打开。
- 双击 BloodLeadLevels.ppkx 以在 ArcGIS Pro 中打开它。 如果出现提示,请使用 ArcGIS 账户登录。
注:
如果您没有 ArcGIS Pro 的访问权限或者 ArcGIS 组织账户,请参阅软件访问权限选项。
随即显示加利福尼亚州萨克拉门托的地图。 虚构的 High_Blood_Level_Results 点图层显示了血液中铅含量高的儿童的家庭地址位置。

您的铅监测和缓解计划使用血液测试结果和单个患者的位置来调查这些儿童家庭中铅暴露的来源。 这些数据还用于调查家庭成员的潜在暴露,并追踪工作场所、学校和社区位置的铅源。
- 如果 High_Blood_Level_Results 属性表尚未打开,请在内容窗格中,右键单击 High_Blood_Level_Results,然后选中属性表。

随即显示该表。

该图层包含虚构的家庭地址、名字、姓氏、生日、年龄、种族、族裔、性别、血液测试结果和测试年份的数据。 如果这些数据是真实的,它们将被视为关于未成年人的健康状况、身份和精确位置的高度个人化的私密信息。 此信息必须依据健康数据隐私法规谨慎处理。 由于您的工作需要使用和共享这些数据,您必须了解法律规定以及可用于数据共享的去识别策略。
许多国家已经制定了保护个人隐私的政策,以保护敏感信息,如财务和健康数据。 在美国,1996 年签署的《健康保险流通与责任法案》 (HIPAA) 是关于安全健康数据做法的主要指南。
美国卫生与公众服务部将受保护的健康信息 (PHI) 定义为“由受相关法律约束的实体或其业务伙伴持有或传输的可以识别个人的健康信息,包括任何形式或媒体(无论是电子、纸质还是口头信息)。 可以识别个人的健康信息包括与以下事项相关的人口统计数据:
- 个人过去、现在或将来的身体或精神健康状况,
- 向个人提供的医疗保健
- 因向个人提供医疗保健而进行的过去、现在或将来的付款的信息
可以识别个人或有合理依据相信它可以用于识别个人的信息。 可以识别个人的健康信息包括许多常见标识符(例如姓名、地址、出生日期、社会安全号码)。”
由于 High_Blood_Level_Results 数据表包含了关于儿童血铅水平和身份信息(包括姓名、地址和出生日期),根据 HIPAA,该信息被视为 PHI,必须根据 HIPAA 隐私规定进行妥善保护。
此类型数据只能与被授权访问的员工共享。 授权将根据组织内部指南确定,通常包括工作职责需要访问 PHI 的人员或通过内部流程(如负责研究和评估的机构审查委员会)获得访问权限的人员。
- 请阅读美国联邦医疗保险和医疗补助服务中心 (CMS) 网页上的受本法律约束的实体部分。
该页面提供了关于受 HIPAA 法规约束的实体的相关时指南。 受法律约束的实体决策工具 (PDF) 提供了一个交互式决策树,您可以使用它来确定自身是否为受 HIPAA 规则约束的实体。
通常情况下,受约束实体包括以下内容:
- 健康计划 - 用于提供或支付医疗费用。
- 医疗保健提供者 - 以电子方式传输各类用途的数据数据(如账单、转诊等)。
- 医疗清算机构 - 代表其他组织处理非标准健康信息,使其符合数据内容或格式标准,或反之亦然。
- 业务伙伴 - 受约束实体之外的个人或组织,代表受约束实体执行涉及使用或披露可识别个人健康信息的某些职能。 在这些情况下,受约束实体必须与业务伙伴签订合同,分配与受约束实体相同的隐私保护相关职责和义务。
在本教程中,由于您的组织经营医疗诊所,因此您为受约束实体。
血铅水平图层等健康数据对于识别健康差异、政策评估和战略规划非常有价值。 在这些重要工作中,您必须使用保护个人隐私的方法,同时最大限度地利用数据的效用。
- 阅读 HHS.gov 页面上的去标识化标准部分。
您可以使用包含 PHI 的 GIS 数据,但必须将其保存在适当安全的本地计算机硬件或安全的 ArcGIS Enterprise 地理数据库中。 这些数据不能托管在 ArcGIS Online 中。
如果您共享这些数据,则必须首先进行去标识化。

数据去标识化的目标是将可识别信息与健康信息分离,以确保最小化重新识别风险。
去标识化的过程涉及移除数据集中的标识符信息,以显著减少某个数据集中的个人身份被他人推断出的可能性。 监管机构已了解,即使使用适当的去标识化方法,仍然存在一定的重新识别风险。 因此,去标识化的要求是确保个人的重新识别风险非常低。 根据 HIPAA 标准,可接受下列图表中的两种去识别化方法。

第一种去标识化方法是安全港口,即要求从数据中删除以下 18 个具体标识符:
- 名称
- 所有小于州的地理区域细分
- 与个人直接相关的所有日期元素(除年份外)
- 电话号码
- 车辆标识符和序列号
- 传真号码
- 设备标识符和序列号
- 电子邮件地址
- Web 统一资源定位符 (URL)
- 社会安全号码
- Internet 协议 (IP) 地址
- 病历号
- 生物特征标识符,包括指纹和声纹
- 健康计划受益人号码
- 全脸照片和任何类似的图像
- 账户编号
- 证书/许可证号码
- 任何其他独特的识别号码、特征或代码(除非获得许可)
依据规定,需移除 High_Blood_Level_Results 图层中的大部分数据。

如果您正在使用 GIS 进行健康相关工作,则此方法可能不是非常有用,但仍建议了解其相关内容。 这种方法比第二种方法更简单,但在移除这 18 个标识符之外,还需要多考虑一些问题。 数据管理员还必须考虑数据集中是否存在其他标识符,相关人员是否可以使用这些标识符来识别个人,比如独特的职位名称。
您可能还注意到第二个标识符存在问题,即所有小于州的地理细分。 这将使得在有用分辨率下(如城市或社区),使用 GIS 变得极具挑战性。
您将从以下这些点开始:

转变为州级数据,例如下面的地图:

如果根据当前美国人口普查数据,三位数字的邮政编码中有超过 20,000 人,安全港口规则允许您使用前三位数字的邮政编码。 然而,在医疗保健 GIS 中很少使用三位数字的邮政编码,而且医疗保健 GIS 用户通常关注更精细的地理图层面上的健康影响。
为了最好地利用您的数据,您必须使用第二种去标识化方法,称为专家决定方法。
- 请阅读有关专家决定去标识化方法的指南。
专家决定方法非常灵活。 它要求用户具备足够的知识和专业知识,根据普遍接受的科学和统计原则和方法,通过渲染方式对数据进行去标识处理,并确保重新识别风险非常低。 专家决定方法的关键之一是记录用于进行专家决定的技术。
您必须根据团队中的不同成员的角色和任务,确定为其提供适当级别的数据的最佳方法。 您将向某些内部用户提供点级别可识别数据。 这些授权用户可能会进行病例管理和调查,寻找潜在的暴露源。 他们可能需要住址以计算家庭访问的最佳路线。 然而,其他人将需要一个去标识化的最小可行数据集。
制作热点图
不同的去标识化方法适用于不同的用例。 您必须考虑地图的意向、受众和交付机制。 如果地图为静态地图(如 PDF、图像或纸质地图),且地图用户无法与数据进行交互,则需要考虑不同的因素;而如果地图用户可以在 Web 浏览器或应用程序中探索数据,可以进行缩放,并且可以调查单个点及其相关属性数据,则情况将有所不同。
您需要制作一张打印海报的地图,以向利益相关者和公众传达萨克拉门托市儿童铅中毒的程度,从而帮助传达风险,并进行针对性干预、健康教育和组织相关活动。 热点图是理想选择,因为它可以创建一个平滑的表面,指示图层中点的密度,同时模糊点的位置。
- 关闭属性表。
- 在内容窗格中,右键单击 High_Blood_Level_Results,然后选中符号系统。

随即显示符号系统窗格。
- 在符号系统窗格中,对于主要符号系统,选择热点图。

图层的符号系统切换为显示热点图数据。

城镇东北部的高强度黄色和红色斑点表示该区域居住有多位患有高血铅水平的儿童。 重要的是,您无法看到显示的儿童数量,也无法看到他们家庭的确切位置。 为了进一步保护患者隐私,您可以在不包括其他行政边界(如县界或邮政编码)的情况下显示此热点图,并且还可以将底图更改为不显示街道名称的底图,以防止敏感数据的重新识别。 这种可视化技术最适用于具有许多点要素的数据集,其中至少有一些点彼此相邻。
注:
热点图视觉上最强烈的区域有时被称为热点。 虽然这是描述这些空间模式的合理方式,但不应将这种热点与热点分析工具的结果混淆,后者可以确定研究区域内的统计显著聚类。
- 单击功能区上的共享选项卡。 在输出群组中,单击复制到剪贴板。

热点图的静态图像被复制到剪贴板中。 您可以将其粘贴到演示文稿或文档中,并在不暴露 PHI 的情况下共享。
- 放大到城镇东北部的密集区域。

在放大过程中,热点图的符号系统会改变并显示屏幕上点的相对密度。

放大得越近,看到的细节越多。 即使相对于原始点表示,数据被模糊化,但在某些尺度下,热点图已不再是一种适合显示敏感数据并保护隐私的方式。

注:
重要的是要意识到,如果您的目的是创建一个交互式地图而不是打印地图,这种动态热点图渲染可能会暴露个人信息。 在创建交互式地图时,要注意动态渲染的热点图,并考虑使用基于比例尺的渲染来限制可能的缩放范围。
在某些缩放比例尺下,您可以确定模糊点的房屋级位置。
- 单击其中一个模糊点。
随即显示弹出窗口。

弹出窗口显示了该点的属性。 当使用交互式地图时,使用热点力图符号系统不能保护患者数据。 点及其属性仍然存在。
- 关闭弹出窗口。
- 在符号系统窗格中,对于半径,键入 50。

热点图的符号系统会改变,并使用更大的半径值重新计算密度。

这种新的表示方式可以显示邻域比例尺上高血铅水平案例的密度。
在准确表达数据地理信息需求和保护被调查者隐私要求之间达到平衡方面,探索不同的热点图符号系统参数以表示数据的聚集程度和规模将非常有用。 许多与健康相关的问题(包括疾病爆发)均使用了不同的地理比例尺。 在某些情况下,爆发是由一个点源引起的,而在其他时候,问题可能涉及到社区层面的传播。 对于任何成功的健康 GIS 分析,理解并使用适当比例尺上的数据至关重要。
您可以将城市级别的静态地图图像添加到报告中,向利益相关者和公众传达社区中儿童铅中毒的程度。 热点图对于展示数据的分布情况和特定聚集区域非常有用。
- 在快速访问工具栏中,单击保存工程按钮。

创建一个点聚类图
您需要创建一个静态规划地图,以清晰地传达存在大量和少量的铅中毒案例的位置,以供医院管理层使用。 当然,您在此过程中必须妥善保护个人隐私。 在这种情况下,领导层关注的是其服务范围内的实际病例数量,因为他们需要确保分配专家和协调护理计划资源。
为此,您将制作一个聚类图。 要素聚类技术通过将区域内的点群聚集起来,并显示一个分级符号来表示该聚类所代表的点群数量。 当您希望在不同的比例尺上显示准确的s数值,并且不需要或不想共享各个点的位置时,建议使用此方法。
- 在内容窗格中,单击 High_Blood_Level_Results 图层以将其选中。
- 在功能区上,单击要素图层选项卡。 在绘制组中,单击聚合,然后选中聚类 。

- 在聚类窗口中,单击是。

地图将更新,以显示聚类符号。 符号颜色是随机分配的,并且聚类的大小和数量将取决于您的显示设置和地图范围。

每个符号的尺寸是基于聚类中的点数量,并且还会标注点的数量。
- 放大到城市东北部的聚类区域。

与热点图符号系统一样,聚类符号系统会根据地图的缩放级别和范围进行调整。 如果放大得足够近,您将开始看到个体患者的位置。

与热点图符号系统类似,在某些范围和缩放级别下,聚类符号系统不适合保护患者身份。 并且,与热点图符号系统一样,当您在交互式地图中放大到足够近时,您可以单击个别点并获取其属性。 在交互式地图中,聚类符号系统不足以保护患者身份。
对于静态地图,您可以调整聚类以更好地适应所需的比例尺和范围。
- 在符号系统窗格中,单击聚类选项卡和聚类设置选项卡。

- 拖动聚类半径滑块,并将其向比例尺的高端拖动。

当您拖动聚类半径滑块时,聚类的数量减少,每个聚类中的点数增加。

这与热点图半径的工作原理类似。 您可以更改聚类半径,从而调整聚类程度以适应地图的范围和比例尺。
- 在内容窗格中,右键单击 High_Blood_Level_Results,然后选中缩放至图层。

与热点图符号系统类似,适用于一个比例尺和范围的半径可能不适用于另一个比例尺和范围。

- 在符号系统窗格中,拖动聚类半径滑块向比例尺的低端拖动。

聚类图用于静态和动态地图,以显示特定事件数(在本例中为案例观察)并指示数据密度的空间模式。 出于隐私目的,其优势是聚类不与可以用于识别个人的邮政编码或县等行政边界相关联。 您必须根据地图的特定比例尺和范围调整聚类半径,以传达有关模式的有用信息,同时不暴露个体患者的位置。
因为您正在为医院领导层制作静态地图图像,因此可以使用聚类图,但是您需要谨慎地为地图设置适当的聚类半径。 对于您的医院领导层同事来说,静态聚类图为他们提供了所需的准确信息,可以当地患有高铅血症的儿童指定治疗协调计划。
- 保存工程。
您已经审查了血铅水平数据。 您还研究了 PHI 的定义、必须遵守 HIPAA 的实体以及安全港口和专家决定这两种去标识化方法。 您使用了两种可视化技术(热点图和要素聚类)来可视化点数据,而不显示个体的确切位置。
隐藏小型像元
小型像元是包含聚合数据的面,其中面中的数据点数量较少,存在可能重新识别个人的可能性。 在本部分中,通过结合两种方法(热点分析和镶嵌),您将为在存在小型像元时对数据进行去标识化处理提供支持。 热点分析基于数学计算,用于识别具有统计学意义的高值(热点)和低值(冷点)的空间聚类。 镶嵌是一种使用相同的非重叠几何形状(如正方形、三角形或六边形)分块表面的方法。 这些切片可用于显示其中包含的数据点的摘要信息。
识别热点和冷点
您的下一个任务是创建一张地图,显示在动态 web 地图中发布的高血铅水平病例的统计显著聚类。 您将使用优化的热点分析工具创建地图,并使用六边形镶嵌对结果进行符号化。
在 ArcGIS Pro 中,优化的热点分析工具允许您将高血铅水平的位置聚合为加权要素。 通过使用加权要素的分布,此工具可确定适当的分析范围。 这样就无需提前知道六边形的大小。 使用六边形聚合或分组数据的方式非常有用,由于其不直接与行政边界对齐,因此可以可视化健康信息,同时保护患者隐私。 第二层混淆来自于提供分析输出(统计显著程度水平)而不是病例数量。
您的 web 地图将显示研究区域内儿童铅中毒存在和缺失的一般模式,同时还传达了高浓度区域。
- 在功能区上,单击 分析 选项卡。 在地理处理组中,单击工具。

将出现地理处理窗格。 您将使用此窗格来搜索并运行优化的热点分析工具。
- 在搜索框中,键入 optimized hot spot。 在结果列表中,单击最优化热点分析工具。

该工具被称为优化的热点分析,因为它会搜索最佳距离来执行热点分析。 这将是在相邻六边形图格中的计数聚类最为密集的距离。 如果没有明确的距离,优化器将计算一个平均距离,以提供一定数量的最近相邻要素进行分析。 最后,该工具会将每个邻域六边形图格中的高血铅水平患者计数与整个研究区域进行比较,以确定一个 z 得分,该 z 得分可以直接与确定统计显著性的 p 值相关联。
- 对于输入要素,选择 High_Blood_Level_Results。
- 对于输出要素,接受默认位置。 对于要素类名称,键入 High_Blood_Lead_Hot_Spots。

- 将分析字段参数留空。
如果输入要素与数值相关联,您可以使用分析字段参数来考虑这些值进行热点分析。 在本例中,您不需要设置分析字段值。 这将评估 High_Blood_Level_Results 点的热点和冷点分布。
- 对于事件数据聚合方法,选择在六边形格网内计数事件。
- 对于定义事件潜在发生位置的边界面,选中 Sacramento_ZIP_Codes。

该图层包含了萨克拉门托的邮政编码多边形。 该工具将使用这些要素来识别可能发生的点的位置。 您实际上是在为工具指定研究区域,因此位于萨克拉门托研究区域之外但仍在输入点的最大边界矩形内的区域将不会被识别为冷点。
- 单击运行。
工具运行后,High_Blood_Lead_Hot_Spots 图层将添加到地图中。
- 在内容窗格中,取消选中 High_Blood_Level_Results 图层,以便查看新图层。

图层的符号类别显示在内容窗格中。

工具结果使用蓝色表示统计上的冷点,红色表示统计上的热点,白色表示非显著水平。
您可以共享此图层以显示病例数量显著高和低的位置的分布。 但是,在共享之前,您需要移除 Counts 字段 该字段指示每个六边形中的病例数量。 提供具体计数(尤其是对于仅存在少数事件的像元),可能无法充分保护患者的身份,尽管这在一定程度上取决于像元的大小和条件发生的频率。
接下来,您将通过每个区域内的总计数来符号化热点分析图层。 这种方法不仅显示了集中区域,还提供了一种明确传达病例数量范围的方式。
- 保存工程。
按计数符号化六边形
您需要制作一份报告,与从事铅缓解项目的内部分析师共享,他们需要了解一个区域的病例数量,单无需了解具体的点位置。 您将切换符号系统,以显示每个多边形内的总要素计数。
首先,您将复制该图层,以便可以有不同的符号化版本。
- 在内容窗格中,右键单击 High_Blood_Lead_Hot_Spots 图层,然后选中复制。

- 在内容窗格中,右键单击地图,然后选择粘贴。

- 在内容窗格中,单击您粘贴的图层名称进行编辑。

- 键入 High_Blood_Lead_Hexbin_Counts并按 Enter 键。
- 在内容窗格中,取消选中 High_Blood_Lead_Hot_Spots 图层以将其关闭。
- 右键单击 High_Blood_Lead_Hexbin_Counts 图层,然后选中符号系统。
- 在符号系统窗格中,对于字段,选择计数。
- 单击配色方案下拉列表,向下滚动,然后单击红色(7 类)色带。

- 对于类,选择 5。

- 在符合表中,右键单击最低类的符号(≤ 0),并选择无色彩。

移除零计数的填充可以为地图读者提供更多上下文,并将注意力集中在高血铅水平患者所在的像元上。
某些分类的六边形图格中包含 1 个点。 在大多数情况下,您不希望在一个六边形图格中显示单个病例。 这显然是一个小型像元。 您可以调整分级符号的直方图,以更改地图符号的类。
- 单击直方图选项卡。

- 在直方图上,1 控点以对其编辑。 输入 2,然后按 Enter 键。

- 将 3 控点更改为 4。
随机设置新的类间隔。

符号系统随即更新,将具有一个和两个病例的六边形图格分为同一组。

根据场景和组织的规定,用于选择六边形图格中最小病例数的正确数值有所不同。 对于常见的情况,您可以使用较小的数值;而对于罕见的情况,建议使用较大的数值。 还需考虑每个六边形图格的面积以及其中的人口数量(和潜在的病例数量)。 六边形图格越大,人口数量越多,您可以设置的最小病例数越小,并且不会存在重新识别个人的风险。
现在,您可以与进行分析的同事共享这些信息。 尽管他们是您组织内部的人员,可能拥有使用原始数据所需的所有权限,但他们实际上不需要点级别的数据来进行工作。 最佳做法是根据工作需求提供一个最小可行数据集。 这种平衡方法可以提供足够准确的数据以关注地方问题(优于邮政编码级别),同时避免在不需要的情况下共享包含个人健康信息的点数据。
- 保存工程。
您使用了优化的热点分析工具来帮助确定适当的六边形大小(基于最佳分析比例,而不是隐私需求),并对六边形图格进行了符号化以显示统计显著性。 使用热点图突出显示相对关注区域,在传达问题的同时,防止识别个人。 您对六边形图格数据进行了重新符号化,以显示不同分析过程中的实际病例数。 您使用了一种不需要与可能无权查看或实际上不需要这些数据的利益相关方共享个别点数据的方法。 结果提供了清晰的可视化,显示了研究区域内高血铅水平换着较多的区域。
概化和聚合数据
接下来,您将按年份审查数据,并学习如何在发布给公众的地图产品中保护个人隐私,不识别小数据聚类。 您将学习如何通过概化和聚合数据来保护敏感信息,同时展示数据中的相关模式。 在健康数据中,模式通常是最具信息价值的;无需利用个别病例位置来获取操作许多方面的信息。 例如,作为分析师,您可能希望在儿童铅中毒和监测年度报告中使用概化或聚合的数据,而不是在病例管理和调查中使用个别数据点。
数据概化涉及通过减少复杂性或详细程度来简化数据。 例如,您可以将生日数据概化为出生年份。 您可以将年龄概化为以 10 年为单位的年龄组。 可以将切罗基族、纳瓦霍族和乔克托族等多个部落群体合并为美洲印第安人类别。 另一方面,聚合涉及将多个数据点合并为单个汇总统计数据,例如每年的出生人数。 您将专注于聚合方法,但通常可以将概化技术应用于基础数据,以进一步模糊私人信息。
汇总数据
首先,您将使用研究区域邮政编码区域图层按年份汇总数据。 邮政编码区域边界通常用于报告健康统计数据。 它们同时具有优点和缺点。 优点是,邮政编码区域比县级边界更小,大多数人知道自己的邮政编码区域,并可以在地图上找到它。 缺点是,邮政编码区域边界是人为构造的,旨在支持高效的邮件投递,并且它们可能随时间改变。 作为分析师,您必须决定它们是否适合您的需求,并且是否符合您组织的数据发布规则。
- 重新打开地理处理窗格,单击“后退”按钮。
提示:
如果您未找到地理处理窗格,请单击功能区上的分析选项卡。 在地理处理组中,单击工具。
- 在搜索框内,输入 summarize within。 在结果列表中,单击范围内汇总(分析工具)。

另一个范围内汇总工具属于 GeoAnalytics Desktop 工具工具集,但在本教程中应使用分析工具工具集中的工具。
- 对于输入面,选择 Sacramento_Zip_Codes。

- 对于输入汇总要素,选择 High_Blood_Level_Results。

- 对于输出要素类,接受默认位置。 对于要素类名称,输入 HBLL_by_zip_year。

- 对于分组字段,选择 Blood Level Test Year。

- 单击运行。
HBLL_by_zip_year 图层随即添加到地图中。 此外,在独立表部分,还添加了 testYear_Summary 表。 该表包含按邮政编码区域和年份计数的汇总数据。 它可以将此表连接回 HBLL_by_zip_year 图层,以显示每年的值。
将表连接到结果要素类
接下来,您将汇总表连接到结果要素类,以获取按邮政编码区域和年份汇总数据的单个要素类。 这将允许您创建图层,显示每年的数据。
- 在内容窗格中,右键单击 HBLL_by_zip_year 图层,然后选择属性表。

该表显示了来自原始邮政编码区域面的数据以及由范围内汇总工具添加的数据。 点计数字段显示了每个邮政编码区域面中的总病例数。 JOIN ID 字段包含可以用于将 testYear_Summary 表的属性连接到此图层的值。 此要素类中包含 17 个邮政编码区域面。
- 在内容窗格中,位于独立表部分,右键单击 testYear_Summary 表,然后选择打开。

JOIN ID 字段包含可以用于将属性连接到 HBLL_by_zip_year 图层的值。 testYear 字段存储了血液测试年份的值。 点计数字段显示了每个年份中每个邮政编码区域面中的总病例数,共有 50 条记录。
- 关闭两个表格。
- 在内容窗格中,右键单击 HBLL_by_zip_year,指向连接和关联,然后选择添加连接。

在添加连接窗口中,输入表参数设置为 HBLL_by_zip_year 图层。
- 对于输入字段,选择 JOIN ID。
输入字段旁边有一个警告图标,表示该字段未建立索引。 对于这些小型表来说,这没有影响。
- 对于连接表,选择 testYear_Summary。
- 对于连接字段,选择 Join ID。
- 单击验证连接。

“验证连接”过程随即运行并返回一条消息。

由于存在两个未建立索引的字段,因此该工具建议为它们创建索引以提高性能。 鉴于所涉及的要素数量,这并不必要。
该工具还报告了这是一个一对多连接,并且生成的连接要素类将包含 50 条记录(每条记录分别对应于 testYear_Summary 表中的每条记录)。
- 单击关闭以关闭消息窗口。
- 在添加连接窗口中,单击确定。
HBLL_by_zip_year 图层的属性表随即更新,显示来自 testYear_Summary 的额外字段以及邮政编码区域面和测试年份组合的额外记录。
添加连接工具的结果是临时的。 通过将其导出为新的要素类,可以创建一个包含所有要素的要素类副本。
- 右键单击 HBLL_by_zip_year 图层,指向数据,然后选择导出要素。
- 在导出要素窗口中,对于输出要素类,输入 HBLL_by_zip_all_years。

- 单击确定。
新的要素类存储在您的工程地理数据库中并添加至内容窗格中。 您不再需要更老的图层。
- 在内容窗格中,右键单击 HBLL_by_zip_year 并选择移除。

符号化图层
接下来,您需要符号化该图层。
- 在内容窗格中,取消选中除 HBLL_by_zip_all_years 以外的所有图层。
- 右键单击 HBLL_by_zip_all_years,然后选择符号系统。
- 在符号系统窗格的主符号系统中,选择分级符号。
- 对于字段,选择第二个点计数字段,该字段位于 Join ID 下方。

该字段包含面内在特定年份发生的点的聚合计数。 第一个字段包含所有三年的总计数。
- 对于最大尺寸,输入 40 pt。

图层符号系统随即更新。

该地图显示每个面上的多个不同大小的点符号。 这是因为 HBLL_by_zip_all_years 图层包含每个邮政编码区域面的多个副本,每个副本包含该邮政编码区域中某一年份的病例。 符号大小范围基于值的范围,但是该地图很难阅读。 您无法说清哪个点符号对应于哪一年。
- 单击功能区上的地图选项卡。 在导航组中,单击探索工具的下拉箭头,然后选择可见图层。

- 单击最东北的邮政编码区域面。

地图上只有两个可见的点符号,但是弹出窗口的上半部分显示该位置包含来自HBLL_by_zip_all_years 图层的三个要素。 弹出窗口的下半部分显示了顶端要素的属性。 testYear 和点计数字段显示了每年的 95821 邮政编码区域中的病例数。

- 在弹出窗口的上半部分,单击Sacramento 的两个示例,查看另外两个要素的属性。

在 95821 邮政编码区域中,2018 年有 24 个病例,2019 年有 48 个病例,2020 年有 26 个病例。
- 关闭弹出窗口。
按年份显示数据
现在您拥有了按年份统计邮政编码区域内病例的 HBLL_by_zip_all_years 图层,您将复制该图层以可视化每年高血铅水平病例的分布情况。
- 在内容窗格中,右键单击 HBLL_by_zip_all_years 图层,然后选择复制。
- 在内容窗格中,右键单击地图,然后选择粘贴。
- 重命名 HBLL_by_zip_all_years 图层的副本名称为 HBLL_by_zip_2018。
- 双击 HBLL_by_zip_2018 图层。
随即出现图层属性窗口。
- 在图层属性窗格中,单击定义查询选项卡。
- 单击新建定义查询。

- 创建查询为 Where testYear is equal to 2018。

此查询过滤图层,以仅在地图上显示 2018 年的面。
- 单击应用和确定。
- 在内容窗格中,右键单击 HBLL_by_zip_2018 图层,然后选择复制。
- 在内容窗格中,右键单击地图,然后选择粘贴。
- 将新图层副本重命名为 HBLL_by_zip_2019。
- 双击 HBLL_by_zip_2019 图层以打开图层属性窗口。
- 在定义查询选项卡上,对于查询 1卡片,单击编辑。

您将更改 2019 年图层的定义查询,以显示 2019 年的数据。
- 将年份值修改为 2019。

- 单击应用和确定。
- 复制 HBLL_by_zip_2019 图层,将其重命名为 HBLL_by_zip_2020,并更新该图层的定义查询,以显示 2020 年的数据。
您现在有一个单独的图层显示每年的高血铅水平病例的县。
接下来,您将尝试两种不同的聚合方法,以达到组织设定的最低阈值值。 您的领导层已确定,如果在某个区域(如邮政编码区域)内进行了 5 次或更多次观察,则可以在将要公开发布的产品中显示该邮政编码区域的数据。
- 在地图上,单击病例数量最少的位于中心位置的邮政编码区域面。

内容窗格中的顶层图层 HBLL_by_zip_2020 将首先显示。

在 2020 年,该邮政编码区域面中包含两个病例。 这一数字少于您的组织规定的按邮政编码区域发布数据的最低值要求,即 5 个病例。
- 在弹出窗口窗格中,在 HBLL_by_zip_2019 下方,单击 Sacramento 以查看 2019 年的属性。

2019 年在该邮政编码区域中包含三个病例。 由于 2019 年和 2020 年的值之和达到了五个,您可以发布此邮政编码区域的 2019 年和 2020 年的综合数据。
- 关闭弹出窗口。
合并多年的数据
聚合多年数据是满足组织最低阈值要求的一种方法,直到每个邮政编码区域中的病例数达到至少 5 个。 这种方法可以降低时间分辨率以保持空间分辨率。
- 在功能区地图选项卡的选择组中,单击按属性选择。
- 在按属性选择窗格中,对于输入行,选择 High_Blood_Level_Results。

- 单击选择字段,选择 Blood Level Test Year 。
- 接受默认运算符 is equal to。
- 单击比较值下拉列表,然后选择 2020。

- 单击添加子句。

查询的默认逻辑运算符为 And。 此运算符让您可以构建查询,以选择其中一个字段的值为某一内容,另一个字段的值为另一内容,或者值在某个范围内(如果使用大于和小于的比较)。 然而,在这种情况下,您将构建一个查询,以选择测试年份为 2020 或 2019 的要素。
- 单击 And 逻辑运算符,并选择 Or。

- 将字段设置为 Blood Level Test Year,并接受默认的 is equal to 运算符。
- 单击值下拉列表,然后选择 2019。

按属性选择工具已准备好选择 Blood Level Test Year 字段值为 2020 或 2019 的要素。
- 单击确定。
已选择 2020 年或 2019 年记录的 High_Blood_Level_Results 要素。 您无法在地图上查看它,因为 High_Blood_Level_Results 图层已关闭。 然而,在地图视图下方列出了 270 个所选要素的计数。

接下来,您可以运行范围内汇总工具,以按邮政编码区域对所选要素进行计数。
- 在功能区上,单击分析选项卡。 在地理处理组中,单击工具。
- 搜索并打开范围内汇总工具。
- 对于输入面,选择 Sacramento_Zip_Codes。
- 对于输入汇总要素,选择 High_Blood_Level_Results。
- 对于输出要素类,输入 HBLL_by_zip_2019_2020。

范围内汇总工具会警告您输入上存在选择,且仅将处理该记录子集,而这正是您所希望的。
- 单击运行。
新图层 HBLL_by_zip_2019_2020 将添加到内容窗格中。
- 在内容窗格中,右键单击 HBLL_by_zip_2019_2020 图层,然后选择属性表。
- 右键单击点计数的列标题,然后选择升序排序。

排序列显示该图层中不存在少于 5 个病例的邮政编码区域面。

根据组织最低阈值,2019 年和 2020 年的分组计数可以按照邮政编码级别发布。
- 关闭属性表。
您将清除所选内容,所以这不会影响其他工具。
- 右键单击地图上的任意位置,然后单击清除。

合并邮政编码几何
假设您需要报告 2020 年的数据,而不包括 2019 年的数据。 则可以使用第二种方法来满足组织的最低阈值要求:即将单个年份的邮政编码聚合,直到每个聚合区域中的病例超过五个为止。 这种方法可以降低空间分辨率以保持时间分辨率。
- 打开地理处理窗格,然后单击后退按钮。
- 搜索构建平衡区域。 在结果列表中单击 Build Balanced Zones。

- 对于输入要素,选择 HBLL_by_zip_2020。
会显示一个注释,说明该输入具有过滤器。 这是因为图层上存在一个定义查询,将其过滤为仅显示 2020 年的数据。
- 对于输出要素,键入 HBLL_2020_Zones。

- 确认区域创建方法被设置为属性目标。
- 在具有目标的区域构建标准下,对于变量,选择点计数 [Point_Count_1]。
![将变量设置为点数 [Point_Count_1] 将变量设置为点数 [Point_Count_1]](GUID-39C9E9C5-B5FF-4807-AEBB-AFFEFDCC76CE-web.png)
- 对于总和,输入 12。
该值高于组织的最低值 5。 构建平衡区域工具使用目标变量作为随机种子遗传算法的目标,但结果只能近似目标值,因此如果设置较低的值,可能会有一些区域的案例少于五个。
- 对于空间约束,选择仅邻接边。
- 单击运行。
结果随即添加到地图。
- 在内容窗格中,关闭除 HBLL_2020_Zones 之外的所有图层。

原始邮政编码面将被保留,但它们具有可将其分配到不同区域的新属性。 您将对面进行融合,所以每个区域只有一个要素。
- 在地理处理窗格中,单击后退按钮。
- 搜索并打开成对融合工具。

- 对于输入要素,选择 HBLL_2020_Zones。
- 对于输出要素类,键入 HBLL_2020_Zip_Dissolve。

- 对于融合字段,选择区域 ID。

- 对于统计字段,选择点计数。 确认统计类型设置为总和。
- 取消选中创建多部件要素。

- 单击运行。
融合区域图层随即添加到地图中。

- 在内容窗格中,右键单击 HBLL_2020_Zip_Dissolve,然后选择属性表。
各区域的点数全都大于 5 个,大多数区域的点数大于等于 12 个。 这符合您组织的指南。

- 关闭属性表。
作为儿童铅中毒预防计划的分析师,您必须考虑哪种方法最适合为通常禁用数据的辖区提供有意义且可操作的数据。 跨年度聚合意味着最终用户无法辨别聚合年份之间的时间变化,但他们可以看到可能被禁用的小型地理区域的数值。 聚合多个邮政编码区域可能会在绘制每个单一年份时识别强烈的时间趋势,但地理特异性将减弱。 每种方法必须根据报告和数据共享的目标受众和目的进行权衡。
向点添加坐标值
到目前为止,您一直在为利益相关者创建地图,重点关注萨克拉门托县高血铅水平的范围、总病例数以及数据中的空间和时间模式的各种视图。
接下来,您将与卫生公平团队共同工作。 他们希望进行一些研究,以确定与儿童高血铅水平相关的其他因素,如性别、种族/族裔和年龄。 为了像他们的工作提供帮助,您必须能够为他们提供一个去标识化的点级数据集,其中包括感兴趣的每个儿童所有变量,以及他们的大致位置。 您将使用坐标四舍五入来完成这个任务,并检查一些统计数据来验证四舍五入的级别。
首先,您将向点要素添加纬度和经度值的属性,单位为十进制度。
- 在地理处理窗格中,搜索并打开计算几何属性工具。

- 对于输入要素,选择 High_Blood_Level_Results。
- 在几何属性下方,对于字段(现有或新建),键入 Latitude。

这将向属性表添加一个新字段,用于存储每个点的纬度值。
- 对于属性,选择 Point y-coordinate。

每个点的 y 坐标值随即添加到纬度字段。
- 在第二行中,对于字段(现有或新建),键入 Longitude。 对于属性,选择 Point x-coordinate。
- 对于坐标格式,选择十进制度。

- 单击选择坐标系按钮。

- 在坐标系窗口中,搜索 WGS 1984。
- 展开地理坐标系和世界。 单击 WGS 1984。

- 单击确定。
- 在计算几何属性工具中,单击运行。
- 在内容窗格中,右键单击 RocketsLaunch 图层并选择属性表。 滚动到表的底端,直到看到纬度和经度字段。

现在,您已经将点的纬度和经度值存储在属性中,可以创建新的字段来保存四舍五入的值并计算新的四舍五入值。
注:
提供了几种处理纬度和经度坐标的方法,这些坐标代表您的高血铅水平病例的点位置。 您可以截断或四舍五入坐标,将每个点位置对齐到研究区域的较低分辨率网格。 您还可以通过使用随机数替每个坐标的最后一位或两位来扰动位置。 这将使每个点随机移动一定的距离和方向。
添加四舍五入的坐标的字段
您将创建两个字段来保存四舍五入的坐标值。
- 右键单击 High_Blood_Level_Results,指向数据设计,然后选择字段。
字段表随即显示。 这按行列出 High_Blood_Level_Results 图层中的每个字段。 您将使用表向图层中添加两个新字段。
- 滚动到字段列表的底部。
- 单击纬度的行标题。 按住 Ctrl 键,并单击经度的行标题。

- 右键单击纬度的行标题,然后选择复制。

- 右键单击纬度的行标题,然后选择粘贴。
两个新行出现在表格中,名称为 Latitude1 和 Longitude1。 您需要更改所复制字段的名称和别名。
- 在字段名称列中,双击 Latitude1 ,然后键入 LatitudeRound。

- 将Longitude1 重命名为 LongitudeRound。
- 在别名列, LatitudeRound 列,键入 Latitude Rounded。
- 在别名列, LatitudeRound 列,键入 Longitude Rounded。
已设置复制字段的名称和别名。
- 在功能区字段选项卡的管理编辑内容组中,单击保存。

两个新字段随即添加到 High_Blood_Level_Results 要素类的表方案中。
- 关闭字段视图。
对坐标进行四舍五入
接下来,将计算四舍五入的坐标值,并将其存储在新字段中。
- 在 High_Blood_Level_Results 图层的属性表中,右键单击 Latitude Rounded,然后选择计算字段

- 在计算字段窗口中,对于表达式类型,选择 Arcade。

Arcade 是专为 ArcGIS 编写的轻量级表达式语言。
- 在表达式框中,输入或复制并粘贴以下 Arcade 表达式:
Round($feature.Latitude,2)
此代码使用 Round 函数,将 Latitude Rounded 字段值设置为 Latitude 字段中的值,并四舍五入到两位小数。 这会将点的位置信息四舍五入到最近的百分之一度。
- 单击验证按钮。

- 单击应用。
计算并将四舍五入的值添加到 Latitude Rounded 字段的属性表中。

您将使用相同的方法计算 Longitude Rounded 字段的值。
- 在计算字段窗口中,对于字段名称(现有或新建),选择 Longitude Rounded。
- 在表达式框中,用以下内容替换现有表达式:
Round($feature.Longitude,2) - 单击确定。
Latitude Rounded 和 Longitude Rounded 字段四舍五入到两位小数。

注:
如果您的坐标在平面空间参考中,例如加州州平面坐标系或 UTM 坐标系,则坐标值将以线性单位而不是十进制度数表示。 在这种情况下,您需要计算用于对值进行四舍五入的适当间隔,并将值四舍五入到该间隔。 例如,您可以选择将其四舍五入到最近的 1,000 英尺或 100 米,具体取决于单位和所需的位移量。
- 关闭属性表。
创建新点
现在您已经在两个字段中获得了四舍五入的值,可以在这些位置创建新的点。
- 在地理处理窗格中,搜索并打开创建 XY 事件图层工具。

- 对于XY表,选择 High_Blood_Level_Results。
- 对于 X 字段,选择 Longitude [LongitudeRound]。
- 对于 Y 字段,选择 Latitude [LatitudeRound]。
- 对于输出图层名称,键入 High_Blood_Level_Results_Rounded。
- 确保空间参考设置为 GCS_WGS_1984。

有了这些参数,该工具将使用您计算出的经四舍五入的纬度和经度值创建一个新的点图层。
- 单击运行。
- 在内容窗格中,关闭除 High_Blood_Level_Results_Rounded 和 World Street Map 之外的所有图层。

由四舍五入的坐标值生成的点按照格网状的形式排列,间隔为百分之一度。 这种方法可将点从其原始位置移动,并保留某些原始空间模式,这对于分析可能非常有用。

原始点的热点图

四舍五入坐标点的热点图
警告:
在通过坐标四舍五入等方法对点级位置进行掩膜处理后,应在将数据发布给授权的内部同事之前,从属性表中移除不需要的可识别个人健康信息,如姓名、生日、地址字段和原始坐标值。 如果仍然提供原始地址或坐标,则将点移动到四舍五入的坐标值并不能保护个人健康信息。
您可以使用导出要素工具导出要素类的副本,并将其共享给组织中的授权成员。 在此工具的字段部分中,您可以访问字段列表,并在其中选择删除不需要的包含个人健康信息的字段。
记录四舍五入结果
对于专家决策,需要进行去识别处理以能够量化和记录点的移动程度。 您将回顾使用坐标四舍五入方法进行点移动的某些统计数据,并汇总移动到每个格网点的点数。
- 搜索并打开 XY 转线工具。

- 对于输入表,选择 High_Blood_Level_Results_Rounded。
- 对于输出要素类,键入 HBLL_dist。

此线要素类将连接每个原始点的坐标与其对应的四舍五入坐标位置。 您将使用线要素来计算位移量。
- 对于起始 X 字段选择 Longitude [Longitude]。
- 对于起始 Y 字段,选择 Latitude [Latitude]。
- 对于结束 X 字段,选择 Longitude [LongitudeRound]。
- 对于结束 Y 字段,选择 Latitude [LatitudeRound]。

- 对于线类型,选择测地线。
此值表示地球表面两点之间的最短距离。
- 将 ID 字段留空。
- 对于空间参考,请接受 GCS_WGS_1984 的默认值。

- 单击运行。
HBLL_dist 图层随即添加到地图中。 根据地图的缩放级别和范围,可能很难看到它。 如果放大到较高密度区域之一,您将看到一组线将每个原始点连接到其对应的四舍五入坐标点位置。

- 在内容窗格中,右键单击 HBLL_dist 图层,然后选择属性表。
Shape_length 字段中的值为较小的十进制值,它们以度为单位。 您会将长度转换为平面单位。

添加距离字段
您将在 HBLL_dist 图层的属性表中添加一个新字段,并计算其值以获取点的位移距离。
- 在属性表中,单击添加。

字段表格随即显示。 您将添加一个新字段来保存距离(使用线性单位)。
- 在字段名称列的底部行中,键入Distance。
- 在数据类型列的底部行中,选择双精度型。

- 在功能区字段选项卡的管理编辑内容组中,单击保存。

- 关闭字段视图。
- 在属性表中,右键单击 Distance 字段的列标题,然后选择计算几何。

- 在计算几何窗口中,对于属性,选择长度(测地线)。

- 对于长度单位,选择米。

- 单击确定。
以米为单位的线长度将作为属性添加到 Distance 字段中。
- 右键单击 Distance 列标题,然后选择可视化统计数据。

图表和图表属性窗格随即出现。
在图表属性窗格的统计数据部分,显示 Distance 字段的汇总统计数据。 这些统计数据显示,点移动到四舍五入坐标位置的平均距离为 377 米,最小距离为 19 米,最大距离为 685 米。

图表视图显示了距离值的直方图,您可以在使用坐标四舍五入法创建去识别产品时,使用它来支持决策。

- 关闭图表属性窗格、图表和属性表。
在四舍五入坐标处计算点数
接下来,您将计算使用坐标四舍五入法后存在的堆叠点数。 从隐私和去识别的角度来分析,可以将此计数视为表示池中可能代表任何单个案例的识别信息的案例数。 每个堆栈中的案例数越多,池中的案例数越多,越适于实现去识别的目的。 将对这些点进行地理分析,但需注意,您还需检查在计划分享的表中保留的所有属性的唯一性,因为特定属性的组合也可能识别出一个个体。 因此,建议向利益相关者提供最小可行数据集。
- 在内容窗格中,关闭除 High_Blood_Level_Results_Rounded 和 HBLL_dist 之外的所有图层。
- 在地理处理窗格中,搜索并打开收集事件工具。
- 对于输入事件要素,选择 High_Blood_Level_Results_Rounded。
- 对于输出加权点要素类,键入 HBLL_rounded_counts。

- 单击运行。

在这种情况下,某些聚类中堆叠了多达 15 个点,尽管许多聚类中仅包含一个或两个点。 对于更大的数据集,您可能会有更密集的堆叠点。
您已经使用坐标四舍五入法对敏感点数据位置进行了掩膜处理,同时保留了与这些点相关的几个附加属性。 卫生公平研究人员现在有了最好的机会,可以使用去识别的数据进行更多的分析,并讲述有关萨克拉门托儿童血铅中毒的更完整的故事。 为了记录去识别方法,您计算了与每个点偏移距离相关的统计数据,并计算了每个格网位置堆叠中的点数。 请记住,移除可能导致重新识别的属性(例如地址、原始位置坐标)非常重要,最佳做法是尽量减少所提供数据集中的属性数量。
- 保存工程。
审查高级方法
您已经了解了针对不同用途场景的去识别数据的几种方法。 在某些情况下,您可能需要采用更高级的方法。 您将了解两种高级数据去识别方法:地理掩膜和差分隐私。
根据卫生 GIS 工作情况,您可能希望深入研究以下技术,以便根据需要进行应用。
地理掩膜地理掩膜是指一组改变单个点地理位置的方法,但其方式与坐标四舍五入法不同且功能更强大。 要使地理掩膜发挥作用,需要两个关键方面。 第一,点的扰动必须是不可预测的,这样才能保护数据的机密性; 第二,点的移动方式应该保持数据集内的空间关系。 毕竟,GIS 旨在寻找模式。 接下来,将介绍一种特定的地理掩膜类型 - 环状掩膜法。 然后,您将学习如何使用 k 匿名性对地理掩膜结果进行统计评估。 最后,将介绍一个可以为您自动完成整个过程的工具。
环状掩膜法环状掩膜法的基本思想是,通过确保随机移动点永远不能回到其原始位置,从而提高机密性。 这意味着点的移动必须距离其原始位置某个最小距离之外。 同时,为了保持空间模式,每个点还有一个计算所得的最大位移距离。 这两个距离创建了一个环状的位移区域,原始点可以在其中移动。 您可以在本文中了解更多关于环状掩膜法的信息。

确定专家去识别方法包括要求记录过程并说明该过程如何最小化重新识别风险。 在使用地理掩膜技术时,K 匿名性统计量是支持该论证的评估指标。 您可以阅读更多关于 K 匿名性的内容。 总体思路是,K 匿名性代表数据集中无法区分去识别化主体的家庭数量。 例如,如果您决定 K 的最小值为 5(写作 KMin = 5),这意味着至少有五个家庭(或个体)可能代表您的原始点。
您组织的关键决策是确定隐私保护可接受的 K 最小值。 虽然没有单一的标准,但是审查各个州和联邦机构关于小型像元计数的策略可能有用。 小型像元是指与相同要素组合相对应的人数。 与权威政府机构的政策保持一致可能有助于为您的组织制定自己标准的决策提供支持。 此外,请注意,一个标准 K 值可能并不适用于每种情况。
差分隐私差分隐私是一种较新的技术,许多人认为它在保护个人隐私方面更加出色。 它在处理较大数据集时效果最好。 实际上,这是自 2020 年普查起,美国人口普查局使用的数据报告方法。 使用差分隐私,数据集中的数据会以数学方式进行改变(所有数据),这样可以确保无法识别任何个体,同时保持数据集的有用性。 根据隐私损失预算的参数 epsilon,向数据集注入噪声。 使用 epsilon 意味着可以量化数据的披露风险,这对于遵守组织政策以及专家决策所需的文档非常有用。
理解差分隐私工作原理的一种方式是想象一个图片镶嵌,其中组合了数百个普通图片,从而形成了一个更大的新图片。 当放大到个体图片级别时,可以替换几张图片或将它们移动到不同的位置;但当您缩小到整体图像时,整体图像看起来基本相同。 整体图片可能不如照片清晰,但随着添加更多个体图片,质量也将得到改善。
关于差分隐私及其对健康 GIS 的价值,还需要了解许多内容。 这是您需要注意的一个领域,因为您可能已经在使用通过此方法共享的人口普查数据,并且因为可能存在某些工具可以在您自己的地理空间工作中启用此技术。
关于差分隐私对 2020 年美国人口普查数据影响的详细信息,请参阅 2022 年 6 月 Esri 方法论报告,以及美国人口普查局关于避免披露的手册。
此教程介绍了有关用于可视化和共享的数据去识别方法,其中回顾了美国 HIPAA 法律,该法律专注于保护个人健康信息的隐私。 您学习了几种技术,可以安全地对信息进行映射和可视化处理。 您还学习了一些技术,可以帮助您共享数据,无论是作为动态 web 地图还是作为数据集供其他人用于研究或其他目的。 您还学习了一些高级技术,当您需要更强大的选项来保留点级数据时,可以使用这些技术。
本教程无法涵盖所有情况。 在本教程中,您学会了如何在空间上思考这个问题,并考虑各种方法的优缺点。 无论您在处理受保护的健康信息时使用哪种技术,请谨慎思考,并与内部组织准则保持一致,确保安全。
您可以在教程库中找到更多教程。



