浏览数据
在本教程中,您将扮演一名使用血铅水平测试结果的数据分析师角色。 您需要准备数据进行分析、可视化和共享。 这些数据将被不同的群体用于不同的目的。 某些员工需要访问点级别数据进行操作,如案件管理和现场评估。 其他人需要汇总数据以与领导层沟通,其中某些沟通信息将与公众共享。 还有其他人必须分析随时间变化的情况,并追踪干预和缓解措施的结果。 由于隐私法保护患者数据,您必须使用不同的去识别策略准备不同的派生数据产品。
本教程中的数据是虚构的。 它们专为演示本教程中的工作流而创建。 这些数据旨在在工作流中看起来合理,并且结构与您在此情况下可能使用的数据类似,但由于存在共享此类真实数据方面的法律限制,这些完全是虚构数据。 切勿依赖这些数据。 切勿根据这些数据得出结论或制定现实世界的决策。 切勿使用这些数据来训练人工智能或机器学习模型,结果将不准确。 该数据集中的地址是真实地址,目的是为了演示地理编码并提供可行的去识别数据,但该数据与这些地址没有真实关联。 数据集中与这些地址相关的任何名称或属性值都是虚构的,与这些位置的任何实际人员或情况无关。
下载并检查数据
首先,您需要下载并检查数据。
- 下载名为 Blood_Lead_Levels_Zipped_Folder.zip 的压缩工程数据。
名为 Blood_Lead_Levels_Zipped_Folder.zip 的文件将下载到您的计算机上。
根据您的浏览器和设置,它可能保存在下载文件夹或桌面上。
- 在计算机上找到下载的文件,并使用 zip 实用程序将 zip 文件解压缩到一个文件夹中。 指定输出文件夹位置,然后单击下一步。
这是一个受密码保护的 zip 存档。 随即显示密码窗口。
- 在密码中输入密码 I_Understand_This_Is_Fictitious_Data,然后单击确定。
使用此密码表示您了解数据是虚构的。
zip 文件将作为一个文件夹解压缩到您的计算机上。
- 打开您解压缩 zip 文件的文件夹。
它包含一个名为 BloodLeadLevels.ppkx 的文件。 .ppkx 文件是 ArcGIS Pro 工程包,是用于共享工程的压缩文件,可以包含地图、数据和其他文件,您可以在 ArcGIS Pro 中将其打开。
- 双击 BloodLeadLevels.ppkx 以在 ArcGIS Pro 中打开它。 如果出现提示,请使用 ArcGIS 帐户登录。
随即显示加利福尼亚州萨克拉门托的地图。 虚构的 High_Blood_Level_Results 点图层显示了血液中铅含量高的儿童的家庭地址位置。
您的铅监测和缓解计划使用血液测试结果和单个患者的位置来调查这些儿童家庭中铅暴露的来源。 这些数据还用于调查家庭成员的潜在暴露,并追踪工作场所、学校和社区位置的铅源。
- 如果 High_Blood_Level_Results 属性表尚未打开,请在内容窗格中,右键单击 High_Blood_Level_Results,然后单击属性表。
许多国家已经制定了保护个人隐私的政策,以保护敏感信息,如财务和健康数据。 在美国,1996 年签署的《健康保险流通与责任法案》 (HIPAA) 是关于安全健康数据做法的主要指南。
美国卫生与公众服务部将受保护的健康信息 (PHI) 定义为“由受相关法律约束的实体或其业务伙伴持有或传输的可以识别个人的健康信息,包括任何形式或媒体(无论是电子、纸质还是口头信息)。 可以识别个人的健康信息包括与以下事项相关的人口统计数据:
- 个人过去、现在或将来的身体或精神健康状况
- 向个人提供的医疗保健
- 因向个人提供医疗保健而进行的过去、现在或将来的付款的信息
可以识别个人或有合理依据相信它可以用于识别个人的信息。 可以识别个人的健康信息包括许多常见标识符(例如姓名、地址、出生日期、社会安全号码)。”
- 检查表中的属性。
该图层包含虚构的家庭地址、名字、姓氏、生日、年龄、种族、族裔、性别、血液测试结果和测试年份的数据。 如果这些数据是真实的,它们将被视为关于未成年人的健康状况、身份和精确位置的高度个人化的私密信息。
这是有用且有价值的信息,但必须依据健康数据隐私法规谨慎处理。 由于您的工作需要使用和共享这些数据,您必须了解法律规定以及可用于数据共享的去识别策略。
由于 High_Blood_Level_Results 数据表包含了关于儿童血铅水平和身份信息(包括姓名、地址和出生日期),根据 HIPAA,该信息被视为 PHI,必须根据 HIPAA 隐私规定进行妥善保护。
此类型数据只能与被授权访问的员工共享。 授权将根据组织内部指南确定,通常包括工作职责需要访问 PHI 的人员或通过内部流程(如负责研究和评估的机构审查委员会)获得访问权限的人员。
您可能希望了解是否受这些规定的约束。
- 请阅读美国联邦医疗保险和医疗补助服务中心 (CMS) 网页上的受本法律约束的实体部分。
该页面提供了关于受 HIPAA 法规约束的实体的相关时指南。 受法律约束的实体决策工具 (PDF) 提供了一个交互式决策树,您可以使用它来确定自身是否为受 HIPAA 规则约束的实体。
通常情况下,受约束实体包括以下内容:
- 健康计划 - 用于提供或支付医疗费用。
- 医疗保健提供者 - 以电子方式传输各类用途的数据数据(如账单、转诊等)。
- 医疗清算机构 - 代表其他组织处理非标准健康信息,使其符合数据内容或格式标准,或反之亦然。
- 业务伙伴 - 受约束实体之外的个人或组织,代表受约束实体执行涉及使用或披露可识别个人健康信息的某些职能。 在这些情况下,受约束实体必须与业务伙伴签订合同,分配与受约束实体相同的隐私保护相关职责和义务。
在本教程中,由于您的组织经营医疗诊所,因此您为受约束实体。
血铅水平图层等健康数据对于识别健康差异、政策评估和战略规划非常有价值。 在这些重要工作中,您必须使用保护个人隐私的方法,同时最大限度地利用数据的效用。
- 阅读 HHS.gov 页面上的去标识化标准部分。
您可以使用包含 PHI 的 GIS 数据,但必须将其保存在适当安全的本地计算机硬件或安全的 ArcGIS Enterprise 地理数据库中。 这些数据不能托管在 ArcGIS Online 中。
如果您共享这些数据,则必须首先进行去标识化。
数据去标识化的目标是将可识别信息与健康信息分离,以确保最小化重新识别风险。
去标识化的过程涉及移除数据集中的标识符信息,以显著减少某个数据集中的个人身份被他人推断出的可能性。 监管机构已了解,即使使用适当的去标识化方法,仍然存在一定的重新识别风险。 因此,去标识化的要求是确保个人的重新识别风险非常低。 根据 HIPAA 标准,可接受以下两种去识别化方法。
第一种去标识化方法是安全港口,即要求从数据中删除以下 18 个具体标识符:
- 名称
- 所有小于州的地理区域细分
- 与个人直接相关的所有日期元素(除年份外)
- 电话号码
- 车辆标识符和序列号
- 传真号码
- 设备标识符和序列号
- 电子邮件地址
- Web 统一资源定位符 (URL)
- 社会安全号码
- Internet 协议 (IP) 地址
- 病历号
- 生物特征标识符,包括指纹和声纹
- 健康计划受益人号码
- 全脸照片和任何类似的图像
- 帐户编号
- 证书/许可证号码
- 任何其他独特的识别号码、特征或代码(除非获得许可)
依据规定,需移除 High_Blood_Level_Results 图层中的大部分数据。
如果您正在使用 GIS 进行健康相关工作,则此方法可能不是非常有用,但仍建议了解其相关内容。 这种方法比第二种方法更简单,但在移除这 18 个标识符之外,还需要多考虑一些问题。 数据管理员还必须考虑数据集中是否存在其他标识符,相关人员是否可以使用这些标识符来识别个人,比如独特的职位名称。
您可能还注意到第二个标识符存在问题,即所有小于州的地理细分。 这将使得在有用分辨率下(如城市或社区),使用 GIS 变得极具挑战性。
您将从以下这些点开始:
转变为州级数据,例如下面的地图:
如果根据当前美国人口普查数据,三位数字的邮政编码中有超过 20,000 人,安全港口规则允许您使用前三位数字的邮政编码。 然而,在医疗保健 GIS 中很少使用三位数字的邮政编码,而且医疗保健 GIS 用户通常关注更精细的地理图层面上的健康影响。
为了最好地利用您的数据,您必须使用第二种去标识化方法,称为专家决定方法。
- 请阅读有关专家决定去标识化方法的指南。
专家决定方法非常灵活。 它要求用户具备足够的知识和专业知识,根据普遍接受的科学和统计原则和方法,通过渲染方式对数据进行去标识处理,并确保重新识别风险非常低。 专家决定方法的关键之一是记录用于进行专家决定的技术。
您已经审查了血铅水平数据。 您还研究了 PHI 的定义、必须遵守 HIPAA 的实体以及安全港口和专家决定这两种去标识化方法。 当您在与 GIS 相关的工作中遇到 PHI 时,依据法律采取适当的措施并防止隐私泄露非常重要。
您必须根据团队中的不同成员的角色和任务,确定为其提供适当级别的数据的最佳方法。 您将向某些内部用户提供点级别可识别数据。 这些授权用户可能会进行病例管理和调查,寻找潜在的暴露源。 他们可能需要住址以计算家庭访问的最佳路线。 然而,其他人将需要一个去标识化的最小可行数据集。
在接下来的几个部分中,您将使用专家决定方法和几种 GIS 技术来创建数据产品,以为组织进行儿童铅中毒预防工作提供支持。
设计基于地图的可视化
在本部分中,您将使用保持数据完整性和空间模式的方法,在地图上符号化血铅水平数据,同时保护数据集中个体的隐私。
不同的方法适用于不同的用例。 您必须考虑地图的意向、受众和交付机制。 如果地图为静态地图(如 PDF、图像或纸质地图),且地图用户无法与数据进行交互,则需要考虑不同的因素;而如果地图用户可以在 Web 浏览器或应用程序中探索数据,可以进行缩放,并且可以调查单个点及其相关属性数据,则情况将有所不同。
制作热点图
您需要制作一张打印海报的地图,以向利益相关者和公众传达萨克拉门托市儿童铅中毒的程度,从而帮助传达风险,并进行针对性干预、健康教育和组织相关活动。 热点图是理想选择,因为它可以创建一个平滑的表面,指示图层中点的密度,同时模糊点的位置。
- 在内容窗格中,右键单击 High_Blood_Level_Results,然后单击符号系统。
- 在符号系统窗格中,单击主要符号系统下拉列表,向下滚动,然后单击热点图。
图层的符号系统切换为显示热点图数据。
城镇东北部的高强度黄色和红色斑点表示该区域居住有多位患有高血铅水平的儿童。 重要的是,您无法看到显示的儿童数量,也无法看到他们家庭的确切位置。 为了进一步保护患者隐私,您可以在不包括其他行政边界(如县界或邮政编码)的情况下显示此热点图,并且还可以将底图更改为不显示街道名称的底图,以防止敏感数据的重新识别。 这种可视化技术最适用于具有许多点要素的数据集,其中至少有一些点彼此相邻。
注:
热点图视觉上最强烈的区域有时被称为热点。 虽然这是描述这些空间模式的合理方式,但不应将这种热点与热点分析工具的结果混淆,后者可以确定研究区域内的统计显著聚类。 - 在功能区中,单击共享选项卡,然后单击输出部分中的复制到剪贴板。
热点图的静态图像被复制到剪贴板中。 您可以将其粘贴到演示文稿或文档中,并在不暴露 PHI 的情况下共享。
- 放大到城镇东北部的密集区域。
在放大过程中,热点图的符号系统会改变并显示屏幕上点的相对密度。
放大得越近,看到的细节越多。 即使相对于原始点表示,数据被模糊化,但在某些尺度下,热点图已不再是一种适合显示敏感数据并保护隐私的方式。
注:
重要的是要意识到,如果您的目的是创建一个交互式地图而不是打印地图,这种动态热点图渲染可能会暴露个人信息。 在创建交互式地图时,要注意动态渲染的热点图,并考虑使用基于比例尺的渲染来限制可能的缩放范围。在某些缩放比例尺下,您可以确定模糊点的房屋级位置。
- 单击其中一个模糊点。
弹出窗口显示了该点的属性。 当使用交互式地图时,使用热点力图符号系统不能保护患者数据。 点及其属性仍然存在。
- 在符号系统窗格中,在半径框中键入 50。
热点图的符号系统会改变,并使用更大的半径值重新计算密度。
这种新的表示方式可以显示邻域比例尺上高血铅水平案例的密度。
在准确表达数据地理信息需求和保护被调查者隐私要求之间达到平衡方面,探索不同的热点图符号系统参数以表示数据的聚集程度和规模将非常有用。 许多与健康相关的问题(包括疾病爆发)均使用了不同的地理比例尺。 在某些情况下,爆发是由一个点源引起的,而在其他时候,问题可能涉及到社区层面的传播。 对于任何成功的健康 GIS 分析,理解并使用适当比例尺上的数据至关重要。
您可以将城市级别的静态地图图像添加到报告中,向利益相关者和公众传达社区中儿童铅中毒的程度。 热点图对于展示数据的分布情况和特定聚集区域非常有用。 您可以在帮助文档中了解关于热点图符号系统的详细信息。
- 单击保存工程以保存您的工程。
创建一个点聚类图
您需要创建一个静态规划地图,以清晰地传达存在大量和少量的铅中毒案例的位置,以供医院管理层使用。 当然,您在此过程中必须妥善保护个人隐私。 在这种情况下,领导层关注的是其服务范围内的实际病例数量,因为他们需要确保分配专家和协调护理计划资源。
为此,您将制作一个聚类图。 要素聚类技术通过将区域内的点群聚集起来,并显示一个分级符号来表示该聚类所代表的点群数量。 当您希望在不同的比例尺上显示准确的s数值,并且不需要或不想共享各个点的位置时,建议使用此方法。
- 在内容窗格中,单击 High_Blood_Level_Results 图层。
- 在功能区的要素图层选项卡上,单击绘图部分的聚合,然后单击聚类。
- 在确认消息中单击是,确认这将更改符号系统。
图层的符号系统将更改为聚类样式。 符号的颜色是随机分配的,并且聚类的大小和数量将取决于您的显示设置和地图范围。
点聚类根据聚类中的点数量进行缩放,并且还会标注点的数量。
- 放大到城市东北部的聚类区域。
与热点图符号系统一样,聚类符号系统会根据地图的缩放级别和范围进行调整。
如果放大得足够近,您将开始看到个体患者的位置。
与热点图符号系统类似,在某些范围和缩放级别下,聚类符号系统不适合保护患者身份。 并且,与热点图符号系统一样,当您在交互式地图中放大到足够近时,您可以单击个别点并获取其属性。 在交互式地图中,聚类符号系统不足以保护患者身份。
对于静态地图,您可以调整聚类以更好地适应所需的比例尺和范围。
- 在内容窗格的 High_Blood_Level_Results 下,右键点击聚类,然后单击符号系统。
- 在符号系统窗格的聚类选项卡上,单击聚类设置。
- 单击聚类半径滑块,并将其向比例尺的高端拖动。
当您将聚类半径滑块向比例尺的高端拖动时,聚类的数量减少,每个聚类中的点数增加。
这与热点图半径的工作原理类似。 您可以更改聚类半径,从而调整聚类程度以适应地图的范围和比例尺。
- 在内容窗格中,右键单击要素,然后单击缩放至图层。
与热点图符号系统类似,适用于一个比例尺和范围的半径可能不适用于另一个比例尺和范围。
- 在符号系统窗格中,单击聚类半径滑块,并将其向比例尺的低端拖动。
聚类图用于静态和动态地图,以显示特定事件数(在本例中为案例观察)并指示数据密度的空间模式。 出于隐私目的,其优势是聚类不与可以用于识别个人的邮政编码或县等行政边界相关联。 您必须根据地图的特定比例尺和范围调整聚类半径,以传达有关模式的有用信息,同时不暴露个体患者的位置。
因为您正在为医院领导层制作静态地图图像,因此可以使用聚类图,但是您需要谨慎地为地图设置适当的聚类半径。
对于您的医院领导层同事来说,静态聚类图为他们提供了所需的准确信息,可以当地患有高铅血症的儿童指定治疗协调计划。
您可以在帮助文档中了解有关将要素聚合成聚类的详细信息。
- 单击保存工程以保存您的工程。
您使用了两种可视化技术(热点图和要素聚类)来可视化点数据,而不显示个体的确切位置。
隐藏小型像元
小型像元是包含聚合数据的面,其中面中的数据点数量较少,存在可能重新识别个人的可能性。 在本部分中,通过结合两种方法(热点分析和镶嵌),您将为在存在小型像元时对数据进行去标识化处理提供支持。 热点分析基于数学计算,用于识别具有统计学意义的高值(热点)和低值(冷点)的空间聚类。 镶嵌是一种使用相同的非重叠几何形状(如正方形、三角形或六边形)分块表面的方法。 这些切片可用于显示其中包含的数据点的摘要信息。
识别统计学热点和冷点
您的下一个任务是创建一张地图,显示在动态 web 地图中发布的高血铅水平病例的统计显著聚类。 您将使用优化的热点分析工具创建地图,并使用六边形镶嵌对结果进行符号化。
在 ArcGIS Pro 中,优化的热点分析工具允许您将高血铅水平的位置聚合为加权要素。 通过使用加权要素的分布,此工具可确定适当的分析范围。 这样就无需提前知道六边形的大小。 使用六边形聚合或分组数据的方式非常有用,由于其不直接与行政边界对齐,因此可以可视化健康信息,同时保护患者隐私。 第二层混淆来自于提供分析输出(统计显著程度水平)而不是病例数量。
您的 web 地图将显示研究区域内儿童铅中毒存在和缺失的一般模式,同时还传达了高浓度区域。
- 单击功能区上的分析选项卡,然后单击工具。
将出现地理处理窗格。 您将使用此窗格来搜索并运行优化的热点分析工具。
- 在搜索框中,键入 optimized hot spot,在结果列表中,单击优化的热点分析工具。
该工具被称为优化的热点分析,因为它会搜索最佳距离来执行热点分析。 这将是在相邻六边形图格中的计数聚类最为密集的距离。 如果没有明确的距离,优化器将计算一个平均距离,以提供一定数量的最近相邻要素进行分析。 最后,该工具会将每个邻域六边形图格中的高血铅水平患者计数与整个研究区域进行比较,以确定一个 z 得分,该 z 得分可以直接与确定统计显著性的 p 值相关联。
- 对于输入要素,选择 High_Blood_Level_Results。
- 对于输出要素,接受默认位置,在 BloodLeadLevels.gdb 地理数据库中键入 High_Blood_Lead_Hot_Spots 作为要素类名称。
- 将分析字段留空。
如果输入要素与数值相关联,您可以使用分析字段参数来考虑这些值进行热点分析。 在本例中,您不需要设置分析字段值。 这将评估 High_Blood_Level_Results 点的热点和冷点分布。
- 对于事件数据聚合方法,单击下拉列表并选择在六边形格网内计数事件。
- 对于定义事件潜在发生位置的边界面,单击下拉列表并选择 Sacramento_ZIP_Codes。
该图层包含了萨克拉门托的邮政编码多边形。 该工具将使用这些要素来识别可能发生的点的位置。 您实际上是在为工具指定研究区域,因此位于萨克拉门托研究区域之外但仍在输入点的最大边界矩形内的区域将不会被识别为冷点。
- 单击运行。
工具运行后,High_Blood_Lead_Hot_Spots 图层将添加到地图中。
- 在内容窗格中,取消选中 High_Blood_Level_Results 图层,以便查看新图层。
图层的符号类别显示在内容窗格中。
工具结果使用蓝色表示统计上的冷点,红色表示统计上的热点,白色表示非显著水平。 您可以在文档中了解关于优化的热点分析的详细信息。
您可以共享此图层以显示病例数量显著高和低的位置的分布。 但是,在共享之前,您需要移除 Counts 字段,因为您将在下一部分中使用它。 该字段指示每个六边形中的病例数量。 提供具体计数(尤其是对于仅存在少数事件的像元),可能无法充分保护患者的身份,尽管这在一定程度上取决于像元的大小和条件发生的频率。
接下来,您将通过每个区域内的总计数来符号化热点分析图层。 这种方法不仅显示了集中区域,还提供了一种明确传达病例数量范围的方式。
- 单击保存工程以保存您的工程。
按计数符号化六边形
您需要制作一份报告,与从事铅缓解项目的内部分析师共享,他们需要了解一个区域的病例数量,单无需了解具体的点位置。 您将切换热点符号系统,以显示每个多边形内的总要素计数。
首先,您将复制该图层,以便可以有不同的符号化版本。
- 在内容窗格中,右键单击 High_Blood_Lead_Hot_Spots 图层,然后单击复制。
- 在内容窗格中,右键单击地图,然后单击粘贴。
- 在内容窗格中,单击您粘贴的图层名称进行编辑。
- 对于图层名称,键入 High_Blood_Lead_Hexbin_Counts。
- 在内容窗格中,取消选中 High_Blood_Lead_Hot_Spots 图层以将其关闭。
- 右键单击 High_Blood_Lead_Hexbin_Counts 图层,然后单击符号系统。
- 在符号系统窗格中,单击字段,然后单击计数。
- 单击配色方案下拉列表,向下滚动,然后单击红色(7 类)色带。
- 单击类下拉列表,然后单击 5。
- 右键单击最低类别的颜色图面,即小于或等于 0 的计数,并单击无颜色。
移除零计数的填充可以为地图读者提供更多上下文,并将注意力集中在高血铅水平患者所在的像元上。
请注意,某些分类的六边形图格中包含 1 个点。 在大多数情况下,您不希望在一个六边形图格中显示单个病例。 这显然是一个小型像元。 您可以调整分级符号的直方图,以更改地图符号的类。
- 在符号系统窗格中,单击直方图选项卡。
- 单击类间隔标记并将其从 1 拖动到 2。
- 单击类间隔标记并将其从 3 拖动到 4。
随机设置新的类间隔。
符号系统随即更新,将具有一个和两个病例的六边形图格分为同一组。
根据场景和组织的规定,用于选择六边形图格中最小病例数的正确数值有所不同。 对于常见的情况,您可以使用较小的数值;而对于罕见的情况,建议使用较大的数值。 还需考虑每个六边形图格的面积以及其中的人口数量(和潜在的病例数量)。 六边形图格越大,人口数量越多,您可以设置的最小病例数越小,并且不会存在重新识别个人的风险。
现在,您可以与进行分析的同事共享这些信息。 尽管他们是您组织内部的人员,可能拥有使用原始数据所需的所有权限,但他们实际上不需要点级别的数据来进行工作。 最佳做法是根据工作需求提供一个最小可行数据集。 这种平衡方法可以提供足够准确的数据以关注地方问题(优于邮政编码级别),同时避免在不需要的情况下共享包含个人健康信息的点数据。
- 单击保存工程以保存您的工程。
您使用了优化的热点分析工具来帮助确定适当的六边形大小(基于最佳分析比例,而不是隐私需求),并对六边形图格进行了符号化以显示统计显著性。 使用热点图突出显示相对关注区域,在传达问题的同时,防止识别个人。 您对六边形图格数据进行了重新符号化,以显示不同分析过程中的实际病例数。 您使用了一种不需要与可能无权查看或实际上不需要这些数据的利益相关方共享个别点数据的方法。 结果提供了清晰的可视化,显示了研究区域内高血铅水平换着较多的区域。
概化和聚合数据
在本部分中,您将按年份审查数据,并学习如何在发布给公众的地图产品中保护个人隐私,不识别小数据聚类。 您将学习如何通过概化和聚合数据来保护敏感信息,同时展示数据中的相关模式。 在健康数据中,模式通常是最具信息价值的;无需利用个别病例位置来获取操作许多方面的信息。 例如,作为分析师,您可能希望在儿童铅中毒和监测年度报告中使用概化或聚合的数据,而不是在病例管理和调查中使用个别数据点。
数据概化涉及通过减少复杂性或详细程度来简化数据。 例如,您可以将生日数据概化为出生年份。 您可以将年龄概化为以 10 年为单位的年龄组。 可以将切罗基族、纳瓦霍族和乔克托族等多个部落群体合并为美洲印第安人类别。 另一方面,聚合涉及将多个数据点合并为单个汇总统计数据,例如每年的出生人数。 在接下来的步骤中,您将专注于聚合方法,但通常可以将概化技术应用于基础数据,以进一步模糊私人信息。
按邮政编码区域和年份汇总数据
首先,您将使用研究区域邮政编码区域图层按年份汇总数据。 邮政编码区域边界通常用于报告健康统计数据。 它们同时具有优点和缺点。 优点是,邮政编码区域比县级边界更小,大多数人知道自己的邮政编码区域,并可以在地图上找到它。 缺点是,邮政编码区域边界是人为构造的,旨在支持高效的邮件投递,并且它们可能随时间改变。 作为分析师,您必须决定它们是否适合您的需求,并且是否符合您组织的数据发布规则。
- 在地理处理窗格中,单击“后退”按钮。
- 在搜索框中,键入 summarize within,并在结果列表中,单击范围内汇总(分析工具)工具。
另一个范围内汇总工具属于 GeoAnalytics Desktop 工具工具集,但在本教程中应使用分析工具工具集中的工具。
- 在范围内汇总工具对话框中,对于输入要素,选择 Sacramento_Zip_Codes 图层。
- 对于输入汇总要素,选择 High_Blood_Level_Results 图层。
- 对于输出要素类,接受默认位置,在 BloodLeadLevels.gdb 地理数据库中键入 HBLL_by_zip_year 作为要素类名称。
- 对于分组字段,选择 Blood Level Test Year 选项。
- 单击运行。
HBLL_by_zip_year 图层随即添加到地图中。 此外,在独立表部分,还添加了 testYear_Summary 表。 该表包含按邮政编码区域和年份计数的汇总数据。 可以将此表连接回 HBLL_by_zip_year 图层,以显示每年的值。
接下来,您将连接数据,并学习如何概化多年的数据或整合相邻的邮政编码区域,以满足组织对数据保护的最低值阈值要求。
将汇总表连接到结果要素类
现在,您将汇总表连接到结果要素类,以获取按邮政编码区域和年份汇总数据的单个要素类。 这将允许您创建图层,显示每年的数据。
- 在内容窗格中,右键单击 HBLL_by_zip_year 图层,然后单击属性表。
该表显示了来自原始邮政编码区域面的数据以及由范围内汇总工具添加的数据。 点计数字段显示了每个邮政编码区域面中的总病例数。 JOIN ID 字段包含可以用于将 testYear_Summary 表的属性连接到此图层的值。 此要素类中包含 17 个邮政编码区域面。
- 在内容窗格中,位于独立表部分,右键单击 testYear_Summary 表,然后单击打开。
JOIN ID 字段包含可以用于将属性连接到 HBLL_by_zip_year 图层的值。 testYear 字段存储了血液测试年份的值。 点计数字段显示了每个年份中每个邮政编码区域面中的总病例数,共有 50 条记录。
- 在内容窗格中,右键单击 HBLL_by_zip_year,指向连接和关联,然后单击添加连接。
- 在添加连接工具对话框中,输入表参数应默认为您右键单击的 HBLL_by_zip_year 图层。
- 对于输入连接字段,选择 JOIN ID。
输入连接字段旁边有一个警告图标,表示该字段未建立索引。 对于这些小型表来说,这没有影响。
- 对于连接表,选择 testYear_Summary。
- 对于连接表字段,选择 Join ID。
- 单击验证连接。
“验证连接”过程随即运行并返回一条消息。
由于存在两个未建立索引的字段,因此该工具建议为它们创建索引以提高性能。 鉴于所涉及的要素数量,这并不必要。
该工具还报告了这是一个一对多连接,并且生成的连接要素类将包含 50 条记录(每条记录分别对应于 testYear_Summary 表中的每条记录)。
- 单击关闭以关闭消息窗口。
- 在添加连接工具对话框中,单击确定。
HBLL_by_zip_year 图层的属性表随即更新,显示来自 testYear_Summary 的额外字段以及邮政编码区域面和测试年份组合的额外记录。
添加连接工具的结果是临时的。 通过将其导出为新的要素类,可以创建一个包含所有要素的要素类副本。
- 右键单击 HBLL_by_zip_year 图层,指向数据,然后单击导出要素。
- 将输出要素类名称设置为 HBLL_by_zip_all_years。
- 单击确定。
新的要素类存储在您的工程地理数据库中。
对组合图层进行符号化
现在您将对图层进行符号化。
- 在内容窗格中,取消选中除 HBLL_by_zip_all_years 以外的所有图层。
- 在内容窗格中,右键单击 HBLL_by_zip_all_years 图层,然后单击符号系统。
- 在符号系统窗格中,单击主符号系统下拉列表,然后单击分级色彩。
- 单击字段下拉列表,然后单击第二个点计数字段,该字段位于 JOIN ID 下方。
该字段包含面内在特定年份发生的点的聚合计数。 第一个字段包含所有三年的总计数。
- 对于配色方案,单击紫色(5 类)。
图层符号系统随即更新。 您可能注意到在内容窗格中显示的图层符号类未全部在地图上表示出来。
在本示例中,最高类似乎丢失了。 这是因为 HBLL_by_zip_all_years 图层包含每个邮政编码区域面的多个副本,每个副本包含该邮政编码区域中某一年份的病例。 该图层的符号系统考虑了属性表中的完整值范围,但符号颜色仅显示在最顶层的面上。
- 在功能区地图选项卡的导航部分中,单击探索工具下拉列表,选择可见图层。
- 单击最东北的邮政编码区域面。
弹出窗口窗格随即显示,HBLL_by_zip_all_years 图层中在您单击的位置存在三个要素。 顶部要素的属性会显示在弹出窗格的下部。 您可以看到此示例中的第一个要素是 2018 年的,该年份在 95821 邮政编码区域中包含 24 个病例。
您可以单击这些要素,本例中为使用单词 Sacramento 列出的名称,位于弹出窗口窗格顶部,以查看其他两个要素的属性。
第二个要素是 2019 年的,该年份在 95821 邮政编码区域中包含 48 个病例。
按年份显示数据的分离图层
现在您拥有了按年份统计邮政编码区域内病例的 HBLL_by_zip_all_years 图层,您将复制该图层以可视化每年高血铅水平病例的分布情况。
- 在内容窗格中,右键单击 HBLL_by_zip_all_years 图层,然后单击复制。
- 在内容窗格中,右键单击地图,然后单击粘贴。
- 单击 HBLL_by_zip_all_years 图层的副本名称,并将其重命名为 HBLL_by_zip_2018。
- 双击 HBLL_by_zip_2018 图层,在图层属性窗格中单击定义查询。
- 单击新建定义查询。
- 在定义查询部分中,单击 Where 行的下拉列表,然后选择 testYear 字段。 接受默认运算符 is equal to,单击第三个下拉列表,选择 2018。
这将构建一个过滤图层的定义查询 Where 子句,以仅在地图上显示 2018 年的面。
- 单击确定。
- 在内容窗格中,右键单击 HBLL_by_zip_2018 图层,然后单击复制。
- 在内容窗格中,右键单击地图,然后单击粘贴。
- 将新图层副本重命名为 HBLL_by_zip_2019。
- 打开 HBLL_by_zip_2019 图层的定义查询选项卡。
- 单击编辑。
您将更改 2019 年图层的定义查询,以显示 2019 年的数据。
- 将年份值修改为 2019,单击应用。
- 单击确定。
- 复制 HBLL_by_zip_2019 图层,将其重命名为 HBLL_by_zip_2020,并使用刚学到的过程更新该图层的定义查询,以显示 2020 年的数据。
接下来,您将尝试两种不同的聚合方法,以达到组织设定的最低阈值值。 您的领导层已确定,如果在某个区域(如邮政编码区域)内进行了 5 次或更多次观察,则可以在将要公开发布的产品中显示该邮政编码区域的数据。
- 单击探索工具,然后单击病例数量较少的位于中心位置的邮政编码区域面。
内容窗格中的顶层图层 HBLL_by_zip_2020 将首先显示。
在 2020 年,该邮政编码区域面中包含两个病例。 这少于您的组织规定的按邮政编码区域发布数据的最低值要求,即 5 个病例。
- 在弹出窗口窗格中,单击 HBLL_by_zip_2019 图层的 Sacramento 条目。
2019 年在该邮政编码区域中包含三个病例。 由于 2019 年和 2020 年的值之和达到了五个,您可以发布此邮政编码区域的 2019 年和 2020 年的综合数据。
合并多年的数据
聚合多年数据是满足组织最低阈值要求的一种方法,直到每个邮政编码区域中的病例数达到至少 5 个。 这种方法可以降低时间分辨率以保持空间分辨率。
- 在功能区地图选项卡的选择组中,单击按属性选择。
- 在按属性选择窗格中,对于输入行,单击下拉列表并单击 High_Blood_Level_Results。
- 单击添加子句。
- 在 Where 部分,单击选择字段下拉列表,然后选择 Blood Level Test Year。
- 接受默认运算符 is equal to。
- 单击比较值下拉列表,然后单击 2020。
- 单击添加子句。
- 选择 Or 逻辑运算符以连接子句。
- 单击 And 逻辑运算符,并在下拉列表中单击 Or。
- 将字段设置为 Blood Level Test Year,并接受默认的 is equal to 运算符。
- 单击值下拉列表,然后单击 2019。
按属性选择工具已准备好选择 Blood Level Test Year 字段值为 2020 或 2019 的要素。
- 单击确定。
已选择 2020 年或 2019 年记录的 High_Blood_Level_Results 要素。 现在,您可以在它们上运行范围内汇总工具,以按邮政编码区域对所选要素进行计数。
- 在功能区分析选项卡的地理处理组中,单击工具。
- 搜索并打开范围内汇总工具。
该工具应该位于地理处理窗格的最近列表中。
- 对于输入面,选择 Sacramento_Zip_Codes。
- 对于输入汇总要素,选择 High_Blood_Level_Results。
- 将输出要素类参数命名为 HBLL_by_zip_2019_2020。
范围内汇总工具会警告您输入上存在选择,且仅将处理该记录子集。 这正是您需要的。
- 将汇总字段和分组字段留空。
- 单击运行。
新图层 HBLL_by_zip_2019_2020 将添加到内容窗格中。
- 在内容窗格中,右键单击 HBLL_by_zip_2019_2020 图层,然后单击属性表。
- 右键单击点计数的列标题,然后单击升序排序。
排序列显示该图层中不存在少于 5 个病例的邮政编码区域面。
根据组织最低阈值,2019 年和 2020 年的分组计数可以按照邮政编码级别发布。
合并邮政编码几何
假设您需要报告 2020 年的数据,而不包括 2019 年的数据。 则可以使用第二种方法来满足组织的最低阈值要求,即将单个年份的邮政编码聚合,直到每个聚合区域中的病例超过五个为止。 这种方法可以降低空间分辨率以保持时间分辨率。
- 打开地理处理窗格。
- 在搜索框中键入 build balanced zones,然后在结果中单击 Build Balanced Zones。
- 对于输入要素,选择 HBLL_by_zip_2020 图层。
工具上会显示一个注释,说明该输入具有过滤器。 这是因为图层上存在一个定义查询,将其过滤为仅显示 2020 年的数据。
- 对于输出要素,键入 HBLL_2020_Zones。
- 对于区域创建方法,接受属性目标的默认值。
- 在具有目标的区域构建标准部分,单击变量,然后单击点计数 [Point_Count_1]。
- 在总和框中,键入 12。
该值高于组织的最低值 5。 构建平衡区域工具使用目标变量作为随机种子遗传算法的目标,但结果只能近似目标值,因此如果设置较低的值,可能会有一些区域的案例少于五个。 有关构建平衡区域工作原理的详细信息,请阅读文档。
- 对于空间约束,选择仅邻接边。
- 单击运行。
结果随即添加到地图。 原始邮政编码面将被保留,但它们具有可将其分配到不同区域的新属性。 您将根据这些区域属性对面进行融合。
- 单击返回按钮返回到地理处理窗格,然后搜索并打开成对融合工具。
- 在成对融合工具对话框中,对于输入要素,选择 HBLL_2020_Zones。
- 对于输出要素类,键入 HBLL_2020_Zip_Dissolve。
- 在融合字段中,选择区域 ID。
- 在统计字段中,选择点计数,并接受统计类型的默认值求和。
- 取消选中创建多部件要素。
- 运行该工具。
融合区域图层随即添加到地图中。
- 在内容窗格中,右键单击 HBLL_2020_Zip_Dissolve,然后单击属性表。
各区域的点数大于 5 个,大多数区域的点数大于等于 12 个。 这符合您组织的指南。
作为儿童铅中毒预防计划的分析师,您必须考虑哪种方法最适合为通常禁用数据的辖区提供有意义且可操作的数据。 跨年度聚合意味着最终用户无法辨别聚合年份之间的时间变化,但他们可以看到可能被禁用的小型地理区域的数值。 聚合多个邮政编码区域可能会在绘制每个单一年份时识别强烈的时间趋势,但地理特异性将减弱。 每种方法必须根据报告和数据共享的目标受众和目的进行权衡。
向点添加坐标值
到目前为止,您一直在为利益相关者创建地图,重点关注萨克拉门托县高血铅水平的范围、总病例数以及数据中的空间和时间模式的各种视图。
现在您正在与卫生公平团队共同工作。 他们希望进行一些研究,以确定与儿童高血铅水平相关的其他因素,如性别、种族/族裔和年龄。 为了像他们的工作提供帮助,您必须能够为他们提供一个去标识化的点级数据集,其中包括感兴趣的每个儿童所有变量,以及他们的大致位置。 您将使用坐标四舍五入来完成这个任务,并检查一些统计数据来验证四舍五入的级别。
首先,您将向点要素添加纬度和经度值的属性,单位为十进制度。
- 在地理处理窗格中,搜索并打开计算几何属性工具。
- 对于输入要素,选择 High_Blood_Level_Results。
- 在几何属性的第一行中,在字段(现有或新建)框中键入 Latitude。
这将在工具运行后向属性表添加一个新字段,用于存储每个点的纬度值。
- 在纬度字段的属性框中,单击下拉列表并选择点 y 坐标。
每个点的 y 坐标值随即添加到纬度字段中。
- 在几何属性的第二行中,在字段(现有或新建)框中键入 Longitude。
- 在纬度字段的属性框中,单击下拉列表并选择点 x坐标。
- 在坐标格式框中,单击下拉列表,然后单击十进制度。
- 单击选择坐标系。
- 在坐标系窗口的搜索框中,键入 WGS 1984。
- 展开地理坐标系和世界。
- 单击 WGS 1984,然后单击确定。
- 在计算几何属性工具中,单击运行。
- 在内容窗格中,右键点击 High_Blood_Level_Results 图层,单击属性表,并在表中向右滚动以查看新的纬度和经度字段。
现在,您已经将点的纬度和经度值存储在属性中,可以创建新的字段来保存四舍五入的值并计算新的四舍五入值。
注:
提供了几种处理纬度和经度坐标的方法,这些坐标代表您的高血铅水平病例的点位置。 您可以截断或四舍五入坐标,将每个点位置对齐到研究区域的较低分辨率网格。 您还可以通过使用随机数替每个坐标的最后一位或两位来扰动位置。 这将使每个点随机移动一定的距离和方向。
添加字段以保存四舍五入的坐标值
您将创建两个字段来保存四舍五入的坐标值。
- 右键单击 High_Blood_Level_Results,指向数据设计,然后单击字段。
- 滚动到字段列表的底部。
- 单击纬度的行标题,然后按住 Ctrl 键,并单击经度的行标题。
- 右键单击纬度的行标题,然后单击复制。
- 右键单击纬度的行标题,然后单击粘贴。
- 单击 Latitude1 字段的字段名称列,然后键入 LatitudeRound。
- 单击 Longitude 字段的字段名称列,然后键入 LongitudeRound。
- 单击 LatitudeRound 字段的别名列,然后键入 Latitude Rounded。
- 单击 LongitudeRound 字段的别名列,然后键入 Longitude Rounded。
已设置复制字段的名称和字段别名。
- 在功能区上的字段选项卡的更改部分中,单击保存。
两个新字段随即添加到 High_Blood_Level_Results 要素类的表方案中。
- 关闭字段视图。
对坐标值进行四舍五入
接下来,将计算四舍五入的坐标值,并将其存储在新字段中。
- 在 High_Blood_Level_Results 图层的属性表中,右键单击 Latitude Rounded,然后单击计算字段。
- 在计算字段工具对话框中,单击表达式类型下拉列表,然后单击 Arcade。
Arcade 是专为 ArcGIS 编写的轻量级表达式语言。
- 在“表达式”框中,输入以下 Arcade 表达式:
Round($feature.Latitude,2)
此代码使用 Arcade Round 函数,将 Latitude Rounded 字段值设置为 Latitude 字段中的值,并四舍五入到两位小数。 这会将点的位置信息四舍五入到最近的百分之一度。
- 单击验证按钮。
- 单击应用。
计算并将四舍五入的值添加到 Latitude Rounded 字段的属性表中。
- 使用相同的方法计算 Longitude Rounded 字段的值。
提示:
在计算字段工具中,将名称字段设置为 Longitude Rounded,然后使用以下 Arcade 表达式:Round($feature.Longitude,2)
Latitude Rounded 和 Longitude Rounded 字段应四舍五入到两位小数。
注:
如果您的坐标在平面空间参考中,例如加州州平面坐标系或 UTM 坐标系,则坐标值将以线性单位而不是十进制度数表示。 在这种情况下,您需要计算用于对值进行四舍五入的适当间隔,并将值四舍五入到该间隔。 例如,您可以选择将其四舍五入到最近的 1,000 英尺或 100 米,具体取决于单位和所需的位移量。
在四舍五入坐标处创建新的点
现在您已经在两个字段中获得了四舍五入的值,可以在这些位置创建新的点。
- 在地理处理窗格中,搜索并打开创建 XY 事件图层工具。
- 在创建 XY 事件图层工具对话框中,对于 XY 表,选择 High_Blood_Level_Results。
- 对于 X 字段,选择 Longitude [LongitudeRound]。
- 对于 Y 字段,选择 Latitude [LatitudeRound]。
- 对于图层名称,键入 High_Blood_Level_Results_Rounded。
这将使用您计算出的经四舍五入的经度和纬度值创建一个新的点图层。
- 单击运行。
由四舍五入的坐标值生成的点按照格网状的形式排列,间隔为百分之一度。
这种方法可将点从其原始位置移动,并保留某些原始空间模式,这对于分析可能非常有用。
原始点的热点图
四舍五入坐标点的热点图
警告:
请记住,在通过坐标四舍五入等方法对点级位置进行掩膜处理后,应在将数据发布给授权的内部同事之前,从属性表中移除不需要的可识别个人健康信息,如姓名、生日、地址字段和原始坐标值。 如果仍然提供原始地址或坐标,则将点移动到四舍五入的坐标值并不能保护个人健康信息。
您可以使用导出要素工具导出要素类的副本,并将其共享给组织中的授权成员。 在此工具的字段部分中,您可以访问字段列表,并在其中选择删除不需要的包含个人健康信息的字段。
接下来,您将连接原始点和四舍五入点,并确定它们的长度。
记录坐标四舍五入结果
对于专家决策,需要进行去识别处理以能够量化和记录点的移动程度。 在本部分中,您将回顾使用坐标四舍五入方法进行点移动的某些统计数据,并汇总移动到每个格网点的点数。
- 搜索并打开 XY 转线工具。
- 对于输入表,选择 High_Blood_Level_Results_Rounded。
- 对于输出要素类,键入 HBLL_dist。
此线要素类将连接每个原始点的坐标与其对应的四舍五入坐标位置。 您将使用线要素来计算位移量。
- 对于起始 X 字段选择 Longitude。
- 对于起始 Y 字段,选择 Latitude。
- 对于结束 X 字段,选择 Longitude [LongitudeRound]。
- 对于结束 Y 字段,选择 Latitude [LatitudeRound]。
- 对于线类型,选择测地线。
这是默认值 它表示地球表面两点之间的最短距离。
- 将 ID 字段留空。
- 对于空间参考,请接受 GCS_WGS_1984 的默认值。
- 单击运行。
HBLL_dist 图层随即添加到地图中。 根据地图的缩放级别和范围,可能很难看到它。 如果放大到较高密度区域之一,您将看到一组线将每个原始点连接到其对应的四舍五入坐标点位置。
- 在内容窗格中,右键单击 HBLL_dist 图层,然后单击属性表。
Shape_length 字段中的值为较小的十进制值,它们以度为单位。 您会将长度转换为平面单位。
添加距离字段并计算其值
您将在 HBLL_dist 图层的属性表中添加一个新字段,并计算其值以获取点的位移距离。
- 在 HBLL_dist 图层的属性表选项卡上,单击添加。
您将添加一个新字段来保存距离(使用线性单位)。
- 在新字段的字段名称列中,键入 Distance。
- 在 Distance 字段的数据类型列中,单击下拉列表,然后单击 Double。
- 在功能区上的字段选项卡的更改部分中,单击保存。
- 关闭字段:HBLL_dist 窗格。
- 在 HBLL_dist 属性表中,右键单击 Distance 字段的列标题,然后单击计算几何。
- 在计算几何工具对话框中,对于要添加到 Distance 字段的值的属性下拉列表,单击长度(测地线)。
- 对于长度单位,选择米。
- 单击确定。
以米为单位的线长度将作为属性添加到 Distance 字段中。
- 右键单击 Distance 列标题,然后单击可视化统计数据。
Distance 字段的统计数据窗格显示了 Distance 字段的汇总统计数据。 这些统计数据显示,点移动到四舍五入坐标位置的平均距离为 376 米,最小距离为 18 米,最大距离为 684 米。
统计工具还创建了距离值的直方图,您可以在使用坐标四舍五入法创建去识别产品时,使用它来支持决策。
- 关闭图表属性窗格。
- 关闭 Distribution of Distance 图表。
计算四舍五入坐标处的点数
接下来,您将计算使用坐标四舍五入法后存在的堆叠点数。 从隐私和去识别的角度来分析,可以将此计数视为表示池中可能代表任何单个案例的识别信息的案例数。 每个堆栈中的案例数越多,池中的案例数越多,越适于实现去识别的目的。 将对这些点进行地理分析,但需注意,您还需检查在计划分享的表中保留的所有属性的唯一性,因为特定属性的组合也可能识别出一个个体。 因此,建议向利益相关者提供最小可行数据集。
- 在地理处理窗格中,搜索并打开收集事件工具。
- 对于输入事件要素,选择 High_Blood_Level_Results_Rounded。
- 对于输出加权点要素类,键入 HBLL_rounded_counts。
- 单击运行。
在这种情况下,某些聚类中堆叠了多达 15 个点,尽管许多聚类中仅包含一个或两个点。 对于更大的数据集,您可能会有更密集的堆叠点。
您已经使用坐标四舍五入法对敏感点数据位置进行了掩膜处理,同时保留了与这些点相关的几个附加属性。 卫生公平研究人员现在有了最好的机会,可以使用去识别的数据进行更多的分析,并讲述有关萨克拉门托儿童血铅中毒的更完整的故事。 为了记录去识别方法,您计算了与每个点偏移距离相关的统计数据,并计算了每个格网位置堆叠中的点数。 请记住,移除可能导致重新识别的属性(例如地址、原始位置坐标)非常重要,最佳做法是尽量减少所提供数据集中的属性数量。
- 单击保存工程以保存您的工程。
审查高级方法
您现在已经了解了针对不同用途场景的去识别数据的几种方法。 在某些情况下,您可能需要采用更高级的方法。 在本部分中,您将了解两种高级数据去识别方法:地理掩膜和差分隐私。
根据卫生 GIS 工作情况,您可能希望深入研究以下技术,以便根据需要进行应用。
地理掩膜地理掩膜是指一组改变单个点地理位置的方法,但其方式与坐标四舍五入法不同且功能更强大。 要使地理掩膜发挥作用,需要两个关键方面。 第一,点的扰动必须是不可预测的,这样才能保护数据的机密性; 第二,点的移动方式应该保持数据集内的空间关系。 毕竟,GIS 旨在寻找模式。 接下来,将介绍一种特定的地理掩膜类型 - 环状掩膜法。 然后,您将学习如何使用 k 匿名性对地理掩膜结果进行统计评估。 最后,将介绍一个可以为您自动完成整个过程的工具。
环状掩膜法环状掩膜法的基本思想是,通过确保随机移动点永远不能回到其原始位置,从而提高机密性。 这意味着点的移动必须距离其原始位置某个最小距离之外。 同时,为了保持空间模式,每个点还有一个计算所得的最大位移距离。 这两个距离创建了一个环状的位移区域,原始点可以在其中移动。 您可以在本文中了解更多关于环状掩膜法的信息。
确定专家去识别方法包括要求记录过程并说明该过程如何最小化重新识别风险。 在使用地理掩膜技术时,K 匿名性统计量是支持该论证的评估指标。 您可以阅读更多关于 K 匿名性的内容。 总体思路是,K 匿名性代表数据集中无法区分去识别化主体的家庭数量。 例如,如果您决定 K 的最小值为 5(写作 KMin = 5),这意味着至少有五个家庭(或个体)可能代表您的原始点。
您组织的关键决策是确定隐私保护可接受的 K 最小值。 虽然没有单一的标准,但是审查各个州和联邦机构关于小型像元计数的策略可能有用。 小型像元是指与相同要素组合相对应的人数。 与权威政府机构的政策保持一致可能有助于为您的组织制定自己标准的决策提供支持。 此外,请注意,一个标准 K 值可能并不适用于每种情况。
MapMasq如果您需要频繁使用地理掩膜或其他数据去识别技术,可以考虑使用 MapMasq。 这是由 Esri 合作伙伴 Axim Geospatial 开发的解决方案。 其工作原理与任何 ArcGIS 扩展模块相同,可自动执行地理掩膜过程和 K 匿名性评估。
差分隐私差分隐私是一种较新的技术,许多人认为它在保护个人隐私方面更加出色。 它在处理较大数据集时效果最好。 实际上,这是自 2020 年普查起,美国人口普查局使用的数据报告方法。 使用差分隐私,数据集中的数据会以数学方式进行改变(所有数据),这样可以确保无法识别任何个体,同时保持数据集的有用性。 根据隐私损失预算的参数 epsilon,向数据集注入噪声。 使用 epsilon 意味着可以量化数据的披露风险,这对于遵守组织政策以及专家决策所需的文档非常有用。
理解差分隐私工作原理的一种方式是想象一个图片镶嵌,其中组合了数百个普通图片,从而形成了一个更大的新图片。 当放大到个体图片级别时,可以替换几张图片或将它们移动到不同的位置;但当您缩小到整体图像时,整体图像看起来基本相同。 整体图片可能不如照片清晰,但随着添加更多个体图片,质量也将得到改善。
关于差分隐私及其对健康 GIS 的价值,还需要了解许多内容。 这是您需要注意的一个领域,因为您可能已经在使用通过此方法共享的人口普查数据,并且因为可能存在某些工具可以在您自己的地理空间工作中启用此技术。
关于差分隐私对 2020 年美国人口普查数据影响的详细信息,请参阅 2022 年 6 月 Esri 方法论报告,以及美国人口普查局关于避免披露的手册。
在本部分中,您了解了两种高级数据去识别方法,可以将其添加到工具包中,以遵守 HIPAA 和其他隐私规定。 地理掩膜专注于调整位置数据,以便您拥有至少 KMin 个可能代表原始点的个体。 差分隐私使用 epsilon 隐私损失预算对所有数据进行调整,以正确去识别个体。 您已成功保护数据和组织免受隐私侵犯。
此教程介绍了有关用于可视化和共享的数据去识别方法,其中回顾了美国 HIPAA 法律,该法律专注于保护个人健康信息的隐私。 您学习了几种技术,可以安全地对信息进行映射和可视化处理。 您还学习了一些技术,可以帮助您共享数据,无论是作为动态 web 地图还是作为数据集供其他人用于研究或其他目的。 您还学习了一些高级技术,当您需要更强大的选项来保留点级数据时,可以使用这些技术。
本教程无法涵盖所有情况。 在本教程中,您学会了如何在空间上思考这个问题,并考虑各种方法的优缺点。 无论您在处理受保护的健康信息时使用哪种技术,请谨慎思考,并与内部组织准则保持一致,确保安全。
您可以在教程库中找到更多教程。