マップベースのビジュアライゼーションの設計

鉛は天然由来の金属であり、6 歳未満の子供の場合は特に、健康への悪影響を引き起こす可能性があります。鉛中毒によって引き起こされる発達遅延、学習障害、行動障害、神経障害は、永続的で日常生活に支障を来すこともあります。あなたが所属する部門のリーダーは、地理情報を用いてプログラムレポートを改善し、子供の鉛中毒をなくすための意思決定を行う必要があります。

はじめに、データをダウンロードして調べます。続いて、データセット内の各個人のプライバシーを保護しながらデータ整合性と空間パターンを残す方法を用いて、血中鉛濃度データをマップでシンボル表示します。

注意:

チュートリアルデータは架空のものであり、このチュートリアルにおけるワークフローを説明するために作成されています。データはワークフローを進める上で現実味があり、このような状況で用いるデータと同じように構成されていますが、この種の実際のデータを共有することは法的に制限されているため、データは完全に架空のものです。このデータを信頼しないでください。このデータに基づいて結論を導いたり実世界での意思決定を行ったりしないでください。このデータを AI モデルや機械学習モデルのトレーニングに使用しないでください。結果が不正確になります。ジオコーディングについて説明し、匿名化の対象として現実味のあるデータを提供するため、このデータセット内の住所は実際の住所ですが、データとこれらの住所との間に実際の関連はありません。データセット内のこれらの住所に関連付けられている名前や属性値はすべて架空のものであり、これらの地域に実在する人物や症状とは一切関係ありません。

データの調査

最初に、データをダウンロードして調査します。

Blood_Lead_Levels_Zipped_Folder.zip 圧縮プロジェクトデータをダウンロードします。
コンピューター上で、ダウンロードしたファイルを選択します。ファイルを右クリックして、[すべてを抽出] を選択します。
出力フォルダーの場所を指定し、[抽出] をクリックします。
この zip アーカイブはパスワードによって保護されています。パスワードウィンドウが表示されます。
[パスワード] に、「I_Understand_This_Is_Fictitious_Data」と入力し、[OK] をクリックします。
注意:
このパスワードを使用することで、このデータが架空であることがわかります。
ファイルがコンピューターにフォルダーとして解凍されます。
解凍した zip ファイルを開きます。
BloodLeadLevels.ppkx という名前のファイルが含まれています。 .ppkx ファイルは ArcGIS Pro プロジェクトパッケージ (プロジェクトを共有するための圧縮ファイル) です。これには、ArcGIS Pro で開くことができるマップ、データ、その他のファイルが含まれています。
BloodLeadLevels.ppkx をダブルクリックして ArcGIS Pro で開きます。サインインを求められたら、ArcGIS アカウントを使用して、サインインします。
注意:
ArcGIS Pro へのアクセス権限または組織アカウントがない場合は、ソフトウェアアクセスのオプションをご参照ください。
カリフォルニア州サクラメントのマップが表示されます。架空の High_Blood_Level_Results ポイントレイヤーに、血中鉛濃度が高い子供の自宅住所の地点が示されています。
鉛調査と軽減プログラムでは、血液検査の結果と個々の患者の居住地を用いて、このような子供の家庭における鉛暴露の原因を調べます。家族構成員の潜在的暴露の調査や、仕事場、学校、コミュニティー施設における鉛汚染源の追跡にもこのデータは使用されます。
[High_Blood_Level_Results] 属性テーブルがまだ開いていない場合、[コンテンツ] ウィンドウで、[High_Blood_Level_Results] を右クリックして [属性テーブル] を選択します。
テーブルが表示されます。
このレイヤーには、架空の自宅住所、氏名、誕生日、年齢、人種、民族、性別、血液検査結果、検査実施年のデータが含まれています。このデータが本物であれば、未成年者の健康状態、身元、正確な住所に関する極めて個人的な情報と見なされます。この情報は、健康データ保護法に従って慎重に取り扱う必要があります。あなたはこのデータを業務で用いて共有するため、法律と、共有するデータを匿名化する方法を理解していなければなりません。
多くの国は、金融データや健康データなど、慎重な扱いを要する情報のプライバシーを保護するための政策を実施しています。米国では、1996 年に医療保険の相互運用性と説明責任に関する法令 (HIPAA) が法制化され、健康データを安全に運用するための主な指針となっています。
アメリカ合衆国保健社会福祉省は、保護対象医療情報 (PHI) を次のように定義しています。「電子媒体、紙媒体、口頭などの手段によりデータ保持者又はそのビジネスアソシエートに保持、送付される、個人を特定可能な健康情報。個人を特定可能な健康情報とは、以下について言及する統計データを含む情報である。
- 個人の過去、現在、将来の身体的又は精神的な健康状況
- 個人へのヘルスケアの対策
- 個人の過去、現在、将来のヘルスケアの支払いの状況
個人を特定可能な保健情報は、個人を特定するか、個人を特定できる合理的な事項が存在する。個人を特定可能な健康情報には、氏名、住所、誕生日、社会保障番号など、多くの一般的な識別子が含まれる。」
[High_Blood_Level_Results] データテーブルには、血中鉛濃度の情報と、名前、住所、誕生日など、子供を特定する情報が含まれているため、これは HIPAA によるところの PHI であり、HIPAA プライバシールールに従って慎重に保護されなければなりません。
この種のデータはアクセスが許可されているスタッフとのみ共有することができます。アクセス許可は組織内部の指針に基づいて決定され、一般に、業務で PHI にアクセスする必要がある人や、調査や評価のために施設内倫理委員会 (IRB) などの内部プロセスによってアクセス権を付与された人が許可されます。
Centers for Medicare and Medicaid Services (CMS) ページの「Are You a Covered Entity?」セクションをお読みください。
このページには、HIPAA ルールの対象者についての指針が記載されています。 Covered Entity Decision Tool (PDF) には、あなたが HIPAA ルールに従うべきデータ保持者であるかどうかを判断できる対話型の決定木が用意されています。
一般に、データ保持者は以下のとおりです。
- 医療保険業者 - 医療費を支払う保険業者。
- 保健医療提供者 - なんらかの目的 (請求書作成、照会など) のためにデータを電子的に送信する組織または個人。
- 保健医療クリアリングハウス - 他の組織の代理として、標準化されていない健康情報のデータコンテンツや形式を標準化する、あるいはその逆を行う組織。
- ビジネスアソシエート - データ保持者の代理として、個人を特定可能な健康情報の使用や開示を伴う一定の職務を遂行する、データ保持者以外の個人または組織。このような状況においては、データ保持者はプライバシー保護に関してデータ保持者と同じ保護規定を義務付ける契約をビジネスアソシエートと結ぶ必要があります。
このチュートリアルでは、あなたの組織は医療クリニックを経営しているため、あなたはデータ保持者に相当します。
この血中鉛濃度レイヤーのような健康データは、健康格差の調査、政策評価、戦略的計画の立案に大いに役立ちます。こうした重要な取り組みにデータを最大限に利用しながら、個人のプライバシーを保護する手段を用いる必要があります。
HHS.gov ページの「De-identification Standard」セクションをお読みください。
PHI を含む GIS データを使用できますが、このデータは適切にセキュリティ保護されたローカルコンピューターハードウェア上、またはセキュリティ保護された ArcGIS Enterprise ジオデータベースに保存する必要があります。このデータを ArcGIS Online 上でホストすることはできません。
データを共有する場合は、先に匿名化する必要があります。
データ匿名化の目的は、再特定化のリスクを最小限に抑えるため、個人を特定できる情報を健康情報から分離することにあります。
匿名化のプロセスでは、誰かがデータセット内の個人の情報を見つけ出す可能性を最小限に抑える方法で、データセット内の識別子を削除します。規制当局者は、適切な匿名化手法を用いた場合でも、特定化のリスクは常に存在することを理解しています。したがって、匿名化においては、個人の再特定化のリスクを非常に低くすることが求められています。 HIPAA 標準で承認されている 2 つの匿名化手法を以下のグラフィックスに示します:
1 つ目の匿名化手法である「セーフハーバー」では、次の 18 個の識別子をデータから取り除きます。
- 名前
- 州より小さいすべての地域区分
- 個人に直接関連する日付のすべての要素 (年を除く)
- 電話番号
- 車両識別番号とシリアル番号
- Fax 番号
- 機器 ID およびシリアル番号
- 電子メールアドレス
- Web の URL
- 社会保障番号
- IP アドレス
- 診療記録番号
- 生体 ID (指紋と声紋を含む)
- 健康保険受給者番号
- 顔写真およびそれに相当する画像
- 口座番号
- 証明証/免許証番号
- その他の固有識別番号、特徴、コード (許可されているものを除く)
準拠するためには、[High_Blood_Level_Results] レイヤー内のデータの大部分を削除する必要があります。
この手法は保健医療 GIS を使用している場合にはそれほど役に立ちませんが、知っておく価値があります。これは 2 つ目の手法よりも簡単ですが、18 個の識別子を削除することに加え、若干の考慮事項があります。データマネージャーは、一般人が個人を特定するために使用可能なその他の識別子 (固有の肩書など) がデータセットに含まれているかどうかについても考慮する必要があります。
2 つ目の識別子「州より小さいすべての地域区分」での問題にも気づかれたかもしれません。これにより、市区町村や地区など、実用的な解像度での GIS の利用が極めて困難になります。
次の地点表示から切り替えて
次のマップのような、州レベルのデータを表示します。
セーフハーバールールでは、現在の米国国勢調査データに照らして、郵便番号の最初の 3 桁が表す地区に 20,000 人以上が居住する場合、その 3 桁の郵便番号を使用することが許可されています。しかし、保健医療 GIS では 3 桁の郵便番号はあまり使用されておらず、医療 GIS のユーザーは通常、さらに細かい地理レベルにおける健康への影響について関心を持っています。
データを最大限に活用するには、2 つ目の匿名化手法である「専門家による決定」を使用する必要があります。
「専門家による決定」匿名化についての指針をお読みください。
「専門家による決定」は柔軟性が高い手法です。再特定化のリスクが極めて低い匿名化されたデータがレンダリングされるように、一般に認められている科学的および統計的な原理と手法を適用するための十分な知識とノウハウを持っていることがユーザーには求められます。専門家による決定の手法の鍵となる要素は、専門家による決定を実現するために用いられた手法が文書化されていることです。
チームのさまざまなメンバーにそれぞれの役割とタスクに応じて適切なレベルのデータを提供するための最適な手法を決定する必要があります。一部の組織内ユーザーには、ポイントレベルで個人を特定可能なデータを提供します。権限を付与されたこれらのユーザーは、症例管理や、暴露の原因を調べる調査を実施することができます。家庭訪問の際の最適なルートを計算するために、居住地の住所が必要になることもあります。これに対し、その他のユーザーが必要とするのは、匿名化された必要最小限のデータセットだけです。

ヒートマップの作成

使用事例によって役立つ匿名化の手法は異なります。マップの目的、対象ユーザー、提供メカニズムについて考える必要があります。マップが静的 (PDF、画像、紙の地図など) であり、マップユーザーがデータを操作できない場合と、マップユーザーがデータを Web ブラウザーやアプリケーションで探索して、拡大/縮小したり個々の地点や関連する属性データを調査したりすることができる場合とでは、考慮すべき事柄は異なります。

あなたは、サクラメントにおける子供の鉛中毒の広がりについて関係者や一般の人々に知らせ、リスクやターゲットへの介入、健康教育、関連する活動について周知するポスター用にマップを作成する必要があります。ヒートマップは、レイヤー内のポイントの密度を示す滑らかなサーフェスが作成される一方で、各ポイントの位置はぼかされるため、この目的に適しています。

属性テーブルを閉じます。
[コンテンツ] ウィンドウで、[High_Blood_Level_Results] を右クリックして、[シンボル] を選択します。
[シンボル] ウィンドウが表示されます。
[シンボル] ウィンドウの [プライマリーシンボル] で、[ヒートマップ] を選択します。
レイヤーのシンボルが切り替わってデータがヒートマップとして表示されます。
町の北東部にある黄色と赤色の高密度スポットは、血中鉛濃度が高い子供が複数居住しているエリアを表しています。重要な点として、子供の数や自宅の正確な場所はわかりません。患者のプライバシーをさらに保護するため、このヒートマップは郡の境界線や郵便番号などのその他の行政区分を含めずに表示でき、慎重な扱いを要するデータを再特定化から保護するため、街路名が表示されないベースマップに切り替えることもできます。このビジュアライゼーションテクニックは、多数のポイントフィーチャが含まれ、そのうちの少なくとも一部は近接しているデータセットにおいて最も効果的です。
注意:
ヒートマップの最も集中しているエリアはホットスポットとも呼ばれます。これはこのような空間パターンを表す妥当な手段ですが、このタイプのホットスポットを、分析範囲全体で統計学的に重要なクラスタリングを識別するホットスポット分析ツールの結果と混同してはなりません。
リボンの [共有] タブをクリックします。 [出力] グループで、[クリップボードにキャプチャー] をクリックします。
ヒートマップの静的画像がクリップボードにコピーされます。この画像をプレゼンテーションやドキュメントに貼り付けて共有することができ、この際に PHI が公開されることはありません。
町の北東部にある集中エリアにズームインします。
ズームインすると、ヒートマップのシンボルが変化して、ポイントの相対密度が画面上に示されます。
ズームインするにしたがい、さらに細かい部分が明らかになります。元のポイント表示と比較してデータはぼやけていますが、ある程度拡大すると、ヒートマップはプライバシーを保護しながら慎重な扱いを要するデータを表示するための適切な手段ではなくなります。
注意:
印刷された地図ではなく対話型マップを作成することが目的である場合、この動的なヒートマップレンダリングによって個人情報が晒される可能性があることを認識しておくことが重要です。対話型マップを作成する際には、動的にレンダリングされるヒートマップに注意し、縮尺依存のレンダリングを使用してズームレベルを制限することを検討してください。
ある程度拡大すると、ぼやけたポイントから住居レベルの場所を特定することができます。
ぼやけたポイントのいずれかをクリックします。
ポップアップが表示されます。
ポップアップに、そのポイントの属性が表示されます。ヒートマップシンボルを使用しても、マップが対話型の場合には患者のデータは保護されません。各ポイントとその属性も表示されたままです。
ポップアップを閉じます。
[シンボル] ウィンドウで、[半径] に「50」と入力します。
ヒートマップシンボルが変化し、大きい半径値を使用して密度が再計算されます。
この新しい表示では、高血中鉛濃度の事例の密度が地区レベルの縮尺で表示されています。
これは、データを地理的に正確に描写する必要性と対象のプライバシーを保護する必要性のバランスを取りながら、データのクラスタリングの程度とスケールを表すために、各種ヒートマップシンボルパラメーターを試すときに役立ちます。病気の発生など、健康に関連する多くの問題は、さまざまな地理的スケールで発生します。病気の発生の原因となった地点がある場合と、地域レベルの伝染による場合があります。適切なスケールでデータを理解して使用することが、保健医療 GIS 分析を成功させる上での鍵となります。
地域における子供の鉛中毒の広がりについて関係者や一般の人々に知らせるレポートに、都市レベルの静的マップ画像を追加することができます。ヒートマップは、データの分布や特に集中しているエリアを示すのに役立ちます。
[クイックアクセスツールバー] で [プロジェクトの保存] ボタンをクリックします。

ポイントクラスターマップの作成

鉛中毒の事例が集中しているエリアとそうでないエリアをわかりやすく伝える静的プランニングマップを病院首脳部のために作成する必要があります。もちろん、これは引き続き個人のプライバシーを保護する方法で行う必要があります。この場合、首脳部は専門家を配置してケアプログラムのリソースを調整する必要があるため、病院がサービスを提供するエリアにおける実際の事例の数に関心があります。

このために、クラスターマップを作成します。フィーチャクラスタリングのテクニックでは、エリア内のポイントのクラスターをグループ化し、そのクラスターによって表されるグループ化されたポイントの数を示す等級シンボルを表示します。この方法は、正確な数を大きさによって示す必要があるが、個々のポイントの位置は必要ないか共有したくない場合に推奨されます。

[コンテンツ] ウィンドウで、[High_Blood_Level_Results] レイヤーをクリックして選択します。
リボンの [フィーチャレイヤー] タブをクリックします。 [描画] グループで、[集約] をクリックし、[クラスタリング] を選択します。
[クラスタリング] ウィンドウで、[はい] をクリックします。
マップが更新され、クラスターシンボルが表示されます。シンボルの色はランダムに割り当てられ、クラスターのサイズと数はお使いのディスプレイとマップ範囲によって異なります。
各シンボルのサイズはクラスター内のポイントの数を基準としており、ポイントの数もラベル表示されます。
市の北東部にあるクラスターにズームインします。
ヒートマップシンボルと同様に、マップのズームレベルと範囲に合わせてクラスターシンボルが変わります。大きく拡大すると、個々の患者の居住地が明らかになります。
ヒートマップシンボルと同様に、範囲やズームレベルによっては、患者の個人情報の保護にクラスターシンボルは適していません。また、ヒートマップシンボルと同様に、対話型バージョンのマップにある程度ズームインした場合、個々のポイントをクリックしてその属性を取得することができます。クラスターシンボルは対話型マップで患者の個人情報を保護するのに十分ではありません。
静的マップの場合、必要な縮尺と範囲でより適切に表示されるようにクラスタリングを調整できます。
[シンボル] ウィンドウで [クラスター] タブと [クラスター設定] タブをクリックします。
[クラスタリング半径] スライダーをスケールの端の [高] までドラッグします。
[クラスタリング半径] スライダーをドラッグすると、クラスターの数が減り、クラスターあたりのポイントの数が増えます。
これはヒートマップ半径と同じ仕組みです。クラスタリング半径を変更することで、マップ範囲と縮尺に合わせてクラスタリングの度合いを調整できます。
[コンテンツ] ウィンドウで、[High_Blood_Level_Results] を右クリックして、[レイヤーにズーム] を選択します。
ヒートマップシンボルと同様に、ある縮尺と範囲ではうまくいく半径が別の縮尺と範囲ではうまくいかないことがあります。
[シンボル] ウィンドウで、[クラスタリング半径] スライダーをスケールの端の [低] までドラッグします。
クラスターマップは、特定の事例の発生数 (この場合は症例報告数) を示し、データの密度で空間パターンを示すときに、静的マップと動的マップで使用します。プライバシーの観点での利点として、クラスターは個人の特定に使用可能な郵便番号や郡などの行政区分には紐づけられていません。個々の患者の居住地を明らかにすることなくパターンに関する有益な情報を伝えるため、特定の縮尺と範囲に合わせてクラスターの半径を調整する必要があります。
病院首脳部のための静的マップ画像を作成しているため、マップに適したクラスター半径を慎重に設定すれば、クラスターマップを使用することができます。あなたが作成した静的クラスターマップによって、血中鉛濃度が高い地域の子供を治療するための協調的アプローチを計画する上で必要となる情報が病院首脳部に提供されます。
プロジェクトを保存します。

血中鉛濃度データを確認しました。 PHI の定義、HIPAA に従うべき個人または組織、2 つの匿名化手法である「セーフハーバー」と「専門家による決定」についても学びました。その後、ヒートマップとフィーチャクラスタリングの 2 つのビジュアライゼーションテクニックを使用して、個人の正確な居住地を示すことなくポイントデータを可視化しました。

少数セルの抑制

少数セルとは、集約データが含まれているポリゴンのうち、含まれているデータポイントの数が少ないことから個人の再特定化が可能であるポリゴンを指します。このセクションでは、少数セルが存在する場合にデータの匿名化をサポートするホットスポット分析とテッセレーションの 2 つの方法を組み合わせて使用します。ホットスポット分析は、統計的に有意な高値と低値の空間クラスター (ホットスポットとコールドスポット) を特定する数学演算に基づきます。テッセレーションは、四角形、三角形、六角形などの同一の重なり合わない幾何学的形状によってサーフェスをタイルに分割する手法です。これらのタイルを使用して、タイル内のデータポイントに関するサマリー情報を示すことができます。

ホットスポットとコールドスポットの特定

次のタスクでは、動的 Web マップとしてオンラインで公開されるレポート用に、高血中鉛濃度の事例の統計的に有意なクラスターを示すマップを作成します。 [最適化ホットスポット分析] ツールを使用してマップを作成し、六角形のテッセレーションによって結果をシンボル表示します。

ArcGIS Pro では、[最適化ホットスポット分析] ツールを使用して、血中鉛濃度が高い地点を重み付きフィーチャに集約できます。このツールは、重み付きフィーチャの分布を使用して、分析の適切なスケールを決定します。これにより、六角形のサイズを事前に把握する必要がなくなります。六角形 (hexbin とも呼ぶ) によるデータの集約またはビニングは、六角形が行政区分と直接合致しないため、患者のプライバシーを保護しながら健康情報を可視化するのに便利な手法です。事例数ではなく分析出力 (統計的有意性) が提供されることから、さらなる匿名化が施されます。

Web マップには分析範囲における子供の鉛中毒の有無が一般化されたパターンで示され、多く集中している地域もわかります。

リボンの [解析] タブをクリックします。 [ジオプロセシング] グループで、[ツール] をクリックします。
[ジオプロセシング] ウィンドウが表示されます。このウィンドウを使用して、[最適化ホットスポット分析] ツールを検索して実行します。
検索ボックスに「optimized hot spot」と入力します。結果のリストで [最適化ホットスポット分析] ツールをクリックします。
このツールは、ホットスポット分析を実行する最適な距離を探すことから、[最適化ホットスポット分析] という名前が付いています。これは、隣接する hexbin 内にクラスタリングするカウントの差が最も大きくなる距離になります。明確な距離が得られなかった場合、この最適化ツールは、最近傍が一定の数になる平均距離を分析用に計算します。最後に、このツールは分析範囲全体で hexbin の各隣接クラスターにおいて血中鉛濃度の高い患者の数を比較して Z スコアを計算します。Z スコアは p 値に直接関連付けられ、これに基づいて統計的有意性が判定されます。
[入力フィーチャ] で、[High_Blood_Level_Results] を選択します。
[出力フィーチャ] で、デフォルトの場所をそのまま使用します。フィーチャクラス名に「High_Blood_Lead_Hot_Spots」と入力します。
[分析フィールド] パラメーターは空白のままにします。
入力フィーチャに数値が関連付けられている場合、[分析フィールド] パラメーターを使用して、それらの値をホットスポット分析で考慮することができます。この場合、[分析フィールド] の値は設定しません。これにより、[High_Blood_Level_Results] のポイント分布におけるホットスポットとコールドスポットが評価されます。
[インシデントデータ集約方法] で、[六角形グリッド内のインシデント数] を選択します。
[インシデント範囲境界ポリゴン] で、[Sacramento_ZIP_Codes] を選択します。
このレイヤーには、サクラメントの郵便番号ポリゴンが含まれています。これらのフィーチャを使用して、ポイントが発生しうる場所が特定されます。実際のところはツールの分析範囲を指定しているため、サクラメントの分析範囲の外にあるが入力ポイントの最大境界四角形内にあるエリアはコールドスポットとして識別されません。
[実行] をクリックします。
ツールが実行され、High_Blood_Lead_Hot_Spots レイヤーがマップに追加されます。
[コンテンツ] ウィンドウで、[High_Blood_Level_Results] レイヤーのチェックボックスをオフにして、新しいレイヤーを調査できるようにします。
[コンテンツ] ウィンドウにレイヤーのシンボルクラスが表示されます。
統計的コールドスポットには青色、統計的ホットスポットには赤色、有意でないエリアには白色を使用してツールの結果がシンボル表示されます。
有意に高い事例数と有意に低い事例数の分布を示す手段としてこのレイヤーを共有することもできますが、共有する前に、[Counts] フィールドを削除する必要があります。このフィールドには、各六角形内の事例数が示されています。セルのサイズや症状が発生する頻度にもよりますが、事例がわずかしかないセルでは特に、具体的な数を示した場合、患者の個人情報が十分に保護されない可能性があります。
次に、各ビン内の総数別にホットスポット分析レイヤーをシンボル表示します。この方法では、集中しているエリアがわかるだけでなく、事例数の範囲もわかりやすく示されます。
プロジェクトを保存します。

数による hexbin のシンボル表示

組織内のアナリストと共有するレポートを作成します。このアナリストは鉛軽減プロジェクトに従事しており、あるエリア内の事例数を知る必要がありますが、具体的な地点を知る必要はありません。シンボルを変更し、各ポリゴン内のフィーチャの総数を表示するようにします。

最初に、別のバージョンとしてシンボル表示を変えるため、レイヤーのコピーを作成します。

[コンテンツ] ウィンドウで、[High_Blood_Lead_Hot_Spots] レイヤーを右クリックし、[コピー] を選択します。
[コンテンツ] ウィンドウで [マップ] を右クリックして [貼り付け] を選択します。
[コンテンツ] ウィンドウで、貼り付けたレイヤーの名前をクリックして編集します。
「High_Blood_Lead_Hexbin_Counts」と入力し、Enter を押します。
[コンテンツ] ウィンドウで、High_Blood_Lead_Hot_Spots レイヤーのチェックボックスをオフにして無効にします。
[High_Blood_Lead_Hexbin_Counts] レイヤーを右クリックして [シンボル] を選択します。
[シンボル] ウィンドウの [フィールド] で [Counts] を選択します。
[配色] ドロップダウンリストをクリックし、下にスクロールして [赤 (7 クラス)] カラーランプをクリックします。
[クラス] で、[5] を選択します。
シンボルテーブルで、最も低いクラスのシンボル ([0 以下]) を右クリックし、[色なし] を選択します。
数がゼロの hexbin を色なしに設定することで、マップを読む人が状況を理解しやすくなり、血中鉛濃度が高い患者がいるセルに注目することができます。
1 ポイントだけが分類された hexbin があります。ほとんどの場合、1 つの hexbin 内に事例が 1 つしかないことを表示したくはありません。これが少数セルであることは明らかです。等級シンボルのヒストグラムを調整してマップシンボルのクラスを変更できます。
[ヒストグラム] タブをクリックします。
ヒストグラムで [1] ハンドルをダブルクリックして編集します。「2」と入力して Enter キーを押します。
[3] ハンドルを [4] に変更します。
新しいクラス閾値が設定されました。
シンボルが更新され、事例数が 1 の hexbin と事例数が 2 の hexbin が同じグループになりました。
hexbin 内の最小事例数として選択する適切な数は、シナリオおよび組織のルールによって異なります。よくある事例の場合は小さい数を使用し、まれな事例には大きい数を使用するのがよいでしょう。それぞれのエリアと、各エリア内の人口 (潜在的事例数) も考慮することが重要です。ビンが大きく人口が増えるにしたがい、個人が再特定化されるリスクを冒すことなく設定可能な最小事例数は小さくなります。
以上で、分析担当者とこの情報を共有する準備が整いました。分析担当者は組織内の人間であり、生データを利用するために必要なすべての権限を持っているかもしれませんが、実際にはその作業でポイントレベルのデータを必要としていません。作業のニーズに基づいて最小限のデータセットを提供するようにしてください。これは、PHI を含むポイントデータが必要な場所以外で共有される可能性を取り除きながら、地域の懸念事項に注目するのに十分正確なデータを提供する、バランスのとれたアプローチです。
プロジェクトを保存します。

[最適化ホットスポット分析] ツールを使用して、入力ポイントフィーチャを表すのに適切な hexbin のサイズを (プライバシーのニーズではなく分析の最適なスケールに基づいて) 設定し、統計的有意性を示すように hexbin をシンボル表示しました。個人の特定は不可能にしながら、相対的に懸念すべきエリアをハイライト表示したホットスポットマップを使用して問題を明らかにしました。別の分析プロセス用に実際の事例数を示すように hexbin データのシンボルを変更しました。個々のポイントを表示する権限がないか作業で実際に必要としない関係者と個々のポイントを共有する必要がない方法を使用しました。この結果、分析範囲で高血中鉛濃度の事例が多いエリアがわかりやすく表示されました。

データの一般化と集約

次に、年別データを確認して、個人情報を保護し、一般公開されるマッピングプロダクトで少数データクラスターを特定できないようにする方法について学びます。慎重な扱いを要する情報を保護するため、データの関連パターンのみを明らかにする手法を用いてデータを一般化および集約する方法について学びます。健康データでは、パターンから最も多くの情報が得られることがよくあります。個々の事例が発生している地点は、業務の多くの側面に必ずしも必要なものではありません。たとえば、症例管理や調査では個別の地点が用いられるのに対し、アナリストが子供の鉛中毒と調査の年間報告書で使用するのは一般化または集約されたデータです。

データの一般化では、データの複雑度や詳細を低減することによってデータが簡略化されます。たとえば、誕生日のデータを誕生年のデータに一般化することができます。年齢を 10 歳ごとの年齢コホートに一般化することができます。さらに、チェロキー、ナヴァホ、チョクトーなどのさまざまな部族をアメリカ先住民という 1 つのカテゴリにまとめることができます。これに対し、集約では、複数のデータポイントが 1 つの統計サマリー (年間出生数など) にまとめられます。集約の手法について見ていきますが、通常は、基礎となるデータに一般化の手法を適用することで個人情報をさらに難読化することが可能です。

データの集計

最初に、分析範囲の郵便番号レイヤーを使用して、年別にデータを集計します。保健統計のレポートには郵便番号区域がよく使用されます。これには良い点と悪い点があります。良い点として、郵便番号区域は郡よりも小さく、ほとんどの人が郵便番号を知っており、マップ上で地点を特定することができます。悪い点として、郵便番号区域は郵便配達を効率的に行うために作られたものであり、いずれは変更される可能性があります。あなたはアナリストとして、これらがニーズに適しており、組織のデータリリースルールに沿ったものであるか判断する必要があります。

[ジオプロセシング] ウィンドウを再度開き、[戻る] ボタンをクリックします。
ヒント:
[ジオプロセシング] ウィンドウが見つからない場合は、リボン上の [解析] タブをクリックします。 [ジオプロセシング] グループで、[ツール] をクリックします。
検索ボックスに「エリア内での集計」と入力します。結果のリストで [エリア内での集計 (解析ツール)] をクリックします。
[GeoAnalytics Desktop ツール] ツールセットに属する別の [エリア内での集計] ツールがありますが、このチュートリアルでは [解析ツール] ツールセットのツールを使用してください。
[入力ポリゴン] で、[Sacramento_Zip_Codes] を選択します。
[入力サマリーフィーチャ] で、[High_Blood_Level_Results] を選択します。
[出力フィーチャクラス] で、デフォルトの場所をそのまま使用します。フィーチャクラス名には、「HBLL_by_zip_year」と入力します。
[グループフィールド] で、[Blood Level Test Year] を選択します。
[実行] をクリックします。
[HBLL_by_zip_year] レイヤーがマップに追加されます。 [スタンドアロンテーブル] セクションに、[testYear_Summary] テーブルも追加されます。このテーブルには、郵便番号と年別にカウントされた集計データが含まれています。 [HBLL_by_zip_year] レイヤーに再びそれを結合して、年ごとの値を示すことができます。

フィーチャクラスへのテーブルの結合

次に、結果フィーチャクラスに集計テーブルを結合して、単一のフィーチャクラスに郵便番号別と年別に集計されたデータが含まれるようにします。これにより、年ごとのデータを示すレイヤーを作成できます。

[コンテンツ] ウィンドウで、[HBLL_by_zip_year] レイヤーを右クリックし、[属性テーブル] を選択します。
このテーブルには、元の郵便番号ポリゴンからのデータと、[エリア内での集計] ツールによって追加されたデータが表示されます。 [Count of Points] フィールドには、各郵便番号ポリゴン内の事例の総数が表示されます。 [JOIN ID] フィールドの値を使用して、[testYear_Summary] テーブル内の属性をこのレイヤー上に結合することができます。このフィーチャクラスには 17 個の郵便番号ポリゴンがあります。
[コンテンツ] ウィンドウの [スタンドアロンテーブル] セクションで、[testYear_Summary] テーブルを右クリックして [開く] を選択します。
[JOIN ID] フィールドの値を使用して、これらの属性を [HBLL_by_zip_year] レイヤーに結合することができます。 [testYear] フィールドには、血液検査が実施された年の値が格納されています。 [Count of Points] フィールドには、このテーブル内の合計 50 件のレコードについて、各年の各郵便番号ポリゴン内の事例の総数が表示されます。
両方のテーブルを閉じます。
[コンテンツ] ウィンドウで、[HBLL_by_zip_year] を右クリックし、[テーブルの結合とリレート] をポイントして [結合] を選択します。
[テーブルの結合] ウィンドウで、[入力テーブル] パラメーターは [HBLL_by_zip_year] レイヤーに設定されています。
[入力フィールド] で [JOIN ID] を選択します。
[入力フィールド] の横に、フィールドのインデックスが構築されていないことを示す警告アイコンが表示されます。このような小さなテーブルの場合、問題はありません。
[結合テーブル] で [testYear_Summary] を選択します。
[結合フィールド] で [Join ID] を選択します。
[結合の検証] をクリックします。
[結合の検証] のプロセスが実行されてメッセージが返されます。
2 つのフィールドのインデックスが構築されていないので、パフォーマンスを改善するためにこれらのフィールドにインデックスを作成するよう推奨するメッセージが表示されます含まれているフィーチャの数を考えると、これは必要ありません。
さらに、これは 1 対多の結合であり、結合後のフィーチャクラスには 50 件 ([testYear_Summary] テーブル内の各レコードに 1 つずつ) のレコードが含まれることも報告されます。
[閉じる] をクリックして [メッセージ] ウィンドウを閉じます。
[テーブルの結合] ウィンドウで [OK] をクリックします。
[HBLL_by_zip_year] レイヤーの属性テーブルが更新され、[testYear_Summary] からの追加のフィールドと、郵便番号ポリゴンと検査年を組み合わせた追加のレコードが表示されます。
[テーブルの結合] ツールの結果は一時的です。フィーチャを新しいフィーチャクラスにエクスポートすることによって、すべてのフィーチャが含まれているフィーチャクラスのコピーを作成します。
[HBLL_by_zip_year] レイヤーを右クリックし、[データ] をポイントして、[フィーチャのエクスポート] を選択します。
[フィーチャのエクスポート] ウィンドウの [出力フィーチャクラス] に「HBLL_by_zip_all_years」と入力します。
[OK] をクリックします。
新しいフィーチャクラスがプロジェクトジオデータベースに保存され、[コンテンツ] ウィンドウに追加されます。これで、古いレイヤーは不要になりました。
[コンテンツ] ウィンドウで、[HBLL_by_zip_year] を右クリックして [削除] を選択します。

レイヤーのシンボル表示

次に、レイヤーをシンボル表示します。

[コンテンツ] ウィンドウで、[HBLL_by_zip_all_years] 以外のすべてのレイヤーのチェックボックスをオフにします。
[HBLL_by_zip_all_years] を右クリックして [シンボル] を選択します。
[シンボル] ウィンドウの [プライマリシンボル] で、[等級シンボル] を選択します。
[フィールド] で、2 つある [Count of Points] フィールドのうち、[Join ID] の下にある 2 つ目の方を選択します。
このフィールドには、ポリゴン内で特定の年に発生したポイントの総計が含まれています。 1 つ目のフィールドには 3 年間の総計が含まれています。
[最大サイズ] で「40」pt と入力します。
レイヤーのシンボルが更新されます。
マップに、各ポリゴンで異なるサイズの複数のポイントシンボルが表示されます。これは、[HBLL_by_zip_all_years] レイヤーには各郵便番号ポリゴンの複数のコピーが、その郵便番号区域で事例が発生した年ごとに 1 つずつ含まれていることが理由です。シンボルサイズの範囲は値の範囲に基づいていますが、マップが読みづらくなっています。どのポイントシンボルがどの年に対応しているのかを識別できません。
リボンの [マップ] タブをクリックします。 [ナビゲーション] グループで、[マップ操作] ツールのドロップダウン矢印をクリックして [表示レイヤー] を選択します。
最北東にある郵便番号ポリゴンをクリックします。
マップには 2 つのポイントシンボルしか表示されませんが、ポップアップの上側のセクションには、その位置に [HBLL_by_zip_all_years] レイヤーの 3 つのフィーチャが含まれていることが示されています。ポップアップの下側のセクションには、一番上のフィーチャの属性が表示されています。 [testYear] フィールドおよび [Count of Points] フィールドは、該当する年に郵便番号 95821 の区域であった事例の数を示します。
ポップアップの上側のセクションで、[Sacramento] の他の 2 つのインスタンスをクリックして、その 2 つのフィーチャの属性を表示します。
郵便番号 95821 の区域では、2018 年に 24 件、2019 年に 48 件、2020 年に 26 件の事例がありました。
ポップアップを閉じます。

年別にデータを表示

年別の郵便番号区域ごとの数が含まれている [HBLL_by_zip_all_years] レイヤーを作成した後は、このレイヤーのコピーを作成して、高血中鉛濃度の事例の年ごとの分布を視覚化することができます。

[コンテンツ] ウィンドウで、[HBLL_by_zip_all_years] レイヤーを右クリックして [コピー] を選択します。
[コンテンツ] ウィンドウで [マップ] を右クリックして [貼り付け] を選択します。
[HBLL_by_zip_all_years] レイヤーのコピーの名前を「HBLL_by_zip_2018」に変更します。
[HBLL_by_zip_2018] レイヤーをダブルクリックします。
[レイヤープロパティ] ウィンドウが表示されます。
[レイヤープロパティ] ウィンドウで、[定義クエリー] タブをクリックします。
[新しい定義クエリー] をクリックします。
[Where 句 testYear が 2018 と等しい] というクエリーを作成します。
このクエリーによってレイヤーがフィルターされ、2018 年のポリゴンのみがマップに表示されます。
[適用] および [OK] をクリックします。
[コンテンツ] ウィンドウで、[HBLL_by_zip_2018] レイヤーを右クリックし、[コピー] を選択します。
[コンテンツ] ウィンドウで [マップ] を右クリックして [貼り付け] を選択します。
レイヤーの新しいコピーの名前を「HBLL_by_zip_2019」に変更します。
[HBLL_by_zip_2019] レイヤーをダブルクリックして、[レイヤープロパティ] ウィンドウを開きます。
[定義クエリー] タブの [クエリー 1] カードで [編集] をクリックします。
2019 年のデータを表示するため、2019 レイヤーの定義クエリーを変更します。
年の値を [2019] に変更します。
[適用] および [OK] をクリックします。
[HBLL_by_zip_2019] レイヤーのコピーを作成して名前を「HBLL_by_zip_2020」に変更し、そのレイヤーの定義クエリーを更新して 2020 年のデータが表示されるようにします。
これで、各年において高血中鉛濃度の事例がある郡を示す個別のレイヤーを作成しました。
次に、組織の最小閾値を満たすために 2 つの集約方法を試します。 1 つのエリア (郵便番号区域など) で 5 件以上の事例が発生した場合、一般公開されるプロダクトにその郵便番号区域のデータを表示してよいことが首脳部によって決定されました。
マップで、事例数が最も少ない中央の郵便番号ポリゴンをクリックします。
[コンテンツ] ウィンドウの一番上にあるレイヤー [HBLL_by_zip_2020] が最初に表示されます。
2020 年には、この郵便番号ポリゴンでは 2 件の事例しか発生しませんでした。この数は、組織が郵便番号別にデータをリリースする際に指定した最小値である 5 件を下回っています。
[ポップアップ] ウィンドウの [HBLL_by_zip_2019] で、[Sacramento] をクリックして 2019 年の属性を表示します。
2019 年には、この郵便番号ポリゴンでは 3 件の事例が発生しました。 2019 年と 2020 年におけるこの郵便番号区域のデータを組み合わせたものは、この 2 年の値の合計が 5 になるため、リリースすることが可能です。
ポップアップを閉じます。

複数年のデータの結合

組織の最小閾値を満たす方法の 1 つは、各郵便番号区域での事例が 5 件以上になるまで、複数年のデータを集約するというものです。このアプローチでは、空間解像度を維持するために時間解像度が低くなります。

リボン上の [マップ] タブの [選択] グループで、[属性条件で選択] をクリックします。
[属性条件で選択] ウィンドウの [入力テーブル] で、[High_Blood_Level_Results] を選択します。
[フィールドの選択] をクリックし、[Blood Level Test Year] を選択します。
デフォルトの演算子 [と等しい] をそのまま使用します。
比較値のドロップダウンリストをクリックし、[2020] を選択します。
[項目の追加] をクリックします。
クエリの項目を結合するときのデフォルトの論理演算子は And です。この演算子により、あるフィールドの値が何かで別のフィールドの値が別の何かであるフィーチャを選択するクエリーや、値が一定の範囲内にあるフィーチャを選択するクエリー (「より大きい」と「より小さい」の比較を使用している場合) を作成することができます。ただし、この場合は、検査年が 2020 年または 2019 年であるフィーチャを選択するクエリーを作成します。
[And] 論理演算子をクリックし、[Or] を選択します。
フィールドを [Blood Level Test Year] に設定し、デフォルトの [と等しい] 演算子をそのまま使用します。
値ドロップダウンリストをクリックし、[2019] を選択します。
[属性条件で選択] ツールで [Blood Level Test Year] フィールドの値が 2020 または 2019 のフィーチャを選択する準備が整いました。
[OK] をクリックします。
2020 年と 2019 年に記録された [High_Blood_Level_Results] フィーチャが選択されます。それらはマップ上に表示されません。[High_Blood_Level_Results] レイヤーがオフになっているためです。ただし、マップビューの下に、選択されたフィーチャの数 (270) は表示されます。
次に、[エリア内での集計] ツールを実行して、選択されているフィーチャの郵便番号別の数を取得します。
リボンの [解析] タブをクリックします。 [ジオプロセシング] グループで、[ツール] をクリックします。
[エリア内での集計] ツールを検索して開きます。
[入力ポリゴン] で、[Sacramento_Zip_Codes] を選択します。
[入力サマリーフィーチャ] で、[High_Blood_Level_Results] を選択します。
[出力フィーチャクラス] に「HBLL_by_zip_2019_2020」と入力します。
[エリア内での集計] ツールで、選択したフィーチャが入力として設定され、そのサブセットのレコードのみが処理されることが警告されますが、それは必要とする動作です。
[実行] をクリックします。
新しいレイヤー [HBLL_by_zip_2019_2020] が [コンテンツ] ウィンドウに追加されます。
[コンテンツ] ウィンドウで、[HBLL_by_zip_2019_2020] レイヤーを右クリックし、[属性テーブル] を選択します。
[Count of Points] の列ヘッダーを右クリックし、[昇順で並べ替え] を選択します。
並べ替えた列から、このレイヤーには事例が 5 件未満である郵便番号ポリゴンはないことがわかります。
組織の最小閾値に従って、2019 年と 2020 年をまとめた数は郵便番号レベルでリリースすることができます。
属性テーブルを閉じます。
他のツールに影響しないように、選択を解除します。
マップ上の任意の場所を右クリックして、[解除] をクリックします。

郵便番号ジオメトリのマージ

2020 年のデータを報告する必要があり、2019 年のデータは含める必要がないとします。組織の最小閾値を満たす 2 つ目の方法を使用して、各集約エリアでの事例が 5 件を超えるまで、単年の郵便番号区域を集約します。このアプローチでは、時間解像度を維持するために空間解像度が低くなります。

[ジオプロセシング] ウィンドウを開き、[戻る] ボタンをクリックします。
「バランス調整されたゾーンの構築」を検索します。結果のリストで [バランス調整されたゾーンの構築] をクリックします。
[入力フィーチャ] で、[HBLL_by_zip_2020] を選択します。
入力にフィルターが存在するという注意が表示されます。これは、2020 年のデータのみを表示するようにフィルターする定義クエリがレイヤーに存在することが理由です。
[出力フィーチャ] に、「HBLL_2020_Zones」と入力します。
[ゾーンの作成手法] が [属性ターゲット] に設定されていることを確認します。
[ゾーンの構築条件とターゲット] の [変数] で、[Count of Points [Point_Count_1]] を選択します。
[合計] に、「12」と入力します。
この値は組織の最小値である 5 を上回っています。 [バランス調整されたゾーンの構築] ツールは、[ターゲット] 変数を乱数シード遺伝的アルゴリズムのターゲットとして使用しますが、結果ではターゲット値の近似のみが行われるため、これより小さい値を設定した場合、一部のゾーンでは事例が 5 件未満になる可能性があります。
[空間的制限] で、[隣接エッジのみ] を選択します。
[バランス調整されたゾーンの構築] ツールを実行する準備が整いました。
注意:
ゾーンに最小人口などの別の条件がある場合、別の変数と値を追加することもできますが、このタスクでは、少なくとも 12 の事例がある 1 つのターゲットでゾーンを作成すれば十分です。このツールの詳細については、このドキュメントをご参照ください。
[実行] をクリックします。
結果がマップに追加されます。
[コンテンツ] ウィンドウで、[HBLL_2020_Zones] 以外のレイヤーをすべてオフにします。
元の郵便番号ポリゴンは維持されますが、これらのポリゴンを別のゾーンに割り当てる新しい属性が付与されます。ポリゴンをディゾルブして、ゾーンごとに 1 つのフィーチャが存在するようにします。
[ジオプロセシング] ウィンドウの [戻る] ボタンをクリックします。
[ペアワイズディゾルブ] ツールを検索して開きます。
[入力フィーチャ] で、[HBLL_2020_Zones] を選択します。
[出力フィーチャクラス] に、「HBLL_2020_Zip_Dissolve」と入力します。
[ディゾルブフィールド] で、[ゾーン ID] を選択します。
[統計フィールド] で、[Count of Points] を選択します。 [統計タイプ] が [合計] に設定されていることを確認します。
[マルチパートフィーチャの作成] チェックボックスをオフにします。
[実行] をクリックします。
ディゾルブされたゾーンのレイヤーがマップに追加されます。
[コンテンツ] ウィンドウで、[HBLL_2020_Zip_Dissolve] を右クリックして [属性テーブル] を選択します。
各ゾーンのポイント数はすべて 5 を上回っており、ほとんどは 12 ポイント以上あります。これは組織の指針と一致しています。
属性テーブルを閉じます。
あなたは子供の鉛中毒を防止するプログラムのアナリストとして、意味のある、次に取るべきアクションの決定に役立つ管轄内のデータを、通常は抑制された状態で提供するために最も適切な手法を検討する必要があります。複数年を集約した場合、エンドユーザーは集約された年における時系列変化を見分けることはできませんが、別の方法では抑制される小さな地理的エリアにおける数を把握することができます。複数の郵便番号区域を集約した場合、年ごとにマッピングされるため、強い時系列トレンドを特定できますが、地理的な特異性は減少します。どちらの方法でも、対象ユーザーやレポートとデータ共有の目的に応じて重み付けを行う必要があります。

ポイントへの座標値の追加

これまでに、サクラメント郡における高血中鉛濃度の範囲、事例の総数、データの空間パターンと時間パターンを調べるときのさまざまな方法に関連する問題に注目する関係者のためにマップを作成してきました。

次に、健康公平化チームと作業をします。このチームは、子供の高血中鉛濃度に性別、人種または民族、年齢などのその他の要因が関連しているかどうかを判断する調査を行います。あなたは、このチームの活動を支援するため、各子供の調査対象となるすべての変数とその概略位置を含む、匿名化されたポイントレベルのデータセットをチームに提供する必要があります。座標の丸めを使用してこのタスクを完了し、いくつかの統計情報を確認して丸めレベルの妥当性を示します。

最初に、緯度と経度の値が度 (10 進) で格納される属性をポイントフィーチャに追加します。

[ジオプロセシング] ウィンドウで、[ジオメトリ属性の計算] ツールを検索して開きます。
[入力フィーチャ] で、[High_Blood_Level_Results] を選択します。
[ジオメトリー属性] の [フィールド (既存または新規)] に、「Latitude」と入力します。
これにより、新しいフィールドが属性テーブルに追加され、各ポイントの緯度の値が格納されます。
[プロパティ] で、[Point y-coordinate] を選択します。
各ポイントの Y 座標値が [Latitude] フィールドに追加されます。
2 行目の [フィールド (既存または新規)] に、「Longitude」と入力します。 [プロパティ] で、[Point x-coordinate] を選択します。
[座標形式] で [度 (10 進)] を選択します。
[座標系の選択] ボタンをクリックします。
[座標系] ウィンドウで、「WGS 1984」を検索します。
[地理座標系] を展開してから、[世界] を展開します。 [WGS 1984] をクリックします。
[OK] をクリックします。
[ジオメトリー属性の計算] ツールで、[実行] をクリックします。
[コンテンツ] ウィンドウで、[High_Blood_Level_Results] レイヤーを右クリックして、[属性テーブル] を選択します。新しい [Latitude] フィールドと [Longitude] フィールドが表示されるまで、テーブルの最後に向かってスクロールします。
ポイントの緯度と経度の値が属性に格納されたので、丸め値が格納される新しいフィールドを作成し、新しい丸め値を計算できます。
注意:
高血中鉛濃度の事例が発生したポイントの位置を表す緯度と経度の座標を操作するにはいくつかの方法があります。分析範囲内の各ポイントの位置を低解像度のグリッドにスナップさせることで、座標を切り捨てたり丸めたりすることができます。各座標の最後の 1 桁または 2 桁を乱数に置き換えることによって位置を摂動させることもできます。これにより、各ポイントがランダムな距離と方向に移動します。

丸め座標のフィールドの追加

丸め座標値を格納するフィールドを 2 つ追加します。

[High_Blood_Level_Results] を右クリックし、[データ設計] をポイントして [フィールド] を選択します。
フィールドテーブルが表示されます。 [High_Blood_Level_Results] レイヤーの各フィールドが、行として一覧表示されます。このテーブルを使用して、2 つの新しいフィールドをレイヤーに追加します。
フィールドリストの下部へスクロールします。
[Latitude] の行ヘッダーをクリックします。 Ctrl を押しながら、[Longitude] の行ヘッダーをクリックします。
[Latitude] の行ヘッダーを右クリックして [コピー] を選択します。
[Latitude] の行ヘッダーを右クリックして [貼り付け] を選択します。
[Latitude1] および [Longitude1] という名前の 2 つの新しい行がテーブルに表示されます。コピーしたフィールドの名前とエイリアスを変更します。
[フィールド名] 列で、[Latitude1] をダブルクリックし、「LatitudeRound」と入力します。
[Longitude1] の名前を「LongitudeRound」に変更します。
[エイリアス] 列の [LatitudeRound] 列に、「Latitude Rounded」と入力します。
[エイリアス] 列の [LongitudeRound] 列に、「Longitude Rounded」と入力します。
コピーしたフィールドの名前とエイリアスが設定されました。
リボンの [フィールド] タブの [編集の管理] グループで、[保存] をクリックします。
[High_Blood_Level_Results] フィーチャクラス用のテーブルスキーマに 2 つの新しいフィールドが追加されました。
[フィールド] ビューを閉じます。

座標の四捨五入

次に、四捨五入された座標値を計算して新しいフィールドに格納します。

[High_Blood_Level_Results] レイヤーの属性テーブルで、[Latitude Rounded] を右クリックして [フィールド演算] を選択します。
[フィールド演算] ウィンドウの [式の種類] で、[Arcade] を選択します。
Arcade は、ArcGIS 用に記述されている軽量の式言語です。
式ボックスに、次の Arcade 式を入力します (またはコピーして貼り付けます):
```
Round($feature.Latitude,2)
```
このコードでは、[Round] 関数を使用して、[Latitude] フィールドの値を小数点以下 2 桁に四捨五入した値を [Latitude Rounded] フィールドに設定しています。これにより、ポイントの位置情報が最も近い小数第 2 位で四捨五入されます。
[確認] ボタンをクリックします。
[適用] をクリックします。
四捨五入された値が計算され、属性テーブルの [Latitude Rounded] フィールドに追加されます。
同じ方法を使用して、[Longitude Rounded] フィールドの値を計算します。
[フィールド演算] ウィンドウの [フィールド名 (既存または新規)] で [Longitude Rounded] を選択します。
式ボックスで、既存の式を次の式に置き換えます:
```
Round($feature.Longitude,2)
```
[OK] をクリックします。
[Latitude Rounded] フィールドと [Longitude Rounded] フィールドが小数点以下 2 桁に四捨五入されます。
注意:
California State Plane や UTM などの平面空間参照による座標の場合、座標値は度 (10 進) ではなく距離単位になります。その場合、四捨五入されたポイントの適切な間隔を計算し、その間隔まで四捨五入する必要があります。たとえば、必要な単位と移動量に応じて、1,000 フィート (または 100 メートル) 単位で値を四捨五入することができます。
属性テーブルを閉じます。

新しいポイントの作成

2 つのフィールドの値を四捨五入したので、これらの位置に新しいポイントを作成します。

[ジオプロセシング] ウィンドウで、[XY イベントレイヤーの作成] ツールを検索して開きます。
[XY テーブル] で、[High_Blood_Level_Results] を選択します。
[X フィールド] で、[Longitude [LongitudeRound]] を選択します。
[Y フィールド] で、[Latitude [LatitudeRound]] を選択します。
[出力レイヤー名] に、「High_Blood_Level_Results_Rounded」と入力します。
[空間参照] が [GCS_WGS_1984] に設定されていることを確認します。
これらのパラメーターにより、計算して四捨五入した緯度値と経度値がツールで使用され、新しいポイントのレイヤーが作成されます。
[実行] をクリックします。
[コンテンツ] ウィンドウで、[High_Blood_Level_Results_Rounded] および [World Street Map] 以外のすべてのレイヤーをオフにします。
四捨五入した座標値から作成されたポイントは、小数点以下 2 桁の間隔のグリッド状に配置されます。このアプローチでは、ポイントが元の位置から移動しますが、元の空間パターンはある程度維持されるため、分析に利用することができます。
元のポイントのヒートマップ
座標ポイントを四捨五入した後のヒートマップ
注意:
座標の四捨五入などの方法によってポイントレベルの位置がマスクされた後も、権限を持つ内部ユーザーにそのデータを公開する前に、名前、誕生日、住所フィールドなどの不要な識別 PHI や元の座標値を属性テーブルから削除する必要があります。ポイントを四捨五入した座標値に移動しても、元の住所や座標を提供した場合、PHI は保護されません。
[フィーチャのエクスポート] ツールを使用してフィーチャクラスのコピーをエクスポートして、権限を持つ組織のメンバーと共有することができます。このツールの [フィールド] セクションにあるフィールドのリストから、プロジェクトには必要ない PHI のフィールドを削除することができます。

元のポイントのヒートマップ	座標ポイントを四捨五入した後のヒートマップ

四捨五入結果の文書化

専門家による決定のためには、匿名化した場合に、ポイントが移動した範囲を数値化して文書化することが可能でなければなりません。座標の四捨五入方法を使用したポイント移動に関連するいくつかの統計情報を確認し、各グリッドポイントに移動したポイントの数を集計します。

[XY 座標 → ライン] ツールを検索して開きます。
[入力テーブル] で、[High_Blood_Level_Results_Rounded] を選択します。
[出力フィーチャクラス] に、「HBLL_dist」と入力します。
このラインフィーチャクラスは、元の各ポイントの座標と、対応する四捨五入した座標の位置を結びます。これらのラインフィーチャを使用して移動量を計算します。
[始点 X フィールド] で、[Longitude [Longitude]] を選択します。
[始点 Y フィールド] で、[Latitude [Latitude]] を選択します。
[終点 X フィールド] で、[Longitude [LongitudeRound]] を選択します。
[終点 Y フィールド] で、[Latitude [LatitudeRound]] を選択します。
[ラインタイプ] で、[測地線] を選択します。
この値は地表上の 2 点間の最短距離を表します。
[ID] フィールドは空のままにします。
[空間参照] は、デフォルト値 [GCS_WGS_1984] のままにします。
[実行] をクリックします。
[HBLL_dist] レイヤーがマップに追加されます。ズームレベルとマップの範囲によっては、わかりにくい場合があります。いずれかの高密度エリアにズームインすると、一連のラインによって、元の各ポイントが、それぞれに対応する四捨五入済み座標ポイントの位置と結ばれていることがわかります。
[コンテンツ] ウィンドウで、[HBLL_dist] レイヤーを右クリックして [属性テーブル] を選択します。
[Shape_Length] フィールドの値は、度単位で示された微小な小数値です。長さを平面単位に変換します。

距離フィールドの追加

HBLL_dist レイヤーの属性テーブルに新しいフィールドを追加し、その値を計算して、ポイントが移動した距離を求めます。

属性テーブルで [追加] をクリックします。
[フィールド] テーブルが表示されます。距離単位で距離を格納する新しいフィールドを追加します。
[フィールド名] 列の最下部の行に、「Distance」と入力します。
[データタイプ] 列の最下部の行で、[Double] を選択します。
リボンの [フィールド] タブの [編集の管理] グループで、[保存] をクリックします。
[フィールド] ビューを閉じます。
属性テーブルで、[Distance] フィールドの列ヘッダーを右クリックして [ジオメトリー演算] を選択します。
[ジオメトリー演算] ウィンドウの [プロパティ] で、[長さ (測地線)] を選択します。
[長さの単位] で、[メートル] を選択します。
[OK] をクリックします。
[Distance] フィールドに、ラインの長さ (メートル単位) が属性として追加されました。
[Distance] 列ヘッダーを右クリックして、[統計の視覚化] を選択します。
チャートと [チャートプロパティ] ウィンドウが表示されます。
[チャートプロパティ] ウィンドウの [統計] セクションに、[Distance] フィールドの統計サマリーが表示されます。これらの統計からは、ポイントが四捨五入済み座標位置に移動した平均距離は 377 メートルで、最小距離は 19 メートル、最大距離は 685 メートルであったことがわかります。
チャートビューには距離値のヒストグラムが表示され、これらの値に基づいて、座標の四捨五入を使用してこの匿名化されたプロダクトを作成するという自らの決定の妥当性を示すことができます。
[チャートプロパティ] ウィンドウ、チャート、属性テーブルを閉じます。

四捨五入した座標でのポイントのカウント

次に、座標の四捨五入を使用した後のスタックポイントの数を計算します。プライバシー保護と匿名化の分析では、この数はプール内の事例の数を表すものと見なすことができます。プールは単一事例の個人を表すこともあります。各スタック内の事例は多い方が、プールが大きくなり、匿名化の目的にはよりかなっています。ポイントは地理的に分析しますが、属性の特定の組み合わせによって個人を特定することも可能なので、共有する予定のテーブルに残っているすべての属性の一意性についても調べる必要があることに留意してください。このため、関係者には最小限のデータセットを提供するようにしてください。

[コンテンツ] ウィンドウで、[High_Blood_Level_Results_Rounded] レイヤーと [HBLL_dist] レイヤーをオフにします。
[ジオプロセシング] ウィンドウで、[イベントの集計] ツールを検索して開きます。
[入力インシデントフィーチャ] で、[High_Blood_Level_Results_Rounded] を選択します。
[出力加重ポイントフィーチャクラス] に、「HBLL_rounded_counts」と入力します。
[実行] をクリックします。
この場合、多くのクラスターにはポイントが 1 つか 2 つしかありませんが、一部のクラスターでは 15 個もポイントがスタックされています。データセットが大きくなるにしたがい、より高い密度でポイントがスタックされる可能性があります。
座標の四捨五入を使用して、いくつかの追加属性をポイントに関連付けたまま、慎重な扱いを要するポイントデータの位置をマスクしました。健康公平性の調査員は、匿名化されたデータを用いて、サクラメントにおける子供の血中鉛汚染について、追加の分析を行い、さらに詳細なレポートを作成できるようになりました。匿名化をどのようにして行ったかを文書に残すため、各ポイントのオフセット距離に関連する統計情報を計算し、各グリッド位置にスタックされたポイントの数を計算しました。再特定化につながる可能性がある属性 (住所、元の位置座標など) を削除することも重要であり、提供するデータセット内の属性の数は最小限にしてください。
プロジェクトを保存します。

高度なアプローチの概要

さまざまな用途のためにデータを匿名化する際のいくつかのアプローチについて学習してきました。状況によっては、さらに高度な手法を採り入れる必要があります。データ匿名化の高度な手法であるジオマスキングと差分プライバシーの 2 つについて学習します。

健康分野における GIS 作業の目的によっては、次の手法についてさらに深く掘り下げて調べることで、必要に応じてこれらの手法を適用することもできます。

ジオマスキング

ジオマスキングとは、個々のポイントの地理的位置を変更する手法群を指しますが、これは座標の四捨五入とは異なり、さらに強力な手法です。ジオマスキングを活用するために必要な 2 つの重要な側面があります。 1 つ目として、ポイントの摂動は予測不可能でなければなりません。これによってデータの秘匿性が守られます。 2 つ目として、ポイントはデータセット内の空間リレーションシップが維持される方向に移動しなければなりません。結局のところ、GIS 作業は、パターンを見つけることです。以下では、ジオマスキングの一種であるドーナツ法について紹介します。その後で、K-匿名性を用いてジオマスキングの結果を統計的に評価する方法について学びます。最後に、プロセス全体を自動化するツールについて紹介します。

ドーナツ法によるジオマスキング

ドーナツジオマスキングの背景にある基本的な考え方として、この手法はランダムに移動したポイントの元の位置が決してわからないようにすることで秘匿性を高めます。つまり、ポイントは元の位置から最小限の距離だけ移動する必要があると同時に、空間パターンを維持するため、各ポイントの最大移動量も計算されます。この 2 つの距離によってドーナツ形状の移動ゾーンが作成され、このゾーンの範囲内で元のポイントは移動することができます。ドーナツ法の詳細については、こちらの記事をご参照ください。

ドーナツジオマスキングの図

K-匿名性

「専門家による決定」匿名化手法では、プロセスを文書化して、そのプロセスにおいて個人再特定化のリスクを極小化する手法の妥当性を示す必要があります。ジオマスキングの手法を使用した場合、K-匿名性統計情報はこうした妥当性を裏付ける評価的尺度となります。 K-匿名性の詳細については、「こちら」をご参照ください。一般的な考え方として、K-匿名性は、データセット内の世帯のうち、匿名化された対象を識別できない世帯の数を表します。たとえば、K の最小値を 5 とした場合 (K_Min=5)、元のポイントを表す可能性がある世帯 (または個人) が 5 世帯 (または人) 以上存在することになります。

組織にとって、プライバシー保護のために許容される K の最小値を決定することが重要となります。これに関する基準はありませんが、さまざまな州や政府機関の少数セルの数に関する方針に目を通しておくと役立ちます。少数セルとは、同じフィーチャの組み合わせに対応する人の数として定義されています。権威ある政府機関の方針に沿うことで、組織が独自の基準を策定する際の決定がスムーズになります。また、K の 1 つの基準値であらゆる状況に対応できるとは限らないことにも注意する必要があります。

差分プライバシー

差分プライバシーは、個人のプライバシーを保護するのに優れた新しい手法であると考えられています。これは比較的大きなデータセットで効果を発揮します。実際に、米国国勢調査局は 2020 年の国勢調査から、データ報告にこの手法を用いました。差分プライバシーでは、データセット内のすべてのデータが、データセットの有用性を維持しながらあらゆる個人の特定が不可能になるように数学的に改変されます。パラメーターイプシロン (プライバシー損失予算と呼ぶ) に従ってデータセット内にノイズが注入されます。イプシロンを使用することでデータの漏洩リスクを数値化できるため、組織の方針の遵守や専門家による決定に必要な文書化に役立ちます。

差分プライバシーの仕組みに関する 1 つの考え方として、モザイク画像を思い浮かべてみてください。モザイク画像では、数百枚の写真を組み合わせて 1 つの大きな画像が新しく作られています。個々の写真レベルにズームインすれば、一部の写真を置き換えたり別の場所に移動したりすることができますが、ズームアウトすると、全体的な画像は基本的に同じに見えます。大きな画像は写真ほど鮮明ではありませんが、写真を追加するにしたがい画質が向上します。

差分プライバシーおよび保健医療 GIS におけるその価値については学ぶべきことがたくさんあります。あなたはこの手法を用いて共有されている国勢調査データをすでに利用しているでしょうし、自身の地理空間業務でこの手法を実現するツールがあるでしょうから、これはまさに学ぶべき事柄です。

2020 年米国国勢調査データに対する差分プライバシーの影響の詳細については、2022 年 6 月の Esri 手法レポート、および米国国勢調査局から発行されている情報漏洩防止に関するハンドブックをご参照ください。

可視化と共有のためのデータ匿名化に関するこのチュートリアルでは、個人医療情報のプライバシーを保護することを目的とした米国の法律 HIPAA について確認しました。情報を安全にマッピングして可視化することを可能にするいくつかの方法について学びました。さらに、調査やその他の目的にデータを利用する必要がある他のユーザーと、動的 Web マップまたはデータセットとしてデータを共有する方法についても学びました。ポイントレベルのデータを残すためにさらに強力なオプションを必要とする場合に使用可能ないくつかの高度な手法についても学びました。

1 つのチュートリアルであらゆる状況に対応することはできません。このチュートリアルでは、問題について空間的に思考する方法について学び、各種手法の良い点と悪い点について確認しました。保護対象医療情報を扱う際に用いる手法に関係なく、注意深く考え、組織内部のガイドラインに沿って、安全を保ちます。

他のチュートリアルについては、チュートリアルギャラリーをご覧ください。

マップベースのビジュアライゼーションの設計血中鉛濃度が高い子供に関する架空のデータを調べ、クラスターマップとヒートマップで視覚化します。	30 分
少数セルの抑制少数セルを抑制することで、血中鉛濃度の事例が極めて少ないエリアにおけるデータプライバシーを保護します。	20 分
データの一般化と集約データセットの匿名化のオプションを試します。	40 分

マップベースのビジュアライゼーションの設計

少数セルの抑制

データの一般化と集約

注意:

データの調査

注意:

注意:

ヒートマップの作成

注意:

注意:

ポイントクラスターマップの作成

ホットスポットとコールドスポットの特定

数による hexbin のシンボル表示

データの集計

ヒント:

フィーチャクラスへのテーブルの結合

レイヤーのシンボル表示

年別にデータを表示

複数年のデータの結合

郵便番号ジオメトリのマージ

注意:

ポイントへの座標値の追加

注意:

丸め座標のフィールドの追加

座標の四捨五入

注意:

新しいポイントの作成

注意:

四捨五入結果の文書化

距離フィールドの追加

四捨五入した座標でのポイントのカウント

高度なアプローチの概要

Maintaining Attribute Data Integrity Using ArcGIS Pro

ArcGIS Online: Security

ArcGIS Online: Working with Tables and Attributes

要件

Outline

マップベースのビジュアライゼーションの設計

少数セルの抑制

データの一般化と集約

マップベースのビジュアライゼーションの設計

注意:

データの調査

注意:

注意:

ヒート マップの作成

注意:

注意:

ポイント クラスター マップの作成

少数セルの抑制

ホット スポットとコールド スポットの特定

数による hexbin のシンボル表示

データの一般化と集約

データの集計

ヒント:

フィーチャクラスへのテーブルの結合

レイヤーのシンボル表示

年別にデータを表示

複数年のデータの結合

郵便番号ジオメトリのマージ

注意:

ポイントへの座標値の追加

注意:

丸め座標のフィールドの追加

座標の四捨五入

注意:

新しいポイントの作成

注意:

四捨五入結果の文書化

距離フィールドの追加

四捨五入した座標でのポイントのカウント

高度なアプローチの概要

使用許諾

フィードバックを送信

このチュートリアルの共有と再利用

詳細​

関連する Esri トレーニング

Maintaining Attribute Data Integrity Using ArcGIS Pro

ArcGIS Online: Security

ArcGIS Online: Working with Tables and Attributes

ヒートマップの作成

ポイントクラスターマップの作成

ホットスポットとコールドスポットの特定

詳細