データの調査
このチュートリアルでは、データ アナリストとして、血中鉛濃度の検査結果を分析します。 分析、可視化、共有のためにデータを準備する必要があります。 データはさまざまなグループによってさまざまな目的に使用されます。 症例管理やサイト アセスメントなどの業務のためにポイント レベルのデータにアクセスする必要があるスタッフもいれば、 一部の情報は一般公開しながら、首脳部に情報を伝達するために集計データを必要とするスタッフもいます。 経時的変化を分析し、介入や軽減のための取り組みの結果を追跡する必要があるスタッフもいます。 個人情報保護法によって患者のデータは保護されるため、さまざまな匿名化手法を用いて各種派生データ プロダクトを準備する必要があります。
チュートリアル データは架空のものであり、 このチュートリアルにおけるワークフローを説明するために作成されています。 データはワークフローを進める上で現実味があり、このような状況で用いるデータと同じように構成されていますが、この種の実際のデータを共有することは法的に制限されているため、データは完全に架空のものです。 このデータを信頼しないでください。 このデータに基づいて結論を導いたり実世界での意思決定を行ったりしないでください。 このデータを AI モデルや ML モデルのトレーニングに使用しないでください。結果が不正確になります。 ジオコーディングについて説明し、匿名化の対象として現実味のあるデータを提供するため、このデータセット内の住所は実際の住所ですが、データとこれらの住所との間に実際の関連はありません。 データセット内のこれらの住所に関連付けられている名前や属性値はすべて架空のものであり、これらの地域に実際に存在する人物や症状とは一切関係ありません。
データのダウンロードと調査
最初に、データをダウンロードして調査します。
- Blood_Lead_Levels_Zipped_Folder.zip 圧縮プロジェクト データをダウンロードします。
Blood_Lead_Levels_Zipped_Folder.zip ファイルがコンピューターにダウンロードされます。
お使いのブラウザーと設定に応じて、[ダウンロード] フォルダー、またはデスクトップ上に保存されます。
- ダウンロードされたファイルをコンピューター上で見つけ、zip ユーティリティーを使用して zip ファイルをフォルダーに解凍します。 出力フォルダーの場所を指定し、[次へ] をクリックします。
これはパスワードによって保護された zip アーカイブです。 パスワード ウィンドウが表示されます。
- [パスワード] に、パスワード「I_Understand_This_Is_Fictitious_Data」を入力し、[OK] をクリックします。
このパスワードを使用することで、このデータが架空であることを理解したことになります。
zip ファイルがコンピューターにフォルダーとして解凍されます。
- zip ファイルの解凍先フォルダーを開きます。
BloodLeadLevels.ppkx という名前のファイルが含まれています。 .ppkx ファイルは ArcGIS Pro プロジェクト パッケージ (プロジェクトを共有するための圧縮ファイル) です。これには、ArcGIS Pro で開くことができるマップ、データ、その他のファイルが含まれています。
- BloodLeadLevels.ppkx をダブルクリックして ArcGIS Pro で開きます。 サイン インを求められたら、ArcGIS アカウントを使用してサイン インします。
カリフォルニア州サクラメントのマップが表示されます。 架空の High_Blood_Level_Results ポイント レイヤーに、血中鉛濃度が高い子供の自宅住所の地点が示されています。
鉛調査と軽減プログラムでは、血液検査の結果と個々の患者の居住地を用いて、このような子供の家庭における鉛暴露の原因を調べます。 家族構成員の潜在的暴露の調査や、仕事場、学校、コミュニティー施設における鉛汚染源の追跡にもこのデータは使用されます。
- High_Blood_Level_Results 属性テーブルがまだ開いていない場合、[コンテンツ] ウィンドウで、High_Blood_Level_Results を右クリックして [属性テーブル] をクリックします。
多くの国は、金融データや健康データなど、慎重な扱いを要する情報のプライバシーを保護するための政策を実施しています。 米国では、1996 年に医療保険の相互運用性と説明責任に関する法令 (HIPAA) が法制化され、健康データを安全に運用するための主な指針となっています。
アメリカ合衆国保健社会福祉省は、保護対象医療情報 (PHI) を次のように定義しています。「電子媒体、紙媒体、口頭などの手段によりデータ保持者又はそのビジネス アソシエートに保持、送付される、個人を特定可能な健康情報。 個人を特定可能な健康情報とは、以下について言及する統計データを含む情報である。
- 個人の過去、現在、将来の身体的又は精神的な健康状況
- 個人へのヘルスケアの対策
- 個人の過去、現在、将来のヘルスケアの支払いの状況
個人を特定可能な保健情報は、個人を特定するか、個人を特定できる合理的な事項が存在する。 個人を特定可能な健康情報には、氏名、住所、誕生日、社会保障番号など、多くの一般的な識別子が含まれる。」
- テーブル内の属性を調査します。
このレイヤーには、架空の自宅住所、氏名、誕生日、年齢、人種、民族、性別、血液検査結果、検査実施年のデータが含まれています。 このデータが本物であれば、未成年者の健康状態、身元、正確な住所に関する極めて個人的な情報と見なされます。
これは役に立つ貴重な情報ですが、健康データ保護法に従って慎重に扱う必要があります。 あなたはこのデータを業務で用いて共有するため、法律と、共有するデータを匿名化する方法を理解していなければなりません。
High_Blood_Level_Results データ テーブルには、血中鉛濃度の情報と、名前、住所、誕生日など、子供を特定する情報が含まれているため、これは HIPAA によるところの PHI であり、HIPAA プライバシー ルールに従って慎重に保護されなければなりません。
この種のデータはアクセスが許可されているスタッフとのみ共有することができます。 アクセス許可は組織内部の指針に基づいて決定され、一般に、業務で PHI にアクセスする必要がある人や、調査や評価のために施設内倫理委員会 (IRB) などの内部プロセスによってアクセス権を付与された人が許可されます。
なぜこのようなルールにしばられるのか不思議に思うかもしれません。
- Centers for Medicare and Medicaid Services (CMS) ページの「Are You a Covered Entity?」セクションをお読みください。
このページには、HIPAA ルールの対象者についての指針が記載されています。 Covered Entity Decision Tool (PDF) には、あなたが HIPAA ルールに従うべきデータ保持者であるかどうかを判断できる対話型の決定木が用意されています。
一般に、データ保持者は以下のとおりです。
- 医療保険業者 - 医療費を支払う保険業者。
- 保健医療提供者 - なんらかの目的 (請求書作成、照会など) のためにデータを電子的に送信する組織または個人。
- 保健医療クリアリングハウス - 他の組織の代理として、標準化されていない健康情報のデータ コンテンツや形式を標準化する、あるいはその逆を行う組織。
- ビジネス アソシエート - データ保持者の代理として、個人を特定可能な健康情報の使用や開示を伴う一定の職務を遂行する、データ保持者以外の個人または組織。 このような状況においては、データ保持者はプライバシー保護に関してデータ保持者と同じ保護規定を義務付ける契約をビジネス アソシエートと結ぶ必要があります。
このチュートリアルでは、あなたの組織は医療クリニックを経営しているため、あなたはデータ保持者に相当します。
この血中鉛濃度レイヤーのような健康データは、健康格差の調査、政策評価、戦略的計画の立案に大いに役立ちます。 こうした重要な取り組みにデータを最大限に利用しながら、個人のプライバシーを保護する手段を用いる必要があります。
- HHS.gov ページの「De-identification Standard」セクションをお読みください。
PHI を含む GIS データを使用できますが、このデータは適切にセキュリティ保護されたローカル コンピューター ハードウェア上、またはセキュリティ保護された ArcGIS Enterprise ジオデータベースに保存する必要があります。 このデータを ArcGIS Online 上でホストすることはできません。
データを共有する場合は、先に匿名化する必要があります。
データ匿名化の目的は、再特定化のリスクを最小限に抑えるため、個人を特定できる情報を健康情報から分離することにあります。
匿名化のプロセスでは、誰かがデータセット内の個人の情報を見つけ出す可能性を最小限に抑える方法で、データセット内の識別子を削除します。 規制当局者は、適切な匿名化手法を用いた場合でも、特定化のリスクは常に存在することを理解しています。 したがって、匿名化においては、個人の再特定化のリスクを非常に低くすることが求められています。 HIPAA 標準で承認されている 2 つの匿名化手法を以下に示します。
1 つ目の匿名化手法である「セーフ ハーバー」では、次の 18 個の識別子をデータから取り除きます。
- 名前
- 州より小さいすべての地域区分
- 個人に直接関連する日付のすべての要素 (年を除く)
- 電話番号
- 車両識別番号とシリアル番号
- Fax 番号
- 機器 ID およびシリアル番号
- 電子メール アドレス
- Web の URL
- 社会保障番号
- IP アドレス
- 診療記録番号
- 生体 ID (指紋と声紋を含む)
- 健康保険受給者番号
- 顔写真およびそれに相当する画像
- 口座番号
- 証明証/免許証番号
- その他の固有識別番号、特徴、コード (許可されているものを除く)
準拠するためには、High_Blood_Level_Results レイヤー内のデータの大部分を削除する必要があります。
この手法は保健医療 GIS を使用している場合にはそれほど役に立ちませんが、知っておく価値があります。 これは 2 つ目の手法よりも簡単ですが、18 個の識別子を削除することに加え、若干の考慮事項があります。 データ マネージャーは、一般人が個人を特定するために使用可能なその他の識別子 (固有の肩書など) がデータセットに含まれているかどうかについても考慮する必要があります。
2 つ目の識別子「州より小さいすべての地域区分」での問題にも気づかれたかもしれません。 これにより、市区町村や地区など、実用的な解像度での GIS の利用が極めて困難になります。
次の地点表示から切り替えて
次のマップのような、州レベルのデータを表示します。
セーフ ハーバー ルールでは、現在の米国国勢調査データに照らして、郵便番号の最初の 3 桁が表す地区に 20,000 人以上が居住する場合、その 3 桁の郵便番号を使用することが許可されています。 しかし、保健医療 GIS では 3 桁の郵便番号はあまり使用されておらず、医療 GIS のユーザーは通常、さらに細かい地理レベルにおける健康への影響について関心を持っています。
データを最大限に活用するには、2 つ目の匿名化手法である「専門家による決定」を使用する必要があります。
- 「専門家による決定」匿名化についての指針をお読みください。
「専門家による決定」は柔軟性が高い手法です。 再特定化のリスクが極めて低い匿名化されたデータがレンダリングされるように、一般に認められている科学的および統計的な原理と手法を適用するための十分な知識とノウハウを持っていることがユーザーには求められます。 専門家による決定の手法の鍵となる要素は、専門家による決定を実現するために用いられた手法が文書化されていることです。
血中鉛濃度データを確認しました。 PHI の定義、HIPAA に従うべき個人または組織、2 つの匿名化手法である「セーフ ハーバー」と「専門家による決定」についても学びました。 GIS 関連作業で PHI を扱う際には、法令を遵守してプライバシーの侵害を防止するために適切なステップを踏むことが重要です。
チームのさまざまなメンバーにそれぞれの役割とタスクに応じて適切なレベルのデータを提供するための最適な手法を決定する必要があります。 一部の組織内ユーザーには、ポイント レベルで個人を特定可能なデータを提供します。 権限を付与されたこれらのユーザーは、症例管理や、暴露の原因を調べる調査を実施することができます。 家庭訪問の際の最適なルートを計算するために、居住地の住所が必要になることもあります。 これに対し、その他のユーザーが必要とするのは、匿名化された必要最小限のデータセットだけです。
以降の各セクションでは、「専門家による決定」手法を採用し、いくつかの GIS 手法を用いて、子供の鉛汚染を防止するためのあなたの組織の取り組みをサポートするデータ プロダクトを作成します。
マップベースのビジュアライゼーションの設計
このセクションでは、データセット内の各個人のプライバシーを保護しながらデータ整合性と空間パターンを残す方法を用いて、血中鉛濃度データをマップでシンボル表示します。
使用事例によって役立つ手法は異なります。 マップの目的、対象ユーザー、提供メカニズムについて考える必要があります。 マップが静的 (PDF、画像、紙の地図など) であり、マップ ユーザーがデータを操作できない場合と、マップ ユーザーがデータを Web ブラウザーやアプリケーションで探索して、拡大/縮小したり個々の地点や関連する属性データを調査したりすることができる場合とでは、考慮すべき事柄は異なります。
ヒート マップの作成
あなたは、サクラメントにおける子供の鉛中毒の広がりについて関係者や一般の人々に知らせ、リスクやターゲットへの介入、健康教育、関連する活動について周知するポスター用にマップを作成する必要があります。 ヒート マップは、レイヤー内のポイントの密度を示す滑らかなサーフェスが作成される一方で、各ポイントの位置はぼかされるため、この目的に適しています。
- [コンテンツ] ウィンドウで、High_Blood_Level_Results を右クリックして、[シンボル] をクリックします。
- [シンボル] ウィンドウで、[プライマリ シンボル] ドロップダウン リストをクリックし、下にスクロールして [ヒート マップ] をクリックします。
レイヤーのシンボルが切り替わってデータがヒート マップとして表示されます。
町の北東部にある黄色と赤色の高密度スポットは、血中鉛濃度が高い子供が複数居住しているエリアを表しています。 重要な点として、子供の数や自宅の正確な場所はわかりません。 患者のプライバシーをさらに保護するため、このヒート マップは郡の境界線や郵便番号などのその他の行政区分を含めずに表示でき、慎重な扱いを要するデータを再特定化から保護するため、街路名が表示されないベースマップに切り替えることもできます。 このビジュアライゼーション テクニックは、多数のポイント フィーチャが含まれ、そのうちの少なくとも一部は近接しているデータセットにおいて最も効果的です。
注意:
ヒート マップの最も集中しているエリアはホット スポットとも呼ばれます。 これはこのような空間パターンを表す妥当な手段ですが、このタイプのホット スポットを、分析範囲全体で統計学的に重要なクラスタリングを識別するホット スポット分析ツールの結果と混同してはなりません。 - リボンの [共有] タブをクリックし、[出力] セクションで、[クリップボードにキャプチャ] をクリックします。
ヒート マップの静的画像がクリップボードにコピーされます。 この画像をプレゼンテーションやドキュメントに貼り付けて共有することができ、この際に PHI が公開されることはありません。
- 町の北東部にある集中エリアにズーム インします。
ズーム インすると、ヒート マップのシンボルが変化して、ポイントの相対密度が画面上に示されます。
ズーム インするにしたがい、さらに細かい部分が明らかになります。 元のポイント表示と比較してデータはぼやけていますが、ある程度拡大すると、ヒート マップはプライバシーを保護しながら慎重な扱いを要するデータを表示するための適切な手段ではなくなります。
注意:
印刷された地図ではなく対話型マップを作成することが目的である場合、この動的なヒート マップ レンダリングによって個人情報が晒される可能性があることを認識しておくことが重要です。 対話型マップを作成する際には、動的にレンダリングされるヒート マップに注意し、縮尺依存のレンダリングを使用してズーム レベルを制限することを検討してください。ある程度拡大すると、ぼやけたポイントから住居レベルの場所を特定することができます。
- ぼやけたポイントのいずれかをクリックします。
ポップアップに、そのポイントの属性が表示されます。 ヒート マップ シンボルを使用しても、マップが対話型の場合には患者のデータは保護されません。 各ポイントとその属性も表示されたままです。
- [シンボル] ウィンドウで、[半径] ボックスに「50」と入力します。
ヒート マップ シンボルが変化し、大きい半径値を使用して密度が再計算されます。
この新しい表示では、高血中鉛濃度の事例の密度が地区レベルの縮尺で表示されています。
これは、データを地理的に正確に描写する必要性と対象のプライバシーを保護する必要性のバランスを取りながら、データのクラスタリングの程度とスケールを表すために、各種ヒート マップ シンボル パラメーターを試すときに役立ちます。 病気の発生など、健康に関連する多くの問題は、さまざまな地理的スケールで発生します。 病気の発生の原因となった地点がある場合と、地域レベルの伝染による場合があります。 適切なスケールでデータを理解して使用することが、保健医療 GIS 分析を成功させる上での鍵となります。
地域における子供の鉛中毒の広がりについて関係者や一般の人々に知らせるレポートに、都市レベルの静的マップ画像を追加することができます。 ヒート マップは、データの分布や特に集中しているエリアを示すのに役立ちます。 詳細については、ヘルプの「ヒート マップ シンボル」をご参照ください。
- [プロジェクトの保存] をクリックして、プロジェクトを保存します。
ポイント クラスター マップの作成
鉛中毒の事例が集中しているエリアとそうでないエリアをわかりやすく伝える静的プランニング マップを病院首脳部のために作成する必要があります。 もちろん、これは引き続き個人のプライバシーを保護する方法で行う必要があります。 この場合、首脳部は専門家を配置してケア プログラムのリソースを調整する必要があるため、病院がサービスを提供するエリアにおける実際の事例の数に関心があります。
このために、クラスター マップを作成します。 フィーチャ クラスタリングのテクニックでは、エリア内のポイントのクラスターをグループ化し、そのクラスターによって表されるグループ化されたポイントの数を示す等級シンボルを表示します。 この方法は、正確な数を大きさによって示す必要があるが、個々のポイントの位置は必要ないか共有したくない場合に推奨されます。
- [コンテンツ] ウィンドウで、[High_Blood_Level_Results] レイヤーをクリックします。
- リボンの [フィーチャ レイヤー] タブをクリックし、[描画] セクションで、[集約] をクリックしてから [クラスタリング] をクリックします。
- これによってシンボルが変わることを確認するメッセージに対して [はい] をクリックします。
レイヤーのシンボルが [クラスター] スタイルに変わります。 シンボルの色はランダムに割り当てられ、クラスターのサイズと数はお使いのディスプレイとマップ範囲によって異なります。
ポイントのクラスターはクラスター内のポイントの数に比例した大きさになり、ポイントの数もラベル表示されます。
- 市の北東部にあるクラスターにズーム インします。
ヒート マップ シンボルと同様に、マップのズーム レベルと範囲に合わせてクラスター シンボルが変わります。
大きく拡大すると、個々の患者の居住地が明らかになります。
ヒート マップ シンボルと同様に、範囲やズーム レベルによっては、患者の個人情報の保護にクラスター シンボルは適していません。 また、ヒート マップ シンボルと同様に、対話型バージョンのマップにある程度ズーム インした場合、個々のポイントをクリックしてその属性を取得することができます。 クラスター シンボルは対話型マップで患者の個人情報を保護するのに十分ではありません。
静的マップの場合、必要な縮尺と範囲でより適切に表示されるようにクラスタリングを調整できます。
- [コンテンツ] ウィンドウで、[High_Blood_Level_Results] の下にある [クラスター] を右クリックして、[シンボル] をクリックします。
- [シンボル] ウィンドウの [クラスター] タブで、[クラスター設定] をクリックします。
- [クラスタリング半径] スライダーをクリックし、スケールの端の [高] までドラッグします。
[クラスタリング半径] スライダーをスケールの端の [高] までドラッグすると、クラスターの数が減り、クラスターあたりのポイントの数が増えます。
これはヒート マップ半径と同じ仕組みです。 クラスタリング半径を変更することで、マップ範囲と縮尺に合わせてクラスタリングの度合いを調整できます。
- [コンテンツ] ウィンドウで、[フィーチャ] を右クリックして [レイヤーにズーム] をクリックします。
ヒート マップ シンボルと同様に、ある縮尺と範囲ではうまくいく半径が別の縮尺と範囲ではうまくいかないことがあります。
- [シンボル] ウィンドウで、[クラスタリング半径] スライダーをクリックし、スケールの端の [低] までドラッグします。
クラスター マップは、特定の事例の発生数 (この場合は症例報告数) を示し、データの密度で空間パターンを示すときに、静的マップと動的マップで使用します。 プライバシーの観点での利点として、クラスターは個人の特定に使用可能な郵便番号や郡などの行政区分には紐づけられていません。 個々の患者の居住地を明らかにすることなくパターンに関する有益な情報を伝えるため、特定の縮尺と範囲に合わせてクラスターの半径を調整する必要があります。
病院首脳部のための静的マップ画像を作成しているため、マップに適したクラスター半径を慎重に設定すれば、クラスター マップを使用することができます。
あなたが作成した静的クラスター マップによって、血中鉛濃度が高い地域の子供を治療するための協調的アプローチを計画する上で必要となる情報が病院首脳部に提供されます。
詳細については、ヘルプの「クラスターへのフィーチャの集約」をご参照ください。
- [プロジェクトの保存] をクリックして、プロジェクトを保存します。
ヒート マップとフィーチャ クラスタリングの 2 つのビジュアライゼーション テクニックを使用して、個人の正確な居住地を示すことなくポイント データを可視化しました。
少数セルの抑制
少数セルとは、集約データが含まれているポリゴンのうち、含まれているデータ ポイントの数が少ないことから個人の再特定化が可能であるポリゴンを指します。 このセクションでは、少数セルが存在する場合にデータの匿名化をサポートするホット スポット分析とテッセレーションの 2 つの方法を組み合わせて使用します。 ホット スポット分析は、統計的に有意な高値と低値の空間クラスター (ホット スポットとコールド スポット) を特定する数学演算に基づきます。 テッセレーションは、四角形、三角形、六角形などの同一の重なり合わない幾何学的形状によってサーフェスをタイルに分割する手法です。 これらのタイルを使用して、タイル内のデータ ポイントに関するサマリー情報を示すことができます。
統計的ホット スポットとコールド スポットの特定
次のタスクでは、動的 Web マップとしてオンラインで公開されるレポート用に、高血中鉛濃度の事例の統計的に有意なクラスターを示すマップを作成します。 [最適化ホット スポット分析] ツールを使用してマップを作成し、六角形のテッセレーションによって結果をシンボル表示します。
ArcGIS Pro では、[最適化ホット スポット分析] ツールを使用して、血中鉛濃度が高い地点を重み付きフィーチャに集約できます。 このツールは、重み付きフィーチャの分布を使用して、分析の適切なスケールを決定します。 これにより、六角形のサイズを事前に把握する必要がなくなります。 六角形 (hexbin とも呼ぶ) によるデータの集約またはビニングは、六角形が行政区分と直接合致しないため、患者のプライバシーを保護しながら健康情報を可視化するのに便利な手法です。 事例数ではなく分析出力 (統計的有意性) が提供されることから、さらなる匿名化が施されます。
Web マップには分析範囲における子供の鉛中毒の有無が一般化されたパターンで示され、多く集中している地域もわかります。
- リボンの [解析] タブをクリックして、[ツール] をクリックします。
[ジオプロセシング] ウィンドウが表示されます。 このウィンドウを使用して、[最適化ホット スポット分析] ツールを検索して実行します。
- 検索ボックスに「最適化ホット スポット」と入力し、結果リストで [最適化ホット スポット分析] ツールをクリックします。
このツールは、ホット スポット分析を実行する最適な距離を探すことから、[最適化ホット スポット分析] という名前が付いています。 これは、隣接する hexbin 内にクラスタリングするカウントの差が最も大きくなる距離になります。 明確な距離が得られなかった場合、この最適化ツールは、最近傍が一定の数になる平均距離を分析用に計算します。 最後に、このツールは分析範囲全体で hexbin の各隣接クラスターにおいて血中鉛濃度の高い患者の数を比較して Z スコアを計算します。Z スコアは p 値に直接関連付けられ、これに基づいて統計的有意性が判定されます。
- [入力フィーチャ] で、High_Blood_Level_Results を選択します。
- [出力フィーチャ] は、BloodLeadLevels.gdb ジオデータベース内のデフォルトの場所のままにし、フィーチャクラス名として「High_Blood_Lead_Hot_Spots」と入力します。
- [分析フィールド] は空白のままにします。
入力フィーチャに数値が関連付けられている場合、[分析フィールド] パラメーターを使用して、それらの値をホット スポット分析で考慮することができます。 この場合、[分析フィールド] の値は設定しません。 これにより、High_Blood_Level_Results のポイント分布におけるホット スポットとコールド スポットが評価されます。
- [インシデント データ集約方法] で、ドロップダウン リストをクリックして [六角形グリッド内のインシデント数] を選択します。
- [インシデント範囲境界ポリゴン] で、ドロップダウン リストをクリックして [Sacramento_ZIP_Codes] をクリックします。
このレイヤーには、サクラメントの郵便番号ポリゴンが含まれています。 これらのフィーチャを使用して、ポイントが発生しうる場所が特定されます。 実際のところはツールの分析範囲を指定しているため、サクラメントの分析範囲の外にあるが入力ポイントの最大境界四角形内にあるエリアはコールド スポットとして識別されません。
- [実行] をクリックします。
ツールが実行され、High_Blood_Lead_Hot_Spots レイヤーがマップに追加されます。
- [コンテンツ] ウィンドウで、High_Blood_Level_Results レイヤーのチェックボックスをオフにして、新しいレイヤーを調査できるようにします。
[コンテンツ] ウィンドウにレイヤーのシンボル クラスが表示されます。
統計的コールド スポットには青色、統計的ホット スポットには赤色、有意でないエリアには白色を使用してツールの結果がシンボル表示されます。 ドキュメントの「最適化ホット スポット分析」をご参照ください。
有意に高い事例数と有意に低い事例数の分布を示す手段としてこのレイヤーを共有することもできますが、 共有する前に、次のセクションで使用する [Counts] フィールドを削除する必要があります。 このフィールドには、各六角形内の事例数が示されています。 セルのサイズや症状が発生する頻度にもよりますが、事例がわずかしかないセルでは特に、具体的な数を示した場合、患者の個人情報が十分に保護されない可能性があります。
次に、各ビン内の総数別にホット スポット分析レイヤーをシンボル表示します。 この方法では、集中しているエリアがわかるだけでなく、事例数の範囲もわかりやすく示されます。
- [プロジェクトの保存] をクリックして、プロジェクトを保存します。
数による hexbin のシンボル表示
組織内のアナリストと共有するレポートを作成します。このアナリストは鉛軽減プロジェクトに従事しており、あるエリア内の事例数を知る必要がありますが、具体的な地点を知る必要はありません。 ホット スポット シンボルを、各ポリゴン内のフィーチャの総数を示すシンボルに変更します。
最初に、別のバージョンとしてシンボル表示を変えるため、レイヤーのコピーを作成します。
- [コンテンツ] ウィンドウで、High_Blood_Lead_Hot_Spots レイヤーを右クリックし、[コピー] をクリックします。
- [コンテンツ] ウィンドウで、[Map] を右クリックして [貼り付け] をクリックします。
- [コンテンツ] ウィンドウで、貼り付けたレイヤーの名前をクリックして編集可能にします。
- レイヤー名として「High_Blood_Lead_Hexbin_Counts」と入力します。
- [コンテンツ] ウィンドウで、High_Blood_Lead_Hot_Spots レイヤーのチェックボックスをオフにして無効にします。
- High_Blood_Lead_Hexbin_Counts レイヤーを右クリックして [シンボル] をクリックします。
- [シンボル] ウィンドウで、[フィールド] をクリックし、[Counts] をクリックします。
- [配色] ドロップダウン リストをクリックし、下にスクロールして [赤 (7 クラス)] カラー ランプをクリックします。
- [クラス] ドロップダウン リストをクリックし、[5] をクリックします。
- 最も低いクラス (数が 0 以下) のカラー パッチを右クリックし、[色なし] をクリックします。
数がゼロの hexbin を色なしに設定することで、マップを読む人が状況を理解しやすくなり、血中鉛濃度が高い患者がいるセルに注目することができます。
1 ポイントだけが分類された hexbin があることに注意してください。 ほとんどの場合、1 つの hexbin 内に事例が 1 つしかないことを表示したくはありません。 これが少数セルであることは明らかです。 等級シンボルのヒストグラムを調整してマップ シンボルのクラスを変更できます。
- [シンボル] ウィンドウで、[ヒストグラム] タブをクリックします。
- クラス閾値マーカーをクリックして 1 から 2 にドラッグします。
- クラス閾値マーカーをクリックして 3 から 4 にドラッグします。
新しいクラス閾値が設定されました。
シンボルが更新され、事例数が 1 の hexbin と事例数が 2 の hexbin が同じグループになりました。
hexbin 内の最小事例数として選択する適切な数は、シナリオおよび組織のルールによって異なります。 よくある事例の場合は小さい数を使用し、まれな事例には大きい数を使用するのがよいでしょう。 それぞれのエリアと、各エリア内の人口 (潜在的事例数) も考慮することが重要です。 ビンが大きく人口が増えるにしたがい、個人が再特定化されるリスクを冒すことなく設定可能な最小事例数は小さくなります。
以上で、分析担当者とこの情報を共有する準備が整いました。 分析担当者は組織内の人間であり、生データを利用するために必要なすべての権限を持っているかもしれませんが、実際にはその作業でポイント レベルのデータを必要としていません。 作業のニーズに基づいて最小限のデータセットを提供するようにしてください。 これは、PHI を含むポイント データが必要な場所以外で共有される可能性を取り除きながら、地域の懸念事項に注目するのに十分正確なデータを提供する、バランスのとれたアプローチです。
- [プロジェクトの保存] をクリックして、プロジェクトを保存します。
[最適化ホット スポット分析] ツールを使用して、入力ポイント フィーチャを表すのに適切な hexbin のサイズを (プライバシーのニーズではなく分析の最適なスケールに基づいて) 設定し、統計的有意性を示すように hexbin をシンボル表示しました。 個人の特定は不可能にしながら、相対的に懸念すべきエリアをハイライト表示したホット スポット マップを使用して問題を明らかにしました。 別の分析プロセス用に実際の事例数を示すように hexbin データのシンボルを変更しました。 個々のポイントを表示する権限がないか作業で実際に必要としない関係者と個々のポイントを共有する必要がない方法を使用しました。 この結果、分析範囲で高血中鉛濃度の事例が多いエリアがわかりやすく表示されました。
データの一般化と集約
このセクションでは、年別データを使用して、個人情報を保護し、一般公開されるマッピング プロダクトで少数データ クラスターを特定できないようにする方法について学びます。 慎重な扱いを要する情報を保護するため、データの関連パターンのみを明らかにする手法を用いてデータを一般化および集約する方法について学びます。 健康データでは、パターンから最も多くの情報が得られることがよくあります。個々の事例が発生している地点は、業務の多くの側面に必ずしも必要なものではありません。 たとえば、症例管理や調査では個別の地点が用いられるのに対し、アナリストが子供の鉛中毒と調査の年間報告書で使用するのは一般化または集約されたデータです。
データの一般化では、データの複雑度や詳細を低減することによってデータが簡略化されます。 たとえば、誕生日のデータを誕生年のデータに一般化することができます。 年齢を 10 歳ごとの年齢コホートに一般化することができます。 さらに、チェロキー、ナヴァホ、チョクトーなどのさまざまな部族をアメリカ先住民という 1 つのカテゴリにまとめることができます。 これに対し、集約では、複数のデータ ポイントが 1 つの統計サマリー (年間出生数など) にまとめられます。 以降の各ステップでは、集約の手法について見ていきますが、通常は、基礎となるデータに一般化の手法を適用することで個人情報をさらに難読化することが可能です。
郵便番号と年によるデータの集計
最初に、分析範囲の郵便番号レイヤーを使用して、年別にデータを集計します。 保健統計のレポートには郵便番号区域がよく使用されます。 これには良い点と悪い点があります。 良い点として、郵便番号区域は郡よりも小さく、ほとんどの人が郵便番号を知っており、マップ上で地点を特定することができます。 悪い点として、郵便番号区域は郵便配達を効率的に行うために作られたものであり、いずれは変更される可能性があります。 あなたはアナリストとして、これらがニーズに適しており、組織のデータ リリース ルールに沿ったものであるか判断する必要があります。
- [ジオプロセシング] ウィンドウの戻るボタンをクリックします。
- 検索ボックスに「エリア内での集計」と入力し、結果リストで [エリア内での集計 (解析ツール)] ツールをクリックします。
[GeoAnalytics Desktop ツール] ツールセットに属する別の [エリア内での集計] ツールがありますが、このチュートリアルでは [解析ツール] ツールセットのツールを使用してください。
- [エリア内での集計] ツールのダイアログ ボックスで、[入力フィーチャ] として [Sacramento_Zip_Codes] レイヤーを選択します。
- [入力サマリー フィーチャ] で、[High_Blood_Level_Results] レイヤーを選択します。
- [出力フィーチャクラス] は、[BloodLeadLevels.gdb] ジオデータベース内のデフォルトの場所のままにし、フィーチャクラス名として「HBLL_by_zip_year」と入力します。
- [グループ フィールド] で、[Blood Level Test Year] オプションを選択します。
- [実行] をクリックします。
[HBLL_by_zip_year] レイヤーがマップに追加されます。 [スタンドアロン テーブル] セクションに、[testYear_Summary] テーブルも追加されます。 このテーブルには、郵便番号と年別にカウントされた集計データが含まれています。 [HBLL_by_zip_year] レイヤーに再びこれを結合して、年ごとの値を示すことができます。
次に、データを結合し、データ保護のための組織の最小閾値を満たすために、複数年データを一般化する方法と、隣接する郵便番号区域のデータを集約する方法について学びます。
結果フィーチャクラスへの集計テーブルの結合
次に、結果フィーチャクラスに集計テーブルを結合して、単一のフィーチャクラスに郵便番号別と年別に集計されたデータが含まれるようにします。 これにより、年ごとのデータを示すレイヤーを作成できます。
- [コンテンツ] ウィンドウで、[HBLL_by_zip_year] レイヤーを右クリックし、[属性テーブル] をクリックします。
このテーブルには、元の郵便番号ポリゴンからのデータと、[エリア内での集計] ツールによって追加されたデータが表示されます。 [Count of Points] フィールドには、各郵便番号ポリゴン内の事例の総数が表示されます。 [JOIN ID] フィールドの値を使用して、[testYear_Summary] テーブル内の属性をこのレイヤー上に結合することができます。 このフィーチャクラスには 17 個の郵便番号ポリゴンがあります。
- [コンテンツ] ウィンドウの [スタンドアロン テーブル] セクションで、[testYear_Summary] テーブルを右クリックして [開く] をクリックします。
[JOIN ID] フィールドの値を使用して、これらの属性を [HBLL_by_zip_year] レイヤーに結合することができます。 [testYear] フィールドには、血液検査が実施された年の値が格納されています。 [Count of Points] フィールドには、このテーブル内の合計 50 件のレコードについて、各年の各郵便番号ポリゴン内の事例の総数が表示されます。
- [コンテンツ] ウィンドウで、[HBLL_by_zip_year] を右クリックし、[テーブルの結合とリレート] をポイントして [テーブルの結合] をクリックします。
- [テーブルの結合] ツールのダイアログ ボックスで、[入力テーブル] パラメーターは右クリックした [HBLL_by_zip_year] レイヤーにデフォルトで設定されているはずです。
- [入力結合フィールド] で [JOIN ID] を選択します。
[入力結合フィールド] の横に、フィールドのインデックスが構築されていないことを示す警告アイコンが表示されています。 このような小さなテーブルの場合、問題はありません。
- [結合テーブル] で [testYear_Summary] を選択します。
- [結合テーブル フィールド] で [Join ID] を選択します。
- [結合の検証] をクリックします。
結合の検証のプロセスが実行されてメッセージが返されます。
2 つのフィールドのインデックスが構築されていないので、パフォーマンスを改善するためにこれらのフィールドにインデックスを作成するよう推奨するメッセージが表示されます 含まれているフィーチャの数を考えると、これは必要ありません。
さらに、これは 1 対多の結合であり、結合後のフィーチャクラスには 50 件 ([testYear_Summary] テーブル内の各レコードに 1 つずつ) のレコードが含まれることも報告されます。
- [閉じる] をクリックして [メッセージ] ウィンドウを閉じます。
- [テーブルの結合] ツールのダイアログ ボックスで、[OK] をクリックします。
[HBLL_by_zip_year] レイヤーの属性テーブルが更新され、[testYear_Summary] からの追加のフィールドと、郵便番号ポリゴンと検査年を組み合わせた追加のレコードが表示されます。
[テーブルの結合] ツールの結果は一時的です。 フィーチャを新しいフィーチャクラスにエクスポートすることによって、すべてのフィーチャが含まれているフィーチャクラスのコピーを作成します。
- [HBLL_by_zip_year] レイヤーを右クリックし、[データ] をポイントして、[フィーチャのエクスポート] をクリックします。
- [出力フィーチャクラス] の名前を [HBLL_by_zip_all_years] に設定します。
- [OK] をクリックします。
新しいフィーチャクラスがプロジェクト ジオデータベースに保存されます。
結合されたレイヤーのシンボル表示
次に、レイヤーをシンボル表示します。
- [コンテンツ] ウィンドウで、[HBLL_by_zip_all_years] 以外のすべてのレイヤーのチェックボックスをオフにします。
- [コンテンツ] ウィンドウで、[HBLL_by_zip_all_years] レイヤーを右クリックして [シンボル] をクリックします。
- [シンボル] ウィンドウの [プライマリ シンボル] ドロップダウン リストをクリックし、[等級色] をクリックします。
- [フィールド] ドロップダウン リストをクリックし、2 つある [Count of Points] フィールドのうち、[Join ID] の下にある 2 つ目の方をクリックします。
このフィールドには、ポリゴン内で特定の年に発生したポイントの総計が含まれています。 1 つ目のフィールドには 3 年間の総計が含まれています。
- [配色] で [紫 (5 クラス)] をクリックします。
レイヤーのシンボルが更新されます。 [コンテンツ] ウィンドウに表示されているレイヤーのシンボル クラスの一部がマップに表示されていないことにお気付きかもしれません。
この例では、最も高いクラスが表示されていません。 これは、[HBLL_by_zip_all_years] レイヤーには各郵便番号ポリゴンの複数のコピーが、その郵便番号区域で事例が発生した年ごとに 1 つずつ含まれていることが理由です。 レイヤーのシンボルでは属性テーブル内の値の範囲全体が考慮されますが、シンボルの色は一番上のポリゴンのみに基づいて表示されます。
- リボンの [マップ] タブの [ナビゲーション] セクションで、[マップ操作] ツールのドロップダウン リストをクリックして [表示レイヤー] をクリックします。
- 最北東にある郵便番号ポリゴンをクリックします。
[ポップアップ] ウィンドウに、クリックした位置には [HBLL_by_zip_all_years] レイヤーの 3 つのフィーチャがあったことが表示されます。 一番上のフィーチャの属性がポップアップの下側セクションに表示されています。 この例の 1 つ目は 2018 年のものであり、その年の郵便番号 95821 の区域では 24 件の事例がありました。
[ポップアップ] ウィンドウの上部で (この場合、Sacramento という名前でリストされている) 各フィーチャをクリックして、他の 2 つのフィーチャの属性を確認できます。
2 つ目のフィーチャは 2019 年のものであり、郵便番号 95821 の区域では 48 件の事例がありました。
別個のレイヤーに年別にデータを表示
年別の郵便番号区域ごとの数が含まれている [HBLL_by_zip_all_years] レイヤーを作成した後は、このレイヤーのコピーを作成して、高血中鉛濃度の事例の年ごとの分布を表示することができます。
- [コンテンツ] ウィンドウで、[HBLL_by_zip_all_years] レイヤーを右クリックして [コピー] をクリックします。
- [コンテンツ] ウィンドウで、[Map] を右クリックして [貼り付け] をクリックします。
- [HBLL_by_zip_all_years] レイヤーのコピーの名前をクリックし、「HBLL_by_zip_2018」と入力して名前を変更します。
- [HBLL_by_zip_2018] レイヤーをダブルクリックし、[レイヤー プロパティ] ウィンドウで、[定義クエリ] をクリックします。
- [新しい定義クエリ] をクリックします。
- [定義クエリ] セクションの [Where 句] 行で、ドロップダウン リストをクリックして [testYear] フィールドをクリックします。 デフォルトの演算子 [と等しい] をそのまま使用し、3 つ目のドロップダウン リストをクリックして [2018] を選択します。
これにより、2018 年のポリゴンのみがマップに表示されるようにレイヤーをフィルターする定義クエリの Where 句が構築されます。
- [OK] をクリックします。
- [コンテンツ] ウィンドウで、[HBLL_by_zip_2018] レイヤーを右クリックし、[コピー] をクリックします。
- [コンテンツ] ウィンドウで、[Map] を右クリックして [貼り付け] をクリックします。
- レイヤーの新しいコピーの名前を「HBLL_by_zip_2019」に変更します。
- [HBLL_by_zip_2019] レイヤーの [定義クエリ] タブを開きます。
- [編集] をクリックします。
2019 年のデータを表示するため、2019 レイヤーの定義クエリを変更します。
- 年の値を [2019] に変更し、[適用] をクリックします。
- [OK] をクリックします。
- [HBLL_by_zip_2019] レイヤーのコピーを作成して名前を「HBLL_by_zip_2020」に変更し、先ほど学んだプロセスに従って、そのレイヤーの定義クエリを更新して 2020 年のデータが表示されるようにします。
次に、組織の最小閾値を満たすために 2 つの集約方法を試します。 1 つのエリア (郵便番号区域など) で 5 件以上の事例が発生した場合、一般公開されるプロダクトにその郵便番号区域のデータを表示してよいことが首脳部によって決定されました。
- [マップ操作] ツールをクリックし、事例数が少ない中央の郵便番号ポリゴンをクリックします。
[コンテンツ] ウィンドウの一番上にあるレイヤー [HBLL_by_zip_2020] が最初に表示されます。
2020 年には、この郵便番号ポリゴンでは 2 件の事例しか発生しませんでした。 これは、あなたの組織が郵便番号別にデータをリリースする際に指定した最小値である 5 件を下回っています。
- [ポップアップ] ウィンドウで、[HBLL_by_zip_2019] レイヤーのサクメラントのエントリをクリックします。
2019 年には、この郵便番号ポリゴンでは 3 件の事例が発生しました。 2019 年と 2020 年におけるこの郵便番号区域のデータを組み合わせたものは、この 2 年の値の合計が 5 になるため、リリースすることが可能です。
複数年のデータの結合
組織の最小閾値を満たす方法の 1 つとして、各郵便番号区域での事例が最小数の 5 になるまで、複数年のデータを集約します。 このアプローチでは、空間解像度を維持するために時間解像度が低くなります。
- リボン上の [マップ] タブの [選択] グループで、[属性条件で選択] をクリックします。
- [属性条件で選択] ウィンドウの [入力行] で、ドロップダウン リストをクリックし、[High_Blood_Level_Results] をクリックします。
- [項目の追加] をクリックします。
- [Where 句] セクションで、[フィールドの選択] ドロップダウン リストをクリックし、[Blood Level Test Year] をクリックします。
- デフォルトの演算子 [と等しい] をそのまま使用します。
- 比較値のドロップダウン リストをクリックし、[2020] をクリックします。
- [項目の追加] をクリックします。
- これらの項目を結合するため、[Or] 論理演算子を選択します。
- [And] 論理演算子をクリックし、ドロップダウン リストで [Or] をクリックします。
- フィールドを [Blood Level Test Year] に設定し、デフォルトの [と等しい] 演算子をそのまま使用します。
- 値ドロップダウン リストをクリックし、[2019] をクリックします。
[属性条件で選択] ツールで [Blood Level Test Year] フィールドの値が 2020 または 2019 のフィーチャを選択する準備が整いました。
- [OK] をクリックします。
2020 年と 2019 年に記録された [High_Blood_Level_Results] フィーチャが選択されます。 次に、これらのフィーチャに対して [エリア内での集計] ツールを実行して、選択されているフィーチャの郵便番号別の数を取得します。
- リボンの [解析] タブの [ジオプロセシング] セクションで、[ツール] をクリックします。
- [エリア内での集計] ツールを検索して開きます。
このツールは [ジオプロセシング] ウィンドウの [最近] リストにあるはずです。
- [入力ポリゴン] で、[Sacramento_Zip_Codes] を選択します。
- [入力サマリー フィーチャ] で、[High_Blood_Level_Results] を選択します。
- [出力フィーチャクラス] パラメーターで名前を [HBLL_by_zip_2019_2020] にします。
[エリア内での集計] ツールで、選択したフィーチャが入力として設定され、そのサブセットのレコードのみが処理されることが警告されます。 これで問題ありません。
- [サマリー フィールド] と [グループ フィールド] は空白のままにします。
- [実行] をクリックします。
新しいレイヤー [HBLL_by_zip_2019_2020] が [コンテンツ] ウィンドウに追加されます。
- [コンテンツ] ウィンドウで、[HBLL_by_zip_2019_2020] レイヤーを右クリックし、[属性テーブル] をクリックします。
- [Count of Points] の列ヘッダーを右クリックし、[昇順で並べ替え] をクリックします。
並べ替えた列から、このレイヤーには事例が 5 件未満である郵便番号ポリゴンはないことがわかります。
組織の最小閾値に従って、2019 年と 2020 年をまとめた数は郵便番号レベルでリリースすることができます。
郵便番号ジオメトリのマージ
2020 年のデータを報告する必要があり、2019 年のデータは含める必要がないとします。 組織の最小閾値を満たす 2 つ目の方法として、各集約エリアでの事例が 5 件以上になるまで単年の郵便番号区域を集約します。 このアプローチでは、時間解像度を維持するために空間解像度が低くなります。
- [ジオプロセシング] ウィンドウを開きます。
- [検索]ボックスに「バランス調整されたゾーンの構築」と入力し、結果で [バランス調整されたゾーンの構築] をクリックします。
- [入力フィーチャ] で、[HBLL_by_zip_2020] レイヤーを選択します。
入力にフィルターが存在するという注意がツールに表示されます。 これは、2020 年のデータのみを表示するようにフィルターする定義クエリがレイヤーに存在することが理由です。
- [出力フィーチャ] に、「HBLL_2020_Zones」と入力します。
- [ゾーンの作成手法] では、デフォルト値の [属性ターゲット] をそのまま使用します。
- [ゾーンの構築条件とターゲット] セクションで、[変数] をクリックし、[Count of Points [Point_Count_1]] をクリックします。
- [合計] ボックスに、「12」と入力します。
この値は組織の最小値である 5 を上回っています。 [バランス調整されたゾーンの構築] ツールは、[ターゲット] 変数を乱数シード遺伝的アルゴリズムのターゲットとして使用しますが、結果ではターゲット値の近似のみが行われるため、これより小さい値を設定した場合、一部のゾーンでは事例が 5 件未満になる可能性があります。 ドキュメントの「バランス調整されたゾーンの構築の詳細」をご参照ください。
- [空間的制限] で、[隣接エッジのみ] を選択します。
[バランス調整されたゾーンの構築] ツールを実行する準備が整いました。
注意:
ゾーンに最小人口などの別の条件がある場合、別の変数と値を追加することもできますが、このタスクでは、少なくとも 12 の事例がある 1 つのターゲットでゾーンを作成すれば十分です。 このツールの詳細については、このドキュメントをご参照ください。 - [実行] をクリックします。
結果がマップに追加されます。 元の郵便番号ポリゴンは維持されますが、これらのポリゴンを別のゾーンに割り当てる新しい属性が付与されます。 これらのゾーン属性でポリゴンをディゾルブします。
- 戻るボタンをクリックして [ジオプロセシング] ウィンドウに戻り、[ペアワイズ ディゾルブ] ツールを検索して開きます。
- [ペアワイズ ディゾルブ] ツールのダイアログ ボックスで、[入力フィーチャ] として [HBLL_2020_Zones] を選択します。
- [出力フィーチャクラス] に、「HBLL_2020_Zip_Dissolve」と入力します。
- [ディゾルブ フィールド] で、[Zone ID] を選択します。
- [統計フィールド] で、[Count of Points] を選択し、[統計タイプ] でデフォルトの [合計] をそのまま使用します。
- [マルチパート フィーチャの作成] チェックボックスをオフにします。
- ツールを実行します。
ディゾルブされたゾーンのレイヤーがマップに追加されます。
- [コンテンツ] ウィンドウで、[HBLL_2020_Zip_Dissolve] を右クリックして [属性テーブル] をクリックします。
各ゾーンのポイント数は 5 を上回っており、ほとんどは 12 ポイント以上あります。 これは組織の指針と一致しています。
あなたは子供の鉛中毒を防止するプログラムのアナリストとして、意味のある、次に取るべきアクションの決定に役立つ管轄内のデータを、通常は抑制された状態で提供するために最も適切な手法を検討する必要があります。 複数年を集約した場合、エンド ユーザーは集約された年における時系列変化を見分けることはできませんが、別の方法では抑制される小さな地理的エリアにおける数を把握することができます。 複数の郵便番号区域を集約した場合、年ごとにマッピングされるため、強い時系列トレンドを特定できますが、地理的な特異性は減少します。 どちらの方法でも、対象ユーザーやレポートとデータ共有の目的に応じて重み付けを行う必要があります。
ポイントへの座標値の追加
これまでに、サクラメント郡における高血中鉛濃度の範囲、事例の総数、データの空間パターンと時間パターンを調べるときのさまざまな方法に関連する問題に注目する関係者のためにマップを作成してきました。
今度は、健康公平化チームと作業をします。 このチームは、子供の高血中鉛濃度に性別、人種/民族、年齢などのその他の要因が関連しているかどうかを調べるリサーチを行います。 あなたは、このチームの活動を支援するため、各子供の調査対象となるすべての変数とその概略位置を含む、匿名化されたポイント レベルのデータセットをチームに提供する必要があります。 座標の丸めを使用してこのタスクを完了し、いくつかの統計を使用して丸めレベルの妥当性を示します。
最初に、緯度と経度の値が度 (10 進) で格納される属性をポイント フィーチャに追加します。
- [ジオプロセシング] ウィンドウで、[ジオメトリ属性の計算] ツールを検索して開きます。
- [入力フィーチャ] で、[High_Blood_Level_Results] を選択します。
- [ジオメトリ属性] の 1 行目にある [フィールド (既存または新規)] ボックスに、「Latitude」と入力します。
これにより、新しいフィールドが属性テーブルに追加され、ツールが実行されると、各ポイントの緯度の値が格納されます。
- [Latitude] フィールドの [プロパティ] ボックスで、ドロップダウン リストをクリックして [Point y-coordinate] をクリックします。
各ポイントの Y 座標値が Latitude フィールドに追加されます。
- [ジオメトリ属性] の 2 行目にある [フィールド (既存または新規)] ボックスに、「Longitude」と入力します。
- [Latitude] フィールドの [プロパティ] ボックスで、ドロップダウン リストをクリックして [Point x-coordinate] をクリックします。
- [座標形式] ボックスで、ドロップダウン リストをクリックして [度 (10 進)] をクリックします。
- [座標系の選択] をクリックします。
- [座標系] ウィンドウの検索ボックスに、「WGS 1984」と入力します。
- [地理座標系] を展開してから、[世界] を展開します。
- [WGS 1984] をクリックし、[OK] をクリックします。
- [ジオメトリ属性の計算] ツールで、[実行] をクリックします。
- [コンテンツ] ウィンドウで、[High_Blood_Level_Results] レイヤーを右クリックし、[属性テーブル] をクリックします。テーブルを右にスクロールすると、新しい [Latitude] フィールドと [Longitude] フィールドを確認できます。
ポイントの緯度と経度の値が属性に格納されたので、丸め値が格納される新しいフィールドを作成し、新しい丸め値を計算できます。
注意:
高血中鉛濃度の事例が発生したポイントの位置を表す緯度と経度の座標を操作するにはいくつかの方法があります。 分析範囲内の各ポイントの位置を低解像度のグリッドにスナップさせることで、座標を切り捨てたり丸めたりすることができます。 各座標の最後の 1 桁または 2 桁を乱数に置き換えることによって位置を摂動させることもできます。 これにより、各ポイントがランダムな距離と方向に移動します。
丸め座標値を格納するフィールドの追加
丸め座標値を格納するフィールドを 2 つ追加します。
- [High_Blood_Level_Results] を右クリックし、[データ設計] をポイントして [フィールド] をクリックします。
- フィールド リストの下部へスクロールします。
- [Latitude] の行ヘッダーをクリックし、Ctrl キーを押しながら、[Longitude] の行ヘッダーをクリックします。
- [Latitude] の行ヘッダーを右クリックして [コピー] をクリックします。
- [Latitude] の行ヘッダーを右クリックして [貼り付け] をクリックします。
- [Latitude1] フィールドの [フィールド名] 列をクリックし、「LatitudeRound」と入力します。
- [Longitude] フィールドの [フィールド名] 列をクリックし、「LongitudeRound」と入力します。
- [LatitudeRound] フィールドの [エイリアス] 列をクリックし、「Latitude Rounded」と入力します。
- [LongitudeRound] フィールドの [エイリアス] 列をクリックし、「Longitude Rounded」と入力します。
コピーしたフィールドの名前とフィールド エイリアスが設定されました。
- リボンの [フィールド] タブの [変更] セクションで [保存] をクリックします。
[High_Blood_Level_Results] フィーチャクラス用のテーブル スキーマに 2 つの新しいフィールドが追加されました。
- [フィールド] ビューを閉じます。
座標値の四捨五入
次に、四捨五入された座標値を計算して新しいフィールドに格納します。
- [High_Blood_Level_Results] レイヤーの属性テーブルで、[Latitude Rounded] を右クリックして [フィールド演算] をクリックします。
- [フィールド演算] ツールのダイアログ ボックスで、[式の種類] ドロップダウン リストをクリックし、[Arcade] をクリックします。
Arcade は、ArcGIS 用に記述される軽量の式言語です。
- 式ボックスに、次の Arcade 式を入力します。
Round($feature.Latitude,2)
このコードは、Arcade の [Round] 関数を使用して、[Latitude] フィールドの値を小数点以下 2 桁に四捨五入した値を [Latitude Rounded] フィールドに設定しています。 これにより、ポイントの位置情報が最も近い小数第 2 位で四捨五入されます。
- [確認] ボタンをクリックします。
- [適用] をクリックします。
四捨五入された値が計算され、属性テーブルの [Latitude Rounded] フィールドに追加されます。
- 同じ方法を使用して、[Longitude Rounded] フィールドの値を計算します。
ヒント:
[フィールド演算] ツールで、[名前フィールド] を [Longitude Rounded] に設定し、次の Arcade 式を使用します。Round($feature.Longitude,2)
[Latitude Rounded] フィールドと [Longitude Rounded] フィールドが小数点以下 2 桁で四捨五入されます。
注意:
California State Plane や UTM などの平面空間参照による座標の場合、座標値は度 (10 進) ではなく距離単位になります。 その場合、四捨五入されたポイントの適切な間隔を計算し、その間隔まで四捨五入する必要があります。 たとえば、必要な単位と移動量に応じて、1,000 フィート (または 100 メートル) 単位で値を四捨五入することができます。
四捨五入した座標への新しいポイントの作成
2 つのフィールドの値を四捨五入したので、これらの位置に新しいポイントを作成することができます。
- [ジオプロセシング] ウィンドウで、[XY イベント レイヤーの作成] ツールを検索して開きます。
- [XY イベント レイヤーの作成] ツールのダイアログ ボックスの [XY テーブル] で、[High_Blood_Level_Results] を選択します。
- [X フィールド] で、[Longitude [LongitudeRound]] を選択します。
- [Y フィールド] で、[Latitude [LatitudeRound]] を選択します。
- [レイヤー名] に、「High_Blood_Level_Results_Rounded」と入力します。
計算して四捨五入した緯度値と経度値を使用して、新しいポイントのレイヤーが作成されます。
- [実行] をクリックします。
四捨五入した座標値から作成されたポイントは、小数点以下 2 桁の間隔のグリッド状に配置されます。
このアプローチでは、ポイントが元の位置から移動しますが、元の空間パターンはある程度維持されるため、分析に利用することができます。
元のポイントのヒート マップ
座標ポイントを四捨五入した後のヒート マップ
注意:
座標の四捨五入などの方法によってポイント レベルの位置がマスクされた後も、権限を持つ内部ユーザーにそのデータを公開する前に、名前、誕生日、住所フィールドなどの不要な識別 PHI や元の座標値を属性テーブルから削除する必要があります。 ポイントを四捨五入した座標値に移動しても、元の住所や座標を提供した場合、PHI は保護されません。
[フィーチャのエクスポート] ツールを使用してフィーチャクラスのコピーをエクスポートして、権限を持つ組織のメンバーと共有することができます。 このツールの [フィールド] セクションにあるフィールドのリストから、プロジェクトには必要ない PHI のフィールドを削除することができます。
次に、元のポイントと四捨五入したポイントを接続するラインを作成してその長さを計算します。
座標の四捨五入結果の文書化
専門家による決定のためには、匿名化した場合に、ポイントが移動した範囲を数値化して文書化することが可能でなければなりません。 このセクションでは、座標の四捨五入方法を使用したポイント移動に関連する統計情報を基に、各グリッド ポイントに移動したポイントの数を把握します。
- [XY 座標 → ライン] ツールを検索して開きます。
- [入力テーブル] で、[High_Blood_Level_Results_Rounded] を選択します。
- [出力フィーチャクラス] に、「HBLL_dist」と入力します。
このライン フィーチャクラスは、元の各ポイントの座標と、対応する四捨五入した座標の位置を結びます。 これらのライン フィーチャを使用して移動量を計算します。
- [始点 X フィールド] で、[Longitude] を選択します。
- [始点 Y フィールド] で、[Latitude] を選択します。
- [終点 X フィールド] で、[Longitude [LongitudeRound]] を選択します。
- [終点 Y フィールド] で、[Latitude [LatitudeRound]] を選択します。
- [ライン タイプ] で、[測地線] を選択します。
これがデフォルト値です。 これは地表上の 2 点間の最短距離を表します。
- [ID] フィールドは空のままにします。
- [空間参照] は、デフォルト値 [GCS_WGS_1984] のままにします。
- [実行] をクリックします。
[HBLL_dist] レイヤーがマップに追加されます。 ズーム レベルとマップの範囲によっては、わかりにくい場合があります。 高密度のいずれかのエリアにズーム インすると、元の各ポイントを、それぞれに対応する四捨五入した座標ポイントの位置と結ぶラインが複数存在することがわかります。
- [コンテンツ] ウィンドウで、[HBLL_dist] レイヤーを右クリックして [属性テーブル] をクリックします。
[Shape_length] フィールド内の値は度単位で表示された微小な小数値です。 長さを平面単位に変換します。
距離フィールドの追加とその値の計算
HBLL_dist レイヤーの属性テーブルに新しいフィールドを追加し、その値を計算して、ポイントが移動した距離を求めます。
- [HBLL_dist] レイヤーの属性テーブル タブで、[追加] をクリックします。
距離単位で距離を格納する新しいフィールドを追加します。
- 新しいフィールドの [フィールド名] 列に「Distance」と入力します。
- [Distance] フィールドの [データ タイプ] 列で、ドロップダウン リストをクリックし、[Double] をクリックします。
- リボンの [フィールド] タブの [変更] セクションで [保存] をクリックします。
- [フィールド: HBLL_dist] ウィンドウを閉じます。
- [HBLL_dist] 属性テーブルで、[Distance] フィールドの列ヘッダーを右クリックして [ジオメトリ演算] クリックします。
- [ジオメトリ演算] ツールのダイアログ ボックスで、[Distance] フィールドに追加する値の [プロパティ] ドロップダウン リストで、[Length (geodesic)] をクリックします。
- [長さの単位] で、[メートル] を選択します。
- [OK] をクリックします。
[Distance] フィールドに、ラインの長さ (メートル単位) が属性として追加されました。
- [Distance] 列ヘッダーを右クリックして [統計の視覚化] をクリックします。
[Distance] フィールドの [統計情報] ウィンドウに、Distance フィールドの統計サマリーが表示されます。 ここからは、ポイントが四捨五入した座標位置に移動した平均距離は 376 メートルで、最小距離は 18 メートル、最大距離は 684 メートルであることがわかります。
[統計情報] ツールでは距離値のヒストグラムも作成され、これらの値に基づいて、座標の四捨五入を使用してこの匿名化されたプロダクトを作成するという自らの決定の妥当性を示すことができます。
- [チャート プロパティ] ウィンドウを閉じます。
- [Distance の分布] チャートを閉じます。
四捨五入した座標におけるポイント数のカウント
次に、座標の四捨五入を使用した後のスタック ポイントの数を計算します。 プライバシー保護と匿名化の分析では、この数はプール内の事例の数を表すものと見なすことができます。プールは単一事例の個人を表すこともあります。 各スタック内の事例は多い方が、プールが大きくなり、匿名化の目的にはよりかなっています。 ポイントは地理的に分析しますが、特定の属性の組み合わせによって個人を特定することも可能なので、共有するテーブルに残っているすべての属性の一意性についても調べる必要があります。 このため、関係者には最小限のデータセットを提供するようにしてください。
- [ジオプロセシング] ウィンドウで、[イベントの集計] ツールを検索して開きます。
- [入力インシデント フィーチャ] で、[High_Blood_Level_Results_Rounded] を選択します。
- [出力加重ポイント フィーチャクラス] に、「HBLL_rounded_counts」と入力します。
- [実行] をクリックします。
この場合、多くのクラスターにはポイントが 1 つか 2 つしかありませんが、一部のクラスターでは 15 個もポイントがスタックされています。 データセットが大きくなるにしたがい、より高い密度でポイントがスタックされる可能性があります。
座標の四捨五入を使用して、いくつかの追加属性をポイントに関連付けたまま、慎重な扱いを要するポイント データの位置をマスクしました。 健康公平性の調査員は、匿名化されたデータを用いて、サクラメントにおける子供の血中鉛汚染について、追加の分析を行い、さらに詳細なレポートを作成できるようになりました。 匿名化をどのようにして行ったかを文書に残すため、各ポイントのオフセット距離に関連する統計情報を計算し、各グリッド位置にスタックされたポイントの数を計算しました。 再特定化につながる可能性がある属性 (住所、元の位置座標など) を削除することも重要であり、提供するデータセット内の属性の数は最小限にしてください。
- [プロジェクトの保存] をクリックして、プロジェクトを保存します。
高度なアプローチの概要
さまざまな用途のためにデータを匿名化する際のいくつかのアプローチについて学習してきました。 状況によっては、さらに高度な手法を採り入れる必要があります。 このセクションでは、データ匿名化の高度な手法であるジオマスキングと差分プライバシーの 2 つについて学習します。
健康分野における GIS 作業の目的によっては、次の手法についてさらに深く掘り下げて調べることで、必要に応じてこれらの手法を適用することもできます。
ジオマスキングジオマスキングとは、個々のポイントの地理的位置を変更する手法群を指しますが、これは座標の四捨五入とは異なり、さらに強力な手法です。 ジオマスキングを活用するために必要な 2 つの重要な側面があります。 1 つ目として、ポイントの摂動は予測不可能でなければなりません。これによってデータの秘匿性が守られます。 2 つ目として、ポイントはデータセット内の空間リレーションシップが維持される方向に移動しなければなりません。 結局のところ、GIS 作業は、パターンを見つけることです。 以下では、ジオマスキングの一種であるドーナツ法について紹介します。 その後で、K-匿名性を用いてジオマスキングの結果を統計的に評価する方法について学びます。 最後に、プロセス全体を自動化するツールについて紹介します。
ドーナツ法によるジオマスキングドーナツ ジオマスキングの背景にある基本的な考え方として、この手法はランダムに移動したポイントの元の位置が決してわからないようにすることで秘匿性を高めます。 つまり、ポイントは元の位置から最小限の距離だけ移動する必要があると同時に、 空間パターンを維持するため、各ポイントの最大移動量も計算されます。 この 2 つの距離によってドーナツ形状の移動ゾーンが作成され、このゾーンの範囲内で元のポイントは移動することができます。 ドーナツ法の詳細については、こちらの記事をご参照ください。
「専門家による決定」匿名化手法では、プロセスを文書化して、そのプロセスにおいて個人再特定化のリスクを極小化する手法の妥当性を示す必要があります。 ジオマスキングの手法を使用した場合、K-匿名性統計情報はこうした妥当性を裏付ける評価的尺度となります。 K-匿名性の詳細については、「こちら」をご参照ください。 一般的な考え方として、K-匿名性は、データセット内の世帯のうち、匿名化された対象を識別できない世帯の数を表します。 たとえば、K の最小値を 5 とした場合 (KMin=5)、元のポイントを表す可能性がある世帯 (個人) が 5 つ以上存在することになります。
組織にとって、プライバシー保護のために許容される K の最小値を決定することが重要となります。 これに関する基準はありませんが、さまざまな州や政府機関の少数セルの数に関する方針に目を通しておくと役立ちます。 少数セルとは、同じフィーチャの組み合わせに対応する人の数として定義されています。 政府当局の方針に沿うことで、組織が独自の基準を確立する際の決定がスムーズになります。 また、K の 1 つの基準値であらゆる状況に対応できるとは限らないことにも注意する必要があります。
MapMasqジオマスキングやその他のデータ匿名化手法を正式に採用する必要がある場合は、MapMasq を使用することを検討してください。 これは Esri のパートナーである Axim Geospatial によって構築されました。 これは ArcGIS エクステンションと同様に動作し、ジオマスキングのプロセスや K-匿名性評価を自動化します。
差分プライバシー差分プライバシーは、個人のプライバシーを保護するのに優れた新しい手法であると考えられています。 これは比較的大きなデータセットで効果を発揮します。 実際に、米国国勢調査局は 2020 年の国勢調査でデータ報告にこの手法を用いました。 差分プライバシーでは、データセット内のすべてのデータが、データセットの有用性を維持しながらあらゆる個人の特定が不可能になるように数学的に改変されます。 パラメーター イプシロン (プライバシー損失予算と呼ぶ) に従ってデータセット内にノイズが注入されます。 イプシロンを使用することでデータの漏洩リスクを数値化できるため、組織の方針の遵守や専門家による決定に必要な文書化に役立ちます。
差分プライバシーの仕組みに関する 1 つの考え方として、モザイク画像を思い浮かべてみてください。モザイク画像では、数百枚の写真を組み合わせて 1 つの大きな画像が新しく作られています。 個々の写真レベルにズーム インすれば、一部の写真を置き換えたり別の場所に移動したりすることができますが、ズーム アウトすると、全体的な画像は基本的に同じに見えます。 大きな画像は写真ほど鮮明ではありませんが、写真を追加するにしたがい画質が向上します。
差分プライバシーおよび保健医療 GIS におけるその価値については学ぶべきことがたくさんあります。 あなたはこの手法を用いて共有されている国勢調査データをすでに利用しており、自身の地理空間業務でこの手法を実現するツールがあるため、これはまさに学ぶべき事柄です。
2020 年米国国勢調査に対する差分プライバシーの影響については、2022 年 6 月の Esri 手法レポート、および米国国勢調査局から発行されている情報漏洩防止に関するハンドブックをご参照ください。
このセクションでは、HIPAA をはじめとするプライバシー ルールを遵守するためにツールキットに追加可能な、データ匿名化の 2 つの高度な手法について学習しました。 ジオマスキングでは、元のポイントを表す可能性がある個人の数を表す KMin を満たすように位置データを加工します。 差分プライバシーでは、個人を適切に匿名化するため、プライバシー損失予算イプシロンを使用してあらゆるものを調整します。 自分のデータと組織がプライバシーを侵害することがないようにするための準備が整いつつあります。
可視化と共有のためのデータ匿名化に関するこのチュートリアルでは、個人医療情報のプライバシーを保護することを目的とした米国の法律 HIPAA について確認しました。 情報を安全にマッピングして可視化することを可能にするいくつかの方法について学びました。 さらに、調査やその他の目的にデータを利用する必要がある他のユーザーと、動的 Web マップまたはデータセットとしてデータを共有する方法についても学びました。 ポイントレベルのデータを残すためにさらに強力なオプションを必要とする場合に使用可能ないくつかの高度な手法についても学びました。
1 つのチュートリアルであらゆる状況に対応することはできません。 このチュートリアルでは、問題について空間的に思考する方法について学び、各種手法の良い点と悪い点について確認しました。 保護対象医療情報を扱う際に用いる手法に関係なく、注意深く考え、組織内部のガイドラインに沿って、安全を保ちます。
他のチュートリアルについては、チュートリアル ギャラリーをご覧ください。