Die Daten erkunden
In diesem Lernprogramm schlüpfen Sie in die Rolle eines Datenanalysten und arbeiten mit Testergebnissen für Blutbleiwerte. Sie müssen Daten für die Analyse, Visualisierung und Freigabe vorbereiten. Die Daten werden von verschiedenen Gruppen zu unterschiedlichen Zwecken verwendet. Einige Mitarbeiter benötigen Zugriff auf Daten auf Punktebene für Vorgänge wie Fallmanagement und Standortbewertungen. Andere benötigen aggregierte Daten als Informationsgrundlage für die Kommunikation mit der Leitung, wobei ein Teil der Kommunikation für die Öffentlichkeit freigegeben wird. Wieder andere müssen Veränderungen im Zeitverlauf analysieren und die Ergebnisse von Interventionen und Eindämmungsmaßnahmen nachverfolgen. Aufgrund der für Patientendaten geltenden Datenschutzgesetze müssen Sie mit unterschiedlichen Anonymisierungsstrategien verschiedene abgeleitete Datenprodukte erstellen.
Die Daten des Lernprogramms sind fiktiv. Sie wurden erstellt, um den Workflow in diesem Lernprogramm zu zeigen. Sie wurden so gestaltet, dass sie für den Workflow plausibel aussehen, und sie sind ähnlich strukturiert wie Daten, die Sie möglicherweise in dieser Situation verwenden würden. Aufgrund der gesetzlichen Beschränkungen für die Freigabe echter derartiger Daten sind die Daten jedoch frei erfunden. Verlassen Sie sich nicht auf diese Daten. Versuchen Sie nicht, Schlüsse aus den Daten zu ziehen oder reale Entscheidungen auf der Grundlage dieser Daten zu treffen. Verwenden Sie die Daten nicht zum Trainieren von AI- oder ML-Modellen. Die Adressen in diesem Dataset sind echt, um das Vorführen von Geokodierung zu ermöglichen und plausible Daten zum Anonymisieren bereitzustellen; die Daten haben jedoch keinen realen Bezug zu diesen Adressen. Mit diesen Adressen in den Datasets verknüpfte Namen oder Attributwerte sind erfunden und haben nichts mit echten Personen oder Gegebenheiten an diesen Positionen zu tun.
Die Daten herunterladen und untersuchen
Zunächst laden Sie die Daten herunter und untersuchen sie.
- Laden Sie die in Blood_Lead_Levels_Zipped_Folder.zip gezippten Projektdaten herunter.
Eine Datei mit dem Namen Blood_Lead_Levels_Zipped_Folder.zip wird auf Ihren Computer heruntergeladen.
Abhängig vom Browser und den Einstellungen wird die Datei möglicherweise im Ordner Downloads oder auf dem Desktop gespeichert.
- Suchen Sie die heruntergeladene Datei auf dem Computer, und extrahieren Sie die ZIP-Datei mit einem ZIP-Dienstprogramm in einen Ordner. Geben Sie den Speicherort für den Ausgabeordner an, und klicken Sie auf Weiter.
Das ZIP-Archiv ist mit einem Kennwort geschützt. Ein Fenster für das Kennwort wird angezeigt.
- Geben Sie in Kennwort das Kennwort I_Understand_This_Is_Fictitious_Data ein, und klicken Sie auf OK.
Mit der Verwendung dieses Kennworts erklären Sie, dass Sie verstehen, dass die Daten fiktiv sind.
Die ZIP-Datei wird als Ordner auf dem Computer extrahiert.
- Öffnen Sie den Ordner, in den Sie die ZIP-Datei extrahiert haben.
Er enthält eine Datei mit dem Namen BloodLeadLevels.ppkx. Eine .ppkx-Datei ist ein ArcGIS Pro-Projektpaket, das heißt eine komprimierte Datei zum Freigeben von Projekten. Sie kann Karten, Daten und weitere Dateien enthalten, die Sie in ArcGIS Pro öffnen können.
- Doppelklicken Sie auf BloodLeadLevels.ppkx, um die Datei in ArcGIS Pro zu öffnen. Wenn Sie dazu aufgefordert werden, melden Sie sich mit Ihrem ArcGIS-Konto an.
Eine Karte von Sacramento, Kalifornien, wird angezeigt. Der fiktive Punkt-Layer High_Blood_Level_Results zeigt die Positionen der Adressen von Kindern an, deren Blut hohe Bleiwerte aufwies.
Ihr Programm zur Überwachung und Minderung der Bleibelastung nutzt die Bluttestergebnisse und die Positionen der einzelnen Patienten, um die Quellen der Bleiexposition in den Wohnungen dieser Kinder zu untersuchen. Die Daten werden außerdem verwendet, um die potenzielle Exposition von Familienmitgliedern zu untersuchen und Quellen für Blei an Arbeitsplätzen, in Schulen und in der Gemeinde zu verfolgen.
- Wenn die Attributtabelle High_Blood_Level_Results nicht bereits geöffnet ist, klicken Sie im Bereich Inhalt mit der rechten Maustaste auf High_Blood_Level_Results, und klicken Sie auf Attributtabelle.
Viele Länder haben Richtlinien für den individuellen Datenschutz bei sensiblen Informationen wie Finanz- und Gesundheitsdaten erlassen. In den Vereinigten Staaten wurde der Health Insurance Portability and Accountability Act (HIPAA) im Jahr 1996 als Gesetz umgesetzt. Er dient als primärer Leitfaden für sichere Praktiken im Umgang mit Gesundheitsdaten.
Das US-Gesundheitsministerium (Department of Health and Human Services) definiert geschützte Gesundheitsinformationen (Protected Health Information, PHI) als "personenbezogene Gesundheitsinformationen, die sich im Besitz einer betroffenen Einrichtung oder ihres Geschäftspartners befinden oder von dieser übermittelt werden, unabhängig davon, in welcher Form oder über welches Medium, sei es elektronisch, auf Papier oder mündlich, dies geschieht. Zu den personenbezogenen Gesundheitsinformationen gehören demografische Daten, die sich auf Folgendes beziehen:
- die vergangene, gegenwärtige oder zukünftige physische oder mentale Gesundheit oder Verfassung der Person,
- die Bereitstellung von Gesundheitsleistungen für eine Person oder
- die vergangene, gegenwärtige oder zukünftige Bezahlung der Bereitstellung von Gesundheitsleistungen für die Person
und die Person identifizieren oder bei denen Grund zu der Annahme besteht, dass die Person mithilfe dieser Daten identifiziert werden kann. Personenbezogene Gesundheitsinformationen umfassen zahlreiche allgemeine Identifikatoren (z. B. Name, Adresse, Geburtsdatum, Sozialversicherungsnummer)."
- Untersuchen Sie die Attribute in der Tabelle.
Der Layer enthält fiktive Daten für Wohnadressen, Vor- und Nachnamen, Geburtsdaten, Alter, Hautfarbe, ethnische Herkunft, Geschlecht, Bluttestergebnisse und Testjahr. Wenn diese Daten echt wären, würden sie als private, äußerst persönliche Informationen zu Gesundheitsstatus, Identität und genauer Position von Minderjährigen gelten.
Dabei handelt es sich um nützliche und wertvolle Informationen, die jedoch mit Sorgfalt und gemäß Datenschutzgesetzen für Gesundheitsdaten behandelt werden müssen. Da Ihre Tätigkeit die Verwendung und Freigabe dieser Daten erfordert, müssen Sie die Gesetze kennen und wissen, mit welchen Methoden die Daten für die Freigabe anonymisiert werden können.
Da die Datentabelle High_Blood_Level_Results Informationen zu Blutbleiwerten und personenbezogene Informationen zu den Kindern (einschließlich Namen, Adressen und Geburtsdaten) enthält, handelt es sich um geschützte Gesundheitsinformationen gemäß HIPAA. Diese müssen den HIPAA-Datenschutzregeln entsprechend sorgfältig geschützt werden.
Diese Art von Daten kann nur für Mitarbeiter mit Zugriffsautorisierung freigegeben werden. Die entsprechende Berechtigung wird durch Ihre internen Organisationsrichtlinien festgelegt und umfasst im Allgemeinen diejenigen, deren Arbeitsaufgaben den Zugriff auf geschützte Gesundheitsinformationen erfordern, oder diejenigen, denen der Zugriff durch interne Prozesse, wie zum Beispiel eine Ethikkommission für Forschungs- und Evaluierungszwecke, gewährt wird.
Sie fragen sich möglicherweise, ob Sie an diese Regeln gebunden sind.
- Lesen Sie den Abschnitt Are You a Covered Entity? der Seite von Centers for Medicare and Medicaid Services (CMS).
Diese Seite enthält Richtlinien dazu, wer von den HIPAA-Vorschriften betroffen ist. Unter Covered Entity Decision Tool (PDF) finden Sie einen interaktiven Entscheidungsbaum, mit dessen Hilfe Sie ermitteln können, ob Sie als Einrichtung betroffen sind und sich an die HIPAA-Regeln halten müssen.
Im Allgemeinen sind folgende Einrichtungen betroffen:
- Krankenversicherungen: Leisten medizinische Versorgung oder tragen die Kosten für diese.
- Leistungserbringer im Gesundheitswesen: Übermitteln Daten zu beliebigen Zwecken elektronisch (Rechnungsstellung, Überweisungen usw.).
- Clearinghouses im Gesundheitswesen: Diese Organisationen verarbeiten im Auftrag anderer Organisationen nicht standardmäßige Gesundheitsinformationen so, dass sie Standards für Dateninhalte oder -formate entsprechen oder umgekehrt.
- Geschäftspartner: Diese Personen oder Organisationen außerhalb der betroffenen Einrichtung üben im Auftrag der betroffenen Einrichtung bestimmte Funktionen aus, bei denen personenbezogene Gesundheitsinformationen verwendet oder preisgegeben werden. In diesen Fällen muss die betroffene Einrichtung über einen Vertrag mit dem Geschäftspartner verfügen, mit dem die gleichen Aufgaben und Verpflichtungen im Bereich des Datenschutzes zugewiesen werden, die für die betroffene Einrichtung gelten.
Für die Zwecke dieses Lernprogramms sind Sie eine betroffene Einrichtung, da Ihre Organisation Kliniken betreibt.
Gesundheitsdaten wie dieser Layer mit Blutbleiwerten sind äußerst wertvoll beim Identifizieren von gesundheitlichen Ungleichheiten, bei der Richtlinienbewertung und bei der strategischen Planung. Sie müssen Methoden verwenden, die den individuellen Datenschutz gewährleisten und gleichzeitig den Nutzen der Daten für diese wichtigen Maßnahmen maximieren.
- Lesen Sie auf der Seite "HHS.gov" den Abschnitt De-identification Standard.
Sie können GIS-Daten mit geschützten Gesundheitsinformationen verwenden, aber Sie müssen diese auf ordnungsgemäß gesicherter lokaler Computerhardware oder in einer gesicherten ArcGIS Enterprise-Geodatabase speichern. Diese Daten können nicht in ArcGIS Online gehostet werden.
Wenn Sie die Daten freigeben, müssen Sie sie zuerst anonymisieren.
Das Ziel der Datenanonymisierung besteht darin, die identifizierbaren Informationen von den Gesundheitsinformationen zu trennen, um das Reidentifizierungsrisiko auf ein sehr geringes Maß zu reduzieren.
Bei der Anonymisierung werden Identifikatoren so aus dem Dataset entfernt, dass die Wahrscheinlichkeit, dass jemand die Identität von Personen in diesem Dataset herausfinden kann, signifikant verringert wird. Aufsichtsbehörden wissen, dass selbst bei Anwendung geeigneter Anonymisierungsmethoden das Risiko einer Identifizierung immer größer als Null ist. Daher dienen die Anforderungen für die Anonymisierung dazu, das Risiko der Reidentifizierung von Personen auf ein sehr geringes Maß zu reduzieren. Nachfolgend werden die beiden gemäß dem HIPAA-Standard akzeptierten Anonymisierungsmethoden gezeigt.
Bei der ersten Anonymisierungsmethode, Safe Harbor, müssen Sie die 18 folgenden spezifischen Identifikatoren aus den Daten entfernen:
- Namen
- Alle geographischen Unterteilungen, die kleiner als ein Bundesstaat sind
- Alle Elemente von Daten (mit Ausnahme des Jahres), die sich direkt auf eine Person beziehen
- Telefonnummern
- Identifikatoren und Seriennummern von Fahrzeugen
- Faxnummern
- Kennungen und Seriennummern von Geräten
- E-Mail-Adressen
- Web-URLs
- Sozialversicherungsnummern
- IP-Adressen
- Krankenaktennummern
- Biometrische Merkmale einschließlich Fingerabdrücken und Stimmmustern
- Nummern von Gesundheitsleistungsempfängern
- Ganzgesichtsfotos und vergleichbare Bilder
- Kontonummern
- Nummern von Zertifikaten/Lizenzen
- Alle anderen eindeutigen Identifikationsnummern, -merkmale oder -codes, außer in zulässigen Fällen
Viele der Daten im Layer High_Blood_Level_Results müssten entfernt werden, um die Vorschriften einzuhalten.
Diese Methode ist nicht sehr hilfreich, wenn Sie GIS im Gesundheitsbereich einsetzen, aber Sie sollten sie dennoch kennen. Sie ist einfacher als die zweite Methode, erfordert aber etwas mehr Überlegung als das Entfernen der 18 Identifikatoren. Der Datenmanager muss auch bedenken, ob das Dataset andere Identifikatoren enthält, die jemand verwenden könnte, um eine Person zu identifizieren, beispielsweise eine eindeutige Tätigkeitsbezeichnung.
Möglicherweise haben Sie auch ein Problem beim zweiten Identifikator erkannt (alle geographischen Unterteilungen, die kleiner als ein Bundesstaat sind). Dadurch würde die Verwendung von GIS äußerst schwierig, wenn es um eine sinnvolle Auflösung wie etwa eine Stadt oder einen Stadtteil geht.
Anstelle dieser Punkte
hätten Sie Daten auf Bundesstaatsebene wie in der folgenden Karte:
Gemäß den Safe-Harbor-Regeln dürfen Sie die ersten drei Ziffern einer Postleitzahl verwenden, wenn die dreistellige Postleitzahl gemäß den aktuellen US-Volkszählungsdaten für mehr als 20.000 Personen gilt. Jedoch verwenden nur wenige GIS-Benutzer im Gesundheitswesen dreistellige Postleitzahlen, und diese Benutzer interessieren sich oft für die gesundheitlichen Auswirkungen auf spezifischen geographischen Ebenen.
Um Ihre Daten optimal zu nutzen, müssen Sie die zweite Anonymisierungsmethode verwenden, die sogenannte Expert-Determination-Methode.
- Lesen Sie die Richtlinien zur Anonymisierung mit Expert Determination.
Die Expert-Determination-Methode bietet ein hohes Maß an Flexibilität. Sie setzt voraus, dass ein Benutzer mit ausreichenden Kenntnissen und Erfahrungen allgemein anerkannte wissenschaftliche und statistische Grundsätze und Methoden so anwendet, dass die Daten mit einem sehr geringen Reidentifizierungsrisiko deidentifiziert werden. Ein wichtiger Aspekt der Expert-Determination-Methode besteht darin, dass die Verfahren, mit denen der Experte die Entscheidung trifft, dokumentiert werden.
Sie haben die Daten zu Blutbleiwerten überprüft. Außerdem haben Sie sich über die Definition für geschützte Gesundheitsinformationen (PHI), die Einrichtungen, die die HIPAA-Vorschriften einhalten müssen, sowie zwei Anonymisierungsmethoden, Safe Harbor und Expert Determination, informiert. Wenn Sie bei der Arbeit mit GIS auf geschützte Gesundheitsinformationen treffen, müssen Sie unbedingt die entsprechenden Schritte ausführen, um gesetzeskonform zu arbeiten und Datenschutzverletzungen zu vermeiden.
Sie müssen die beste Methode ermitteln, um den verschiedenen Mitgliedern Ihres Teams je nach ihrer Rolle und ihren Aufgaben das richtige Maß an Daten bereitzustellen. Sie stellen einigen internen Benutzern identifizierbare Daten auf Punktebene bereit. Diese autorisierten Benutzer können Aufgaben im Zusammenhang mit Fallmanagement und Untersuchungen ausführen und nach potenziellen Expositionsquellen suchen. Sie benötigen möglicherweise die Wohnadressen, um optimierte Routen für Hausbesuche zu berechnen. Andere dagegen benötigen ein anonymisiertes, auf die absoluten Mindestdaten beschränktes Dataset.
In den folgenden Abschnitten wenden Sie die Expert-Determination-Methode mit verschiedenen GIS-Verfahren an, um Datenprodukte zu erstellen, die die Präventionsmaßnahmen Ihrer Organisation bezüglich Bleivergiftungen bei Kindern unterstützen.
Kartenbasierte Visualisierungen entwerfen
In diesem Abschnitt symbolisieren Sie die Daten zu den Blutbleiwerten auf Karten. Dabei verwenden Sie Methoden, bei denen die Datenintegrität und die räumlichen Muster erhalten bleiben und dennoch der Schutz personenbezogener Daten innerhalb des Datasets gewährleistet wird.
Verschiedene Methoden eignen sich für unterschiedliche Anwendungsfälle. Sie müssen die Zielsetzung, die Zielgruppe und den Bereitstellungsmechanismus für die Karte bedenken. Für eine statische Karte beispielsweise in Form einer PDF-Datei, eines Bildes oder einer Papierkarte, auf der die Kartenbenutzer nicht mit den Daten interagieren können, gelten andere Überlegungen als für eine Karte, bei der die Benutzer die Daten in einem Webbrowser oder einer Anwendung erkunden, die Ansicht vergrößern bzw. verkleinern und möglicherweise einzelne Punkte und die zugehörigen Attributdaten untersuchen können.
Eine Heatmap erstellen
Sie müssen eine Karte für ein gedrucktes Poster erstellen, um Projektbeteiligte und die Öffentlichkeit über das Ausmaß von Bleivergiftung bei Kindern in Sacramento zu informieren, um das Risiko zu kommunizieren und Interventionen, Gesundheitserziehung und damit verbundene Aktivitäten gezielt zu unterstützen. Hierfür ist eine Heatmap eine gute Wahl, da dabei eine geglättete Oberfläche entsteht, die die Punktdichte im Layer anzeigt, während die Positionen der Punkte unscharf dargestellt werden.
- Klicken Sie im Bereich Inhalt mit der rechten Maustaste auf High_Blood_Level_Results, und klicken Sie auf Symbolisierung.
- Klicken Sie im Bereich Symbolisierung auf die Dropdown-Liste Primäre Symbolisierung, scrollen Sie nach unten, und klicken Sie auf Heatmap.
Die Symbolisierung für den Layer wird geändert, und die Daten werden als Heatmap angezeigt.
Der eine hohe Intensität angebende gelbe und rote Punkt im nordöstlichen Abschnitt der Stadt stellt einen Bereich dar, in dem zahlreiche Kinder mit hohen Blutbleiwerten leben. Wichtig ist, dass Sie nicht sehen können, wie viele Kinder angezeigt werden oder wo sie genau leben. Um den Datenschutz für die Patienten zu erhöhen, können Sie diese Heatmap ohne andere Verwaltungsgrenzen wie Landkreisgrenzen oder Postleitzahlen anzeigen. Außerdem können Sie die Grundkarte in eine Grundkarte ohne Straßennamen ändern, um eine Reidentifizierung der sensiblen Daten zu verhindern. Diese Visualisierungsmethode eignet sich am besten für Datasets mit vielen Punkt-Features, die sich zumindest teilweise in unmittelbarer Nähe zueinander befinden.
Hinweis:
Die visuell mit der größten Intensität dargestellten Bereiche einer Heatmap werden manchmal als Hot-Spots bezeichnet. Dies ist zwar eine sinnvolle Art, diese räumlichen Muster zu beschreiben, doch sollten Sie diese Art von Hot-Spots nicht mit den Ergebnissen des Werkzeugs Hot Spot-Analyse verwechseln, das statistisch signifikante Cluster-Bildungen in einem Untersuchungsgebiet identifiziert. - Klicken Sie auf dem Menüband auf die Registerkarte Freigeben, und klicken Sie im Abschnitt Ausgabe auf In Zwischenablage erfassen.
Daraufhin wird ein statisches Bild der Heatmap in die Zwischenablage kopiert. Dieses Bild können Sie in eine Präsentation oder ein Dokument einfügen und ohne Preisgabe geschützter Gesundheitsinformationen freigeben.
- Zoomen Sie auf den mit hoher Intensität dargestellten Bereich im nordöstlichen Teil der Stadt.
Beim Vergrößern der Ansicht ändert sich die Heatmap-Symbolisierung so, dass die relative Dichte der Punkte auf dem Bildschirm angezeigt wird.
Je stärker Sie die Ansicht vergrößern, umso mehr Details werden sichtbar. Selbst wenn die Daten im Vergleich zur ursprünglichen Punktdarstellung unscharf dargestellt werden, ist eine Heatmap bei bestimmten Maßstäben nicht mehr dazu geeignet, sensible Daten unter Wahrung des Datenschutzes darzustellen.
Hinweis:
Wenn Sie keine gedruckte Karte, sondern eine interaktive Karte erstellen möchten, müssen Sie sich dessen bewusst sein, dass bei dieser dynamischen Heatmap-Darstellung persönliche Informationen preisgegeben werden können. Achten Sie beim Erstellen interaktiver Karten auf dynamisch gerenderte Heatmaps, und ziehen Sie in Betracht, den möglichen Zoomfaktor durch maßstabsabhängiges Rendern zu begrenzen.Bei manchen Zoom-Maßstäben können Sie die den unscharfen Punkten entsprechenden Positionen einzelner Gebäude erkennen.
- Klicken Sie auf einen der unscharfen Punkte.
Das Pop-up zeigt die Attribute des Punktes an. Durch Verwendung von Heatmap-Symbolisierung werden die Patientendaten in interaktiven Karten nicht geschützt. Die Punkte und die zugehörigen Attribute sind nach wie vor vorhanden.
- Geben Sie im Bereich Symbolisierung im Feld Radius den Wert 50 ein.
Die Heatmap-Symbolisierung wird geändert, wobei die Dichte mit einem größeren Radiuswert neu berechnet wird.
Diese neue Darstellung könnte erfasst werden, um die Dichte der Fälle hoher Blutbleiwerte auf Stadtteilebene anzuzeigen.
Es ist sinnvoll, verschiedene Parameter der Heatmap-Symbolisierung zu untersuchen, um den Grad und das Ausmaß der Cluster-Bildung in Ihren Daten darzustellen, und gleichzeitig die Notwendigkeit einer genauen geographischen Darstellung der Daten und die Anforderung, die Daten der betroffenen Personen zu schützen, gegeneinander abzuwägen. Viele gesundheitsbezogene Probleme, beispielsweise Ausbrüche von Krankheiten, treten auf unterschiedlichen geographischen Ebenen auf. In manchen Fällen wird ein Ausbruch durch eine Punktquelle verursacht, während es sich in anderen Fällen um eine Übertragung auf Gemeindeebene handelt. Der Schlüssel zu einer erfolgreichen GIS-Analyse im Gesundheitsbereich ist das Verständnis und die Verwendung von Daten im geeigneten Maßstab.
Ihre statische Karte auf Stadtebene kann Berichten hinzugefügt werden, mit denen Projektbeteiligte und die Öffentlichkeit über das Ausmaß von Bleivergiftung bei Kindern in der Gemeinde informiert werden. Heatmaps sind hilfreich, um zu zeigen, wie die Daten verteilt sind und wo sie in besonders hoher Konzentration vorliegen. Weitere Informationen zur Symbolisierung von Heatmaps finden Sie in der Hilfe.
- Klicken Sie auf Projekt speichern, um das Projekt zu speichern.
Eine Punkt-Cluster-Karte erstellen
Sie müssen für die Krankenhausleitung eine statische Planungskarte erstellen, aus der klar hervorgeht, wo hohe und niedrige Konzentrationen von Bleivergiftungsfällen vorliegen. Dabei müssen Sie selbstverständlich so vorgehen, dass der Schutz personenbezogener Daten gewährleistet ist. In diesem Fall ist die Leitung besorgt wegen der tatsächlichen Anzahl der Fälle in ihrem Einzugsgebiet, da sie die Zuweisung von Spezialisten und die Koordinierung der Ressourcen des Gesundheitsprogramms sicherstellen muss.
Zu diesem Zweck erstellen Sie eine Cluster-Karte. Die Methode der Feature Cluster-Bildung beruht auf der Gruppierung von Punkt-Clustern innerhalb eines Bereichs und der Anzeige eines abgestuften Symbols, das die Anzahl der diesem Cluster entsprechenden gruppierten Punkte angibt. Diese Vorgehensweise wird empfohlen, wenn Sie genaue Zahlen mit verschiedenen Maßstäben anzeigen möchten und die einzelnen Punktpositionen nicht freigeben müssen oder möchten.
- Klicken Sie im Bereich Inhalt auf den Layer High_Blood_Level_Results.
- Klicken Sie auf dem Menüband auf die Registerkarte Feature-Layer, klicken Sie im Abschnitt Darstellung auf Aggregation, und klicken Sie auf Cluster-Bildung.
- Klicken Sie in der Meldung auf Ja, um das Ändern der Symbolisierung zu bestätigen.
Die Symbolisierung für den Layer wird in den Style Cluster geändert. Die Farbe der Symbole wird nach dem Zufallsprinzip zugewiesen, und die Größe und Anzahl der Cluster hängen von Ihrer Anzeige und der Kartenausdehnung ab.
Die Punkt-Cluster werden relativ zur Anzahl der Punkte im Cluster skaliert und außerdem mit der Anzahl der Punkte beschriftet.
- Vergrößern Sie den Cluster im Nordosten der Stadt.
Wie die Heatmap-Symbolisierung wird die Cluster-Symbolisierung an den Zoomfaktor und die Ausdehnung der Karte angepasst.
Wenn Sie die Ansicht stark genug vergrößern, sehen Sie Positionen einzelner Patienten.
Genau wie die Heatmap-Symbolisierung ist die Cluster-Symbolisierung bei manchen Ausdehnungen und Zoomfakturen nicht dazu geeignet, die Identität von Patienten zu schützen. Außerdem können Sie wie bei der Heatmap-Symbolisierung durch ausreichendes Vergrößern der Ansicht in einer interaktiven Version der Karte auf einzelne Punkte klicken und die zugehörigen Attribute anzeigen. Cluster-Symbolisierung reicht nicht aus, um die Identität von Patienten in einer interaktiven Karte zu schützen.
Bei statischen Karten können Sie die Cluster-Bildung so anpassen, dass sie sich besser für den gewünschten Maßstab und die gewünschte Ausdehnung eignet.
- Klicken Sie im Bereich Inhalt mit der rechten Maustaste unter High_Blood_Level_Results auf Cluster, und klicken Sie auf Symbolisierung.
- Klicken Sie im Bereich Symbolisierung auf der Registerkarte Cluster auf Cluster-Einstellungen.
- Klicken Sie auf den Schieberegler Cluster-Radius, und ziehen Sie ihn auf der Skala in Richtung von Hoch.
Während Sie den Schieberegler Cluster-Radius auf der Skala in Richtung von Hoch ziehen, nimmt die Anzahl der Cluster ab, und die Anzahl der Punkte pro Cluster nimmt zu.
Diese Funktionsweise hat Ähnlichkeit mit der des Heatmap-Radius. Sie können den Cluster-Radius ändern, um das Ausmaß der Cluster-Bildung an die Kartenausdehnung und den Maßstab anzupassen.
- Klicken Sie im Bereich Inhalt mit der rechten Maustaste auf Features, und klicken Sie auf Auf Layer zoomen.
Wie bei der Heatmap-Symbolisierung eignet sich ein Radius, der für einen Maßstab und eine Ausdehnung geeignet ist, möglicherweise nicht für andere Maßstäbe und Ausdehnungen.
- Klicken Sie im Bereich Symbolisierung auf den Schieberegler Cluster-Radius, und ziehen Sie ihn auf der Skala in Richtung von Niedrig.
Cluster-Karten werden in statischen und dynamischen Karten verwendet, um bestimmte Zahlen für Vorkommen (in diesem Fall beobachtete Fälle) anzuzeigen und auf räumliche Muster in der Dichte der Daten hinzuweisen. Im Hinblick auf den Datenschutz besteht der Vorteil darin, dass die Cluster nicht mit Verwaltungsgrenzen wie Postleitzahlen oder Landkreisen verknüpft sind, mit deren Hilfe Personen identifiziert werden können. Sie müssen den Cluster-Radius für den jeweiligen Maßstab und die jeweilige Ausdehnung der Karte anpassen, um nützliche Informationen zu den Mustern zu vermitteln, ohne die Positionen einzelner Patienten preiszugeben.
Da Sie ein statisches Kartenbild für die Krankenhausleitung erstellen, können Sie eine Cluster-Karte verwenden, wenn Sie den Cluster-Radius sorgfältig der Karte entsprechend festlegen.
Ihre Kollegen von der Krankenhausleitung erhalten mit der statischen Cluster-Karte genau die Informationen, die sie benötigen, um koordinierte Maßnahmen für die Behandlung der vor Ort lebenden Kinder mit hohen Blutbleiwerten zu planen.
Weitere Informationen zum Aggregieren von Features in Cluster finden Sie in der Hilfe.
- Klicken Sie auf Projekt speichern, um das Projekt zu speichern.
Sie haben zwei Visualisierungsmethoden – Heatmaps und Feature-Cluster-Bildung – verwendet, um die Punktdaten zu visualisieren, ohne die genauen Positionen der Personen anzuzeigen.
Kleine Zellen unterdrücken
Kleine Zellen sind Polygone, die aggregierte Daten enthalten, bei denen die Anzahl der Datenpunkte im Polygon so niedrig ist, dass eine Reidentifizierung von Personen möglich ist. In diesem Abschnitt kombinieren Sie zwei Methoden zur Unterstützung der Anonymisierung Ihrer Daten, wenn diese kleine Zellen enthalten: Hot Spot-Analyse und Mosaik. Die Hot Spot-Analyse basiert auf mathematischen Berechnungen, bei denen statistisch signifikante räumliche Cluster aus hohen Werten (Hot-Spots) und aus niedrigen Werten (Cold-Spots) identifiziert werden. Die Mosaikbildung ist eine Methode, bei der eine Oberfläche mit identischen nicht überlappenden geometrischen Formen wie Quadraten, Dreiecken oder Hexagonen gekachelt wird. Diese Kacheln können zum Anzeigen von Zusammenfassungsinformationen zu den in ihnen enthaltenen Datenpunkten verwendet werden.
Statistische Hot-Spots und Cold-Spots identifizieren
Ihre nächste Aufgabe besteht darin, eine Karte zu erstellen, die statistisch signifikante Cluster aus Fällen hoher Blutbleiwerte für einen Bericht zeigt, der online in einer dynamischen Webkarte veröffentlicht werden soll. Sie verwenden das Werkzeug Optimierte Hot-Spot-Analyse, um die Karte zu erstellen und die Ergebnisse mit einem Mosaik aus Hexagonen zu symbolisieren.
Sie können in ArcGIS Pro mit dem Werkzeug Optimierte Hot-Spot-Analyse die Positionen hoher Blutbleiwerte in gewichteten Features aggregieren. Durch die Verteilung der gewichteten Features ermittelt das Werkzeug einen geeigneten Analysemaßstab. Daher müssen Sie nicht im Vorfeld die Größe der Hexagone kennen. Das Aggregieren oder Binning von Daten mit Hexagonen, sogenannten Hexbins, ist eine hilfreiche Möglichkeit, Gesundheitsinformationen zu visualisieren und gleichzeitig den Datenschutz für die Patienten zu gewährleisten, da die Hexagone nicht direkt Verwaltungsgrenzen entsprechen. Eine zweite Verschleierungsebene ergibt sich aus der Bereitstellung einer analytischen Ausgabe (Ebenen der statistischen Signifikanz) anstelle von Fallzahlen.
Die Webkarte zeigt die generalisierten Muster des Vorhandenseins und Nichtvorhandenseins von Bleivergiftung bei Kindern im gesamten Untersuchungsgebiet und informiert gleichzeitig über Bereiche mit höheren Konzentrationen.
- Klicken Sie auf dem Menüband auf die Registerkarte Analyse und dann auf Werkzeuge.
Daraufhin wird der Bereich Geoverarbeitung angezeigt. Sie verwenden diesen Bereich, um das Werkzeug Optimierte Hot-Spot-Analyse zu suchen und auszuführen.
- Geben Sie im Suchfeld den Text optimierte hot spot ein, und klicken Sie in der Ergebnisliste auf das Werkzeug Optimierte Hot-Spot-Analyse.
Das Werkzeug heißt Optimierte Hot-Spot-Analyse, weil es nach der besten Entfernung für die Hot Spot-Analyse sucht. Dies ist die Entfernung, in der die Cluster-Bildung der Anzahlen in benachbarten Hexbins am intensivsten ist. Wenn keine eindeutige Entfernung gefunden wird, wird bei der Optimierung eine durchschnittliche Entfernung berechnet, bei der sich eine bestimmte Anzahl nächster Nachbarn für die Analyse ergibt. Schließlich vergleicht das Werkzeug die Anzahl der Patienten mit hohen Blutbleiwerten in jedem Nachbarschafts-Cluster aus Hexbins mit dem gesamten Untersuchungsgebiet, um einen Z-Wert zu ermitteln. Dieser kann dann direkt in Beziehung zu einem P-Wert gesetzt werden, anhand dessen die statistische Signifikanz bestimmt wird.
- Wählen Sie für Eingabe-Features die Option High_Blood_Level_Results aus.
- Übernehmen Sie für Ausgabe-Features den Standardspeicherort in der Geodatabase BloodLeadLevels.gdb, und geben Sie High_Blood_Lead_Hot_Spots als Feature-Class-Namen ein.
- Lassen Sie Analysefeld leer.
Wenn ein numerischer Wert mit den Eingabe-Features verknüpft ist, können Sie den Parameter Analysefeld verwenden, um diese Werte für die Hot Spot-Analyse zu berücksichtigen. In diesem Fall legen Sie keinen Wert für Analysefeld fest. Damit wird die Verteilung von High_Blood_Level_Results-Punkten für Hot- und Cold-Spots ausgewertet.
- Klicken Sie für Methode für die Aggregation der Ereignisdaten auf die Dropdown-Liste, und wählen Sie Ereignisse im Hexagongitter zählen aus.
- Klicken Sie für Umgebende Polygone, die den räumlichen Geltungsbereich für Ereignisse definieren auf die Dropdown-Liste und dann auf Sacramento_ZIP_Codes.
Dieser Layer enthält Postleitzahl-Polygone für Sacramento. Diese Features werden vom Werkzeug zum Identifizieren von Positionen verwendet, an denen Punkte vorliegen können. Sie geben im Wesentlichen das Untersuchungsgebiet für das Werkzeug an, sodass Bereiche außerhalb des Sacramento-Untersuchungsgebiets, aber innerhalb des größten umgebenden Rechtecks der Eingabepunkte nicht als Cold-Spots identifiziert werden.
- Klicken Sie auf Ausführen.
Das Werkzeug wird ausgeführt, und der Layer High_Blood_Lead_Hot_Spots wird der Karte hinzugefügt.
- Deaktivieren Sie im Bereich Inhalt den Layer High_Blood_Level_Results, damit Sie den neuen Layer untersuchen können.
Die Symbolklassen für den Layer werden im Bereich Inhalt angezeigt.
Die Ergebnisse des Werkzeugs werden mit Blautönen für Cold-Spots, Rottönen für statistische Hot-Spots und Weiß für nicht signifikante Anzahlen symbolisiert. Weitere Informationen finden Sie unter Optimierte Hot-Spot-Analyse in der Dokumentation.
Sie könnten diesen Layer freigeben, um die Verteilung signifikant hoher und niedriger Fallzahlen zu zeigen. Bevor Sie den Layer freigeben, müssten Sie jedoch das Feld Anzahl entfernen, das Sie im nächsten Abschnitt verwenden. Dieses Feld gibt die Anzahl der Fälle in jedem Hexagon an. Bei Angabe spezifischer Zahlen, insbesondere für Zellen mit nur wenigen Ereignissen, wird die Identität der Patienten möglicherweise nicht ausreichend geschützt, obwohl dies teilweise von der Zellengröße und der Häufigkeit des Auftretens der Erkrankung abhängt.
Als Nächstes symbolisieren Sie den Hot Spot-Analyse-Layer nach der Gesamtanzahl in jedem Abschnitt. Diese Methode macht nicht nur die Konzentrationsbereiche sichtbar, sondern sie ermöglicht es auch, die Bandbreite der Fallzahlen zu verdeutlichen.
- Klicken Sie auf Projekt speichern, um das Projekt zu speichern.
Hexbins nach Anzahl symbolisieren
Sie müssen einen Bericht erstellen, der für interne Analysten freigegeben wird, die an einem Projekt zur Minderung der Bleibelastung arbeiten und die Anzahl der Fälle in einem Bereich, aber nicht die genauen Punktpositionen kennen müssen. Sie ändern die Hot-Spot-Symbolisierung in eine andere Symbolisierung, um die Gesamtanzahl der Features in jedem Polygon anzuzeigen.
Zunächst erstellen Sie eine Kopie des Layers, um für jede Symbolisierung eine Version zu verwenden.
- Klicken Sie im Bereich Inhalt mit der rechten Maustaste auf den Layer High_Blood_Lead_Hot_Spots, und klicken Sie auf Kopieren.
- Klicken Sie im Bereich Inhalt mit der rechten Maustaste auf Karte, und klicken Sie auf Einfügen.
- Klicken Sie im Bereich Inhalt auf den Namen des eingefügten Layers, damit Sie ihn bearbeiten können.
- Geben Sie für den Layer-Namen die Zeichenfolge High_Blood_Lead_Hexbin_Counts ein.
- Deaktivieren Sie im Bereich Inhalt den Layer High_Blood_Lead_Hot_Spots, um ihn auszublenden.
- Klicken Sie mit der rechten Maustaste auf den Layer High_Blood_Lead_Hexbin_Counts, und klicken Sie auf Symbolisierung.
- Klicken Sie im Bereich Symbolisierung auf Feld und dann auf Anzahl.
- Klicken Sie auf die Dropdown-Liste Farbschema, scrollen Sie nach unten, und klicken Sie auf den Farbverlauf Rottöne (7 Klassen).
- Klicken Sie auf die Dropdown-Liste Klassen und dann auf 5.
- Klicken Sie mit der rechten Maustaste auf das Farbfeld für die niedrigste Klasse für die Anzahl von kleiner oder gleich 0, und klicken Sie auf Keine Farbe.
Durch das Entfernen der Füllung für Hexbins mit der Anzahl 0 erhalten die Kartenbenutzer mehr Kontext, und die Aufmerksamkeit wird auf die Zellen mit Patienten mit hohen Blutbleiwerten gelenkt.
Beachten Sie, dass es Hexbins gibt, die so klassifiziert sind, dass sie einen Punkt enthalten. In den meisten Fällen möchten Sie nicht einen einzigen Fall in einem einzigen Hexbin anzeigen. Dies ist eindeutig eine kleine Zelle. Sie können das Histogramm der abgestuften Symbole anpassen, um die Klassen der Kartensymbolisierung zu ändern.
- Klicken Sie im Bereich Symbolisierung auf die Registerkarte Histogramm.
- Klicken Sie auf den Klassengrenzenmarker, und ziehen Sie ihn von 1 auf 2.
- Klicken Sie auf den Klassengrenzenmarker, und ziehen Sie ihn von 3 auf 4.
Die neuen Klassengrenzen werden festgelegt.
Die Symbolisierung wird aktualisiert, und Hexbins mit einem und zwei Fällen werden in die gleiche Gruppe eingeordnet.
Welche Zahl Sie für die Mindestanzahl von Fällen in einem Hexbin auswählen sollten, hängt vom jeweiligen Szenario und den Regeln der Organisation ab. Bei häufigen Erkrankungen können Sie vielleicht eine kleinere Zahl verwenden, während es sich bei seltenen Erkrankungen möglicherweise empfiehlt, eine größere Zahl zu verwenden. Wichtig ist auch, den jeweiligen Bereich und die Anzahl der Personen (und potenziellen Fälle) in diesem Bereich zu berücksichtigen. Je größer der Abschnitt und die Anzahl der Personen, umso niedriger können Sie die minimale Anzahl der Fälle festlegen, ohne eine Reidentifizierung von Personen zu riskieren.
Jetzt können Sie diese Informationen für Ihre Kollegen, die die Analyse durchführen, freigeben. Sie sind zwar intern in der Organisation tätig und verfügen möglicherweise über alle erforderlichen Berechtigungen zur Verwendung der Rohdaten, aber sie benötigen die Daten auf Punktebene eigentlich nicht für ihre Arbeit. Als Best Practice sollten Sie ein den Anforderungen der Tätigkeit entsprechendes Dataset bereitstellen, das auf ein absolutes Minimum der Daten beschränkt ist. Dies ist ein ausgewogener Ansatz, der hinreichend genaue Daten bietet, um sich auf lokale Aspekte zu konzentrieren (besser als auf Postleitzahlenebene), und gleichzeitig die potenzielle Freigabe von geschützte Gesundheitsinformationen enthaltenden Punktdaten vermeidet, wenn diese nicht benötigt werden.
- Klicken Sie auf Projekt speichern, um das Projekt zu speichern.
Sie haben das Werkzeug Optimierte Hot Spot-Analyse verwendet, um die richtige Hexbin-Größe für die Eingabe-Punkt-Features festzulegen (basierend auf dem besten Analysemaßstab, nicht auf Datenschutzanforderungen), und die Hexbins symbolisiert, um die statistische Signifikanz zu zeigen. Mithilfe der Hot-Spot-Karte können Sie relevante Bereiche hervorheben, um das Problem zu verdeutlichen, und gleichzeitig die Identifizierung von Personen verhindern. Außerdem haben Sie die Hexbin-Daten neu symbolisiert, um für einen anderen Analyseprozess die tatsächlichen Fallzahlen anzuzeigen. Sie haben eine Methode verwendet, bei es nicht erforderlich ist, einzelne Punkte für Projektbeteiligte freizugeben, die möglicherweise nicht autorisiert sind, diese zu sehen, oder die sie für ihre Arbeit eigentlich nicht benötigen. Als Ergebnis haben Sie eine klare visuelle Darstellung von Bereichen mit mehr Fällen hoher Blutbleiwerte in Ihrem Untersuchungsgebiet erhalten.
Daten generalisieren und aggregieren
In diesem Abschnitt überprüfen Sie die Daten nach Jahren und erfahren, wie Sie in Kartenprodukten, die für die Öffentlichkeit freigegeben werden sollen, Personen schützen und keine kleinen Daten-Cluster identifizieren. Sie lernen, mit Methoden, bei denen relevante Muster in den Daten erkennbar bleiben, Daten zu generalisieren und zu aggregieren, um sensible Informationen zu schützen. Bei Gesundheitsdaten sind oft die Muster am aufschlussreichsten. Die Positionen einzelner Fälle sind für viele Aspekte der Vorgänge nicht zwangsläufig als Informationsgrundlage notwendig. So kann es beispielsweise sein, dass Sie als Analyst im Gegensatz zu beim Fallmanagement und bei Untersuchungen verwendeten einzelnen Punkten generalisierte oder aggregierte Daten in Jahresberichten zu Bleivergiftung bei Kindern und zur Überwachung nutzen möchten.
Bei der Datengeneralisierung werden Daten vereinfacht, indem ihre Komplexität oder ihre Details verringert werden. Sie können zum Beispiel Geburtsdaten in Daten als Geburtsjahr generalisieren. Sie können Alterskohorten als 10-Jahres-Gruppen generalisieren. Außerdem können Sie verschiedene Stammesgruppen wie Cherokee, Navajo und Choctaw in einer Kategorie für Indianer zusammenfassen. Bei der Aggregation hingegen werden mehrere Datenpunkte in einer einzigen Summenstatistik zusammengefasst, beispielsweise als Anzahl der Geburten pro Jahr. In den folgenden Schritten konzentrieren Sie sich auf Aggregationsmethoden, aber Sie können oft Generalisierungsverfahren auf die zugrunde liegenden Daten anwenden, um personenbezogene Daten weiter zu verschleiern.
Daten nach Postleitzahl und Jahr zusammenfassen
Zunächst fassen Sie die Daten mit dem Postleitzahl-Layer für das Untersuchungsgebiet nach Jahren zusammen. Postleitzahlgrenzen werden oft zum Erstellen von Berichten zu Statistiken im Gesundheitsbereich verwendet. Sie haben Vor- und Nachteile. Ein Vorteil besteht darin, dass Postleitzahlbereiche kleiner als Landkreise sind und die meisten Menschen ihre Postleitzahl kennen und auf einer Karte finden können. Nachteilig ist, dass die Grenzen der Postleitzahlen künstliche Konstrukte sind, die eine effiziente Postzustellung unterstützen sollen und sich im Lauf der Zeit ändern können. Sie als Analyst müssen entscheiden, ob sie sich für Ihre Anforderungen eignen und im Einklang mit den Datenfreigaberegeln der Organisation stehen.
- Klicken Sie im Bereich Geoverarbeitung auf die Schaltfläche "Zurück".
- Geben Sie im Suchfeld den Text zusammenfassen innerhalb ein, und klicken Sie in der Ergebnisliste auf das Werkzeug Zusammenfassen (innerhalb) (Analysis Tools).
Es gibt ein weiteres Werkzeug namens Zusammenfassen (innerhalb), das zum Toolset GeoAnalytics Desktop Tools gehört, aber für dieses Lernprogramm sollten Sie das Werkzeug aus dem Toolset Analysis Tools verwenden.
- Wählen Sie im Dialogfeld des Werkzeugs Zusammenfassen (innerhalb) für Eingabe-Features den Layer Sacramento_Zip_Codes aus.
- Wählen Sie für Eingabe-Zusammenfassungs-Features den Layer High_Blood_Level_Results aus.
- Übernehmen Sie für Ausgabe-Feature-Class den Standardspeicherort in der Geodatabase BloodLeadLevels.gdb, und geben Sie HBLL_by_zip_year als Feature-Class-Namen ein.
- Wählen Sie für Gruppenfeld die Option Blood Level Test Year aus.
- Klicken Sie auf Ausführen.
Der Layer HBLL_by_zip_year wird der Karte hinzugefügt. Außerdem wird im Abschnitt Standalone-Tabellen die Tabelle testYear_Summary hinzugefügt. Diese Tabelle enthält die Zusammenfassungsdaten mit der Anzahl nach Postleitzahl pro Jahr. Diese Daten können wieder mit dem Layer HBLL_by_zip_year verbunden werden, um die Werte für jedes Jahr anzuzeigen.
Als Nächstes verbinden Sie die Daten und erfahren, wie Sie Daten für mehrere Jahre generalisieren oder benachbarte Postleitzahlen aggregieren, um die in der Organisation geltenden Minimalwertanforderungen für Datenschutz zu erfüllen.
Die Summentabelle mit der Ergebnis-Feature-Class verbinden
Jetzt verbinden Sie die Summentabelle mit der Ergebnis-Feature-Class, um eine einzige Feature-Class mit nach Postleitzahl und Jahr zusammengefassten Daten zu erhalten. Auf diese Weise können Sie Layer zum Anzeigen der Daten für jedes Jahr erstellen.
- Klicken Sie im Bereich Inhalt mit der rechten Maustaste auf den Layer HBLL_by_zip_year, und klicken Sie auf Attributtabelle.
In der Tabelle werden Daten von den ursprünglichen Postleitzahl-Polygonen sowie durch das Werkzeug Zusammenfassen (innerhalb) hinzugefügte Daten angezeigt. Im Feld Count of Points wird die Gesamtanzahl der Fälle in den einzelnen Postleitzahl-Polygonen angezeigt. Das Feld JOIN ID enthält Werte, die Sie zum Verbinden der Attribute aus der Tabelle testYear_Summary mit diesem Layer verwenden können. Diese Feature-Class enthält 17 Postleitzahl-Polygone.
- Klicken Sie im Bereich Inhalt im Abschnitt Standalone-Tabellen mit der rechten Maustaste auf die Tabelle testYear_Summary, und klicken Sie auf Öffnen.
Das Feld JOIN ID enthält Werte, die Sie zum Verbinden der Attribute mit dem Layer HBLL_by_zip_year verwenden können. Das Feld testYear enthält die Werte für die Jahre der Bluttests. Im Feld Count of Points wird für insgesamt 50 Datensätze in der Tabelle die Gesamtanzahl der Fälle in den einzelnen Postleitzahl-Polygonen in jedem Jahr angezeigt.
- Klicken Sie im Bereich Inhalt mit der rechten Maustaste auf HBLL_by_zip_year, zeigen Sie auf Verbindungen und Beziehungen, und klicken Sie auf Verbindung hinzufügen.
- Im Dialogfeld Verbindung hinzufügen sollte für den Parameter Eingabetabelle standardmäßig der Layer HBLL_by_zip_year ausgewählt sein, auf den Sie mit der rechten Maustaste geklickt haben.
- Wählen Sie unter Eingabe-Join-Feld das Feld JOIN ID aus.
Neben Eingabe-Join-Feld wird ein Warnsymbol angezeigt. Dies bedeutet, dass das Feld nicht indiziert wurde. Bei kleinen Tabellen wie dieser ist das kein Problem.
- Wählen Sie für Join-Tabelle die Option testYear_Summary aus.
- Wählen Sie als Join-Tabellen-Feld das Feld Join ID aus.
- Klicken Sie auf Verbindung überprüfen.
Der Prozess "Verbindung überprüfen" wird ausgeführt, und es wird eine Meldung zurückgegeben.
Da zwei Felder nicht indiziert wurden, empfiehlt das Werkzeug, Indizes für diese Felder zu erstellen, um die Performance zu verbessern. Angesichts der Anzahl der beteiligten Features ist das nicht nötig.
Außerdem wird gemeldet, dass es sich um eine Eins-zu-Viele-Verbindung handelt und dass die resultierende verbundene Feature-Class 50 Datensätze enthalten wird (einen für jeden Datensatz in der Tabelle testYear_Summary).
- Klicken Sie auf Schließen, um das Fenster Meldung zu schließen.
- Klicken Sie im Dialogfeld des Werkzeugs Verbindung hinzufügen auf OK.
Die Attributtabelle für den Layer HBLL_by_zip_year wird aktualisiert, sodass die zusätzlichen Felder aus testYear_Summary und die zusätzlichen Datensätze für die Kombinationen aus Postleitzahl-Polygonen und Testjahren angezeigt werden.
Der Ergebnisse des Werkzeugs Verbindung hinzufügen sind temporär. Sie erstellen eine Kopie der Feature-Class mit allen Features, indem Sie sie in eine neue Feature-Class exportieren.
- Klicken Sie mit der rechten Maustaste auf den Layer HBLL_by_zip_year, zeigen Sie auf Daten, und klicken Sie auf Features exportieren.
- Legen Sie für Ausgabe-Feature-Class den Namen HBLL_by_zip_all_years fest.
- Klicken Sie auf OK.
Die neue Feature-Class wird in der Projekt-Geodatabase gespeichert.
Den kombinierten Layer symbolisieren
Nun symbolisieren Sie den Layer.
- Deaktivieren Sie im Bereich Inhalt alle Layer außer HBLL_by_zip_all_years.
- Klicken Sie im Bereich Inhalt mit der rechten Maustaste auf den Layer HBLL_by_zip_all_years, und klicken Sie auf Symbolisierung.
- Klicken Sie im Bereich Symbolisierung auf die Dropdown-Listen für Primäre Symbolisierung, und klicken Sie auf Abgestufte Farben.
- Klicken Sie auf die Dropdown-Liste Feld, und klicken Sie auf das zweite der beiden Count of Points-Felder unter Join ID.
Dieses Feld enthält die aggregierte Anzahl der Punkte im Polygon, die in einem bestimmten Jahr aufgetreten sind. Das erste Feld enthält die Gesamtanzahl für alle drei Jahre.
- Klicken Sie für Farbschema auf Violett (5 Klassen).
Die Symbolisierung für den Layer wird aktualisiert. Möglicherweise stellen Sie fest, dass die für den Layer im Bereich Inhalt angezeigten Symbolklassen nicht alle auf der Karte angezeigt werden.
In diesem Beispiel scheint die höchste Klasse zu fehlen. Das liegt daran, dass der Layer HBLL_by_zip_all_years mehrere Kopien jedes Postleitzahl-Polygons enthält, nämlich eine für jedes Jahr, in dem im jeweiligen Postleitzahlbereich Fälle aufgetreten sind. Die Symbolisierung für den Layer berücksichtigt den vollständigen Bereich der Werte in der Attributtabelle, während die Symbolisierungsfarbe nur für die obersten Polygone angezeigt wird.
- Klicken Sie auf dem Menüband auf der Registerkarte Karte im Abschnitt Navigieren auf die Dropdown-Liste des Werkzeugs Erkunden, und klicken Sie auf Sichtbare Layer.
- Klicken Sie auf das nordöstlichste Postleitzahl-Polygon.
Im Bereich Pop-up wird angezeigt, dass sich an der Position, auf die Sie geklickt haben, drei Features aus dem Layer HBLL_by_zip_all_years befinden. Die Features für den obersten Layer werden im unteren Abschnitt des Pop-ups angezeigt. Sie sehen, dass das erste Feature in diesem Beispiel sich auf das Jahr 2018 bezieht. Im Postleitzahlbereich 95821 sind in diesem Jahr 24 Fälle aufgetreten.
Sie können oben im Bereich Pop-up auf die Features, die in diesem Fall nach dem Namen und dem Wort "Sacramento" aufgelistet werden, klicken, um die Attribute der anderen beiden Features zu sehen.
Das zweite der Features bezieht sich auf 2019, als es 48 Fälle im Postleitzahlbereich 95821 gab.
Die Daten in getrennten Layern nach Jahren anzeigen
Der Layer HBLL_by_zip_all_years enthält jetzt die Anzahlen für die Postleitzahlen nach Jahren, und Sie erstellen Kopien des Layers, damit Sie die Verteilung der Fälle hoher Blutbleiwerte für jedes Jahr visualisieren können.
- Klicken Sie im Bereich Inhalt mit der rechten Maustaste auf den Layer HBLL_by_zip_all_years, und klicken Sie auf Kopieren.
- Klicken Sie im Bereich Inhalt mit der rechten Maustaste auf Karte, und klicken Sie auf Einfügen.
- Klicken Sie auf den Namen der Kopie des Layers HBLL_by_zip_all_years, und geben Sie HBLL_by_zip_2018 ein, um den Layer umzubenennen.
- Doppelklicken Sie auf den Layer HBLL_by_zip_2018, und klicken Sie im Bereich Layer-Eigenschaften auf Definitionsabfrage.
- Klicken Sie auf Neue Definitionsabfrage.
- Klicken Sie im Abschnitt Definitionsabfragen in der Zeile Wobei gilt: auf die Dropdown-Liste, und klicken Sie auf das Feld testYear. Übernehmen Sie den Standardoperator ist gleich, klicken Sie auf die dritte Dropdown-Liste, und wählen Sie 2018 aus.
Damit wird eine Definitionsabfrage in Form einer WHERE-Klausel erstellt, mit der der Layer so gefiltert wird, dass auf der Karte nur die Polygone für 2018 angezeigt werden.
- Klicken Sie auf OK.
- Klicken Sie im Bereich Inhalt mit der rechten Maustaste auf den Layer HBLL_by_zip_2018, und klicken Sie auf Kopieren.
- Klicken Sie im Bereich Inhalt mit der rechten Maustaste auf Karte, und klicken Sie auf Einfügen.
- Benennen Sie die neue Kopie des Layers in HBLL_by_zip_2019 um.
- Öffnen Sie die Registerkarte Definitionsabfrage für den Layer HBLL_by_zip_2019.
- Klicken Sie auf Bearbeiten.
Sie ändern die Definitionsabfrage für den 2019-Layer so, dass die Daten für 2019 angezeigt werden.
- Ändern Sie den Wert des Jahres in 2019, und klicken Sie auf Übernehmen.
- Klicken Sie auf OK.
- Erstellen Sie eine Kopie des Layers HBLL_by_zip_2019, benennen Sie sie in HBLL_by_zip_2020 um, und aktualisieren Sie mit der gerade erlernten Vorgehensweise die Definitionsabfrage für den Layer so, dass die Daten für 2020 angezeigt werden.
Als Nächstes erkunden Sie zwei verschiedene Aggregationsmethoden, um den Minimal-Schwellenwert Ihrer Organisation zu erreichen. Ihre Vorgesetzten haben entschieden, dass Sie, wenn in einem Bereich wie etwa einer Postleitzahl mindestens fünf Beobachtungen vorliegen, Daten für diese Postleitzahl in einem Produkt für die öffentliche Freigabe anzeigen können.
- Klicken Sie auf das Werkzeug Erkunden und dann auf das mittige Postleitzahl-Polygon mit einer niedrigen Anzahl von Fällen.
Der oberste Layer im Bereich Inhalt, HBLL_by_zip_2020, wird zuerst angezeigt.
Im Jahr 2020 gab es in diesem Postleitzahl-Polygon nur zwei Fälle. Das ist weniger als der Minimalwert von fünf Fällen, den die Organisation für die Freigabe von Daten nach Postleitzahlen vorgegeben hat.
- Klicken Sie im Bereich Pop-up auf den Eintrag für Sacramento für den Layer HBLL_by_zip_2019.
Im Jahr 2019 sind in diesem Postleitzahlbereich drei Fälle aufgetreten. Sie können für diese Postleitzahl kombinierte Daten für 2019 und 2020 freigeben, da die Summe der Werte für diese beiden Jahre fünf entspricht.
Daten für mehrere Jahre kombinieren
Eine Methode, den Minimal-Schwellenwert der Organisation zu erreichen, besteht darin, Daten für mehrere Jahre zu aggregieren, bis Sie in jedem Postleitzahlbereich mindestens fünf Fälle haben. Bei dieser Vorgehensweise wird die zeitliche Auflösung verringert, damit die räumliche Auflösung erhalten bleibt.
- Klicken Sie auf dem Menüband auf der Registerkarte Karte in der Gruppe Auswahl auf Nach Attributen auswählen.
- Klicken Sie im Bereich Nach Attributen auswählen auf die Dropdown-Liste für Eingabezeilen und dann auf High_Blood_Level_Results.
- Klicken Sie auf Klausel hinzufügen.
- Klicken Sie im Abschnitt Wobei gilt: auf die Dropdown-Liste Feld auswählen und dann auf Blood Level Test Year.
- Übernehmen Sie den Standardoperator ist gleich.
- Klicken Sie auf die Dropdown-Liste für den Vergleichswert und dann auf 2020.
- Klicken Sie auf Klausel hinzufügen.
- Wählen Sie den logischen Operator Oder aus, um die Klauseln zu verbinden.
- Klicken Sie auf den logischen Operator Und und dann in der Dropdown-Liste auf Oder.
- Legen Sie das Feld auf Blood Level Test Year fest, und übernehmen Sie den Standardoperator ist gleich.
- Klicken Sie auf die Dropdown-Listen für die Werte und dann auf 2019.
Jetzt können Sie mit dem Werkzeug Nach Attributen auswählen Features mit den Werten "2020" oder "2019" im Feld Blood Level Test Year auswählen.
- Klicken Sie auf OK.
Die für 2020 oder 2019 aufgezeichneten High_Blood_Level_Results-Features sind ausgewählt. Jetzt können Sie das Werkzeug Zusammenfassen (innerhalb) verwenden, um die Anzahl der ausgewählten Features nach Postleitzahl zu erhalten.
- Klicken Sie auf dem Menüband auf der Registerkarte Analyse im Abschnitt Geoverarbeitung auf Werkzeuge.
- Suchen Sie nach dem Werkzeug Zusammenfassen (innerhalb), und öffnen Sie es.
Das Werkzeug sollte in der Liste Zuletzt verwendet im Bereich Geoverarbeitung aufgeführt sein.
- Wählen Sie für Eingabe-Polygone die Option Sacramento_Zip_Codes aus.
- Wählen Sie für Eingabe-Zusammenfassungs-Features die Option High_Blood_Level_Results aus.
- Legen Sie für den Parameter Ausgabe-Feature-Class den Namen HBLL_by_zip_2019_2020 fest.
Das Werkzeug Zusammenfassen (innerhalb) warnt Sie, dass für die Eingabe eine Auswahl vorliegt und dass nur diese Teilmenge der Datensätze verarbeitet wird. Das entspricht Ihren Wünschen.
- Lassen Sie Zusammenfassungsfelder und Gruppenfeld leer.
- Klicken Sie auf Ausführen.
Der neue Layer HBLL_by_zip_2019_2020 wird dem Bereich Inhalt hinzugefügt.
- Klicken Sie im Bereich Inhalt mit der rechten Maustaste auf den Layer HBLL_by_zip_2019_2020, und klicken Sie auf Attributtabelle.
- Klicken Sie mit der rechten Maustaste auf die Spaltenüberschrift für Count of Points, und klicken Sie auf Aufsteigend sortieren.
Aus der sortierten Spalte geht hervor, dass es in diesem Layer keine Postleitzahl-Polygone mit weniger als fünf Fällen gibt.
Gemäß dem Minimal-Schwellenwert der Organisation können die gruppierten Anzahlen für 2019 und 2020 auf Postleitzahlenebene freigegeben werden.
Postleitzahlgeometrien zusammenführen
Nehmen Sie an, Sie müssten die Zahlen für 2020 ohne Daten für 2019 melden. Sie verwenden eine zweite Methode, um den Minimal-Schwellenwert der Organisation zu erreichen, indem Sie Postleitzahlen für ein einziges Jahr aggregieren, bis jeder aggregierte Bereich mehr als fünf Fälle aufweist. Bei dieser Vorgehensweise wird die räumliche Auflösung verringert, damit die zeitliche Auflösung erhalten bleibt.
- Öffnen Sie den Bereich Geoverarbeitung.
- Geben Sie im Feld Suchen den Text build balanced zones ein, und klicken Sie in den Ergebnissen auf Ausgeglichene Zonen erstellen.
- Wählen Sie für Eingabe-Features den Layer HBLL_by_zip_2020 aus.
Im Werkzeug wird ein Hinweis angezeigt, aus dem hervorgeht, dass für die Eingabe ein Filter festgelegt ist. Das liegt daran, dass der Layer mit einer Definitionsabfrage so gefiltert wurde, dass nur die Daten für 2020 angezeigt werden.
- Geben Sie für Ausgabe-Features den Namen HBLL_2020_Zones ein.
- Übernehmen Sie für Zonenerstellungsmethode den Standardwert Attributziel.
- Klicken Sie im Abschnitt Kriterien für die Zonenerstellung mit Ziel auf Variable und dann auf Count of Points [Point_Count_1].
- Geben Sie im Feld Summe die Zahl 12 ein.
Dieser Wert ist höher als der für die Organisation geltende Minimalwert 5. Beim Werkzeug Ausgeglichene Zonen erstellen werden die Ziel-Variablen als Ziele für einen nach dem Zufallsprinzip befüllten genetischen Algorithmus verwendet. Die Ergebnisse entsprechen jedoch nur ungefähr den Zielwerten. Wenn Sie also einen niedrigeren Wert festlegen, weisen einige Zonen wahrscheinlich weniger als fünf Fälle auf. Weitere Informationen zur Funktionsweise von "Ausgeglichene Zonen erstellen" finden Sie in der Dokumentation.
- Wählen Sie für Räumliche Einschränkungen die Option Nur benachbarte Kanten aus.
Das Werkzeug Ausgeglichene Zonen erstellen kann jetzt ausgeführt werden.
Hinweis:
Wenn Sie andere Kriterien für die Zonen hätten, beispielsweise eine minimale Grundgesamtheit, könnten Sie eine weitere Variable und einen weiteren Wert hinzufügen. Für diese Aufgabe reicht es jedoch, Zonen mit einem Ziel von mindestens 12 Fällen zu erstellen. Weitere Informationen zum Werkzeug finden Sie in der Dokumentation. - Klicken Sie auf Ausführen.
Die Ergebnisse werden der Karte hinzugefügt. Die ursprünglichen Postleitzahl-Polygone bleiben erhalten, haben aber neue Attribute, mit denen sie unterschiedlichen Zonen zugeordnet werden. Sie fügen die Polygone mithilfe dieser Zonenattribute zusammen.
- Klicken Sie auf die Schaltfläche "Zurück", um zum Bereich Geoverarbeitung zurückzukehren. Suchen Sie nach dem Werkzeug Paarweise zusammenführen, und öffnen Sie es.
- Wählen Sie im Dialogfeld des Werkzeugs Paarweise zusammenführen für Eingabe-Features die Option HBLL_2020_Zones aus.
- Geben Sie für Ausgabe-Feature-Class die Zeichenfolge HBLL_2020_Zip_Dissolve ein.
- Wählen Sie in Dissolve-Felder die Option Zonen-ID aus.
- Wählen Sie in Statistikfelder die Option Count of Points aus, und übernehmen Sie für Statistiktyp die Standardoption Summe.
- Deaktivieren Sie Multipart-Features erstellen.
- Führen Sie das Werkzeug aus.
Der Layer mit zusammengeführten Zonen wird der Karte hinzugefügt.
- Klicken Sie im Bereich Inhalt mit der rechten Maustaste auf HBLL_2020_Zip_Dissolve, und klicken Sie auf Attributtabelle.
Die Punktanzahlen für die Zonen sind größer als 5, und die meisten entsprechen mindestens 12 Punkten. Das entspricht den Vorgaben der Organisation.
Als Analyst für das Präventionsprogramm bezüglich Bleivergiftung bei Kindern müssen Sie abwägen, welche Methode am besten dazu geeignet ist, aussagekräftige und verwertbare Daten für Gebiete, deren Daten oft unterdrückt werden, bereitzustellen. Die jahresübergreifende Aggregation hat zur Folge, dass die Endbenutzer zeitliche Variationen über die aggregierten Jahre hinweg nicht erkennen können. Sie können jedoch die Zahlen für kleine geographische Bereiche sehen, die ansonsten unterdrückt würden. Durch Aggregieren mehrerer Postleitzahlen werden zwar starke zeitliche Trends sichtbar, da jedes einzelne Jahr auf der Karte dargestellt wird, aber dafür nimmt die geographische Spezifität ab. Beide Methoden müssen im Hinblick auf die Zielgruppe und den Zweck der Berichterstellung und der Datenfreigabe beurteilt werden.
Koordinatenwerte zu Punkten hinzufügen
Bisher haben Sie für die Projektbeteiligten Karten erstellt, die sich auf Fragen zum Ausmaß der hohen Blutbleiwerte in Sacramento County, zur Gesamtanzahl der Fälle und zu verschiedenen Möglichkeiten der Betrachtung der räumlichen und zeitlichen Muster in den Daten konzentrieren.
Jetzt arbeiten Sie mit dem Team für Gleichbehandlung in Gesundheitsfragen zusammen. Das Team möchte erforschen, ob es weitere Faktoren gibt, die mit hohen Blutbleiwerten bei Kindern verknüpft sind, beispielsweise Geschlecht, Hautfarbe/ethnische Herkunft und Alter. Um das Team bei der Arbeit zu unterstützen, müssen Sie in der Lage sein, ein anonymisiertes Dataset auf Punktebene bereitzustellen, das alle relevanten Variablen für jedes Kind sowie dessen allgemeine Position enthält. Für diese Aufgabe verwenden Sie Koordinatenrundung und überprüfen einige Statistiken, um die Rundungsstufen zu rechtfertigen.
Zunächst fügen Sie den Punkt-Features Attribute mit Breitengrad- und Längengradwerten in Dezimalgrad hinzu.
- Suchen Sie im Bereich Geoverarbeitung nach dem Werkzeug Geometrieattribute berechnen, und öffnen Sie es.
- Wählen Sie für Eingabe-Features die Option High_Blood_Level_Results aus.
- Geben Sie in der ersten Zeile von Geometrieattribute im Feld Feld (vorhanden oder neu) das Wort Latitude ein.
Damit wird bei Ausführung des Werkzeugs der Attributtabelle ein neues Feld hinzugefügt, in dem die Breitengradwerte für die einzelnen Punkte gespeichert werden sollen.
- Klicken Sie im Feld Eigenschaft für das Feld Latitude auf die Dropdown-Liste und dann auf Y-Koordinate des Punktes.
Die Y-Koordinatenwerte aller Punkte werden im Feld "Latitude" hinzugefügt.
- Geben Sie in der zweiten Zeile von Geometrieattribute im Feld Feld (vorhanden oder neu) das Wort Longitude ein.
- Klicken Sie im Feld Eigenschaft für das Feld Longitude auf die Dropdown-Liste und dann auf X-Koordinate des Punktes.
- Klicken Sie im Feld Koordinatenformat auf die Dropdown-Liste und dann auf Dezimalgrad.
- Klicken Sie auf Koordinatensystem auswählen.
- Geben Sie im Fenster Koordinatensystem die Zeichenfolge WGS 1984 in das Suchfeld ein.
- Blenden Sie Geographisches Koordinatensystem und Welt ein.
- Klicken Sie auf WGS 1984 und dann auf OK.
- Klicken Sie im Werkzeug Geometrieattribute berechnen auf Ausführen.
- Klicken Sie im Bereich Inhalt mit der rechten Maustaste auf den Layer High_Blood_Level_Results, klicken Sie auf Attributtabelle, und scrollen Sie in der Tabelle nach rechts, um die neuen Felder Latitude und Longitude zu sehen.
Nun sind die Breitengrad- und Längengradwerte der Punkte in Attributen gespeichert, und Sie können neue Felder zum Speichern der gerundeten Werte erstellen und die neuen gerundeten Werte berechnen.
Hinweis:
Es gibt verschiedene Möglichkeiten zum Ändern der Breitengrad- und Längengradkoordinaten, die die Punktpositionen der Fälle hoher Blutbleiwerte darstellen. Sie können die Koordinaten abschneiden oder runden und dabei die einzelnen Punktpositionen an einem Gitternetz mit niedrigerer Auflösung im Untersuchungsgebiet fangen. Sie können auch die Positionen verfälschen, indem Sie die letzte Ziffer oder die beiden letzten Ziffern jeder Koordinate durch eine Zufallszahl ersetzen. Dadurch werden die einzelnen Punkte in eine zufällige Entfernung und Richtung verschoben.
Felder zum Speichern der gerundeten Koordinatenwerte hinzufügen
Sie erstellen zwei Felder, in denen die gerundeten Koordinatenwerte gespeichert werden sollen.
- Klicken Sie mit der rechten Maustaste auf High_Blood_Level_Results, zeigen Sie auf Datendesign, und klicken Sie auf Felder.
- Führen Sie in der Liste der Arten den Felder nach unten durch.
- Klicken Sie auf den Zeilenkopf für Latitude, und drücken Sie STRG, während Sie auf den Zeilenkopf für Longitude klicken.
- Klicken Sie mit der rechten Maustaste auf den Zeilenkopf für Latitude, und klicken Sie auf Kopieren.
- Klicken Sie mit der rechten Maustaste auf den Zeilenkopf für Latitude, und klicken Sie auf Einfügen.
- Klicken Sie in die Spalte Feldname für das Feld Latitude1, und geben Sie LatitudeRound ein.
- Klicken Sie in die Spalte Feldname für das Feld Longitude, und geben Sie LongitudeRound ein.
- Klicken Sie in die Spalte Alias für das Feld LatitudeRound, und geben Sie Latitude Rounded ein.
- Klicken Sie in die Spalte Alias für das Feld LongitudeRound, und geben Sie Longitude Rounded ein.
Die Namen und Feldaliasnamen für die kopierten Felder sind festgelegt.
- Klicken Sie auf dem Menüband auf der Registerkarte Felder im Abschnitt Änderungen auf Speichern.
Die beiden neuen Felder werden dem Tabellenschema für die Feature-Class High_Blood_Level_Results hinzugefügt.
- Schließen Sie die Ansicht Felder.
Die Werte für die Koordinaten runden
Als Nächstes berechnen Sie gerundete Koordinatenwerte und speichern sie in den neuen Feldern.
- Klicken Sie in der Attributtabelle für den Layer High_Blood_Level_Results mit der rechten Maustaste auf Latitude Rounded, und klicken Sie auf Feld berechnen.
- Klicken Sie im Dialogfeld des Werkzeugs Feld berechnen auf die Dropdown-Liste Ausdruckstyp und dann auf Arcade.
Arcade ist eine einfache Ausdruckssprache, die für ArcGIS geschrieben wurde.
- Geben Sie im Feld "Ausdruck" den folgenden Arcade-Ausdruck ein:
Round($feature.Latitude,2)
In diesem Code wird die Arcade-Funktion Round verwendet, mit der der Wert des Feldes Latitude Rounded so festgelegt wird, dass er dem Wert im Feld Latitude auf zwei Dezimalstellen gerundet entspricht. Damit werden die Positionsinformationen der Punkte auf das nächste hundertstel Grad gerundet.
- Klicken Sie auf die Schaltfläche Überprüfen.
- Klicken Sie auf Übernehmen.
Die gerundeten Werte werden berechnet und der Attributtabelle im Feld Latitude Rounded hinzugefügt.
- Berechnen Sie mit der gleichen Methode die Werte für das Feld Longitude Rounded.
Tipp:
Legen Sie im Werkzeug Feld berechnen die Option Feldname auf Longitude Rounded fest, und verwenden Sie den folgenden Arcade-Ausdruck:Round($feature.Longitude,2)
Die Felder Latitude Rounded und Longitude Rounded sollten auf zwei Dezimalstellen gerundet werden.
Hinweis:
Bei Koordinaten in einem planaren Raumbezug wie California State Plane oder UTM würden die Koordinatenwerte anstatt in Dezimalgrad in linearen Einheiten vorliegen. In diesem Fall müssten Sie einen entsprechenden Abstand für die gerundeten Punkte berechnen und auf diesen Abstand runden. Sie können zum Beispiel abhängig von den Einheiten und vom gewünschten Versatz auf die nächsten 1.000 Fuß oder 100 Meter runden.
An den gerundeten Koordinaten neue Punkte erstellen
Da Sie nun in zwei Feldern die gerundeten Werte haben, können Sie an diesen Positionen neue Punkte erstellen.
- Suchen Sie im Bereich Geoverarbeitung nach dem Werkzeug XY-Ereignis-Layer erstellen, und öffnen Sie es.
- Wählen Sie im Dialogfeld des Werkzeugs XY-Ereignis-Layer erstellen für XY-Tabelle die Option High_Blood_Level_Results aus.
- Wählen Sie für X-Feld die Option Longitude [LongitudeRound] aus.
- Wählen Sie für Y-Feld die Option Latitude [LatitudeRound] aus.
- Geben Sie für Layer-Name die Zeichenfolge High_Blood_Level_Results_Rounded ein.
Dadurch wird ein neuer Layer mit Punkten erstellt, wobei die berechneten Breitengrad- und Längengradwerte verwendet werden.
- Klicken Sie auf Ausführen.
Die aus den gerundeten Koordinatenwerten erstellten Punkte sind gitterförmig in Abständen von hundertstel Grad angeordnet.
Bei dieser Methode werden Punkte von ihren ursprünglichen Positionen verschoben, aber ein Teil des ursprünglichen räumlichen Musters bleibt erhalten, was für die Analyse hilfreich ist.
Heatmap mit ursprünglichen Punkten
Heatmap mit Punkten mit gerundeten Koordinaten
Vorsicht:
Denken Sie daran, dass Sie nach der Maskierung der Positionen auf Punktebene durch eine Methode wie die Koordinatenrundung dennoch nicht notwendige identifizierende geschützte Gesundheitsinformationen wie Namen, Geburtsdaten, Adressenfelder und die ursprünglichen Koordinatenwerte aus der Attributtabelle entfernen sollten, bevor Sie diese Daten an autorisierte interne Kollegen weitergeben. Durch das Verschieben der Punkte an gerundete Koordinatenwerte ist der Schutz geschützter Gesundheitsinformationen nicht gewährleistet, wenn Sie dennoch die ursprünglichen Adressen oder Koordinaten bereitstellen.
Sie können das Werkzeug Features exportieren verwenden, um eine Kopie einer Feature-Class zu exportieren, die Sie für ein autorisiertes Mitglied Ihrer Organisation freigeben möchten. In diesem Werkzeug können Sie im Abschnitt Felder auf die Listen der Felder zugreifen und wahlweise Felder löschen, die für das Projekt nicht erforderliche geschützte Gesundheitsinformationen enthalten.
Als Nächstes erstellen Sie Linien, die die ursprünglichen und die gerundeten Punkte verbinden, und bestimmen ihre Länge.
Die Ergebnisse der Koordinatenrundung dokumentieren
Für die Expert-Determination-Methode ist eine Anonymisierung notwendig, damit das Ausmaß, in dem Punkte verschoben wurden, quantifiziert und dokumentiert werden kann. In diesem Abschnitt überprüfen Sie einige Statistiken bezüglich der Punkteverschiebung mit der Koordinatenrundungsmethode und fassen zusammen, wie viele Punkte an jeden Gitternetzpunkt verschoben wurden.
- Suchen Sie nach dem Werkzeug XY in Linie, und öffnen Sie es.
- Wählen Sie für Eingabetabelle die Option High_Blood_Level_Results_Rounded aus.
- Geben Sie für Ausgabe-Feature-Class die Zeichenfolge HBLL_dist ein.
Mit dieser Line-Feature-Class werden die Koordinaten aller ursprünglichen Punkte mit der entsprechenden gerundeten Koordinatenposition verbunden. Sie verwenden die Linien-Features, um den Versatz zu berechnen.
- Wählen Sie für X-Startfeld die Option Longitude aus.
- Wählen Sie für Y-Startfeld die Option Latitude aus.
- Wählen Sie für X-Endfeld die Option Longitude [LongitudeRound] aus.
- Wählen Sie für Y-Endfeld die Option Latitude [LatitudeRound] aus.
- Wählen Sie für Linientyp die Option Geodätisch aus.
Dies ist der Standardwert. Er stellt die kürzeste Entfernung zwischen zwei Punkten auf der Erdoberfläche dar.
- Lassen Sie das Feld ID leer.
- Übernehmen Sie für Raumbezug den Standardwert GCS_WGS_1984.
- Klicken Sie auf Ausführen.
Der Layer HBLL_dist wird der Karte hinzugefügt. Je nach Zoomfaktor und Ausdehnung der Karte ist er möglicherweise schwer zu sehen. Wenn Sie einen der Bereiche mit höherer Dichte vergrößern, sehen Sie Verbindungslinien zwischen allen ursprünglichen Punkten und den entsprechenden gerundeten Koordinatenpositionen.
- Klicken Sie im Bereich Inhalt mit der rechten Maustaste auf den LayerHBLL_dist, und klicken Sie auf Attributtabelle.
Die Werte im Feld Shape_length sind kleine Dezimalwerte in Grad. Sie konvertieren die Längen in planare Einheiten.
Ein Entfernungsfeld hinzufügen und den Wert berechnen
Sie fügen der Attributtabelle des Layers "HBLL_dist" ein neues Feld hinzu und berechnen den Wert, um die Entfernungen für den Versatz der Punkte zu erhalten.
- Klicken Sie in der Attributtabelle für den Layer HBLL_dist auf Hinzufügen.
Sie fügen eines neues Feld zum Speichern der Entfernungen in linearen Einheiten hinzu.
- Geben Sie Distance in der Spalte Feldname für das neue Feld ein.
- Klicken Sie in der Spalte Datentyp für das Feld Distance auf die Dropdown-Liste und dann auf Double.
- Klicken Sie auf dem Menüband auf der Registerkarte Felder im Abschnitt Änderungen auf Speichern.
- Schließen Sie den Bereich Felder: HBLL_dist.
- Klicken Sie in der Attributtabelle HBLL_dist mit der rechten Maustaste auf die Spaltenüberschrift für das Feld Distance, und klicken Sie auf Geometrie berechnen.
- Klicken Sie im Dialogfeld des Werkzeugs Geometrie berechnen in der Dropdown-Liste Eigenschaft für den Wert, der dem Feld Distance hinzugefügt werden soll, auf Länge (geodätisch).
- Wählen Sie für Längeneinheit die Option Meter aus.
- Klicken Sie auf OK.
Die Längen der Linien in Meter werden als Attribute im Feld Distance hinzugefügt.
- Klicken Sie mit der rechten Maustaste auf die Spaltenüberschrift Distance, und klicken Sie auf Statistiken visualisieren.
Im Bereich Statistiken für das Feld Distance werden Summenstatistiken für das Entfernungsfeld angezeigt. Daraus geht hervor, dass die mittlere Entfernung, um die Punkte an die gerundete Koordinatenposition verschoben wurden, 376 Meter beträgt. Die minimale Entfernung beträgt 18 Meter und die maximale Entfernung 684 Meter.
Das Werkzeug Statistiken erstellt außerdem ein Histogramm der Entfernungswerte, mit dem Sie Ihre Entscheidungen bei der Erstellung dieses anonymisierten Produkts mit Koordinatenrundung untermauern können.
- Schließen Sie den Bereich Diagrammeigenschaften.
- Schließen Sie das Diagramm Verteilung von Distance.
Die Punkte an den gerundeten Koordinaten zählen
Als Nächstes berechnen Sie, wie viele gestapelte Punkte nach der Koordinatenrundung vorhanden sind. Beim Analysieren von Datenschutz und Anonymisierung können Sie sich diese Anzahl vorstellen als Darstellung der Anzahl der Fälle im Pool, die die Identität eines beliebigen einzelnen Falles darstellen können. Je mehr Fälle die einzelnen Stapel enthalten, umso größer ist der Pool, und umso besser sind die Stapel für Anonymisierungszwecke geeignet. Sie analysieren die Punkte geographisch, stellen aber fest, dass Sie auch die Eindeutigkeit aller Attribute, die Sie in einer für die Freigabe vorgesehenen Tabelle beibehalten haben, überprüfen müssen. Der Grund ist, dass mit einer bestimmten Kombination von Attributen auch eine Person identifiziert werden könnte. Daher sollten Sie den Projektbeteiligten das Dataset mit den auf ein Minimum reduzierten Daten bereitstellen.
- Suchen Sie im Bereich Geoverarbeitung nach dem Werkzeug Ereignisse erfassen, und öffnen Sie es.
- Wählen Sie für Eingabe-Ereignis-Features die Option High_Blood_Level_Results_Rounded aus.
- Geben Sie für Ausgabe-Weighted-Point-Feature-Class die Zeichenfolge HBLL_rounded_counts ein.
- Klicken Sie auf Ausführen.
In diese Fall enthalten einige der Cluster bis zu 15 gestapelte Punkte, viele andere dagegen nur ein oder zwei. Bei einem größeren Dataset hätten Sie möglicherweise dichter gestapelte Punkte.
Sie haben Koordinatenrundung verwendet, um die Positionen sensibler Punktdaten zu maskieren und dabei mehrere zusätzliche mit den Punkten verknüpfte Attribute beizubehalten. Die Forscher im Bereich der Gleichbehandlung in Gesundheitsfragen haben nun die beste Gelegenheit, zusätzliche Analysen durchzuführen und mithilfe der anonymisierten Daten umfassendere Berichte zur Bleivergiftung bei Kindern in Sacramento zu erstellen. Um Ihre Anonymisierungsmethode zu dokumentieren, haben Sie Statistiken zu den Versatzentfernungen für die einzelnen Punkte berechnet und den Pool der Punkte in den einzelnen Gitternetzpositionsstapeln gezählt. Denken Sie daran, dass es auch wichtig ist, Attribute zu entfernen, die zur Reidentifizierung führen können (z. B. Adressen oder ursprüngliche Positionskoordinaten), und dass Sie als Best Practice die Anzahl der Attribute im bereitgestellten Dataset auf ein Minimum reduzieren sollten.
- Klicken Sie auf Projekt speichern, um das Projekt zu speichern.
Fortgeschrittene Methoden überprüfen
Sie haben jetzt verschiedene Methoden zum Anonymisieren von Daten für verschiedene Anwendungsfälle kennengelernt. Es kann Situationen geben, in denen Sie fortgeschrittenere Methoden anwenden müssen. In diesem Abschnitt lernen Sie zwei fortgeschrittene Methoden für die Anonymisierung von Daten kennen: Geomaskierung und differenzieller Datenschutz.
Je nachdem, in welchem Bereich Sie mit GIS arbeiten, sollten Sie tiefer in die Materie eintauchen und sich selbst über die folgenden Verfahren informieren, damit Sie sie bei Bedarf anwenden können.
GeomaskierungDer Begriff "Geomaskierung" deckt verschiedene Methoden ab, mit denen die geographische Position einzelner Punkte geändert wird, jedoch auf andere und effektivere Weise als bei der Koordinatenrundung. Zwei wichtige Anforderungen müssen erfüllt sein, damit die Geomaskierung sinnvoll ist. Erstens muss die Verfälschung des Punktes unberechenbar sein – dadurch wird die Vertraulichkeit der Daten gewährleistet. Zweitens sollte der Punkt so verschoben werden, dass räumliche Beziehungen innerhalb des Datasets erhalten bleiben. Schließlich geht es bei Ihrer Arbeit mit GIS darum, Muster aufzudecken. Im folgenden Abschnitt wird eine bestimmte Geomaskierungsmethode vorgestellt, die Ringmethode. Als Nächstes erfahren Sie, wie Sie mit k-Anonymität das Ergebnis der Geomaskierung statistisch auswerten. Abschließend wird ein Werkzeug vorgestellt, mit dem der gesamte Prozess automatisiert wird.
Ringmethode für GeomaskierungDer Geomaskierung mit der Ringmethode liegt der Gedanke zugrunde, dass die Vertraulichkeit verbessert wird, indem sichergestellt wird, dass ein nach dem Zufallsprinzip verschobener Punkt in keinem Fall wieder an der ursprünglichen Position dargestellt werden kann. Dies bedeutet, dass ein Punkt um eine Mindestentfernung von der ursprünglichen Position versetzt werden muss. Gleichzeitig gilt für jeden Punkt auch ein berechneter maximaler Versatz, damit räumliche Muster erhalten bleiben. Durch diese beiden Entfernungen entsteht eine ringförmige Versatzzone, innerhalb derer der ursprüngliche Punkt verschoben werden kann. In diesem Artikel finden Sie weitere Informationen zur Ringmethode.
Bei der Expert-Determination-Methode für die Anonymisierung muss der Prozess dokumentiert werden, und es muss begründet werden, wie mit dem Prozess das Risiko der Reidentifizierung von Personen auf ein sehr geringes Maß reduziert wird. Bei Verwendung des Geomaskierungsverfahrens wird diese Begründung durch die k-Anonymitätsstatistik als Messwert unterstützt. Hier finden Sie weitere Informationen zur k-Anonymität. Der allgemeine Gedanke ist, dass k-Anonymität die Anzahl der Haushalte in Ihrem Dataset darstellt, von denen eine anonymisierte Person nicht unterschieden werden kann. Wenn Sie beispielsweise für k den Minimalwert 5 festgelegt haben (kMin=5), drücken Sie damit aus, dass es mindestens fünf Haushalte (oder Personen) gibt, die potenziell dem ursprünglichen Punkt entsprechen.
Die wichtigste Entscheidung für Ihre Organisation besteht darin, im Hinblick auf den Datenschutz festzulegen, welcher Minimalwert für k akzeptabel ist. Es gibt zwar keinen einzigen Standardwert, aber es kann hilfreich sein, die Richtlinien verschiedener Behörden auf Bundesstaats- und Bundesebene bezüglich der Anzahl kleiner Zellen zu überprüfen. Kleine Zellen sind definiert als die Anzahl von Personen, die der gleichen Feature-Kombination entsprechen. Die Abstimmung mit den Richtlinien maßgeblicher Regierungsbehörden kann die Entscheidung Ihrer Organisation über die Entwicklung eines eigenen Standards unterstützen. Berücksichtigen Sie auch, dass ein Standardwert für k nicht zwangsläufig für jede Situation geeignet ist.
MapMasqWenn Sie regelmäßig Geomaskierung oder andere Verfahren zur Anonymisierung von Daten anwenden müssen, können Sie MapMasq in Erwägung ziehen. Dabei handelt es sich um eine vom Esri Partner Axim Geospatial erstellte Lösung. Sie funktioniert wie alle ArcGIS-Erweiterungen und automatisiert den Geomaskierungsprozess und die k-Anonymitätsauswertung.
Differenzieller DatenschutzDifferenzieller Datenschutz ist ein neueres Verfahren, das von vielen als besser für den Schutz personenbezogener Daten geeignet beurteilt wird. Es eignet sich am besten für umfangreiche Datasets. Tatsächlich wird diese Methode seit der Volkszählung im Jahr 2020 vom U.S. Census Bureau für die Datenberichterstellung verwendet. Beim differenziellen Datenschutz werden Daten (alle Daten) in einem Dataset mathematisch so geändert, dass die Identifizierung von Personen unmöglich ist, während der Nutzen des Datasets erhalten bleibt. Gemäß einem Parameter (Epsilon), der als Datenschutzverlust-Budget bezeichnet wird, wird Rauschen in das Dataset eingefügt. Die Verwendung von Epsilon bedeutet, dass das Preisgaberisiko für die Daten quantifiziert werden kann, was im Hinblick auf die Einhaltung von Organisationsrichtlinien sowie die erforderliche Dokumentation für Expert Determination hilfreich ist.
Eine Möglichkeit, sich die Funktionsweise des differenziellen Datenschutzes vorzustellen, ist eines dieser Bildmosaike, bei denen Hunderte von gewöhnlichen Bildern so zusammengesetzt werden, dass sich ein neues größeres Bild ergibt. Wenn Sie auf die Ebene der Einzelbilder zoomen, können Sie mehrere Bilder ersetzen oder an andere Stellen verschieben, und dennoch sieht das Gesamtbild beim Herauszoomen im Wesentlichen gleich aus. Das große Bild ist möglicherweise nicht ganz so scharf wie ein Foto, aber die Qualität steigt, wenn Sie mehr einzelne Bilder hinzufügen.
Es gibt noch viel zu lernen über den differenziellen Datenschutz und seinen Nutzen für GIS im Gesundheitsbereich. Dies ist ein Bereich, auf den Sie achten sollten, da Sie möglicherweise bereits Volkszählungsdaten verwenden, die mit dieser Methode freigegeben wurden, und weil es möglicherweise Werkzeuge gibt, die diese Technik bei Ihrer eigenen Arbeit mit räumlichen Daten unterstützen.
Weitere Informationen zu den Auswirkungen des differenziellen Datenschutzes auf die US-Volkszählungsdaten von 2020 finden Sie im Esri Bericht zur Methodik aus dem Juni 2022 sowie in diesem Handbuch des U.S. Census Bureau zur Vermeidung der Datenpreisgabe.
In diesem Abschnitt haben Sie zwei fortgeschrittene Methoden für die Anonymisierung von Daten kennengelernt, die Sie Ihren Werkzeugen für die Einhaltung von HIPAA-Regeln und anderen Datenschutzbestimmungen hinzufügen können. Beim Geomasking geht es darum, Positionsdaten so zu verändern, dass eine kMin-Anzahl von Personen entsteht, die den ursprünglichen Punkt darstellen könnten. Beim differenziellen Datenschutz wird alles gemäß dem Datenschutzverlust-Budget (Epsilon) angepasst, um Personen ordnungsgemäß zu anonymisieren. Sie sind jetzt auf gutem Weg, Ihre Daten und Ihre Organisation vor Datenschutzverstößen zu bewahren.
Dieses Lernprogramm zur Anonymisierung von Daten für Visualisierung und Freigabe umfasst eine Betrachtung von HIPAA, dem US-amerikanischen Gesetz zum Datenschutz für persönliche Gesundheitsinformationen. Sie haben mehrere Methoden kennengelernt, mit denen Sie die Informationen sicher auf einer Karte darstellen und visualisieren können. Darüber hinaus haben Sie Methoden kennengelernt, mit denen Sie die Daten in dynamischen Webkarten ebenso wie als Dataset für andere, die die Daten möglicherweise zu Forschungszwecken oder anderen Zwecken nutzen, freigeben können. Außerdem haben Sie fortgeschrittene Methoden kennengelernt, auf die Sie zurückgreifen können, wenn Sie leistungsstärkere Optionen für die Beibehaltung von Daten auf Punktebene benötigen.
Ein einziges Lernprogramm kann nicht sämtliche Situationen behandeln. In diesem Lernprogramm haben Sie gelernt, das Problem räumlich zu betrachten und die Vor- und Nachteile verschiedener Methoden zu berücksichtigen. Unabhängig davon, welche Methoden Sie bei der Arbeit mit geschützten Gesundheitsinformationen anwenden, sollten Sie sorgfältig abwägen und sich über die internen Organisationsrichtlinien informieren, um sie einzuhalten und die Sicherheit zu gewährleisten.
Weitere Lernprogramme finden Sie in der Lernprogrammgalerie.