Explorer les données
Dans ce didacticiel, vous allez endosser le rôle d’un analyste de données travaillant sur les résultats d’analyse de niveaux de plomb relevés dans le sang des enfants. Vous devez préparer les données en vue de leur analyse, visualisation et partage. Les données seront utilisées à différentes fins par différents groupes. Certains membres du personnel doivent avoir accès aux données ponctuelles pour réaliser des opérations, telles que la gestion des cas et les évaluations des sites. D’autres ont besoin de données agrégées pour communiquer avec l’équipe dirigeante tandis que certaines communications seront partagées avec le public. D’autres membres encore doivent analyser les changements au fil du temps et suivre les résultats des interventions et des efforts d’atténuation. En raison de la législation sur la vie privée protégeant les données médicales, vous devez préparer différents produits de données dérivées à l’aide de diverses stratégies d’anonymisation.
Les données de ce didacticiel sont fictives. Elles ont été créées pour permettre la démonstration du processus dans le cadre de ce didacticiel. Elles sont conçues pour paraître plausibles pour le processus et ont la même structure que les données que vous utiliseriez en pareille situation. Cependant, du fait des restrictions légales sur le partage des données réelles de ce type, elles ont été entièrement inventées. Ne vous fiez pas à ces données. N’essayez pas d’en tirer des conclusions, ni de prendre des décisions concrètes sur la base de celles-ci. N’utilisez pas ces données pour entraîner des modèles d’IA ou d’apprentissage machine, les résultats ne seraient pas exacts. Les adresses figurant dans ce jeu de données sont des adresses réelles prévues pour faire la démonstration du géocodage et fournir des données plausibles à dépersonnaliser. Elles n’ont toutefois aucune relation réelle avec ces adresses. Les valeurs de noms ou d’attributs associées à ces adresses dans les jeux de données sont imaginaires et n’ont aucun lien avec des personnes ou des situations réelles dans les lieux désignés.
Télécharger et inspecter les données
Vous allez d’abord télécharger et examiner les données.
- Téléchargez les données de projet dans le fichier compressé Blood_Lead_Levels_Zipped_Folder.zip.
Un fichier nommé Blood_Lead_Levels_Zipped_Folder.zip est téléchargé sur votre ordinateur.
Selon le navigateur et les paramètres que vous utilisez, il peut être enregistré dans le dossier Téléchargements ou sur le Bureau.
- Recherchez le fichier téléchargé sur l’ordinateur et utilisez un utilitaire de compression pour extraire le fichier zip dans un dossier. Indiquez l’emplacement du dossier en sortie et cliquez sur Suivant.
Il s’agit d’une archive zip protégée par un mot de passe. Une fenêtre de saisie d’un mot de passe s’ouvre.
- Dans Password (Mot de passe), saisissez le mot de passe I_Understand_This_Is_Fictitious_Data (Je_Comprends_Que_les_Informations_Sont_Fictives) et cliquez sur OK.
L’utilisation de ce mot de passe indique que vous reconnaissez que les données sont fictives.
Le fichier zip est extrait sous forme d’un dossier sur l’ordinateur.
- Ouvrez le dossier dans lequel vous avez extrait le fichier zip.
Il contient un fichier nommé BloodLeadLevels.ppkx. Un fichier .ppkx est un paquetage de projet ArcGIS Pro, un fichier compressé prévu pour partager des projets et qui peut contenir des cartes, des données et d’autres fichiers pouvant être ouverts dans ArcGIS Pro.
- Double-cliquez sur BloodLeadLevels.ppkx pour l’ouvrir dans ArcGIS Pro. À l’invite, connectez-vous avec votre compte ArcGIS.
Une carte de la ville de Sacramento, en Californie, apparaît. La couche de points High_Blood_Level_Results (Résultats_Niveaux_Sanguins_Élevés) fictive localise l’adresse du domicile des enfants présentant des concentrations élevées de plomb dans le sang.
Votre programme de surveillance du plomb et d’atténuation des risques utilise le résultat des prélèvements sanguins et la localisation des patients pour déterminer les sources d’exposition au plomb au domicile de ces enfants. Les données sont également utilisées pour étudier la possible exposition des autres membres de la famille ainsi que pour remonter à l’origine de la présence du plomb sur le lieu de travail, à l’école et dans les sites communautaires.
- Si la table attributaire High_Blood_Level_Results (Résultats_Niveaux_Sanguins_Élevés) n’est pas encore ouverte, dans la fenêtre Contents (Contenu), cliquez avec le bouton droit sur High_Blood_Level_Results (Résultats_Niveaux_Sanguins_Élevés) et sélectionnez Attribute Table (Table attributaire).
De nombreux pays ont promulgué des politiques de protection de la vie privée eu égard aux informations sensibles, telles que les données d’ordre financier ou médical. Aux États-Unis, l’HIPAA (Health Insurance Portability and Accountability Act, loi sur la portabilité et la responsabilité en matière d’assurance-maladie) a été adopté en 1996 et forme les principes de base en matière de pratiques sécurisées pour les données médicales.
Le Ministère américain de la Santé et des services à la personne (Health and Human Services) définit les informations de santé protégées (PHI) comme des « informations de santé personnellement identifiables détenues ou transmises par une entité visée ou un associé commercial, sous quelque forme ou support que ce soit, par voie électronique, sur papier ou à l’oral. Les informations de santé personnellement identifiables incluent les données démographiques qui ont trait à :
- à l’état de santé physique ou mental passé, présent ou futur d’une personne,
- à la prestation de soins de santé à une personne ou
- au paiement des soins de santé passés, présents ou futurs d’une personne,
qui identifient la personne ou pour laquelle il est raisonnable de croire qu’elles permettent d’identifier la personne. Les informations de santé personnellement identifiables incluent de nombreux identifiants courants (par exemple, le nom, l’adresse, la date de naissance et le numéro de sécurité sociale) ».
- Examinez les attributs dans la table.
La couche contient des données fictives en ce qui concerne l’adresse du domicile, les nom et prénom, la date de naissance, l’âge, la race, l’origine ethnique, le sexe, le résultat du prélèvement sanguin et année du prélèvement. Si ces données étaient réelles, elles seraient considérées comme des informations à caractère privé et ultra confidentielles sur l’état de santé, l’identité et la localisation précise de mineurs.
Il s’agit d’informations utiles et précieuses qui doivent être traitées avec la plus grande prudence conformément à la législation sur la protection des données personnelles médicales. Comme votre travail consiste à utiliser et partager ces données, vous devez connaître la législation et les méthodes de dépersonnalisation des données afin de les partager.
La table de données High_Blood_Level_Results (Résultats_Niveaux_Sanguins_Élevés) inclut des informations sur les taux de plomb dans le sang et des informations identifiant les enfants, notamment leur nom, adresse et date de naissance, il s’agit donc d’informations de santé protégées selon l’HIPAA et doit être soigneusement protégée conformément à la règle de la vie privée de l’HIPAA.
Les données de ce genre peuvent également être partagées avec les membres d’une équipe ayant reçu une autorisation d’accès. Cette autorisation est déterminée par les principes internes de votre organisation et concerne généralement les membres dont les responsabilités nécessitent un accès aux informations de santé protégées ou ceux qui bénéficient d’un accès via les processus internes tels qu’un comité de protection des personnes (IRB) à des fins de recherche et d’évaluation.
Vous pouvez vous demander si vous êtes lié par ces règles.
- Lisez la section Are You a Covered Entity? de la page Centers for Medicare and Medicaid Services (CMS).
Cette page fournit des informations sur les personnes visées par la réglementation de l’HIPAA. L’outil Covered Entity Decision Tool (PDF) fournit un arbre de décision interactif que vous pouvez utiliser pour déterminer si vous êtes une entité visée soumise aux règles de l’HIPAA.
En général, les entités visées sont les suivantes :
- Régime de soins médicaux – Personnes qui fournissent les soins médicaux ou paient les frais associés.
- Prestataires de soins de santé – Personnes qui transmettent les données par électronique à toutes fins utiles (facturation, orientations, etc).
- Organismes de centralisation des données – Organisations qui traitent les informations médicales non standard pour respecter les normes de contenu ou de format des données, ou inversement, pour le compte d’autres organisations.
- Associés commerciaux – Personne ou organisation externe à l’entité visée qui réalise certaines fonctions au nom de l’entité visée, lesquelles impliquent l’utilisation ou la divulgation d’informations personnelles identifiables d’ordre médical. En pareille situation, l’entité visée doit avoir conclu un contrat avec son associé qui reçoit les mêmes devoirs et obligations en matière de protection de la vie privée que ceux qui incombent à l’entité visée.
Dans le cadre de ce didacticiel, vous êtes une entité visée puisque votre organisation gère des cliniques.
Les données de santé comme la couche des taux de plomb dans le sang sont extrêmement précieuses pour l’identification des disparités en matière de santé, d’évaluation des politiques et de la planification stratégique. Vous devez utiliser des méthodes qui protègent la vie privée des personnes tout en optimisant l’utilité des données pour ces démarches importantes.
- Lisez la section De-identification Standard de la page HHS.gov.
Vous pouvez utiliser les données SIG avec les informations de santé protégées, mais devez les conserver sur un équipement informatique local dûment sécurisé ou dans une géodatabase ArcGIS Enterprise sécurisée. Ces données ne peuvent pas être hébergées dans ArcGIS Online.
Si vous partagez les données, vous devez les anonymiser au préalable.
L’anonymisation des données a pour objectif de séparer les informations identifiables des informations concernant la santé afin de garantir un très faible risque de ré-identification des personnes associées aux données divulguées.
Le processus d’anonymisation consiste à supprimer les identifiants du jeu de données de manière à réduire considérablement le risque que quiconque puisse retrouver l’identité des personnes figurant dans ce jeu de données. Les autorités de régulation savent que même avec l’application de méthodes d’anonymisation adéquates, le risque d’identification n’est jamais nul. Par conséquent, les conditions d’anonymisation tendent à s’assurer que le risque d’une identification est très faible. Les deux méthodes admises pour l’anonymisation selon l’HIPAA sont indiquées ci-dessous.
Safe Harbor, la première méthode d’anonymisation, nécessite que vous enleviez les 18 identifiants suivants des données :
- Noms
- Toutes les sous-divisions géographiques inférieures à celles d’un État
- Tous les éléments de date (sauf l’année) directement associés à une personne
- Numéros de téléphone
- Identifiants et numéros de série de véhicule
- Numéros de fax
- Identifiants et numéros de série d’appareil
- Adresses e-mail
- URL (Uniform Resource Locator) de sites Web
- Numéros de sécurité sociale
- Adresses IP (Internet Protocol)
- Numéros de dossier médical
- Identifiant biométrique, empreintes digitales et enregistrement audio compris
- Numéros de dossier médical
- Photos de face ou toute image similaire
- Numéros de comptes
- Numéros de certificat/licence
- Tout autre numéro d’identification unique, caractéristique ou code à l’exception de ceux qui sont autorisés
Pour être conformes, la plupart des données de la couche High_Blood_Level_Results (Résultats_Niveaux_Sanguins_Élevés) devraient être supprimées.
Cette méthode n’est pas très pratique si vous utilisez un SIG dans le domaine médical, mais il est tout de même intéressant de la connaître. Elle est plus simple que la deuxième méthode, mais nécessite une réflexion un peu plus poussée outre le retrait des 18 identifiants. Le gestionnaire de données doit ainsi étudier si le jeu de données comporte d’autres identifiants qui permettraient raisonnablement d’identifier une personne (un intitulé de poste, par exemple).
Vous avez peut-être remarqué un problème avec le deuxième identifiant, à savoir Toutes les sous-divisions géographiques inférieures à celles d’un État. Cet identifiant rendrait l’utilisation du SIG extrêmement délicate à une résolution utile telle que la ville ou le quartier.
Vous partiriez de ces points :
Pour obtenir les données au niveau de l’État comme celles figurant dans la carte suivante :
Les règles Safe Harbor permettent d’utiliser les trois premiers chiffres d’un code postal si, conformément aux données actuelles du recensement américain, le code postal à trois chiffres désigne plus de 20 000 personnes. Or, peu de personnes travaillant avec un SIG dans le domaine médical utilisent des codes postaux à trois chiffres et les utilisateurs s’intéressent souvent aux effets sur la santé à des niveaux géographiques plus fins.
Pour optimiser l’utilisation des données, vous devez utiliser la seconde méthode d’anonymisation appelée la méthode Expert Determination.
- Passez en revue les instructions sur l’anonymisation Expert Determination.
La méthode de détermination d’expert est très flexible. Elle implique qu’un utilisateur disposant des connaissances et de l’expertise adéquates applique des principes et des méthodes généralement acceptés sur le plan scientifique et statistique de manière à anonymiser les données, et ce, avec un risque très faible de ré-identification. Les techniques utilisées pour parvenir à la détermination d’expert sont documentées, ce qui constitue un élément central de cette méthode.
Vous avez examiné les données sur les concentrations élevées de plomb dans le sang. Vous avez également étudié la définition des informations de santé protégées, les entités qui doivent se conformer à l’HIPAA et les deux méthodes d’anonymisation, Safe Harbor et Expert Determination. Comme vous utilisez les PHI dans vos activités en lien avec le SIG, il est important de prendre les mesures appropriées pour vous conformer à la législation et empêcher toute atteindre à la vie privée.
Vous devez déterminer la meilleure méthode pour fournir le bon niveau de données aux différents membres de l’équipe, en fonction de leur rôle et de leurs tâches. Vous allez fournir des données ponctuelles identifiables à certains utilisateurs internes. Ces utilisateurs autorisés peuvent effectuer des études et gestion des cas, à la recherche de possibles sources d’exposition. Ils peuvent avoir besoin des adresses personnelles pour calculer les itinéraires optimisés pour effectuer des visites à domicile. À l’inverse, d’autres membres auront besoin d’un jeu de données minimum anonymisé viable.
Dans les sections suivantes, vous allez appliquer la méthode Expert Determination et plusieurs techniques SIG pour créer des produits de données afin de soutenir les efforts en matière de prévention d’intoxication au plomb infantile de votre organisation.
Créer des visualisations basées sur des cartes
Dans cette section, vous allez symboliser les données relatives aux concentrations sanguines de plomb sur les cartes à l’aide de méthodes qui préservent l’intégrité des données et les modèles spatiaux tout en veillant au respect de la vie privée des personnes concernées dans le jeu de données.
Différentes méthodes sont utiles pour les différents cas d’utilisation. Vous devez tenir compte de l’intention, du public et du dispositif de diffusion de la carte. Des considérations différentes s’appliquent selon que la carte est statique (PDF, image ou carte papier) et que l’utilisateur ne peut pas interagir avec les données, et selon que l’utilisateur peut explorer les données dans une application ou un navigateur Web. Dans ce dernier cas, il peut effectuer des zooms avant ou arrière et examiner éventuellement des points particuliers et leurs données attributaires correspondantes.
Créer une carte de densité
Vous avez besoin de créer une carte sous forme d’une affiche imprimée destinée à informer les parties concernées et le grand public sur l’étendue de l’intoxication au plomb chez les enfants de Sacramento afin de communiquer sur les risques et cibler les interventions, l’éducation à la santé et les activités connexes. Une carte de densité est une bonne solution dans le cas présent, car elle présente une surface lissée montrant la densité des points de votre couche tout en floutant la localisation des points.
- Dans la fenêtre Contents (Contenu), cliquez avec le bouton droit sur High_Blood_Level_Results (Résultats_Niveaux_Sanguins_Élevés), puis cliquez sur Symbology (Symbologie).
- Dans la fenêtre Symbology (Symbologie), cliquez sur la flèche de la liste déroulante Primary Symbology (Symbologie principale) et sur Heat Map (Carte de densité).
La symbologie de la couche change pour afficher les données sous forme d’une carte de densité.
La section rouge et jaune à intensité élevée dans la partie nord-est de la ville représente une zone dans laquelle résident de nombreux enfants avec un taux élevé de plomb dans le sang. Notez que vous ne pouvez pas voir le nombre d’enfants concernés, ni la localisation exacte de leur lieu de résidence. Pour protéger davantage la confidentialité des patients, vous pouvez afficher cette carte de densité sans inclure d’autres limites administratives, telles que les lignes de délimitation des comtés ou des codes postaux. Vous pouvez également changer le fond de carte pour choisir un fond qui n’affiche pas les noms de rues afin d’éviter tout risque de ré-identification des données confidentielles. Cette technique de visualisation donne de bons résultats pour les jeux de données comportant un grand nombre d’entités ponctuelles et dont certaines sont proches les unes des autres.
Remarque :
Les zones de la carte de densité qui sont les plus visibles sont parfois appelées points chauds. Même s’il est raisonnable de décrire ces modèles spatiaux de cette manière, veillez à pas confondre ce type de point chaud avec les résultats de l’outil Analyse de points chauds. Celui-ci détermine statistiquement l’agrégation dans une zone d’étude. - Sur le ruban, cliquez sur l’onglet Share (Partager) et, dans la section Output (Sortie), cliquez sur Capture To Clipboard (Capturer dans le Presse-papiers).
Une image statique de la carte de densité est copiée dans le Presse-papiers. Vous pouvez la coller dans une présentation ou dans un document pour partager cet élément sans divulguer les données personnelles.
- Effectuez un zoom avant sur la zone intense située au nord-est de la ville.
Au fur et à mesure que vous vous rapprochez de cette zone, la symbologie de la carte de densité change pour montrer la densité relative des points à l’écran.
Plus vous effectuez un zoom avant pour vous rapprocher, plus les détails sont visibles. Même si les données ne permettent pas de retrouver les points d’origine qui sont floutés, une carte de densité n’est plus adaptée, à certaines échelles, pour afficher des données sensibles tout en préservant leur confidentialité.
Remarque :
Il est important de noter que si votre intention avait été de créer une carte interactive au lieu d’une carte imprimée, le rendu dynamique de cette carte de densité dévoilerait des informations personnelles. Lors de la création de cartes interactives, prenez garde aux cartes de densité affichées de façon dynamique et pensez à limiter le facteur de zoom qu’il est possible d’appliquer à l’aide du rendu dépendant de l’échelle.À certains facteurs de zoom, vous pouvez déterminer la localisation du domicile correspondant aux points floutés.
- Cliquez sur l’un des points floutés.
La fenêtre contextuelle présente les attributs du point. L’utilisation d’une symbologie de carte de densité ne protège pas les données des patients lorsque la carte est interactive. Les points et leurs attributs sont toujours présents.
- Dans la fenêtre Symbology (Symbologie), dans la zone Radius (Rayon) saisissez 50.
La symbologie de la carte de densité change en recalculant la densité à l’aide d’une valeur de plus grand rayon.
Cette nouvelle représentation pourrait être capturée pour afficher la densité des cas associés à des taux élevés de plomb dans le sang à l’échelle d’un quartier.
Il est utile d’explorer différents paramètres de symbologie de carte de densité pour représenter le degré et l’échelle d’agrégation de vos données afin de trouver le bon compromis entre la nécessité de représenter précisément les données géographiques et l’obligation de confidentialité envers les patients. De nombreuses questions liées à la santé, notamment l’apparition de maladies, s’illustrent à différentes échelles géographiques. Dans certaines circonstances, l’apparition a une origine ponctuelle tandis que d’autres fois, le problème implique une transmission au niveau de la communauté toute entière. Comprendre et utiliser les données à l’échelle qui convient est essentiel pour réussir une analyse SIG en matière de santé.
L’image de la carte statique à l’échelle de la ville peut être ajoutée aux rapports informant les intéressés et le public sur l’étendue de l’intoxication au plomb chez les enfants de la collectivité. Les cartes de densité sont utiles pour présenter la répartition des données et là où elles sont particulièrement concentrées. Vous pouvez obtenir davantage d’informations dans la symbologie de carte de densité dans l’aide.
- Cliquez sur Save Project (Enregistrer le projet) pour enregistrer votre projet.
Créer une carte d’agrégation de points
Vous devez établir une carte de planification statique pour la direction d’un hôpital qui montre clairement où se trouvent les fortes et les faibles concentrations d’intoxications au plomb. Bien entendu, vous êtes tenu de le faire en préservant la confidentialité des personnes concernées. Dans le cas présent, l’équipe de direction s’intéresse au nombre réel de cas dans son secteur. En effet, elle doit s’assurer qu’elle est en mesure d’allouer un nombre suffisant de spécialistes et de coordonner les ressources dans le cadre du programme de soins.
Pour cela, vous allez créer une carte d’agrégats. La technique d’agrégation des entités opère par regroupement des agrégats de points dans une zone et par affichage d’un symbole gradué correspondant au nombre de points groupés représentés par l’agrégat. Il est recommandé d’opter pour cette approche lorsque vous voulez montrer des nombres exacts à différentes échelles et que vous ne souhaitez pas ou n’avez pas besoin de partager des localisations ponctuelles individuelles.
- Dans la fenêtre Contents (Contenu), cliquez sur High_Blood_Level_Results (Résultats_Niveaux_Sanguins_Élevés).
- Sur le ruban, cliquez sur l’onglet Feature Layer (Couche d’entités) et, dans la section Drawing (Dessin), cliquez sur Aggregation (Agrégation) et sur Clustering (Agrégation).
- Cliquez sur Yes (Oui) dans le message confirmant que vous voulez remplacer la symbologie.
La symbologie de la couche change et adopte le style Clusters (Agrégats). La couleur des symboles est affectée de manière aléatoire, et la taille et le nombre d’agrégats dépend de l’affichage et de l’étendue de la carte.
Les agrégats des points sont mis à l’échelle selon le nombre de points figurant dans l’agrégat ; leur étiquette indiquent également le nombre de points.
- Effectuez un zoom avant sur l’agrégat situé dans le nord-est de la ville.
À l’instar de la symbologie d’une carte de densité, la symbologie des agrégats s’adapte au facteur de zoom et à l’étendue de la carte.
Si vous effectuez un zoom avant très important, vous verrez la localisation de chaque patient.
Comme pour la symbologie d’une carte de densité, à certains facteurs de zoom et étendues, la symbologie de la carte ne permet pas de protéger l’identité des patients. De même que pour la symbologie d’une carte de densité, en zoomant sur la version interactive de la carte, il est possible de cliquer sur des points en particulier et obtenir leurs attributs. La symbologie d’agrégation ne suffit pas à assurer la protection de l’identité des patients dans une carte interactive.
Sur les cartes statiques, vous pouvez ajuster l’agrégation pour qu’elle soit plus adaptée à l’échelle ou l’étendue de votre choix.
- Dans la fenêtre Contents (Contenu), sous High_Blood_Level_Results (Résultats_Niveaux_Sanguins_Élevés), cliquez avec le bouton droit sur Clusters (Agrégats) et cliquez sur Symbology (Symbologie).
- Dans la fenêtre Symbology (Symbologie), sous l’onglet Clusters (Agrégats), cliquez sur Cluster settings (Paramètres d’agrégation).
- Cliquez sur Cluster radius (Rayon de l’agrégat) et faites glisser le curseur plus près de High (Élevé).
À mesure que vous faites glisser le curseur Cluster radius (Rayon de l’agrégat) vers l’extrémité High (Élevé) de l’échelle, le nombre d’agrégats diminue et le nombre de points par agrégat augmente.
Ce comportement est analogue à la façon dont le rayon de la carte de densité fonctionne. Vous pouvez modifier le rayon d’agrégation pour ajuster le degré d’agrégation et l’adapter à l’étendue de la carte et l’échelle que vous avez choisies.
- Dans la fenêtre Contents (Contenu), cliquez avec le bouton droit sur Features (Entités) et choisissez Zoom To Layer (Zoom sur la couche).
À l’instar de la symbologie d’une carte de densité, un rayon donnant de bons résultats pour une échelle et une étendue données peut ne pas convenir pour d’autres.
- Dans la fenêtre Symbology (symbologie), cliquez sur Cluster radius (Rayon de l’agrégat) et faites glisser le curseur vers Low (Faible).
Les cartes d’agrégats sont utilisées dans des cartes statiques ou dynamiques pour afficher un nombre d’occurrences particulier (observations du nombre de cas dans notre exemple) et de révéler des modèles spatiaux dans la densité des données. Ces cartes présentent un avantage en matière de confidentialité : les agrégats ne sont pas liés à des limites administratives, telles que les codes postaux, qui permettraient d’identifier les personnes. Vous devez ajuster le rayon d’agrégation pour l’étendue et l’échelle de la carte spécifiques pour transmettre des informations utiles sur les modèles sans divulguer la localisation des patients.
Comme vous établissez une image de carte statique pour la direction d’un hôpital, une carte d’agrégats peut être utile dans la mesure où vous veillez à régler correctement le rayon d’agrégation pour la carte.
La carte d’agrégats statiques donne à l’équipe dirigeante de l’hôpital les informations exactes dont elle a besoin pour planifier une approche coordonnée en vue du traitement des enfants de la région présentant un taux élevé de plomb dans le sang.
Vous pouvez obtenir davantage d’informations sur l’agrégation des entités dans l’aide.
- Cliquez sur Save Project (Enregistrer le projet) pour enregistrer votre projet.
Vous avez utilisé deux techniques de visualisation, à savoir les cartes de densité et l’agrégation d’entité, pour visualiser les données ponctuelles sans indiquer l’adresse exacte des intéressés.
Éliminer les petites cellules
Les petites cellules sont des polygones contenant des données agrégées dont les points de données sont si peu nombreux qu’on ne peut écarter une possible identification des personnes associées à ces données. Dans cette section, vous allez combiner deux méthodes pour étayer l’anonymisation des données en cas de cellules de petites taille : l’analyse de points chauds et la tessellation. L’analyse de points chauds s’appuie sur des calculs mathématiques visant à identifier des agrégats spatiaux statistiquement significatifs de valeurs élevées (points chauds) et de valeurs faibles (points froids). La tessellation est une méthode de tuilage d’une surface avec des formes identiques non superposées, telles que des carrés, des triangles ou des hexagones. Ces tuiles permettent d’afficher des informations récapitulatives concernant les points de données qui se trouvent à l’intérieur.
Identifier des points chauds et des points froids statistiques
La prochaine étape consiste à créer une carte montrant les agrégats statistiquement significatifs des cas d’intoxication sévère au plomb dans un rapport, lui-même publié en ligne dans une carte Web dynamique. Pour cela, vous utiliserez l’outil Optimized Hot Spot Analysis (Analyse de points chauds optimisée) afin de créer la carte et de symboliser les résultats à l’aide d’une tessellation d’hexagones.
Dans ArcGIS Pro, l’outil Optimized Hot Spot Analysis (Analyse de points chauds optimisée) permet d’agréger les localisations des personnes avec un taux élevé de plomb dans le sang en entités pondérées. Grâce à la distribution des entités pondérées, l’outil identifie une échelle d’analyse appropriée. Il est ainsi inutile de déterminer la taille des hexagones à l’avance. L’agrégation ou le regroupement des données en hexagones, également appelés groupes hexadécimaux, offre un moyen pratique de visualiser les données médicales tout en préservant la confidentialité des données des patients. En effet, elles ne sont pas directement liées aux limites administratives. Un deuxième niveau d’occultation des informations réelles consiste à indiquer une sortie analytique (niveaux d’importance statistique) à la place du nombre de cas.
Votre carte Web présentera des tendances généralisées de la présence ou de l’absence des cas de saturnisme dans la zone d’étude tout en signalant les zones de concentrations élevées.
- Sur le ruban, cliquez sur l’onglet Analysis (Analyse), puis sur Tools (Outils).
La fenêtre Geoprocessing (Géotraitement) s’affiche. Vous allez utiliser cette fenêtre pour rechercher l’outil Optimized Hot Spot Analysis (Analyse de points chauds optimisée) et l’exécuter.
- Dans la zone de recherche, saisissez points chauds optimisés, et dans la liste des résultats, cliquez sur l’outil Optimized Hot Spot Analysis (Analyse de points chauds optimisée).
L’outil s’appelle Optimized Hot Spot Analysis (Analyse des points chauds optimisée) puisqu’il recherche la distance la plus adaptée à laquelle effectuer l’analyse des points chauds. Il s’agit de la distance à laquelle l’agrégation parmi les groupes hexadécimaux voisins est la plus importante. Si aucune distance nette n’est dégagée, le processus d’optimisation calcule une distance moyenne fournissant un certain nombre des voisins les plus proches en vue de l’analyse. Pour finir, l’outil compare le nombre de patients présentant des taux élevés de plomb dans le sang dans chaque agrégat de groupes hexagonaux du voisinage pour déterminer un score z. Celui-ci peut alors être associé directement à une valeur P d’après laquelle l’importance statistique est déterminée.
- Dans Input Features (Entités en entrée), sélectionnez High_Blood_Level_Results (Résultats_Niveaux_Sanguins_Élevés).
- Pour Output Features (Entités en sortie), acceptez l’emplacement par défaut, dans la géodatabase BloodLeadLevels.gdb et saisissez High_Blood_Lead_Hot_Spots (Points_chauds_Plomb_Sanguin_Élevé) comme nom de la classe d’entités.
- Laissez le paramètre Analysis Field (Champ d’analyse) vide.
Si une valeur numérique est associée aux entités en entrée, vous pouvez utiliser le paramètre Analysis Field (Champ d’analyse) pour prendre ces valeurs en compte dans l’analyse des points chauds. Dans notre cas de figure, vous ne définissez aucune valeur dans Analysis Field (Champ d’analyse). La distribution des points High_Blood_Level_Results (Résultats_Niveaux_Sanguins_Élevés) pour les points chauds et froids est évaluée.
- Dans Incident Data Aggregation Method (Méthode d’agrégation des données d’incident), cliquez sur la liste déroulante et sélectionnez Count incidents within hexagon grid (Nombre d’incidents au sein de la grille hexagonale).
- Dans Bounding Polygons Defining Where Incidents Are Possible (Polygones d’emprise définissant l’endroit où les incidents sont possibles), cliquez sur la liste déroulante et sur Sacramento_Zip_Codes (Codes_postaux_Sacramento).
La couche contient les polygones des codes postaux de la ville de Sacramento. Ces entités permettront à l’outil d’identifier les lieux où se trouvent les points. Vous désignez la zone d’étude essentiellement pour l’outil. Ainsi, les zones qui se trouvent hors de la zone d’étude de Sacramento tout en restant dans le rectangle d’emprise maximale des points d’entrée, sont identifiées comme des points froids.
- Cliquez sur Run (Exécuter).
L’outil s’exécute et la couche High_Blood_Lead_Hot_Spots (Points_chauds_Plomb_Sanguin_Élevé) est ajoutée à la carte.
- Dans la fenêtre Contents (Contenu), désélectionnez High_Blood_Level_Results (Résultats_Niveaux_Sanguins_Élevés) pour pouvoir examiner la nouvelle couche.
Les classes de symboles de la couche sont présentées dans la fenêtre Contents (Contenu).
Les résultats de l’outil sont symbolisés en bleu pour les points froids statistiques, en rouge pour les points chauds statistiques et en blanc pour les points non significatifs. Vous pouvez en savoir plus sur l’analyse de points chauds optimisée dans la documentation.
Vous pourriez partager cette couche pour montrer la distribution du nombre de cas faiblement et fortement significatifs d’un point de vue statistique. Néanmoins, avant de la partager, il serait nécessaire de supprimer le champ Counts (Totaux) que vous allez utiliser dans la section suivante. Ce champ indique le nombre de cas présents dans chaque hexagone. Préciser les totaux, notamment lorsque les cellules ne comptent que quelques incidents, risque de ne pas protéger comme il se doit l’identité des patients, même si cela dépend en partie de la taille de cellule et de la fréquence des occurrences.
Par la suite, vous allez symboliser la couche de l’analyse des points chauds d’après le nombre total de chaque groupe. Non seulement cette méthode présente les zones de concentration, mais elle apporte également un moyen de communiquer clairement la plage du nombre de cas.
- Cliquez sur Save Project (Enregistrer le projet) pour enregistrer votre projet.
Symboliser les groupes hexagonaux selon leur total
Vous devez produire un rapport à partager avec des analystes internes travaillant sur un projet de limitation des risques liés au plomb qui ont besoin de connaître le nombre de cas dans une zone considérée sans avoir à connaître leur localisation ponctuelle. Vous allez remplacer la symbologie des points chauds pour afficher le nombre total d’entités de chaque polygone.
Vous allez d’abord effectuer une copie de la couche de manière à posséder une version symbolisée des deux manières.
- Dans la fenêtre Contents (Contenu), cliquez avec le bouton droit sur la couche High_Blood_Lead_Hot_Spots (Points_chauds_Plomb_Sanguin_Élevé) et cliquez sur Copy (Copier).
- Dans la fenêtre Contents (Contenu), cliquez avec le bouton droit sur Map (Carte) et cliquez sur Paste (Coller).
- Dans la fenêtre Contents (Contenu), cliquez sur le nom de la couche que vous avez collée afin de la modifier.
- Saisissez High_Blood_Lead_Hexbin_Counts (Totaux_Groupes_Hexagonaux_Plomb_Sanguin_Élevé) comme nom de la couche.
- Dans la fenêtre Contents (Contenu), décochez la couche High_Blood_Lead_Hot_Spots (Points_chauds_Plomb_Sanguin_Élevé) pour la désactiver.
- Cliquez avec le bouton droit sur la couche High_Blood_Lead_Hexbin_Counts (Totaux_Groupes_Hexagonaux_Plomb_Sanguin_Élevé) et cliquez sur Symbology (Symbologie).
- Dans la fenêtre Symbology (Symbologie), cliquez sur Field (Champ), puis sur Counts (Totaux).
- Cliquez sur la flèche de la liste déroulante Color scheme (Dégradé de couleurs), faites défiler la liste et cliquez sur le dégradé de couleurs Reds (7 classes) (Rouges [7 classes]).
- Cliquez sur la flèche de la liste déroulante Classes, puis sur 5.
- Cliquez avec le bouton droit sur le carré de couleur de la classe la plus faible, c’est-à-dire un nombre inférieur ou égal à 0, et cliquez sur No Color (Aucune couleur).
La suppression du remplissage des groupes hexagonaux dont le total est nul apporte davantage de contexte aux personnes qui examinent la carte et attire leur attention sur les cellules qui incluent des patients présentant un taux élevé de plomb dans le sang.
Notez la présence de groupes hexagonaux classés contenant 1 seul point. Dans la plupart des cas, vous ne souhaitez pas afficher un cas unique au sein d’un groupe hexagonal. Il s’agit là d’une cellule de petite taille. Vous pouvez ajuster l’histogramme des symboles gradués afin de changer de classes de symbologie de carte.
- Dans la fenêtre Symbology (Symbologie), cliquez sur l’onglet Histogram (Histogramme).
- Cliquez sur le marqueur d’interruption de classe et faites-le glisser de la position 1 à la position 2.
- Cliquez sur le marqueur d’interruption de classe et faites-le glisser de la position 3 à la position 4.
Les nouvelles interruptions de classe sont configurées.
La symbologie est mise à jour pour rassembler les groupes hexagonaux comportant un ou deux cas au sein du même groupe.
Le nombre minimal de cas qu’il convient de choisir dans un groupe hexagonal varie en fonction du scénario et des règles de votre organisation. Si les conditions étudiées sont fréquentes, vous pouvez être amené à utiliser un petit nombre alors que si elles sont rares, il est préférable de choisir un nombre plus élevé. Il est également important de tenir compte de la zone et du nombre de personnes (et des cas éventuels) que l’on peut trouver dans une zone. Plus le groupe est grand et plus le nombre de personnes est élevé, plus le nombre minimal de cas peut être réduit sans risquer la ré-identification des personnes.
À présent, vous êtes prêt à partager ces informations avec vos collègues réalisant l’analyse. Comme il s’agit de collaborateurs internes de votre organisation qui disposent éventuellement de toutes les autorisations nécessaires pour utiliser les données brutes, ils n’ont pas vraiment besoin des données ponctuelles pour mener à bien leur mission. Il est préférable de fournir un jeu de données minimal viable en fonction des besoins métier. Cette approche offre un meilleur compromis et fournit des données suffisamment précises pour traiter des questions locales (par rapport à la méthode des codes postaux) tout en évitant la perspective de partager des données ponctuelles contenant des informations médicales protégées lorsque cela n’est pas nécessaire.
- Cliquez sur Save Project (Enregistrer le projet) pour enregistrer votre projet.
Vous avez utilisé l’outil Optimized Hot Spot Analysis (Analyse de points chauds optimisée) pour déterminer la taille appropriée des groupes hexagonaux (en fonction de la meilleure échelle d’analyse et non de besoins de confidentialité) pour les entités ponctuelles en entrée et symbolisé les groupes hexagonaux pour afficher leur importance statistique. L’utilisation de la carte de points chauds pour mettre en évidence les zones d’intérêt relatif identifie le problème tout en rendant impossible l’identification des personnes concernées. Vous avez également symbolisé différemment les données figurant dans les groupes hexagonaux de sorte que ceux-ci représentent le nombre total de cas via un processus analytique différent. Vous avez utilisé une méthode qui ne nécessite pas de partager des points individuels avec les parties prenantes, lesquelles pourraient ne pas être autorisées à les voir ou n’en auraient pas réellement besoin dans le cadre de leurs activités professionnelles. Le résultat final est une représentation visuelle claire des zones comportant le plus grand nombre d’occurrences de taux élevés de plomb dans le sang dans la zone d’étude.
Généraliser et agréger les données
Dans cette section, vous allez étudier les données année par année et découvrir comment prémunir les personnes et ne pas identifier les agrégats de données de petite taille dans les produits cartographiques diffusés auprès du public. Vous apprendrez à généraliser et agréger les données de manière à protéger les informations sensibles à l’aide de méthodes qui révèlent toutefois des modèles pertinents dans les données. Avec les données liées à la santé, les modèles sont souvent majoritairement informatifs. La localisation des cas individuels n’est pas toujours utile pour bon nombre d’aspects opérationnels. Par exemple, en tant qu’analyste, vous souhaitez utiliser des données généralisées ou agrégées dans l’étude du saturnisme infantile et des rapports de surveillance annuels, contrairement aux points individuels utilisés dans le cadre de la gestion de cas et de la recherche.
La généralisation des données implique une simplification des données par la réduction de leur complexité ou de leurs détails. Par exemple, vous pourriez généraliser les données portant sur la date de naissance en remplaçant la date par l’année de naissance. Vous pouvez généraliser l’âge en utilisant à la place des tranches d’âge de 10 années. Vous pouvez également combiner différentes tribus telles que les Cherokee, les Navajos et les Chactas dans la catégorie des Amérindiens. L’agrégation, d’autre part, implique de combiner plusieurs points de données en une seule statistique de synthèse, comme le nombre de naissances par année. Dans les étapes suivantes, vous allez vous intéresser aux méthodes d’agrégation, mais vous pouvez souvent appliquer des techniques de généralisation aux données sous-jacentes pour dissimuler davantage les informations confidentielles.
Synthétiser les données par code postal et par année
Vous allez commencer par synthétiser les données par année à l’aide de la couche des codes postaux de la zone d’étude. Les limites des codes postaux sont souvent utilisées pour signaler des statistiques d’ordre médical. Cette façon de faire présente des avantages et des inconvénients. Côté avantages, les codes postaux délimitent des zones plus petites que les comtés et la plupart des gens connaissent leur code postal et savent le localiser sur une carte. Côté inconvénients, les limites des codes postaux sont des constructions artificielles, conçues pour prendre en charge une distribution efficace du courrier et ne peuvent pas évoluer au fil du temps. En qualité d’analyste, il vous appartient de décider si leur utilisation correspond à vos besoins et est conforme aux règles de divulgation des données de votre organisation.
- Dans la fenêtre Geoprocessing (Géotraitement), cliquez sur le bouton de retour.
- Dans la zone de recherche, saisissez synthétiser - à l’intérieur et dans la liste des résultats, cliquez sur l’outil Summarize Within (Analysis Tools) (Synthétiser - À l’intérieur (Outils d’analyse)).
Un autre outil Summarize Within (Synthétiser - À l’intérieur ) existe dans le jeu d’outils GeoAnalytics Desktop Tools (Outils GeoAnalytics Desktop), mais vous devez utiliser celui qui figure dans le jeu d’outils Analysis Tools (Outils d’analyse) pour ce didacticiel.
- Dans la boîte de dialogue de l’outil Summarize Within (Synthétiser - À l’intérieur), pour Input features (Entités en entrée), choisissez Sacramento_Zip_Codes (Codes_postaux_Sacramento).
- Dans Input Summary Features (Entités de synthèse en entrée), sélectionnez la couche High_Blood_Level_Results (Résultats_Niveaux_Sanguins_Élevés).
- Pour Output Feature Class (Classe d’entités en sortie), acceptez l’emplacement par défaut, dans la géodatabase BloodLeadLevels.gdb et saisissez HBLL_by_zip_year (NPSE_par_code_an) comme nom de la classe d’entités.
- Dans Group Field (Champ de regroupement), sélectionnez l’option Blood Level Test Year (Année du prélèvement sanguin).
- Cliquez sur Run (Exécuter).
La couche HBLL_by_zip_year (NPSE_par_code_an) est ajoutée à la carte. Dans la section Standalone Tables (Tables autonomes), la table testYear_Summary (Annéeprélèvement_Récapitulatif) est également ajoutée. Cette table contient les données synthétisées indiquant le nombre total par code postal, par année. Elle peut être jointe à nouveau à la couche HBLL_by_zip_year (NPSE_par_code_an) pour afficher les valeurs de chaque année.
Vous allez ensuite joindre des données et apprendre à généraliser plusieurs années de données ou agréger des codes postaux adjacents pour vous conformer aux seuils de valeurs minimales de l’organisation à des fins de protection des données.
Joindre la table de synthèse à la classe d’entités de résultats
Vous allez à présent procéder à la jointure de la table de synthèse avec la classe d’entités de résultats. Vous aurez ainsi une seule classe d’entités avec les données synthétisées par code postal et par an. Cela vous permettra de créer des couches pour afficher les données, année par année.
- Dans la fenêtre Contents (Contenu), cliquez avec le bouton droit sur la couche HBLL_by_zip_year (NPSE_par_code_an), puis cliquez sur Attribute Table (Table attributaire).
La table présente les données des polygones des codes postaux d’origine ainsi que les données qui ont été ajoutées par l’outil Summarize Within (Synthétiser à l’intérieur). Le champ Count of points (Nombre de points) montre le nombre total de cas dans chaque polygone associé à un code postal. Le champ JOIN ID (ID de jointure) contient des valeurs que vous pouvez utiliser pour joindre les attributs de la table testYear_Summary (Annéeprélèvement_Récapitulatif) sur cette couche. La classe d’entités compte 17 polygones de codes postaux.
- Dans la fenêtre Contents (Contenu), dans la section Standalone Tables (Tables autonomes), cliquez avec le bouton droit sur la table testYear_Summary (Annéeprélèvement_Récapitulatif) et sélectionnez Open (Ouvrir).
Le champ JOIN ID (ID de jointure) contient des valeurs que vous pouvez utiliser pour joindre les attributs avec la couche HBLL_by_zip_year (NPSE_par_code_an). Le champ testYear (Annéeprélèvement) contient les valeurs correspondant à l’année des analyses sanguines. Le champ Count of points (Nombre de points) montre le nombre total de cas dans chaque polygone associé à un code postal, par année, pour un total de 50 enregistrements dans la table.
- Dans la fenêtre Contents (Contenu), cliquez avec le bouton droit sur HBLL_by_zip_year (NPSE_par_code_an), pointez sur Joins and Relates (Jointures et relations), puis cliquez sur Add Join (Ajouter une jointure).
- Dans la boîte de dialogue de l’outil Add Join (Ajouter une jointure), le paramètre Input table (Table en entrée) doit être défini par défaut sur la couche HBLL_by_zip_year (NPSE_par_code_an) sur laquelle vous avez cliqué avec le bouton droit.
- Pour Input Join Field (Champ de jointure en entrée), sélectionnez JOIN ID.
Une icône d’avertissement se trouve à côté du paramètre Input Join Field (Champ de jointure en entrée) pour signaler qu’un champ de jointure n’est pas indexé. Pour les tables de petite taille, cela ne pose pas de problème.
- Dans Join Table (Table de jointure), sélectionnez testYear_Summary (Annéeprélèvement_Récapitulatif).
- Pour Join Table Field (Champ de table de jointure), sélectionnez Join ID (ID de jointure).
- Cliquez sur Validate Join (Valider la jointure).
Le traitement de validation de la jointure s’exécute et renvoie un message.
Comme deux champs ne sont pas indexés, l’outil recommande de créer des index pour améliorer les performances. Vu le nombre d’entités concernées, cela est inutile.
L’outil signale également la présence d’une jointure d’un vers plusieurs et indique que la classe d’entités jointe obtenue comporte 50 enregistrements (un pour chaque enregistrement dans la table testYear_Summary (Annéeprélèvement_Récapitulatif)).
- Cliquez sur Close (Fermer) pour fermer la fenêtre Message.
- Dans la boîte de dialogue de l’outil Add Join (Ajouter une jointure), cliquez sur OK.
La table attributaire de la couche HBLL_by_zip_year (NPSE_par_code_an) est mise à jour pour afficher les champs supplémentaires issus de la table testYear_Summary (Annéeprélèvement_Récapitulatif) ainsi que les enregistrements supplémentaires pour les combinaisons des polygones de code postaux et des années de prélèvement.
Les résultats de l’outil Add Join (Ajouter une jointure) sont provisoires. Vous allez créer une copie de la classe d’entités comportant toutes les entités en l’exportant vers une nouvelle classe d’entités.
- Cliquez avec le bouton droit sur la couche HBLL_by_zip_year (NPSE_par_code_an), pointez avec le curseur sur Data (Données) et choisissez Export Features (Exporter des entités).
- Définissez le nom Output Feature Class (Classe d’entités en sortie) sur HBLL_by_zip_all_years (NPSE_par_code_toutes_années).
- Cliquez sur OK.
La nouvelle classe d’entités est stockée dans la géodatabase du projet.
Symboliser la couche combinée
Vous allez maintenant symboliser la couche.
- Dans la fenêtre Contents (Contenu), désélectionnez toutes les couches sauf HBLL_by_zip_all_years (NPSE_par_code_toutes_années).
- Dans la fenêtre Contents (Contenu), cliquez avec le bouton droit sur la couche HBLL_by_zip_all_years (NPSE_par_code_toutes_années), puis cliquez sur Symbology (Symbologie).
- Dans la fenêtre Symbology (Symbologie), cliquez sur le la liste déroulante Primary symbology (Symbologie principale) et sur Graduated Colors (Couleurs graduées).
- Cliquez sur la liste déroulante Field (Champ) et sur le deuxième des deux champs Count of Points (Nombre de points), sous Join ID (ID de jointure).
Ce champ contient le nombre agrégé de points au sein du polygone qui concerne une année particulière Le premier champ renferme le nombre total pour les trois années.
- Dans Color scheme (Combinaison de couleurs), cliquez sur Purple (5 Classes) (Violet [5 classes]).
La symbologie de la couche est mise à jour. Vous remarquerez peut-être que les classes de symboles affichées pour la couche dans la fenêtre Contents (Contenu) ne sont pas toutes représentées sur la carte.
Dans cet exemple, la classe la plus élevée n’est semble-t-il pas présente. Cela est dû au fait que la couche HBLL_by_zip_all_years (NPSE_par_code_toutes_années) contient plusieurs copies de chaque polygone de code postal, à raison d’un par an pour laquelle on compte des cas dans le territoire du code postal. La symbologie de la couche prend en compte la plage complète des valeurs de la table attributaire, mais la couleur de la symbologie n’illustre que les polygones supérieurs.
- Sur le ruban, dans l’onglet Map (Carte), section Navigate (Naviguer), cliquez sur la liste déroulante de l’outil Explore (Explorer) et sur Visible Layers (Couches visibles).
- Cliquez sur le polygone du code postal qui se situe à l’extrême nord-est.
La fenêtre Pop-up (Fenêtre contextuelle) montre que trois entités issues de la couche HBLL_by_zip_all_years (NPSE_par_code_toutes_années) se trouvaient dans la localisation sur laquelle vous avez cliqué. Les attributs de l’entité figurant en tête de liste apparaissent dans la section inférieure de la fenêtre contextuelle. Vous pouvez constater que la première entité de cet exemple concerne l’année 2018. 24 cas sont dénombrés pour le code postal 95821 cette année-là.
Vous pouvez cliquer sur les entités, répertoriées dans le présent cas de figure par leur nom dans lequel le terme Sacramento apparaît, qui se trouvent en haut de la fenêtre Pop-up (Fenêtre contextuelle) pour voir les attributs des deux autres entités.
La deuxième entité a trait à l’année 2019 au cours de laquelle on a dénombré 48 cas de saturnisme pour le code postal 95821.
Afficher les données dans des couches annuelles individuelles
Une fois que vous disposez de la couche HBLL_by_zip_all_years (NPSE_par_code_toutes_années) comportant le décompte des cas annuels pour les différents codes postaux, vous allez enregistrer des copies de la couche de manière à pouvoir visualiser la distribution des cas d’intoxication au plomb relatifs à chaque année.
- Dans la fenêtre Contents (Contenu), cliquez avec le bouton droit sur la couche HBLL_by_zip_all_years (NPSE_par_code_toutes_années), puis cliquez sur Copy (Copier).
- Dans la fenêtre Contents (Contenu), cliquez avec le bouton droit sur Map (Carte) et cliquez sur Paste (Coller).
- Cliquez sur le nom de la copie de la couche HBLL_by_zip_all_years (NPSE_par_code_toutes_années) et renommez-la en saisissant HBLL_by_zip_2018 (NPSE_par_code_2018).
- Double-cliquez sur la couche HBLL_by_zip_2018 (NPSE_par_code_2018) et, dans la fenêtre Layer Properties (Propriétés de la couche), cliquez sur Definition Query (Ensemble de définition).
- Cliquez sur New definition query (Nouvel ensemble de définition).
- Dans la section Definition Queries (Ensembles de définition), à la ligne Where (Où), cliquez sur la liste déroulante et sur le champ testYear (Annéeprélèvement). Acceptez l’opérateur par défaut, is equal to (est égal à), cliquez sur la troisième liste déroulante et choisissez 2018.
Cette expression génère une clause Where pour l’ensemble de définition qui filtre la couche pour n’afficher que les polygones de l’année 2018 sur la carte.
- Cliquez sur OK.
- Dans la fenêtre Contents (Contenu), cliquez avec le bouton droit sur la couche HBLL_by_zip_2018 (NPSE_par_code_2018) et cliquez sur Copy (Copier).
- Dans la fenêtre Contents (Contenu), cliquez avec le bouton droit sur Map (Carte) et cliquez sur Paste (Coller).
- Renommez la nouvelle copie de couche HBLL_by_zip_2019 (NPSE_par_code_2019).
- Ouvrez l’onglet Definition Query (Ensemble de définition) de la couche HBLL_by_zip_2019 (NPSE_par_code_2019).
- Cliquez sur Modifier.
Vous allez modifier l’ensemble de définition pour que la couche 2019 présente les données relatives à cette année-là.
- Remplacez la valeur de l’année par 2019, puis cliquez sur Apply (Appliquer).
- Cliquez sur OK.
- Enregistrez une copie de la couche HBLL_by_zip_2019 (NPSE_par_code_2019), changez son nom en HBLL_by_zip_2020 (NPSE_par_code_2020) et appliquez le processus que vous venez de découvrir pour mettre à jour l’ensemble de définition afin d’afficher les données relatives à l’année 2020.
Par la suite, vous allez explorer deux méthodes d’agrégation afin d’atteindre la valeur de seuil minimale de votre organisation. Votre direction a déterminé que si 5 observations ou plus se produisent dans une zone, telle qu’une zone correspondant à un code postal, vous pouvez afficher les données relatives à ce code postal dans un produit et le diffuser auprès du public.
- Cliquez sur l’outil Explore (Explorer) et sur le polygone du code postal central comptant un très faible nombre de cas.
La couche supérieure de la fenêtre Contents (Contenu), HBLL_by_zip_2020 (NPSE_par_code_2020), apparaît en premier.
En 2020, ce polygone du code postal ne comptait que deux cas. C’est moins que la valeur minimale de cinq cas que l’organisation a fixé pour autoriser la diffusion de données par codes postaux.
- Dans la fenêtre Pop-up (Fenêtre contextuelle), cliquez sur l’entrée Sacramento de la couche HBLL_by_zip_2019 (NPSE_par_code_2019).
En 2019, seuls trois cas ont été enregistrés pour ce code postal. Vous pourriez diffuser des données combinées pour ce code postal pour les années 2019 et 2020 puisque la somme des valeurs de ces deux années s’élèvent à cinq.
Combiner les données de plusieurs années
Pour vous conformer à la valeur de seuil minimale de votre organisation, une stratégie consiste à agréger plusieurs années de données jusqu’à parvenir au minimum de 5 cas dans chaque code postal. Cette technique diminue la résolution temporelle tout en préservant la résolution spatiale.
- Sur le ruban, sous l’onglet Map (Carte), dans le groupe Selection (Sélection), cliquez sur Select by Attributes (Sélectionner selon les attributs).
- Dans la fenêtre Select by Attributes (Sélectionner selon les attributs), pour Input Rows (Enregistrements en entrée), cliquez sur la liste déroulante et sur High_Blood_Level_Results (Résultats_Niveaux_Sanguins_Élevés).
- Cliquez sur Add Clause (Ajouter une clause).
- Dans la section Where (Où), cliquez sur la liste déroulante Select a field (Sélectionner un champ) et cliquez sur Blood Level Test Year (Année du prélèvement sanguin).
- Acceptez l’opérateur par défaut, is equal to (est égal à).
- Cliquez sur la liste déroulante pour choisir la valeur de comparaison et cliquez sur 2020.
- Cliquez sur Add Clause (Ajouter une clause).
- Choisissez l’opérateur logique Or (Ou) pour joindre les clauses.
- Cliquez sur l’opérateur logique And (Et) et, dans la liste déroulante, cliquez sur Or (Ou).
- Définissez le champ sur Blood Level Test Year (Année du prélèvement sanguin) et acceptez l’opérateur is equal to (est égal à) par défaut.
- Cliquez sur les listes déroulantes et cliquez sur 2019.
L’outil Select By Attributes (Sélectionner par attributs) est prêt à sélectionner les entités ayant pour valeur 2020 ou 2019 dans le champ Blood Level Test Year (Année du prélèvement sanguin).
- Cliquez sur OK.
Les entités High_Blood_Level_Results (Résultats_Niveaux_Sanguins_Élevés) enregistrées pour 2020 ou pour 2019 sont sélectionnées. Vous pouvez maintenant exécuter l’outil Summarize Within (Synthétiser - À l’intérieur) sur elles afin d’obtenir le nombre total des entités sélectionnées par code postal.
- Sur le ruban, cliquez sur l’onglet Analysis (Analyse), puis, dans la section Geoprocessing (Géotraitement), cliquez sur Tools (Outils).
- Recherchez et ouvrez l'outil Synthétiser - A l'intérieur.
L’outil devrait se trouver dans la liste Recent (Récent) de la fenêtre Geoprocessing (Géotraitement).
- Dans Input Polygons (Polygones en entrée), choisissez Sacramento_Zip_Codes (Codes_postaux_Sacramento).
- Dans Input Summary Features (Entités de synthèse en entrée), sélectionnez High_Blood_Level_Results (Résultats_Niveaux_Sanguins_Élevés).
- Nommez le paramètre Output Feature Class (Classe d’entités en sortie) comme HBLL_by_zip_2019_2020 (NPSE_par_code_2019_2020).
L’outil Summarize Within (Synthétiser - À l’intérieur) vous alerte sur le fait qu’il existe une sélection en entrée et que seul ce sous-ensemble d’enregistrements sera traité. Cela correspond à vos souhaits.
- Laissez les paramètres Summary Fields (Champs de récapitulation) et Group Field (Champ de regroupement) vides.
- Cliquez sur Run (Exécuter).
La nouvelle couche HBLL_by_zip_2019_2020 (NPSE_par_code_2019_2020) est ajoutée à la fenêtre Contents (Contenu).
- Dans la fenêtre Contents (Contenu), cliquez avec le bouton droit sur la couche HBLL_by_zip_2019_2020 (NPSE_par_code_2019_2020) et cliquez sur Attribute Table (Table attributaire).
- Cliquez avec le bouton droit sur l’en-tête de colonne Counts of Points (Nombre de points) et sélectionnez Sort Ascending (Tri croissant).
La colonne triée dans l’ordre croissant indique qu’aucun polygone de code postal de moins de cinq cas n’existe dans cette couche.
Selon la valeur de seuil minimale définie dans votre organisation, il est possible de divulguer les effectifs groupés de 2019 et 2020 par code postal.
Fusionner les géométries de code postal
Imaginons que vous ayez besoin d’établir un rapport portant sur les données de l’année 2020 sans inclure les données de 2019. Vous allez utiliser un deuxième méthode pour respecter la valeur de seuil minimale de votre organisation en agrégeant les codes postaux d’une même année jusqu’à obtenir plus de 5 cas dans chaque zone agrégée. Cette technique diminue la résolution spatiale tout en préservant la résolution temporelle.
- Ouvrez la fenêtre Géotraitement.
- Dans la zone de recherche, saisissezcréer des zones équilibrées, et dans les résultats, cliquez sur Build Balanced Zones (Générer des zones équilibrées).
- Pour Input Features (Entités en entrée), sélectionnez la couche HBLL_by_zip_2020 (NPSE_par_code_2020).
Une note signale dans l’outil que l’entrée comporte un filtre. Cela s’explique par la présence d’un ensemble de définition sur la couche qui la filtre pour n’afficher que les données de 2020.
- Dans Output Features (Entités en sortie), saisissez HBLL_2020_Zones (Zones_NPSE_2020).
- Pour Zone Creation Method (Méthode de création de zone), acceptez la valeur par défaut du paramètre Attribute target (Cible d’attribut).
- Dans la section Zone Building Criteria With Target (Critères de construction de zone avec cible), cliquez sur Variable et sur Count of Points [Point_Count_1] (Nombre de points [Point_Count_1]).
- Dans la zone Sum (Somme), saisissez 12.
Cette valeur est supérieur à la valeur minimale de 5 définie par l’organisation L’outil Build Balanced Zones (Générer des zones équilibrées) utilise les variables Target (Cible) comme cibles pour un algorithme génétique alimenté de manière aléatoire, mais les résultats ne sont que des approximations des valeurs cibles. Si vous définissez une valeur plus petite, il est probable que certaines zones incluent moins de cinq cas. Pour en savoir plus sur le fonctionnement de l’outil Générer des zones équilibrées, consultez la documentation.
- Dans Spatial Constraints (Contraintes spatiales), choisissez Contiguity edges only (Segments de contiguïté uniquement).
L’outil Build Balanced Zones (Générer des zones équilibrées) est prêt à être exécuté.
Remarque :
Si vous aviez défini d’autres critères pour les zones (une population minimale, par exemple), vous pourriez ajouter une autre variable et une autre valeur. Pour la présente tâche, vous allez vous contenter de créer des zones avec une cible d’au moins 12 cas. Vous trouverez plus d’informations sur l’outil dans la documentation. - Cliquez sur Run (Exécuter).
Les résultats sont ajoutés à la carte. Les polygones de codes postaux d’origine sont conservés, mais ils possèdent de nouveaux attributs qui les affectent à des zones différentes. Vous allez fusionner les polygones selon les attributs des zones.
- Cliquez sur le bouton Retour pour revenir dans la fenêtre Geoprocessing (Géotraitement), puis recherchez et ouvrez l’outil Pairwise Dissolve (Fusion deux par deux).
- Dans la boîte de dialogue de l’outil Pairwise Dissolve (Fusion deux par deux), pour Input Features (Entités en entrée), sélectionnez HBLL_2020_Zones (Zones_NPSE_2020).
- Dans Output Feature Class (Classe d’entités en sortie), saisissez HBLL_2020_Zip_Dissolve (Zones_NPSE_2020_Fusionnées).
- Dans Dissolve Fields (Champs de fusion), choisissez Zone ID (ID de zone).
- Dans Statistics Fields (Champs statistiques), choisissez Count of Points (Nombre de points) et acceptez la valeur par défaut Sum (Somme) pour le paramètre Statistic Type (Type de statistique).
- Désélectionnez Create multipart features (Créer des entités multi-parties).
- Exécutez l’outil.
La couche de zones fusionnées est ajoutée à la carte.
- Dans la fenêtre Contents (Contenu), cliquez avec le bouton droit sur HBLL_2020_Zip_Dissolve (Zones_NPSE_2020_Fusionnées) et cliquez sur Attribute Table (Table attributaire).
Le nombre de points dans les zones est supérieur à 5 points et la plupart comportent au moins 12 points. Cela correspond aux préconisations de votre organisation.
En tant qu’analyste du programme de prévention de l’intoxication au plomb chez les enfants, vous devez déterminer la méthode la plus adaptée pour fournir des données pertinentes et exploitables pour les juridictions dont les données sont souvent supprimées. L’agrégation de plusieurs années signifie que l’utilisateur final ne pourra pas distinguer la variation temporelle au fil des années agrégées, mais il pourra voir les effectifs des petites zones géographiques qui seraient sinon supprimées. À l’inverse, l’agrégation de plusieurs codes postaux permet d’identifier les tendances temporelles marquées puisque chaque année est cartographiée alors que la spécificité géographique est diminuée. Il est nécessaire de peser le pour et le contre de chaque méthode eu égard au public cible et à la finalité recherchée en termes de génération de rapport et de partage de données.
Ajouter des valeurs de coordonnées aux points
Jusqu’ici, vous avez créé des cartes pour que les parties prenantes se concentrent sur des questions ayant trait à l’étendue des cas de fortes concentrations de plomb dans le sang dans le comté de Sacramento, à la détermination du nombre global de cas et à diverses manières d’examiner les modèles spatiaux et temporels dans les données.
Vous allez maintenant collaborer avec l’équipe œuvrant en faveur de l’égalité en matière de santé. Celle-ci souhaite mener des recherches pour déterminer si d’autres facteurs sont associés aux concentrations élevées de plomb dans le sang chez enfants tels que le genre, la race/l’origine ethnique et l’âge. Pour l’aider à accomplir ce travail, vous devez être en mesure de lui fournir un jeu de données ponctuelles anonymisées qui inclut toutes les variables d’intérêt de chaque enfant, ainsi que sa localisation générale. Vous allez arrondir les coordonnées pour effectuer cette tâche et vérifier certaines statistiques pour justifier les niveaux d’arrondi.
Tout d’abord, vous allez ajouter des attributs de valeurs de longitude et de latitude en degrés décimaux à vos entités ponctuelles.
- Dans la fenêtre Geoprocessing (Géotraitement), recherchez et ouvrez l’outil Calculate Geometry Attributes (Calculer des attributs géométriques).
- Dans Input Features (Entités en entrée), sélectionnez High_Blood_Level_Results (Résultats_Niveaux_Sanguins_Élevés).
- Dans la première ligne de la section Geometry Attributes (Attributs géométriques), dans la zone Field (Existing or New) (Champ [existant ou nouveau]), saisissez Latitude.
Ce faisant, le programme ajoute un nouveau champ dans la table attributaire après l’exécution de l’outil, pour stocker les valeurs de latitude associée à chaque point.
- Dans la zone Property (Propriété) du champ Latitude, cliquez sur la liste déroulante et sur Point y-coordinate (Coordonnée y du point).
La valeur de la coordonnée y de chaque point sera ajoutée dans le champ Latitude.
- Dans la deuxième ligne de la section Geometry Attributes (Attributs géométriques), dans la zone Field (Existing or New) (Champ [existant ou nouveau]), saisissez Longitude.
- Dans la zone Property (Propriété) du champ Latitude, cliquez sur la liste déroulante et sur Point x-coordinate (Coordonnée x du point).
- Pour la zone Coordinate Format (Format de coordonnées), sélectionnez Decimal Degrees (Degrés décimaux).
- Cliquez sur Select coordinate system (Sélectionner un système de coordonnées).
- Dans la fenêtre Coordinate System (Système de coordonnées), dans la zone de recherche, saisissez WGS 1984.
- Développez Geographic Coordinate System (Système de coordonnées géographiques), puis World (Monde).
- Cliquez sur WGS 1984 et sur OK.
- Dans l’outil Calculate Geometry Attributes (Calculer les attributs géométriques), cliquez sur Run (Exécuter).
- Dans la fenêtre Contents (Contenu), cliquez avec le bouton droit sur la couche High_Blood_Level_Results (Résultats_Niveaux_Sanguins_Élevés) et sélectionnez Attribute Table (Table attributaire). Faites défiler l’affichage vers la droite de la table attributaire pour voir les champs Latitude et Longitude.
Une fois les valeurs de latitude et de longitude des points stockées dans les attributs, vous pouvez créer des champs destinés à héberger les valeurs d’arrondi et calculer de nouvelles valeurs d’arrondi.
Remarque :
Il est possible de manipuler de plusieurs manières les coordonnées de latitude et longitude, qui représentent les localisations ponctuelles des cas de concentrations élevées de plomb dans le sang. Vous pouvez tronquer ou arrondir les coordonnées en capturant chaque localisation ponctuelle sur une grille de résolution inférieure dans la zone d’étude. Vous pourriez également brouiller les localisations en remplaçant le dernier chiffre ou deux chiffres de chaque coordonnée par un nombre aléatoire. Cela a pour effet de déplacer chaque point selon une distance et dans une direction aléatoires.
Ajouter des champs pour accueillir de nouvelles valeurs des coordonnées arrondies
Vous allez créer deux champs pour accueillir les valeurs des coordonnées arrondies.
- Cliquez avec le bouton droit sur High_Blood_Level_Results (Résultats_Niveaux_Sanguins_Élevés), pointez sur Data Design (Conception de données), puis cliquez sur Fields (Champs).
- Faites défiler la liste des champs jusqu’en bas.
- Cliquez sur l’en-tête de ligne Latitude et appuyez sur Ctrl tout en cliquant sur l’en-tête de ligne Longitude.
- Cliquez avec le bouton droit sur l’en-tête de ligne Latitude et cliquez sur Copy (Copier).
- Cliquez avec le bouton droit sur l’en-tête de ligne Latitude et cliquez sur Paste (Coller).
- Dans la colonne Field Name (Nom du champ), cliquez sur le champ Latitude1 et saisissez LatitudeRound.
- Dans la colonne Field Name (Nom du champ), cliquez sur le champ Longitude et saisissez LongitudeRound.
- Dans la colonne Alias (Alias), cliquez sur le champ LatitudeRound et saisissez Latitude Rounded (Latitude arrondie).
- Dans la colonne Alias (Alias), cliquez sur le champ LongitudeRound et saisissez Longitude Rounded (Longitude arrondie).
Les noms et alias de champ des chamsp copiés sont configurés.
- Sur le ruban, sur l’onglet Fields (Champs), dans la section Changes (Modifications), cliquez sur Save (Enregistrer).
Les deux nouveaux champs sont ajoutés à la structure de table pour la classe d’entités High_Blood_Level_Results (Résultats_Niveaux_Sanguins_Élevés).
- Fermez la vue Fields (Champs).
Arrondir les valeurs des coordonnées
Vous allez ensuite calculer les valeurs des coordonnées arrondies et les stocker dans les nouveaux champs.
- Dans la table attributaire de la couche High_Blood_Level_Results (Résultats_Niveaux_Sanguins_Élevés), cliquez avec le bouton droit sur le champ Latitude Rounded (Latitude arrondie) et cliquez sur Calculate Field (Calculer un champ).
- Dans la boîte de dialogue de l’outil Calculate Field (Calculer un champ), cliquez sur la liste déroulante Expression Type (Type d’expression) et sur Arcade.
Arcade est un langage d’expressions léger et conçu pour être utilisé dans ArcGIS.
- Dans la zone Expression, saisissez l’expression Arcade suivante :
Round($feature.Latitude,2)
Ce code fait appel à la fonction Arcade Round (Arrondir) qui définit la valeur du champ Latitude Rounded (Latitude arrondie) comme étant égale à la valeur du champ Latitude, arrondie à deux décimales. L’expression arrondit les informations de localisation des points au centième de degré le plus proche.
- Cliquez sur le bouton Verify (Vérifier).
- Cliquez sur Apply (Appliquer).
Les valeurs arrondies sont calculées et ajoutées à la table attributaire dans le champ Latitude Rounded (Latitude arrondie).
- Appliquez la même méthode pour calculer les valeurs du champ Longitude Rounded (Longitude arrondie).
Conseil :
Dans l’outil Calculate Field (Calculer un champ), définissez Field Name (Nom du champ) sur Longitude Rounded (Longitude arrondie) et utilisez l’expression Arcade suivante :Round($feature.Longitude,2)
Les champs Latitude Rounded (Latitude arrondie) et Longitude Rounded (Longitude arrondie) doivent être arrondis à deux décimales.
Remarque :
Si les coordonnées figurent dans une référence spatiale planaire, telle que les projections California State Plane ou UTM, les valeurs de coordonnées sont en mesures linéaires plutôt qu’en degrés décimaux. En pareille situation, vous devrez calculer un espacement approprié pour vos points arrondis et les arrondir selon cet espacement. Par exemple, vous pouvez décider d’arrondir au millième de pied ou au centième de mètre le plus proche, selon les unités et l’amplitude du déplacement désirées.
Créer des points aux coordonnées arrondies
Une fois les valeurs arrondies dans deux champs, vous pouvez créer des points à ces localisations.
- Dans la fenêtre Geoprocessing (Géotraitement), recherchez et ouvrez l’outil Make XY Event Layer (Générer une couche d’événements XY).
- Dans la boîte de dialogue de l’outil Make XY Event Layer (Générer une couche d’événements XY), pour XY Table (Table XY), sélectionnez High_Blood_Level_Results (Résultats_Niveaux_Sanguins_Élevés).
- Pour X Field (Champ X), sélectionnez Longitude [LongitudeRound].
- Pour Y Field (Champ Y), sélectionnez Latitude [LatitudeRound].
- Pour Layer Name (Nom de la couche), saisissez High_Blood_Level_Results_Rounded (Résultats_Niveaux_Sanguins_Élevés_arrondis).
Une nouvelle couche de points sera produite grâce aux valeurs de latitude et de longitude arrondies que vous venez de calculer.
- Cliquez sur Run (Exécuter).
Les points obtenus à partir des valeurs de coordonnées arrondies sont disposés en formation de type grille, à des intervalles d’un centième de degré.
Cette technique déplace les points de leur localisation initiale, mais conserve certaines caractéristiques du modèle spatial d’origine, ce qui peut être utile à des fins d’analyse.
Carte de densité des points initiale
Carte de densité des points de coordonnées arrondis
Attention :
Rappelez-vous que lorsque les positions ponctuelles sont masquées par une méthode telle que l’arrondi des coordonnées, vous devez quand même supprimer les informations de santé personnelles superflues qui permettraient une identification, telles que les champs relatifs aux noms, dates de naissance, adresses et valeurs des coordonnées initiales, de la table attributaire avant de transmettre les données aux collègues internes autorisés. Le déplacement des points vers les valeurs de coordonnées arrondies ne protège pas les informations de santé personnelles si vous fournissez également l’adresse ou les coordonnées d’origine.
Vous pouvez utiliser l’outil Export Features (Exporter des entités) pour exporter une copie d’une classe d’entités à partager avec un membre autorisé de l’organisation. Pour cet outil, dans la section Fields (Champs), vous avez accès à la liste des champs. Vous pouvez choisir de supprimer les champs qui contiennent des informations de santé personnelles qui ne présentent pas d’intérêt pour le projet actuel.
Vous allez tracer des lignes reliant les points d’origine et les points arrondis et déterminer leur longueur.
Documenter les résultats de l’arrondi des coordonnées
Dans le cadre de la méthode Expert Determination, l’anonymisation est nécessaire pour quantifier et documenter l’étendue du déplacement des points. Dans cette section, vous allez examiner certaines statistiques liées au déplacement des points grâce à la méthode d’arrondi des coordonnées et récapituler le nombre de points déplacés sur chaque point de la grille.
- Recherchez et ouvrez l’outil XY To Line (XY vers lignes).
- Pour Input Table (Table en entrée), choisissez High_Blood_Level_Results_Rounded (Résultats_Niveaux_Sanguins_Élevés_arrondis).
- Pour Output Feature Class (Classe d’entités en sortie), saisissez HBLL_dist (NPSE_dist).
Cette classe d’entités linéaires relie les coordonnées de chaque point d’origine à la localisation des coordonnées arrondies correspondantes. Vous allez utiliser les entités linéaires pour calculer l’amplitude du déplacement.
- Pour Start X Field (Champ X de début), sélectionnez Longitude.
- Pour Start Y Field (Champ Y de début), sélectionnez Latitude.
- Pour End X Field (Champ X de fin), sélectionnez Longitude [LongitudeRound].
- Pour End Y Field (Champ Y de fin), sélectionnez Latitude [LatitudeRound].
- Pour Line Type (Type de ligne), sélectionnez Geodesic (Géodésique).
Il s’agit de la valeur par défaut. Elle représente la distance la plus courte entre deux points sur la surface de la Terre.
- Laissez le champ ID vide.
- Pour Spatial Reference (Référence spatiale), acceptez la valeur par défaut définie sur GCS_WGS_1984.
- Cliquez sur Run (Exécuter).
La couche HBLL_dist (NPSE_dist) est ajoutée à la carte. Selon le niveau de zoom et l’étendue, il peut être difficile de voir la carte. Si vous effectuez un zoom avant sur l’une des zones à forte densité, vous verrez un ensemble de lignes reliant chacun des points d’origine à la localisation des points de coordonnées arrondies correspondantes.
- Dans la fenêtre Contents (Contenu), cliquez avec le bouton droit sur la couche HBLL_dist (NPSE_dist) et sélectionnez Attribute Table (Table attributaire).
Les valeurs du champ Shape_length (Forme_longueur) sont des valeurs décimales peu élevées ; elles sont exprimées en degrés. Vous allez convertir ces longueurs en unités planaires.
Ajouter un champ de distance et calculer sa valeur
Vous allez ajouter un nouveau champ à la table attributaire de la couche HBLL_dist (NPSE_dist) et calculer sa valeur pour obtenir les distances selon lesquelles les points ont été déplacés.
- Sur l’onglet de la table attributaire pour la couche HBLL_dist (NPSE_dist), cliquez sur Add (Ajouter).
Vous allez ajouter un nouveau champ qui contiendra les distances en unités linéaires.
- Saisissez Distance dans la colonne Field Name (Nom du champ) pour le nouveau champ.
- Dans la colonne Data Type (Type de données) du champ Distance, cliquez sur la liste déroulante et sur Double.
- Sur le ruban, sur l’onglet Fields (Champs), dans la section Changes (Modifications), cliquez sur Save (Enregistrer).
- Fermez la fenêtre Fields: HBLL_dist (Champs : NPSE_dist).
- Dans la table attributaire HBLL_dist (NPSE_dist), cliquez avec le bouton droit sur l’en-tête de colonne du champ Distance et cliquez sur Calculate Geometry (Calculer la géométrie).
- Dans la boîte de dialogue de l’outil Calculate Geometry (Calculer la géométrie), dans la liste déroulante Property (Propriété) pour la valeur à ajouter au champ Distance, cliquez sur Length (geodesic) (Longueur [géodésique]).
- Dans Length Unit (Unité de longueur), choisissez Meters (Mètres).
- Cliquez sur OK.
La longueur des lignes, exprimée en mètres, est ajoutée en tant qu’attribut dans le champ Distance.
- Cliquez avec le bouton droit sur l’en-tête de colonne Distance et sélectionnez Visualize Statistics (Visualiser les statistiques).
La fenêtre Statistics (Statistiques) du champ Distance présente les statistiques récapitulatives pour le champ de distance. Elles montrent que la distance moyenne de déplacement des points vers la localisation des coordonnées arrondies s’élève à 376 mètres, avec une distance minimale de 18 mètres et une distance maximale de 684 mètres.
L’outil Statistics (Statistiques) crée également un histogramme des valeurs de distance que vous pourriez utiliser, par exemple, pour motiver vos décisions concernant la création de ce produit anonymisé grâce à l’arrondi des coordonnées.
- Fermez la fenêtre Chart Properties (Propriétés du diagramme).
- Fermez le diagramme Distribution of Distance (Distribution de distance).
Dénombrer les points aux coordonnées arrondies
Vous allez maintenant calculer le nombre de points empilés après avoir utilisé l’arrondi des coordonnées. À des fins d’analyse de confidentialité et d’anonymisation, vous pouvez considérer que ce nombre représente le nombre de cas du gisement qui pourraient représenter l’identité d’un seul cas. Plus le nombre de cas est élevé dans chaque pile, plus le gisement est important et meilleure est l’anonymisation. Vous allez analyser les points sur le plan géographique en sachant que vous avez également besoin de vérifier le caractère unique de tous les attributs que vous avez conservés dans une table que vous prévoyez de partager, puisqu’une combinaison particulière des attributs pourrait également identifier une personne donnée. Pour cette raison, il est recommandé de fournir un jeu de données réduit au minimum aux parties prenantes.
- Dans la fenêtre Geoprocessing (Géotraitement), recherchez et ouvrez l’outil Collect Events (Collecter les événements).
- Dans Input Incident Features, choisissez High_Blood_Level_Results_Rounded (Résultats_Niveaux_Sanguins_Élevés_arrondis).
- Dans Output Weighted Point Feature Class (Classe d’entités ponctuelles pondérées en sortie), saisissez HBLL_rounded_counts (Totaux_NPSE_arrondis).
- Cliquez sur Run (Exécuter).
Dans l’exemple, certains agrégats comptent pas moins de 15 points empilés alors que bon nombre d’entre eux n’en incluent qu’un ou deux. Avec un jeu de données plus important, les points empilés peuvent être plus denses.
Vous avez utilisé l’arrondi des coordonnées pour masquer la localisation des données ponctuelles sensibles tout en ayant conservé plusieurs attributs supplémentaires associés aux points. Les chercheurs travaillant dans le domaine de l’égalité en matière de santé disposent maintenant des meilleures conditions pour réaliser une analyse supplémentaire et de brosser un tableau plus complet du saturnisme infantile à Sacramento à l’aide des données anonymisées. Pour documenter la méthode d’anonymisation utilisée, vous avez calculé les statistiques relatives à la distance de décalage de chaque point et comptabilisé le gisement de points dans chaque pile de localisation de grille. Rappelez-vous qu’il est également important de supprimer les attributs susceptibles de permettre une ré-identification (comme l’adresse ou les coordonnées de la localisation d’origine) et qu’il est préférable de réduire au minimum le nombre d’attributs dans le jeu de données que vous procurez.
- Cliquez sur Save Project (Enregistrer le projet) pour enregistrer votre projet.
Examen des approches avancées
Vous avez pris connaissance de diverses approches visant à anonymiser les données dans le cadre de différents scénarios. Certaines situations peuvent nécessiter d’adopter des méthodes plus avancées. Dans cette section, vous allez découvrir deux méthodes avancées d’anonymisation des données : le géomasquage et la confidentialité différentielle.
En fonction de la nature de vos activités SIG dans le domaine de la santé, vous souhaiterez peut-être approfondir vos connaissances et mener vos propres recherches sur les techniques suivantes de façon à pouvoir appliquer ces dernières en cas de besoin.
GéomasquageLe terme de géomasquage fait référence à un groupe de méthodes qui changent la localisation géographique des points individuels de manière différente et plus efficace que le simple arrondi des coordonnées. Pour réaliser un géomasquage utile, deux conditions sont essentielles. Tout d’abord, la perturbation du point doit être imprévisible puisque c’est ce qui protège la confidentialité des données. Deuxièmement, le point doit être déplacé d’une façon qui préserve les relations spatiales existant dans le jeu de données. Après tout, vos travaux avec les SIG porte sur la recherche de modèles. Dans les notes qui suivent, vous découvrirez un type spécifique de géomasquage : la méthode en anneau. Vous apprendrez alors à évaluer de manière statistique les résultats du géomasquage avec la K-anonymisation. Enfin, un outil qui automatise l’intégralité du processus à votre place vous sera présenté.
Méthode en anneau pour le géomasquageLe principe de base qui sous-tend le géomasquage en anneau est d’améliorer la confidentialité en s’assurant que le point déplacé aléatoirement ne peut jamais être transféré vers sa position d’origine. Cela signifie qu’un point doit être décalé d’une distance minimale par rapport à sa localisation initiale. Par ailleurs, pour préserver les modèles spatiaux, un déplacement maximal est également calculé pour chaque point. Ces deux distances créent une zone de déplacement en forme d’anneau au sein de laquelle le point initial peut être déplacé. Vous pouvez en savoir plus sur la méthode en anneau dans cet article.
La méthode Expert Determination d’anonymisation comporte l’obligation de documenter le processus et de justifier la manière dont celui-ci atteint un très faible risque de ré-identification d’un individu. En utilisant la technique de géomasquage, la statistique de K-anonymisation constitue la mesure d’évaluation sur laquelle s’appuie cette justification. Vous pouvez en savoir plus sur la K-anonymisation. L’idée générale est que la K-anonymisation représente le nombre de ménages dans le jeu de données à partir duquel il est impossible d’isoler un sujet anonymisé. Par exemple, si vous avez décidé que la valeur minimale de K est égale à cinq (ce qui s’écrit KMin=5), vous stipulez qu’il existe au moins cinq ménages (ou personnes) qui peuvent représenter le point d’origine.
La principale décision de votre organisation consiste à déterminer la valeur minimale K qui est acceptable pour garantir la protection de la vie privée. Il n’existe pas de norme unique en la matière, mais il peut être utile de passer en revue les politiques mises en place par les différentes administrations régionales et fédérales en ce qui concerne le nombre des cellules de petites tailles. Les petites cellules sont définies comme le nombre de personnes correspondant à la même combinaison d’entités. Une harmonisation avec la politique des agences gouvernementales peut aider votre organisation à prendre la décision d’élaborer sa propre norme. Notez également qu’une valeur standard K risque de ne pas convenir à toutes les situations.
MapMasqSi vous faites régulièrement appel au géomasquage ou à une autre technique d’anonymisation des données, envisagez d’utiliser MapMasq. Il s’agit d’une solution proposée par le partenaire Esri, Axim Geospatial. Elle fonctionne comme une extension ArcGIS et automatise le processus de géomasquage et l’évaluation de la K-anonymisation.
Confidentialité différentielleLa confidentialité différentielle est une technique récente que beaucoup considèrent comme plus efficace pour protéger la vie privée. Elle est plus performante avec des jeux de données plus volumineux. Cette méthode est celle que le bureau du recensement américain utilise depuis le recensement de 2020. Avec la confidentialité différentielle, les données d’un jeu de données (l’ensemble des données) sont mathématiquement changées de façon à rendre impossible l’identification d’une personne tout en préservant l’utilité du jeu de données. Une certaine quantité de bruit est injecté dans le jeu de données selon un paramètre epsilon, désigné sous le terme de budget de perte de confidentialité. L’utilisation d’epsilon signifie que le risque de divulgation des données est quantifiable. Ceci est utile dans le cadre du respect des stratégies des organisations et de l’obligation de documentation de la méthode Expert Determination.
On peut considérer le fonctionnement de la confidentialité différentielle comme l’une de ces mosaïques dans lesquelles des centaines d’images ordinaires sont assemblées afin de former une grande image nouvelle. Si vous effectuez un zoom avant sur les images individuelles, vous pourriez remplacer plusieurs images ou en déplacer certaines et constatez, lorsque vous effectuez un zoom arrière, que l’allure générale de l’image reste identique. L’image globale n’est peut-être pas aussi nette qu’une photo, mais la qualité s’améliore à mesure que vous ajoutez des images individuelles.
Il reste encore beaucoup à apprendre sur la confidentialité différentielle et l’intérêt qu’elle présente pour le SIG dans le secteur médical. Il s’agit d’un domaine que vous devez connaître puisqu’il est possible que vous exploitiez déjà des données de recensement partagées par le biais de cette méthode ou que des outils permettant d’utiliser cette technique existent pour vos activités géospatiales.
Pour en savoir plus sur l’impact de la confidentialité différentielle sur les données du recensement américain de 2020, consultez le rapport de méthodologie Esri de juin 2022 , ainsi que ce manuel sur la non-divulgation rédigé par le Bureau du recensement américain.
Dans cette section, vous avez découvert deux méthodes avancées d’anonymisation des données qu’il est possible d’ajouter à votre kit d’outils pour respecter les règles de confidentialité de l’HIPAA et d’autres règles. Le géomasquage s’attache à calibrer les données de localisation de sorte que vous ayez un nombre Kmin de personnes pouvant représenter le point d’origine. La confidentialité différentielle procède à l’ajustement grâce à un budget de perte de confidentialité epsilon pour anonymiser convenablement les personnes. Vous êtes en bonne voie pour protéger les données et l’organisation contre toute atteinte à la vie privée.
Ce didacticiel sur l’anonymisation des données à des fins de visualisation et de partage donne un aperçu de l’HIPAA, la loi américaine sur la protection des informations de santé personnelles. Vous avez appris plusieurs techniques qui permettent de cartographier et de visualiser les informations en toute sécurité. Vous avez également découvert des techniques qui vous aident à partager les données, que ce soit dans une carte Web dynamique ou sous forme d’un jeu de données à des fins de recherche ou autres. Vous avez pris connaissance de certaines techniques avancées auxquelles vous pouvez faire appel lorsque vous avez besoin d’options plus performantes afin de conserver les données au niveau des points.
Un didacticiel ne saurait couvrir toutes les situations. Dans ce didacticiel, vous avez découvert comment analyser spatialement un problème et déterminé les avantages et les inconvénients des différentes méthodes. Quelle que soit la technique que vous appliquez aux informations de santé protégées, réfléchissez bien et vérifiez les préconisations de votre organisation pour assurer la conformité et la sécurité.
Vous trouverez d’autres didacticiels dans la bibliothèque des didacticiels.