Renseigner les espaces dans vos données avec l’interpolation aérienne
Interpoler le pourcentage de seniors en Pologne
Si vous connaissez les valeurs de la plupart des entités de votre jeu de données, vous pouvez les utiliser pour prévoir des valeurs continues dans toute la zone. Vous allez effectuer cela pour cartographier la distribution spatiale des seniors en Pologne.
- Téléchargez le Paquetage de projet FillGaps.
- Recherchez le fichier téléchargé sur votre ordinateur. Double-cliquez sur FillGaps.ppkx pour l’ouvrir.
Remarque :
Si vous n’avez pas accès à ArcGIS Pro ou ne disposez pas d’un compte d’organisation ArcGIS, consultez les options disponibles pour accéder aux logiciels.
Le projet s’ouvre dans ArcGIS Pro.
Cette carte décrit les powiats, des divisions administratives similaires aux districts, en Pologne. Les polygones sont colorés pour représenter le pourcentage de population âgée de 65 ans ou plus. Les données sont malheureusement incomplètes. Dix powiats ne contiennent aucune valeur de pourcentage de senior.
Ces données spatiales figurent dans ArcGIS Living Atlas of the World. Les valeurs du pourcentage de seniors ont été fournies par Statistics Poland (dans le cadre de ce didacticiel, les valeurs manquantes ont été artificiellement éliminées).
Les données démographiques sont souvent difficiles à modéliser avec des géostatistiques car les zones urbaines présentent des modèles considérablement différents de ceux des zones rurales. Dans ce cas, la variation spatiale de ces données est relativement fluide, sans ruptures excessivement prononcées. De ce fait, il se peut que les données soient appropriées aux géostatistiques.
- Sur le ruban, cliquez sur l’onglet Analysis (Analyse). Dans le groupe Workflows (Processus), cliquez sur Geostatistical Wizard (Assistant géostatistique).
La fenêtre Geostatistical Wizard (Assistant géostatistique) apparaît.
- Dans la fenêtre Geostatistical Wizard (Assistant géostatistique), sous Geostatistical methods (Méthodes Assistant géostatistiques), sélectionnez Areal Interpolation (Interpolation spatiale).
La plupart des méthodes d’interpolation nécessitent des données ponctuelles en entrée, mais l’interpolation aérienne fait appel à des polygones. Dans ce didacticiel, vous allez utiliser des polygones presque complets qui s’associent comme les pièces d’un puzzle. Vous pouvez également utiliser des polygones largement espacés ou se superposant. Par exemple, vous pouvez disposer de données représentant des observations d’oiseaux, stockées dans des polygones pour le sol couvert par chaque observateur.
Remarque :
Pour en savoir plus sur cette méthode géostatique, consultez Qu’est-ce que l’interpolation aérienne ?
L’interpolation aérienne traite les valeurs différemment si vous les déclarez comme représentant des moyennes, des taux ou des événements. Vous cartographiez le pourcentage de population ayant un certain âge, ce qui implique un taux.
- Sous Input Dataset 1 (Jeu de données en entrée 1), pour Type, sélectionnez Rate (Taux). Pour Source Dataset (Jeu de données en entrée), sélectionnez Powiaty_Seniors.
- Pour Count Field (Champ Total), sélectionnez 2017 Senior Population (Population des seniors 2017), puis, pour Population Field (Champ Population), sélectionnez 2017 Total Population (Population totale 2017).
- Cliquez sur Next (Suivant).
La fenêtre suivante affiche un diagramme de covariance Les croix bleues représentent vos données non modélisées. La ligne bleue représente le modèle allant être utilisé pour prévoir le pourcentage de seniors dans la zone entière. Vous souhaitez modifier les paramètres du modèle jusqu’à ce que sa ligne suive le trajet des croix et que 90 % des croix tombent dans les intervalles de confiance rouges. Ce n’est actuellement pas le cas.
Non seulement la ligne ne suit pas les croix de près, mais en outre deux croix se situent loin du parcours. Vous serez rarement en mesure de réaliser un modèle idéal, mais vous pouvez essayer de vous rapprocher le plus possible d’un tel modèle. Diminuer la taille de décalage constitue un bon point de départ. Vous réduirez ainsi la zone où s’effectue la recherche lors de l’échantillonnage pour générer les croix bleues.
- Sous General Properties (Propriétés générales), pour Lag Size (Taille de décalage), saisissez 12000.
Le modèle change. Toutefois, les croix sont à présent encore plus loin des intervalles de confiance.
Vous allez ensuite essayer d’améliorer le modèle en changeant sa forme.
- Pour Model (Modèle), choisissez Stable.
Remarque :
Les modèles stable et de K-Bessel offrent souvent le meilleur résultat, mais nécessitent plus de temps.
Réaliser un modèle parfait peut être difficile voire impossible, en particulier si vous travaillez sur des données géographiques plutôt qu’un phénomène naturel. Dans ce scénario, même si une seule des croix se situe dans les intervalles de confiance, la ligne du modèle suit les croix relativement de près. Ce modèle n’est pas parfait, mais il constitue un compromis acceptable.
- Cliquez sur Next (Suivant).
La fenêtre suivante contient une carte d’aperçu.
- Cliquez sur différentes parties de cette carte d’aperçu.
La carte met en évidence les polygones voisins allant être utilisés pour déterminer la valeur prédite pour l’emplacement sur lequel vous avez cliqué. Les polygones colorés en rouge auront une pondération plus forte dans l’analyse que ceux colorés en vert.
- Cliquez sur Next (Suivant).
La page Cross validation (Validation croisée) s’affiche. La validation croisée évalue la précision de la surface de prévision. Pour ce faire, elle supprime un polygone unique du jeu de données et utilise les données restantes pour prévoir une valeur dans le polygone supprimé.
Le diagramme de dispersion Predicted (Prédit) de ce modèle ne semble pas correct. Dans l’idéal, les valeurs en rouge devraient suivre la tendance des lignes bleues et grises. Votre diagramme ressemble plus à un nuage de points aléatoire. D’un autre côté, les valeurs répertoriées dans l’onglet Summary (Résumé) paraissent correctes. Ces valeurs devraient toutes être proches de zéro, à l’exception de Root-Mean-Square Standardized (Valeur moyenne quadratique normalisée), qui serait proche de 1. La valeur Root-Mean-Square (Valeur moyenne quadratique) de 0,02 signifie que la proportion prédite de seniors sera décalée de la valeur réelle d’en moyenne 2 %. Il s’agit d’une marge d’erreur raisonnable. Ces valeurs offrent plus d’indications sur la qualité de votre modèle que le diagramme de dispersion.
- Cliquez sur Finish (Terminer). Dans la fenêtre Method Report (Rapport de méthode), cliquez sur OK.
Une couche interpolée est ajoutée à la carte.
- Dans la fenêtre Contents (Contenu), désactivez Powiaty_Seniors (Seniors_powiat) et activez Powiaty_Seniors outlines (Contours seniors_powiat).
Les zones ayant des contours noirs épais sont celles où il manque des données.
Créer des polygones à partir de l’interpolation
L’interpolation que vous avez créée est continue et ignore les contours de polygone. Les géostatistiques ont lissé les données démographiques pour créer une surface graduelle. Même s’il est possible qu’elles ne correspondent pas précisément à des données connues, les interpolations fluides telles que celle-ci sont souvent meilleures pour prédire des valeurs inconnues.
Vous allez ensuite convertir la surface d’interpolation continue en polygone.
- Sur le ruban, cliquez sur l’onglet Map (Carte). Dans le groupe Navigate (Parcourir), cliquez sur Bookmarks (Géosignets), puis choisissez Kluczborski (Kluczborski).
La carte affiche le powiat de Kluczborski.
La couche Areal Interpolation (Interpolation aérienne) est une couche géostatistique, ce qui signifie que chaque emplacement sur la carte possède une valeur légèrement différente. Certains des polygones que vous devez remplir, tels que celui-ci, possèdent un vaste éventail de valeurs prédites. Vous allez convertir cette surface prédite en une couche surfacique avec une seule valeur prédite pour chaque powiat.
- Sur le ruban, cliquez sur l’onglet Analysis (Analyse). Dans le groupe Geoprocessing (Géotraitement), cliquez sur Tools (Outils).
La fenêtre Geoprocessing (Géotraitement) s’affiche.
- Dans la fenêtre Geoprocessing (Géotraitement), dans la barre de recherche, saisissez Areal Interpolation Layer (Couche d’interpolation surfacique), puis, dans la liste des résultats, choisissez l’outil Areal Interpolation Layer To Polygons (Couche d’interpolation surfacique vers polygones).
- Pour l’outil Areal Interpolation Layer To Polygons (Couche d’interpolation surfacique vers polygones), saisissez ce qui suit :
- Pour Input areal interpolation geostatistical layer (Couche géostatistique d’interpolation linéaire en entrée), sélectionnez Areal Interpolation (Interpolation aérienne).
- Pour Input polygone features (Entités surfaciques en entrée), choisissez Powiaty_Seniors (Seniors_powiat).
- Pour Output polygon feature class (Classe d’entités surfaciques en sortie), renommez la sortie Polygones_interpolés. Assurez-vous d’inclure le trait de soulignement.
- Cliquez sur Run (Exécuter).
La couche Interpolated_Polygons est ajoutée à la carte.
- Sur le ruban, cliquez sur l’onglet Map (Carte). Dans le groupe Navigate (Naviguer), cliquez sur le bouton Full Extent (Étendue entière) pour retourner à la vue par défaut de la carte.
- Dans la fenêtre Contents (Contenu), faites glisser la couche Interpolated_Polygons (Polygones_interpolés) sous la couche Powiaty_Seniors outlines (Contours seniors_powiat).
- Désactivez l’option Areal Interpolation (Interpolation surfacique).
Vous disposez maintenant d’une valeur de pourcentage de seniors dans chaque polygone
Bien que vous disposiez des valeurs réelles de la plupart de ces polygones, vous ne souhaitez utiliser les valeurs prédites que pour 10 d’entre eux. Vous allez sélectionner les 10 polygones ayant une valeur manquante et utiliser l’outil Calculate Field (Calculer un champ) pour ajouter des valeurs à ces polygones seuls.
- Cliquez avec le bouton droit sur Polygones_interpolés et choisissez Attribute Table (Table attributaire).
La table attributaire s’affiche. Elle contient toutes les données de la couche Seniors_powiat, ainsi que trois nouveaux champs : Included (Inclus), Predicted (Prédit) et Standard Error (Erreur standard).
- Double-cliquez sur l’en-tête de la colonne Percent Seniors (Pourcentage de seniors) pour la trier.
Tous les enregistrements vides se trouvent à présent en haut de la table. Vous allez maintenant remplacer ces valeur <Null> par les données issues du champ Predicted (Prédit).
- Sélectionnez toutes les lignes où il manque des données sur les seniors.
Remarque :
Cliquez sur le numéro de ligne du premier enregistrement et sélectionnez plusieurs lignes, appuyez sur la touche Maj ou faites glisser le curseur sur les numéros de ligne à sélectionner. Vous pouvez également utiliser l’outil Sélectionner par attributs.
- En haut de la table attributaire, cliquez sur le bouton Calculate (Calculer).
L’outil Calculer un champ s’ouvre dans une fenêtre contextuelle. Le calcul de champ n’est appliqué qu’aux lignes sélectionnées.
- Pour Field Name (Nom du champ), sélectionnez Percent Seniors (Pourcentage de seniors).
- Dans la liste Fields (Champs), faites défiler l’écran vers le bas et double-cliquez sur Predicted (Prédit).
Le champ PercentSeniors = reçoit !Predicted! Cela extraira les valeurs issues du champ Predicted (Prédit) et les collera dans le champ Percent Seniors (Pourcentage de seniors). Mais les valeurs figurant dans ces deux champs sont formatées en tant que valeurs décimales et non pas valeurs de pourcentages. Pour les convertir, vous allez multiplier les valeurs par 100.
- Après !Predicted!, saisissez *100.
- Cliquez sur Apply (Appliquer).
- Dans la table attributaire, cliquez sur le bouton Show Selected Records (Afficher les enregistrements sélectionnés).
Les valeurs <Null> (<Nul>) figurant dans la colonne Percent Seniors (Pourcentage de seniors) sont remplacées. Les lignes non sélectionnées demeurent inchangées.
- En haut de la table attributaire, cliquez sur Clear (Effacer) pour effacer la sélection.
- Fermez la table attributaire.
Symboliser la carte
Enfin, vous allez symboliser la nouvelle couche en fonction de la couche d’origine. Au lieu de définir les paramètres de symbologie un par un, vous allez les importer à partir de la couche Seniors_powiat.
- Dans la fenêtre Contents (Contenu), désactivez la couche Powiaty_Seniors outlines (Contours seniors_powiat) et cliquez sur la couche Polygones_interpolés pour la sélectionner.
- Sur le ruban, sous l’onglet Feature Layer (Couche d’entités), dans le groupe Drawing (Dessin), cliquez sur Import (Importer).
La fenêtre Import Symbology (Importer la symbologie) apparaît.
- Dans la fenêtre Import Symbology (Importer la symbologie), pour Symbology Layer (Couche de symbologie), choisissez Powiaty_Seniors (Seniors_powiat).
- Cliquez sur Apply (Appliquer), puis sur OK (OK).
La symbologie de la couche Areal_Interpolation_Polygons (Polygones_interpolation_aérienne) correspond maintenant à celle de la couche Seniors_powiat, votre couche d’origine, mais les données ne contiennent plus aucun vide.
- Dans la barre d’outils Accès rapide, cliquez sur le bouton Save (Enregistrer).
On appelle imputation le processus consistant à substituer des valeurs pour remplacer des données manquantes. Souvent, les valeurs sont imputées à l’aide de la moyenne du jeu de données restant. Si vos données sont partielles, vous disposez d’options plus intéressantes, car vous pouvez considérer que les objets plus proches les uns des autres sont plus similaires que ceux plus éloignés les uns des autres. Dans ce didacticiel, vous avez utilisé l’interpolation surfacique pour créer une surface continue à travers la Pologne afin de modéliser le pourcentage de la population âgée de plus de 65 ans. Vous avez ensuite extrait un échantillon de cette surface afin de prédire des valeurs pour les polygones ayant des données manquantes.
N’oubliez pas d’indiquer aux utilisateurs de votre carte que certaines des valeurs ont été imputées. Pour ce faire, vous pouvez utiliser des étiquettes, une liste ou la symbologie. Si votre carte est incluse dans un rapport, vous pouvez décrire la méthode d’imputation.
L’outil Fill Missing Values (Renseigner les valeurs manquantes) peut effectuer la même tâche. Pour certains jeux de données, cet outil produira de meilleurs résultats. Pour d’autres, les géostatistiques feront mieux. Il est difficile de savoir tant que les deux n’ont pas été testés, mais si la transition spatiale entre les valeurs n’est pas fluide, l’outil Fill Missing Values (Renseigner les valeurs manquantes) est recommandé.
Remarque :
Si vous souhaitez un défi supplémentaire, recherchez l’outil Fill Missing Values (Renseigner les valeurs manquantes) de la fenêtre Geoprocessing (Géotraitement) et utilisez-le pour imputer les valeurs manquantes dans la couche Powiaty_Seniors (Seniors_powiat). Comparez vos résultats aux valeurs réelles de Powiaty_full_dataset (Jeu_de_données_entier_Powiat), accessible via la fenêtre Catalog (Catalogue), développez le dossier Maps (Cartes), puis double-cliquez sur la carte Full Dataset (Jeu de données entier).
Pour en savoir plus, lisez Remplacer les valeurs manquantes (exploration des modèles spatio-temporels) et cet article ArcUser Gérer les données manquantes.
Vous trouverez d’autres didacticiels dans la bibliothèque des didacticiels.