Configurer le projet et examiner les données
Vous allez configurer le projet ArcGIS Pro et examiner les données en entrée. Mais tout d’abord, vous allez découvrir certaines notions de base concernant le processus de Machine Learning qui vous servira dans ce didacticiel.
Comprendre le processus de Machine Learning
Le concept fondamental du Machine Learning est le suivant : permettre aux ordinateurs d’apprendre à partir de données d’échantillonnage et d’appliquer ce qu’ils ont appris à des données inconnues. Pour ce faire, l’une des méthodes consiste à entraîner un modèle de régression et à l’utiliser pour prévoir de nouveaux résultats. C’est l’approche que nous allons adopter dans ce didacticiel.
Vous voulez prévoir la biomasse au-dessus du sol (AGB, aboveground biomass) dans plusieurs comtés de Géorgie. Vous avez besoin des données suivantes :
- Données d’échantillonnage cibles : ensemble de valeurs AGB connues pour les localisations d’échantillonnage. Vous allez utiliser les données ponctuelles extraites d’un jeu de données de trajectoire lidar du satellite GEDI, comme illustré dans l’image d’exemple suivante.
- Variables explicatives : données capables d’expliquer les valeurs d’échantillonnage AGB et permettant ensuite de prévoir les valeurs AGB des nouvelles zones. Vous allez utiliser l’imagerie satellite multispectrale Landsat 9, des données MNE (modèle numérique d’élévation) et des couches raster dérivées complémentaires. Les images d’exemple suivantes illustrent l’imagerie Landsat (à gauche) et des données raster MNE (à droite).
L’imagerie satellite multispectrale Landsat 9 a été choisie comme variable explicative car les caractéristiques spectrales du capteur correspondent à la végétation, qui est directement liée à la biomasse. Le modèle numérique d’élévation (MNE) capture la variabilité topologique et la complexité du terrain, facteurs qui peuvent également influer sur la croissance de la végétation.
Vous allez entraîner le modèle en utilisant en entrée les données d’échantillonnage cibles et les variables explicatives. Au cours de l’entraînement, le modèle va capturer les relations entre les valeurs d’échantillonnage et les variables explicatives. Lorsque le modèle vous conviendra, vous allez l’utiliser pour prévoir les valeurs AGB dans toute l’étendue des comtés de Géorgie. Cette sortie sera un raster, comme illustré dans l’image d’exemple, où les valeurs AGB plus élevées apparaissent en vert foncé et les valeurs plus faibles en blanc ou vert clair.

Télécharger et ouvrir le projet
Pour commencer, vous allez télécharger un projet qui contient les données de ce didacticiel et l’ouvrir dans ArcGIS Pro.
- Téléchargez le fichier Estimate_Biomass.zip et localisez-le sur votre ordinateur.
Remarque :
La plupart des navigateurs Web téléchargent les fichiers dans le dossier Téléchargements de votre ordinateur, par défaut.
La taille du fichier .zip étant de 2,9 Go, le téléchargement peut prendre quelques minutes.
- Cliquez avec le bouton droit sur le fichier Estimate_Biomass.zip, puis décompressez-le à un emplacement sur votre ordinateur, par exemple le lecteur C.
- Ouvrez le dossier Estimate_Biomass extrait, puis double-cliquez sur Estimate_Biomass.aprx pour ouvrir le projet dans ArcGIS Pro.
- A l'invite, connectez-vous à votre compte d'organisation ArcGIS.
Remarque :
Si vous n’avez pas accès à ArcGIS Pro ou ne disposez pas d’un compte d’organisation ArcGIS, consultez les options disponibles pour accéder aux logiciels.
Le projet s’ouvre.
La carte affiche les limites de la zone d’étude sous forme d’un polygone aux contours orange. Cette zone représente 20 comtés en Géorgie.
Examiner les données en entrée
Vous allez maintenant examiner le reste des données en entrée fournies dans le projet. Commencez par ajouter l’image Landsat à la carte.
- Sur le ruban, cliquez sur l'onglet Vue. Dans le groupe Windows (Fenêtres), cliquez sur Catalog Pane (Fenêtre Catalogue).
- Dans la fenêtre Catalog (Catalogue), développez Folders (Dossiers), Estimate_Biomass (Estimation_Biomasse) et InputData (DonnéesEntrée).
- Sous InputData (DonnéesEntrée), développez LC09_L2SP_018038_20221004_20230327_02_T1.
Il s’agit d’une scène d’imagerie satellite Landsat 9 qui comprend sept bandes spectrales avec des valeurs de réflectance des surfaces :
- Bande 1 – Aérosol côtier
- Bande 2 - Bleu
- Bande 3 - Vert
- Bande 4 - Rouge
- Bande 5 – Proche infrarouge (NIR)
- Bande 6 — Infrarouge à ondes courtes (SWIR) 1
- Bande 7 – Infrarouge à ondes courtes (SWIR) 2
Remarque :
Vous pouvez faire glisser la ligne verticale pour augmenter la largeur de la fenêtre et mieux voir les noms de fichiers longs.
Ces bandes serviront de variables explicatives. Vous allez maintenant ajouter la scène Landsat à la carte.
- Cliquez avec le bouton droit sur LC09_L2SP_018038_20221004_20230327_02_T1_MTL.txt et choisissez Add To Current Map (Ajouter à la carte actuelle).
- Si vous êtes invité à calculer les statistiques, cliquez sur Yes (Oui).
Après quelques instants, l’image s’affiche sur la carte. Vous allez lui attribuer un nom plus court.
- Dans la fenêtre Contents (Contenu), cliquez sur l’élément Surface Reflectance_LC09_L2SP_018038_20221004_20230327_02_T1_MTL pour le sélectionner, puis cliquez de nouveau dessus pour passer en mode de mise à jour. Remplacez le nom par Landsat9 et appuyez sur Entrée.
Vous allez définir le rendu de l’image sur la couleur naturelle, une combinaison des bandes rouge, verte et bleue, qui montrent des couleurs proches de ce que voit habituellement l’œil humain.
- Dans la fenêtre Contents (Contenu), vérifiez que Landsat9 est sélectionné.
- Sur le ruban, sur l’onglet Raster Layer (Couche raster), dans le groupe Rendering (Rendu), cliquez sur le bouton Symbology (Symbologie).
- Dans la fenêtre Symbology (Symbologie), définissez les valeurs de paramètre suivantes :
- Pour Primary Symbology (Symbologie principale), vérifiez que RGB (RVB) est sélectionné.
- Pour Red (Rouge), sélectionnez SRB4.
- Pour Green (Vert), sélectionnez SRB3.
- Pour Blue (Bleu), sélectionnez SRB2.
Le rendu de l’image adopte la couleur naturelle.
- Fermez la fenêtre Symbology (Symbologie).
Vous allez ensuite ajouter le modèle numérique d’élévation (MNE) à la carte.
- Dans la fenêtre Catalog (Catalogue), dans le dossier InputData (DonnéesEntrée), réduisez LC09_L2SP_018038_20221004_20230327_02_T1.
- Cliquez avec le bouton droit sur DEM.tif et sélectionnez Add To Current Map (Ajouter à la carte actuelle).
- Dans la fenêtre Contents (Contenu), renommez la couche DEM.tif en DEM (MNE).
- Examinez la couche DEM (MNE) sur la carte.
Le MNE fournit des données d’élévation. Les zones plus claires désignent les zones avec une élévation plus élevée et les zones plus foncées indiquent les zones dont l’élévation est plus faible.
Cette couche servira également de variable explicative. Vous allez maintenant passer en revue les données GEDI.
- Dans la fenêtre Catalog (Catalogue), sous InputData (DonnéesEntrée), développez le dossier GEDI_L4A.
Ce dossier contient huit fichiers GEDI qui serviront d’échantillons avec des valeurs AGB connues, ou cibles d’entraînement. Notez qu’il s’agit de fichiers HDF5 de trajectoire : ce ne sont pas des fichiers raster, mais des données de trajectoire. Vous apprendrez à gérer ces données et à les afficher sur la carte plus loin dans le processus.
La fenêtre Content (Contenu) comporte deux autres couches de données. Vous avez déjà vu la couche AOI (Zone d’intérêt), qui délimite l’ensemble de la zone d’étude. La couche Counties (Comtés) est également présente, qui fournit les limites des comtés. Vous allez l’activer.
- Dans la fenêtre Contents (Contenu), développez la flèche en regard de la couche Counties (Comtés) pour afficher sa légende, puis cochez la case en regard de la couche Counties (Comtés) pour l’activer.
- Examinez les couches AOI (Zone d’intérêt) et Counties (Comtés) (orange et violet vif) sur la carte.
Vous utiliserez ces deux couches plus loin dans l’analyse.
- Cochez les cases en regard des couches Counties (Comtés), DEM (MNE) et Landsat9 pour les désactiver, car vous n’en aurez pas besoin au cours des prochaines étapes du processus.
- Dans la barre d’outils Quick Access (Accès rapide), cliquez sur Save (Enregistrer) pour enregistrer le projet.
Dans cette partie du processus, après une vue d’ensemble du processus de Machine Learning, vous avez configuré le projet ArcGIS Pro. Vous avez ensuite examiné les données en entrée : une scène Landsat 9 à sept bandes, un raster MNE, des données GEDI et certaines couches de limites.
Traiter et extraire les données GEDI
AGB représente la végétation vivante au-dessus du sol, mesurée en masse par unité, généralement le mégagramme (ou tonne métrique) par hectare. La mesure physique de la valeur AGB au sol sur une vaste zone d’étude est fastidieuse et presque impossible. Par contre, l’estimation de la valeur AGB à l’aide de données de télédétection représente une bonne solution alternative.
GEDI est une mission lidar satellitaire de la NASA qui mesure la structure 3D de la surface de la Terre. Cela inclut la hauteur du couvert forestier et sa structure verticale, à savoir, les couches empilées d’arbres et d’arbustes qui peuvent ensemble constituer une biomasse plus ou moins importante. GEDI capture des points d’échantillonnage le long des traces du capteur. À partir de ces mesures, il est possible de déduire la densité de la biomasse au-dessus du sol (AGBD). Le produit GEDI L4A contient ces valeurs ponctuelles AGBD déduites. L’exemple d’image suivant illustre les traces GEDI sur lesquelles les échantillons de données AGBD ont été capturées, lors de leur intersection dans la zone d’étude de ce didacticiel.

Ces données sont distribuées dans des fichiers HDF5 sous forme de trajectoires et peuvent être intégrées dans ArcGIS comme jeu de données de trajectoire, un modèle de données de géodatabase permettant de gérer une collection de fichiers de trajectoires. Vous allez maintenant créer un jeu de données de trajectoire, y ajouter les données GEDI fournies et extraire les données ponctuelles AGBD pertinentes qui seront utilisées comme échantillons d’entraînement plus loin dans le processus.
Créer un jeu de données de trajectoire
Vous allez commencer par créer un jeu de données de trajectoire vide dans la géodatabase de projet.
- Dans la fenêtre Catalog (Catalogue), développez Databases (Bases de données).
- Cliquez avec le bouton droit sur Estimate_Biomass.gdb, cliquez sur New (Nouveau), puis sélectionnez Trajectory Dataset (Jeu de données de trajectoire).
Dans la fenêtre Geoprocessing (Géotraitement), l’outil Create Trajectory Dataset (Créer un jeu de classes d’entités) apparaît.
- Pour Trajectory Dataset Name (Nom du jeu de données de trajectoire), saisissez Gedi.
- Acceptez les autres valeurs par défaut et cliquez sur Run (Exécuter).
Le jeu de données de trajectoire apparaît dans la fenêtre Contents (Contenu). Elle contient les sous-couches Footprint (Emprise) et Point (Point).
Ce jeu de données est actuellement vide et doit servir de conteneur pour les données GEDI.
Ajouter des données GEDI au jeu de données de trajectoire
Vous allez à présent ajouter les données GEDI fournies pour ce processus dans le jeu de données de trajectoire vide que vous venez de créer.
- Repassez à la fenêtre Catalog (Catalogue).
- Dans la fenêtre Catalog (Catalogue), développez la géodatabase Estimate_Biomass.gdb, cliquez avec le bouton droit sur Gedi, puis sélectionnez Add Trajectories (Ajouter des trajectoires).
Vous allez commencer par configurer le type et les propriétés du jeu de données de trajectoire.
- Dans la fenêtre Add Data to Trajectory Dataset (Ajouter des données au jeu de données de trajectoire), pour Trajectory Type (Type de trajectoire), sélectionnez GEDI.
- Sous Trajectory Type (Type de trajectoire), cliquez sur le bouton Properties (Propriétés).
- Dans la fenêtre Trajectory Type Properties (Propriétés du type de trajectoire), cliquez sur l’onglet Trajectory (Trajectoire).
Les données GEDI fournies étant de type L4A, vous allez définir les propriétés en conséquence.
- Sous Product Filter (Filtre de produit), sélectionnez GEDIL4A.
- Sous Groundtracks (Traces au sol), cochez la case en regard de Name (Nom) pour sélectionner toutes les traces.
Les données GEDI sont capturées comme huit faisceaux distincts et vous souhaitez les inclure tous.
- Sous Predefined Variables (Variables prédéfinies), cochez la case de la variable Aboveground Biomass Density (Densité de la biomasse au-dessus du sol).
C’est la seule variable qui vous intéresse pour ce jeu de données.
- Cliquez sur OK (OK) pour enregistrer les propriétés.
- Dans la fenêtre de l’outil Add Data To Trajectory Dataset (Ajouter des données à un jeu de données de trajectoire), sous Input Data (Données en entrée), sélectionnez Folder (Dossier), puis cliquez sur le bouton Browse (Parcourir).
- Dans la fenêtre Input Data (Données en entrée), développez Folders (Dossiers), Estimate_Biomass, puis InputData, cliquez sur GEDI_L4A, puis cliquez sur OK (OK).
- Dans la fenêtre de l’outil Add Data To Trajectory Dataset (Ajouter des données à un jeu de données de trajectoire), acceptez toutes les autres valeurs par défaut et cliquez sur Run (Exécuter).
Après quelques instants, les données GEDI sont ajoutées au jeu de données de trajectoire et apparaissent sur la carte. Vous allez effectuer un zoom arrière pour afficher l’intégralité du jeu de données.
- Dans la fenêtre Contents (Contenu), cliquez avec le bouton droit sur la couche Gedi et sélectionnez Zoom To Layer (Zoom sur la couche).
Les polygones verts quadrillant l’Amérique du Nord représentent les emprises des trajectoires du capteur GEDI. Ces trajectoires spécifiques ont été sélectionnées car elles s’intersectent dans la zone d’étude.
- Dans la fenêtre Contents (Contenu), cliquez avec le bouton droit sur la couche Footprint (Emprise) et sélectionnez Attribute Table (Table attributaire).
La table attributaire Footprint (Emprise) s’affiche.
Chaque ligne correspond à une trajectoire et contient des informations sur cette dernière. Par exemple, le champ Count (Total) indique le nombre de points dans chaque trajectoire.
- Fermez la table Footprint (Emprise).
Vous allez à présent examiner les points individuels contenus dans les trajectoires.
- Dans la fenêtre Contents (Contenu), activez la couche AOI (Zone d’intérêt). Cliquez avec le bouton droit sur la couche AOI (Zone d’intérêt) et sélectionnez Zoom To Layer (Zoom sur la couche).
Conseil :
Si la couche des trajectoires Gedi ne s’affiche pas sur la carte, effectuez un léger zoom arrière.
- Désactivez la couche Footprint (Emprise), puis activez la sous-couche Point (Point).
L’affichage de la couche Point (Point) peut prendre un certain temps car elle contient des centaines de milliers de points.
- Effectuez un zoom avant sur une zone de votre choix jusqu’à ce que les points individuels soient visibles.
Chaque point contient une valeur AGBD.
Vous avez ajouté des données GEDI à un jeu de données de trajectoire et avez examiné ce dernier.
Extraire les données ponctuelles AGBD pertinentes
Seuls les points GEDI à l’intérieur de la zone d’étude sont pertinents pour votre processus. Vous allez maintenant extraire les points situés à l’intérieur de la limite AOI (Zone d’intérêt) à l’aide de l’outil Clip (Découper). La sortie correspond à une couche d’entités ponctuelles.
- Dans la fenêtre Géotraitement, cliquez sur le bouton Retour.
- Dans la zone de recherche Geoprocessing (Géotraitement), saisissez Découper. Dans la liste des résultats, cliquez sur l’outil Découper pour l’ouvrir.
- Dans la fenêtre de l’outil Clip (Découper), définissez les paramètres suivants :
- Pour Input Features or Dataset (Entités ou jeu de données en entrée), sélectionnez Point (Point).
- Pour Clip Features (Découper des entités), sélectionnez la couche AOI (Zone d’intérêt).
- Pour Output Features or Dataset (Entités ou jeu de données en sortie), saisissez AGBD_observations comme nom de sortie.
- Cliquez sur Run (Exécuter).
Après quelques instants, la couche ponctuelle AGBD_observations est ajoutée à la carte. Vous allez l’examiner plus en détail.
- Dans la fenêtre Contents (Contenu), désactivez la couche Gedi car vous n’en aurez plus besoin dans ce processus.
- Cliquez avec le bouton droit sur la couche AGBD_observations et sélectionnez Zoom To Layer (Zoom sur la couche).
Vous pouvez voir que la couche AGBD_observations contient uniquement les points dans la zone d’étude.
- Dans la fenêtre Contents (Contenu), cliquez avec le bouton droit sur la couche AGBD_observations et sélectionnez Attribute Table (Table attributaire).
La table attributaire AGBD_observations apparaît.
Chaque ligne correspond à un point et le champ AGBD indique la densité de la biomasse au-dessus du sol pour chaque point (en tonnes métriques par hectare). Au total, cette couche contient 106 159 points.
- Fermez la table attributaire AGBD_observations.
Vous allez à présent appliquer une symbologie importée à cette couche pour la visualiser de manière plus efficace.
- Dans la fenêtre Géotraitement, cliquez sur le bouton Retour.
- Recherchez l’outil Apply Symbology From Layer (Appliquer la symbologie d’une couche) et ouvrez-le.
- Dans l’outil Apply Symbology From Layer (Appliquer la symbologie d’une couche), pour Input Layer (Couche en entrée), sélectionnez AGBD_observations.
- Dans Couche de symbologie, cliquez sur le bouton Parcourir. Accédez à Folders (Dossiers) > Estimate_Biomass > InputData et sélectionnez le fichier de couche AGBD.lyrx.
- Cliquez sur Run (Exécuter).
La carte est mise à jour.
La couche AGBD_observations est maintenant affichée avec une symbologie dans laquelle les points dans des tons de vert foncé indiquent les valeurs AGBD les plus élevées et les points dans des tons de jaune clair, les valeurs AGBD les plus basses. Cette couche est utilisée comme échantillons connus ou cibles d’entraînement, lors de l’entraînement du modèle.
- Appuyez sur Ctrl+S pour enregistrer le projet.
Dans le cadre de ce processus, vous avez créé un jeu de données de trajectoire et y avez ingéré la variable AGBD de données de trajectoire GEDI de niveau 4A. Vous avez ensuite extrait les points AGBD pertinents comme couche d’entités et symboliser cette dernière.
Préparer les variables explicatives déduites
Vous allez à présent préparer des variables explicatives supplémentaires à partir de la scène Landsat 9 initiale et du raster MNE. Plus spécifiquement, vous allez créer sept indices spectraux déduits de la scène Landsat 9 et un raster d’exposition dérivé du MNE.
Générer des indices spectraux
Un indice spectral combine différentes bandes spectrales via une formule mathématique, généralement en calculant un type de ratio. La sortie résultante est une nouvelle image raster qui met en avant un phénomène spécifique, tel que la végétation, l’eau, le développement urbain ou l’humidité. Ces couches d’indices spectraux fournissent des informations supplémentaires pour prendre en compte diverses conditions de végétation et permettre ainsi de mieux prévoir les valeurs AGB.
Remarque :
En savoir plus sur les indices spectraux courants.
Vous allez créer plusieurs indices qui serviront de variables explicatives supplémentaires :
- NDVI : indice de végétation par différence normalisée
- EVI : indice de végétation amélioré
- PVI : indice de végétation perpendiculaire
- NBR : indice du ratio de brûlure normalisé
- NDWI : indice de teneur en eau par différence normalisée
- NDBI : indice d’urbanisation par différence normalisée
- MSI : indice de stress d’humidité
Vous allez commencer par NDVI, qui permet de différencier la végétation saine de la végétation non saine ou inexistante. Vous allez utiliser la fonction raster Band Arithmetic (Arithmétique de canal).
- Dans la fenêtre Contents (Contenu), désactivez la couche AGBD_observations.
- Sur le ruban, sous l’onglet Imagery (Imagerie), dans le groupe Analysis (Analyse), cliquez sur le bouton Raster Functions (Fonctions raster).
- Dans la zone de recherche de la fenêtre Raster Functions (Fonctions raster), saisissez Arithmétique de canal.
- Dans la liste de résultats, cliquez sur la fonction raster Band Arithmetic (Arithmétique de canal) pour l’ouvrir.
- Dans la fenêtre de la fonction raster Band Arithmetic Properties (Propriétés de l’arithmétique de bande), définissez les paramètres suivants :
- Pour Raster (Raster), sélectionnez Landsat9.
- Pour Method (Méthode), sélectionnez NDVI.
- Pour Band Indexes (Indices de bande), saisissez 5 4, qui correspond aux canaux proche infrarouge et rouge requis pour le calcul de NDVI.
- Cliquez sur l’onglet General (Général), puis, pour Name (Nom), saisissez NDVI.
- Cliquez sur Créer une nouvelle couche.
Une nouvelle couche intitulée NDVI_Landsat9 est ajoutée à la carte. Le raster de la carte contient les valeurs NDVI calculées qui sont comprises entre -1 (absence de végétation) et 1 (végétation saine).
Vous allez à présent créer les couches d’indices spectraux restantes (EVI, NBR, PVI, NDWI et NDBI), en suivant les mêmes étapes.
- Répétez les étapes 4 à 7 avec les paramètres de canal suivants :
Nom/Méthode Description (pour référence) Index de canaux Noms des canaux EVI
Indice de végétation amélioré
5 4 2
NIR, rouge, bleu
NBR
Ratio de brûlure normalisé (permet d’identifier les zones brûlées)
5 7
NIR, SWIR 2
PVI
Indice de végétation perpendiculaire
5 4 0.3 0.5
NIR, rouge (et valeurs de pente et d’inclinaison)
NDWI
Indice de végétation par différence normalisée
5 3
NIR, vert
NDBI
Indice d’urbanisation par différence normalisée
6 5
SWIR 1, NIR
Pour MSI (indice de stress d’humidité), la fonction raster Band Arithmetic (Arithmétique de canal) n’inclut pas l’option MSI sous Method (Méthode). Au lieu de cela, vous allez utiliser l’option User Defined (Défini par l’utilisateur) pour le calculer, en énonçant explicitement la formule mathématique B6/B5, dans laquelle les bandes sont identifiées par B + [un numéro de bande]. Cette formule signifie donc que le canal SWIR 1 doit être divisé par le canal NIR.
- Répétez les étapes 4 à 7 pour créer la couche MSI à l’aide des paramètres suivants :
- Pour Raster (Raster), sélectionnez Landsat9.
- Pour Method (Méthode), sélectionnez User Defined (Défini par l’utilisateur).
- Pour Band Indexes (Indices de bande), saisissez B6/B5.
- Sous General (Général), pour Name (Nom), saisissez MSI.
À la fin de ce processus, les sept couches d’indices doivent être ajoutées à la carte et répertoriées dans la fenêtre Contents (Contenu).
Déduire une couche d’exposition du MNE
Vous allez maintenant déduire une couche d’exposition de la couche DEM (MNE) à l’aide de la fonction raster Aspect (Exposition). L‘exposition indique la direction à laquelle fait face chaque pente descendante (nord, sud, est, ouest). Elle est pertinente comme variable explicative dans la mesure où l’illumination solaire varie en fonction de la valeur d’exposition, qui affecte la croissance de la végétation.
- Dans la fenêtre Raster Functions (Fonctions raster), recherchez et ouvrez la fonction raster Aspect (Exposition).
- Dans la fenêtre de la fonction raster Aspect (Exposition), pour Raster (Raster), sélectionnez la couche DEM (MNE).
- Cliquez sur Créer une nouvelle couche.
Une couche intitulée Aspect_DEM est ajoutée à la carte.
Dans la section qui suit, vous allez utiliser toutes les couches de variables explicatives que vous avez créées comme entrées du modèle de Machine Learning. Toutefois, comme vous n’aurez pas besoin de les voir sur votre carte, vous allez à présent les désactiver.
- Dans la fenêtre Contents (Contenu), désactivez les sept couches d’indices spectraux et les couches DEM (MNE) et Aspect_DEM.
- Appuyez sur Ctrl+S pour enregistrer le projet.
Dans cette partie du processus, vous avez préparé sept couches déduites de la scène Landsat et une couche d’exposition déduite du MNE. Ces couches sont utilisées comme variables explicatives le long de la scène Landsat et du MNE lors de l’entraînement du modèle de régression.
Entraîner un modèle de régression et prévoir la densité de la biomasse
Vous avez maintenant préparé les données d’échantillonnage cibles et les variables explicatives. Vous allez ensuite utiliser toutes ces données en entrée pour entraîner votre modèle de régression et capturer les relations entre les valeurs AGBD connues et les variables explicatives. Vous pourrez alors examiner les performances de votre modèle, réaliser un nettoyage des données et réentraîner le modèle pour obtenir des performances plus élevées. Vous utiliserez ensuite le modèle obtenu pour prévoir les valeurs AGBD dans l’ensemble de la zone d’étude. Enfin, vous synthétiserez les résultats pour obtenir la densité de la biomasse au-dessus du sol (AGBD) moyenne par comté dans la zone d’étude.
Entraîner un modèle de régression Arbres aléatoires
Vous allez commencer par entraîner le modèle afin de prévoir la biomasse à l’aide de l’outil Entraîner le modèle de régression Arbres aléatoires La régression de forêt aléatoire est une méthode de Machine Learning qui construit une multitude d’arbres de décision au cours de l’entraînement.
- Dans la fenêtre Geoprocessing (Géotraitement), si nécessaire, cliquez sur le bouton Back (Retour).
Remarque :
Si vous avez fermé l’onglet Geoprocessing (Géotraitement), vous pouvez le rouvrir en accédant au ruban, à l’onglet Analysis (Analyse) dans le groupe Geoprocessing (Géotraitement) et en cliquant sur Tools (Outils).
- Recherchez et ouvrez l’outil Train Random Trees Regression Model (Entraîner le modèle de régression Arbres aléatoires).
Vous allez définir les entrées des variables explicatives.
- Dans la fenêtre de l’outil Train Random Trees Regression Model (Entraîner le modèle de régression Arbres aléatoires), pour Input Rasters (Rasters en entrée), ajoutez Landsat9, DEM (MNE) et les huit couches de variables explicatives dérivées.
Attention :
Vous devez respecter exactement le même ordre pour ces couches maintenant dans l’outil Train Random Trees Regression Model (Entraîner le modèle de régression Arbres aléatoires) et plus tard dans l’outil Predict Using Regression Model (Prévoir à l’aide d’un modèle de régression).
Vous allez ensuite pointer sur les données d’échantillonnage cibles AGDB.
- Pour Target Raster or Points (Raster ou points cibles), sélectionnez AGBD_observations.
- Pour Target Value Field (Champ de valeur cible), sélectionnez AGBD.
Le modèle en sortie obtenu sera un fichier .ecd. Vous allez lui attribuer un nom.
- Pour Output Regression Definition File (Fichier de définition de régression en sortie), cliquez sur le bouton Browse (Parcourir).
- Dans la fenêtre Output Regression Definition File (Fichier de définition de régression en sortie), accédez à Folders (Dossiers) > Estimate_Biomass (Estimation_Biomasse) et pour Name (Nom), saisissez Biomass_model.ecd et cliquez sur Save (Enregistrer).
La sortie inclut également certains fichiers auxiliaires complémentaires qui permettent de mieux comprendre l’exactitude du modèle. Vous allez configurer leurs noms.
- Dans la fenêtre de l’outil Train Random Trees Regression Model (Entraîner le modèle de régression Arbres aléatoires), développez Additional Outputs (Sorties supplémentaires).
- Pour Output Importance Table (Table d’importance en sortie), cliquez sur le bouton Browse (Parcourir), accédez à Folders (Dossiers) > Estimate_Biomass (Estimation_Biomasse) et pour Name (Nom), saisissez Importance.csv.
- Pour Output Scatter Plots (Nuages de points en sortie), cliquez sur le bouton Browse (Parcourir), accédez à Folders (Dossiers) > Estimate_Biomass (Estimation_Biomasse) et pour Name (Nom), saisissez Biomass_scatterplots.pdf.
Enfin, vous allez également configurer les paramètres des options d’entraînement.
- Développez Training Options (Options d’entraînement).
- Pour Percent of Samples for Testing (Pourcentage d’échantillons à tester), saisissez 5 et acceptez les autres valeurs par défaut.
Remarque :
En configurant 5 pour cent (au lieu des 10 pour cent par défaut), moins de données seront réservées au test et plus de données resteront disponibles pour l’entraînement.
- Cliquez sur Run (Exécuter).
Au bout de quelques minutes, l’entraînement du modèle est terminé.
Examiner les performances du modèle
Pour comprendre les performances du modèle, vous allez maintenant examiner les sorties de l’outil Train Random Trees Regression Model (Entraîner le modèle de régression Arbres aléatoires). Les processus de Machine Learning sont souvent itératifs. Vous devez décider si le modèle s’exécute de façon optimale ou si le nettoyage de certaines des données en entrée pourrait améliorer ses performances. Dans le dernier cas, vous devrez réentraîner le modèle à l’aide des données nettoyées.
Vous allez commencer par regarder le contenu de la table Importance.csv, qui illustre le degré de contribution de chaque variable explicative pour prévoir les valeurs d’échantillonnage cibles. Vous allez créer un diagramme à barres pour synthétiser ces informations.
- Dans la fenêtre Contents (Contenu), sous Standalone Tables (Tables autonomes), cliquez avec le bouton droit sur la couche tabulaire Importance.csv, sélectionnez Create Chart (Créer un diagramme) et choisissez Bar Chart (Diagramme à barres).
Une fenêtre de diagramme Importance.csv et une fenêtre Chart Properties (Propriétés du diagramme) apparaissent.
- Dans la fenêtre Chart Properties (Propriétés du diagramme), définissez les paramètres suivants :
- Pour Category or Date (Catégorie ou date), sélectionnez Explanatory_Variable (Variable_explicative).
- Pour Aggregation (Agrégation), sélectionnez <none> (<aucune>).
- Sous Numeric field(s) (Champs numériques), cliquez sur Select (Sélectionner), cochez le champ Importance et cliquez sur Apply (Appliquer).
Dans la fenêtre de diagramme Importance.cvs, le diagramme Importance by Explanatory_Variable (Importance par Variable_explicative) apparaît.
Vous pouvez observer que les bandes spectrales Landsat, en particulier SWIR 1 (Landsat9_6) et proche infrarouge (Landsat9_5) jouent un rôle important pour expliquer (ou prévoir) les valeurs de biomasse. En outre, plusieurs indices de bandes apportent des contributions substantielles, notamment MSI_Landsat9, PVI_Landsat9 et NDBI_Landsat9. À l’opposé, les couches DEM (MNE) et Aspect_DEM (Exposition_MNE) contribuent le moins, ce qui est logique puisque la zone d’étude est principalement constituée de terrain plat. Cependant, dans d’autres étendues avec davantage de variation d’élévation, l’importance des données d’élévation serait probablement plus élevée. Vous allez ensuite examiner le document des nuages de points.
Remarque :
L’algorithme Random Trees (Arbres aléatoires) n’étant pas déterministe, vous pouvez obtenir des résultats légèrement différents.
- Fermez la fenêtre de diagramme Importance.cvs.
- Dans File Explorer, accédez au dossier Estimate_Biomass (Estimation_Biomasse) et double-cliquez sur le fichier Biomass_scatterplot.pdf pour l’ouvrir.
Dans le PDF, le premier nuage de points montre les données suivantes pour chaque point d’échantillonnage utilisé dans l’entraînement :
- La valeur connue d’origine (axe x).
- La valeur prévue une fois l’entraînement terminé (axe y).
La valeur R2, comprise entre 0 et 1, fait office d’indicateur des performances du modèle. Une valeur R2 égale à 0,834 pour les performances d’entraînement est acceptable. Toutefois, même si la plupart des valeurs sont concentrées sous la valeur 1 000, vous pouvez observer que certaines valeurs extrêmement élevées sont éparpillées un peu au-dessous de 1 000 jusqu’au-delà de 4 000.
Vous soupçonnez ces points d’être des points aberrants erronés qui dégradent les performances d’apprentissage du modèle. Pour décider si vous devez conserver ces points extrêmes ou les supprimer des données d’entraînement, vous allez les examiner sur la carte. Vous allez d’abord étudier l’histogramme de la couche AGBD_observations afin de choisir un seuil plus précis pour les points aberrants.
- Fermez le PDF et revenez dans ArcGIS Pro.
- Dans la fenêtre Contents (Contenu), cliquez avec le bouton droit sur la couche AGBD_observations et sélectionnez Attribute Table (Table attributaire).
- Dans la table attributaire, cliquez avec le bouton droit sur le champ AGBD et sélectionnez Visualize Statistics (Visualiser les statistiques).
Les statistiques du champ AGBD apparaissent dans un histogramme nommé Distribution of AGBD (Distribution d’AGBD).
L’histogramme montre la distribution des entités ponctuelles AGBD_observations sur toutes les valeurs AGBD possibles. Vous voyez que la plupart des points ont des valeurs AGBD inférieures à 700, avec seulement quelques points dont les valeurs sont supérieures à 1 000. Vous allez sélectionner 1 000 comme seuil pour définir les points aberrants.
Vous allez maintenant modifier l’affichage sur la carte afin de faciliter l’exploration des points de valeur élevée.
- Dans la fenêtre Contents (Contenu), faites glisser la couche Landsat9 juste au-dessus de la couche Aspect_DEM (Exposition_MNE) et activez les couches AGBD_observations et Landsat9.
- Cliquez avec le bouton droit sur la couche AGBD_observations et sélectionnez Symbology (Symbologie).
- Dans la fenêtre Symbology (Symbologie), pour Primary symbology (Symbologie principale), choisissez Single Symbol (Un seul symbole).
Remarque :
La couleur du symbole peut varier.
Cette symbologie permettra de distinguer plus facilement les points que vous sélectionnez sur la carte.
Conseil :
Vous pouvez réduire la taille de la fenêtre de diagramme pour augmenter celle de la carte.
Vous allez maintenant sélectionner les points AGBD de valeur élevée.
- Dans la fenêtre Contents (Contenu), vérifiez que la couche AGBD_observations est sélectionnée.
- Sur le ruban, sous l’onglet Map (Carte), dans le groupe Selection (Sélection), cliquez sur Select By Attributes (Sélectionner selon les attributs).
- Dans la fenêtre Select By Attributes (Sélectionner selon les attributs), sous Expression, constituez l’expression Where AGBD is greater than 1000 (Où AGBD est supérieur ou égal à 1 000).
- Cliquez sur OK.
Environ 40 points sont sélectionnés, ils apparaissent en bleu cyan sur la carte.
Vous allez maintenant examiner quelques-uns de ces points.
- Cliquez sur l’onglet AGBD_observations et sur le bouton Show selected records (Afficher les enregistrements sélectionnés) situé au bas de la fenêtre.
Seules les entités sélectionnées apparaissent désormais dans la table.
- Double-cliquez sur l’en-tête de ligne de la première entité.
Sur la carte, le point est mis en surbrillance en jaune.
- Effectuez un zoom avant jusqu’à ce que les détails d’imagerie sous-jacents soient visibles.
Le point se trouve dans une sorte de prairie d’une densité pas si élevée, dont la valeur AGBD ne devrait pas dépasser 1 000. En revanche, vous voyez que les points voisins n’apparaissent pas en cyan puisqu’ils n’ont pas été sélectionnés. Cela signifie que leur valeur AGBD est inférieure à 1 000 et n’est pas anormalement élevée.
- Dans la table attributaire, double-cliquez sur l’en-tête de ligne de la troisième entité.
Ce point se trouve aussi dans une sorte de prairie, dont la valeur ne devrait pas dépasser 1 000. Vous voyez que ces points de valeur élevée sont des points aberrants qui doivent être erronés. Vous allez les supprimer.
Nettoyer les observations AGBD et réentraîner le modèle
Vous allez maintenant supprimer les points aberrants de valeur élevée. Vous allez également supprimer les points qui comportent une valeur nulle puisqu’ils ne sont pas utiles pour l’entraînement. Ensuite, vous allez réentraîner le modèle.
- Dans la fenêtre Contents (Contenu), cliquez avec le bouton droit sur la couche AGBD_observations et sélectionnez Zoom To Layer (Zoom sur la couche).
- Sur le ruban, sur l’onglet Map (Carte), cliquez sur le bouton Select By Attributes (Sélectionner selon les attributs).
Dans la fenêtre Select By Attributes (Sélectionner selon les attributs), la première clause Where AGBD is greater than 1000 (Où AGBD est supérieur ou égal à 1 000) est toujours présente. Vous allez ajouter une deuxième clause pour sélectionner les entités de valeurs nulles.
- Dans la fenêtre Select By Attributes (Sélectionner selon les attributs), cliquez sur le bouton Add Clause (Ajouter une clause).
- Pour la nouvelle clause, constituez l’expression Or AGBD is null (Ou AGBD est nul) et cliquez sur OK.
Dans la table attributaire AGBD_observations, plus de 20 000 points sont maintenant sélectionnés, entre des valeurs anormalement élevées et des valeurs nulles.
- Dans la barre d’outils de la table attributaire, cliquez sur le bouton Delete Selection (Supprimer la sélection).
- À l’invite de confirmation de la suppression des données, cliquez sur Yes (Oui).
Vous allez enregistrer ces mises à jour.
- Sur le ruban, dans l'onglet Edit (Mise à jour), dans le groupe Manage Edits (Gérer les mises à jour), cliquez sur Save (Enregistrer).
Les points sélectionnés sont supprimés de la classe d’entités AGBD_observations. Vous allez ensuite réexécuter l’outil d’entraînement avec les données mises à jour afin d’obtenir un modèle plus performant.
- Sur le ruban, dans le groupe Geoprocessing (Géotraitement) de l’onglet Analysis (Analyse), cliquez sur History (Historique).
La fenêtre History (Historique) apparaît. Elle contient l’historique de tous les outils que vous avez exécutés jusqu’à présent dans ce projet.
- Dans la fenêtre History (Historique), double-cliquez sur l’entrée Train Random Trees Regression Model (Entraîner le modèle de régression Arbres aléatoires).
L’outil Train Random Trees Regression Model apparaît, avec toutes les valeurs de paramètre utilisées à l’origine.
Vous allez renommer les sorties afin de ne pas remplacer les résultats d’origine.
- Pour Output Regression Definition File (Fichier de définition de régression en sortie), renommez Biomass_model.ecd en Biomass_model2.ecd.
- Développez Additional Outputs (Sorties supplémentaires), renommez Importance.csv en Importance2.csv et renommez Biomass_scatterplots.pdf en Biomass_scatterplots2.pdf.
- Cliquez sur Run (Exécuter).
Au bout de quelques minutes, le modèle est réentraîné.
- Dans File Explorer, accédez au dossier Estimate_Biomass (Estimation_Biomasse) et double-cliquez sur le fichier Biomass_scatterplots2.pdf pour l’ouvrir.
Dans le PDF, dans le premier nuage de points, vous constatez que les performances du modèle se sont améliorées pour atteindre la valeur R2 = 0,888 (par rapport à R2 = 0,834 précédemment). Vous remarquez également que toutes les valeurs du nuage de points sont maintenant inférieures à 1 000.
Vous avez aussi obtenu de meilleurs résultats dans les deuxième et troisième nuages de points figurant dans le PDF, qui montrent les performances du modèle sur les points de test.
- Fermez le PDF et revenez dans ArcGIS Pro.
Créer une prévision de la biomasse
Vous allez maintenant utiliser le modèle pour prévoir la biomasse de l’ensemble de la zone d’étude. Pour ce faire, vous utiliserez l’outil Prévoir à l’aide d’un modèle de régression. L’entrée est constituée des mêmes variables explicatives que celles utilisées pour l’entraînement du modèle (scène Landsat à sept bandes, couche MNE, couches d’indices spectraux et couche d’exposition).
- Dans la fenêtre Géotraitement, cliquez sur le bouton Retour.
- Recherchez et ouvrez l’outil Predict Using Regression Model (Prévoir à l’aide d’un modèle de régression).
- Dans la fenêtre de l’outil Predict Using Regression Model (Prévoir à l’aide d’un modèle de régression), pour Input Rasters (Rasters en entrée), ajoutez Landsat9, DEM (MNE) et les huit couches dérivées dans le même ordre qu’auparavant.
Attention :
Il est important d’utiliser le même ordre pour ces couches dans l’outil Predict Using Regression Model (Prévoir à l’aide d’un modèle de régression) que celui utilisé précédemment dans l’outil Train Random Trees Regression Model (Entraîner le modèle de régression Arbres aléatoires).
Vous allez maintenant désigner le modèle entraîné.
- Dans Input Regression Definition File (Fichier de définition de régression en entrée), cliquez sur le bouton Browse (Parcourir), accédez à Folders (Dossiers) > Estimate_Biomass (Estimation_Biomasse), cliquez sur Biomass_model2.ecd et sur OK.
Enfin, vous allez nommer la sortie.
- Pour Output predicted raster (Raster prévu en sortie), saisissez Biomass_prediction.crf.
- Cliquez sur Run (Exécuter).
Au bout de quelques minutes, la couche obtenue est ajoutée à la couche. Vous allez maintenant modifier la combinaison de couleurs.
- Dans la fenêtre Contents (Contenu), cliquez avec le bouton droit de la souris sur le symbole Biomass_prediction.crf.
- Dans la liste déroulante de combinaison de couleurs, cochez la case Show names (Afficher les noms) et cliquez sur la combinaison de couleurs Blue-Green (Continuous) (Bleu-vert [continu]).
- Désactivez les couches AGBD_observations et Landsat9.
- Désactivez toutes les couches dérivées (indices spectraux et exposition).
- Sur la carte, examinez la couche Biomass_prediction.crf.
Les tons vert foncé désignent les zones à la densité de biomasse la plus élevée et les tons clairs ou blancs indiquent une faible densité ou une absence de biomasse.
Synthétiser la densité de la biomasse par comté
Pour finir, vous allez calculer la densité de la biomasse par comté. Vous allez utiliser la couche surfacique Counties (Comtés) et l’outil Zonal Statistics as Table (Statistiques zonales [table]) pour trouver la densité de la biomasse moyenne par comté et vous allez générer un diagramme pour donner une vue d’ensemble de vos résultats.
- Dans la fenêtre Contents (Contenu), activez la couche Counties (Comtés).
Les limites des comtés apparaissent sur la carte.
- Dans la fenêtre Géotraitement, cliquez sur le bouton Retour.
- Recherchez et ouvrez l’outil Statistiques zonales en tant que table.
- Dans la fenêtre de l’outil Zonal Statistics as Table (Statistiques zonales [table]), définissez les paramètres suivants.
- Pour Input Raster or Feature Zone Data (Données raster ou d’entités de zone en entrée), sélectionnez Counties (Comtés).
- Pour Zone Field (Champ de zone), vérifiez que Name (Nom) est sélectionné.
- Pour Input Value Raster (Raster de valeurs en entrée), sélectionnez Biomass_prediction.crf.
- Pour Output Table (Table en sortie), saisissez Average_biomass_by_county.
- Dans Statistics Type (Type de statistique), sélectionnez Mean (Moyenne).
- Acceptez toutes les autres valeurs par défaut, puis cliquez sur Run (Exécuter).
La table Average_biomass_by_county est ajoutée à la fenêtre Contents (Contenu).
- Dans la fenêtre Contents (Contenu), sous Standalone Tables (Tables autonomes), cliquez avec le bouton droit sur la table Average_biomass_by_county, sélectionnez Create Chart (Créer un diagramme) et choisissez Bar Chart (Diagramme à barres).
- Dans la fenêtre Chart Properties (Propriétés du diagramme), dans l’onglet Data (Données), définissez les paramètres suivants :
- Pour Category or Date (Catégorie ou date), sélectionnez NAME (NOM).
- Pour Aggregation (Agrégation), sélectionnez <none> (<aucune>).
- Sous Numeric field(s) (Champs numériques), cliquez sur Select (Sélectionner), cochez le champ MEAN (MOYENNE) et cliquez sur Apply (Appliquer).
- Sous Sort (Trier), sélectionnez Y-axis Descending (Décroissant sur l’axe y).
- Cliquez sur la fenêtre General (Général) et définissez les paramètres suivants :
- Pour Chart title (Titre du diagramme), saisissez Biomasse moyenne par comté.
- Pour X axis title (Titre de l’axe x), saisissez Comtés.
- Pour Y axis title (Titre de l’axe Y), saisissez Densité de la biomasse (en tonnes métriques par hectare).
- Dans la fenêtre de diagramme Average_biomass_by_county (Biomasse_moyenne_par_comté), consultez le diagramme Average biomass by county (Biomasse moyenne par comté).
Dans le diagramme à barres, vous voyez que la densité de la biomasse moyenne est plus élevée pour certains comtés, tels que Telfair, Houston, Macon et Ben Hill. D’après le rapport de l’agence d’information sur l’énergie aux États-Unis, presque la moitié des ménages en Géorgie utilisent la biomasse comme carburant, dont 80 pour cent dans les zones rurales. Mieux appréhender le statut de la biomasse dans ces comtés ruraux permettra au gouvernement d’élaborer des politiques pratiques pour réduire la consommation de la biomasse, protéger les forêts et lutter contre la perte de biodiversité.
Remarque :
Vous pouvez également joindre la table Biomass_by_county (Biomasse_par_comté) à la couche Counties (Comtés) pour créer une carte thématique illustrant la biomasse moyenne par comté. Pour ce faire, dans la fenêtre Contents (Contenu), cliquez avec le bouton droit sur Counties (Comtés), sélectionnez Joins and Relates (Jointures et relations) et choisissez Add Join (Ajouter une jointure).
- Appuyez sur Ctrl+S pour enregistrer le projet.
Dans ce didacticiel, après avoir configuré le projet et examiné les données, vous avez préparé un jeu de données de trajectoire contenant des données GEDI et extrait les données ponctuelles AGBD appropriées à la zone d’étude. Vous avez utilisé des fonctions raster pour préparer des variables explicatives. Vous avez ensuite entraîné un modèle pour prévoir la densité de la biomasse. Vous avez examiné les performances du modèle, réalisé un nettoyage des données et réentraîné le modèle pour obtenir des performances plus élevées. Vous avez utilisé ce modèle optimisé pour prévoir la densité de la biomasse dans l’ensemble de votre zone d’étude. Enfin, vous avez synthétisé les résultats pour obtenir la densité de la biomasse moyenne par comté dans la zone d’étude.
À des fins de concision, vous avez utilisé une zone d’étude relativement petite pour ce processus. Pour appliquer un processus similaire à de vastes zones qui sont représentées sur plusieurs scènes Landsat et inclure des images contenant des nuages ou des ombres, il est recommandé de traiter d’abord la suppression des nuages et des ombres et de composer un jeu de données mosaïque avec ces images. Reportez-vous au processus Python et au processus sans code sur la création d’une image composite sans nuages à partir de l’imagerie satellite. De plus, étant donné que les données utilisées dans ce didacticiel sont également accessibles à partir de plateformes Cloud telles que AWS ou Microsoft Planetary Computer, vous pouvez tirer parti des fonctionnalités d’accès direct aux données et de calcul Cloud avec ArcGIS Pro. Pour en savoir plus, consultez l’article Cloud-Based Aboveground Biomass Mapping using Landsat and GEDI Data.
Vous trouverez d’autres didacticiels dans la bibliothèque des didacticiels.