Préparer les données d’entraînement

Vous allez estimer les habitats de la posidonie au niveau mondial en adoptant une approche de statistiques spatiales qui utilise un ensemble de localisations où la présence de la posidonie est connue et un ensemble de mesures océanographiques. À partir de ces données, l’outil Prévision de présence seule, qui met en place une technique d’entropie maximale (ou Maxent), va estimer la probabilité de présence de la posidonie à d’autres localisations, en s’appuyant sur les mesures océanographiques. Pour réaliser cette analyse, vous devrez nettoyer et préparer les données. Vous allez d’abord créer des points représentant la présence de posidonie autour du littoral américain. Ensuite, vous allez générer des surfaces d’interpolation représentant des mesures océanographiques qui serviront de valeurs prédictives pour le modèle.

Télécharger et exporter les données

Pour commencer, vous allez télécharger et explorer les données inhérentes à la posidonie.

  1. Téléchargez le paquetage de projet Seagrass Habitat Prediction ArcGIS Pro.
  2. Double-cliquez sur le fichier SeagrassPrediction.ppkx pour ouvrir le projet dans ArcGIS Pro.

    Une carte mondiale s’ouvre. Dans la fenêtre Contents (Contenu), il y a quatre classes d’entités :

    • Global ocean measurements (Mesures océanographiques mondiales) : données de point d’unités marines écologiques qui contiennent les mesures océanographiques jusqu’à une profondeur des eaux de 90 mètres.
    • USA seagrass (Posidonie aux États-Unis) : données surfaciques pour l’occurrence de la posidonie. Chaque polygone de cette classe d’entités est un habitat maritime identifié.
    • USA shallow waters (Eaux peu profondes aux États-Unis) : polygone de bathymétrie de faible profondeur pour les États-Unis continentaux servant de zone d’étude pour l’entraînement du modèle.
    • Global shallow waters (Eaux peu profondes mondiales) : polygone de bathymétrie de faible profondeur au niveau mondial permettant de prévoir la présence de posidonie dans le monde.

    Les couches de données se trouvent dans le système de coordonnées projetées Equal Earth, qui convient à l’analyse globale.

  3. Dans la fenêtre Contents (Contenu), décochez la couche Global ocean measurements (Mesures océanographiques mondiales).

    Désactivez la couche des mesures océanographiques mondiales.

    Les zones peu profondes sont affichées en bleu clair.

    Les zones en bleu clair représentent les zones bathymétriques peu profondes dans le monde, où la profondeur de l’eau est propice à l’implantation de la posidonie.

  4. Sur le ruban, cliquez sur l’onglet Map (Carte), puis dans la section Navigate (Naviguer), cliquez sur Bookmarks (Géosignets) et Florida (Floride).

    La carte effectue un zoom sur la Floride.

    Les zones en vert clair représentent les endroits où l’habitat de posidonie a été identifié. Vous allez vous appuyer sur les localisations connues de la posidonie autour des États-Unis continentaux pour prévoir les autres endroits du monde où elle est susceptible d’être présente. Comme il s’agit d’une prévision à l’échelle mondiale, elle ne sera pas idéale pour identifier les habitats de la posidonie dans des espaces plus restreints (par exemple pour identifier sa présence dans une baie spécifique où la posidonie est très probablement présente). Vous apprendrez plus loin comment adapter un modèle à d’autres scénarios de prévision.

  5. Dans la fenêtre Contents (Contenu), cochez la couche Global ocean measurements (Mesures océanographiques mondiales) pour la réactiver.

    La couche des mesures s’affiche à nouveau.

    Ces points Global ocean measurements (Mesures océanographiques mondiales) montrent des données moyennes par décennies des unités marines écologiques EMU (moyenne sur 50 ans). La plupart des points de données figurent à l’extérieur de la couche d’observation de la posidonie. Pour développer un modèle de prévision adéquat avec l’outil Prévision de présence seule, vous aurez peut-être besoin de plusieurs points dans des zones de posidonie connues avec les données de mesures océanographiques correspondantes. Si vous n’utilisez que le sous-échantillon des points EMU_Global_90m qui se trouve dans le polygone de posidonie, vous aurez trop peu d’observations.

    Pour résoudre le problème, vous allez créer un ensemble de points aléatoires au sein de l’habitat connu de la posidonie pour entraîner le modèle. Vous allez également interpoler des surfaces à partir des variables Mesures océanographiques mondiales et utiliser les points aléatoires d’habitat de la posidonie pour échantillonner les valeurs des mesures interpolées. Les variables Global ocean measurement (Mesures océanographiques mondiales) sont les suivantes : temp (température), salinité, dissO2 (oxygène dissous), nitrate, phosphate, silicate et srtm30 (profondeur).

    Vous allez commencer par fusionner les polygones de posidonie aux États-Unis en une entité multi-parties unique et créer un ensemble de 5 000 points aléatoires dans les zones où la présence de posidonie est connue.

Créer des points d’entraînement

Ensuite, vous allez créer les données d’entraînement dont l’outil Prévision de présence seule aura besoin pour modéliser la relation entre l’occurrence de la posidonie et les conditions océanographiques. Il y aura deux types de données d’entraînement : les points représentant les localisations connues où la posidonie est présente et les rasters représentant les sept variables de prévision (mesures océanographiques). Vous allez créer les points aléatoires dans l’étendue des polygones de posidonie aux États-Unis. Comme vous voulez créer un nombre spécifique de points aléatoires dans la zone couverte par ces habitats, vous allez fusionner les différents polygones dans cette couche en un polygone unique avant de créer les points.

  1. Sur le ruban, cliquez sur Analysis (Analyse), puis, dans la section Geoprocessing (Géotraitement), cliquez sur Tools (Outils).
  2. Dans la fenêtre Geoprocessing (Géotraitement), dans la zone de recherche, saisissez pairwise dissolve (fusion deux par deux).
  3. Dans les résultats de la recherche, cliquez sur l’outil Pairwise Dissolve (Fusion deux par deux) pour l’ouvrir.

    Ouvrez l’outil Fusion deux par deux.

  4. Pour Input Features (Entités en entrée), cliquez sur la liste déroulante et sélectionnez la couche USA seagrass (Posidonie aux États-Unis).
  5. Acceptez le nom Output Feature Class (Classe d’entités en sortie) par défaut, USAseagrass_PairwiseDissolve.
  6. Acceptez les valeurs par défaut des autres paramètres et vérifiez que la case Create multipart features (Créer des entités multi-parties) est cochée.

    Paramètres de l’outil Fusion deux par deux

  7. Cliquez sur Run (Exécuter).

    Une fois que l’outil a terminé, la nouvelle couche d’entités USAseagrass_Dissolve est ajoutée à la carte et répertoriée dans la fenêtre Contents (Contenu). Comme c’est cette version de la couche de posidonie que vous allez utiliser, il est préférable de supprimer la couche d’origine pour désencombrer votre espace de travail et éviter toute confusion.

  8. Cliquez avec le bouton droit sur la couche USA seagrass (Posidonie aux États-Unis) et sélectionnez Remove (Supprimer).

    Supprimez la couche USA seagrass.

    Vous allez maintenant générer des points aléatoires localisant la présence de posidonie.

  9. Dans la fenêtre Geoprocessing (Géotraitement), cliquez sur la flèche de retour et dans la zone de recherche, saisissez create random points (créer des points aléatoires).
  10. Dans les résultats de la recherche, cliquez sur l’outil Create Random Points (Créer des points aléatoires).

    Créer des points aléatoires, outil

  11. Pour Output Tile Feature Class (Classe d'entités ponctuelles en sortie), cliquez sur USA_Train (États-Unis_Entraînement).
  12. Pour Constraining Feature Class (Classe d’entités de contrainte), cliquez sur la liste déroulante et sélectionnez USAseagrass_PairwiseDissolve.
  13. Pour Number of Points [value or field] (Nombre de points [valeur ou champ]), définissez la valeur sur 5000.

    Paramètres Create Random Points (Créer des points aléatoires)

  14. Cliquez sur Run (Exécuter).

    Les points aléatoires apparaissent sur la carte.

    Les points aléatoires sont ajoutés à la carte.

    Vous disposez maintenant d’une nouvelle classe d’entités avec 5 000 points figurant dans l’habitat de posidonie connu autour du littoral américain, que vous allez utiliser pour entraîner votre modèle de prévision de présence seule. Pour le moment, aucune variable environnementale n’est associée à ces localisations. Cette information est stockée aux emplacements des points Global ocean measurements (Mesures océanographiques mondiales). Pour résoudre ce problème, vous allez créer des surfaces d’interpolation continue pour les variables environnementales échantillonnées aux points Mesures océanographiques mondiales.

Interpoler les rasters environnementaux

La classe d’entités Global ocean measurements (Mesures océanographiques mondiales) contient des données provenant du jeu de données Ecological Marine Units. Cette couche comporte des attributs dont vous avez besoin comme variables de prévision dans la prévision de présence seule. Certaines de ces variables incluent la salinité, la température de l’océan et le niveau de nitrate. Vous allez utiliser la méthode géostatistique de krigeage bayésien empirique (EBK) pour interpoler les surfaces raster des valeurs environnementales stockées dans la couche Global ocean measurements (Mesures océanographiques mondiales). Vous allez ensuite échantillonner les valeurs de ces rasters aux points USA_Train afin que le modèle de prévision de présence seule ait accès aux données explicatives à l’emplacement de chaque point d’entraînement.

  1. Dans la fenêtre Geoprocessing (Géotraitement), cliquez sur la flèche arrière et dans la zone de texte, saisissez empirical bayesian kriging (krigeage bayésien empirique).

    Recherchez l’outil Krigeage bayésien empirique.

  2. Cliquez avec le bouton droit sur l’outil Empirical Bayesian Kriging (Krigeage bayésien empirique) dans les résultats de recherche et sélectionnez Batch (Lot).

    Ouvrez l’outil EBK en mode de traitement par lots.

    La page Batch Empirical Bayesian Kriging (Krigeage bayésien empirique par lots) apparaît.

  3. Pour Choose a batch parameter (Choisir un paramètre de traitement par lots), cliquez sur la liste déroulante et sélectionnez Z value field (Champ de la valeur Z).

    Choisissez le champ de la valeur Z.

  4. Laissez les autres paramètres comme valeurs par défaut et cliquez sur Next (Suivant).
  5. Pour Input features (Entités en entrée), cliquez sur la liste déroulante et sur Global ocean measurements (Mesures océanographiques mondiales).
  6. Pour Batch Z value field (Champ de la valeur Z par lots), cliquez sur le bouton Add Many (Ajouter plusieurs).

    Cliquez sur la liste déroulante et sur Ajouter plusieurs.

    Une liste des champs apparaît.

  7. Cochez les cases des sept variables de mesures océanographiques suivantes : temp (température), salinity (salinité), dissO2, nitrate, phosphate, silicate et srtm30, puis cliquez sur Add (Ajouter).

    Cochez les cases des sept champs de variables environnementales.

    Lorsque vous cliquez sur Add (Ajouter), les champs sont ajoutés à la fenêtre d’outil.

    Les champs sont ajoutés à l’outil.

  8. Définissez Output raster (Raster en sortie) sur EBK_%Name%.

    Définissez Raster en sortie sur EBK_%Name%.

    Cette opération crée un raster nommé EBK_ plus le nom du champ, pour chacun des champs.

  9. Pour Output cell size (Taille de cellule en sortie), définissez la valeur sur 25 000.
  10. Pour Semivariogram model type (Type de modèle de semi-variogramme), cliquez sur la liste déroulante et sélectionnez Linear (Linéaire).

    Taille de cellule et type de modèle de semi-variogramme

  11. Développez la section Additional Model Parameters (Paramètres supplémentaires du modèle) et définissez Maximum number of points in each local model (Nombre maximal de points dans chaque modèle local) sur 50.
  12. Définissez Number of simulated semivariograms (Nombre de semi-variogrammes simulés) sur 50.

    Définissez le nombre de points et de semi-variogrammes sur 50.

    Ces paramètres permettent d’augmenter la vitesse de la prévision EBK en limitant le nombre de points dans chaque modèle et le nombre de semi-variogrammes simulés. L'augmentation de ces valeurs peut améliorer la précision des prévisions, mais augmente également le temps de traitement de l’outil. Pour mieux comprendre ces paramètres, consultez la page d’aide Présentation du krigeage bayésien empirique.

  13. Développez la section Search Neighborhood Parameters (Paramètres du voisinage de recherche), définissez Search neighborhood (Voisinage de recherche) sur Standard Circular (Circulaire standard) et réduisez Min neighbors (Nbre min. de voisins) à 3.

    Définissez les paramètres du voisinage de recherche.

    L’utilisation d’un voisinage de recherche Circulaire standard réduit le temps de traitement de l’outil. La limitation du nombre minimal de voisins garantit que les valeurs aux emplacements connus seront estimées même si les voisins sont peu nombreux. Examinez la documentation de l’outil Krigeage bayésien empirique pour en savoir plus sur ces paramètres et d’autres.

  14. Cliquez sur Run (Exécuter).

    Comme cet outil s’exécutera en mode par lots pour générer sept rasters d’interpolation globale distincts, son exécution prendra du temps (cinq minutes environ).

    L’outil se terminera avec des avertissements indiquant que les valeurs NODATA ont été ignorées pour plusieurs entités. Cela n’est pas un problème.

    Une fois l’exécution de l’outil Batch Empirical Bayesian Kriging (Krigeage bayésien empirique par lots) terminée, chaque surface de mesure océanographique est ajoutée à la carte. Chacune doit être analogue à la surface ci-dessous, qui présente le modèle de krigeage bayésien empirique pour la concentration de nitrate.

    Couche de nitrate EBK

  15. Cliquez sur Save Project (Enregistrer le projet).

    Enregistrez le projet.

Vous avez préparé les données de modélisation en générant des points aléatoires qui représentent les endroits où la posidonie est présente dans son habitat autour du littoral américain et en créant des rasters explicatifs à l’aide du krigeage bayésien empirique. Vous allez ensuite utiliser les données d’entraînement pour créer un modèle et prévoir la présence des habitats de posidonie au niveau mondial.


Prévoir l’habitat et affiner les résultats

Maintenant que vous avez préparé vos données, vous allez utiliser l’outil Prévision de présence seule pour créer un modèle et réaliser une prévision. L’outil Prévision de présence seule utilise la méthode d’entropie maximale (MaxEnt), qui est une approche de type Machine Learning particulièrement adaptée à la modélisation de la répartition des espèces, car elle peut gérer des scénarios dans lesquels les données d’absence ne sont pas disponibles.

Réaliser une prévision de présence seule

Vous allez utiliser l’outil de géotraitement Presence-only Prediction (MaxEnt) (Prévision de présence seule (MaxEnt)) pour entraîner un modèle afin de prévoir l’habitat de posidonie et créer un raster de prévision illustrant la probabilité de présence de la posidonie autour des côtes du monde entier. Vous allez évaluer les diagnostics du modèle et itérer le processus de modélisation pour améliorer votre modèle.

  1. Dans la fenêtre Geoprocessing (Géotraitement), cliquez sur la flèche de retour et dans la zone de recherche, saisissez presence (présence).
  2. Dans les résultats de recherche, cliquez sur Presence-only Prediction (MaxEnt) (Prévision de présence seule (MaxEnt)).

    Ouvrez l’outil Prévision de présence seule (MaxEnt).

  3. Pour Input Point Features (Entités ponctuelles en entrée), cliquez sur la liste déroulante et sélectionnez la couche USA_Train.

    Champ Entités ponctuelles en entrée défini sur USA_Train.

  4. Pour Explanatory Training Rasters (Rasters d’entraînement explicatifs), cliquez sur le bouton Add Many (Ajouter plusieurs).

    Cliquez sur le bouton Ajouter plusieurs.

    Une liste des couches raster apparaît.

  5. Cochez les cases des sept variables de mesures océanographiques suivantes : EBK_dissO2, EBK_nitrate, EBK_phosphate, EBK_salinity, EBK_silicate, EBK_srtm30 et EBK_temp, puis cliquez sur Add (Ajouter).

    Ajoutez les rasters explicatifs.

    Lorsque vous cliquez sur Add (Ajouter), les rasters sont ajoutés à la fenêtre d’outil.

    Les rasters sont ajoutés à l’outil.

    S’agissant tous de rasters de mesure continus, les cases Categorical (Catégoriel) ne sont pas cochées. L’outil acceptera également les variables d’entraînement qui sont catégorielles, pour lesquelles vous devrez cocher la case.

  6. PourExplanatory Variable Expansions (Basis Functions) (Expansion des variables explicatives [Fonctions de base]), cochez les cases : Original (Linear) (Original [Linéaire]), Squared (Quadratic) (Carré [Quadratique]), Pairwise interaction (Product) (Interaction deux par deux [Produit]) et Smoothed step (Hinge) (Étape lissée [Charnière]).

    Expansions de variables explicatives (Fonctions de base) sélectionnées

    Les fonctions de base transforment (ou développent) les variables explicatives en vue d’intégrer des relations plus complexes entre la présence de posidonie et la variable d’intérêt dans le modèle. La sélection de plusieurs fonctions de base inclut toutes les versions transformées des variables dans le modèle, les variables les plus performantes étant sélectionnées via la régularisation. Dans ce cas, vous sélectionnez toutes les options sauf Étape discrète, car Étape lissée et Étape discrète sont relativement similaires et n’en sélectionner qu’une seule permettra d’accélérer le temps de traitement. Reportez-vous à la documentation de l’outil pour en savoir plus sur chaque fonction de base.

  7. Pour Number of Knots (Nombre de nœuds) et Study Area (Zone d’étude), acceptez les valeurs par défaut 10 et Convex hull (Enveloppe convexe).

    Acceptez les valeurs par défaut pour Nombre de nœuds et Zone d’étude.

    Number of Knots (Nombre de nœuds) est un paramètre associé à la fonction de base Smoothed step (Hinge) (Étape lissée [Charnière]) qui indique le nombre d’intervalles égaux entre les valeurs minimale et maximale de la variable, avec la création des deux variables transformées par une charnière avant et par une charnière inverse. Le paramètre Convex hull (Enveloppe convexe) signifie que la zone d’étude sera désignée comme enveloppe convexe de tous les points d’entraînement en entrée. L’outil génère des points d’arrière-plan, représentant l’absence potentielle de posidonie, dans des parties de la zone d’étude qui ne comportent aucun point de présence.

  8. Cochez la case Apply Spatial Thinning (Appliquer un affinage spatial). Définissez Minimum Nearest Neighbor Distance (Distance minimale par rapport au voisin) sur 2 et pour les unités, choisissez Kilometers (Kilomètres). Vérifiez que Number of Iterations for Thinning (Nombre d’itérations pour l’affinage) est défini sur 10.

    Section d’affinage spatial

    Ces paramètres permettent de contenir le biais d’échantillonnage potentiel en supprimant les points de présence et d’arrière-plan qui se trouvent dans la distance spécifiée les uns des autres de sorte que les zones ne sont pas sur-échantillonnées spatialement. La distance entre les points d’arrière-plan est impactée par la résolution spatiale des rasters explicatifs. Utiliser une distance de 2 kilomètres dans ce cas empêchera le sur-échantillonnage des zones d’arrière-plan par rapport aux zones de présence de la posidonie. Utiliser plusieurs itérations pour l’affinage permet à l’outil d’effectuer plusieurs tentatives lors du processus d’affinage et de sélectionner l’option qui conserve le plus grand nombre de points d’entraînement.

  9. Laissez la zone Output Trained Model File (Fichier de modèle entraîné en sortie) vide.

    Vous enregistrerez ultérieurement un fichier de modèle pour partager votre analyse, mais seulement après vous être assuré du bon fonctionnement du modèle.

  10. Développez la section Advanced Model Options (Options de modèle avancées) et vérifiez que le champ Relative Weight of Presence to Background (Pondération relative de présence par rapport à l’arrière-plan) est défini sur 100, Presence Probability Transformation (Link Function) (Transformation de la probabilité de présence [Fonction de liaison]) sur C-log-log et Presence Probability Cutoff (Limite de la probabilité de présence) sur 0,5.

    Section Options de modèle avancées

    La valeur 100 pour Relative Weight of Presence to Background (Pondération relative de présence par rapport à l’arrière-plan) indique qu’on ne sait pas si la posidonie peut être présente aux points d’arrière-plan générés par l’outil.

    Il convient d’utiliser C-log-log pour Presence Probability Transformation (Transformation de la probabilité de présence) dans ce cas, car la localisation de la posidonie ne laisse place à aucune ambiguïté (la posidonie ne fait en effet l’objet d’aucune mobilité ou migration à prendre en compte). La valeur 0,5 pour Presence Probability Cutoff (Limite de la probabilité de présence) indique que les localisations dont les probabilités sont supérieures à 0,5 sont classées comme présentes.

  11. Développez la section Training Outputs (Sorties d’entraînement) et pour Output Trained Features (Entités entraînées en sortie), saisissez trainfeatures1.

    Il s’agit d’une classe d’entités en sortie contenant les entités entraînées (points de présence et points d’arrière-plan) servant à générer le modèle.

  12. Pour Output Response Curve Table (Table de courbe de réponse en sortie), saisissez rc1.
  13. Pour Output Sensitivity Table (Table de sensibilité en sortie), saisissezsensitivity1.

    Section Sorties d’entraînement

    Output Response Curve Table (Table de courbe de réponse en sortie) et Output Sensitivity Table (Table de sensibilité en sortie) sont utiles pour connaître les performances du modèle.

  14. Développez la section Prediction Options (Options de prévision) et pour Output Prediction Raster (Raster de prévision en sortie), saisissez seagrass_predict1.

    Section Options de prévision

    Il s’agit du raster en sortie qui présentera les prévisions du modèle de la probabilité de présence d’habitat de la posidonie.

  15. Vérifiez que la table Match Explanatory Rasters (Apparier les rasters explicatifs) contient des valeurs correspondantes pour les rasters Prediction (Prévision) et Training (Entraînement).

    Section Apparier les rasters explicatifs

    Vous avez précédemment désigné les rasters explicatifs pour entraîner le modèle sur les points de données côtiers des États-Unis et ici, vous utilisez les mêmes rasters pour réaliser une prévision globale. Dans certains cas, il peut être intéressant d’effectuer une prévision avec différents rasters explicatifs. Vous pouvez par exemple utiliser les mêmes variables de mesures océanographiques, mais avec des valeurs projetées sur les 50 années à venir, afin d’évaluer l’impact potentiel du changement climatique sur l’habitat de la posidonie et la plage.

  16. Laissez la case Allow Predictions Outside of Data Ranges (Autoriser les prévisions en dehors des plages de données) cochée.

    Comme vous utilisez uniquement des données du littoral américain pour entraîner le modèle, vous aurez besoin d’autoriser les prévisions en dehors des plages de données pour réaliser des prévisions au niveau mondial.

    Remarque :

    De telles prévisions en dehors des plages de données peuvent générer des prévisions moins fiables, tout particulièrement dans les régions où les valeurs sont bien en dehors des plages des données d’entraînement.

    Gardez ce point à l’esprit lorsque vous examinez les résultats de prévision pour des lieux tels que l’Antarctique, où les conditions sont très différentes de celles de la côte des États-Unis.

  17. Développez la section Validation Options (Options de validation) et pour Resampling Scheme (Structure de rééchantillonnage), cliquez sur la liste déroulante, choisissez Random (Aléatoire), puis acceptez la valeur par défaut 3 pour Number of Groups (Nombre de groupes).

    Section Options de validation

    Ces paramètres chargent l’outil de réaliser une validation croisée à K volets du modèle.

    L’outil est presque prêt à s’exécuter. Vous allez ajouter un paramètre Environments (Environnements) pour restreindre la zone qui est traitée avant de l’exécuter.

  18. En haut de la fenêtre d’outil, cliquez sur l’onglet Environments (Environnements).

    Cliquez sur l'onglet Environnements.

  19. Faites défiler vers le bas puis, dans la section Raster Analysis (Analyse raster), pour Mask (Masque), cliquez sur la liste déroulante et sélectionnez la couche Global shallow waters (Eaux peu profondes mondiales).

    Choisissez la couche Eaux peu profondes mondiales pour le masque.

    Comme la posidonie se développe en eaux peu profondes, la limitation du traitement aux zones où l’eau est peu profonde permettra de gagner du temps.

  20. Cliquez sur Run (Exécuter).

    L’exécution de l’outil peut prendre du temps (deux minutes environ).

  21. Dans la fenêtre Contents (Contenu), décochez les cases pour désactiver toutes les couches à l’exception de la couche seagrass_predict1 et de basemap (fond de carte).

    Remarque :
    Vous pouvez appuyer sur la touche Ctrl et cocher une case pour activer ou désactiver plusieurs couches en même temps. Consultez la documentation pour en savoir plus sur les raccourcis clavier.

    Couche seagrass_predict1 et fond de carte

    La carte montre les lieux d’habitat prévu de la posidonie. La symbolisation en violet foncé désigne les zones où la présence de posidonie est la plus hautement probable. Il est possible que la prévision ne soit pas aussi fiable dans certaines zones, en particulier en Antarctique où les variables explicatives se trouvent en dehors de la plage des données utilisées pour l’entraînement.

Évaluer la prévision

Après avoir exécuté la prévision, vous allez évaluer les résultats et déterminer si des changements doivent être apportés au modèle de prévision. Une fois les diagnostics du modèle examinés et la prévision mise à jour, vous allez enregistrer un fichier de modèle pour le partager avec d’autres personnes souhaitant répliquer ou étendre votre analyse.

En examinant les zones prévues d’habitat de posidonie, comment savoir si le modèle créé est valide ou s’il s’acquitte correctement de la prévision de la variable d’intérêt ?

Couche seagrass_predict1 et fond de carte

Le plus souvent, il n’est pas possible de répondre à ces questions simplement en regardant le résultat de prévision. Pour évaluer votre modèle, vous devrez examiner les données d’entraînement et les diagnostics du modèle.

  1. Dans la fenêtre Contents (Contenu), cochez la case pour activer la couche trainfeatures1.
  2. Cliquez avec le bouton droit de la souris sur trainfeatures1 et sélectionnez Zoom To Layer (Zoom sur la couche).

    Zoom sur la couche trainfeatures1.

    La couche trainfeatures1 apparaît.

    Les points en gris et en vert représentent les points d’entraînement d’arrière-plan créés par l’outil afin de collecter des données sur les localisations où la posidonie peut ou non être présente.

    Ces points de données posent un problème majeur. La grande majorité d’entre eux se situent sur la terre, ce qui n’est pas logique pour un modèle censé prévoir l’habitat de la posidonie. Il s’agit d’un problème conceptuel avec le modèle, qui met en évidence l’importance d’avoir des connaissances propres au domaine et de comprendre chacun des paramètres d’outil pour garantir la définition appropriée du modèle.

    Vous allez ensuite vérifier les diagnostics du modèle pour voir ses performances.

  3. Au bas de la fenêtre Geoprocessing (Géotraitement), cliquez sur View Details (Afficher les détails).

    Affichez les détails.

    Remarque :
    Vous allez également accéder à la fenêtre Details (Détails). Pour ce faire, ouvrez History (Historique), cliquez avec le bouton droit sur Presence-only Prediction (MaxEnt) (Prévision de présence seule [MaxEnt]) et sélectionnez View Details (Afficher les détails).

    La fenêtre Details (Détails) offre des informations importantes sur le modèle que vous avez créé et sur ses performances. Elle comporte également des avertissements relatifs à l’exécution de l’outil. Dans ce cas, les avertissements ne sont pas un problème pour votre analyse.

  4. Cliquez sur Messages, puis accédez à la table Model Summary (Résumé du modèle) en bas.

    Table Résumé du modèle

    Cette table montre le taux d’omission du modèle sous la valeur Limite de la probabilité de présence donnée (0,5 dans ce cas) et la valeur Aire sous la courbe. La valeur d’aire sous la courbe ROC mesure les performances du modèle en comparant les taux de vrais et faux positifs. Pour indiquer des performances optimales du modèle, les taux d’omission doivent être faibles et les valeurs Aire sous la courbe proches de 1.

    Remarque :
    Il est possible de constater de petites différences dans le taux d’omission et les valeurs Aire sous la courbe de vos résultats en raison de différences d’interpolation EBK mineures qui dépendent du matériel de votre ordinateur.

    La valeur Aire sous la courbe du modèle est très élevée (proche de 1), ce qui est prometteur, mais le taux d’omission est également un peu élevé (supérieur à 0,15). Vous pouvez aussi passer en revue d’autres informations de la fenêtre Details (Détails) pour mieux comprendre le modèle, notamment les coefficients de régression et le résumé de la validation croisée.

    Table Résumé de la validation croisée et avertissement

    La table Cross-Validation Summary (Résumé de la validation croisée) montre que le taux % Presence - Correctly Classified (% présence : correctement classé) est compris entre 82 pour cent et 86 pour cent.

    Les aspects finaux du modèle que vous allez évaluer sont les tables de courbe de réponse et de sensibilité.

  5. Fermez la fenêtre Details (Détails).
  6. Dans la fenêtre Contents (Contenu), accédez à la section Standalone Tables (Tables autonomes) et, sous la table rc1, dans la section Charts (Diagrammes), double-cliquez sur le diagramme Partial Response of Continuous Variables (Réponse partielle des variables continues).

    Double-cliquez sur le diagramme Réponse partielle des variables continues.

    Le diagramme Partial Response of Continuous Variables (Réponse partielle des variables continues) visualise l’impact des changements dans la valeur de chaque variable explicative sur la probabilité de présence, toutes les autres variables étant maintenues constantes.

    Diagramme Réponse partielle des variables continues ouvert.

  7. Cliquez sur le diagramme EBK_SALINITY.

    Le diagramme EBK_SALINITY est maintenant agrandi sur la droite.

    Le fait de cliquer sur les petits diagrammes permet de mieux voir leurs variables dans le diagramme agrandi sur la droite. Le diagramme EBK_SALINITY montre que la probabilité de présence d’un milieu propice à la posidonie augmente nettement dans une plage étroite des valeurs de salinité.

  8. Fermez le diagramme Partial Response of Continuous Variables (Réponse partielle des variables continues).
  9. Dans la section Standalone Tables (Tables autonomes), sous la table sensitivity1, dans la section Charts (Diagrammes), double-cliquez sur le diagramme Omission Rates (Taux d’omission) et sur le diagramme ROC Plot (Courbe ROC).
  10. Cliquez sur les onglets des fenêtres de diagramme et faites-les glisser pour organiser les diagrammes afin de les voir ensemble.

    Diagrammes de taux d’omission et de courbe ROC affichés ensemble.

    Ces deux diagrammes offrent un contexte supplémentaire aux diagnostics de taux d’omission et de courbe ROC que vous avez examinés précédemment.

  11. Dans le diagramme Omission Rates, cliquez et tracez une zone pour sélectionner les points autour de la valeur de limite 0,5.

    Sélectionnez des points de données sur le diagramme Taux d’omission.

    La valeur de limite 0,5 est la valeur par défaut que vous avez utilisée dans le modèle.

    Vous pouvez voir comment modifier la limite de la probabilité de présence influe sur la classification des points d’arrière-plan en cliquant et en traçant une zone pour sélectionner des points dans le diagramme Taux d’omission.

    L’abaissement de la valeur de limite augmente la proportion de points d’arrière-plan classés comme présence potentielle.

  12. Fermez les diagrammes.

    Vous avez examiné les résultats du modèle et certaines de ces données contextuelles de diagnostics. Vous allez maintenant ajuster le modèle pour résoudre le problème conceptuel lié à la présence de points d’entraînement sur la terre.

Relancer le modèle avec une meilleure zone d’étude

La première exécution du modèle a créé le jeu de points de classification entraînés dans l’étendue d’enveloppe convexe des points de la couche d’entités USA_Train. Même si les points sont situés dans des eaux peu profondes, une grande partie de la zone qui les sépare est occupée par de la terre. Vous allez maintenant relancer le modèle, mais en limitant le placement des points de classification entraînés aux zones situées dans des eaux peu profondes.

  1. Cliquez sur l’onglet Analysis (Analyse) et dans la section Geoprocessing (Géotraitement), cliquez sur History (Historique).

    Ouvrir l’historique de géotraitement

  2. Dans la fenêtre History (Historique), double-cliquez sur le résultat supérieur, Presence-only Prediction (MaxEnt) (Prévision de présence seule [MaxEnt]).

    Ouvrez l’exécution de l’outil Prévision de présence seule (MaxEnt) dans l’historique de géotraitement.

    Ce mode d’ouverture permet de conserver tous ses paramètres précédents.

    Remarque :
    Renseigner de nouveau toutes les valeurs de paramètre peut prendre du temps dans la fenêtre Geoprocessing (Géotraitement).

    Vous n’allez modifier que certains des paramètres d’outil.

  3. Dans l’outil Presence-only Prediction (MaxEnt) (Prévision de présence seule [MaxEnt]), accédez au paramètre Study Area (Zone d’étude), cliquez sur la liste déroulante et sur Polygon study area (Zone d’étude surfacique).

    Choisissez l’option Zone d’étude surfacique.

    Une fois la validation de l’outil terminée, un nouveau paramètre apparaît.

  4. Pour Study Area Polygon (Polygone de zone d’étude), cliquez sur la liste déroulante et sur USA shallow waters (Eaux peu profondes aux États-Unis).

    Choisissez la couche Eaux peu profondes aux États-Unis comme couche surfacique de la zone d’étude.

    Cela limitera la zone des localisations de test d’absence et de présence potentielles de la posidonie aux zones côtières où l’eau est peu profonde autour des États-Unis continentaux.

  5. Pour Output Trained Model File (Fichier de modèle entraîné en sortie), saisissez seagrass_model.

    Au bout d’un moment le chemin dans la structure de dossiers de votre projet est renseignée et l’extension de fichier .ssm est ajoutée au nom du modèle.

    Nom de fichier et chemin du modèle entraîné

    Vous allez utiliser ce fichier de modèle dans la section suivante du didacticiel.

    Remarque :
    En règle générale, il est conseillé d’évaluer le nouveau modèle pour s’assurer que les résultats sont appropriés avant d’enregistrer le fichier de modèle, mais vous allez le générer maintenant pour gagner du temps.

  6. Développez la section Training Outputs (Sorties d’entraînement) en ajoutant un 2 aux noms en sortie pour indiquer qu’il s’agit de la deuxième exécution.

    • Output Trained Features (Entités entraînées en sortie) : trainfeatures2
    • Output Response Curve Table (Table de courbe de réponse en sortie) : rc2.
    • Output Sensitivity Table (Table de sensibilité en sortie) : sensitivity2

    Sorties d’entraînement actualisées pour indiquer qu’il s’agit de la deuxième exécution du modèle.

  7. Développez la section Prediction Options (Options de prévision) et ajoutez un 2 au nom Output Prediction Raster (Raster de prévision en sortie) pour indiquer qu’il s’agit de la deuxième exécution.

    • Output Prediction Raster (Raster de prévision en sortie) : seagrass_predict2

    Nom du raster de prévision en sortie actualisé pour indiquer qu’il s’agit de la deuxième exécution du modèle.

  8. Cliquez sur Run (Exécuter).

    L’exécution de l’outil peut prendre du temps (deux minutes environ).

    Une fois l’outil exécuté, les couches sont ajoutées à la fenêtre Contents (Contenu).

  9. Dans la fenêtre Contents (Contenu), décochez les cases pour désactiver toutes les couches à l’exception de la couche seagrass_predict2 et de basemap (fond de carte).

    Deuxième ensemble de résultats de la prévision

  10. Dans la fenêtre Contents (Contenu), cochez la case pour activer la couche trainfeatures2.
  11. Cliquez avec le bouton droit de la souris sur la couche trainfeatures2 et sélectionnez Zoom To Layer (Zoom sur la couche).

    Les entités d’entraînement sont tous situés dans les polygones d’eau peu profonde.

    Les entités d’entraînement (localisations de présence et d’arrière-plan) sont positionnées correctement dans des zones côtières et non sur la terre.

  12. Dans l’outil Presence-only Prediction (MaxEnt) (Prévision de présence seule [MaxEnt]), cliquez sur View Details (Affichez les détails).

    Affichez les détails.

  13. Cliquez sur Messages, puis accédez à la table Model Summary (Résumé du modèle) en bas.

    Deuxième rapport de résumé du modèle

    Vérifiez les valeurs Omission Rate (Taux d’omission) et AUC (Aire sous la courbe). Notez que la valeur AUC (Aire sous la courbe) est proche de celle du modèle précédent, mais que le taux d’omission est beaucoup plus faible, ce qui indique de meilleures performances du modèle.

    La table Cross-Validation Summary (Résumé de la validation croisée) montre que le taux % Presence - Correctly Classified (% présence : correctement classé) est compris entre 95 pour cent et 96 pour cent.

    Table Résumé de la validation croisée

    Vous pouvez également explorer les diagrammes de courbe de réponse et de sensibilité de ce nouveau modèle et les comparer au modèle précédent.

  14. Fermez la fenêtre Details (Détails).

Comparer les prévisions

Vous allez ensuite comparer visuellement les prévisions des deux modèles.

  1. Sur le ruban, cliquez sur l’onglet Map (Carte), puis dans la section Navigate (Naviguer), cliquez sur Bookmarks (Géosignets) et sur Europe.
  2. Dans la fenêtre Contents (Contenu), désactivez la visibilité de toutes les couches à l’exception de seagrass_predict2, seagrass_predict1 et Light Gray Base (Base gris clair).

    Les deux couches de prévision de la posidonie sont activées dans la fenêtre Contenu.

  3. Dans la fenêtre Contents (Contenu), cliquez sur la couche seagrass_predict2.

    Sélectionnez la couche seagrass_predict2.

    L’onglet contextuel Raster Layer (Couche raster) apparaît sur le ruban. Cet onglet est disponible lorsqu’une couche raster est sélectionnée dans la fenêtre Contents (Contenu).

  4. Sur le ruban, cliquez sur l’onglet Raster Layer (Couche raster).

    Cliquez sur le menu Couche raster.

  5. Dans le groupe Compare (Comparer), cliquez sur l’outil Swipe (Balayer).

    Cliquez sur l’outil Balayer.

  6. Dans la fenêtre de la carte, cliquez et faites glisser l’outil Swipe (Balayer) vers le bas de la carte.

    Cliquez et faites glisser le curseur sur la carte à l’aide de l’outil Balayage.

    L’outil Balayage montre la couche qui se trouve sous la couche sélectionnée.

    L’outil Swipe (Balayer) masque de manière interactive la couche sélectionnée et affiche la couche qui se trouve en dessous. Cet outil vous permet d’explorer les différences entre vos premières et deuxièmes prévisions.

    Notez les différences autour de la mer Baltique. Avec le modèle initial, la probabilité prévue concernant la présence d’habitat de posidonie était très faible dans la mer Baltique, en particulier autour de Copenhague au Danemark, par exemple. La probabilité prévue a augmenté dans cette région dans le deuxième modèle. Les herbiers de posidonie sont des points chauds de concentration de carbone importants dans la mer Baltique, tout particulièrement dans certaines baies protégées autour du Danemark. Cela permet de faire davantage confiance aux performances du modèle le plus récent.

    En temps normal, vous continueriez à explorer les prévisions du modèle et à les comparer à d’autres endroits connus où la posidonie est présente en dehors des eaux côtières américaines, mais dans le cadre de ce didacticiel, vous êtes prêt à passer au partage du modèle.

Vous avez prévu la répartition de l’habitat de la posidonie dans les régions littorales du monde entier avec MaxEnt, en utilisant l’outil Presence-only Prediction (Prévision de présence seule) de manière itérative pour régler les paramètres et vérifier que votre modèle a été défini correctement. Vous allez maintenant documenter le modèle et le partager.


Partager votre modèle

Maintenant que la prévision est terminée et que les résultats ont été évalués, la prochaine étape consiste à accroître la transparence et la reproductibilité de la modélisation. Lors de la deuxième exécution de l’outil Presence-only Prediction (Prévision de présence seule), vous avez généré un fichier (.ssm) de modèle de statistiques spatiales.

Vous allez ajouter les descriptions et unités des variables au fichier afin que le modèle soit entièrement documenté et prêt à être partagé. Que vous ayez prévu ou non de partager le fichier de modèle, le maintien d’un fichier de modèle documenté dans vos dossiers vous permet de revisiter des analyses antérieures, de connaître les variables en entrée attendues et leurs unités, et d’examiner les performances du modèle. Vous pouvez aussi partager le modèle avec des collègues qui souhaitent répliquer votre analyse dans leur région ou s’appuyer sur votre travail en analysant une zone locale avec des données de résolution supérieure.

Documenter le fichier de modèle

Pour documenter le fichier de modèle, procédez comme suit :

  1. Dans la fenêtre Geoprocessing (Géotraitement), cliquez sur la flèche de retour et dans la zone de recherche, saisissez describe spatial (description spatiale), puis cliquez sur Describe Spatial Statistics Model File (Décrire le fichier de modèle de statistiques spatiales) dans les résultats.

    Recherchez et ouvrez l’outil Décrire le fichier de modèle de statistiques spatiales.

  2. Pour Input Model File (Fichier de modèle en entrée), cliquez sur le bouton de navigation et développez les dossiers Project (Projet), Folders (Dossiers), SeagrassPrediction et p30.
  3. Cliquez sur le fichier seagrass_model.ssm et sur OK.

    Accédez au fichier seagrass_model.ssm et ouvrez-le.

    Un message d’informations apparaît, fournissant des renseignements de base sur le modèle, notamment le type de modèle et la variable à prévoir.

    Informations sur le modèle

  4. Cliquez sur Run (Exécuter).
  5. Une fois l’exécution de l’outil terminée, cliquez sur View Details (Afficher les détails).

    Affichez les détails de l’exécution de l’outil.

  6. Développez la fenêtre Details (Détails) et passez en revue son contenu.

    Détails des paramètres du modèle

    De nombreux détails sur le modèle sont fournis, notamment la date de création du modèle, le type de modèle, les variables prédictives et la réponse, ainsi que les caractéristiques et diagnostics du modèle, notamment les valeurs AUC (Aire sous la courbe) et Omission Rate (Taux d’omission).

    Il est important de noter que les localisations et valeurs en entrée ne sont pas divulguées dans un fichier de modèle, ce qui vous permet de partager un modèle même si les données en entrée sont confidentielles (par exemple, les lieux de nidification d’espèces d’oiseaux menacées).

    Il n’y a pas d’informations pour les champs Description et Unit (Unité) concernant la variable à prévoir et les rasters d’entraînement explicatifs. S’il ne sait pas ce que représente chaque variable et ses unités, aucun autre utilisateur ne sera en mesure d’utiliser ce fichier de modèle. Imaginez qu’un utilisateur suppose que la température a été mesurée en degrés Fahrenheit pour ce modèle alors qu’en réalité il s’agissait des degrés Celsius, ses prévisions seraient incorrectes.

    Vous allez ensuite renseigner les informations manquantes.

  7. Fermez la fenêtre Details (Détails).
  8. Dans la fenêtre Geoprocessing (Géotraitement), cliquez sur la flèche de retour et, dans la zone de recherche, saisissez set spatial statistics (définir les statistiques spatiales), puis cliquez sur Set Spatial Statistics Model File Properties (Définir les propriétés du fichier de modèle de statistiques spatiales).

    Ouvrez l’outil Définir les propriétés du fichier de modèle de statistiques spatiales.

  9. Pour Input Model File (Fichier de modèle en entrée), cliquez sur le bouton de navigation et sur le fichier seagrass_model.ssm, puis sur OK.

    Les noms des variables et rasters utilisés dans le modèle sont répertoriés. Les zones Description et Unit (Unité) vous permettent d’ajouter des informations à la documentation du modèle.

    Accédez au fichier de modèle.

  10. Dans la section Variable To Predict (Variable à prévoir), sous Presence-Only (Présence seule), pour Description, saisissez Seagrass habitat presence (Présence d’habitats de posidonie).

    Description de la variable

  11. Dans la section Variable To Predict (Variable à prévoir), sous Presence-Only (Présence seule), pour Unit (Unité), saisissez None (Aucun).

    Unité définie sur Aucun pour Présence seule.

  12. Dans la section Explanatory Training Rasters (Rasters d’entraînement explicatifs), renseignez les champs Description et Unit (Unité) de chaque variable comme suit :
    • Pour : EBK_DISSO2, Description : Dissolved oxygen (Oxygène dissous), Unit (Unité) : ml/l
    • Pour : EBK_NITRATE, Description : Nitrates, Unit (Unité) : μmol/l
    • Pour : EBK_PHOSPHATE, Description : Phosphates, Unit (Unité) : μmol/l
    • Pour : EBK_SALINITY, Description : Salinity (Salinité), Unit (Unité) : None (Aucun)
    • Pour : EBK_SILICATE, Description : Silicate, Unit (Unité) : μmol/l
    • Pour : EBK_SRTM30, Description : Depth (Profondeur), Unit (Unité) : Meters (Mètres)
    • Pour : EBK_TEMP, Description : Temperature (Température), Unit (Unité) : °C

    Renseignements dans la section Rasters d’entraînement explicatifs

  13. Revenez au début de l’outil et cliquez sur la zone Input Model File (Fichier de modèle en entrée).

    La validation des variables que vous avez entrées devrait être déclenchée. Ces valeurs se perdent parfois si la validation de l’outil n’est pas déclenchée avant son exécution.

  14. Cliquez sur Run (Exécuter).
  15. Cliquez sur Afficher les détails.

    Affichez les détails de l’outil Définir les propriétés du fichier de modèle de statistiques spatiales.

    L’outil signale que les champs ont été mis à jour.

    Les champs Description et Unité sont mis à jour.

  16. Fermez la fenêtre Details (Détails).
  17. Dans la fenêtre de géotraitement History (Historique), double-cliquez sur l’outil Describe Spatial Statistics Model File (Décrire le fichier de modèle de statistiques spatiales).
  18. Cliquez sur Run (Exécuter), puis sur View Details (Afficher les détails).

    Les détails sont mis à jour.

    Vous avez vérifié que les descriptions et unités des variables sont désormais correctement documentées et le fichier de modèle est prêt à être partagé par e-mail, sur un lecteur partagé ou en ligne. Vous pouvez conserver ce fichier de modèle pour exécuter une prévision différente dans l’avenir ou le partager avec d’autres personnes qui souhaitent exécuter des prévisions supplémentaires. Par exemple, cette prévision a utilisé des données moyennes par décennies des unités marines écologiques EMU (moyenne sur 50 ans), mais un autre chercheur peut utiliser des mesures océaniques projetées pour comprendre comment la répartition de la posidonie peut évoluer avec le réchauffement des océans.

  19. Fermez la fenêtre Details (Détails).

Dans ce didacticiel, vous avez préparé des données d’entraînement et créé un modèle de Machine Learning pour prévoir les habitats de la posidonie dans les régions côtières du monde entier. Vous avez également facilité la reproduction et le développement de votre analyse en documentant le fichier de modèle pour qu’il puisse être partagé par les personnes souhaitant répliquer votre travail ou s’appuyer dessus. La promotion de la science ouverte est une part importante des efforts de conservation, notamment pour la posidonie et les écosystèmes pour lesquels elle joue un rôle considérable. Ce didacticiel a utilisé une approche simplifiée de la modélisation de la posidonie et dans certains cas, les paramètres d’outil ont été optimisés pour accélérer le traitement. Les ressources suivantes fournissent plus d’informations sur les efforts réels relatifs à la modélisation des habitats de la posidonie :

  • Aydin, Orhun, Carlos Osorio-Murillo, Kevin A. Butler et Dawn Wright. 2022. « Conservation Planning Implications of Modeling Seagrass Habitats with Sparse Absence Data: A Balanced Random Forest Approach. » Journal of Coastal Conservation 26 (3): 22. https://doi.org/10.1007/s11852-022-00868-1.
  • Bertelli, Chiara M., Holly J. Stokes, James C. Bull et Richard K. F. Unsworth. 2022. « The Use of Habitat Suitability Modelling for Seagrass: A Review. » Frontiers in Marine Science 9. https://www.frontiersin.org/articles/10.3389/fmars.2022.997831.
  • McKenzie, Len J., Lina M. Nordlund, Benjamin L. Jones, Leanne C. Cullen-Unsworth, Chris Roelfsema et Richard K. F. Unsworth. 2020. « The Global Distribution of Seagrass Meadows. » Environmental Research Letters 15 (7): 074041. https://doi.org/10.1088/1748-9326/ab7d06.
  • Wang, Ming, Yong Wang, Guangliang Liu, Yuhu Chen et Naijing Yu. 2022. « Potential Distribution of Seagrass Meadows Based on the MaxEnt Model in Chinese Coastal Waters. » Journal of Ocean University of China 21 (5): 1351–61. https://doi.org/10.1007/s11802-022-5006-2.