Cartographier et étudier les données relatives au niveau d’oxygène à l’aide de diagrammes
Vous commencerez par utiliser des diagrammes linéaires et des histogrammes pour explorer les propriétés et les caractéristiques de vos données. L’exploration de vos données est une première étape importante de presque tout workflow analytique. Puis, à l’aide de ces diagrammes, vous déterminerez si ces données sont viables pour être utilisées dans un workflow d’interpolation. Un utilisant un diagramme linéaire pour voir de quelle façon les niveaux d’oxygène évoluent dans le temps, vous pouvez choisir des fenêtres horaires appropriées pour l’analyse. Une fois les fenêtres horaires choisies, l’histogramme vous permet de visualiser les différents niveaux d’oxygène dissous dans la baie.
Télécharger et ouvrir le projet
Un dossier contenant des données sur la qualité de l’eau collectée dans les estuaires de la baie de Chesapeake ainsi que plusieurs couches de données a été fourni dans un paquetage ArcGIS Pro. Ces données ont été fournies par le Chesapeake Bay Program.
- Téléchargez le fichier Chesapeake_WaterQuality.zip.
- Recherchez le fichier téléchargé sur votre ordinateur.
Remarque :
Selon votre navigateur web, vous avez peut-être été invité à choisir l’emplacement du fichier avant de lancer le téléchargement. Par défaut, la plupart des navigateurs téléchargent les fichiers dans le dossier Downloads (Téléchargements) de votre ordinateur.
- Cliquez avec le bouton droit sur le fichier et extrayez son contenu à un emplacement facilement accessible de votre ordinateur, tel que le dossier Documents.
- Ouvrez le dossier décompressé pour voir son contenu.
- Si ArcGIS Pro est installé sur votre ordinateur, double-cliquez sur Chesapeake_WaterQuality.ppkx pour ouvrir le projet.
Remarque :
Si vous n’avez pas accès à ArcGIS Pro ou ne disposez pas d’un compte d’organisation ArcGIS, consultez les options disponibles pour accéder aux logiciels.
- Si vous y êtes invité, connectez-vous via votre compte ArcGIS sous licence.
Le projet contient une carte nommée Chesapeake Bay Dissolved O2 (O2 dissous dans la baie de Chesapeake) qui contient un fond de carte topographique et les couches de données suivantes :
- La couche DissolvedO2 montre les emplacements auxquels l’oxygène dissous et de nombreux autres composés ont été mesurés depuis 1984. Bien qu’il n’existe que 131 points sur la carte, chaque emplacement a fait l’objet de centaines voire de milliers de mesures.
- La couche Bay (Baie) représente un polygone simplifié du littoral de la baie.
Remarque :
L’oxygène dissous est mesuré en milligrammes par litre d’eau (mg/L). Selon la National Oceanic and Atmospheric Administration (NOAA)[1], tout niveau persistant d’oxygène dissous inférieur à 5,0 mg/L est considéré comme malsain, et tout emplacement présentant des niveaux inférieurs à 0,2 mg/L constitue une zone morte ou les poissons et la flore aquatique ne peuvent pas survivre.
- Dans la fenêtre Contents (Contenu) pour la carte Chesapeake Bay Dissolved O2 (O2 dissous dans la baie de Chesapeake), activez la couche Bay (Baie).
Remarque :
Selon votre configuration ArcGIS Pro par défaut, la fenêtre Contents (Contenu) peut ne pas s’ouvrir automatiquement. Le cas échéant, sur le ruban, cliquez sur l’onglet Vue. Dans le groupe Fenêtres, cliquez sur Contenu.
- Sous l’onglet Map (Carte), dans le groupe Navigate (Naviguer), cliquez sur Explore (Explorer).
- Cliquez sur la carte et déplacez-la jusqu’à la pointe nord de la baie de Chesapeake.
- Dans la fenêtre Contents (Contenu), cliquez sur la couche Bay (Baie) pour la sélectionner. Sur le ruban, cliquez sur l’onglet Feature Layer (Couche d’entités). Dans le groupe Compare (Comparer), cliquez sur Swipe (Balayer).
Lorsque vous pointez sur la carte, le curseur change.
- Cliquez sur la carte et déplacez le curseur de haut en bas ou de gauche à droite pour masquer la couche Bay (Baie).
Remarque :
L’étendue du polygone de la couche Bay (Baie) ne correspond pas exactement au fond de carte Topographic (Topographie) ci-dessous. La couche Bay (Baie) a été simplifiée et généralisée à partir de la véritable délimitation de la baie de Chesapeake. La généralisation permettra d’accélérer les analyses ultérieures.
- Dans l’onglet Map (Carte), cliquez sur Explore (Explorer). Tournez la molette de la souris pour zoomer et rétablir l’affichage de l’étendue complète de la baie de Chesapeake.
L’activation de l’outil Explore (Explorer) désactive le balayage, vous permettant ainsi de déplacer la carte et de zoomer normalement.
- Dans la fenêtre Contents (Contenu), désactivez la couche Bay (Baie) et activez la couche DissolvedO2.
Remarque :
La couche DissolvedO2 (DissolvedO2) provient d’un fichier .csv téléchargé depuis la base de données sur la qualité de l’eau du Chesapeake Bay Program (1984 jusqu’à aujourd’hui). Ces données ont été géocodées, projetées, et filtrées pour conserver les données sur l’oxygène dissous collectées entre le début de l’année 2014 et la fin 2015.
- Utilisez l’outil Explore (Explorer) pour visualiser la répartition des mesures d’oxygène dissous dans la baie de Chesapeake.
Conseil :
Utilisez le lien de la base de données sur la qualité de l’eau du Chesapeake Bay Program (1984 – jusqu’à aujourd’hui) pour télécharger des données supplémentaires liées aux nutriments s’étalant sur plusieurs années afin de pouvoir les étudier par vous-même.
Créer un diagramme linéaire
Maintenant que vous avez exploré les données, vous allez créer un diagramme linéaire des niveaux d’oxygène dissous. Un diagramme linéaire est un type de diagramme montrant l’évolution d’une valeur sur la durée. Votre diagramme linéaire présentera de quelle façon le niveau moyen d’oxygène dissous a évolué dans toute la baie au cours des années 2014 et 2015.
Définir SampleDate en tant que champ variable Date or Number (Date ou nombre) signifie que la date et l’heure correspondant à chaque mesure DissolvedO2 sont indiquées sur l’axe horizontal X du diagramme linéaire.
- Dans la fenêtre Contents (Contenu), cliquez avec le bouton droit sur DissolvedO2, pointez sur Create Chart (Créer un diagramme), et choisissez Line Chart (Diagramme linéaire).
Les fenêtres Chart Properties (Propriétés du diagramme) et Dissolved02 – Chart of DissolvedO2 (O2 Dissous – Diagramme d’O2 dissous) s’ouvrent.
- Dans la fenêtre Chart Properties (Propriétés du diagramme), dans l’onglet Data (Données), pour Date or Number (Date ou nombre), choisissez SampleDate. Pour Aggregation (Agrégation), choisissez Mean (Moyenne).
- Sous Numeric field(s) (Champ(s) numérique(s)), cliquez sur Select (Sélectionner). Cochez MeasureValue (Valeur de mesure) et cliquez sur Apply (Appliquer).
Le diagramme montre maintenant la moyenne des mesures d’oxygène dissous pour chaque date.
Les mesures d’oxygène dissous stockées dans le champ MeasureValue sont tracées sur l’axe vertical Y du diagramme linéaire. Vous pouvez maintenant décider d’agréger les données différemment. Les attributs SampleDate étant stockés sous forme de dates, l’option par défaut est Count (Total). Cette méthode compte le nombre de jours pendant lesquels les observations ont été enregistrées. MeasureValue est stocké en tant que nombre, ce qui permet d’effectuer plusieurs opérations arithmétiques.
- Dans la section Time binning options (Options de regroupement temporel), vérifiez que Interval size (Taille d’intervalle) est défini sur 5 Days (5 jours). Pour Empty bins (Groupes vides), choisissez Connect line (Connecter des lignes).
Connect line (Connecter des lignes) rend le diagramme linéaire plus lisible en joignant les lignes même si aucune mesure n’est disponible à certaines dates.
Le titre du diagramme et de la fenêtre du diagramme sont mis à jour en Dissolved02 – Mean of MeasureValue over SampleDate (Dissolved02 – Moyenne des valeurs de mesure par rapport à la date d’échantillon), reflétant les variables utilisées pour générer le diagramme linéaire.
- Dans la fenêtre du diagramme, identifiez visuellement les niveaux moyens d’oxygène dissous supérieurs à 12-13 mg/L observés le 1/04/2014 et le 1/04/2015. En outre, identifiez les dates d’été pour lesquelles les niveaux moyens d’oxygène dissous ont été inférieurs à 5 à 6 mg/L.
Remarque :
Le contenu de votre diagramme peut paraître différent de l’image d’exemple, la résolution de l’écran et la taille du diagramme ayant une incidence sur les dates d’échantillon et valeurs de mesure affichées sur l’axe horizontal et l’axe vertical. Il se peut que la couleur des lignes de votre diagramme soit également différente, mais les résultats sont identiques.
Un cycle saisonnier apparaît clairement en ce qui concerne l’oxygène dissous dans la baie de Chesapeake. Le niveau moyen d’oxygène dissous est le plus élevé en hiver (avec des niveaux moyens allant de 12 à 13 mg/L) et au plus bas pendant l’été (avec des niveaux moyens descendant aussi bas que 5 à 6 mg/L). Puisque toute mesure inférieure à 5,0 mg/L est considérée comme néfaste, il convient d’étudier le niveau d’oxygène dissous entre les mois de juin et septembre. Il est toutefois réconfortant de constater que le niveau moyen d’oxygène dissous n’approche jamais du seuil des 0,2 mg/L, auquel la vie marine est impossible.
Filtrer le diagramme linéaire
Bien que vous ayez observé un cycle saisonnier dans les niveaux d’oxygène dissous, vous souhaitez étudier plus en détail chaque saison. La tendance générale des données est marquée par une augmentation et une diminution, mais les variations sont nombreuses entre chaque observation. Vous utiliserez une tâche pour sélectionner les mesures effectuées entre le 15 juin 2014 et le 15 septembre 2014 et prises à une profondeur supérieure à 5 mètres. Une tâche est un ensemble d’étapes préconfigurées qui vous aident à exécuter un workflow. La tâche pour cette requête de sélection est incluse dans votre projet.
- Sur le ruban, cliquez sur l’onglet View (Vue). Dans le groupe Windows (Fenêtres), cliquez sur Catalog Pane (Fenêtre Catalogue).
- Dans la fenêtre Catalog (Catalogue), développez le dossier Tasks (Tâches) et double-cliquez sur la tâche Filter Samples for Summer 2014 and Summer 2015 (Filtrer les échantillons pour les étés 2014 et 2015).
La fenêtre Tasks (Tâches) apparaît.
- Dans la fenêtre Tasks (Tâches), double-cliquez sur Apply Summer 2014 Filter (Appliquer le filtre été 2014)..
La tâche s’ouvre. Cette tâche se compose d’une étape qui exécute une requête en trois parties sur la couche DissolvedO2.
Conseil :
Vous pouvez redimensionner la fenêtre en pointant sur le côté droit de celle-ci et en augmentant sa taille.
Les paramètres de la tâche sont les suivants :
- Dans Input Rows (Lignes en entrée), sélectionnez DissolvedO2.
- Dans Selection type (Type de sélection), sélectionnez New Selection (Nouvelle sélection).
L’expression utilise les requêtes SQL suivantes.
- Où TotalDepth est supérieur à 5
- Et SampleDate (Date d’échantillon) est postérieure au 15/06/2014 à minuit
- Et SampleDate (Date d’échantillon) est antérieure au 16/09/2014 à minuit
Les expressions de la requête sélectionnent tous les échantillons pris à une profondeur supérieure à 5 mètres entre le 15 juin 2014 et le 15 septembre 2014.
Conseil :
Pour apprendre à écrire vos propres expressions de requête SQL, consultez la rubrique Ecrire une requête dans le générateur de requêtes.
- Cliquez sur Run (Exécuter).
Le filtre de la tâche sélectionne les points compris dans l’été 2014 dans votre diagramme linéaire.
- En haut du diagramme linéaire, cliquez sur le bouton Filter By Selection (Filtrer par sélection).
Le diagramme est mis à jour pour présenter uniquement les points sélectionnés.
Au cours des mois d’été 2014, le niveau moyen d’oxygène dissous fluctue à la hausse comme à la baisse sans tendance claire. Les tendances saisonnières qui se dégagent lorsqu’on observe le jeu de données complet disparaissent lorsqu’on étudie une saison individuellement. C’est une bonne chose ; les tendances peuvent compliquer les workflows d’interpolation. Il ressort que les tendances saisonnières peuvent être ignorées lorsque seules les mesures appartenant à cette fenêtre de trois mois sont prises en compte.
- Dans la fenêtre Tasks (Tâches), cliquez sur Finish (Terminer) pour arrêter l’exécution de la tâche. Fermez la fenêtre Tasks (Tâches).
Créer un histrogramme filtré
Dans la section précédente, vous avez utilisé un diagramme linéaire pour déterminer que votre analyse devrait se limiter aux mois d’été de 2014. C’est au cours de ces mois que les niveaux moyens d’oxygène dissous se rapprochent des niveaux néfastes. Cependant, le diagramme linéaire n’a montré le niveau moyen d’oxygène dissous que pour l’ensemble de la baie. Et si les niveaux étaient élevés dans certaines zones de la baie et bas dans d’autres ? La moyenne pourrait-elle masquer des niveaux vraiment bas ? Pour répondre à ces questions, vous allez créer un histogramme avec les données sélectionnées.
- Dans la fenêtre Contents (Contenu), cliquez avec le bouton droit sur DissolvedO2, pointez sur Create Chart (Créer un diagramme), et choisissez Histogram (Histogramme).
- Dans le volet Chart Properties (Propriétés du diagramme), sur l’onglet Data (Données), effectuez les modifications suivantes :
- Sous Variable, pour Number (Nombre), sélectionnez MeasureValue.
- Sous Bins (Groupes), saisissez 64.
La fenêtre DissolveO2 – Distribution of MeasureValue (DissolveO2 – Répartition des valeurs de mesure) se met à jour, affichant l’histogramme de l’oxygène dissous pour tous les échantillons.
Notez que les échantillons correspondant à l’été 2014 restent sélectionnés en bleu.
- En haut du diagramme linéaire, cliquez sur le bouton Filter By Selection (Filtrer par sélection) pour l’activer.
L’histogramme se met à jour pour n’afficher que les échantillons sélectionnés pour l’été 2014. Au cours de l’été 2014, la plupart des données mesurées étaient comprises entre 3 mg/L et 9 mg/L d’oxygène dissous. Le niveau moyen (moyenne) au cours des trois mois de l’été a été de 5,26 mg/L.
Cependant, les deux barres situées à l’extrême gauche de l’histogramme sont dignes d’intérêt, puisque les niveaux d’oxygène dissous y sont bien inférieurs à la moyenne et observés pour un nombre élevé d’échantillons. Vous les étudierez ultérieurement.
- Dans l’histogramme Distribution of MeasureValue (Répartition des valeurs de mesure), pointez sur le premier groupe de données (barre) sur la gauche, entre 150 et 200, pour afficher les valeurs MeasureValue (Valeur de mesure) et Count (Total) du groupe de données.
Remarque :
Les valeurs de mesure peuvent varier légèrement en raison de l’arrondi.
Les propriétés des groupes montrent que sur un total 4 086 échantillons, 185 affichaient des niveaux d’oxygène dissous compris entre 0 et 0,2. Ceci indique une zone morte, et le résultat est très préoccupant. Cependant, une zone ne devient morte que lorsque le niveau d’oxygène dissous reste constamment bas sur de longues périodes. Savoir si ces endroits présentent des niveaux d’oxygène dissous constamment bas sera l’objectif de notre prochain module.
- Fermez les fenêtres Chart (Diagramme) et Chart Properties (Propriétés du diagramme).
Lorsque vous fermez les diagrammes, ils ne sont pas supprimés du projet.
- Dans Quick Access Toolbar (Barre d’outils Accès rapide), cliquez sur le bouton Save Project (Enregistrer le projet). Si vous y êtes invité, cliquez sur Yes (Oui) pour enregistrer votre projet dans une version plus récente de ArcGIS Pro.
Vous avez utilisé un diagramme linéaire et un histogramme pour explorer vos données tout en appliquant un filtre de sélection. Le diagramme linéaire a révélé une forte tendance saisonnière concernant la répartition de l’oxygène dissous dont les niveaux les plus bas survenaient pendant les mois d’été. Au cours de l’été 2014, le niveau moyen d’oxygène dissous était proche du seuil néfaste de 5 mg/L.
L’histogramme a clairement montré que certains points présentaient des niveaux révélateurs des zones mortes dans l’hypothèse où ces niveaux d’oxygène dissous restaient bas pendant des périodes prolongées. Il est maintenant essentiel de déterminer si des zones de la baie présentent des niveaux d’oxygène dissous continuellement bas.
Effectuer une interpolation et comparer les résultats
La précision d’un modèle d’interpolation est définie par le degré d’exactitude entre la valeur de prévision et la valeur réelle à un emplacement. Cette définition de la précision présente cependant d’emblée une apparente contradiction. Si l’oxygène dissous n’a été mesuré qu’à certains endroits déterminés, de quelle façon pouvez-vous évaluer le degré de précision du modèle d’interpolation aux endroits pour lesquels aucune mesure n’a encore été effectuée ? Si vous ne connaissez pas les valeurs réelles à ces nouveaux emplacements, sur quelle base déterminez-vous la précision des prévisions ? La validation croisée est la méthode communément acceptée pour résoudre cette contradiction apparemment insoluble.
La validation croisée est une méthode statistique de type « leave-one-out » (laisser un élément de côté). La précision d’un modèle s’évalue en éliminant de manière séquentielle chaque point mesuré du jeu de données et en utilisant les points restants pour prévoir une valeur à l’emplacement du point supprimé. Si votre modèle d’interpolation est fiable, les points restants devraient mesurer avec précision la valeur véritable (mesurée) du point masqué. Vous pouvez ensuite comparer la valeur de prévision à la valeur réellement mesurée et voir si les valeurs sont proches. La différence entre la valeur réelle et la valeur de prévision pour un point donné est appelée erreur de validation croisée. Après validation croisée de chaque point mesuré, divers diagnostics numériques et graphiques peuvent être générés pour vous permettre d’évaluer la précision globale de votre modèle. Vous interpréterez les diagnostics de validation croisée en interpolant les niveaux moyens d’oxygène dissous de l’été 2014 et en comparant ces résultats avec ceux de l’été 2015.
Interpoler des données à l’aide d’un assistant
Vous allez ensuite utiliser les valeurs d’oxygène mesurées connues pour interpoler les niveaux d’oxygène là où aucune mesure n’a été capturée. L’interpolation génère une surface que vous pouvez utiliser pour la cartographie ou d’autres analyses. Vous allez utiliser les entités de la couche Bay (Baie) comme interruptions pour limiter l’interpolation à la baie de Chesapeake.
Pour interpoler les données de l’été 2014, vous allez utiliser le Geostatistical Wizard, un ensemble dynamique de pages conçu pour vous guider tout au long du processus de création d’un modèle d’interpolation et d’évaluation de ses performances.
- Sur le ruban, sous l’onglet Analysis (Analyse), dans le groupe Workflows (Processus), cliquez sur Geostatistical Wizard (Assistant géostatistique).
L’assistant Geostatistical Wizard (Assistant géostatistique) s’ouvre.
- Sur la première page du Geostatistical Wizard (Assistant géostatique), sous Interpolation with barriers (Interpolation avec interruptions), sélectionnez Kernel Interpolation (Interpolation par noyaux).
- Sous Dataset (Jeu de données), pour Source Dataset (Jeu de données source), confirmez que DissolvedO2 est sélectionné et pour Data Field (Champ de données), sélectionnez MeasuredValue. Sous Barrier Features (Entités interruption), sélectionnez Bay (Baie).
- Cliquez sur Next (Suivant).
La page Loading data (Chargement des données) apparaît.
- Sur la page Loading data (Chargement des données), pour Dataset (Jeu de données), sélectionnez Use Mean (Utiliser la moyenne).
- Cliquez sur Next (Suivant).
La page Kernel Interpolation (Interpolation par noyaux) s’affiche.
Le paramètre Bandwidth (Bande passante) est important, mais vous n’avez pas saisi de valeur. Le paramètre Bandwidth (Bande passante) contrôle le rayon du cercle de recherche dans la surface d’aperçu. Pour ces données, la bande passante est mesurée en mètres, et une valeur par défaut est fournie par le logiciel sur la base d’une optimisation simple. Vous pouvez la laisser vide et autoriser ArcGIS Pro à la calculer en fonction de vos données.
Les valeurs sous Identify Result (Identifier le résultat) correspondent à l’emplacement actuel indiqué par le réticule. Vous pouvez éventuellement cliquer sur d’autres emplacements pour voir leurs valeurs.
Remarque :
Une option ayant été sélectionnée dans la couche DissolvedO2 (O2 dissous), l’interpolation n’utilise que les entités sélectionnées dans ses calculs.
- Cliquez sur Next (Suivant).
La page Cross validation (Validation croisée) s’affiche.
Vous étudierez la validation croisée en détail plus tard dans ce didacticiel.
- Cliquez sur Finish (Terminer). Dans la fenêtre Method Report (Rapport de méthode), cliquez sur OK.
La couche en sortie s’affiche sur la carte.
La couche Kernel Interpolation (Interpolation par noyau) est un type de couche personnalisée uniquement utilisée avec ArcGIS Geostatistical Analyst extension. Elle est optimisée pour permettre une visualisation et un calcul rapides et peut être exportée vers un raster ou une couche d’entités.
Sur la carte, les couleurs rouge et orange représentent les niveaux moyens d’oxygène dissous les plus élevés. Notez que la plupart de ces valeurs élevées se trouvent dans la partie sud de la baie près de l’océan atlantique et aux extrémités des entrées. Les niveaux d’oxygène dissous les plus bas (en bleu et en vert) se trouvent dans la partie centrale et la partie supérieure de la baie.
- Enregistrez le projet.
Vous avez utilisé le Geostatistical Wizard, faisant partie de ArcGIS Geostatistical Analyst extension pour interpoler les niveaux moyens d’oxygène dissous dans la baie de Chesapeake pour l’été 2014. Sur la base de la carte d’interpolation, vous pouvez déduire que certaines zones de la baie de Chesapeake ont pu se trouver à un niveau d’oxygène dissous néfaste au cours de l’été 2014, mais il n’existe aucune indication montrant la présence de zones mortes persistantes empêchant la vie des poissons et des plantes aquatiques .
Explorer les résultats de validation croisée
Vous étudierez ensuite la fenêtre Cross validation (Validation croisée) de la couche que vous avez créée et vous interpréterez ses différents éléments.
- Dans la fenêtre Contents (Contenu), cliquez avec le bouton droit sur la couche Kernel Interpolation (Interpolation par noyau) et sélectionnez Cross Validation (Validation croisée).
Remarque :
La validation croisée est une propriété d’une couche géostatistique et n’est utilisable qu’avec ce type de couche.
La fenêtre Cross validation (Validation croisée) pour la couche Kernel Interpolation (Interpolation par noyau) s’ouvre.
Remarque :
Pour plus d’informations sur les différents onglets et statistiques disponibles dans la fenêtre Cross validation (Validation croisée), consultez la rubrique Validation croisée et validation.
- Sur la droite de la fenêtre Cross Validation (Validation croisée), cliquez sur l’onglet Table.
La table contient les résultats de la validation croisée pour chaque point mesuré.
- Si nécessaire, redimensionnez la fenêtre pour afficher la colonne Error (Erreur).
Pour chaque point, la valeur Measured (Mesuré) du point et la valeur Predicted (Prévu) provenant de la validation croisée sont conservées. La valeur Error (Erreur) est calculée en soustrayant la valeur Measured (Mesuré) de la valeur Predicted (Prévu). Si la valeur Error (Erreur) est supérieure à zéro, cela signifie que la prévision obtenue à partir de la validation croisée était supérieure à la valeur réelle. Si la valeur Error (Erreur) est inférieure à zéro, la prévision était en dessous de la valeur réelle.
- Cliquez sur le titre de la colonne Error (Erreur) pour trier les valeurs par ordre croissant.
Dans la colonne Error (Erreur) nouvellement triée, l’erreur de validation croisée la plus basse est -2,76. Ce qui signifie que la validation avait prévu un niveau d’oxygène dissous de 2,76 mg/L moins élevé que la valeur réelle à cet emplacement.
- Cliquez sur le titre de la colonne Error (Erreur) pour trier les valeurs par ordre décroissant.
L’erreur de validation croisée la plus élevée est d’environ 3,03. Ce qui signifie que la validation croisée avait prévu un niveau d’oxygène dissous plus élevé d’environ 3,03 mg/L que la valeur mesurée à ce point.
- Cliquez sur la première ligne pour sélectionner le point pour lequel l’erreur de validation croisée est la plus élevée.
Sélectionner l’enregistrement dans la table met en surbrillance le point auquel il est associé dans le diagramme sur la gauche. Pour cet enregistrement, le point se trouve sur l’axe des X du diagramme.
Ce diagramme affiche un nuage de points des valeurs de prévision par rapport aux valeurs mesurées pour chaque point ainsi qu’une ligne bleue de régression pour les points. Dans l’idéal, les valeurs de prévision sont proches des valeurs mesurées, vous voulez que la ligne de régression suive un angle de 45 degrés. Une ligne de référence grise s’affiche dans la fenêtre pour évaluer dans quelle mesure la ligne de régression est proche de cet angle idéal de 45 degrés. Pour ce point, la ligne de régression bleue est un plus plate que la ligne de référence grise, et il y a une grande variabilité dans les points autour des lignes. Mais l’écart ne paraît cependant pas trop grand. Une ligne bleue presque totalement horizontale ou verticale indiquerait d’importants problèmes qui ne devraient pas être acceptés.
- Dans la partie des diagnostics graphiques de la fenêtre, cliquez sur l’onglet Error (Erreur).
L’onglet Error (Erreur) affiche un nuage de points représentant les valeurs mesurées par rapport aux erreurs de validation croisée. Ce diagramme permet de déterminer si les erreurs de validation croisée sont indépendantes des valeurs mesurées.
L’indépendance entre les erreurs et les valeurs mesurées est importante puisque vous souhaitez réaliser des prévisions d’une précision égale que les niveaux d’oxygène dissous soient faibles, moyens ou élevés. L’indépendance entre les erreurs et les valeurs mesurées est indiquée par une ligne de régression horizontale. Dans votre diagramme, la ligne de régression est décroissante, ce qui indique que les valeurs mesurées les plus élevées ont été sous-estimées et que les valeurs mesurées les plus basses ont été surestimées.
Il s’agit d’un phénomène courant appelé lissage. Le degré de lissage de votre diagramme est habituel, mais vous devez être conscient que ce lissage signifie que les prévisions du modèle pourraient être incorrectes et prévoir des niveaux acceptables d’oxygène dissous dans des zones où ces niveaux sont en réalité malsains ou dangereux. Ceci ne doit pas vous dissuader de poursuivre votre analyse, mais il convient de l’indiquer dans vos conclusions.
- Dans la partie diagnostics numériques de la fenêtre Cross Validation (Validation croisée), cliquez sur l’onglet Summary (Résumé).
L’onglet Summary (Résumé) affiche un résumé statistique des informations contenues dans l’onglet Table et fournit un moyen simple et utile d’évaluer les résultats de la validation croisée.
Root-Mean-Square (Erreur quadratique moyenne) est l’outil statistique le plus important pour déterminer la précision d’un modèle. Sa valeur sera toujours supérieure à zéro, mais plus sa valeur est proche de zéro, plus les prévisions de la validation croisée sont proches des valeurs mesurées, en moyenne. Votre valeur Root-Mean-Square (Erreur quadratique moyenne) d’environ 1,12 indique, qu’en moyenne, les erreurs de validation croisée avaient un écart par rapport aux valeurs réelles d’un peu plus de 1 mg/L d’oxygène dissous. Toutes les autres statistiques nous donnent des informations utiles concernant le modèle, mais la valeur Root-Mean-Square (Erreur quadratique moyenne) est la seule qui mesure directement la précision des prévisions.
L’autre résumé statistique auquel nous nous intéresserons est la valeur Mean (Moyenne). Il s’agit de la moyenne des erreurs de validation croisée, laquelle est utilisée pour déterminer si les prévisions du modèle ont tendance à être trop hautes ou trop basses (ce scénario est appelé biais). Si le modèle est sans biais, cette valeur doit être proche de zéro. Si cette valeur est sensiblement supérieure à zéro, cela signifie que les prévisions du modèle sont systématiquement trop élevées. De la même façon, si la valeur est sensiblement inférieure à zéro, cela signifie que les prévisions du modèle sont systématiquement trop basses. Votre valeur d’environ 0,045 indique que ce modèle a très peu de biais. En moyenne, les prévisions sont environ 0,045 mg/L trop élevées, mais il s’agit d’une quantité très faible. Une si faible valeur Mean (Moyenne) vous permet raisonnablement de présumer que votre modèle est sans biais.
- Fermez la fenêtre Cross validation (Validation croisée).
Afficher les diagrammes pour 2015
Vous sélectionnerez ensuite les mesures d’oxygène dissous prises durant l’été 2015. Vous étudierez les données à l’aide de diagrammes.
- Si nécessaire, ouvrez, ouvrez la tâche Filter Samples for Summer 2014 and Summer 2015 (Filtrer les échantillons pour les étés 2014 et 2015).
Conseil :
Sur le ruban, sélectionnez View (Affichage), puis cliquez sur Catalog Pane (fenêtre Catalogue). Développez le dossier Tasks (Tâches).
- Double-cliquez sur Apply Summer 2015 Filter (Appliquer le filtre été 2015).
- Cliquez sur Run (Exécuter).
Les mesures prises entre le 15 juin 2015 et le 15 septembre 2015 à des profondeurs supérieures à 5 mètres sont sélectionnées.
- Cliquez sur Finish (Terminer) et fermez la fenêtre Tasks (Tâches).
- Dans la fenêtre Contents (Contenu), cliquez sur le bouton List By Drawing Order (Répertorier par ordre d’affichage).
Les diagrammes que vous avez créés précédemment sont répertoriés dans la fenêtre Contenu. Les diagrammes sont stockés en tant que type de propriété de couche que vous gérez avec la liste de couches dans la fenêtre Contents (Contenu) de la carte.
- Double-cliquez sur Distribution of MeasureValue (Distribution des valeurs de mesures) pour rouvrir l’histogramme. Vérifiez que le bouton Filter By Selection (Filtrer par sélection) est activé, pour n’afficher que les échantillons sélectionnés pour l’été 2015.
- Dans la fenêtre Chart Properties (Propriétés du diagramme), sous Statistics (Statistiques), activez Median (Médiane) et Std. Dev (Écart type).
L’histogramme est mis à jour pour inclure les valeurs.
Cet histogramme ressemble à l’histogramme de l’été 2014. La plupart des mesures d’oxygène dissous se situent approximativement entre 3 mg/L et 9 mg/L et une grande barre se trouve également sur le côté gauche aux niveaux proches du seuil dangereux de 0.2 mg/L.
- Dans la fenêtre Contents (Contenu), double-cliquez sur Mean of MeasureValue over SampleDate (Valeur de mesure moyenne par rapport à la date d’échantillon) pour rouvrir le diagramme linéaire.
- Dans la fenêtre Chart Properties (Propriétés du diagramme), pour Time binning options (Options de regroupement temporel), redéfinissez le paramètre Interval size (Taille d’intervalle) sur 5 Days (5 jours).
- Si nécessaire, cliquez sur le bouton Filter By Selection (Filtrer par sélection) pour n’afficher que les échantillons sélectionnés pour l’été 2015.
Le diagramme linéaire est également similaire à celui de l’été 2014. Le niveau moyen d’oxygène dissous global dans la baie de Chesapeake monte et descend sans tendance claire. Ceci signifie que vous pouvez sans risque prendre la moyenne des valeurs à chaque emplacement sur cette période.
- Fermez la fenêtre Chart properties (Propriétés du diagramme) ainsi que les deux diagrammes.
Interpoler des données avec un outil
Vous avez précédemment utilisé le Geostatistical Wizard pour interpoler les mesures pour l’été 2014. Cependant, la plupart des méthodes d’interpolation disponibles dans le Geostatistical Wizard sont également disponibles en tant qu’outils de géotraitement. Vous interpolerez ensuite les niveaux moyens d’oxygène dissous mesurés durant l’été 2015 à l’aide de l’outil de géotraitement Kernel Interpolation With Barriers (Interpolation par noyau avec interruptions).
- Sur le ruban, sous l’onglet Analysis (Analyse), dans le groupe Geoprocessing (Géotraitement), cliquez sur Tools (Outils).
La fenêtre Geoprocessing (Géotraitement) s’affiche.
- Dans la fenêtre Geoprocessing (Géotraitement), recherchez Noyau.
La recherche trouve plusieurs outils de géotraitement possibles qui mettent en œuvre ou contiennent le terme recherché.
- Cliquez Kernel Interpolation With Barriers (Interpolation par noyau avec interruptions).
L’outil de géotraitement Kernel Interpolation With Barriers (Interpolation par noyau avec interruptions) s’ouvre dans la fenêtre Géotraitement.
- Pour Input features (Entités en entrée), choisissez DissolvedO2 (O2 dissous).
Ce paramètre spécifie que la couche DissolvedO2 (O2 dissous) contient les points que vous souhaitez interpoler.
- Pour Z value field (Champ de la valeur Z), choisissez MeasureValue (Valeur de mesure).
Ce paramètre spécifie que le champ MeasureValue (Valeur de mesure) contient les mesures d’oxygène dissous.
- Pour Output geostatistical layer (Couche géostatistique en sortie), saisissez Eté 2015.
Ce paramètre spécifie le nom de la couche géostatistique obtenue.
- Pour Input absolute barrier features (Entités interruptions absolues en entrée), choisissez Bay (Baie).
Ce paramètre spécifie que la couche Bay (Baie) sera utilisée comme interruption dans l’interpolation. Ceci permettra à l’outil d’utiliser des distances d’eau.
- Acceptez les valeurs par défaut restantes.
En laissant le paramètre Bandwidth (Bande passante) non renseigné, l’outil détermine quelle valeur de bande passante donne la plus petite erreur Root-Mean-Square (Erreur quadratique moyenne) de validation croisée. C’est également de cette façon que le Geostatistical Wizard a déterminé la bande passante optimale.
Remarque :
L’outil Kernel Interpolation With Barriers (Interpolation par noyau avec interruptions) prend par défaut la moyenne de tous les points coïncidents, il n’est donc pas nécessaire de spécifier ceci dans l’outil de géotraitement. Les autres méthodes d’agrégation de points coïncidents peuvent être trouvées sur l’onglet Environments (Environnements) de l’outil.
- Cliquez sur Run (Exécuter).
L’outil s’exécute. Une couche nommée Summer 2015 (Été 2015) est ajoutée à la carte Chesapeake Bay Dissolved O2 (O2 dissous de la baie de Chesapeake). Cette couche représente le niveau moyen estimé d’oxygène dissous dans la baie de Chesapeake pour l’été 2015.
- Fermez toute fenêtre de synthèse associée à l’exécution de l’outil. Dans la fenêtre Contents (Contenu), désactivez la couche DissolvedO2.
- Dans la fenêtre Contents (Contenu), activez et désactivez la couche Summer 2015 (Été 2015) et comparez-la à la couche Kernel Interpolation (Interpolation par noyau), qui contient les données relatives à l’été 2014.
Comme pour l’été 2014, les niveaux moyens les plus élevés d’oxygène dissous pour l’été 2015 sont situés aux extrémités des entrées et près de l’océan Atlantique dans la partie sud de la baie. Les niveaux d’oxygène dissous les plus bas sont encore une fois situés dans la partie centrale et les parties supérieures de la baie.
Comparer des couches à l’aide de la validation croisée
Vous regarderez ensuite dans la fenêtre Cross validation (Validation croisée) la couche créée dans la section précédente et comparerez les chiffres et diagrammes avec ceux de la carte de l’été 2014.
- Dans la fenêtre Contents (Contenu), double-cliquez sur la couche Kernel Interpolation (Interpolation par noyau).
La fenêtre Layer Properties (Propriétés de la couche) apparaît.
- Dans l’onglet General (Général), pour Name (Nom), supprimez Kernel Interpolation (Interpolation par noyau) et saisissez Été 2014.
Renommer la couche Eté 2014 vous aidera à différentier et comparer les résultats pour 2014 et 2015.
- Cliquez sur OK.
- Dans la fenêtre Contents (Contenu), cliquez avec le bouton droit sur Eté 2014, puis sélectionnez Cross Validation (Validation croisée).
La fenêtre Cross validation (Validation croisée) pour les niveaux d’oxygène dissous de l’été 2014 s’ouvre.
- Dans la fenêtre Contents (Contenu), cliquez avec le bouton droit sur Eté 2015, puis sélectionnez Cross Validation (Validation croisée).
La fenêtre Cross validation (Validation croisée) pour les niveaux d’oxygène dissous de l’été 2015 s’ouvre.
- Comparez les valeurs Root-Mean-Square (Erreur quadratique moyenne) et Mean (Moyenne) pour l’été 2014 et l’été 2015.
Résumé Eté 2014 Eté 2015 Effectif
78
85
Root-Mean-Square
1,117
1.002
Moyenne
0.036
0,021
La valeur Root-Mean-Square (Erreur quadratique moyenne) a chuté de 1,117 à l’été 2014 à 1,002 à l’été 2015. Ceci indique que les prévisions obtenues à partir de la validation croisée étaient 10 pour cent plus précises pour l’été 2015 que pour l’été 2014. Ceci est probablement dû au fait qu’environ 10 pour cent de données supplémentaires étaient disponibles pour l’été 2015 (85 points contre 78 points) comme indiqué par la valeur Count (Total).
La valeur Mean (Moyenne) est passée de 0,036 à l’été 2014 à 0,021 à l’été 2015. Cette valeur devant être aussi proche que possible de zéro, le biais de l’été 2015 a été légèrement inférieur à celui de l’été 2014 (bien que les niveaux de biais aient été bas pour les deux étés).
- Dans les diagnostics graphiques, cliquez sur l’onglet Predicted (Prévision) pour Summer 2014 (Été 2014) et Summer 2015 (Été 2015).
- Comparez les diagrammes de l’onglet Predicted (Prévision). Si nécessaire, disposez les fenêtres Summer 2014 (Été 2014) et Summer 2015 (Été 2015) côte à côte pour les comparer.
La ligne de régression bleue de Summer 2015 (Été 2015) (à droite) se rapproche davantage de la ligne de référence grise que la ligne de régression de Summer 2014 (Été 2014).
- In the graphical diagnostics, click the Error (Erreur) pour Summer 2014 (Été 2014) et Summer 2015 (Été 2015).
Les diagrammes de l’onglet Error (Erreur) pour Summer 2014 (Été 2014) et Summer 2015 (Été 2015) semblent être presque identiques. Vous vous souvenez sans doute qu’idéalement la ligne de régression bleue doit être horizontale. Une ligne de régression décroissante, comme celle de Summer 2014 (Été 2014) et de Summer 2015 (Été 2015), indique que le modèle lisse les données, sous-estimant les valeurs élevées et surestimant les valeurs basses.
- Comparez la pente de la Regression function (Fonction de régression), située dans la partie inférieure gauche de chaque diagramme.
Fonction de régression pour l’été 2014 Fonction de régression pour l’été 2015 -0,668
-0,581
La fonction Regression (Régression) montre que la pente de la ligne de régression bleue est légèrement plus négative pour Summer 2014 (Été 2014) que pour Summer 2015 (Été 2015) (-0,668 contre -0,581). Ceci indique que le lissage est légèrement plus important pour Summer 2014 (Été 2014) que pour Summer 2015 (Été 2015).
Vous pouvez donc en conclure que l’interpolation de Summer 2015 (Été 2015) aura légèrement moins tendance à estimer des niveaux d’oxygène dissous sûrs dans des endroits où ces niveaux sont en réalité malsains ou dangereux que l’interpolation de Summer 2014 (Été 2014). Cependant, aucune des deux années ne montre un niveau de lissage important.
- Fermez les deux fenêtres Cross validation (Validation croisée).
- Enregistrez le projet.
Vous avez évalué et comparé la précision et la fiabilité d’un modèle d’interpolation en utilisant la validation croisée. Les connaissances apprises concernant la table de validation croisée, le résumé statistique, et les diagrammes, vous permettent de quantifier la précision et la fiabilité d’un modèle d’interpolation. Ces compétences vous permettent également de fournir des données importantes concernant les limitations de vos modèles. Il est nécessaire de mentionner le lissage des données de vos modèles, cet élément pouvant potentiellement masquer des niveaux d’oxygène dissous dangereux dans la baie de Chesapeake.
Maintenant que les composants statistiques de l’analyse sont définis, vous voudrez peut-être présenter cette information afin qu’elle soit facilement compréhensible pour vos collègues et pour les décideurs. Pour être utile, une analyse doit pouvoir être facilement communiquée et comprise par les personnes auxquelles elle est destinée.
Vous pouvez par exemple exporter vos couches géostatistiques vers des rasters et appliquer un dégradé de couleurs qui ait du sens. Vous pouvez ensuite ajouter des cartes individuelles à une mise en page pour créer une affiche présentant vos découvertes. Vous pouvez créer une visualisation comme celle visible dans ce poster. Consultez la série de didacticiels Concevoir une mise en page dans ArcGIS Pro pour obtenir de l’aide sur la création des mises en page.
Dans ce didacticiel, vous avez utilisé le ArcGIS Geostatistical Analyst extension. Vous avez utilisé le Geostatistical Wizard et l’outil de géotraitement Kernel Interpolation With Barriers (Interpolation par noyaux avec interruptions) pour analyser les niveaux moyens d’oxygène dissous dans la baie de Chesapeake pour les étés 2014 et 2015. A l’aide de l’interpolation, vous avez créé des couches géostatistiques pour estimer les niveaux moyens d’oxygène dissous à travers l’ensemble de la baie. Puis, vous avez effectué une validation croisée des résultats pour quantifier la précision de l’interpolation.
D’après vos résultats pour la baie de Chesapeake, les niveaux moyens n’ont jamais été proches du seuil dangereux de 0,2 mg/L, mais de nombreuses mesures individuelles ont été proches ou inférieures à ce seuil bas critique. Bien que des efforts d’atténuation soient nécessaires pour amener les niveaux d’oxygène dissous dans la baie de Chesapeake au-dessus du niveau sain de 5,0 mg/L, votre analyse fournit une conclusion scientifiquement et statistiquement défendable indiquant que même aux pires moments des mois d’été, les niveaux d’oxygène dissous étaient suffisamment élevés pour permettre de préserver un écosystème marin sain.
Les zones mortes constituent un problème mondial. Des processus similaires d’interpolation des niveaux d’oxygène dissous pourraient être utilisés dans des endroits comme le Golfe du Mexique, la Manche, et en Mer de Chine orientale. Le processus d’exploration des données à l’aide de diagrammes, l’interpolation des données et l’évaluation de la précision de vos résultats à l’aide la validation croisée est commun à presque tous les processus d’interpolation. Nous vous encourageons à télécharger des données provenant d’autres sources et pour d’autres années à partir de la base de données sur la qualité de l’eau du Chesapeake Bay Program (1984 – jusqu’à aujourd’hui) et à répéter les étapes en utilisant ces données nouvelles ou mises à jour.
Vous trouverez d’autres didacticiels dans la bibliothèque des didacticiels.