Forest-basierte Klassifizierungstechniken verwenden

Eine Methode zur Modellierung der Verteilung der Arten verwendet einen verbreiteten Algorithmus des maschinellen Lernens, mit der Bezeichnung Random Forest. Das Werkzeug Forest-basierte und geboostete Klassifizierung und Regression in ArcGIS Pro verfügt über zwei Algorithmen, zwischen denen gewählt werden kann: eine Adaption des Random-Forest-Algorithmus oder der Algorithmus XGBoost (Extreme Gradient Boosting). In diesem Modul verwenden Sie den forest-basierten Algorithmus. Bei diesem wird ein Modell auf der Grundlage bekannter Werte trainiert, die als Teil eines Training-Datasets bereitgestellt werden. Anschließend wird das Modell zur Vorhersage unbekannter Werte verwendet. Sie führen das Werkzeug zweimal aus, zuerst, um ein vorläufiges Modell zu trainieren und seine Genauigkeit zu bewerten, dann, um das Modell zu verbessern und einen Raster-Vorhersage-Layer zu generieren.

Das Projekt einrichten

Zuerst laden Sie die Daten herunter, die für die Modellierung der Verbreitung von Arten benötigt werden. Diese Informationen wurden als Projektpaket freigegeben, das Sie herunterladen und in ArcGIS Pro öffnen können. Die Daten wurden bereits extrahiert, zugeschnitten und projiziert (die Verarbeitung wird unten beschrieben). Weitere Informationen zur Vorbereitung Ihrer eigenen Daten für die Modellierung der Verbreitung von Arten finden Sie im Lernprogramm Daten für die Modellierung der Artenverteilung vorbereiten.

  1. Laden Sie die Lernprogrammdaten herunter.
  2. Doppelklicken Sie auf das Projektpaket Hurricane_Elsa, um ArcGIS Pro zu öffnen. Melden Sie sich ggf. mit einem lizenzierten ArcGIS-Konto an.

    Dieses Projekt enthält die Daten, die Sie für die Modellierung der Verbreitung von Arten benötigen.

    • Beobachtungspunkte für Wildschweine (Sus scrofa) sind aus iNaturalist observations extrahiert. Der Layer "Sus_scrofa_California" enthält nur diese Beobachtungspunkte. Der Layer "Sus_scrofa_California_absence_presence" enthält zudem Pseudo-Abwesenheitspunkte oder Punkte, an denen keine Wildschweine beobachtet wurden, was eine Voraussetzung für die forest-basierte Regressionsmodellierung ist.
    • Die Bioklimadaten, die 19 Umweltvariablen zu Temperatur und Niederschlag darstellen, sind dem Layer Bioclimate Baseline 1970-2000 entnommen. Er wurde auf "NAD 1983 California (Teale) Albers (Meters)" projiziert und auf den Bundesstaat Kalifornien zugeschnitten. Die zugeschnittenen Layer reichen etwas über die Bundesstaatsgrenzen hinaus, um sicherzustellen, dass Umweltdaten für Beobachtungs- oder Pseudo-Abwesenheitspunkte an oder in der Nähe von Bundesstaatsgrenzen extrahiert werden können.
    • Die Daten zu Höhe und Neigung stammen aus USGS EROS Archive - Digital Elevation - Global Multi-resolution Terrain Elevation Data 2010, projiziert auf NAD 1983 California (Teale) Albers (Meter) und auf den Bundesstaat Kalifornien ausgeschnitten.
    • Die Bodenbedeckung wurde aus USA NLCD Land Cover extrahiert, auf NAD 1983 California (Teale) Albers (Meter) projiziert und auf den Bundesstaat Kalifornien zugeschnitten.

Ein Modell für die forest-basierte und geboostete Klassifizierung und Regression trainieren

Das Werkzeug Forest-basierte und geboostete Klassifizierung und Regression trainiert ein Modell auf der Grundlage bekannter Werte, die als Teil eines Training-Datasets bereitgestellt werden, und kann dann zur Vorhersage unbekannter Werte verwendet werden. Das Werkzeug kann in drei Modi ausgeführt werden: nur Training, Vorhersage anhand von Features und Vorhersage anhand des Rasters. In diesem Abschnitt verwenden Sie den Trainingsmodus zum Erstellen eines vorläufigen Modells. Bei der Ausführung erstellt das Werkzeug eine Reihe von Diagrammen und anderen Ausgaben, anhand derer Sie die Genauigkeit des Modells beurteilen und Entscheidungen über dessen Verbesserung treffen können.

  1. Suchen Sie im Bereich Geoverarbeitung nach dem Werkzeug Forest-basierte und geboostete Klassifizierung und Regression und öffnen Sie es.

    Sie führen das Werkzeug zweimal aus, das erste Mal, um die Eingabedaten zu analysieren, und das zweite Mal, um die Eingaben für ein besseres Modell zu optimieren. Prüfen Sie die Genauigkeit des Modells mit dieser Option, bevor Sie Vorhersagen generieren. Mit dieser Option werden Modelldiagnosen im Meldungsfenster und ein Diagramm der Variablenbedeutung ausgegeben.

  2. Wählen Sie unter Vorhersagetyp die Option Nur trainieren aus, und stellen Sie sicher, dass unter Modelltyp die Option Forest-basiert festgelegt ist.

    Die Einstellung "Nur trainieren" für das Werkzeug "Forest-basierte und geboostete Klassifizierung und Regression" festlegen

    Forest-basierte Modelle stützen sich auf mehrere Entscheidungsbäume, die auf der Grundlage der Trainingsdaten erstellt werden. Ein Entscheidungsbaum ist ein Diagramm, das einem Flussdiagramm ähnelt und bekannte Merkmale eines Ergebnisses verwendet, um auf der Grundlage einer Reihe von Entscheidungen zu bestimmen, wie wahrscheinlich es ist, dass der unbekannte Datenpunkt mit diesem Ergebnis übereinstimmt. Jeder Entscheidungsbaum generiert eine eigene Vorhersage, die als Wertung in das Ergebnis einfließt. Bei dem Modell werden die Wertungen aller Entscheidungsbäume berücksichtigt, um das Ergebnis einer unbekannten Stichprobe vorherzusagen oder zu klassifizieren. Die andere Option ist ein Gradient-Boosted-Modell, bei dem jeder Entscheidungsbaum nacheinander unter Verwendung der Originaldaten erstellt wird. Jeder Baum korrigiert die Fehler der vorherigen Bäume.

  3. Wählen Sie unter Eingabe-Trainings-Features den Eintrag Sus_scrofa_California_absence_presence aus. Wählen Sie für Vorherzusagende Variable das Feld Vorhandensein aus, und aktivieren Sie das Kontrollkästchen Variable als kategorial behandeln.

    Für diese Analyse werden sowohl Punkte des Vorhandenseins als auch des Fehlens benötigt. Im Feld Vorhandensein sind Stellen, an denen Wildschweine beobachtet wurden, mit der Beschriftung 1 versehen. Alle anderen Punkte sind mit der Beschriftung 0 versehen. Da sich ein tatsächliches Fehlen bei der Bewegung von Arten nur schwer eindeutig nachweisen lässt, enthält dieser Layer Pseudo-Abwesenheitspunkte oder eine Reihe zufällig ausgewählter Punkte, die Positionen darstellen, an denen keine Wildschweine beobachtet wurden.

  4. Aktivieren Sie das Kontrollkästchen Alle Vorhersagewahrscheinlichkeiten berücksichtigen.

    Dieser Parameter generiert eine Ausgabe, die die Wahrscheinlichkeit aller Kategorien in der Kategorievariablen anzeigt. In diesem Fall wird die Wahrscheinlichkeit des Vorhandenseins und des Fehlens an einer bestimmten Position angezeigt.

    Als Nächstes fügen Sie erklärende Daten hinzu. Erklärende Variablen können aus Feldern stammen oder aus Entfernungs-Features berechnet oder aus Rastern extrahiert werden. Sie können diese Typen der erklärenden Variablen beliebig kombinieren, aber der von Ihnen gewählte Eingabetyp wirkt sich darauf aus, welche Ausgabe verfügbar sind. Da Sie als Ausgabe eine Raster-Oberfläche mit einer Vorhersage des Vorhandenseins wünschen, verwenden Sie die Option Erklärende Trainings-Raster.

  5. Klicken Sie für Erklärende Trainings-Raster auf Viele hinzufügen. Aktivieren Sie die Kontrollkästchen, um alle 19 Bioklimavariablen, CA_Elevation, CA_Slope und CA_NCLD hinzuzufügen, und klicken Sie auf Hinzufügen.

    Hinzufügen erklärender Trainings-Raster

  6. Aktivieren Sie neben der Variablen CA_NLCD das Kontrollkästchen Kategorie.

    Die Parameter für das Modell sind festgelegt. Jetzt erstellen Sie Ausgaben des Trainingslaufs, die Sie bei der Bewertung und Verbesserung des Vorhersagemodells unterstützen.

  7. Erweitern Sie den Abschnitt Zusätzliche Ausgaben. Geben Sie für Trainierte Ausgabe-Features den Text fbbcr_output_trained ein.

    Diese Ausgabe testet die Genauigkeit der Vorhersage, indem sie anzeigt, wie viele der Eingabe-Datasets richtig und falsch klassifiziert wurden.

  8. Geben Sie unter Ausgabetabelle zur Variablenbedeutung die Tabelle fbbcr_variable_importance ein.

    Der Wert Ausgabetabelle zur Variablenbedeutung enthält die im Modell verwendeten erklärenden Variablen und ihre Bedeutung. So können Sie besser einschätzen, welche der vielen erklärenden Variablen, die Sie im ersten Durchlauf des Modells verwenden, für die Vorhersage des Vorhandenseins von Wildschweinen am wichtigsten sind. Es wird zudem ein Diagramm erstellt, das die Verteilung der Variablengewichtung über die Durchläufe hinweg zeigt.

  9. Geben Sie unter Ausgabetabelle für Klassifizierungs-Performance (Konfusionsmatrix) den Text fbbcr_class_performance ein.

    Zusätzliche Ausgaben für die Trainingsvalidierung

    Diese Ausgabe ist nur verfügbar, wenn die abhängige Variable kategorial ist und ein Teil der Eingabedaten für die Validierung verwendet wird. Die Ausgabe zeigt die Anzahl der True Positives (TP), True Negatives (TN), False Positives (FP) und False Negatives (FN) in jeder Kategorie basierend auf den Validierungsdaten an.

  10. Blenden Sie die Gruppe Erweiterte Modelloptionen ein.

    Anhand der Optionen in dieser Gruppe, die als Hyperparameter bezeichnet werden, lässt sich die Anzahl der Entscheidungsbäume und die Eigenschaften der in der Modellierung verwendeten Bäume steuern. So führt beispielsweise eine Erhöhung der Anzahl der Bäume im Forest oder ein geboostetes Modell im Allgemeinen zu genaueren Modellvorhersagen, aber die Berechnung des Modells dauert länger. Kleinere Werte für Minimale Blattgröße können dazu führen, dass Ihr Modell anfällig für Rauschen in Ihren Daten ist. Um besser zu verstehen, welche dieser Parameter Sie möglicherweise anpassen müssen, führen Sie das Modell zunächst mit den Standardparametern aus. Mit der Einstellung Parameter optimieren können Sie diese Anpassungen vornehmen.

  11. Aktivieren Sie das Kontrollkästchen Parameter optimieren.

    Aktiviertes Kontrollkästchen "Parameter optimieren"

    Es stehen mehrere Optimierungsmethoden zur Auswahl. Um die Verarbeitungszeit kurz zu halten, verwenden Sie die Standardmethode Random Search (Quick) und optimieren die Modellgenauigkeit. Es gibt verschiedene andere Optionen, die Sie für Optimize Target (Objective) auswählen können und die sich auf die Optimierung verschiedener Kennwerte der Modellleistung beziehen.

  12. Geben Sie für die Anzahl der Ausführungen für Parametersets den Wert 10 ein.

    Für jeden Suchpunkt erstellt die Methode Random Search (Robust) ein Modell mit 10 verschiedenen zufälligen Ursprüngen, wählt die Hyperparameterwerte für eine mittlere Modellleistung aus und geht dann zum nächsten Suchpunkt über. Das Werkzeug durchsucht alle Kandidatensuchpunkte und wählt dann den Satz von Hyperparameterwerten mit der besten Modellleistung aus.

  13. Fügen Sie für Modellparametereinstellung die folgenden Hyperparameter hinzu:
    1. Parameter: Anzahl der Bäume
    2. Minimum: 100
    3. Maximum: 500
    4. Intervall: 10

      Einstellungen "Parameter optimieren"

      Hinweis:

      Beim Eingeben der Hyperparameter wird möglicherweise Fehler 110535 angezeigt. Nach Eingabe der Hyperparameter und Testkriterien wird der Fehler nicht mehr angezeigt.

  14. Blenden Sie den Abschnitt Validierungsoptionen ein. Legen Sie für Anzahl der ausgeführten Validierungen den Wert 25 fest.

    Je mehr Durchläufe Sie für das Werkzeug zulassen, desto mehr Vertrauen können Sie in das Modell haben. Bei jedem Validierungslauf werden andere 10 Prozent der Daten zum Testen des Modells verwendet. Mit den Diagnosen des Werkzeugs können Sie das Ergebnis der Genauigkeit der Trainingsläufe mit dem des Validierungslaufs vergleichen. Außerdem können Sie sich ein besseres Bild davon machen, wie wichtig jede Variable für die gesamte Vorhersage ist.

  15. Geben Sie unter Ausgabetabelle der Validierung die Tabelle fbbcr_out_validation an.

    Diese Tabelle umfasst ein Diagramm, das die Verteilung der Genauigkeitswerte zeigt. Das Diagramm hilft bei der Beurteilung, inwieweit das Modell robust ist oder ob es verbessert werden muss.

  16. Klicken Sie auf Ausführen.

    Ausgabetabelle der Validierung festlegen und auf "Ausführen" klicken

    Nach Abschluss der Ausführung des Werkzeugs wird der Karte der Layer fbbcr_output_trained hinzugefügt.

    Der zur Karte hinzugefügte Layer "fbbcr_output_trained"Die von Ihnen erstellten Ausgaben werden im Bereich Inhalt unter Standalone-Tabellen hinzugefügt.

    Hinweis:

    Das forest-basierte Modell verwendet standardmäßig bei jedem Durchlauf eine andere Zufallsstichprobe von Trainingsdaten. Wenn Sie das Werkzeug also mehrmals ausführen, erhalten Sie möglicherweise unterschiedliche Ergebnisse.

Interpretation und Verbesserung des Random-Forest-Modells

Nachdem Sie das Werkzeug einmal ausgeführt haben, können Sie anhand der Werkzeugdiagnose, der Diagramme und der Trainingsausgaben beurteilen, wie gut das Modell das Vorhandensein von Wildschweinen vorhersagen kann. Es gibt zwei Bereiche, die Sie bewerten sollten, um zu entscheiden, welche Parameter verbessert werden könnten: Modell-Performance und Relevanz der erklärenden Daten. Die Diagnose von Werkzeugen liefert eine Reihe von Statistiken, wie z. B. Out-of-Bag-Fehler des Modells und eine Klassifizierungsdiagnose, anhand derer Sie beurteilen können, ob die Parameter oder Hyperparameter aktualisiert werden sollten. Die Tabelle "Höchste Wichtigkeit von Variable" gibt auch Auskunft über die erklärenden Variablen mit dem größten Einfluss auf die Vorhersage, sodass Sie überflüssige Daten entfernen können.

Die Best Practice beim Training eines Modells besteht darin, es mehrmals auszuführen und verschiedene Parameter zur Verbesserung zu testen. Dieses Lernprogramm beschränkt sich aus Zeitgründen auf zwei Durchläufe des Werkzeugs. Weitere Informationen zu Analysen der Ausgaben finden Sie im Artikel Funktionsweise des Werkzeugs "Forest-basierte und geboostete Klassifizierung und Regression" der Dokumentation.

Hinweis:

Ihre Ergebnisse können von allen in diesem Abschnitt aufgeführten Beispielen abweichen. Diese Abweichung ist auf die zufällige Stichprobenauswahl durch das Werkzeug zurückzuführen.

  1. Klicken Sie nach Abschluss der Ausführung des Werkzeugs Forest-basierte und geboostete Klassifizierung und Regression unten im Bereich Geoverarbeitung auf Details anzeigen.

    Klicken auf "Details anzeigen", um eine Erklärung der Parameter des Werkzeugs zu öffnen

    Hinweis:

    Wenn Sie den Bereich Geoverarbeitung bereits geschlossen haben, können Sie auch über den Geoverarbeitungsverlauf auf die Details zugreifen. Klicken Sie auf dem Menüband auf die Registerkarte Analyse. Klicken Sie in der Gruppe Geoverarbeitung auf Verlauf. Klicken Sie im Bereich Verlauf mit der rechten Maustaste auf das Werkzeug Forest-basierte und geboostete Klassifizierung und Regression, und wählen Sie Details anzeigen aus.

    In den Details für das Werkzeug sind sowohl die verwendeten Parameter als auch Meldungen gespeichert, die Ihnen bei der Interpretation der Ergebnisse helfen.

  2. Klicken Sie bei Bedarf im Fenster Details auf die Registerkarte Meldungen.

    Klicken auf die Registerkarte "Meldungen"

    Die erste Tabelle zeigt die Modelleigenschaften oder die Hyperparameter, die zur Angabe des forest-basierten Modells verwendet wurden. Da Sie die Optimierung der Parameter zugelassen haben, wurde das Modell wahrscheinlich mit mehr Bäumen als den standardmäßigen 100 ausgeführt. Die genaue Anzahl, die Ihr Modell verwendet hat, hängt von den Zufallsstichproben ab, die es verwendet hat.

    Hinweis:

    Warnungen für das Werkzeug zeigen, dass beim Lesen einiger der Eingabe-Features Probleme aufgetreten sind. Aufgrund der Auflösung und der Ausdehnung der Eingaberaster, die auf den Bundesstaat Kalifornien zugeschnitten wurden, um sowohl die Verarbeitungszeit als auch die Dateigröße zu reduzieren, konnten Informationen für einige der Beobachtungspunkte in Küstennähe nicht aus den Rastern in die Punkte extrahiert werden.

  3. Scrollen Sie nach unten zur Tabelle Out-of-Bag-Fehler des Modells.

    Out-of-Bag-Fehler des Modells (OOB) helfen Ihnen, die Genauigkeit des Modells zu bewerten. Der Wert Mean Squared Error (MSE) basiert darauf, wie genau das Modell, den Wert Vorherzusagende Variable vorhersagen kann. Diese Fehler werden für die Hälfte der verwendeten Bäume und die Gesamtzahl der verwendeten Bäume berechnet. Wenn die Fehler und der Prozentsatz der erklärten Abweichung für beide Baumanzahlen ähnlich sind, müssen Sie die Anzahl der verwendeten Bäume wahrscheinlich nicht erhöhen. Da die vorherzusagende Variable kategorial ist, werden OOB-Fehler auf der Grundlage des Prozentsatzes falscher Klassifizierungen für jede Kategorie unter Bäumen berechnet, die in keiner Teilmenge der Bäume im Wald berücksichtigt wurden.

  4. Beachten Sie die wichtigsten Variablen in der Tabelle Höchste Wichtigkeit von Variable.

    Tabelle "Höchste Wichtigkeit von Variable"

    Da so viele erklärende Variablen verwendet wurden, ist die Bedeutung jeder einzelnen relativ gering, aber die Tabelle ist dennoch eine nützliche Möglichkeit, um zu sehen, welche Variablen den größten Einfluss auf das Vorhandensein von Wildschweinen haben könnten. Sie verwenden die Ergebnisse dieser Tabelle sowie die Tabelle Zusammenfassung der Variablenbedeutung, die mit der Ausgabe fbbcr_variable_importance erstellt wurde, um die Anzahl der Variablen zu reduzieren, die Sie im nächsten Durchlauf des Werkzeugs verwenden.

  5. Vergleichen Sie die Ergebnisse in der Tabelle Trainingsdaten: Klassifizierungsdiagnose mit denen in der Tabelle Validierungsdaten: Klassifizierungsdiagnose.

    Vergleich der Tabellen zur Klassifizierungsdiagnose

    Die Tabelle Trainingsdaten: Klassifizierungsdiagnose gibt an, wie gut das Modell bei den Trainingsdaten abgeschnitten hat, und die Validierungstabelle gibt an, wie gut das Modell bei den unbekannten Daten abgeschnitten hat. Wenn das Modell bei den Trainingsdaten gut abschneidet, bei der Validierung jedoch sehr schlecht, deutet dies auf eine mögliche Überanpassung des Modells hin. Im Allgemeinen gilt: Je näher der Wert "F1-Punktzahl" und der Wert "MCC" an 1 liegen, desto besser ist das Modell.

  6. Vergleichen Sie in der Tabelle Validierungsdaten: Klassifizierungsdiagnose die Werte für Empfindlichkeit und Genauigkeit.

    Die in dieser Tabelle aufgeführten Statistiken sind Kennzahlen für die Model-Performance. Die Empfindlichkeit ist der Prozentsatz der Fälle, in denen Features mit einer beobachteten Kategorie für diese Kategorie korrekt vorhergesagt wurden, und die Genauigkeit ist die Anzahl der Fälle, in denen eine Kategorie unter der Gesamtzahl der Beobachtungen für diese Kategorie korrekt identifiziert wurde. Beide Werte liegen nahe bei 1. Das bedeutet, dass das Modell die meisten Punkte während der Validierungsläufe korrekt klassifiziert hat. Sie können die Informationen zur Empfindlichkeit in grafischer Form anzeigen, indem Sie das Diagramm Validierungs-Performance öffnen, das mit der Tabelle fbbcr_class_performance erstellt wurde.

  7. Schließen Sie das Fenster Details. Klicken Sie im Bereich Inhalt unter dem Layer fbbcr_output_trained mit der rechten Maustaste auf das Diagramm Vorhersage-Performance, und wählen Sie Öffnen aus.

    Öffnen der Tabelle "Vorhersage-Performance"

    Das Diagramm Vorhersage-Performance wird geöffnet. Jeder Balken steht für die vorhergesagte Kategorie und die Farbe der Unterbalken spiegelt die tatsächliche Kategorie wider. Dieses Diagramm kann verwendet werden, um sowohl zu zeigen, wie oft das Modell die Variable von Interesse korrekt vorhergesagt hat, als auch welche Punkte Probleme bereitet haben. Da Sie das Modell mit aktiviertem Parameter Alle Vorhersagewahrscheinlichkeiten berücksichtigen ausgeführt haben, enthält jeder Punkt in diesem Layer auch die Wahrscheinlichkeit für das Vorhandensein oder Fehlen von Wildschweinen.

    Während dieses Diagramm zeigt, wie gut das Modell bei den Eingabe-Features für das Training abschneidet, zeigt das Diagramm Validierungsgenauigkeit, das mit der Tabelle fbbcr_out_validation erstellt wurde, wie gut das Modell bei den Validierungsdaten abschneidet.

  8. Klicken Sie im Diagramm Vorhersage-Performance im Balken 0 auf den kleineren Unterbalken, der Punkte anzeigt, die Vorhandensein darstellen, aber fälschlicherweise als Punkte für Fehlen klassifiziert wurden.

    Falsch klassifizierte Punkte des Vorhandenseins

    Die Punkte, die fälschlicherweise als Punkte des Vorhandenseins klassifiziert wurden, werden auf der Karte ausgewählt. Sie sind über den gesamten Bundesstaat verstreut.

  9. Klicken Sie auf der Karte auf einen der falsch klassifizierten Punkte. Scrollen Sie im Pop-up-Fenster nach unten zu den Attributen für die Wahrscheinlichkeit.

    Im Pop-up-Fenster gemeldete Attribute der Wahrscheinlichkeit

    An dem ausgewählten Punkt, der auf den Umwelteigenschaften des Punktes basiert, beträgt die Wahrscheinlichkeit des Fehlens 57 Prozent und die Wahrscheinlichkeit des Vorhandenseins 42 Prozent.

  10. Doppelklicken Sie im Bereich Inhalt unter Standalone-Tabellen für die Tabelle fbbcr_variable_importance auf das Diagramm Verteilung der Variablengewichtung.

    Da Sie das Modell 25 Mal zur Validierung ausgeführt haben, jeweils mit einer anderen Teilmenge der Eingabedaten, variiert die Bedeutung der Variablen geringfügig. Obwohl es Unterschiede in der Bedeutung der Variablen gibt, ist die Bedeutung unter den ersten 12 ziemlich hoch: BIO15_Precipitation_Seasonality, BIO11_Mean_Temperature_of_Coldest_Quarter, CA_Elevation, BIO3_Isothermality, CA_NLCD, BIO18_Precipitation_of_Warmest_Quarter, BIO6_Min_Temperature_of_Coldest_Month, BIO8_Mean_Temperature_of_Wettest_Quarter, CA_Slope, BIO1_Annual_Mean_Temperature, BIO14_Precipitation_of_Driest_Month, und BIO12_Annual_Precipitation.

    Tabelle "Verteilung der Variablengewichtung"

    Sie führen das Werkzeug erneut aus und konzentrieren sich dabei auf diese 12 erklärenden Variablen. Durch das Entfernen weniger wichtiger erklärender Variablen können Sie die Möglichkeit einer Überanpassung des Modells verringern.

  11. Ändern Sie im Bereich Geoverarbeitung im Werkzeug Forest-basierte und geboostete Klassifizierung und Regression den Vorhersagetyp in Vorhersage zu Raster.
  12. Entfernen Sie für Erklärende Trainings-Raster alle Raster außer Bioclimate 1, 3, 6, 8, 11, 12, 14, 15, 18, CA_Elevation, CA_NLCD und CA_Slope.
  13. Geben Sie für Ausgabe vorhergesagter Oberfläche den Text fbbcr_feral_swine_prediction ein.

    Aktualisieren der erklärenden Trainings-Raster

  14. Fügen Sie für alle Ausgaben, die Sie in den Kategorien Zusätzliche Ausgaben, Erweiterte Modelloptionen und Validierungsoptionen erstellt haben, die Endung _top12 an den Namen der Ausgabe an.

    Dadurch wird jede Ausgabe für die vorhergesagte Oberfläche neu erstellt, sodass Sie die beiden Modelle vergleichen können, um sicherzustellen, dass sich die Vorhersage verbessert.

  15. Klicken Sie auf Ausführen.
  16. Deaktivieren Sie im Bereich Inhalt den Layer fbbcr_output_trained, um ihn auszublenden. Schließen Sie alle Tabellen und Diagramme, die Sie während der Auswertung des ersten Durchlaufs des Modells geöffnet haben.

    Der zur Karte hinzugefügte Layer "fbbcr_output_trained_top12"

  17. Verwenden Sie das erlernte Wissen über die Modelldiagnose und die Ausgaben, um das neue Modell zu bewerten.

    Die Gesamtstatistik für die Bewertung dieses Modells, einschließlich MSE, F-1-Punktzahl und MCC, sollte sich verbessert haben. Im Gegensatz zum ersten Modell neigte dieser Durchlauf eher dazu, Vorhandensein als Fehlen falsch vorherzusagen. Im Fall von Wildschweinen ist das wahrscheinlich von Vorteil, da Schweinepopulationen anpassungsfähig sind und unter verschiedenen Bedingungen überleben können.

  18. Deaktivieren Sie im Bereich Inhalt den Layer fbbcr_output_trained_top12, um ihn auszublenden.

    Vorhergesagte Oberfläche, die zeigt, wo Wildschweine am wahrscheinlichsten zu finden sind

    Der Layer fbbcr_feral_swine_prediction ist ein Raster, das zeigt, wo im Bundesstaat aufgrund der Umweltmerkmale mit dem Vorhandensein von Wildschweinen zu rechnen ist.

In diesem Abschnitt haben Sie das Werkzeug Forest-basierte und geboostete Klassifizierung und Regression zweimal ausgeführt, um ein vorläufiges Modell zu trainieren und dessen Genauigkeit vor dem Generieren eines Raster-Vorhersage-Layers zu bewerten. Realistisch betrachtet kann dieser Prozess mehr als zwei Iterationen erfordern, um die gewünschten Ergebnisse zu erzielen. Als Nächstes verwenden Sie einen Algorithmus mit maximaler Entropie, um eine ähnliche Modellierung durchzuführen und die Ergebnisse zu vergleichen.


MaxEnt-Methoden verwenden

Eine weitere Methode in ArcGIS Pro zur Modellierung der Artenverteilung ist die auf Vorhandensein beschränkte Vorhersage (MaxEnt), die einen Algorithmus der maximalen Entropie verwendet, um das Vorhandensein eines Phänomens anhand bekannter Positionen des Vorhandenseins und erklärender Variablen zu modellieren. Wie beim forest-basierten Modell kann die auf Vorhandensein beschränkte Vorhersage mehrmals ausgeführt werden, um das Modell zu bewerten und zu verbessern. Sie generiert eine vorhergesagte Oberfläche für das Vorkommen von Arten. Im Gegensatz zum forest-basierten Modell benötigen Sie kein Dataset, das sowohl Punkte des Vorhandenseins als auch des Fehlens (oder in vielen Fällen Anwesenheits- und Pseudo-Abwesenheitspunkte) enthält. Die Raster-Oberfläche zeigt also die Wahrscheinlichkeit, dass eine Art in einem Gebiet vorkommt, und nicht eine binäre Klassifizierung des Vorhandenseins oder Fehlens.

Ein Modell einer nur auf Vorhandensein beschränkten Vorhersage trainieren

In diesem Abschnitt verwenden Sie das Werkzeug "Auf Vorhandensein beschränkte Vorhersage" im Trainingsmodus, um ein vorläufiges Modell zu erstellen. Da Sie die wichtigsten erklärenden Variablen mithilfe der forest-basierten Klassifizierung ermittelt haben, werden Sie diese auch in diesem Werkzeug als erklärende Variablen verwenden.

  1. Suchen Sie im Bereich Geoprocessing nach dem Werkzeug Auf Vorhandensein beschränkte Vorhersage (MaxEnt) und öffnen Sie es.

    Im Gegensatz zu vielen Regressionsmethoden, einschließlich des Werkzeugs Forest-basierte und geboostete Klassifizierung und Regression, benötigt die Auf Vorhandensein beschränkte Vorhersage keine Hintergrund- oder Pseudo-Abwesenheitspunkte. Und wie beim Werkzeug "Random Forest" generieren bestimmte Typen von Eingabe-Features unterschiedliche Ausgaben. In diesem Fall müssen Sie nur Beobachtungspunkte verwenden, da Sie eine weitere Raster-Oberfläche generieren möchten.

  2. Wählen Sie für die Eingabe-Punkt-Features den Layer Sus_scrofa_CA.
  3. Klicken Sie für Erklärende Trainings-Raster auf Viele hinzufügen. Aktivieren Sie die Kontrollkästchen, um dieselben Variablen wie beim letzten Durchlauf des Werkzeugs "Random Forest" hinzuzufügen: Bioclimate 1, 3, 6, 8, 11, 12, 14, 15, 18, CA_Elevation, CA_NLCD und CA_Slope. Klicken Sie auf Hinzufügen.

    Obwohl Sie dieses Werkzeug mit allen 19 Bioklima-Variablen ausführen können, empfiehlt es sich, Werkzeuge wie Random Forest zu verwenden, um die Bedeutung der Variablen für das Modell zu verstehen. Beim Erstellen von Modellen ist es wichtig, ein Gleichgewicht zwischen der Vereinfachung von Modellen zur Reduzierung von Überanpassung und dem Erstellen von Modellen zu finden, die robust genug für genaue Vorhersagen sind.

  4. Aktivieren Sie neben der Variablen CA_NLCD das Kontrollkästchen Kategorie.

    Erklärende Trainings-Raster auswählen

    Als Nächstes wählen Sie die Variablen-Erweiterungen aus. Verschiedene Erweiterungen können dabei helfen, Beziehungen zwischen Variablen herauszufiltern. Eine Erweiterung war im Random-Forest-Modell nicht erforderlich, da der Algorithmus nichtlineare Beziehungen zwischen abhängigen und erklärenden Variablen automatisch berücksichtigt. Sie können beim Ausführen des Werkzeugs mit dem Parameter Erweiterungen von erklärenden Variablen (Basisfunktionen) mehrere Basisfunktionen auswählen. Anschließend werden alle transformierten Versionen der erklärenden Variablen im Modell verwendet. Die Variablen mit der besten Performance werden durch Normalisierung ausgewählt. Bei dieser Methode der Variablenauswahl wird ein Kompromiss zwischen Eignung und Komplexität des Modells erzielt.

  5. Aktivieren Sie für Erweiterungen von erklärenden Variablen (Basisfunktionen) die Kontrollkästchen, um Original (Linear), Squared (Quadratic) und Paarweise Interaktion (Product).

    Die Funktion Original (Linear) ist die einzige, die für Kategoriedaten wie die Bodenbedeckung geeignet ist. Die Quadratfunktion, die eine quadratische Beziehung herstellt, neigt dazu, die Beziehungen der Arten zu Umweltfaktoren etwas besser zu modellieren, da es innerhalb jeder Variablen spezifische Bereiche gibt, die das ideale Habitat der Art bilden. Zum Beispiel sind Arten, die in Gebieten mit mäßigem Niederschlag leben, nicht für Wüstenbedingungen oder Regenwälder geeignet; die Beziehung ist parabolisch. Die Wahrscheinlichkeit, dass der Lebensraum für die Art geeignet ist, steigt mit zunehmenden Niederschlagsmengen und sinkt dann wieder, wenn die Niederschlagsmengen einen bestimmten Punkt überschreiten. Die paarweise Funktion ist auch für die Modellierung von Umweltbedingungen geeignet, da sie Beziehungen zwischen ihnen darstellen kann.

  6. Wählen Sie als Untersuchungsgebiet die Option Polygon-Untersuchungsgebiet aus, und wählen Sie den Grenzen-Layer des Bundestaates California als Untersuchungsgebiet-Polygon aus.
  7. Aktivieren Sie den Parameter Räumliche Ausdünnung anwenden.

    Aktivieren des Kontrollkästchens, um den Parameter der räumlichen Ausdünnung anzuwenden

    Die räumliche Ausdünnung wird sowohl auf Beobachtungs- als auch auf Hintergrundpunkte angewendet, um eine mögliche Verzerrung der Referenzpunkterfassung zu reduzieren. Da die Beobachtungsdaten der Wildschweine von Personen mit der iNaturalist-App gesammelt wurden, besteht die Möglichkeit, dass sie sowohl für Gebiete, in denen sich Menschen aufhalten, als auch für Gebiete, in denen es Menschen mit der iNaturalist-App gibt, die verschiedene Arten erkennen und melden, verzerrt sind. Durch räumliche Ausdünnung können die Auswirkungen von Verzerrungen verringert werden, indem Punkte entfernt werden, die nahe beieinander liegen und möglicherweise mehrere Sichtungen desselben Tieres darstellen, ein Schutzgebiet wie einen Nationalpark repräsentieren, in dem es wahrscheinlicher ist, dass es zu Begegnungen zwischen Mensch und Tier kommt, usw.

  8. Wählen Sie für Minimale Entfernung zu Nachbarn eine Entfernung von 1 Kilometer aus.

    Die nächsten Parameter sind Hyperparameter für das Modell.

  9. Blenden Sie bei Bedarf Erweiterte Modelloptionen ein. Geben Sie für Relative Gewichtung von Vorhandensein zu Hintergrund den Wert 1 ein.
  10. Wählen Sie für Transformation der Wahrscheinlichkeit für Vorhandensein (Kopplungsfunktion) die Option Logistisch aus.

    Legen Sie die erweiterten Modelloptionen fest.

    Von den beiden verfügbaren Funktionen zur Transformation der Wahrscheinlichkeit für Vorhandensein ist die Funktion "Logistisch" die bessere Option, wenn das Vorhandensein nicht absolut ist. Da die Schweine beispielsweise wahrscheinlich nicht an dem Ort bleiben, an dem sie gesichtet wurden, sondern umherziehen, um Nahrung und Schutz zu finden, ist die Funktion "Logistisch" geeignet. Da Sie sich für die Verwendung der Funktion "Logistisch" entschieden haben, sollte der Parameter Relative Gewichtung von Vorhandensein zu Hintergrund niedriger gewählt werden. In diesem Fall gewichten Sie die Punkte des Vorhandenseins und der Pseudo-Abwesenheit gleich.

    Sie werden auch den Wert Grenzwert für Wahrscheinlichkeit für Vorhandensein von 0,5 vorerst übernehmen. Die Diagnose des ersten Durchlaufs dieses Werkzeugs wird Ihnen dabei helfen, festzustellen, ob ein anderer Grenzwert zur Verbesserung zukünftiger Durchläufe erforderlich ist.

    Jetzt können Sie auswählen, welche Diagnosen und Diagramme das Werkzeug als Ausgabe bereitstellen soll. Das Werkzeug organisiert Ausgaben in Trainings- und Vorhersageausgaben. Der Hauptunterschied besteht darin, dass Trainingsausgaben den Daten entsprechen, die beim Trainieren und der Auswahl des Modells verwendet wurden, während Vorhersageausgaben den Daten entsprechen, auf die das Modell noch nicht angewendet wurde.

  11. Blenden Sie die Gruppe Ausgabe-Trainingsdaten ein. Geben Sie für Trainierte Ausgabe-Features den Text pop_output_trained ein.

    Das Ergebnis dieser Ausgabe ist eine Feature-Class mit den Punkten, die für das Training des Modells verwendet wurden, sowie drei Diagramme für zusätzliche Interpretationen. Diese Ausgabe symbolisiert die Eingabe-Präsenzpunkte und alle Hintergrundpunkte, die durch einen Vergleich zwischen der Klassifizierung aus dem Modell und der beobachteten Klassifizierung erstellt werden. Dies bietet eine visuelle Methode zur Analyse der Vorhersagen des Modells.

    Vorerst überspringen Sie das trainierte Ausgabe-Raster. Nachdem Sie das erste Modell ausgeführt haben und wissen, wie gut es bei den Eingabe-Punkt-Features funktioniert, erstellen Sie die Raster-Oberfläche. Für den ersten Durchlauf erstellen Sie eine Antwortkurventabelle, um die Auswirkungen jedes Eingabe-Rasters auf die Vorhersage zu zeigen, und eine Empfindlichkeitstabelle, die Ihnen dabei hilft, einen guten Wert für den Parameter Grenzwert für Wahrscheinlichkeit für Vorhandensein zu bestimmen.

  12. Geben Sie für Ausgabe-Antwortkurventabelle den Text pop_response_curve und für Ausgabe-Empfindlichkeitstabelle den Text pop_sensitivity ein.
  13. Blenden Sie die Gruppe Validierungsoptionen ein. Wählen Sie für Resampling-Schema die Option Zufällig aus, und legen Sie den Parameter Anzahl der Gruppen auf 5 fest.

    Der Parameter Resampling-Schema ermöglicht es dem Werkzeug, eine Kreuzvalidierung zur Bewertung der Robustheit des Modells durchzuführen. Die Punkte werden nach dem Zufallsprinzip in fünf Gruppen aufgeteilt, und jede Gruppe wird bei der Kreuzvalidierung einmal ausgelassen.

  14. Klicken Sie auf Ausführen.

    Erster Durchlauf des Werkzeugs "Auf Vorhandensein beschränkte Vorhersage"

Nach dem Abschluss des Werkzeugs werden der Ausgabe-Layer und die Tabellen dem Bereich Inhalt hinzugefügt. Der Layer pop_output_trained wurde der Karte hinzugefügt.

Das Modell "Auf Vorhandensein beschränkte Vorhersage" interpretieren und verbessern

Nachdem Sie das Werkzeug einmal ausgeführt haben, können Sie anhand der Werkzeugdiagnose, der Diagramme und der Trainingsausgaben beurteilen, wie gut das Modell das Vorhandensein von Wildschweinen vorhersagen kann. Die Diagnose des Werkzeugs hilft Ihnen, die Genauigkeit des Modells zu beurteilen, indem sie die Anzahl der korrekt klassifizierten Punkte für Vorhandensein und Hintergrund angibt. Während alle Statistiken und Ausgaben des ersten Trainingsdurchlaufs Ihnen dabei helfen können, Aspekte Ihres Modells zu verbessern, konzentrieren Sie sich in diesem Abschnitt auf die Statistiken "Fläche unter Kurve" und "Auslassung", die Ihnen bei der Entscheidung für einen geeigneten Parameter "Grenzwert für Wahrscheinlichkeit für Vorhandensein" für den nächsten Durchlauf des Werkzeugs helfen.

Hinweis:

Die Best Practice beim Training eines Modells besteht darin, es mehrmals auszuführen und verschiedene Parameter zur Verbesserung zu testen. Dieses Lernprogramm beschränkt sich aus Zeitgründen auf zwei Durchläufe des Werkzeugs. Weitere Informationen zu den Ausgaben finden Sie im Artikel Funktionsweise von "Auf Vorhandensein beschränkte Vorhersage (MaxEnt)" der Dokumentation.

  1. Deaktivieren Sie im Bereich Inhalt alle Layer außer pop_output_trained, dem Layer mit der Grenze California und der Grundkarte, um sie auszuschalten.

    Layer "pop_output_trained"

  2. Klicken Sie am unteren Rand des Bereichs Geoverarbeitung auf Details anzeigen, um die Diagnose des Werkzeugs zu öffnen.

    Klicken Sie auf "Details anzeigen", um die Meldungen des Werkzeugs zu öffnen.

    Für dieses Werkzeug werden einige Warnungen angezeigt. Wie zuvor sind für einige Punkte in der Nähe der Bundesstaatsgrenzen möglicherweise keine Raster-Informationen verfügbar. Es wurden keine Hintergrundpunkte ausgedünnt, was angesichts der Größe Ihres Untersuchungsgebiets nicht unbedingt ein Problem darstellt. Schließlich wies eine der Kategorien im Dataset "Land Cover" (die Kategorie für permanentes Eis und Schnee) weniger als acht Datenpunkte auf. Sie können dieses Problem mithilfe der Tabelle Diagnose der Kategorie der erklärenden Variable genauer untersuchen.

    Die erste Tabelle, die überprüft werden muss, ist die Tabelle Anzahl der Punkte für Vorhandensein und Hintergrund, die die Genauigkeit des Modells anzeigt.

  3. Vergleichen Sie in der Tabelle Anzahl der Punkte für Vorhandensein und Hintergrund die Zeile Anzahl der Punkte für Vorhandensein, um herauszufinden, wie viele Punkte für das Training des Modells verwendet wurden und wie viele richtig als "Vorhandensein" klassifiziert wurden.

    Vergleichen der Zeile "Anzahl der Punkte für Vorhandensein"

    Je näher die Zahlen in diesen beiden Spalten beieinander liegen, desto besser ist die Leistung des Modells. Sie sollten auch die Zeile Anzahl der Punkte für Hintergrund überprüfen. Da Sie den Parameter Relative Gewichtung von Vorhandensein zu Hintergrund auf 1 festgelegt haben, sollte diese Zahl relativ niedrig sein.

    In der Tabelle Modelleigenschaften sind die verwendeten Modellparameter aufgeführt.

  4. Werten Sie in der Tabelle Modellzusammenfassung den Wert AUC aus.

    Auserten der Statistik der Fläche unter der Kurve (AUC)

    Die Statistik AUC (Fläche unter Kurve) beschreibt, wie gut das Modell bekannte Positionen des Vorhandenseins als Vorhandensein und bekannte Hintergrundpositionen als Hintergrund abschätzen kann. Je näher dieser Wert an 1 liegt, desto besser ist die Performance des Modells. Die AUC-Statistik wird in Verbindung mit der Auslassungsrate verwendet, die angibt, wie viel Prozent der Vorhandenseinpunkte fälschlicherweise als mit geringer Wahrscheinlichkeit des Vorhandenseins eingestuft wurden. Sie werten diese beiden Statistiken mithilfe von Diagrammen aus, die mit der Tabelle pop_sensitivity erstellt wurden.

  5. Scrollen Sie nach unten zur Tabelle Regressionskoeffizienten.

    Tabelle "Regressionskoeffizienten"

    Diese Tabelle enthält die Variablen, die letztendlich im Modell verwendet wurden. Die meisten haben das Wort "product" als Präfix zugefügt. Dies zeigt, dass viele der verwendeten Variablen mithilfe der Erweiterungen der Funktion "Paarweise Interaktion (Product)" transformiert wurden.

    Die letzten beiden Tabellen zeigen die Bandbreite der in den Stichprobendaten dargestellten Werte. In der letzten Tabelle können Sie die NLCD-Daten überprüfen und sehen, welche Kategorie unterrepräsentiert war, wodurch die oben angezeigte Warnung ausgelöst wurde.

  6. Suchen Sie in der Tabelle Diagnose der Kategorie der erklärenden Variable die Kategorie, die weniger als 8 Stichprobenwerte aufweist.

    Kategorie 12, Typ der Bodenbedeckung mit weniger als 8 Stichprobenpunkten

    Kategorie 12 umfasst in diesem Beispiel vier Stichprobenpunkte. Gemäß den Elementdetails des NLCD-Layers steht Kategorie 12 für mehrjährige Eis- und Schneebedeckung, wovon es in Kalifornien relativ wenig gibt. Da die Anzahl von Stichproben in etwa dem tatsächlichen Vorhandensein dieser bestimmten Art von Bodenbedeckung entspricht, brauchen Sie sich über diese Stichprobengröße keine Gedanken zu machen.

    Als Nächstes sehen Sie sich die trainierten Features und Tabellen an, die Sie zur Bewertung Ihres Modells erstellt haben. Der Layer pop_output_trained zeigt alle im Modell verwendeten Punkte an. Vorhandenseinpunkte werden entweder als korrekt oder falsch klassifiziert angezeigt, je nachdem, ob die Vorhersage des Modells richtig oder falsch war. Hintergrundpunkte werden entweder als potenzielle Vorhandenseinpunkte oder als verbleibende Hintergrundpunkte klassifiziert.

  7. Schließen Sie das Detailfenster.
  8. Doppelklicken Sie im Bereich Inhalt unter dem Layer pop_output_trained auf das Diagramm Prozentsätze der Klassifizierungsergebnisse.

    Öffnen des Diagramms "Prozentsätze der Klassifizierungsergebnisse"

    Im Diagramm wird ein Vergleich der beobachteten und vorhergesagten Klassifizierungen angezeigt. Sie beginnen mit der Analyse des Prozentsatzes der Vorhandenseinpunkte, die vom Modell korrekt klassifiziert wurden.

  9. Zeigen Sie im Bereich Diagramm in der Spalte Vorhandensein auf den Unterbalken Vorhandensein: richtig klassifiziert, um eine numerische Zusammenfassung der Daten anzuzeigen.

    Zusammenfassung der korrekt klassifizierten Vorhandenseinpunkte

    Im Beispielbild wurden 65,68 Prozent der Vorhandenseinpunkte richtig klassifiziert. Das ist für eine Modell-Performance ziemlich gut, kann aber noch verbessert werden.

    Eine Möglichkeit, dieses Modell zu verbessern, besteht darin, den Parameter Grenzwert für Wahrscheinlichkeit für Vorhandensein zu ändern. Sie verwenden die Diagramme Auslassungsraten und ROC-Plot, um einen besseren Wert für diesen Parameter zu finden.

  10. Schließen Sie die Diagramm Prozentsätze der Klassifizierungsergebnisse.
  11. Doppelklicken Sie im Bereich Inhalt unter Standalone-Tabellen für die Tabelle pop_sensitivity auf die Diagramme Auslassungsraten und ROC-Plot, um sie zu öffnen.
  12. Klicken Sie auf das Diagramm ROC-Plot, und ziehen Sie es so, dass Sie es zusammen mit dem Diagramm Auslassungsraten sehen können.

    Ziehen Sie die Diagramme, um beide gleichzeitig zu sehen.

  13. Wählen Sie im Diagramm Auslassungsraten den Standardgrenzwert 0,5 für die Wahrscheinlichkeit für Vorhandensein aus, und achten Sie auf die resultierende Empfindlichkeit auf der Y-Achse des ROC-Plots.

    Grenzwert von 0,5

    Im Beispielbild hat ein Grenzwert für die Wahrscheinlichkeit von 0,5 zu einer Auslassungsrate von 0,343 und damit zu einer Empfindlichkeit von 0,657 geführt. Die Auslassungsrate ist der Prozentsatz bekannter Punkte des Vorhandenseins, die vom Modell fälschlicherweise als Fehlen klassifiziert wurden.

    Bei gemeinsamer Verwendung veranschaulichen die Diagramme Auslassungsraten und ROC-Plot, wie unterschiedliche Werte für den Parameter für Grenzwert für Wahrscheinlichkeit für Vorhandensein zu unterschiedlichen Raten falsch klassifizierter Vorhandenseinpunkte führen. Auch wenn es im Allgemeinen gut ist, eine Auslassungsrate nahe 0 zu haben, erhöht das Senken des Grenzwerts auch die Anzahl der Hintergrundpunkte, die als Vorhandenseinpunkte klassifiziert werden, wodurch sich die Genauigkeit des Modells verringern kann. Da Wildschweine anpassungsfähige Aasfresser sind, ist es in diesem Fall von Vorteil, mehr Gebiete zu finden, in denen sie überleben können. Sie suchen also ein Gleichgewicht zwischen der Genauigkeit und Empfindlichkeit, das mehr Vorhandenseinpunkte anzeigt.

  14. Klicken Sie im Diagramm ROC-Plot auf einen der Punkte mit einem Wert von etwa 0,9 auf der Y-Achse.

    Verwenden die Diagramme zum Auffinden eines Gleichgewichts zwischen Empfindlichkeit und Genauigkeit

    Im Beispielmodell führt eine Empfindlichkeit von 0,9 zu einer Auslassungsrate von 0,098 Prozent. Um dieses Ergebnis zu erzielen, führen Sie das Werkzeug erneut mit einem Grenzwert von 0,24 aus.

  15. Geben Sie im Bereich Geoverarbeitung für Grenzwert für Wahrscheinlichkeit für Vorhandensein den Wert 0,24 ein.
  16. Fügen Sie bei allen Ausgaben, die Sie in der Gruppe Training Outputs erstellt haben, die Endung _ppc an den Namen der Ausgabe an.

    Sie generieren auch ein Ausgabe-Vorhersage-Raster.

  17. Geben Sie für Trainiertes Ausgabe-Raster das Raster pop_trained_raster_ppc ein, und klicken Sie auf Ausführen.

    Erneutes Ausführen des Werkzeugs "Auf Vorhandensein beschränkte Vorhersage"

  18. Deaktivieren Sie im Bereich Inhalt alle Layer mit Ausnahme des Layers pop_trained_raster_ppc, des Layers mit der Grenze, California, und der Grundkarte.

    Trainierter Raster-Vorhersage-Layer

  19. Verwenden Sie das erlernte Wissen über die Modelldiagnose und die Ausgaben, um das neue Modell zu bewerten.

    Wie bei der zuvor durchgeführten forest-basierten Analyse erfordert dieser Modellierungsansatz oft mehr als zwei Iterationen. Mit Ihrem Verständnis der Parameter und Hyperparameter können Sie weitere Änderungen vornehmen und die Genauigkeit der Ausgaben vergleichen, bis Sie die beste Kombination für Ihre Daten und Situation gefunden haben.

Random Forest- und MaxEnt-Methoden vergleichen

Beide in diesem Lernprogramm verwendeten Analysen können zur Modellierung der Artenverteilung verwendet werden. Je nach Ihren Zielen für die Analyse, den verfügbaren Daten und anderen Faktoren können Sie eine oder beide dieser Methoden für Ihre eigene Modellierung verwenden. Wie bei allen statistischen und analytischen Methoden haben auch die forest-basierte-Klassifizierung und MaxEnt ihre Stärken und Schwächen, die es zu berücksichtigen gilt. In diesem Abschnitt vergleichen Sie die von Ihnen erstellten Ausgabe-Vorhersageoberflächen und überprüfen einige der Vorteile beider Modellierungsansätze.

  1. Aktivieren Sie im Bereich Inhalt den Layer fbbcr_feral_swine_prediction.
  2. Klicken Sie auf den Layer pop_trained_raster_ppc, um ihn auszuwählen.
  3. Klicken Sie auf dem Menüband auf die Registerkarte Raster-Layer. Klicken Sie in der Gruppe Vergleichen auf die Schaltfläche Ausblenden.

    Öffnen des Werkzeugs "Ausblenden"

  4. Klicken Sie auf der Karte auf den Cursor und ziehen Sie ihn hin und her, um die beiden Raster-Vorhersageoberflächen zu vergleichen.

    Vergleichen der Raster-Oberflächen mithilfe des Werkzeugs "Ausblenden"

    Die Vorhersageoberflächen sind ähnlich; ein gutes Zeichen für die Genauigkeit der Modelle.

    Bei der Verwendung von räumlichen Statistikmethoden für Vorhersagen gibt es einige Stärken und Einschränkungen jeder Methode, die Sie berücksichtigen sollten, um sicherzustellen, dass Sie die beste Methode für das Ziel Ihrer Analyse und die Ihnen zur Verfügung stehenden Daten auswählen.

    Forest-basierte Klassifizierung und Regression

    Stärken des AnsatzesWeitere Überlegungen

    Kann eine unbekannte oder komplexere Beziehung zwischen abhängigen und erklärenden Variablen erfassen.

    Erfordert Punkte des Vorhandenseins und Fehlens (Pseudo-Abwesenheitspunkte).

    Im Gegensatz zur auf Vorhandensein beschränkte Vorhersage müssen Beziehungen nicht angegeben werden.

    Obwohl die Variablengewichtung uns hilft, den Beitrag jeder erklärenden Variablen zum Modell zu verstehen, kann es schwierig sein, die Variablengewichtung zu interpretieren. Zum Beispiel weiß man nicht, ob die Beziehung positiv oder negativ ist.

    Auf Vorhandensein beschränkte Vorhersage

    Stärken des AnsatzesWeitere Überlegungen

    Sie ist für die auf Vorhandensein beschränkte Modellierung konzipiert, sodass Sie keine Punkte des Fehlens vorbereiten müssen.

    Sie müssen die Beziehung zwischen der abhängigen und den erklärenden Variablen schätzen.

    Bietet durch die Verwendung des Parameters Relative Gewichtung von Vorhandensein zu Hintergrund mehr Flexibilität bei der Entscheidung zur Gewichtung der Hintergrundpunkte.

    Der Parameter "Räumliche Ausdünnung" kann zur Steuerung von Punkten des Fehlens verwendet werden.

    Die Ausgabe der Raster-Oberfläche liefert mehr Details über die Wahrscheinlichkeit des Vorkommens von Schweinen als eine binäre Entscheidung über das Vorhandensein oder das Fehlen.

In diesem Lernprogramm haben Sie mithilfe von zwei Analysetechniken eine Modellierung der Artenverteilung für Wildschweine in Kalifornien durchgeführt. Als invasive Art stellen Wildschweine eine Bedrohung für die Ökosysteme und die Landwirtschaft im Bundesstaat dar. Diese Modellierungstechniken können für eine Vielzahl anderer Arten und Phänomene verwendet werden.