Eine Hot-Spot-Karte erstellen

Wenn Sie zum Konsolidieren von Schulden, für eine Hochzeit, einen Urlaub, die Reparatur Ihres Hauses oder zum Begleichen von unerwarteten Rechnungen Geld benötigen würden, würden Sie dann ein Online-Darlehen beantragen? In den vergangenen Jahren wurde diese Frage von Millionen von Menschen mit Ja beantwortet. Wenn Sie diese Frage ebenfalls mit Ja beantworten, wie hoch soll Ihr Zinssatz sein? Die meisten sehen es als gegeben an, dass eine schlechte Bonität gleichbedeutend mit einem höheren Zinssatz ist. Aber stimmt das überhaupt?

Jonathan Blum, ein in New York lebender Autor und GIS-Einsteiger, möchte mehr wissen. Mit den Darlehensdaten von August 2007 bis September 2015 in den USA (von LendingClub erhoben und nach einem dreistelligen Postleitzahlenbereich zusammengefasst) möchte er prüfen, ob die für Online-Darlehen durchschnittlich bezahlten Zinssätze geographisch variieren.

Erstellen Sie zunächst eine Hot-Spot-Karte, auf der Gebiete mit statistisch signifikant hohen oder niedrigen Zinssätzen angezeigt werden.

Das Projekt öffnen

Laden Sie ein ArcGIS Pro-Projekt herunter, das nach dreistelligen Postleitzahlenbereichen zusammengefasste Darlehensdaten enthält, und öffnen Sie es.

  1. Laden Sie den komprimierten Ordner online-lending-data herunter.
  2. Klicken Sie mit der rechten Maustaste auf den heruntergeladenen Ordner, und extrahieren Sie ihn an einem Speicherort, den Sie leicht wiederfinden, beispielsweise den Ordner "Dokumente".
  3. Öffnen Sie den Ordner online-lending-data.

    Der Ordner enthält eine File-Geodatabase mit Daten, einen Indexordner, eine ArcGIS Pro-Projektdatei und eine ArcGIS-Toolbox.

  4. Wenn ArcGIS Pro auf Ihrem Computer installiert ist, doppelklicken Sie auf die Projektdatei OnlineLending (die die Endung .aprx aufweisen kann). Melden Sie sich mit Ihrem lizenzierten ArcGIS-Konto an, falls Sie dazu aufgefordert werden.
    Hinweis:

    Wenn Sie über keinen Zugriff auf ArcGIS Pro oder über kein ArcGIS-Organisationskonto verfügen, informieren Sie sich über die Optionen für den Zugriff auf die Software.

    Standardprojektinhalt

    Das Projekt enthält eine Karte der kontinentalen USA. Es enthält ferner einen Layer mit den Konturen der Bundesstaaten und einen Layer mit ZIP3-Gebieten mit Darlehensdaten. (Bei ZIP3-Gebieten handelt es sich um die durch die ersten drei Ziffern der üblichen fünfstelligen Postleitzahlen definierte Gebiete.)

    Öffnen Sie die Attributtabelle der Darlehensdaten, um sich mit den Daten vertraut zu machen.

  5. Klicken Sie im Bereich Inhalt mit der rechten Maustaste auf ZIP3 Loan Data, und wählen Sie Attributtabelle aus.

    Option "Attributtabelle"

    Die Tabelle wird geöffnet. Für jedes ZIP3-Gebiet ist eine Kennung, die Gesamtzahl der eingereichten Darlehensanträge, die Gesamtzahl der Darlehensvergaben (der genehmigten Darlehen), der durchschnittliche Zinssatz für alle vergebenen Darlehen, die durchschnittlichen Bonitätsstufen für alle vergebenen Darlehen und die Gesamtzahl der Haushalte angegeben.

    LendingClub weist jedem eingegangen Darlehensantrag eine Bonitätsstufe zwischen A1 (niedrigster Zinssatz) und E5 (höchster Zinssatz) zu. Diese Bonitätsstufen werden zur Analyse in einfache numerische Rangfolgen konvertiert. Bonitätsstufe A1 wird Rang 1, Bonitätsstufe A2 Rang 2 usw. zugewiesen. Je höher die Rangstufe, umso risikoreicher ist das Darlehen tendenziell.

  6. Schließen Sie die Tabelle.

Bezirke mit mindestens 30 Darlehen auswählen

Um sicherzustellen, dass der durchschnittliche Zinssatz für die einzelnen ZIP3-Gebiete zuverlässig und repräsentativ sind, konzentrieren Sie sich bei Ihrer Analys auf ZIP3-Gebiete, in denen mindestens 30 Darlehen finanziert wurden. Führen Sie zunächst das Geoverarbeitungswerkzeug Layer nach Attributen auswählen aus, um alle ZIP3-Gebiete mit mindestens 30 vergebenen Darlehen auszuwählen.

  1. Klicken Sie im Menüband auf die Registerkarte Analyse. Klicken Sie in der Gruppe Geoverarbeitung auf Werkzeuge.

    Schaltfläche "Werkzeuge"

    Daraufhin wird der Bereich Geoverarbeitung angezeigt. Dieser Bereich enthält eine Reihe von Werkzeugen, die für Daten-Layer verwendet werden können.

  2. Suchen Sie im Bereich Geoverarbeitung nach Layer nach Attributen auswählen, und wählen Sie die Option aus.

    Werkzeug "Layer nach Attributen auswählen"

    Das Werkzeug wird geöffnet. Sie können verschiedene Parameter festlegen, um die Art und Weise der Ausführung zu ändern. Legen Sie zunächst fest, für welche Tabelle das Werkzeug ausgeführt werden soll.

  3. Wählen Sie für Eingabezeilen die Option ZIP3 Loan Data aus.

    Erstellen Sie als Nächstes eine Klausel, sodass ZIP3-Gebiete mit mindestens 30 Darlehen ausgewählt werden.

  4. Erstellen Sie den Ausdruck Wobei gilt: Number of loans issued ist größer oder gleich 30.

    Parameter für "Layer nach Attributen auswählen"

  5. Klicken Sie auf Ausführen.

    ZIP3-Gebiete mit mindestens 30 Darlehen werden ausgewählt. Erstellen Sie als Nächstes eine Kopie des Layers, der nur die ausgewählten ZIP3-Gebiete enthält. Den kopierten Layer können Sie für die spätere Analyse verwenden.

  6. Klicken Sie im Bereich Geoverarbeitung auf die Schaltfläche Zurück.

    Schaltfläche "Zurück" im Bereich "Geoverarbeitung"

    Sie kehren zur durchsuchbaren Liste der Werkzeuge zurück.

  7. Löschen Sie den vorhandenen Suchtext. Navigieren Sie zum Werkzeug Features kopieren, und öffnen Sie es.
  8. Wählen Sie für Eingabe-Features die Option ZIP3 Loan Data aus. Übernehmen Sie für Ausgabe-Feature-Class den Standarddateipfad, und ändern Sie den Ausgabenamen in ZIP3_Analysis_Data.

    Parameter des Werkzeugs "Features kopieren"

    Beim Ausführen dieses Werkzeugs werden nur die ausgewählten Features kopiert. Wenn keine Features ausgewählt sind, werden alle Features kopiert.

    Hinweis:

    Ausgabe-Layer werden standardmäßig als Geodatabase-Feature-Class erstellt. Dieses Format ist dem Shapefile-Format generell überlegen, da Shapefile-Attributfeldnamen möglicherweise gekürzt und bestimmte Funktionen nicht unterstützt werden.

  9. Klicken Sie auf Ausführen.

    Der Layer ZIP3_Analysis_Data wird dem Bereich Inhalt hinzugefügt. Sie verwenden ihn für die restlichen Analysen. Da Sie den Layer ZIP3 Loan Data nicht mehr benötigen, entfernen Sie ihn aus der Karte.

  10. Klicken Sie im Bereich Inhalt mit der rechten Maustaste auf den Layer ZIP3 Loan Data, und wählen Sie Entfernen aus.

    Option "Entfernen"

  11. Klicken Sie auf der Symbolleiste für den Schnellzugriff auf die Schaltfläche Speichern.

    Schaltfläche "Speichern" in der Symbolleiste für den Schnellzugriff

Zinssatz-Hot-Spots analysieren

Um die Hot-Spot-Karte mit durchschnittlichen Zinssätzen für Darlehen zu erstellen, verwenden Sie das Werkzeug Hot-Spot-Analyse (Getis-Ord Gi*) Mit diesem Werkzeug werden statistisch signifikante Cluster mit hohen und niedrigen Werten ermittelt.

  1. Navigieren Sie im Bereich Geoverarbeitung zum Werkzeug Hot-Spot-Analyse (Getis-Ord Gi*), und öffnen Sie es.
  2. Wählen Sie für Eingabe-Feature-Class die Option ZIP3_Analysis_Data aus. Wählen Sie für Eingabefeld die Option Average Interest Rate aus.
  3. Ändern Sie den Ausgabenamen für Ausgabe-Feature-Class in Interest_Rate_Hot_Spots.

    Eingabe- und Ausgabeparameter für das Werkzeug "Hot-Spot-Analyse"

    Das Werkzeug Hot-Spot-Analyse (Getis-Ord Gi*) analysiert die statistische Signifikanz der einzelnen Feature-Werte (in diesem Fall den durchschnittlichen Zinssatz der einzelnen ZIP3-Gebiete) im Kontext der benachbarten Features. Mit dem Parameter Konzeptualisierung von räumlichen Beziehungen wird festgelegt, welche Features als Nachbarn betrachtet werden.

    Die ZIP3-Gebiete haben sehr unterschiedliche Größen. Die Gebiete im Westen der USA sind im Allgemeinen deutlich größer als die Gebiete im Osten. Wenn Sie ein benachbartes Feature als ein Feature definieren, das an ein anderes angrenzt, ergibt sich daher bei Betrachtung des ganzen Landes ein inkonsistenter Analysemaßstab und die Ergebnisse werden verzerrt.

    Mit Festes Entfernungsband, der Standardoption für diesen Parameter, wird ein benachbartes Feature anhand der Entfernung zu dem zu analysierenden Feature definiert. Dieser Parameter hat den Vorteil, dass der Analysemaßstab im gesamten Untersuchungsgebiet konsistent bleibt und damit genauere Ergebnisse gewährleistet sind.

  4. Stellen Sie sicher, dass für den Parameter Konzeptualisierung von räumlichen Beziehungen die Option Festes Entfernungsband ausgewählt wurde.

    Ferner können Sie die Entfernung festlegen, bei der Features als benachbart betrachtet werden. Wenn Sie keine Entfernung festlegen, wird vom Werkzeug die Mindestentfernung verwendet, um sicherzustellen, dass jedes Feature mindestens einen Nachbarn hat. Diese Einstellung führt gelegentlich dazu, dass einige Features nur einen und andere tausende Nachbarn haben. Das ist meist keine optimale Lösung.

    Für diese Analyse wurden bereits einzelne Darlehensdatensätze in dreistellige Postleitzahlenbereiche aggregiert, sodass die kleinste gültige Analyseentfernung verwendet werden kann.

  5. Lassen Sie den Parameter Entfernungsband oder Schwellenwertentfernung leer.

    Wenden Sie als Nächstes die FDR-Korrektur (False Discovery Rate) an, mit der Ergebnisse zur Berücksichtigung von Mehrfachtests und räumlichen Abhängigkeiten angepasst werden.

  6. Aktivieren Sie das Kontrollkästchen FDR-Korrektur anwenden (False Discovery Rate).

    Statistische Parameter für das Werkzeug "Hot-Spot-Analyse"

  7. Klicken Sie auf Ausführen.

    Das Werkzeug wird ausgeführt. Es berechnet den durchschnittlichen Zinssatz für die einzelnen ZIP3-Gebiete und alle benachbarten ZIP3-Gebiete. Wenn dieser lokale durchschnittliche Zinssatz signifikant höher ist als der durchschnittliche Zinssatz für alle ZIP3-Gebiete im ganzen Land, wird das analysierte ZIP3-Gebiet als Hot-Spot festgelegt. Wenn er signifikant niedriger ist, wird das ZIP3-Gebiet als Cold-Spot festgelegt. Nach der Ausführung des Werkzeugs wird der Karte ein neuer Layer hinzugefügt.

    Hinweis:

    Weitere Informationen zur Hot-Spot-Analyse finden Sie im Thema Funktionsweise der Hot-Spot-Analyse (Getis-Ord Gi*).

    Hot-Spot-Karte mit durchschnittlichen Zinssätzen für Darlehen

    Die roten Gebiete auf der Karte sind Hot-Spots, während die blauen Cold-Spots sind. Ein Großteil von Alabama weist höhere durchschnittliche Zinssätze als erwartet auf, während das Gebiet um San Francisco niedrigere durchschnittliche Zinssätze als erwartet aufweist.

  8. Speichern Sie das Projekt.

Sie haben eine Hot-Spot-Karte mit durchschnittlichen Zinssätzen für ZIP3-Gebiete mit mindestens 30 Darlehen erstellt. Auf der Karte, die Sie erstellt haben, werden Gebiete mit statistisch signifikanten Clustern von hohen und niedrigen Zinssätzen angezeigt.

Bei der Bewertung der Hot-Spot-Karte fragt sich Jonathan Blum, warum die Zinssätze in Alabama im Vergleich zum Gebiet um San Francisco höher sind. Kann gerechterweise davon ausgegangen werden, dass in Alabama zugewiesene Bonitätsstufen risikoreichere Darlehen darstellen? Ein risikobehafteter Darlehensnehmer in San Francisco sollte in Alabama genauso risikobehaftet sein, nicht wahr? Als ewiger Skeptiker beschließt Jonathan die Daten genauer zu analysieren.

Als Nächstes analysieren Sie mit ihm zusammen die Daten genauer und modellieren die Beziehung zwischen durchschnittlichen Zinssätzen und durchschnittlichen Bonitätsstufen.


Ein Regressionsmodell erstellen

Zuvor haben Sie eine Hot-Spot-Karte der durchschnittlichen Zinssatzwerte erstellt, um Cluster von hohen und niedrigen durchschnittlichen Zinssätzen zu ermitteln. Als Nächstes erstellen Sie mithilfe von Generalisierte lineare Regression (GLR) ein Regressionsmodell, um zu bestimmen, wie gut durchschnittliche Zinssätze anhand von durchschnittlichen Bonitätsstufen vorhergesagt werden können.

Mit einem Regressionsmodell wird die Beziehung zwischen Variablen berechnet. Sollten sich die Werte für durchschnittliche Bonitätsstufen als effektive Vorhersage für die Werte der durchschnittlichen Zinssätze erweisen, wird das Regressionsmodell einen hohen R-Squared-Wert besitzen. Weiterhin werden Unterschiede zwischen den Vorhersagen des Modells und den beobachteten Werten (sog. Residuen) ein räumliches Zufallsmuster aufweisen.

Die Regressionsanalyse durchführen

Zum Erstellen eines Regressionsmodells führen Sie das Werkzeug Generalisierte lineare Regression aus.

  1. Öffnen Sie bei Bedarf das Projekt OnlineLending.
  2. Suchen Sie im Bereich Geoverarbeitung nach dem Werkzeug Generalisierte lineare Regression (GLR) (Spatial Statistics Tools), und öffnen Sie es.
  3. Wählen Sie für Eingabe-Features die Option ZIP3_Analysis_Data aus.

    Ein Regressionsmodell muss eine einzige abhängige Variable (die Variable, die erklärt werden soll) und mindestens eine erklärende Variable enthalten. Als abhängige Variable verwenden Sie den durchschnittlichen Zinssatz.

  4. Wählen Sie für Abhängige Variable den Eintrag Average Interest Rate aus. Aktivieren Sie für Erklärende Variable(n) den Eintrag Average Loan Grade Rank.

    Parameter für das Werkzeug "Generalisierte lineare Regression"

    Für den Parameter Modelltyp gibt es drei Optionen: Kontinuierlich (Gauß), Binär (Logistisch) und Anzahl (Poisson). Welche Option auszuwählen ist, hängt von der abhängigen Variable ab. Beim Betrachten der Attributtabelle haben Sie festgestellt, dass es sich bei den Zinssätzen um kontinuierliche Werte mit Dezimalstellen handelt, nicht um binäre Werte oder diskontinuierliche Anzahlen.

  5. Behalten Sie für Modelltyp die Auswahl Kontinuierlich (Gauß) bei.

    Bei diesem Modelltyp wird eine Regression des Typs Kleinste Quadrate durchgeführt, wobei ein globales Modell der abhängigen Variable sowie eine Regressionsgleichung zu dessen Darstellung erstellt wird.

  6. Ändern Sie den Ausgabenamen für Ausgabe-Features in Average_Interest_Rates_vs_Loan_Grades.
  7. Klicken Sie auf Ausführen.

    Das Werkzeug wird ausgeführt. Der Karte wird ein Layer hinzugefügt. Dem Bereich Inhalt werden drei Diagramme hinzugefügt.

    Karte der zu hohen und zu niedrigen Vorhersagen des Modells

    Durch diesen Layer werden die Residuen des Regressionsmodells dargestellt (d. h. wo die Vorhersagen des Modells über oder unter den tatsächlichen Werten liegen). Die violetten Flächen stellen Orte dar, an denen die durchschnittlichen Zinssätze niedriger als die Vorhersage des Modells sind. Grüne Flächen entsprechen Orten, an denen die Zinssätze höher sind.

    Bei dem räumlichen Muster der Residuen handelt es sich nicht um ein Zufallsmuster. Dies zeigt sich daran, dass der gesamte Bundesstaat Mississippi ein großes Cluster aus ZIP3-Gebieten aufweist, in denen vom Modell höhere Zinssätze als tatsächlich beobachtet vorhergesagt wurden.

Die Regressionsergebnisse untersuchen

Bei der Regressionsanalyse werden ebenfalls ein Bericht und mehrere Diagramme erstellt. Zunächst untersuchen Sie den Bericht.

  1. Zeigen Sie am unteren Rand des Bereichs Geoverarbeitung auf Details anzeigen.

    Option "Details anzeigen"

    Der Bericht für das Werkzeug Generalisierte lineare Regression wird angezeigt.

  2. Führen Sie im Bericht des Werkzeugs Generalisierte lineare Regression einen Bildlauf nach unten durch, und erweitern Sie die Meldungen, um die GLR-Diagnose zu prüfen.
    Tipp:

    Sie können die Größe des Werkzeugberichts durch Ziehen der Kanten anpassen.

    GLR-Bericht

    Für den Moment ist nur der Adjusted-R-Squared-Wert von Interesse. Der R-Squared-Wert kann von 0 bis 100 Prozent reichen und wird als Dezimalwert ausgedrückt. Damit wird die Stärke der Korrelation zwischen durchschnittlichen Zinssätzen und durchschnittlichen Bonitätsstufen angegeben.

    Dem Abschnitt GLR-Diagnose können Sie entnehmen, dass der Wert für Adjusted-R-Squared 0,942152 beträgt.

    Adjusted-R-Squared-Wert in GLR-Diagnose

    Dieser Wert gibt an, dass durch die Werte für die durchschnittlichen Bonitätsstufen rund 94 Prozent der Werte der durchschnittlichen Zinssätze erklärt werden. Wie erwartet ist dies ein hoher Adjusted-R-Squared-Wert, der auf eine hohe Korrelation hinweist.

    Als Nächstes öffnen Sie das Scatterplot-Diagramm, in dem die Beziehung zwischen den Variablen dargestellt wird.

  3. Schließen Sie den Werkzeugbericht. Doppelklicken Sie im Bereich Inhalt auf das Diagramm Beziehung zwischen Variablen.

    Diagramm "Beziehung zwischen Variablen" im Bereich "Inhalt"

    Das Diagramm wird angezeigt. Der Bereich Diagrammeigenschaften wird ebenfalls angezeigt.

    Diagramm mit einer hohen Korrelation zwischen durchschnittlichen Zinssätzen und durchschnittlichen Bonitätsstufen

    Im Diagramm werden alle ZIP3-Gebiete basierend auf dem durchschnittlichen Zinssatz und der durchschnittlichen Bonitätsstufe dargestellt. Der Großteil der Punkte verteilt sich entlang einer geraden Linie, was auf eine hohe Korrelation hinweist. Die violetten Punkte unterhalb der Linie stellen ZIP3-Gebiete dar, in denen vom Modell zu niedrige Vorhersagen für die durchschnittlichen Zinssätze getroffen wurden.

    Obwohl mehrere Residuen unterhalb der Linie liegen, kann von einer positiven Beziehung ausgegangen werden: Bei einem Anstieg der durchschnittlichen Bonitätsstufen nehmen ebenfalls die durchschnittlichen Zinssätze zu.

  4. Schließen Sie das Diagramm und den Bereich Diagrammeigenschaften. Speichern Sie das Projekt.

Sie haben eine Regressionsanalyse durchgeführt, um durchschnittliche Zinssätze basierend auf durchschnittlichen Bonitätsstufen zu erklären. Die Ergebnisse entsprechen jedoch nicht Jonathan Blums Erwartungen. Zwar konnte er eine starke Beziehung zwischen durchschnittlichen Bonitätsstufen und durchschnittlichen Zinssätzen feststellen, gleichzeitig hat er jedoch ein Problem mit der Residuenkarte erkannt. Jonathan erwartete ein Zufallsmuster an zu niedrigen und zu hohen Vorhersagen, jedoch kann für einen kompletten Bundesstaat keine zufällige räumliche Verteilung von Werten, die niedriger als erwartet sind, festgestellt werden. Offenbar eignen sich durchschnittliche Bonitätsstufen nicht, um in diesem Teil des Landes durchschnittliche Zinssätze vorherzusagen.

Laut Jonathan ist es entscheidend, für den Bundesstaat Mississippi Zinssätze, die niedriger als erwartet sind, zu ermitteln. Dadurch entsteht der Eindruck einer absichtlichen Verzerrung oder eines sog. "disparate impact". Ein "disparate impact" liegt dann vor, wenn Kreditentscheidungen zu einer Benachteiligung führen, obwohl keine diskriminierenden Absichten dahinter standen. Beispielsweise kann die Vorgabe, nur Hypotheken über einem Wert von 200.000 $ zu finanzieren, unbeabsichtigt zu der Diskriminierung von ethnischen Minderheiten – dem sog. Redlining – führen, wenn die durchschnittlichen Immobilienwerte in Wohngebieten, die hauptsächlich von Minderheiten bewohnt werden, unter 200.000 $ liegen. Die Vermeidung von unbeabsichtigten Benachteiligungen gestaltet sich für Kreditgeber schwierig, da eine solche Benachteiligung erst nach der Vergabe einer großen Anzahl an Krediten ersichtlich wird.

Als Nächstes stellen Sie mithilfe von Geographisch gewichtete Regression auf einer Karte dar, in welchen Teilen des Landes die Beziehung zwischen durchschnittlichen Bonitätsstufen und durchschnittlichen Zinssätzen stark bzw. schwach ist.


Korrelationsabweichungen auf einer Karte darstellen

Zuvor haben Sie durchschnittliche Zinssätze in Abhängigkeit von durchschnittlichen Bonitätsstufen abgebildet. Der von Ihnen erstellte Residuenkarte war zu entnehmen, dass die durchschnittlichen Bonitätsstufen im US-Bundesstaat Mississippi keine guten Einflussvariablen der durchschnittlichen Zinssätze sind.

Wenn zwischen zwei Variablen eine starke Beziehung besteht, kann man aus der einen Variable den Wert der anderen ableiten. Anhand der Methode Generalisierte lineare Regression (GLR), die Sie in der vorherigen Lektion angewendet haben, wird die Stärke von Beziehungen in einem einzigen Koeffizienten zusammengefasst. Mit anderen Worten: Es wird angenommen, dass die Beziehung zwischen durchschnittlichen Bonitätsstufen und durchschnittlichen Zinssätzen für jeden dreistelligen Postleitzahlenbereich des Landes identisch ist. Wenn Jonathan Blum untersuchen möchte, wie sich diese Beziehung ändert und wo durchschnittliche Bonitätsstufen einen größeren oder kleineren Einfluss auf die durchschnittlichen Zinssätze haben, muss er die Methode Geographisch gewichtete Regression (GWR) anwenden.

Mit GWR wird für jeden dreistelligen Postleitzahlenbereich ein Koeffizient berechnet. Ist der Koeffizient groß, haben Veränderungen der durchschnittlichen Bonitätsstufen einen größeren Einfluss auf die durchschnittlichen Zinssätze. Bei kleinen Koeffizienten ist der Einfluss kleiner.

Als Nächstes erstellen Sie eine Karte mit GWR-Koeffizienten, um darzustellen, wo die Beziehung zwischen diesen beiden Variablen stark ist und wo sie schwach ist.

Minimale Entfernungen für Nachbarn finden

Mit GWR wird ein lokales Regressionsmodell für jeden dreistelligen Postleitzahlenbereich kalibriert, wobei nur dreistellige Postleitzahlenbereiche in der Nähe verwendet werden. Es werden auch nähere Features gewichtet, so dass sie einen größeren Einfluss bei der Kalibrierung haben als Features, die weiter entfernt sind. Über die Parameter Nachbarschaftstyp und Auswahlmethode für Nachbarschaften wird bestimmt, welche benachbarten Features in den Kalibrierungsprozess einbezogen werden und welche nicht.

Testen Sie in diesem Workflow alle vier Kombinationen dieser Parameter, um festzustellen, womit die besten Ergebnisse erzielt werden. Sie können sich von dem Werkzeug minimale und maximale Suchentfernungen und die Anzahl der Nachbarn vorschlagen lassen, aber das Werkzeug verwendet eher konservative Zahlen – so ist beispielsweise eine Mindestanzahl von 30 Nachbarn erforderlich. Sie haben gesehen, dass die Beziehung zwischen den durchschnittlichen Zinssätzen und den durchschnittlichen Bonitätsstufen stark ist und es nur wenige Ausreißer gibt. Wahrscheinlich ist es daher am besten, wenn Sie eine kürzere Entfernung und eine kleinere Anzahl von Nachbarn verwenden, als das Werkzeug vorschlägt. Testen Sie verschiedene Entfernungen für 10 bis 50 Nachbarn.

  1. Öffnen Sie bei Bedarf das Projekt OnlineLending.
  2. Navigieren Sie im Bereich Geoverarbeitung zum Werkzeug Entfernungsband anhand der Anzahl der Nachbarn berechnen, und öffnen Sie es.

    Verwenden Sie dieses Werkzeug, um die minimale Entfernung zu ermitteln, die in allen dreistelligen Postleitzahlenbereichen erforderlich ist, damit mindestens 10 Nachbarn enthalten sind.

  3. Geben Sie die folgenden Parameter ein:
    • Wählen Sie für Eingabe-Features die Option ZIP3_Analysis_Data aus.
    • Geben Sie für Nachbarn die Zahl 10 ein.
    • Wählen Sie unter Entfernungsmethode den Eintrag Euklidische.

    Parameter für "Entfernungsband anhand der Anzahl der Nachbarn berechnen"

  4. Klicken Sie auf Ausführen.

    Das Werkzeug wird ausgeführt, der Karte oder dem Bereich Inhalt werden jedoch keine neuen Layer oder Diagramme hinzugefügt.

  5. Klicken Sie am unteren Rand des Bereichs Geoverarbeitung auf Details anzeigen.

    Der Werkzeugbericht wird angezeigt. Der Bericht zeigt die minimale, durchschnittliche und maximale Entfernung (in Metern) für einen dreistelligen Postleitzahlenbereich an, so dass mindestens 10 Nachbarn enthalten sind. Die minimale Entfernung beträgt 17.802 Meter, die minimale Entfernung beträgt 493.120 Meter. Der Maximalwert ist die minimale Entfernung, die in allen dreistelligen Postleitzahlenbereichen erforderlich ist, damit mindestens 10 Nachbarn enthalten sind.

    Entfernung, bei der sichergestellt ist, dass für jedes Feature 10 Nachbarn vorhanden sind

    Runden Sie diesen Wert auf 400.000 ab und verwenden Sie ihn für die GWR. Führen Sie anschließend dieselbe Berechnung erneut aus, um die erforderliche Entfernung für alle dreistelligen Postleitzahlenbereiche zu ermitteln, damit mindestens 50 Nachbarn enthalten sind.

  6. Schließen Sie den Werkzeugbericht. Führen Sie das Werkzeug Entfernungsband anhand der Anzahl der Nachbarn berechnen erneut aus, und ändern Sie den Parameter Nachbarn zu 50.
  7. Öffnen Sie den Werkzeugbericht.

    Die erforderliche Entfernung, damit für alle dreistelligen Postleitzahlenbereiche mindestens 50 Nachbarn enthalten sind, beträgt 1.137.020 Meter. Runden Sie diesen Wert auf 1.100.000 ab und verwenden Sie ihn für die GWR.

    Entfernung, bei der sichergestellt ist, dass für jedes Feature 50 Nachbarn vorhanden sind

  8. Schließen Sie den Werkzeugbericht.

Das räumliche Regressionsmodell erstellen

Führen Sie das Werkzeug Geographisch gewichtete Regression (GWR) viermal mit verschiedenen Parametern aus, und verwenden Sie die Koeffizienten des Modells, mit dem die besten Ergebnisse erzielt werden, für die Karte.

  1. Navigieren Sie im Bereich Geoverarbeitung zum Werkzeug Geographisch gewichtete Regression (GWR), und öffnen Sie es. Erweitern Sie Zusätzliche Optionen.

    Zunächst testen Sie den Eintrag Anzahl der Nachbarn für die Einstellung Nachbarschaftstyp. Bei dieser Option wird für jeden dreistelligen Postleitzahlenbereich eine feste Anzahl von Nachbarn anstatt einer festen Entfernung verwendet. Die Option Anzahl der Nachbarn ist normalerweise empfehlenswert, wenn jedes lokale Modell mit derselben Menge an Informationen erstellt werden soll. Die Option ist eine gute Wahl, wenn die Features gleichmäßig verteilt sind, wenn die analysierten Polygons in etwa dieselbe Größe haben oder wenn die zugrunde liegenden räumlichen Prozesse homogen sind.

  2. Geben Sie die folgenden Parameter ein:
    • Wählen Sie für Eingabe-Features die Option ZIP3_Analysis_Data aus.
    • Wählen Sie für Abhängige Variable den Eintrag Average Interest Rate aus.
    • Wählen Sie für Modelltyp die Option Kontinuierlich (Gauß).
    • Aktivieren Sie für Erklärende Variable(n) den Eintrag Average Loan Grade Rank.
    • Ändern Sie den Ausgabenamen für Ausgabe-Features in GWR_Average_Interest_Rate_vs_Average_Loan_Grade.
    • Wählen Sie für Nachbarschaftstyp den Eintrag Anzahl der Nachbarn.
    • Wählen Sie unter Auswahlmethode für Nachbarschaften den Eintrag Manuelle Intervalle aus.
    • Geben Sie für Minimale Anzahl von Nachbarn den Wert 10 ein.
    • Geben Sie für Inkrement für die Anzahl der Nachbarn den Wert 4 ein.
    • Geben Sie für Anzahl von Inkrementen den Wert 11 ein.
    • Wählen Sie unter Lokales Gewichtungsschema die Option Biquadrat.

    Mit diesen Parametern wird das Werkzeug erst für 10 Nachbarn, dann für 14, dann für 18 und so weiter bis zu 50 Nachbarn ausgeführt (11 Inkremente von 4). Ist die Option Biquadrat ausgewählt, haben Features, die nicht als Nachbarn betrachtet werden, keinen Einfluss auf die Ergebnisse. Dies kann bei Daten mit stark lokalisierten räumlichen Prozessen wichtig sein.

  3. Klicken Sie auf Ausführen.

    Das Werkzeug wird ausgeführt, und ein Bericht wird erstellt (außerdem wird der Karte ein Layer hinzugefügt, den Sie sich jedoch erst später ansehen).

  4. Klicken Sie auf Details anzeigen. Passen Sie die Größe des Werkzeugberichts bei Bedarf an.

    Für jedes 4er-Nachbar-Inkrement zwischen 10 und 50 Nachbarn wurde ein Modell erstellt. Für jedes Modell wurde eine angepasste Akaike Information Criterion (AICc)-Diagnose berechnet. Mit dem AICc-Wert wird der Informationsverslust in einem Modell gemessen. Je niedriger der AICc-Wert ist, desto besser ist die Performance des Modells.

    Im Bereich Analysedetails gibt der Wert Anzahl der Nachbarn die Anzahl der Nachbarn mit dem niedrigsten AICc-Wert an. Für Ihren Bericht liegt der Wert bei 22. Im Abschnitt Modelldiagnose gibt der AdjR2-Wert (Adjusted-R-Squared) an, dass dieses Modell 97,19 Prozent der Variation bei den durchschnittlichen Zinssätzen erklärt, was eine Verbesserung gegenüber dem Adjusted-R-Squared-Wert für Ihr GLR-Modell (94,215 Prozent) darstellt.

    GWR-Bericht für die Methode "Anzahl der Nachbarn"

    Führen Sie anschließend das Werkzeug erneut aus, und wählen Sie unter Lokales Gewichtungsschema die Option Gauß. Mit dieser Einstellung haben alle benachbarten Features (bis auf die nächsten 1.000) Einfluss auf das Modell, aber Features jenseits der ersten 10, 14, 18 usw. haben deutlich weniger Einfluss.

  5. Schließen Sie den Werkzeugbericht. Führen Sie das Werkzeug Geographisch gewichtete Regression (GWR) erneut aus, und ändern Sie die Einstellung Lokales Gewichtungsschema zu Gauß.

    Beim Ausführen des Werkzeugs wird der Layer GWR_Average_Interest_Rate_vs_Average_Loan_Grade mit den neuen Ergebnissen überschrieben.

  6. Klicken Sie auf Details anzeigen.

    Mit dem Gauß-Gewichtungsschema hat das beste Modell 10 lokale Nachbarn. Der AICc-Wert (-1673,8710) ist jedoch nicht so klein wie für das Modell mit 22 Nachbarn und das Biquadrat-Gewichtungsschema (-1839,6162). Auch der Adjusted-R-Squared-Wert (0,9594) ist kleiner als der mit der Biquadrat-Option erhaltene Wert (0,9719).

    Das Modell ist zwar besser als die GLR, doch die Vorhersage ist nicht so gut wie mit dem vorherigen GWR-Modell. Als Nächstes führen Sie das Werkzeug erneut aus. Anstatt eine bestimmte Anzahl von Nachbarn zu verwenden, verwenden Sie die minimalen Entfernungen für Nachbarn, die Sie in den vorherigen Abschnitten berechnet haben. Damit in jedem dreistelligen Postleitzahlenbereich 10 Nachbarn enthalten sind, ist eine Entfernung von 400.000 Metern erforderlich. Damit in jedem dreistelligen Postleitzahlenbereich 50 Nachbarn enthalten sind, ist eine Entfernung von 1.100.000 Metern erforderlich.

    Die Option Entfernungsband für Nachbarschaftstyp bedeutet, dass benachbarte Features in der angegebenen Entfernung für die Kalibrierung jedes lokalen Modells verwendet werden. Diese Option hat den Vorteil, dass der Analysemaßstab konstant bleibt. Sie ist am besten geeignet, wenn Sie wissen, dass es für jedes Feature ausreichend viele Nachbarn im angegebenen Entfernungsband gibt, um ein zuverlässiges lokales Modell zu erstellen.

  7. Schließen Sie den Werkzeugbericht. Ändern Sie für das Werkzeug Geographisch gewichtete Regression (GWR) die folgenden Parameter:
    • Ändern Sie die Einstellung Nachbarschaftstyp zu Entfernungsband.
    • Setzen Sie die Minimale Suchentfernung auf 400000 Meter.
    • Setzen Sie das Inkrement für die Suchentfernung auf 100000 Meter.
    • Setzen Sie die Anzahl von Inkrementen auf 8.

    Modellparameter für Entfernungsband

    Mit diesen Parametern erstellt das Werkzeug Modelle für jedes 100.000-Meter-Intervall zwischen 400.000 und 1.100.000 Metern.

  8. Führen Sie das Werkzeug aus. Klicken Sie nach der Ausführung des Werkzeugs auf Details anzeigen.

    Das Entfernungsband mit der besten Performance ist 400.000 Meter, aber das Ergebnis ist immer noch nicht so gut wie das des ersten GWR-Modells, das Sie getestet haben (der AICc-Wert beträgt -1565,1312, und der Adjusted-R-Squared-Wert beträgt 0,9507).

    GWR-Bericht mit Entfernungsbandparameter

    Führen Sie das Modell ein weiteres Mal aus. Verwenden Sie dieselben Entfernungsbandparameter, aber ändern Sie das lokale Gewichtungsschema.

  9. Schließen Sie den Werkzeugbericht. Führen Sie das Werkzeug Geographisch gewichtete Regression (GWR) erneut aus, und ändern Sie die Einstellung Lokales Gewichtungsschema zu Biquadrat.
  10. Öffnen Sie den Bericht.

    Dieses Modell hat eine bessere Performance als das vorherige, es ist aber nicht so effektiv wie das erste getestete Modell. Während der AICc-Wert (-1843,3228) dieses Modells etwas kleiner ist als bei dem ersten getesteten Modell (-1839,6162), ist der Adjusted-R-Squared-Wert ebenfalls kleiner (0,9676 gegenüber 0,9719).

    Sie haben nun herausgefunden, welche Modellparameter die kleinsten AICc-Werte und gleichzeitig den größten Adjusted-R-Squared-Wert ergeben. Diese Diagnose zeigt, dass die Durchführung der GWR mit einer festen Anzahl von 22 Nachbarn und einem Biquadrat-Gewichtungsschema das Modell mit der besten Performance ist. In einem ähnlichen Workflow können Sie Modelle vergleichen, die dieselbe abhängige Variable haben.

    Bei jedem Ausführen eines Modells wurden die Ergebnisse des vorherigen Modells überschrieben. Führen Sie das Modell mit denselben Parametern aus wie beim ersten Mal, um wieder die beste Ergebnisausgabe zu erhalten.

  11. Schließen Sie den Werkzeugbericht. Führen Sie das Werkzeug aus, und setzen Sie Nachbarschaftstyp auf Anzahl der Nachbarn, Auswahlmethode für Nachbarschaften auf Benutzerdefiniert und Anzahl der Nachbarn auf 22.
  12. Speichern Sie das Projekt.

Die Modell-Koeffizienten in der Karte visualisieren

Sie haben nun herausgefunden, welche Modellparameter die kleinsten AICc-Werte und gleichzeitig den größten Adjusted-R-Squared-Wert ergeben, und wissen somit, welches Modell das beste ist. Tragen Sie nun die Modell-Koeffizienten auf eine Karte auf, um zu untersuchen, wie sich die Beziehung zwischen durchschnittlichen Zinssätzen und durchschnittlichen Bonitätsstufen landesweit ändert.

Wie die GLR-Karte zeigt auch die GWR-Karte Residuen (wo die Vorhersagen des Modells entweder höher oder niedriger als die tatsächlichen Werte der durchschnittlichen Zinssätze waren). Der Ausgabe-Layer enthält außerdem ein Feld mit dem Koeffizientwert für jeden dreistelligen Postleitzahlenbereich. Je größer der Koeffizient, desto stärker die Beziehung zwischen durchschnittlichen Zinssätzen und durchschnittlichen Bonitätsstufen. Durch Auftragen dieses Feldes auf der Karte erhalten Sie einen Einblick in die Beziehung zwischen diesen Variablen für das ganze Land.

  1. Klicken Sie im Bereich Inhalt mit der rechten Maustaste auf den Layer GWR_Average_Interest_Rate_vs_Average_Loan_Grade, und wählen Sie Symbolisierung aus.

    Der Bereich Symbolisierung des Layers wird angezeigt.

    Hinweis:

    Unter Umständen müssen Sie im Bereich Primäre Symbolisierung zunächst Einzelwerte einstellen und die Einstellung dann wieder zu Abgestufte Farben ändern, damit die neue Symbolisierung übernommen wird.

  2. Setzen Sie Feld auf Coefficient (AVELOANGRADE), Methode auf Quantil und Klassen auf 7.

    Parameter des Bereichs "Symbolisierung"

  3. Wählen Sie als Farbschema die Abstufung Gelb-Orange-Braun (oder einen anderen fortlaufenden Farbverlauf, mit dem Daten aufsteigend dargestellt werden können).
    Tipp:

    Zeigen Sie auf ein Farbschema, um den Namen einzublenden.

    Farbschema Gelb-Orange-Braun zur Symbolisierung der Koeffizienten

  4. Schließen Sie den Bereich Symbolisierung. Ziehen Sie im Bereich Inhalt den Layer State Boundaries über den Layer GWR_Average_Interest_Rate_vs_Average_Loan_Grade.

    Karte mit den Beziehungen zwischen durchschnittlichen Zinssätzen und durchschnittlichen Bonitätsstufen

    Dunklere Bereiche auf der Karte sind Orte, an denen die Beziehung zwischen den beiden Variablen stark ist. In helleren Bereichen ist die Beziehung schwach.

  5. Speichern Sie das Projekt.

    Aus der Karte geht hervor, dass die Zinssätze nicht ausschließlich von den Bonitätsstufen abhängen, zumindest nicht überall. In Mississippi und einem Großteil von Kansas besteht beispielsweise eine schwache Beziehung zwischen den durchschnittlichen Bonitätsstufen und den durchschnittlichen Zinssätzen. In Mississippi sind die Zinssätze im Durchschnitt geringer als erwartet. In einem Großteil von Kansas sind sie dagegen höher als erwartet.

    Dieses Muster hat spürbare und materielle Konsequenzen. Die Unterschiede bei den Zinssätzen für Darlehen wirken sich auf die gesamte Wirtschaftslage aus. Wenn wegen hoher Zinssätze nur wenige Darlehen aufgenommen werden können, geben Menschen tendenziell weniger aus, und Unternehmen fahren tendenziell ihre Geschäfte zurück. Bei niedrigen Zinssätzen für Darlehen sind Menschen eher bereit, Geld zu leihen und auszugeben, und Geschäfte können leichter wachsen.

    In Untersuchungen wurden Belege für Diskriminierungen auf verschiedenen Online-Marktplätzen gefunden. Die explorative Analyse von Jonathan Blum trägt zu diesem Forschungsgebiet bei und deckt geographische Diskriminierungen bei Online-Krediten auf. Jonathan hat allerdings nur die Bonitätsstufen berücksichtigt. Auch wenn laut LendingClub ein direkter Zusammenhang zwischen Bonitätsstufen und Zinssätzen besteht, geht aus den von Ihnen erstellten Karten hervor, dass es noch weitere Einflussfaktoren gibt. Einige Untersuchungen haben beispielsweise gezeigt, dass ein Drittel der Darlehensnehmer lieber das Darlehen mit der kürzesten Bewilligungsdauer als das mit dem niedrigsten Zinssatz wählen.

    Jonathan ist Journalist. Er soll Informationen zu den gegenwärtigen Diskussionen zum Thema Online-Kredite zusammentragen und darüber berichten. Die in dieser Lektion erstellten Karten und durchgeführten Analysen sind wichtige Mittel, die er für seine Arbeit einsetzen kann.

In dieser Lektion haben Sie anhand der räumlichen Regressionsanalyse die Beziehung zwischen durchschnittlichen Zinssätzen und durchschnittlichen Bonitätsstufen modelliert und eine angenommene Korrelation getestet. Anhand dieses Workflows können Sie auch andere angenommene Korrelationen testen. Gemeinden mit höheren Durchschnittseinkommen zahlen z. B. im Durchschnitt wahrscheinlich auch mehr Einkommenssteuern. Aber gilt dies überall gleichermaßen? In welchen Gegenden des Landes trifft dies mehr und wo trifft dies weniger zu? Im Bereich Landwirtschaft sollte in Gegenden mit den besten Wachstumsbedingungen auch die beste Ernte erzielt werden. Ist das wirklich überall der Fall? Und wenn nicht, warum nicht? Sollte man nicht eigentlich davon ausgehen, dass an Schulen mit einem besseren Lehrer-zu-Schüler-Verhältnis auch bessere Leistungen erzielt werden?

Wäre es nicht interessant, solchen Fragestellungen nachzugehen? Unterziehen Sie Ihre eigenen Annahmen einer genauen Analyse, und lassen Sie sich von den Ergebnissen überraschen.

Weitere Lernprogramme finden Sie in der Lernprogrammgalerie.