Visualisieren der Daten

Zunächst fügen Sie einer Karte eine Datentabelle als einen Satz von Punkt-Features mit Attributen hinzu. Später im Workflow können Sie räumliche Eigenschaften in Ihren Modellierungsprozess einbeziehen.

Features erstellen

Sie laden ein ArcGIS Pro-Projektpaket mit einer Tabelle der Hausverkaufsdaten herunter und erstellen daraus eine Feature-Class.

  1. Laden Sie das Projektpaket King County House Prices herunter.
  2. Navigieren Sie zum Ordner, in den Sie das Paket heruntergeladen haben, und doppelklicken Sie auf King_County_House_Prices.ppkx, um das Projekt in ArcGIS Pro zu öffnen. Melden Sie sich mit Ihrem lizenzierten ArcGIS-Konto an, falls Sie dazu aufgefordert werden.
    Hinweis:

    Wenn Sie über keinen Zugriff auf ArcGIS Pro oder über kein ArcGIS-Organisationskonto verfügen, informieren Sie sich über die Optionen für den Zugriff auf die Software.

    Das Projekt wird geöffnet. Die Ausdehnung der Karte ist King County, Washington. Im Bereich Inhalt im Abschnitt Standalone-Tabellen befindet sich ein Element namens kc_house_data.csv.

    Bei dieser Datei handelt es sich um eine .csv-Datei (Comma-Separated Values), ein Format, das häufig für den Austausch von Datentabellen verwendet wird. Die erste Zeile der Datei enthält eine kommagetrennte Liste der Feldnamen; jede nachfolgende Zeile enthält kommagetrennte Werte für jedes dieser Felder. In vielen Data-Science-Workflows und Workflows für maschinelles Lernen besteht einer der ersten Schritte darin, diese Datei mithilfe eines Notebooks in einen Datenrahmen einzulesen. In diesem Lernprogramm laden Sie die Daten als eine Reihe von Punkt-Features in eine Geodatabase und verwenden ArcGIS Pro als Data-Science-Workstation.

    Die Tabelle ist geöffnet und wird unter der Kartenansicht angezeigt. Sie können die Tabellenfeldnamen und einige der Werte sehen.

  3. Klicken Sie im Menüband auf die Registerkarte Analyse. Klicken Sie in der Gruppe Geoverarbeitung auf Werkzeuge.

    Schaltfläche "Werkzeuge"

    Daraufhin wird der Bereich Geoverarbeitung angezeigt.

  4. Geben Sie im Bereich Geoverarbeitung in das Suchfeld XY-Tabelle in Punkt ein.
  5. Klicken Sie in den Suchergebnissen des Werkzeugs auf XY-Tabelle in Punkt.

    Werkzeug "XY-Tabelle in Punkt" in Suchergebnissen

  6. Wählen Sie im Werkzeugbereich XY-Tabelle in Punkt unter Eingabetabelle die Datei kc_house_data.csv aus.
    Hinweis:

    Wenn Sie mit einem anderen Gebietsschema als Englisch (USA) arbeiten, verwenden Sie anstelle der .csv-Datei die integrierte Geodatabase-Tabelle kc_house_data_table. Das Gebietsschema kann sich auf die Datentypen der Ausgabefelder auswirken, wenn Sie .csv-Dateien mit dem Werkzeug XY-Tabelle in Punkt importieren. Wenn Sie .csv-Dateien in Punkte umwandeln möchten und zudem den Datentyp der importierten Attribute steuern können, können Sie die .csv-Datei zunächst in eine Geodatabase-Tabelle importieren und die Datentypen der einzelnen Felder mit dem Werkzeug Tabelle in Tabelle festlegen.

  7. Geben Sie kc_house_data für Ausgabe-Feature-Class ein.

    Der Parameter X-Feld enthält bereits das Feld long aus der Tabelle .csv, wobei der Parameter Y-Feld das Feld lat enthält. Dieses Dataset hat keinen Z-Feldwert, sodass Sie diesen Parameter leer lassen können.

    Als Nächstes legen Sie ein für die Daten geeignetes Koordinatensystem fest.

  8. Klicken Sie auf die Schaltfläche Koordinatensystem auswählen, um zur Option Koordinatensystem zu gelangen.

    Schaltfläche "Koordinatensystem auswählen"

    Das Fenster Koordinatensystem wird angezeigt.

  9. Geben Sie im Suchfeld HARN ein, und drücken Sie die EINGABETASTE.
  10. Erweitern Sie Geographisches Koordinatensystem, Nordamerika und USA und zugehörige Territorien. Klicken Sie auf NAD 1983 HARN.

    Koordinatensystem "NAD 1983 HARN"

  11. Klicken Sie auf OK. Klicken Sie im Werkzeugbereich XY-Tabelle in Punkt auf Ausführen.

    Das Werkzeug wird ausgeführt. Nach der Ausführung des Werkzeugs werden der Karte die Punkte hinzugefügt.

  12. Schließen Sie den Bereich Geoverarbeitung. Schließen Sie die Tabellensicht kc_house_data.csv.

Die Symbolisierung ändern

Bevor Sie die Daten analysieren, ändern Sie die Standardsymbolisierung.

  1. Klicken Sie im Bereich Inhalt unter kc_house_data auf das Punktsymbol.

    Standardpunktsymbole im Bereich "Inhalt"

  2. Klicken Sie im Bereich Symbolisierung auf der Registerkarte Galerie auf das Symbol Kreis 3.

    Symbol "Kreis 3"

  3. Klicken Sie auf die Registerkarte Eigenschaften. Wählen Sie unter Aussehen für Farbe die Option Malachit-Grün aus.
    Tipp:

    Zeigen Sie in der Farbauswahl auf eine Farbe, sodass der Name der Farbe angezeigt wird.

    Malachit-Grün in der Farbauswahl

  4. Wählen Sie für Größe die Option 4 Pkt aus. Klicken Sie auf Übernehmen.

    Die Symbole auf der Karte werden geändert.

    Karte mit symbolisierten Punkten

  5. Schließen Sie den Bereich Symbolisierung.
  6. Klicken Sie auf der Symbolleiste für den Schnellzugriff auf die Schaltfläche Speichern, um das Projekt zu speichern.

    Schaltfläche "Speichern" auf der Symbolleiste für den Schnellzugriff

    Hinweis:

    Möglicherweise werden Sie in einer Meldung gewarnt, dass Sie nach dem Speichern der Projektdatei in der aktuellen ArcGIS Pro-Version die Datei nicht mehr in einer früheren Version öffnen können. Wenn diese Meldung angezeigt wird, klicken Sie auf Ja, um fortzufahren.

Die Daten erkunden

Als Nächstes analysieren Sie die Daten. Zunächst machen Sie sich mit den entsprechenden Attributfeldern und deren Bedeutung vertraut. Anschließend erstellen Sie eine Scatterplotmatrix und untersuchen die Beziehungen zwischen den Attributen.

  1. Klicken Sie im Bereich Inhalt mit der rechten Maustaste auf den Layer kc_house_data, und wählen Sie Attributtabelle aus.

    Die Attributtabelle hat 20 Attributfelder, die die Häuser und Verkaufspreise beschreiben. Die Felder sind in der folgenden Tabelle aufgeführt:

    FeldnameFeldbeschreibung

    date

    Verkaufsdatum

    price

    Letztendlicher Transaktionspreis

    bedrooms

    Anzahl der Schlafzimmer

    bathrooms

    Anzahl der Badezimmer

    sqft_living

    Wohnfläche (in Quadratfuß)

    sqft_lot

    Parzellenfläche (in Quadratfuß)

    floors

    Anzahl der Stockwerke

    waterfront

    Ob das Haus am Wasser liegt (1: ja, 0: nein)

    view

    Kategoriale Variable für die Aussicht des Hauses

    condition

    Kategoriale Variable für den Zustand des Hauses

    grade

    Allgemeine Hausqualität gemäß Bewertungssystem von King County

    sqft_above

    Fläche des Hauses ohne Keller (in Quadratfuß)

    sqft_basement

    Fläche des Kellers (in Quadratfuß)

    yr_built

    Baujahr

    yr_renovated

    Jahr der Sanierung/Renovierung (falls zutreffend)

    zipcode

    Postleitzahl des Hauses

    lat

    Breitengrad

    long

    Längengrad

    sqft_living15

    Wohnfläche im Jahr 2015 (in Quadratfuß)

    sqrt_lot15

    Fläche der Parzelle im Jahr 2015 (in Quadratfuß)

    Einige der Felder enthalten Codes für bestimmte Werte. Die Codes für das Feld condition werden in der folgenden Tabelle erläutert:

    CodeZustandBeschreibung

    1

    Schlecht

    Viele Reparaturen sind erforderlich. Das Haus ist stark baufällig.

    2

    OK

    Einige Reparaturen sind sofort erforderlich. Es lässt sich ein Reparatur-/Sanierungsstau beobachten.

    3

    Durchschnitt

    Je nach Alter der Sanierung/Renovierung normale Instandhaltungskosten angesichts des Alters des Hauses.

    4

    Gut

    Zustand liegt über der Norm für das Alter des Hauses. Anscheinend wurde hier besonders aufmerksam und sorgfältig auf die Instandhaltung geachtet.

    5

    Sehr gut

    Hervorragende Instandhaltung und Modernisierung des Hauses; keine vollständige Renovierung.

    Das Feld grade enthält verschiedene Codes, die in der folgenden Tabelle erläutert werden:

    CodeBeschreibung

    1-3

    Unterschreitet die Mindestbaustandards; normalerweise Wochenendhaus oder ähnliche minderwertige Struktur.

    4

    Im Allgemeinen ältere Konstruktionen von geringer Qualität. Das Haus entspricht nicht den Bauvorschriften.

    5

    Geringere Baukosten und einfache Ausführung. Das Haus ist klein und hat ein einfaches Design.

    6

    Niedrigste Stufe, die derzeit die Bauvorschriften erfüllt. Minderwertige Materialien und einfache Designs wurden verwendet.

    7

    Durchschnittliche Qualität bei Konstruktion und Design. Dies sieht man oft in Katasterplänen und älteren Unterteilungen.

    8

    Knapp über dem Durchschnitt bei Konstruktion und Design. Häuser dieser Qualität haben in der Regel sowohl bei der Außen- als auch bei der Innenausstattung bessere Materialien.

    9

    Besseres architektonisches Design, mit zusätzlicher äußerer und innerer Gestaltung und Qualität.

    10

    Häuser dieser Qualität weisen im Allgemeinen hohe Qualitätsmerkmale auf. Die Ausführung der Arbeiten ist besser, und die Grundrisse und die höhere Nutzfläche weisen eine höhere Designqualität auf.

    11

    Kundenspezifisches Design und hochwertigere Endausführung, mit zusätzlichen Annehmlichkeiten wie Massivholz, Badezimmerarmaturen und luxuriösen Optionen.

    12

    Kundenspezifisches Design und ausgezeichnete Bauherren. Alle Materialien sind von höchster Qualität, und alle Annehmlichkeiten sind vorhanden.

    13

    Im Allgemeinen kundenspezifisch entworfen und gebaut, fast villenartig. Diese Häuser weisen viele Holzarbeiten und Holzverkleidungen höchster Qualität sowie Eingangsbereiche mit Marmor auf.

    Für das Feld view werden die folgenden Codes verwendet:

    CodeBeschreibung

    0

    Unbekannt

    1

    OK

    2

    Durchschnitt

    3

    Gut

    4

    Hervorragend

    Der nächste Schritt ist die Untersuchung der Daten, um die Verteilung der Werte für jede Variable zu bestimmen, und um festzustellen, ob eines der Attribute eine positiv oder negative Korrelation hat. Eine Scatterplotmatrix ist eine Visualisierungstechnik, die häufig für diese Art der Datenuntersuchung verwendet wird.

  2. Schließen Sie die Attributtabelle.
  3. Klicken Sie im Bereich Inhalt mit der rechten Maustaste auf kc_house_data, zeigen Sie auf Diagramm erstellen, und wählen Sie Scatterplotmatrix aus.
  4. Klicken Sie im Bereich Diagrammeigenschaften unter Numerische Felder auf Auswählen. Aktivieren Sie alle Felder von price bis sqft_basement.

    Ausgewählte numerische Felder für Scatterplotmatrix

  5. Klicken Sie auf Übernehmen.

    Die Ansicht Diagramm wird mit den Scatterplots der ausgewählten Felder aktualisiert.

    Die Scatterplotmatrix zeigt die Beziehung zwischen Variablenpaaren

    Hinweis:

    Den Namen eines Scatterplot können Sie sehen, wenn Sie darauf zeigen. Sie können auch den Rahmen der Ansicht ziehen, um die Diagramme zu vergrößern.

    Der Plot fasst die Beziehungen zwischen Paaren verschiedener Variablen zusammen. Sie können die Scatterplotmatrix verwenden, um die Beziehungen zu untersuchen, indem Sie auf einen der Plots im unteren Dreieck klicken. Sobald ein Plot angeklickt wird, wird oben rechts eine größere Version davon angezeigt.

    Warum ist dieser Plot für die Analyse nützlich?

    Das erste Regressionsmodell, das Sie zur Entwicklung Ihres Bewertungsmodells verwenden werden, ist die Generalisierte Lineare Regression (GLR). Für die GLR müssen die Prädiktorvariablen und die Zielvariable eine lineare Beziehung haben. Sie nutzen dieses Diagramm, um Grundstücksmerkmale zu finden, die linear mit der vorherzusagenden Variable korrelieren: dem Verkaufspreis des Hauses.

    Der Preis wird in der ersten Spalte im unteren Dreiecksbereich der Scatterplotmatrix wiedergegeben. Die Diagramme in der ersten Spalte zeigen die Beziehungen zwischen verschiedenen Grundstücksmerkmalen und dem Verkaufspreis des Hauses.

  6. Klicken Sie auf den Scatterplot für price und sqft_living (erste Spalte, dritte Zeile von oben).

    Scatterplot für "price" und "sqft_living" in der Liste der Scatterplots

    Der Vorschau-Plot in der Matrix-Eckansicht wird aktualisiert und enthält nun eine größere Ansicht des Scatterplots von price und sqft_living.

    Scatterplot für "price" und "sqft_living"

    Es besteht eine positive lineare Beziehung zwischen der Wohnfläche (sqft_living) und dem Preis (price). Eine Zunahme der Wohnfläche entspricht in der Regel auch einer Zunahme des Hauspreises. Diese Variable könnte sich daher gut für das GLR-Modell eignen.

  7. Klicken Sie auf den Scatterplot für bathrooms und price (erste Spalte, zweite Zeile von oben).

    Scatterplot für "price" und "bathrooms"

    Die Beziehung zwischen der Anzahl der Badezimmer und dem Preis ist nicht stark linear. Dies deutet darauf hin, dass die Anzahl der Badezimmer den Verkaufspreis von Häusern in dieser Region nicht so stark beeinflusst wie die Wohnfläche.

  8. Klicken Sie auf den Scatterplot für die Anzahl von bedrooms und price (erste Spalte, erste Zeile von oben).

    Scatterplot für "price" und "bedrooms"

    Es scheint eine positive lineare Beziehung zwischen den beiden Variablen zu geben. Es ist jedoch schwierig, die Stärke dieser linearen Beziehung rein visuell abzuschätzen.

  9. Aktivieren Sie im Bereich Diagrammeigenschaften in das Kontrollkästchen Linearen Trend anzeigen.

    "Linearen Trend anzeigen" aktiviert

    Wenn Sie auf diese Option klicken, wird jedem Scatterplot eine am besten passende Linie hinzugefügt.

  10. Klicken Sie auf den Scatterplot für price und sqft_living.

    Das Diagramm weist nun die am besten passende Linie und den zugehörigen R2-Messwert auf.

    Scatterplot für "price" und "sqft_living" mit am besten passender Linie und R2-Wert

    R2 oder R2 ist ein Prozentsatz, der angibt, wie viel der Variation in den Daten durch die Beziehung zwischen den beiden Variablen erklärt wird. Ein absoluter R2-Wert nahe eins deutet auf eine starke positive lineare Beziehung hin, während Werte nahe null auf eine schwache lineare Beziehung hinweisen.

    Ein R2 von 0,49 zeigt, dass die Beziehung zwischen sqft_living und price 49 % der Variation im Scatterplot von sqft_living und price ausmacht.

  11. Wählen Sie im Bereich Diagrammeigenschaften unter Matrixlayout für Rechts oben die Option r nach Pearson aus. Wählen Sie unter Diagonal die Option Feldnamen aus.

    "r nach Pearson" für Matrix-Layout

    Das Diagramm wird aktualisiert und enthält nun zusätzlich zu den Scatterplot-Diagrammen auch r-Werte nach Pearson.

    Diagramm mit linearem Trend und r-Werten nach Pearson

    Durch den Pearson-Korrelationskoeffizienten (r nach Pearson) wird die Stärke der linearen Beziehung zwischen Variablen bzw. der Einfluss einer Variable auf eine andere quantifiziert. Ein absoluter r-Wert nach Pearson nahe eins deutet auf eine starke positive lineare Beziehung hin, während Werte nahe null auf eine schwache lineare Beziehung hinweisen.

  12. Klicken Sie ggf. auf den Scatterplot für price und sqft_living.

    Scatterplot für "price" und "sqft_living"

    Der r-Wert nach Pearson für price und sqft_living wird auch durch einen schwarzen Rahmen hervorgehoben.

    Das Vorzeichen von r nach Pearson quantifiziert die Art der Beziehung zwischen zwei Variablen. Der Wert 0,7 für r nach Pearson weist auf eine positive lineare Beziehung zwischen den Variablen hin. Eine positive Beziehung impliziert, dass eine Zunahme von sqft_living (Wohnfläche) mit einer Zunahme des Preises einhergeht und umgekehrt. Ein negativer Wert für r nach Pearson gibt an, dass ein Anstieg bei der einen Variable einem Rückgang bei der anderen Variable entspricht.

    Alle Grundstücksmerkmale in der Scatterplotmatrix stehen in einer positiven Beziehung zum Preis.

  13. Klicken Sie auf den Scatterplot für bathrooms und price.

    Der r-Wert nach Pearson von 0,53 verweist auf eine schwache positive lineare Beziehung zwischen der Anzahl der Badezimmer und dem Preis.

  14. Klicken Sie auf den Scatterplot für bedrooms und price.

    Der Wert 0,31 für r nach Pearson deutet auf eine schwache positive lineare Beziehung zwischen der Anzahl der Schlafzimmer und dem Preis hin. Die Anzahl der Schlafzimmer und der Preis weisen bei Preisen unter 1.000.000 US-Dollar ein anderes Muster auf. Es scheint eine starke lineare Beziehung zwischen diesen beiden Variablen zu bestehen, wenn der Preis mehr als 1.000.000 US-Dollar beträgt.

    Dies ist ein Beispiel für eine stückweise Beziehung: Beziehungen, die sich ändern, nachdem eine Variable eine bestimmte Grenze überschritten hat. Das Vorhandensein stückweiser Beziehungen deutet darauf hin, dass ein baumbasierter Ansatz, wie z. B. die Forest-basierte Klassifizierung und Regression, zu einer genaueren Schätzung führen könnte. Behalten Sie dies vorerst im Hinterkopf; später wählen Sie die Variablen für die lineare Regression aus.

    Bisher haben Sie einen Weg gefunden, Beziehungen zwischen Variablen zu erkennen. Ihr ursprüngliches Ziel ist es, ein genaues lineares Modell zu erstellen, das die Eigenschaften eines Hauses mit seinem Verkaufspreis in Beziehung setzt. Dieses Ziel erreichen Sie wie folgt:

    • Grundstücksmerkmale finden, die eine starke lineare Beziehung zum Preis haben.
    • Sicherstellen, dass die Grundstücksmerkmale keine starken linearen Beziehungen untereinander aufweisen (zum Vermeiden von Multikollinearität).

    In der Scatterplotmatrix können mehrere Beziehungen noch weiter zusammengefasst werden, sodass Sie Grundstücksmerkmale, die Sie in Ihrer Analyse verwenden möchten, auswählen können.

  15. Schließen Sie die Ansicht Diagramm von kc_house_data und den Bereich Diagrammeigenschaften. Speichern Sie das Projekt.

Sie haben die Daten geprüft, um die Durchführung einer linearen Regressionsanalyse vorzubereiten. Sie haben festgestellt, dass sqft_living die stärkste Korrelation zu Ihrer Zielvariablen, dem Verkaufspreis des Hauses, aufweist. Andere Grundstücksmerkmale, die starke Beziehungen zueinander aufweisen, können Probleme verursachen, wenn sie sich im gleichen linearen System wie sqft_living befinden. Wenn zwei oder mehr Grundstücksmerkmale Multikollinearität aufweisen, kann das bedeuten, dass Ihre Variablen dasselbe aussagen. Zum Beispiel ist es wichtig, zu analysieren, ob die Gesamtwohnfläche die Anzahl der Schlaf- und Badezimmer umfasst, was sich von Region zu Region ändern kann. Multikollinearität kann Ihre Modellergebnisse verzerren, wenn sie nicht berücksichtigt wird.

Als Nächstes erstellen Sie ein lineares Modell der Beziehung zwischen sqft_living und dem Verkaufspreis des Hauses. Wenn das Modell keine gute Leistung zeigt, können Sie die Variable grade, die ebenfalls stark mit dem Verkaufspreis des Hauses zusammenhängt, zum linearen System hinzufügen.


Markttreiber mit der Regressionsanalyse identifizieren

Als Nächstes untersuchen Sie die Beziehungen zwischen den Grundstücksmerkmalen und dem Verkaufspreis des Hauses mit Hilfe einer Regressionsanalyse. Bei der Regressionsanalyse versuchen Sie, ein Modell zu finden, mit dem Sie den Verkaufspreis des Hauses genau modellieren können und das Ihnen Einblick in die Beziehungen zwischen den Variablen gibt, z. B., ob diese Beziehungen positiv oder negativ sind.

Modell für die generalisierte lineare Regression erstellen

Die erste Art von Regressionsmodell, das Sie erstellen, ist ein Modell für die generalisierte lineare Regression (GLR). Dazu nutzen Sie eines der Geoverarbeitungswerkzeuge von ArcGIS Spatial Statistics.

  1. Öffnen Sie den Bereich Geoverarbeitung.
    Tipp:

    Sie öffnen den Bereich Geoverarbeitung, indem Sie auf dem Menüband auf die Registerkarte Analyse klicken. Klicken Sie in der Gruppe Geoverarbeitung auf Werkzeuge.

  2. Geben Sie im Suchfeld des Bereichs Geoverarbeitung den Suchbegriff Generalisierte lineare Regression ein.
  3. Klicken Sie auf das Werkzeug Generalisierte lineare Regression (Spatial Statistics Tools).

    Werkzeug "Generalisierte lineare Regression" in Spatial Statistics Tools

    Hinweis:

    Einige Werkzeuge werden zweimal mit ähnlichen oder gleichen Namen in den Suchergebnissen des Bereichs Geoverarbeitung aufgeführt. Vergewissern Sie sich, dass Sie das Werkzeug aus der richtigen Toolbox auswählen, die neben dem Werkzeugnamen zu sehen ist.

    Mit dem Werkzeug Generalisierte lineare Regression können Sie verschiedene Arten von abhängigen Variablen vorhersagen. Das richtige Modell hängt von der Art der abhängigen Variablen ab. Da Sie eine kontinuierliche Variable (Verkaufspreis) vorhersagen möchten, nutzen Sie ein Gauß'sches Modell.

    Wenn Sie eine Zielvariable vorhersagen würden, die 0 oder 1 ist (eine binäre Variable), z. B. ob ein Haus für mehr als 500.000 US-Dollar verkauft werden würde, würden Sie die binäre (logistische) Option dieses Werkzeugs verwenden.

    Wenn die Zielvariable eine Anzahl wäre, z. B. die Anzahl der Personen, die ein Gebot für das Haus abgeben, würden Sie die Option "Anzahl (Poisson)" dieses Werkzeugs verwenden.

  4. Geben Sie im Werkzeugbereich Generalisierte lineare Regression die folgenden Parameter ein:
    • Wählen Sie für Eingabe-Features die Option kc_house_data aus.
    • Wählen Sie unter Abhängige Variable die Option price aus.
    • Vergewissern Sie sich, dass unter Modelltyp der Typ Kontinuierlich (Gauß) ausgewählt ist.

    Parameter von "Generalisierte lineare Regression"

    Wählen Sie als Nächstes die erklärende Variable des Regressionsmodells aus. Bei der Untersuchung der Scatterplotmatrix haben Sie festgestellt, dass sqft_living eine gute Variable ist, um den Verkaufspreis der Häuser vorherzusagen.

  5. Aktivieren Sie unter Erklärende Variable(n) das Kontrollkästchen für sqft_living.
  6. Geben Sie für Ausgabe-Features den Namen valuation_sqft_living_glr ein.

    Sie erstellen mehrere GLR-Modelle, daher empfiehlt es sich, den verschiedenen Ausgaben aussagekräftige Namen zu geben. Dieser Name sollte die Vorhersagevariable und die Methode angeben.

    Im Abschnitt Vorhersageoptionen definieren Sie keine Eingaben. Im Moment führen Sie eine Regressionsanalyse durch, um ein Modell zur Beschreibung von Hauspreisen anhand von Grundstücksmerkmalen zu definieren. Mit anderen Worten versuchen Sie, die Faktoren für die Verkaufspreise der Häuser herauszufinden. In diesem Stadium geht es nicht um die Zuordnung eines Preises zu einem Haus, das keinen Verkaufspreis hat (Vorhersage). Später sagen Sie die Verkaufspreise für neue Häuser vorher, und dann wird dieser Abschnitt des Werkzeugs nützlich sein.

  7. Klicken Sie auf Ausführen.

    Das Werkzeug wird ausgeführt und mit einer Warnung abgeschlossen: WARNUNG 001605: Entfernungen für geographische Koordinaten (Grad, Minuten, Sekunden) werden anhand von Sehnenentfernungen in Metern analysiert.

    Sehnenentfernungs-Messwerte werden verwendet, weil sie schnell berechnet werden können und gute Schätzungen von echten geodätischen Entfernungen zulassen. Achten Sie darauf, Ihre Daten zu projizieren, wenn sich der Untersuchungsbereich über 30 Grad hinaus erstreckt. Sehnenentfernungen erlauben keine sichere Schätzung von geodätischen Entfernungen über etwa 30 Grad hinaus.

    Eine Ausgabe dieses Werkzeugs ist eine Karte mit einem standardisierten Residuum.

    Karte mit standardisiertem Residuum für den Layer "valuation_sqft_living_glr"

    Dunkelgrüne und dunkelviolette Farbtöne weisen auf eine große Diskrepanz zwischen dem vorhergesagten Verkaufspreis und dem tatsächlichen Verkaufspreis der Häuser hin.

  8. Doppelklicken Sie im Bereich Inhalt unter dem Layer valuation_sqft_living_glr auf das Diagramm Beziehung zwischen Variablen.

    Das Diagramm Beziehung zwischen Variablen zeigt die von der GLR durchgeführten Vorhersagen und die tatsächlichen Datenpunkte an.

    Diagramm "Beziehung zwischen Variablen" für "valuation_sqft_living_glr"

    Idealerweise sollten die Datenpunkte möglichst nah an der Linie liegen. Je näher die Datenpunkte an der Linie liegen, desto stärker ist die Beziehung zwischen den beiden Variablen.

    In diesem Diagramm zeigen grüne Farbtöne eine Unterschätzung des Verkaufspreises des Hauses an, das heißt, der tatsächliche Preis des Hauses ist höher als der vom Modell vorhergesagte. Violett deutet auf eine Überschätzung hin, das heißt der vorhergesagte Preis liegt über dem tatsächlichen Preis.

  9. Schließen Sie den Diagrammbereich und den Bereich Diagrammeigenschaften.

    Auf der Karte Standardisiertes Residuum scheinen sich die dunkleren grünen Punkte um Gewässer herum zu konzentrieren. Beim Regressionsmodell wird also systematisch der Verkaufspreis der Häuser in der Nähe von Gewässern unterschätzt. Es sieht so aus, als ob bei Häusern in der Nähe von Gewässern kleine Änderungen der Wohnfläche zu größeren Änderungen beim Preis führen, als das bei allen anderen Häusern der Fall ist.

    Als Nächstes werten Sie die globale Diagnostik der GLR-Ausgabe aus.

  10. Klicken Sie auf dem Menüband auf der Registerkarte Analyse in der Gruppe Geoverarbeitung auf Verlauf.

    Schaltfläche "Verlauf"

    Der Bereich Geoverarbeitungsverlauf wird angezeigt.

  11. Klicken Sie im Bereich Geoverarbeitungsverlauf mit der rechten Maustaste auf Generalisierte lineare Regression, und wählen Sie Details anzeigen aus.

    "Details anzeigen" von der letzten GLR-Ausführung

    Das Fenster "Details" der Ergebnisse des GLR-Werkzeugs wird geöffnet.

  12. Klicken Sie im Fenster mit den Details zu den Ergebnissen des GLR-Werkzeugs auf die Registerkarte Meldungen.
    Tipp:

    Sie können das Fenster erweitern, indem Sie die Ränder des Fensters ziehen.

    Dem Abschnitt GLR-Diagnose können Sie entnehmen, dass der Wert für Adjusted-R-Squared 0,492830 beträgt. Dies ist derselbe R2-Wert, der auch im Scatterplot für price und sqft_living angezeigt wird.

    GLR-Diagnosemeldungen

    Die Joint F-Statistik, Joint Wald-Statistik und Koenker-(BP)-Statistik sind signifikant bei P-Werten (Prob(>chi-squared)) von ungefähr 0 (ungefähre Werte aufgrund von Rundungen). Dies zeigt an, dass die Wahrscheinlichkeit, dass die durch dieses Modell definierte Beziehung zufällig auftritt, ungefähr 0 ist. Mit anderen Worten: Es besteht eine von der GLR modellierte statistisch signifikante Beziehung zwischen dem Verkaufspreis von Häusern und der Wohnfläche.

  13. Schließen Sie das Fenster Generalisierte lineare Regression (GLR) (Spatial Statistics Tools) und den Bereich Verlauf.
  14. Speichern Sie das Projekt.

Sie haben die GLR verwendet, um festzustellen, dass es eine signifikante Beziehung zwischen der Variablen sqft_living und dem Preis (price) gibt. Sie haben auch herausgefunden, dass beim GLR-Modell die Werte für Häuser, die sich in der Nähe von Gewässern befinden, unterschätzt werden. Als Nächstes suchen Sie nach einem verbesserten GLR-Modell, indem Sie eine weitere Variable hinzufügen und so die Unterschätzung versuchen zu vermeiden. Sie nutzen Daten von ArcGIS Online, um Ihre Vorhersage mit Geodaten anzureichern.


Die Analyse mit geographischen Informationen erweitern

Als Nächstes fügen Sie einen Layer geographischer Informationen aus ArcGIS Online hinzu und verwenden diesen zur Ergänzung Ihres GLR-Modells.

Gewässer suchen

Da beim GLR-Modell, das Sie gerade erstellt haben, der Wert von Häusern in der Nähe von Gewässern unterschätzt wird, fügen Sie der Karte Gewässerdaten hinzu und integrieren diese in das GLR-Modell. Die Möglichkeit, Daten mit geographischen Informationen anzureichern, was auch über Methoden wie GeoEnrichment geschehen kann, ist ein wichtiger Vorteil von ArcGIS Pro als Data-Science-Workstation.

  1. Klicken Sie auf dem Menüband auf die Registerkarte Ansicht. Klicken Sie in der Gruppe Fenster auf den Bereich "Katalog".

    Schaltfläche für den Bereich "Katalog"

  2. Klicken Sie im Bereich Katalog auf die Registerkarte Portal, und klicken Sie auf die Schaltfläche ArcGIS Online.

    Schaltfläche "ArcGIS Online" auf der Registerkarte "Portal" im Bereich "Katalog"

  3. Suchen Sie nach USA water bodies owner:esri_dm.
  4. Klicken Sie mit der rechten Maustaste auf das Layer-Paket USA Detailed Water Bodies, und wählen Sie Zu aktueller Karte hinzufügen aus.
    Hinweis:

    Sie unterscheiden zwischen dem Layer-Paket USA Detailed Water Bodies und dem Feature-Layer USA Detailed Water Bodies, indem Sie auf das Element in den Suchergebnissen zeigen. Der Workflow kann sowohl mit dem Layer-Paket als auch mit dem Feature-Layer abgeschlossen werden, aber der Feature-Layer unterliegt Sichtbarkeitsbeschränkungen, die dazu führen, dass er in der aktuellen Kartenausdehnung nicht sichtbar ist.

    Option "Zu aktueller Karte hinzufügen"

    Der Layer wird der Karte hinzugefügt.

  5. Zoomen Sie auf den großen See im nördlichen Zentrum. Am östlichen und westlichen Ufer befinden sich viele dunkelblau-grüne Punkte.

    Großer See auf der Karte

  6. Klicken Sie auf dem Menüband auf die Registerkarte Karte. Klicken Sie in der Gruppe Auswahl auf die Schaltfläche Auswählen.

    Schaltfläche "Auswählen"

  7. Klicken Sie auf der Karte auf den See.

    Der See, der auf der Karte ausgewählt wurde

    Blaue Umrisslinien heben den See hervor und zeigen an, dass er ausgewählt wurde.

  8. Klicken Sie im Bereich Inhalt mit der rechten Maustaste auf USA Detailed Water Bodies, und wählen Sie Attributtabelle aus.
  9. Klicken Sie am unteren Rand der Tabelle auf die Schaltfläche Ausgewählte Datensätze anzeigen.

    Schaltfläche "Ausgewählte Datensätze anzeigen"

    Das einzelne ausgewählte Feature wird in der Tabelle gezeigt.

    Ausgewähltes Feature in der Tabelle

    Der Feature-Service für Gewässer stellt diese Daten als Polygon mit der Variablen FTYPE (für Feature-Typ) von See/Teich dar. Beim GLR-Modell werden die Häuserwerte rund um die Seen in Washington durchweg unterschätzt. Der Feature-Service enthält auch Gewässertypen wie Sümpfe und Bäche, aber sie wirken sich in dieser Region nicht so positiv auf den Verkaufspreis aus wie Seen. Sie nutzen in Ihrer Analyse Entfernungen zu Gewässern vom Typ See/Teich.

  10. Klicken Sie auf der Registerkarte Karte in der Gruppe Auswahl auf Nach Attributen auswählen.

    Schaltfläche "Nach Attributen auswählen"

  11. Vergewissern Sie sich, dass im Fenster Nach Attributen auswählen für Eingabezeilen die Option USA Detailed Water Bodies und für Auswahltyp die Option Neue Auswahl festgelegt wurde.
  12. Erstellen Sie unter Ausdruck den Ausdruck Wobei gilt: FTYPE ist gleich See/Teich.

    Auswählen von Layern, bei denen der Feature-Typ gleich "See/Teich" ist

  13. Klicken Sie auf Übernehmen.
    Hinweis:

    Schließen Sie das Werkzeug Layer nach Attributen auswählen noch nicht.

    Alle Features des Typs See/Teich werden auf der Karte hervorgehoben.

    Features des Typs "See/Teich", auf der Karte hervorgehoben

    Es gibt viele kleine Seen und Teiche, in deren Nähe sich keine Ansammlungen von dunkelblau-grünen Punkten befinden. Dies deutet darauf hin, dass kleinere Seen und Teiche nicht den gleichen Effekt auf die Ergebnisse des GLR-Modells haben wie große Seen und Teiche. Sie fügen jetzt dem Auswahlausdruck eine Klausel hinzu, um nur die größeren Gewässer auszuwählen.

  14. Klicken Sie im Fenster Nach Attributen auswählen auf Klausel hinzufügen.

    Schaltfläche "Klausel hinzufügen"

    Diese neue Klausel wird durch den Operator Und mit der ersten Klausel verknüpft. Dies ist für diese Auswahl richtig, aber für ein anderes Projekt könnte der Oder-Operator geeignet sein.

  15. Verwenden Sie den Expression Builder, um den Ausdruck und SQKM ist größer als oder gleich zu erstellen.

    Hinzugefügte Ausdrucksklausel

    Der andere große See im County hat eine Fläche von 19,34 Quadratkilometern. Mit dieser Klausel werden kleinere Gewässer herausgefiltert.

  16. Klicken Sie auf die Umschaltfläche SQL. Geben Sie nach SQKM >= den Wert 19.00 ein.

    Der Wert "19.00", der dem Ausdruck im SQL-Modus hinzugefügt wurde

  17. Klicken Sie auf OK.

    Die Auswahl ändert sich, und es werden nur Seen und Teiche mit einer Fläche von mehr als 19 Quadratkilometer angezeigt. Gemäß Attributtabelle gibt es nun 689 ausgewählte Features.

  18. Schließen Sie die Attributtabelle.

Die See-Features exportieren

Sie möchten nur die ausgewählten Features analysieren, nicht die anderen Features im Layer. Daher exportieren Sie die ausgewählten Features mit dem Werkzeug Features kopieren in eine neue Feature-Class.

  1. Klicken Sie im Bereich Geoverarbeitung auf die Schaltfläche Zurück. Navigieren Sie zum Werkzeug Features kopieren, und öffnen Sie es.
  2. Wählen Sie im Werkzeugbereich Features kopieren für Eingabe-Features den Eintrag USA Detailed Water Bodies aus. Geben Sie unter Ausgabe-Feature-Class den Text LargeLakes ein.

    Parameter des Werkzeugs "Features kopieren"

    Unter dem Parameter Eingabe-Features wird eine Meldung angezeigt, dass der Eingabe-Layer eine Auswahl enthält. Zudem wird die Anzahl der ausgewählten Datensätze angezeigt, die verarbeitet werden. Der Layer USA Detailed Water Bodies enthält Gewässer aus den gesamten Vereinigten Staaten. Sie interessieren sich jedoch nur für Gewässer in King County, Washington. Daher ändern Sie die Verarbeitungsausdehnung des Werkzeugs, um die kopierten Features auf diejenigen zu begrenzen, die sich in der Ausdehnung des Layers kc_house_data befinden.

  3. Klicken Sie auf die Registerkarte Umgebung.
  4. Wählen Sie im Abschnitt Verarbeitungsausdehnung unter Ausdehnung den Eintrag kc_house_data aus.

    Parameter "Ausdehnung"

  5. Klicken Sie auf Ausführen.
    Hinweis:

    Schließen Sie den Bereich Geoverarbeitung nach dem Ausführen des Werkzeugs nicht; Sie werden gleich hierher zurückkehren.

    Der Layer LargeLakes wird dem Bereich Inhalt hinzugefügt.

    Sie benötigen den Layer USA Detailed Water Bodies nicht mehr. Entfernen Sie ihn deshalb.

  6. Klicken Sie im Bereich Inhalt mit der rechten Maustaste auf USA Detailed Water Bodies, und wählen Sie Entfernen aus.
  7. Speichern Sie das Projekt.

Entfernungen zu Seen im GLR-Modell verwenden

Jetzt haben Sie die großen Seen erfasst und können sie zur Anreicherung Ihres GLR-Modells mit Geodaten verwenden. Die Regressionswerkzeuge in der Toolbox "Spatial Statistics" ermöglichen es Ihnen, Entfernungs-Features in eine Analyse einzubeziehen. Mit diesen Werkzeugen werden automatisch euklidische Entfernungen von jedem Punkt zum nächstgelegenen Entfernungs-Feature berechnet, wobei die Entfernung als Eingabevariable verwendet wird.

  1. Klicken Sie im Bereich Geoverarbeitung im unteren Bereich des Werkzeugfensters auf Verlauf öffnen.

    Schaltfläche "Verlauf öffnen"

  2. Klicken Sie im Bereich Verlauf mit der rechten Maustaste auf Generalisierte lineare Regression, und wählen Sie Öffnen aus.

    Option "Öffnen"

    Das Werkzeug wird geöffnet und enthält noch die Parameter, die bei der letzten Ausführung des Werkzeugs Generalisierte lineare Regression (GLR) verwendet wurden.

    Fügen Sie die Entfernungen zu Seen hinzu, um das GLR-Modell zu ergänzen.

  3. Wählen Sie für Erklärende Entfernungs-Features die Option LargeLakes aus.
  4. Geben Sie für Ausgabe-Features den Namen valuation_sqft_living_d2lake_glr an.

    "LargeLakes" wurde als erklärendes Entfernungs-Feature hinzugefügt

  5. Klicken Sie auf Ausführen.

    Das Werkzeug wird ausgeführt, und die Ergebnisse werden der Karte hinzugefügt. Als Nächstes vergleichen Sie die Ergebnisse der beiden Ausführungen des GLR-Werkzeugs visuell.

  6. Überprüfen Sie im Bereich Inhalt, ob der Layer valuation_sqft_living_d2lake_glr ausgewählt ist.
  7. Klicken Sie auf die Registerkarte Feature-Layer. Klicken Sie in der Gruppe Vergleichen auf Ausblenden.

    Schaltfläche "Ausblenden"

  8. Klicken Sie auf die Karte nördlich des County, und ziehen Sie das Werkzeug Ausblenden über die Daten.
    Hinweis:

    Je nachdem, wo Sie auf die Karte klicken, können Sie entweder nach oben und unten oder nach links und rechts ausblenden. Mit beiden Methoden können Sie die zwei Layer vergleichen.

    Werkzeug "Ausblenden" über die Karte ziehen

    Da valuation_sqft_living_d2lake_glr im Bereich Inhalt ausgewählt ist, wird Ihnen durch das Werkzeug Ausblenden gezeigt, was darunter liegt, wenn Sie es über die Karte ziehen.

    Die Gebiete rund um die Seen weisen nach wie vor die höchsten standardisierten Residuen für beide GLR-Ausführungen auf.

  9. Klicken Sie auf dem Menüband auf die Registerkarte Karte. Klicken Sie in der Gruppe Navigieren auf Erkunden.
  10. Doppelklicken Sie im Bereich Inhalt auf das Diagramm Verteilung von standardisiertem Residuum für die Layer valuation_sqft_living _glr und valuation_sqft_living_d2Lake_glr.
  11. Ziehen Sie im Diagrammbereich die Registerkarte eines Diagramms und verankern Sie sie an der rechten Seite des Diagrammbereichs.

    Dropzone "Diagramm"

    Jetzt können Sie die nebeneinander liegenden Diagramme vergleichen. Die beiden Verteilungsdiagramme sind sehr ähnlich.

    Diagramme "Verteilung von standardisiertem Residuum"

    Die Ähnlichkeiten deuten darauf hin, dass der Schätzfehler durch das Hinzufügen der Entfernungen zu Seen nicht verbessert wurde. Hätte das GLR-Modell mit der Entfernung zu Seen besser abgeschnitten, wären weniger Orte mit dunklen Grün- und Violetttönen zu sehen gewesen (Orte mit einem hohen Standardfehler).

    Es gibt mindestens zwei mögliche Gründe dafür, dass das Hinzufügen der Entfernungs-Features das GLR-Modell nicht verbessert hat. Erstens sind die in der GLR berechneten Entfernungs-Features euklidische (oder geradlinige) Entfernungen. Da für die meisten Strecken in diesem Gebiet das Straßennetz genutzt wird, kann es sein, dass geradlinige Entfernungen nicht die auf der Straße zurückzulegenden Entfernungen der Häuser zu den Seen widerspiegeln. Zweitens ist das Verhältnis zwischen der Wohnfläche und der Entfernung zu einem Gewässer und dem Verkaufspreis des Hauses möglicherweise nicht linear. Es kann sein, dass die GLR ein zu einfaches Modell für dieses Szenario ist.

  12. Schließen Sie die Diagramme Verteilung von standardisiertem Residuum und den Bereich Diagrammeigenschaften.
  13. Deaktivieren Sie im Bereich Inhalt die Layer valuation_sqft_living_d2lake_glr und valuation_sqft_living_glr, und blenden Sie sie aus.
  14. Speichern Sie das Projekt.

Sie haben die Entfernung zu Seen als Variable für die GLR hinzugefügt und die Ergebnisse mit Ihren ursprünglichen GLR-Modellergebnissen verglichen. Die einfachen linearen Beziehungen, die von der GLR modelliert werden, eignen sich für dieses Dataset vielleicht nicht. Als Nächstes probieren Sie ein komplexeres Modell aus.


Ein Modell für die regionalisierte, generalisierte lineare Regression erstellen

Als Nächstes teilen Sie das County in Regionen auf und führen für jede separate GLR-Analysen aus.

Daten auf Regionen überprüfen

Als Erstes ändern Sie die Symbolisierung der Daten, um nach Regionen zu suchen.

  1. Klicken Sie im Bereich Inhalt mit der rechten Maustaste auf den Layer kc_house_data, und wählen Sie Symbolisierung aus.
  2. Legen Sie im Bereich Symbolisierung die folgenden Parameter fest:
    • Wählen Sie unter Primäre Symbolisierung die Option Abgestufte Farben aus.
    • Wählen Sie für Feld die Option Preis aus.
    • Wählen Sie für Klassen den Wert 10.
    • Klicken Sie unter Farbschema auf das Kontrollkästchen der Option Namen anzeigen, und wählen Sie Gelb-Grün-Blau (Kontinuierlich) aus.

    Symbolisierung für "Natürliche Unterbrechungen" für die "price"-Karte

    Bei der Visualisierung der Daten auf diese Weise ergeben sich ausgeprägte räumliche Cluster, wobei die preiswerteren Cluster im Süden und Nordwesten und die höherpreisigen in wassernahen Gebieten liegen. Die Nähe zum Wasser spielt eine entscheidende Rolle bei der Bestimmung des Verkaufspreises in dieser Region, und die Preise in bestimmten Vierteln ändern sich dementsprechend graduell.

    Als Nächstes definieren Sie Viertel für die datengestützte Bewertung und führen die GLR in jeder Region durch.

  3. Öffnen Sie den Bereich Geoverarbeitung, und klicken Sie ggf. auf die Schaltfläche Zurück. Navigieren Sie zum Werkzeug Räumlich eingeschränkte multivariate Cluster-Bildung, und öffnen Sie es.

    Sie verwenden dieses Werkzeug, um Regionen zu identifizieren, in denen Häuser mit ähnlicher Wohnfläche ähnliche Marktwerte aufweisen.

  4. Geben Sie im Werkzeug Räumlich eingeschränkte multivariate Cluster-Bildung folgende Parameter ein:
    • Wählen Sie für Eingabe-Features die Option kc_house_data aus.
    • Geben Sie für Ausgabe-Features den Namen price_regions ein.
    • Aktivieren Sie für Analysefelder die Optionen price und sqft_living.
    • Vergewissern Sie sich, dass für Räumliche Einschränkungen die Option Gekürzte Delaunay-Triangulation ausgewählt ist.
    • Geben Sie unter Ausgabetabelle zur Auswertung der Anzahl der Cluster die Bezeichnung num_clusters ein.

    Parameter des Werkzeugs "Räumlich eingeschränkte multivariate Cluster-Bildung"

    Hinweis:

    Wenn Sie keine Anzahl von Clustern angeben, wählt das Werkzeug automatisch die Anzahl aus, die möglichst homogene Regionen ergibt.

  5. Klicken Sie auf Ausführen.
    Hinweis:

    Wenn das Werkzeug nicht ausgeführt werden kann, speichern Sie das Projekt, schließen Sie die ArcGIS Pro-Anwendung, und öffnen Sie sie erneut. Öffnen Sie das Projekt, und führen Sie das Werkzeug erneut aus.

    Das Werkzeug wird ausgeführt, und ein neuer Layer wird zur Karte hinzugefügt.

    Ergebnisse des Werkzeugs "Räumlich eingeschränkte multivariate Cluster-Bildung"

    Hinweis:

    Schließen Sie den Bereich Geoverarbeitung nach dem Ausführen des Werkzeugs nicht. Sie kehren gleich dorthin zurück.

    Es sind nur zwei Cluster in den Ergebnissen enthalten. Sie untersuchen jetzt das optimierte Schema zur Pseudo-F-Statistik, um einen Eindruck davon zu erhalten, wie die Daten auf andere Weise gruppiert werden können.

  6. Doppelklicken Sie im Bereich Inhalt unter Standalone-Tabellen auf Optimiertes Schema zur Pseudo-F-Statistik.

    Optimiertes Schema zur Pseudo-F-Statistik

    In diesem Plot suchen Sie nach so genannten Elbows (Bögen) oder Trends im Diagramm, bei denen das Hinzufügen einer weiteren Region die Homogenität der Cluster nicht wesentlich verringert. Im Diagramm gibt es einen Elbow für acht Regionen. Nach der achten Region nimmt die Anzahl der Cluster stetig ab.

    Sie führen das Werkzeug erneut aus, diesmal mit acht Regionen. Der Bereich Geoverarbeitung ist bereits geöffnet und zeigt das Werkzeug mit den Parametern an, mit denen Sie es zuvor ausgeführt haben.

  7. Schließen Sie das Diagramm und den Bereich Diagrammeigenschaften.
  8. Geben Sie im Bereich Geoverarbeitung für Anzahl der Cluster den Wert 8 ein.

    Parameter "Anzahl der Cluster"

    Lassen Sie die anderen Parameter unverändert. Bei Beibehaltung des gleichen Ausgabenamens wird die alte Ausgabe durch die neue Ausgabe des Werkzeugs ersetzt.

  9. Klicken Sie auf Ausführen

    Der Layer price_regions wird der Karte hinzugefügt. Er enthält acht Cluster.

    Ergebnisse der räumlich eingeschränkten multivariaten Cluster-Bildung mit acht Clustern

  10. Doppelklicken Sie im Bereich Inhalt unter price_regions und Diagramme auf Boxplots zur räumlich eingeschränkten multivariaten Cluster-Bildung.

    Diagramm "Boxplots zur räumlich eingeschränkten multivariaten Cluster-Bildung"

    Die Farben im Diagramm entsprechen den Farben der Cluster in der Karte. Blaue, grüne, gelbe, braune und violette Cluster liegen bei price und sqft_living über dem dritten Quartil. Bei den blauen Clustern ist die Wohnfläche im Vergleich zu den grünen und braunen zwar kleiner, aber der Preis höher. Diese Farbe kann auf einen begehrten Stadtteil hinweisen. Auf der Karte entspricht dieser blaue Cluster einem Gebiet östlich des Lake Washington. In diesem Cluster ist die Wohnfläche möglicherweise nicht der Hauptfaktor für den Verkaufspreis des Hauses.

    Die grüne Region, die auf einer Insel im Lake Washington liegt, umfasst im Vergleich zu den blauen Clustern Häuser mit größeren Wohnflächen, aber mit niedrigerem Preis.

    Betrachtet man die Regionen unterhalb des dritten "price"-Quartils, so ist der rosafarbene Cluster preiswerter als der rote und graue Cluster, hat aber die gleiche durchschnittliche Wohnfläche wie der rote Cluster. Dies kann darauf hindeuten, dass man im rosafarbenen Cluster für die gleiche Wohnfläche ein günstigeres Haus bekommen kann. Und es kann auch ein Hinweis darauf sein, warum das lineare Modell nicht funktioniert hat.

  11. Schließen Sie das Diagramm und den Bereich Diagrammeigenschaften.

Ausführen der GLR für jede Region

Als Nächstes führen Sie die GLR in jeder Region durch. Dazu wählen Sie die Punktmenge für jeden Cluster nach Attribut aus und führen die GLR für jede Auswahl aus. Da es acht Regionen gibt, ist es effizienter, den ModelBuilder zu verwenden und den Prozess zu automatisieren.

  1. Klicken Sie im Menüband auf die Registerkarte Analyse. Klicken Sie in der Gruppe Geoverarbeitung auf ModelBuilder.

    Schaltfläche "ModelBuilder"

    Die Ansicht Modell wird geöffnet.

  2. Klicken und ziehen Sie den Layer price_regions vom Bereich Inhalt auf die Modellzeichenfläche.

    Der Layer "price_regions" im Modell

  3. Klicken Sie auf dem Menüband auf der Registerkarte ModelBuilder in der Gruppe Einfügen auf Iteratoren, und wählen Sie Feature-Auswahl iterieren aus.

    Option "Feature-Auswahl iterieren"

  4. Ziehen Sie auf der Modellzeichenfläche einen Pfeil von price_regions zu Feature-Auswahl iterieren.

    Pfeil, der "price_regions" und "Feature-Auswahl iterieren" miteinander verbindet

    Ein Dropdown-Menü wird angezeigt.

  5. Wählen Sie im Dropdown-Menü In Features aus.

    Option "In Features"

    Das Element Feature-Auswahl iterieren und die damit verbundenen Elemente erhalten eine neue Farbe. Als Nächstes passen Sie den Werkzeugparameter so an, dass jeder der acht Cluster-ID-Werte durchlaufen und für jeden von ihnen eine Auswahl erstellt wird.

  6. Doppelklicken Sie auf Feature-Auswahl iterieren.
  7. Legen Sie im Fenster Feature-Auswahl iterieren unter Nach Feldern gruppieren das Feld auf Cluster-ID fest.

    Parameter "Gruppieren nach Feldern" auf "Cluster-ID" festgelegt

  8. Klicken Sie auf OK.

    Der Iterator weist zwei Ausgaben auf. I_price_regions_CLUSTER_ID ist der ausgewählte Feature-Layer, und Value ist eine Variable, die den Wert für die aktuelle Auswahl umfasst. In diesem Fall ist der Wert der ID-Wert für jeden Cluster.

    Als Nächstes hängen Sie das Werkzeug Generalisierte lineare Regression an die Ausgabe des Iterators an. Da der Iterator jeden Cluster durchläuft, wird das Werkzeug für jeden Cluster ausgeführt.

  9. Klicken Sie im Bereich Geoverarbeitung auf die Schaltfläche Zurück. Suchen Sie nach generalisierte lineare.
  10. Ziehen Sie in der Liste der Suchergebnisse das Werkzeug Generalisierte lineare Regression (Spatial Statistics Tools) auf die Modellzeichenfläche neben die grüne Iterator-Ausgabe I_price_regions_CLUSTER_ID.
  11. Ziehen Sie auf der Modellzeichenfläche einen Pfeil von I_price_regions_CLUSTER_ID zu Generalisierte lineare Regression, und wählen Sie Eingabe-Features aus.

    Das Werkzeug ist mit der Ausgabe verbunden.

    Verbindung zwischen Ausgabe und GLR-Werkzeug

    Als Nächstes passen Sie die Parameter des GLR-Werkzeugs an.

  12. Doppelklicken Sie auf Generalisierte lineare Regression.

    Der Parameter Eingabe-Features ist auf price_regions:1 gesetzt, da Sie die Ausgabe des Iterators mit dem Werkzeug verknüpft haben.

  13. Wählen Sie unter Abhängige Variable die Option price aus. Aktivieren Sie unter Erklärende Variable(n) die Option sqft_living.

    Abhängige und erklärende Variablen

  14. Geben Sie unter Ausgabe-Features valuation_sqft_living_glr_region_%Value% ein.

    Parameter "Ausgabe-Features"

    Durch die Verwendung von %Value% am Ende des Ausgabe-Feature-Namens wird der Inhalt der Variablen Value zum Namen hinzugefügt. Mit diesem Benennungsschema hat jeder Zyklus des Iterators einen eindeutigen Namen, der sich auf den analysierten Cluster bezieht.

  15. Klicken Sie auf OK.
  16. Klicken Sie auf dem Menüband auf der Registerkarte ModelBuilder in der Gruppe Ansicht auf Layout.

    Schaltfläche "Autolayout"

    Die Modellelemente werden automatisch angeordnet.

    Modell mit automatisch angeordneten Modellelementen

    Die Ovale für Vorhergesagte Ausgabe-Features und Trainierte Ausgabe-Modelldatei bleiben grau, da es sich um optionale Ausgaben des Werkzeugs handelt, die Sie im Moment nicht verwenden.

  17. Klicken Sie auf der Registerkarte ModelBuilder in der Gruppe Einfügen auf Dienstprogramme, und wählen Sie Werte erfassen aus.

    Option "Werte erfassen"

    Die Dienstprogramme Werte erfassen, Ausgabewerte und Ausgabetabelle werden der Modellzeichenfläche hinzugefügt.

  18. Ziehen Sie auf der Modellzeichenfläche einen Pfeil von valuation_sqft_living_glr_region_%Value% zu Werte erfassen, und wählen Sie Eingabewert aus.
    Tipp:

    Falls erforderlich, können Sie jedes Objekt neu positionieren, indem Sie es auswählen und ziehen.

  19. Klicken Sie mit der rechten Maustaste auf Ausgabewerte, und wählen Sie Zur Anzeige hinzufügen aus.

    Option "Zur Anzeige hinzufügen"

    Das Modell kann jetzt ausgeführt werden.

  20. Klicken Sie auf dem Menüband auf der Registerkarte ModelBuilder in der Gruppe Ausführen auf Validieren.

    Ihr Modell ist validiert. Es ist jetzt einsatzbereit.

  21. Klicken Sie auf der Registerkarte ModelBuilder in der Gruppe Ausführen auf Ausführen.

    Während das Modell ausgeführt wird, färben sich die Werkzeugelemente rot, um anzuzeigen, dass sie gerade ausgeführt werden, und im Modellergebnisfenster werden die Ergebnisse von jeder Ausführung des GLR-Modells angezeigt.

    Die Ergebnis-Gruppen-Layer der GLR (acht Layer insgesamt) werden der Karte und dem Bereich Inhalt hinzugefügt.

Überprüfen der Modellergebnisse

Als Nächstes überprüfen Sie die Ergebnisse des Modells und benennen die Layer um, um sie verständlicher zu machen.

  1. Doppelklicken Sie im Bereich Inhalt für Output Values:valuation_sqft_living_glr_region_1 unter Diagramme auf Beziehung zwischen Variablen.

    Diagramm "Beziehung zwischen Variablen" für den Layer "Output Values:valuation_sqft_living_glr_region_1"

    Die Diagrammansicht wird angezeigt.

    Diagramm "Beziehung zwischen Variablen"

    Der R2-Wert für diesen Cluster hat sich von 0,49 auf etwa 0,67 verbessert. Sie können die Diagramme für die anderen Layer öffnen, um die R2-Werte für die anderen Regionen zu sehen.

  2. Schließen Sie die Diagrammansicht und den Bereich Diagrammeigenschaften.
  3. Schließen Sie die Ansicht Modell. Klicken Sie auf Ja, um das Modell zu speichern.

    Die Ansicht Karte ist wieder aktiv.

    GLR-Ergebniskarte für mehrere Regionen

    Gebiete rund um den Lake Washington werden genauer vorhergesagt; in anderen Gebieten, wie z. B. dem West Seattle District, gibt es jedoch eine hohe Anzahl von zu niedrig geschätzten Hausverkaufspreisen (in Dunkelgrün). Bei regionalisierten Modellen besteht die Gefahr, dass sich Probleme durch Ausreißer in der Regression verstärken. Der R2-Gesamtwert für jede Region ist in der folgenden Tabelle zusammengefasst:

    Region

    R-Squared-Wert

    Region 1

    0.667345

    Region 2

    0.511873

    Region 3

    0.573594

    Region 4

    0.785343

    Region 5

    0.672591

    Region 6

    0.587296

    Region 7

    0.369590

    Region 8

    0.587235

    Die Gesamtmodellqualität für jede dieser Regionen ist höher als das Ergebnis des GLR-Modells, das Sie auf das gesamte Dataset angewendet haben, mit Ausnahme von Region 7, einer großen Region, die Ausreißer enthält. Mehrere Regionen zu haben, geht auf Kosten der Sparsamkeit des mathematischen Modells. Wertgutachter nutzen unterschiedliche mathematische Funktionen für verschiedene Stadtteile der Stadt, die unterschiedliche Trends erklären. Sie erhöhen jetzt die Komplexität und suchen nach einem Modell, das den Verkaufspreis der Häuser in King County, Washington, unter Verwendung des gesamten Datasets in einem Modell erklärt.

    Zuvor räumen Sie den Bereich Inhalt auf, indem Sie die Ausgaben Ihrer Modelle gruppieren. Alle Ausgabewerte-Layer befinden sich bereits in einer Layer-Gruppe mit dem Namen ModelBuilder. Sie aktualisieren den Gruppennamen und entfernen den Text Ausgabewerte aus allen Layern.

  4. Klicken Sie im Bereich Inhalt auf den Namen der Layer-Gruppe ModelBuilder, um sie auszuwählen, und klicken Sie erneut darauf, um den Namen zu bearbeiten. Benennen Sie die Gruppe in Regional GLR Model um.
  5. Benennen Sie Output Values:valuation_sqft_living_glr_region_8 um, indem Sie den Text Output Values: löschen.
  6. Benennen Sie die restlichen 7 Layer um, indem Sie den Text Output Values:entfernen. Blenden Sie alle acht Layer aus.

    Im Bereich "Inhalt" umbenannte(r) Layer und Layer-Gruppe

  7. Klicken Sie auf den Layer valuation_sqft_living_d2lake_glr, und drücken Sie die Umschalttaste, während Sie auf den Layer valuation_sqft_living_glr klicken.
  8. Klicken Sie mit der rechten Maustaste auf die ausgewählten Layer, und wählen Sie Gruppieren aus. Benennen Sie die Layer-Gruppe in Global GLR Model um.

    Gruppen-Layer erstellt und in "Global GLR Model" umbenannt

  9. Klicken Sie auf dem Menüband auf die Registerkarte Karte. Klicken Sie ggf. im Abschnitt Auswahl auf Löschen, um die gesamte Auswahl aufzuheben.
  10. Speichern Sie das Projekt.

Bisher haben Sie zwei Mal versucht, räumliche Eigenschaften in Ihre Analyse einzubeziehen. Zuerst haben Sie die Entfernung zu Gewässern als Prädiktorvariable verwendet. Dann haben Sie datengestützte Regionen auf der Grundlage des Verkaufspreises der Häuser und der Wohnfläche erstellt und acht räumlich diskontinuierliche Regressionsmodelle ausgeführt.

Als Nächstes nutzen Sie die "Geographisch gewichtete Regression" zum Modellieren von Hauspreisen.


Räumlich variierende Beziehungen modellieren

Als Nächstes verwenden Sie zum Modellieren von Hauspreisen die Werkzeuge "Geographisch gewichtete Regression" und "Forest-basierte Klassifizierung und Regression".

Beim Werkzeug "Geographisch gewichtete Regression" handelt es sich um das Modell einer sich kontinuierlich verändernden lineare Regression zum Aufzeigen von Beziehungen zwischen einer Zielvariablen (Verkaufspreis) und verschiedenen erklärenden Variablen (Grundstücksmerkmalen). Bevor Sie das Werkzeug verwenden, sollten Sie prüfen, ob zwischen den Variablen statistisch signifikante räumliche Beziehungen bestehen.

Räumliche Beziehungen zwischen Variablen ausfindig machen

Führen Sie zunächst das Werkzeug Lokale bivariate Beziehungen aus. Diesem Werkzeug liegt ein entropiebasiertes Konzept zur Ermittlung räumlicher Beziehungen zugrunde. Wenn zwischen zwei Variablen in einer Teilmenge von Daten eine signifikante Beziehung besteht, wird die Entropie durch die Randomisierung der Daten deutlich verstärkt. Wenn keine Beziehung besteht, wird die Entropie durch die Randomisierung nicht deutlich verstärkt. Somit kann durch Entropie oder Randomisierung getestet werden, ob eine aufzulösende Beziehung zwischen zwei Variablen besteht.

Durch Randomisierung wird die Beziehung zwischen zwei Variablen möglicherweise nicht verändert, wenn keine aufzulösende Beziehung besteht. Weitere Informationen zu der Idee, mithilfe der Entropie Beziehungen zu ermitteln, finden Sie in Guo (2010).

  1. Suchen Sie im Bereich Geoverarbeitung nach dem Werkzeug Lokale bivariate Beziehungen, und öffnen Sie es.
  2. Legen Sie im Werkzeug Lokale bivariate Beziehungen die folgenden Parameter fest:
    • Wählen Sie für Eingabe-Features die Option kc_house_data aus.
    • Wählen Sie unter Abhängige Variable die Option sqft_living aus.
    • Wählen Sie unter Erklärende Variable die Option price aus.
    • Geben Sie unter Anzahl der Nachbarn den Wert 50 ein.

    Warum sollten Sie 50 Nachbarn angeben?

    Die Nachbarschaft sollte groß genug sein, dass eine signifikante Beziehung zwischen Variablen erfasst wird, wenn solch räumliche Beziehungen bestehen. Möglicherweise müssen Sie verschiedene Werte ausprobieren. Bei 50 Häusern ist die Anzahl der Nachbarn jedoch groß genug, sodass Sie der Regressionsdiagnose in Bezug auf die Information, ob die lokale Regression für dieses Dataset funktionieren würde, vertrauen können. Gleichzeitig ist die Anzahl der Nachbarn ein so kleiner Prozentsatz des Gesamtdatasets für King County, dass sich die lokale Regression vom GLR-Modell unterscheidet.

    Dies ist eine Anwendung des Prinzips der statistischen Regressionskraft. Dabei handelt es sich um die Wahrscheinlichkeit, mit der eine signifikante am besten passende Linie (mit "geringer Fit"-Fehlern) gefunden wird, wenn die Population (alle Häuser in King County, Washington) eine signifikante Beziehung zwischen Variablen aufweist, an denen Sie interessiert sind.

  3. Geben Sie für Ausgabe-Features den Namen local_rlns_sqft_living_vs_price ein.

    Werkzeug "Lokale bivariate Beziehungen"

  4. Klicken Sie auf Ausführen.

    Das Werkzeug wird ausgeführt und der Layer local_rlns_sqft_living_vs_price der Karte hinzugefügt.

    Karte nach der Ausführung des Werkzeugs "Lokale bivariate Beziehungen"

    Die Symbole für diesen Layer werden im Bereich Inhalt angezeigt.

    Symbole für "Lokale bivariate Beziehungen"

    Bei vielen Punkten in vielen Stadtteilen besteht eine positive lineare Beziehung zwischen Preis und Wohnfläche. Da in diesem großen Dataset so viele Punkte nah beieinander liegen, besteht die Gefahr, dass positive lineare Beziehungen zuletzt dargestellt werden, weshalb sie das Ergebnis zu dominieren scheinen. Es lohnt sich, die Geoverarbeitungsergebnisse des Werkzeugs zu prüfen, um sich die Zahlen der einzelnen Klassen anzusehen.

  5. Klicken Sie am unteren Rand des Bereichs Geoverarbeitung auf Details anzeigen.
  6. Klicken Sie ggf. im Detailfenster Lokale bivariate Beziehungen (Spatial Statistics Tools) auf die Registerkarte Meldungen.

    Anhand der Ergebnisse des Werkzeugs ist zu erkennen, dass etwa 71,6 Prozent der Punkte eine positive lineare Beziehung aufweisen.

    Lokale bivariate Beziehungen (Ergebnis)

    Dieses Ergebnis deutet darauf hin, dass mit der geographisch gewichteten Regression (Geographically Weighted Regression, GWR) räumliche Beziehungen zwischen sqft_living und price bei einer Nachbarschaftsgröße von 50 Häusern modelliert werden können.

    Mit der GWR wird jedoch nicht einfach nur eine Linie mit einer lokalen Teilmenge an eine Position angepasst, sondern auch ein Schema zur geographischen Gewichtung implementiert, mit dem die Einflussvariable für eine in der Nachbarschaft beobachtete lokale Regression gewichtet wird. Die Beobachtung signifikanter linearer lokaler Beziehungen zwischen Variablen ist zwar ein Hinweis darauf, aber keine Gewähr dafür, dass lokale Beziehungen von einem GWR-Modell erfasst werden.

  7. Schließen Sie das Detailfenster. Klicken Sie auf der Karte auf einen der Punkte, die eine positive lineare Beziehung (mit einem rosafarbenen Symbol) aufweisen.
    Tipp:

    Wenn Sie Schwierigkeiten haben, auf einen Punkt zu klicken, weil er zu nahe an einem anderen Punkt liegt, können Sie die Ansicht vergrößern.

    Im Pop-up für den Punkt wird ein Diagramm mit den lokalen Beziehungen an dieser Position und der jeweiligen Nachbarschaft angezeigt.

    Pop-up für einen Punkt mit einer positiven linearen Beziehung

  8. Schließen Sie das Pop-up. Klicken Sie auf einen Punkt mit einer konkaven Beziehung (mit einem orangefarben Symbol).

    Pop-up für einen Punkt mit einer konkaven Beziehung

  9. Schließen Sie das Pop-up und speichern Sie das Projekt.

    Sie können beide Positionen mit einer Linie zusammenfassen und lediglich für den Beziehungstyp einen Bericht erstellen, der durch Testen der verschiedenen Regressionsmodelle für Positionen erkannt wurde, die statistisch signifikante Beziehungen in ihren Nachbarschaften aufweisen.

    Im größten Teil von King County, Washington, zeigen sich statistisch signifikante lokale Beziehungen für eine Nachbarschaft von 50 Häusern. Hier ist eine Nachbarschaftsgröße von 50 Häusern sinnvoll. Das Werkzeug gibt jedoch nicht automatisch den passenden Nachbarschaftswert an. Und für unterschiedliche Datasets müssen unterschiedliche Nachbarschaftsgrößen untersucht werden.

    Wenn Sie diese Analyse für eigene Daten durchführen würden, würden Sie nun das Werkzeug mit unterschiedlichen Nachbarschaftsgrößen ausführen, um den Wechsel der Typen räumlicher Beziehungen zwischen sqft_living und price zu untersuchen. Die Nachbarschaftsgröße, für die Sie lokale lineare Beziehungen ermitteln, wird im Werkzeug Geographisch gewichtete Regression (GWR) im nächsten Schritt zu verwendet.

Geographisch gewichtete Regression durchführen

Als Nächstes definieren Sie ein GWR-Modell mit der Konzeptualisierung von räumlichen Beziehungen, die Sie im vorherigen Abschnitt ermittelt haben, nämlich Nachbarschaften, die aus 50 Häusern bestehen.

  1. Klicken Sie im Bereich Geoverarbeitung auf die Schaltfläche Zurück. Navigieren Sie zum Werkzeug Geographisch gewichtete Regression (GWR), und öffnen Sie es.

    Dieses Werkzeug kann verschiedene Arten von Kernels verwenden, die die Gewichtung von Nachbarn im Modell für lokale Regression bestimmen.

    In der folgenden Abbildung ist ein Beispiel für den Kernel dargestellt. Die Linie zeigt den Gaußschen Kernel, bei dem jeder Nachbar eine Gewichtung in Regression erhält, wobei weiter entfernte Nachbarn eine geringere Gewichtung erhalten. Beim Biquadrat-Kernel wird der Kernel mit einer Entfernung oder einer Anzahl von Nachbarn gekürzt. Dieses Muster wird durch den Teil der Kurve dargestellt, der im Diagramm ausgefüllt ist.

    GWR-Kernel-Diagramm

    Weisen Sie mithilfe eines Biquadrat-Kernels Gewichtungen zu, und verwenden Sie dabei nur die 50 nächsten Nachbarn.

  2. Legen Sie im Werkzeugbereich Geographisch gewichtete Regression (GWR) die folgenden Parameter fest:
    • Wählen Sie für Eingabe-Features die Option kc_house_data aus.
    • Wählen Sie unter Abhängige Variable die Option price aus.
    • Aktivieren Sie unter Erklärende Variable(n) die Option sqft_living.
    • Geben Sie für Ausgabe-Features den Namen valuation_sqft_living_gwr ein.
    • Wählen Sie für Nachbarschaftstyp den Eintrag Anzahl der Nachbarn.
    • Wählen Sie für Auswahlmethode für Nachbarschaften die Option Benutzerdefiniert aus.
    • Geben Sie unter Anzahl der Nachbarn den Wert 50 ein.

    Parameter des Werkzeugs "Geographisch gewichtete Regression"

    Verwenden Sie eine benutzerdefinierte Anzahl von Nachbarn, damit Sie die aus 50 Häusern bestehende Nachbarschaft eingeben können (die Anzahl der Nachbarn, die Sie mit dem Werkzeug Lokale bivariate Beziehungen ermittelt haben).

    Dieses Werkzeug kann Nachbarn auch mit der linearen Suchoption "Manuelle Intervalle" oder mit dem Optimierungsalgorithmus "Goldene Suche" auswählen.

  3. Blenden Sie Zusätzliche Optionen ein, und vergewissern Sie sich, dass für Lokales Gewichtungsschema die Option Biquadrat festgelegt wurde.

    Mit der Gewichtungsmethode "Biquadrat" wird sichergestellt, dass an jeder Position exakt 50 Nachbarn verwendet werden (oder die Anzahl, die Sie angeben). Mit der Option "Gauß" werden alle Positionen im Dataset (d. h., alle Häuser in King County) als Nachbarn verwendet und in Bezug auf die jeweilige Entfernung invers gewichtet. Bei der Methode "Biquadrat" wird dasselbe Gewichtungsschema verwendet, jedoch statt mit allen Hausdaten von King County insgesamt nur mit einer Nachbarschaft von 50 Häusern je Position.

    Als Nächstes legen Sie den Koeffizienten-Raster-Workspace fest, bei dem es sich um eine Geodatabase handeln muss. Mit dem Werkzeug wird eine lokale Regression durchgeführt, und es werden räumlich variierende Regressionskoeffizienten für Einflussvariablen und den INTERCEPT-Term berechnet. Es werden Raster-Oberflächen geschrieben, mit denen diese räumlich variierenden Koeffizienten in diesem Workspace dargestellt werden.

  4. Klicken Sie unter Koeffizienten-Raster-Workspace auf die Schaltfläche Durchsuchen. Klicken Sie im Fenster Koeffizienten-Raster-Workspace auf Datenbanken, und wählen Sie myproject2.gbd aus.

    Fenster "Koeffizienten-Raster-Workspace"

  5. Klicken Sie auf OK. Klicken Sie im Bereich Geoverarbeitung auf Ausführen.

    Das Werkzeug wird ausgeführt, und der Karte werden drei neue Layer hinzugefügt. Zwei dieser Layer sind Raster-Layer. Deaktivieren Sie diese.

  6. Deaktivieren Sie im Bereich Inhalt die Layer valuation_sqft_living_gwr_SQFT_LIVING und valuation_sqft_living_gwr_INTERCEPT.

    Karte, auf der der Layer "valuation_sqft_living_gwr" angezeigt wird

    Wie beim GLR-Modell wird bei diesem GWR-Modell die Anzahl der Häuser am See unterschätzt. Im Gegensatz zum GLR-Modell wird auch der Hauswert an der Meeresküste unterschätzt.

  7. Doppelklicken Sie für den Layer valuation_sqft_living_gwr unter Diagramme auf Verteilung von standardisiertem Residuum.

    Diagramm "Verteilung von standardisiertem Residuum" für GWR

    Die meisten Punkte weisen standardisierte Residuen nahe 0 auf. Bei diesem Modell entstehen im Vergleich zum GLR-Modell weniger Über- und Unterschätzungen (standardisierte Residuen mit einer Entfernung von mehr als einer Standardabweichung).

    Die Kurvenenden zeigen, dass beim GWR-Modell im Vergleich zum GLR-Modell weniger Positionen mit großen Residuen (mehr als zwei Standardabweichungen) vorhanden sind. Das ist ein Hinweis darauf, dass beim GWR-Modell Preisvariationen besser erfasst werden als beim GLR-Modell.

  8. Schließen Sie das Diagramm und den Bereich Diagrammeigenschaften.
  9. Klicken Sie im Bereich Geoverarbeitung auf Details anzeigen. Führen Sie im Detailfenster einen Bildlauf zum Abschnitt Modelldiagnose durch.

    Diagnose beim GWR-Modell

    Der Wert R2 beträgt 0,89 und der angepasste R2-Wert (AdjR2) 0,87. Dieser R2-Wert ist wesentlich größer als der R2-Wert bei den zuvor durchgeführten GLR-Modellen, was ein Hinweis darauf ist, dass es sich hierbei um ein genaueres Modell handelt.

  10. Schließen Sie das Detailfenster.
  11. Drücken Sie im Bereich Inhalt die Strg-Taste, und deaktivieren Sie valuation_sqft_living_gwr.

    Alle Layer auf der Karte sind nicht mehr sichtbar.

  12. Aktivieren Sie die folgenden Layer, um sie sichtbar zu machen:
    • Weltweite topografische Karte
    • World Hillshade
    • valuation_sqft_living_gsr_SQFT_LIVING
    • LargeLakes
  13. Klicken Sie mit der rechten Maustaste auf valuation_sqft_living_gwr_SQFT_LIVING, und wählen Sie Symbolisierung aus.
  14. Wählen Sie im Bereich Symbolisierung unter Farbschema die Option Gelb-Grün (Kontinuierlich) aus.
  15. Wählen Sie unter Streckungstyp die Option Histogramm abgleichen aus. Schließen Sie den Bereich Symbolisierung.

    Mit Streckungstyp "Histogrammausgleich" symbolisierte Karte

    Im Bereich Inhalt wird die Legende für den Layer valuation_sqft_living_gwr_SQFT_LIVING angezeigt.

    Legende für GWR-Bewertungskarte

    Alle Koeffizienten der lokalen Regression sind positiv. Das ist ein Hinweis darauf, dass mit dem GWR-Modell eine positive Beziehung zwischen der Größe der Wohnfläche und dem Verkaufspreis des Hauses modelliert wurde.

    In der Umgebung der beiden großen Seen weist das Raster für den Verkaufspreis der Häuser in Bezug auf die Größe der Wohnfläche eine steilere Neigung auf, was ein Hinweis darauf ist, dass eine geringfügige Änderung der Wohnfläche bei Häusern in Wassernähe einem wesentlich stärkeren Preisanstieg im Vergleich zu Häusern im Landesinneren entspricht. Dies ist zu erwarten, da der Verkaufspreis in diesen Gebieten stark von der jeweiligen Aussicht abhängt. Diese Variable wird jedoch mit der Größe der Wohnfläche nicht erfasst.

    Rasterbereiche im Landesinneren in Richtung Osten dürfen nicht berücksichtigt werden. Aufgrund von räumlichen Ausreißern ist das Untersuchungsgebiet gestreckt, und es gibt nicht genügend Daten im östlichen Teil dieses Datasets, um den zugrunde liegenden Koeffizientenoberflächen vertrauen zu können, da diese interpoliert sind. Koeffizienten in Gebieten mit spärlich verteilten Punkten sollten Sie keine Beachtung schenken, da der Koeffizient zwischen Positionen mit Datenpunkten durch den Algorithmus interpoliert wird.

    Wie können Sie dieses Modell weiter verbessern? Wie sieht es mit Entfernungs-Features oder der Verwendung einer zweiten Einflussvariablen aus?

  16. Deaktivieren Sie den Layer valuation_sqft_living_gwr_SQFT_LIVING, um ihn auszublenden. Speichern Sie das Projekt.

Die Variable "grade" testen

Bei einer früheren Datenvisualisierung haben Sie bereits gesehen, dass "grade" eine weitere Variable ist, die linear mit dem Preis korreliert. Hier untersuchen Sie nun zunächst mit dem Werkzeug Lokale bivariate Beziehungen, ob die Variable "grade" mit dem Verkaufspreis eines Hauses räumlich korreliert.

  1. Klicken Sie am unteren Rand des Bereichs Geoverarbeitung auf Verlauf öffnen. Klicken Sie im Bereich Verlauf mit der rechten Maustaste auf Lokale bivariate Beziehungen, und wählen Sie Öffnen aus.

    Das Werkzeug öffnet sich mit den Parametern, die Sie zuvor eingestellt haben.

  2. Ändern Sie im Werkzeugbereich Lokale bivariate Beziehungen die folgenden Parameter:
    • Wählen Sie unter Abhängige Variable die Option grade aus.
    • Geben Sie für Ausgabe-Features den Namen local_rlns_grade_vs_price ein.

    Parameter für "Lokale bivariate Beziehungen" für die Variable "grade"

  3. Klicken Sie auf Ausführen.

    Das Werkzeug wird ausgeführt. Dabei wird der Karte, auf der signifikante lineare Beziehungen zwischen grade und price angezeigt werden, ein Layer hinzugefügt.

    GWR-Beziehung zwischen den Karten "grade" und "price"

    Bei der geographisch gewichteten Regression handelt es sich ebenso wie bei der generalisierten linearen Regression um ein lineares Modell, weshalb Sie das Problem der Multikollinearität berücksichtigen müssen. Prüfen Sie daher, ob starke lokale lineare Beziehungen zwischen den beiden Einflussvariablen vorhanden sind, indem Sie eine Analyse vom Typ Lokale bivariate Beziehungen zwischen sqft_living und grade durchführen.

  4. Ändern Sie im Werkzeug Lokale bivariate Beziehungen die folgenden Parameter:
    • Wählen Sie unter Erklärende Variable die Option sqft_living aus.
    • Geben Sie für Ausgabe-Features den Namen local_rlns_grade_vs_sqft_living ein.
  5. Klicken Sie auf Ausführen.

    GWR-Beziehung zwischen den Karten "grade" und "sqft_living"

    Diese Karte ist ein Hinweis darauf, dass starke lokale lineare Beziehungen zwischen den beiden Einflussvariablen vorhanden sind. Sie ist darüber hinaus ein Hinweis darauf, dass bei einer Nachbarschaft von 50 Häusern Güte und Quadratfuß Wohnfläche in einer signifikanten linearen Beziehung zueinander stehen. Denken Sie jedoch daran, dass bei der generalisierten linearen Regression linear in Beziehung stehende erklärende Variablen vermieden werden sollen. Diese Karte ist ein Hinweis darauf, dass bei einer lokalen Nachbarschaft von 50 Nachbarn das GWR-Modell bei Berücksichtigung von Güte und Quadratfuß Wohnfläche aufgrund der Multikollinearität möglicherweise nicht funktioniert.

    Als Nächstes verwenden Sie beide Variablen und beobachten, ob beim Ausführen des Werkzeugs ein Fehler auftritt.

  6. Klicken Sie im Bereich Verlauf mit der rechten Maustaste auf das Werkzeug Geographisch gewichtete Regression (GWR), und klicken Sie auf Öffnen.

    Das Werkzeug öffnet sich mit den Parametern, die Sie zuvor eingestellt haben.

  7. Aktualisieren Sie im Werkzeug Geographisch gewichtete Regression die folgenden Parameter:
    • Aktivieren Sie unter Erklärende Variable(n) die Option grade. Vergewissern Sie sich, dass sqft_living bereits aktiviert ist.
    • Geben Sie für Ausgabe-Features den Namen valuation_sqft_living_grade_gwr ein.

    GWR-Werkzeugparameter für "sqft_living" und "grade" nach "price"

  8. Klicken Sie auf Ausführen.

    Wie erwartet, tritt beim Ausführen des Werkzeugs ist ein Fehler auf.

  9. Zeigen Sie unten im Bereich Geoverarbeitung auf die Fehlermeldung.

    Daraufhin wird ein Fenster mit einer Fehlermeldung angezeigt. Laut Fehlermeldung ist die Ursache hierfür die Multikollinearität.

    Fehlermeldung des Werkzeugs "GWR"

    Das Werkzeug "GWR" hat den Nachteil, dass es bei räumlich gruppierten Variablen nicht funktioniert, und diese werden bei Wohnattributen häufig verwendet. Das Ergebnis zeigt, dass Sie diese beiden Variablen nicht verwenden können, um den Verkaufspreis des Hauses lokal mit dem aktuellen GWR-Modell vorherzusagen.

    Das Werkzeug "GWR" stellt zwar ein ökonomischeres Modell für die räumliche Regression bereit. Bei einer starken Korrelation zwischen Einflussvariablenpaaren kann es jedoch nicht verwendet werden.

"Forest-basierte Klassifizierung und Regression" durchführen

Sie möchten ein umfangreiches Dataset mit Einflussvariablen in Ihr Regressionsmodell einbeziehen. Hierzu verwenden Sie das Modell "Forest-basierte Klassifizierung und Regression (FBKR)". Bei diesem Modell treten keine Probleme in Bezug auf die Multikollinearität auf, da es sich nicht um ein lineares Modell handelt. Zudem können Sie damit Beziehungen zwischen zahlreichen Einflussvariablen (räumlichen und nicht räumlichen Grundstücksmerkmalen) und einer Zielvariablen (Verkaufspreis) modellieren. Bisher haben Sie mit der GLR und GWR Beziehungen zwischen sqft_living und price modelliert. Eine Zunahme der Hausgröße pro Einheit entspricht lokal oder global einem Anstieg des Hauspreises.

  1. Klicken Sie im Bereich Geoverarbeitung auf die Schaltfläche Zurück. Navigieren Sie zum Werkzeug Forest-basierte Klassifizierung und Regression in der Toolbox Spatial Statistics, und öffnen Sie es.
  2. Legen Sie im Werkzeugbereich Forest-basierte Klassifizierung und Regression die folgenden Parameter fest:
    • Wählen Sie unter Vorhersagetyp die Option Nur trainieren aus.
    • Wählen Sie unter Eingabe-Trainings-Features den Eintrag kc_house_data aus.
    • Wählen Sie unter Vorherzusagende Variable die Option price aus.

    Parameter für das Werkzeug "Forest-basierte Klassifizierung und Regression"

  3. Klicken Sie unter Erklärende Trainingsvariablen für Variable auf die Schaltfläche Viele hinzufügen, und aktivieren Sie die folgenden Variablen:
    • bedrooms
    • bathrooms
    • sqft_living
    • sqft_lot
    • floors
    • waterfront
    • view
    • condition
    • grade
    • sqft_above
    • sqft_basement

    Ausgewählte Variablen unter "Erklärende Trainingsvariablen"

  4. Klicken Sie auf Hinzufügen.

    Sie müssen angeben, ob es sich bei den einzelnen Einflussvariablen um kategorische Variablen handelt. Wenn Sie nicht sicher sind, finden Sie entsprechende Informationen in der Attributtabelle, sodass Sie alle kategorischen Variablen angeben können. Zeichenfolgenfelder werden vom Werkzeug automatisch als Kategorien erkannt. Bei numerischen Kategorien wie ganzen Zahlen müssen Sie kategorische Variablen jedoch manuell angeben. In diesem Dataset sind die Variablen bedrooms, bathrooms, floors, waterfront, view, condition und gradekategorische Variablen, die als ganze Zahlen gespeichert werden.

  5. Aktivieren Sie unter Kategorisch die Kontrollkästchen für bedrooms, bathrooms, floors, waterfront, view, condition und grade.

    Kategorische Variablen

  6. Wählen Sie für Erklärende Trainings-Entfernungs-Features die Option LargeLakes aus.

    Dieses Werkzeug kann wie das Werkzeug "GLR" die Entfernung zu Features automatisch berechnen und diese Entfernung als Eingabe verwenden.

  7. Blenden Sie Zusätzliche Ausgaben ein. Geben Sie unter Trainierte Ausgabe-Features die Bezeichnung price_predicted und unter Ausgabetabelle zur Variablenbedeutung die Bezeichnung variable_importance ein.

    Abschnitt "Zusätzliche Ausgaben"

    Mit FBKR werden Entscheidungsbäume für zufällige Teilmengen der Daten definiert. Dabei entspricht jeder Baum einer Vorhersage, die als Stimme bezeichnet wird. Diese Stimmen werden im Forest als Mittelwert zusammengefasst und als endgültige Vorhersage in einem Bericht angegeben. Die Zufälligkeit der Bildung von Teilmengen von Daten bedeutet, dass Forest-basierte Modelle Ergebnisse mit unterschiedlicher Genauigkeit liefern. Sie können die Auswirkungen des Subsampling von Trainingsdaten nach Zufallsprinzip auf die Ausgabeergebnisse – also die Stabilität des Forest-basierten Modells – abschätzen, indem Sie das Modell mehrmals ausführen und eine Verteilung von R2 definieren.

    In diesem Beispiel definieren Sie 20 Validierungen. Wie bei der Anzahl der Bäume ist eine größere Anzahl von Validierungen immer wünschenswert. Abschließend berechnen Sie die Unsicherheit Ihrer Verkaufspreisprognosen.

  8. Blenden Sie den Bereich Erweiterte Forest-Optionen ein. Geben Sie unter Number of Trees den Wert 1000 ein.

    Parameter "Anzahl der Strukturen" mit der Einstellung "1000"

    Wie viele Bäume sind genug? Kurz gesagt, die Anzahl von Bäumen, deren Verarbeitung durch das Werkzeug Sie abzuwarten bereit sind. Je mehr Bäume verwendet werden, umso robuster wird die Forest-basierte Klassifizierung und Regression gegenüber Ausreißern und umso stabiler wird sie gegenüber einer Datenauswahl nach Zufallsprinzip. Übernehmen Sie die Standardwerte für die restlichen erweiterten Optionen.

  9. Erweitern Sie Validierungsoptionen. Geben Sie unter Anzahl der ausgeführten Validierungen den Wert 20 ein.
  10. Aktivieren Sie das Kontrollkästchen Unsicherheit berechnen. Geben Sie unter Ausgabetabelle der Validierung die Tabelle validation_r2 an.

    Abschnitt "Validierungsoptionen"

  11. Klicken Sie auf Ausführen.

    Das Werkzeug wird ausgeführt.

    Hinweis:

    Die Ausführung des Werkzeugs kann mehr als 30 Minuten dauern. Schließen Sie den Bereich Geoverarbeitung nach dem Ausführen des Werkzeugs nicht.

    Nach dem Ausführen des Werkzeugs untersuchen Sie zunächst die Verteilung von R2 aus den 20 Simulationen.

  12. Führen Sie im Bereich Inhalt einen Bildlauf nach unten zum Abschnitt Standalone-Tabellen durch. Doppelklicken Sie unter validation_r2 auf das Diagramm Validation R2.

    Diagramm "Validation R2"

    Die mittlere Genauigkeit des FBKR-Modells beträgt ca. 0,79. Das Modell scheint stabil, da der R2-Wert bei den 20 Validierungen jeweils bei einem Wert zwischen 0,74 und 0,83 liegt. Es ist möglich, dass Ihre Zahlen leicht abweichen.

    Als Nächstes untersuchen Sie die Variablenbedeutung.

  13. Doppelklicken Sie im Bereich Inhalt im Abschnitt Standalone-Tabellen unter variable_importance auf das Diagramm Verteilung der Variablenbedeutung.

    Diagramm "Verteilung der Variablenbedeutung"

    Die beiden wichtigsten Variablen sind sqft_living und grade. Sie stehen in der Y-Achse (Bedeutung) ganz oben. Hier steht die Bedeutung für die Häufigkeit, mit der eine Baumteilung anhand der Variable im gesamten Forest-Modell durchgeführt wird. Eine höhere Häufigkeit ist ein Hinweis auf eine höhere Anzahl von Baumteilungen anhand einer Variable und deutet darauf hin, dass die Auswirkungen dieser Variablen auf das Ergebnis des Forest-Modells groß sind. Anhand dieses Diagramms wird deutlich, dass sich die Bedeutung von grade und sqft_living zwischen den verschiedenen Ausführungen des Modells ändert. Die Entfernung zu einem großen See ist die dritthäufigste Einflussvariable im Modell.

    Der R2-Wert ist niedriger als beim GWR-Modell mit einer Variable. Wie können Sie dieses Modell verbessern?

    Eine Möglichkeit besteht darin, die Einflussvariablen mit geringer Bedeutung zu entfernen. Sie sollten Variablen entfernen, die für das Modell nicht von Bedeutung sind, sodass sie nicht zulasten wichtigerer erklärender Variablen zufällig für einen bestimmten Baum ausgewählt werden.

    Entsprechend dem Diagramm Verteilung der Variablengewichtung haben die Variablen bedrooms, condition, floors und waterfront die geringste Bedeutung. Entfernen Sie diese.

  14. Schließen Sie beide Diagramme und den Bereich Diagrammeigenschaften.
  15. Zeigen Sie im Bereich Geoverarbeitung im Abschnitt Erklärende Trainingsvariablen auf die Variable bedrooms, und klicken Sie auf die Schaltfläche Entfernen.

    Schaltfläche "Entfernen"

  16. Entfernen Sie die Variablen condition, floors und waterfront.

    Verbleibende Variablen

  17. Ändern Sie die folgenden Parameter:
    • Geben Sie unter Zusätzliche Ausgaben für Trainierte Ausgabe-Features die Bezeichnung output_reduced ein.
    • Geben Sie unter Ausgabetabelle zur Variablenbedeutung die Tabelle variable_importance_reduced ein.
    • Geben Sie unter Validierungsoptionen für Ausgabetabelle der Validierung die Bezeichnung validation_r2_reduced ein.
  18. Klicken Sie auf Ausführen.
    Hinweis:

    Die Ausführung des Werkzeugs kann einige Minuten dauern.

  19. Klicken Sie nach dem Ausführen des Werkzeugs unten im Bereich Geoverarbeitung auf Details anzeigen. Klicken Sie im Detailfenster des Werkzeugs auf die Registerkarte Meldungen.

    Forest-Parameter im Abschnitt Modelleigenschaften zeigen den Baumtiefenbereich an. Anhand dieses Bereichs ist zu sehen, dass vor einer Vorhersage für alle Bäume zwischen 26 und 41 Teilungen durchgeführt werden. Das ist ein Hinweis darauf, dass mit den Entscheidungsbäumen die Variabilität bei Einflussvariablen erfasst wird, da diese der Variabilität bei der Zielvariablen entspricht.

    Abschnitt "Modelleigenschaften"

    Im Abschnitt Out-of-Bag-Fehler des Modells wird angegeben, welche Auswirkungen das Hinzufügen weiterer Bäume zum Modell hat:

    Abschnitt "Out-of-Bag-Fehler des Modells"

    Die mittlere quadratische Abweichung (Mean Squared Error, MSE) und der erläuterte Prozentsatz der Variation ändern sich in einem Bereich zwischen 500 und 1.000 Bäumen nicht wesentlich. Aufgrund der geringfügigen Änderung kann argumentiert werden, dass das Modell genügend Bäume enthält und sich der maximalen Genauigkeit nähert.

    Möglicherweise tritt ein Plateaueffekt auf. In diesem Fall müssen Sie die Anzahl der Bäume weiter erhöhen, bis sich die MSE und der erläuterte Prozentsatz der Variation erheblich erhöhen (eine Verbesserung um mindestens 10 Prozent). Die Stabilität dieser Kennwerte ist anfänglich zwar nicht garantiert, aber Sie können erneut testen, um festzustellen, ob sich durch die Erhöhung der Anzahl der Bäume eine deutliche Änderung bei der OOB-Fehlerleistung ergibt. Eine deutliche Änderung ist ein eindeutiger Hinweis darauf, dass zur Stabilisierung der Leistung mehr Bäume verwendet werden müssen.

    Im Abschnitt Höchste Variablenbedeutung werden die Variablen angezeigt, die für das Forest-Modell die höchste Bedeutung haben.

    Abschnitt "Höchste Wichtigkeit von Variable"

    Die Entfernung zu Gewässern stellt die Variable mit der dritthöchsten Bedeutung dar.

    Die Trainingsdaten sind die Daten, die von den Bäumen im Forest verwendet werden. R-Squared entspricht der Vorhersage von Daten, die vom Forest erkannt wurden. Der Training-R2-Wert ist ein Hinweis darauf, wie gut das Forest-Modell die vorhandenen Muster in den Trainingsdaten lernt. Validierungsdaten wurden vom Modell jedoch noch nicht erkannt. Und der Validierungs-R2-Wert ist ein Hinweis darauf, wie das Modell abschneidet, wenn es für eine Vorhersage verwendet wird.

    Diagnoseabschnitte

    Ein R2-Wert von 0,946 ist ein Hinweis darauf, dass sich mit dem FBKR-Modell zum Definieren des Modells verwendete Daten mit hoher Genauigkeit vorhersagen lassen. Ein Validierungs-R2-Wert von 0,78 ist ein Hinweis darauf, dass dieses Modell generalisierbar ist, d. h., damit lassen sich auch bisher nicht erkannte Datenpunkte mit hoher Genauigkeit vorhersagen.

    Bei Regressionsproblemen verwenden Sie diese Trainingskennwerte als Hinweis für die potenzielle Qualität des Modells. Bei tatsächlichen Vorhersagen über ein trainiertes Modell können Sie diese Kennwerte nicht berechnen, wenn Sie Daten vorhersagen, für die Sie die richtige Antwort nicht kennen. Diese Diagnose ist ein Hinweis darauf, dass das Modell angesichts der Trainingsdaten bei der Vorhersage von bei der Erstellung des Modells verwendeten Daten gut abschneidet und zu Datenpunkten generalisiert, die es bis dahin nicht erkannt hat.

  20. Schließen Sie das Detailfenster. Doppelklicken Sie im Bereich Inhalt für den Layer output_reduced auf das Diagramm Vorhersageintervall.

    Diagramm für "Prediction Interval"

    In diesem Diagramm sind die Unsicherheitsgrenzen der Vorhersage dargestellt, wobei die blaue Linie für die eigentliche Vorhersage (auch in der Ausgabe-Feature-Class dargestellt) steht. Die Unsicherheitsgrenzen weiten sich für Häuser mit einem Preis von über 1.000.000 USD schnell. Der Grund für diesen Trend ist die kleine Stichprobengröße für Häuser in dieser Preisklasse. Für Häuser mit einem Preis von über 1.500.000 USD sind die Unsicherheitsgrenzen noch weiter, da es in dieser Preisklasse noch weniger Stichproben gibt. Mit diesem Diagramm lässt sich der Zusammenhang zwischen der Unsicherheit und Ihren Vorhersagen anhand Ihres Trainingsgebiets gut darstellen.

  21. Schließen Sie das Diagramm und den Bereich Diagrammeigenschaften. Speichern Sie das Projekt.

Die räumliche Verteilung der Unsicherheit bewerten

Abschließend bewerten Sie die räumliche Verteilung der Unsicherheit des FBKR-Modells. Derzeit gibt das Modell P95 und P05 zurück. Hierbei handelt es sich um einen höheren und einen niedrigeren Schätzwert des Hauspreises zur Quantifizierung der modellbasierten Unsicherheit. Anders ausgedrückt: Die Unsicherheit bei den Ergebnissen ist auf Ihr Modell mit Ihren Trainingsdaten und auf das FBKR-Modell zurückzuführen. Wenn das Werkzeug 100.000 USD als Vorhersage, 90.000 USD als P05 und 120.000 USD als P95 zurückgibt, bedeutet das, dass das Modell 100.000 USD vorhersagt, geringfügige Änderungen an den Trainingsdaten jedoch zu einer Vorhersage von nur 90.000 USD oder sogar 120.000 USD führen können.

Diese Unsicherheit muss quantifiziert werden, da Sie nicht immer wissen, ob genügend Stichproben vorhanden sind, um Verkaufspreise von Häusern genau zu modellieren. Daher fügen Sie ein neues Feld für den Unsicherheitskennwert hinzu, den Sie aus der Ausgabe des Werkzeugs ableiten. Dieser Kennwert fasst die drei Werte – P05, Vorhersage (P50) und P95 – in einem Feld zusammen.

  1. Navigieren Sie im Bereich Geoverarbeitung zum Werkzeug Feld hinzufügen, und öffnen Sie es.
  2. Legen Sie im Werkzeugbereich Feld hinzufügen die folgenden Parameter fest:
    • Wählen Sie für Eingabetabelle die Option output_reduced aus.
    • Geben Sie als Feldname den Text uncertainty ein.
    • Wählen Sie für Feldtyp die Option Double (64-bit floating point) aus.

    Parameter im Werkzeug "Feld hinzufügen"

  3. Klicken Sie auf Ausführen.

    Das Werkzeug wird ausgeführt und das Feld hinzugefügt, aber auf der Karte ist keine Veränderung erkennbar.

  4. Klicken Sie im Bereich Geoverarbeitung auf die Schaltfläche Zurück. Suchen Sie das Werkzeug Feld berechnen (Data Management Tools), und öffnen Sie es.

    Sie können das Feld "uncertainty" wie folgt definieren:

    Uncertainty = (P95-P5)/P50

    Mit diesem Kennwert wird die Breite des Unsicherheitsfensters in Bezug auf die Magnitude der Vorhersage quantifiziert.

  5. Legen Sie im Werkzeugbereich Feld berechnen die folgenden Parameter fest:
    • Wählen Sie für Eingabetabelle die Option output_reduced aus.
    • Wählen Sie als Feldname das Feld uncertainty aus.
    • Geben Sie unter Ausdruck für uncertainty = das Zeichen ( ein.

    Parameter für das Werkzeug "Feld berechnen"

  6. Doppelklicken Sie in der Spalte Felder auf PRICE_P95.

    Feld "PRICE_P95"

    Daraufhin wird der Text !Q_HIGH! dem Gleichungsfeld hinzugefügt. Dieser Text ist der durch Ausrufezeichen begrenzte Feldname.

  7. Klicken Sie auf die Schaltfläche mit dem Minussymbol, und doppelklicken Sie auf PRICE_P05. Geben Sie ) ein.

    Der Ausdruck lautet jetzt: (!Q_HIGH! - !Q_LOW!).

  8. Klicken Sie auf die Schaltfläche "Division", und doppelklicken Sie auf PRICE(Predicted).

    Der vollständige Ausdruck lautet wie folgt: (!Q_HIGH! - !Q_LOW!) / !PREDICTED!.

  9. Klicken Sie auf die Schaltfläche Überprüfen.

    Schaltfläche "Überprüfen"

    Daraufhin wird eine Meldung angezeigt, dass Ihr Ausdruck gültig ist. Das bedeutet, dass der Ausdruck ohne Fehler ausgeführt werden kann.

  10. Klicken Sie auf Ausführen.

    Das Werkzeug wird ausgeführt, und das Feld wird entsprechend Ihrem Ausdruck berechnet. An der Karte wird keine Änderung vorgenommen.

    Als Nächstes führen Sie für das Feld uncertainty eine Hot-Spot-Analyse durch, um zu überprüfen, ob in der Unsicherheit der FBKR-Vorhersage räumliche Muster vorliegen.

  11. Klicken Sie im Bereich Geoverarbeitung auf die Schaltfläche Zurück. Navigieren Sie zum Werkzeug Optimierte Hot-Spot-Analyse, und öffnen Sie es.
  12. Geben Sie im Werkzeugbereich Optimierte Hot-Spot-Analyse die folgenden Parameter ein:
    • Wählen Sie unter Eingabe-Features die Option ouput_reduced aus.
    • Geben Sie für Ausgabe-Features den Namen output_reduced_HotSpots ein.
    • Wählen Sie unter Analysefeld die Option uncertainty aus.

    Parameter im Werkzeug "Optimierte Hot-Spot-Analyse"

  13. Klicken Sie auf Ausführen.

    Anhand der resultierenden Karte wird deutlich, dass die Unsicherheit in der südlichen Hälfte des Datasets höher und in der nördlichen Hälfte geringer ist.

    Hot-Spot-Karte "Uncertainty"

  14. Speichern Sie das Projekt.

    Ihre Ergebnisse deuten darauf hin, dass Vorhersagen für den Verkaufspreis im Norden von King County, Washington, weniger anfällig für Änderungen aufgrund von zufälligen Änderungen in den Trainingsdaten sind.

Sie haben zum Modellieren von Preisen die Werkzeuge "Geographisch gewichtete Regression" und "Forest-basierte Klassifizierung und Regression" verwendet. Zudem haben Sie die Unsicherheit in Ihren Ergebnissen untersucht. Als Nächstes nutzen Sie diese Modelle, um für eine neue Punktestichprobe eine Bewertung durchzuführen.


Vorhersagen der Modelle vergleichen

Sie haben zwei Modelle mit akzeptablen R2-Werten: Bei beiden ist dieser höher als 0,75 (je nach gewünschtem Genauigkeitsgrad kann diese Zahl höher sein). Der eine stammt vom GWR-Modell, das Sie mit sqft_living erstellt haben, und der zweite stammt vom FBCR-Modell, das Sie gerade erstellt haben. Das eine Modell ist sparsam, während das andere Modell eine höhere Vorhersageleistung liefert.

Ihr Unternehmen hat neue Häuser in Redmond, Washington, gebaut, in einem der am schnellsten wachsenden Baugebiete für Wohnhäuser in King County, Washington. Sie nutzen diese Modelle, um eine Bewertung durchzuführen und die Ergebnisse zu vergleichen.

Mit GWR Bewertung vornehmen

Als Erstes setzen Sie das GWR-Modell für die Bewertung ein. Dieses Mal führen Sie die GWR im Vorhersagemodus aus. Im Werkzeug Geographisch gewichtete Regression wird das Modell, das Sie für kc_house_data entwickelt haben, auf das Dataset new_homes angewendet.

  1. Klicken Sie im Bereich Geoverarbeitung auf Verlauf öffnen.
  2. Klicken Sie im Bereich Verlauf mit der rechten Maustaste auf das als letztes erfolgreich ausgeführte Werkzeug Geographisch gewichtete Regression (GWR), und klicken Sie auf Öffnen.
    Hinweis:

    Sie können bestimmen, ob ein Werkzeug erfolgreich ausgeführt wurde oder nicht, indem Sie auf das Werkzeug zeigen. Im angezeigten Pop-up wird angegeben, ob die Ausführung des Werkzeugs fehlgeschlagen ist oder mit Warnungen beendet wurde.

    Das Werkzeug öffnet sich mit den Parametern, die Sie zuvor eingestellt haben.

  3. Vergewissern Sie sich, das für Erklärende Variable(n) sqft_living aktiviert ist und grade deaktiviert ist. Vergewissern Sie sich, dass der Ausgabename für Ausgabe Features valuation_sqft_living_gwr lautet.
  4. Blenden Sie den Abschnitt Vorhersageoptionen ein, und ändern Sie die folgenden Parameter:
    • Wählen Sie für Vorherzusagende Positionen die Option new_homes aus.
    • Geben Sie für Vorhergesagte Ausgabe-Features den Text new_home_valuation_gwr ein.

    Aktualisierte Parameter der Vorhersageoptionen

  5. Klicken Sie auf Ausführen.

    Der Layer new_home_valuation_gwr wird Ihrer Karte und dem Bereich Inhalt hinzugefügt.

  6. Klicken Sie im Bereich Inhalt mit der rechten Maustaste auf new_home_valuation_gwr, und wählen Sie Auf Layer zoomen aus. Verkleinern Sie die Ansicht, bis Sie mehr Kontext zur Position des Layers sehen können.

    Karte mit der mithilfe des GWR-Vorhersagemodells durchgeführten Bewertung der neuen Häuser

Mit FBCR Bewertung vornehmen

Als Nächstes verwenden Sie FBCR, um Werte vorherzusagen. Sie führen das Werkzeug Forest-basierte Klassifizierung und Regression im Vorhersagemodus aus.

  1. Klicken Sie im Bereich Verlauf mit der rechten Maustaste auf das zuletzt erfolgreich ausgeführte Werkzeug Forest-basierte Klassifizierung und Regression, und klicken Sie auf Öffnen.
  2. Wählen Sie im Werkzeugbereich Forest-basierte Klassifizierung und Regression für Vorhersagetyp die Option Features vorhersagen aus.

    Parameter "Vorhersagetyp"

  3. Wählen Sie für Eingabe-Vorhersage-Features die Option new_homes aus. Geben Sie für Vorhergesagte Ausgabe-Features den Text new_home_valuation_fbcr ein.

    Aktualisierte Parameter im Werkzeug "Forest-basierte Klassifizierung und Regression"

  4. Klicken Sie auf Ausführen.
    Hinweis:

    Die Ausführung des Werkzeugs kann über 15 Minuten dauern.

    Nach der Ausführung des Werkzeugs wird der Layer new_home_valuation_fbcr zu der Karte hinzugefügt.

    Ergebnisse der mithilfe des FBCR-Modells durchgeführten Bewertung der neuen Häuser

  5. Speichern Sie das Projekt.

Vergleichen der Ergebnisse mit Histogrammen

Sie haben zwei Verkaufspreisschätzungen für das geplante Entwicklungsgebiet erstellt. Als Nächstes vergleichen Sie diese Ergebnisse. Im Vorhersagemodus erhalten Sie kein genaues Ergebnis, sondern nur eine Schätzung. Sie können Ihre Ergebnisse im Hinblick auf ihre Plausibilität im Vergleich zu den Preisen in der Nachbarschaft bewerten.

Zuerst vergleichen Sie die Histogramme der Modellausgaben.

  1. Klicken Sie im Bereich Inhalt mit der rechten Maustaste auf den Layer new_home_valuation_gwr zeigen Sie auf Diagramm erstellen, und wählen Sie Histogramm aus.
  2. Wählen Sie im Bereich Diagrammeigenschaften unter Variable für Zahl die Option Predicted (PRICE) aus.

    Bereich "Diagrammeigenschaften" für die Bewertung der neuen Häuser mithilfe des GWR-Modells

  3. Erstellen Sie ein Histogramm für den Layer new_home_valuation_fbcr unter Verwendung des Attributs PRICE(Predicted).
  4. Ziehen Sie das Diagramm new_home_valuation_fbcr, und verankern Sie sie rechts neben dem Diagramm new_home_valuation_gwr.

    Jetzt können Sie die nebeneinander liegenden Diagramme vergleichen.

    Nebeneinander liegende Diagramme

    Die Preisspannen und Durchschnittswerte sind ähnlich. Bei den gegebenen Grundstücksmerkmalen liegt der Durchschnittswert für diese neuen Häuser etwa zwischen 770.000 und 849.000 US-Dollar. Die Obergrenze der Verkaufspreise in diesem Gebiet liegt laut GWR bei 1.505.000 US-Dollar und laut FBCR bei 1.327.000 US-Dollar.

  5. Schließen Sie die beiden Diagrammfenster und den Bereich Diagrammeigenschaften.

    Für Hauspreise in dieser Lage ist die GWR-Schätzung für kc_house_dataset vernünftiger. Dies ist eine der Stärken der GWR: Bei der Bewertung wird die Nachbarschaft berücksichtigt. Bei den Häusern im Dataset kc_house_dataset handelt es sich jedoch um bereits bestehende Häuser, die sich in einem schlechteren Zustand als die neuen Häuser befinden bzw. eine geringere Qualität aufweisen. Bei der FBCR werden Muster solcher Häuser in ganz King County zugrunde gelegt, um eine Schätzung anhand des gesamten Datasets vorzunehmen.

Vergleichen der Preisbewertung pro Quadratfuß

Die neuen Häuser weisen große Unterschiede in ihren Merkmalen auf. Um die Verkaufspreisvorhersagen einzuordnen, berechnen Sie den Preis pro Quadratfuß. Zum weiteren Vergleich fügen Sie die Vorhersagen der GWR und FBCR in einer Feature-Class zusammen.

Bevor Sie die Vorhersagewerte miteinander verbinden, aktualisieren Sie die Feldnamen, um sie voneinander unterscheiden zu können.

  1. Klicken Sie im Bereich Inhalt mit der rechten Maustaste auf new_home_valuation_gwr, zeigen Sie auf Datendesign, und wählen Sie Felder aus.

    Die Ansicht Felder für den Layer wird angezeigt.

  2. Doppelklicken Sie in der Ansicht Felder unter Feldname auf PREDICTED. Geben Sie Predicted_GWR ein, und drücken Sie die Eingabetaste.

    Der Feldname wird aktualisiert.

    In "Predicted_GWR" geänderter Feldname

  3. Doppelklicken Sie unter Alias auf die Option Predicted (PRICE). Geben Sie GWR Prediction ein, und drücken Sie die Eingabetaste.
  4. Klicken Sie auf dem Menüband auf der Registerkarte Felder in der Gruppe Änderungen auf Speichern.
  5. Klicken Sie im Bereich Inhalt mit der rechten Maustaste auf new_home_valuation_fbcr, zeigen Sie auf Datendesign, und wählen Sie Felder aus. Ändern Sie die folgenden Felder:
    • Ändern Sie unter Feldname die Option PREDICTED in Predicted_FBCR.
    • Ändern Sie unter Alias die Option PRICE(Predicted) in FBCR Prediction.

    In "Predicted_FBCR" geänderter Feldname und in "FBCR Prediction" geänderter Alias

  6. Klicken Sie auf dem Menüband auf der Registerkarte Felder in der Gruppe Änderungen auf Speichern. Schließen Sie beide Ansichten Felder.

    Als Nächstes verbinden Sie die GWR-Ergebnisse mit den FBCR-Ergebnissen.

  7. Navigieren Sie im Bereich Geoverarbeitung zum Werkzeug Räumliche Verbindung, und öffnen Sie es. Legen Sie die folgenden Parameter fest:
    • Wählen Sie für Ziel-Features die Option new_home_valuation_gwr aus.
    • Wählen Sie für Verbindungs-Features die Option new_home_valuation_fbcr aus.
    • Geben Sie unter Ausgabe-Feature-Class den Text price_comparison ein.
    • Blenden Sie Felder ein. Klicken Sie unter Feldzuordnung für Ausgabefelder auf die Schaltfläche Entfernen, um alle Felder außer SOURCE_ID, sqft_living, Predicted_GWR und Predicted_FBCR zu löschen.

    Parameter für das Werkzeug "Räumliche Verbindung"

  8. Klicken Sie auf Ausführen.

    Das Werkzeug wird ausgeführt, und der neue Layer wird der Karte hinzugefügt. Als Nächstes erstellen Sie neue Felder, um den vorhergesagten Preis pro Quadratmeter für jedes Vorhersagemodell zu berechnen.

  9. Klicken Sie im Bereich Inhalt mit der rechten Maustaste auf price_comparison, zeigen Sie auf Datendesign, und wählen Sie Felder aus.
  10. Klicken Sie in der Ansicht Felder auf Klicken Sie hier, um ein neues Feld hinzuzufügen. Erstellen Sie ein Feld mit den folgenden Parametern:
    • Geben Sie als Feldname den Text GWR_PSQFT ein.
    • Geben Sie für Alias den Text GWR (price per square foot) ein.
    • Wählen Sie für Datentyp die Option Double aus.
  11. Erstellen Sie ein neues Feld mit den folgenden Parametern:
    • Geben Sie für Feldname den Text FBCR_PSQFT ein.
    • Geben Sie für Alias den Text FBCR (price per square foot) ein.
    • Wählen Sie für Datentyp die Option Double aus.

    Sie haben nun zwei neue Felder.

    Die Felder GWR_PSQFT und FBCR_PSQFT wurden zur Attributtabelle hinzugefügt.

  12. Klicken Sie auf dem Menüband auf der Registerkarte Felder in der Gruppe Änderungen auf Speichern. Schließen Sie die Ansicht Felder.

    Jetzt haben Sie Felder für den Preis pro Quadratfuß hinzugefügt. Als Nächstes berechnen Sie Werte auf der Grundlage des vorhergesagten Wertes und der Wohnfläche jedes Hauses. Sie erstellen einen Ausdruck, der den vom GWR-Modell vorhergesagten Preis durch die Wohnfläche teilt.

  13. Suchen Sie im Bereich Geoverarbeitung das Werkzeug Feld berechnen (Data Management Tools), und öffnen Sie es. Legen Sie die folgenden Parameter fest:
    • Wählen Sie für Eingabetabelle den Eintrag price_comparison aus.
    • Wählen Sie unter Feldname (vorhanden oder neu) die Option GWR (price per square foot) aus.
    • Erstellen Sie unter Ausdruck den folgenden Ausdruck: !Predicted_GWR! / !sqft_living!

    Parameter für "Feld berechnen"

  14. Klicken Sie auf Ausführen.

    Sie führen das Werkzeug erneut aus, nachdem Sie einige Parameter geändert haben, um FBCR statt GWR zu verwenden.

  15. Ändern Sie im Werkzeugbereich Feld berechnen den Namen unter Feldname (vorhanden oder neu) in FBCR (price per square foot). Erstellen Sie unter Ausdruck den folgenden Ausdruck: !Predicted_FBCR! / !sqft_living!

    Der Ausdruck teilt die FBCR Prediction-Werte durch die Wohnfläche.

  16. Klicken Sie auf Ausführen.

    Nachdem Sie beide Felder berechnet haben, können Sie sie vergleichen. Boxplot-Diagramme eignen sich gut zum Vergleichen von zwei Verteilungen. Sie verwenden einen Boxplot, um die Schätzungen der Preise pro Quadratfuß zu vergleichen, die die beiden Methoden geliefert haben.

  17. Klicken Sie im Bereich Inhalt mit der rechten Maustaste auf den Layer price_comparison, zeigen Sie auf Diagramm erstellen, und wählen Sie Boxplot aus.
  18. Klicken Sie in den Diagrammeigenschaften unter Numerische Felder auf Auswählen. Aktivieren Sie die Kontrollkästchen neben GWR GWR (price per square foot) und FBCR (price per square foot), und klicken Sie auf Übernehmen.

    Variablen für das Boxplot-Diagramm

    Das Boxplot-Diagramm wird aktualisiert und zeigt den geschätzten Preis pro Quadratfuß vom GWR- und vom FBCR-Modell an.

    Boxplot der geschätzten Preise pro Quadratfuß

    Die langen Whisker im Boxplot-Balken für FBCR (price per square foot) zeigen an, dass nur wenige der Häuser einen signifikant höheren Preis als alle anderen erhalten haben. Der Boxplot für GWR (price per square foot) umfasst eine größere Fläche als der der FBCR, was darauf hinweist, dass das erste und dritte Quartil der Vorhersagen vergleichsweise weit auseinander liegt. Mit anderen Worten hat die GWR-Vorhersage beim Preis pro Quadratfuß eine höhere Variation als die FBCR.

    Der Medianpreis pro Quadratfuß ist bei beiden Methoden nahezu gleich. Die Lage der Linie für den Medianwert innerhalb der FBCR-Box weist auf eine linksschiefe Verteilung der Vorhersagen hin, was bedeutet, dass häufig ein höherer Preis pro Quadratfuß vorhergesagt wurde. Dieses Ergebnis kann auf globale Muster in King County zurückzuführen sein, die hohe Preise für neue Häuser zeigen – Informationen, die von der in der FBCR-Analyse verwendeten Variablen "grade" geliefert werden. GWR-Vorhersagen sind symmetrisch um den Mittelwert herum und zeigen eine gleichmäßigere Verteilung.

  19. Schließen Sie das Boxplot-Diagramm und den Bereich Diagrammeigenschaften. Speichern Sie das Projekt.

Die FBCR-Vorhersageunsicherheit darstellen

Die Verteilungen für die FBCR- und GWR-Vorhersagen weisen beträchtliche Unterschiede auf. Sie untersuchen jetzt den Unsicherheitsgrad der FBCR in Bezug auf die Vorhersagen.

  1. Klicken Sie mit der rechten Maustaste auf den Layer new_home_valuation_fbcr, zeigen Sie auf Datendesign, und wählen Sie Felder aus.
  2. Fügen Sie ein Feld mit der Bezeichnung P95_minus_P5 hinzu, und legen Sie den Typ auf Double fest. Speichern Sie die Änderung, und schließen Sie die Ansicht Felder.
  3. Öffnen Sie im Bereich Geoverarbeitung das Werkzeug Feld berechnen, und ändern Sie die folgenden Parameter:
    • Wählen Sie für Eingabetabelle den Eintrag new_home_valuation_fbcr aus.
    • Wählen Sie als Feldname das Feld P95_minus_P5 aus.
    • Erstellen Sie unter Ausdruck den folgenden Ausdruck: !Q_HIGH! - !Q_LOW!
  4. Klicken Sie auf Ausführen.
  5. Deaktivieren Sie im Bereich Inhalt die Layer price_comparison und new_home_valuation_gwr.
  6. Klicken Sie mit der rechten Maustaste auf new_home_valuation_fbcr, und wählen Sie Symbolisierung aus.
  7. Legen Sie im Bereich Symbolisierung die folgenden Parameter fest:
    • Wählen Sie für Feld das Feld P95_minus_P5 aus.
    • Wählen Sie für Klassen den Wert 10.
    • Wählen Sie für Farbschema die Option Greens (kontinuierlich) aus.

    Symbolisierungsparameter für den Layer "P95_minus_P5"

  8. Klicken Sie unten im Bereich Symbolisierung auf der Registerkarte Klassen auf Mehr, und wählen Sie dann Alle Symbole formatieren aus.

    Option "Alle Symbole formatieren"

  9. Klicken Sie ggf. auf die Registerkarte Eigenschaften.
  10. Geben Sie unter Aussehen für Umrissstärke den Wert 0,5 ein. Geben Sie für Größe den Wert 10 ein.

    Symbole für die Parameter "Umrissbreite" und "Größe" formatieren

  11. Klicken Sie auf Übernehmen.

    Der Layer wird mit der neuen Symbolisierung dargestellt.

    Karte der Unterschiede

    Dunkle Grüntöne weisen auf eine große Unsicherheitsspanne für Vorhersagen hin. Einige der Häuser haben eine Unsicherheitsspanne von bis zu 1,7 Millionen Dollar.

  12. Doppelklicken Sie im Bereich Inhalt unter new_home_valuation_fbcr im Abschnitt Diagramme auf Prediction Interval.
  13. Wählen Sie im Bereich Diagrammeigenschaften für Datum oder Zahl den Eintrag Sort Id by Predicted Value aus. Wählen Sie für Numerische Felder die Optionen FBCR Prediction, PRICE_P05 und PRICE_P95 aus.

    Diagramm für "Prediction Interval"

    Die Unsicherheitsspanne beträgt ca. 400.000 US-Dollar für alle Häuser, außer bei denen mit Preisen über 1 Million US-Dollar. Das Modell zeigt, dass kleine Änderungen der Trainingsdaten für King County zu erheblichen Änderungen des voraussichtlichen Verkaufspreises der Häuser führen können. Im Gegensatz zur GLR oder GWR findet bei der FBCR keine Extrapolation statt. Wenn der Höchstpreis in den Trainingsdaten bei 1,2 Millionen US-Dollar liegt, gilt für jeden höheren Preis, der vom Modell vorhergesagt wird, eine große Unsicherheit. Da es außerdem nur relativ wenige Häuser mit sehr hohen Preisen gibt, ist die Unsicherheit für diese Art von Häusern besonders hoch.

  14. Schließen Sie das Diagramm und den Bereich Diagrammeigenschaften. Speichern Sie das Projekt.

Beim Vergleich des FBCR- mit dem GWR-Modell schneidet keines der beiden per se besser ab. Beide erfüllen unterschiedliche Anforderungen an eine Bewertung. Beim GWR-Modell wird ein räumliches Modell für den Verkaufspreis von Häusern definiert. Hier kommt das hedonische Modell für den Verkaufspreis (Can, 1992) mit geographisch variierenden Gewichtungen zum Einsatz. Im Gegensatz dazu wird bei der FBCR die Beziehung zwischen den Eigenschaften eines Hauses und seinem Verkaufspreis global definiert. Das kann sehr wichtig sein, da sich einige Faktoren ohne räumliche Variation generell auf die Hauspreise auswirken (François et al., 2005).

Bei diesem Methodenvergleich lässt sich sagen, dass die GWR besser geeignet ist, räumliche Variationen in Bezug auf den Preis zu erfassen. Damit lässt sich außerdem gut ein lokales Preismodell entwickeln, bei dem der vorhergesagte Hauspreis für die Lage angemessen ist. Aufgrund der Multikollinearität können Sie die Variable "grade" jedoch nicht als Prädiktorvariable für die GWR verwenden. Im Gegensatz dazu wird mit der FBCR der Einfluss des Zustands der neuen Häuser anhand von vergleichbaren Objekten aus ganz King County, Washington modelliert. Dieses Modell führt zu höheren Hauspreisen, was sinnvoll sein kann, wenn die Qualität der Gebäude sehr hoch ist und der Bauträger erwägt, sie zu einem deutlich höheren Preis als andere Häuser in der Nachbarschaft anzubieten. Eine Unsicherheitsanalyse in der FBCR zeigt, dass die Preise für teure Häuser (mehr als 1 Million US-Dollar) möglicherweise neu bewertet werden müssen. Das GWR-Modell zeigt schlüssige Werte für Redmond, Washington, berücksichtigt jedoch nicht den Zustand der neuen Häuser.

Bei den Workflows in diesem Lernprogramm kommen Regressionsmodelle in ArcGIS Pro mit unterschiedlichen Annahmen und Komplexitätsgraden zum Einsatz. Die Visualisierung ist ein wichtiger Teil der Regressionsanalyse. Damit können wichtige Variablen verdeutlicht und Beziehungen zwischen Variablen erforscht werden. Die GLR ist das einfachste Modell, das erklärende Variablen anhand eines globalen linearen Modells mit einer Zielvariablen in Beziehung setzt. Es eignet sich zum Ausprobieren, da es das am einfachsten zu verstehende Regressionsmodell ist.

Mit der GWR wird ein lineares Modell definiert, das von Standort zu Standort variiert. Bei der GWR kommt ein lineares Regressionsmodell an jedem Standort zum Einsatz, an dem Prädiktorvariablen von nahe gelegenen Nachbarn mit einem räumlichen Kern gewichtet werden, wobei nahe gelegene Nachbarn mehr Einfluss auf das Regressionsmodell haben als entfernte Nachbarn. GWR-Koeffizientenoberflächen sind auch ein wirksames Mittel zur Visualisierung der räumlichen Variation der Beziehung zwischen einer erklärenden Variablen und einer Zielvariablen. Das Werkzeug "Lokale bivariate Beziehungen" (LBR) ist ein hilfreiches Werkzeug zum Untersuchen verschiedener Typen von räumlichen Beziehungen zwischen zwei Variablen. Wenn sich aus der Ausführung des LBR-Werkzeugs für erklärende Variablen und Zielvariablen vorherrschend lokale lineare Beziehungen ergeben, ist dies ein Hinweis darauf, dass das GWR-Modell ein effektives Modell wäre. Wenn sich aus der Ausführung des LBR-Werkzeugs für zwei erklärende Variablen eine große Anzahl an linearen Beziehungen ergibt, ist dies ein Hinweis darauf, dass beim GWR-Modell Multikollinearität auftreten könnte, wenn diese Variablen zusammen im Modell verwendet werden.

Und schließlich wird mit einem Forest-basierten Klassifikations- und Regressionsmodell (FBCR) ein Forest-basiertes Modell definiert, um erklärende Variablen mit einer Zielvariablen in Beziehung zu setzen. Trotz seiner algorithmischen Komplexität kann mit der FBCR eine große Vielfalt von erklärenden Variablen mit einer stetigen oder diskreten Zielvariablen in Beziehung gesetzt werden. Die FBCR liefert wertvolle Diagnosen, wie z. B. den Boxplot der Variablenbedeutung, der den Einfluss einer erklärenden Variable im Regressionsmodell quantifiziert. Trotz seiner Flexibilität können sich beim FBCR-Modell die zur Definition des Modells verwendeten Trainingsdaten erheblich auswirken. Ziehen wir nochmals das Verkaufspreis-Beispiel heran: Wenn bestimmte Preisspannen unterrepräsentiert sind, wie z. B. teure Häuser (mehr als 1 Mio. US-Dollar), ist nicht davon auszugehen, dass das Forest-basierte Modell für diese Spannen genau ist. Darüber hinaus können mit der FBCR keine Vorhersagen über den Zielvariablenbereich des Trainings-Dataset hinaus vorhergesagt werden.

Weitere Lernprogramme finden Sie in der Lernprogrammgalerie.