Visualiser vos données

Vous allez commencer par ajouter une table de données à une carte en tant qu’ensemble d’entités ponctuelles avec attributs. Plus loin dans le processus, vous pourrez inclure les caractéristiques spatiales des données dans votre processus de modélisation.

Créer des entités

Vous allez télécharger un paquetage de projet ArcGIS Pro avec une table de données de vente de maison et créer une classe d’entités à partir de ce paquetage.

  1. Téléchargez le paquetage de projet King County House Prices.
  2. Accédez à l’emplacement dans lequel vous avez téléchargé le paquetage et double-cliquez sur King_County_House_Prices.ppkx pour ouvrir le projet dans ArcGIS Pro. Si vous y êtes invité, connectez-vous via votre compte ArcGIS sous licence.
    Remarque :

    Si vous n’avez pas accès à ArcGIS Pro ou ne disposez pas d’un compte d’organisation ArcGIS, consultez les options disponibles pour accéder aux logiciels.

    Le projet s’ouvre. L’étendue de la carte est le comté de King, Washington. Dans la fenêtre Contents (Contenu), dans la section Standalone Tables (Tables autonomes) se trouve un élément nommé kc_house_data.csv.

    Ce fichier est un fichier de valeurs séparées par une virgule (.csv), un format fréquemment utilisé pour échanger des tables de données. La première ligne du fichier contient une liste de noms de champ délimités par une virgule ; chaque ligne suivante contient des valeurs délimitées par une virgule pour chacun de ces champs. Dans de nombreux processus de science des données ou d’apprentissage automatique, l’une des premières étapes consiste à lire ce fichier dans un bloc de données à l’aide d’un notebook. Dans ce didacticiel, vous allez charger les données dans une géodatabase en tant qu’ensemble d’entités ponctuelles et utiliser ArcGIS Pro comme poste de travail de science des données.

    La table est ouverte et affichée sous la vue cartographique. Vous pouvez voir les noms de champs de table et certaines des valeurs.

  3. Sur le ruban, cliquez sur l’onglet Analyse. Dans le groupe Géotraitement, cliquez sur Outils.

    Bouton Outils

    La fenêtre Géotraitement s’affiche.

  4. Dans la fenêtre Geoprocessing (Géotraitement), dans la zone Search (Rechercher), saisissez XY Table to Point (Table XY vers points).
  5. Dans les résultats de recherche de l’outil, cliquez sur XY Table to Point (Table XY vers point).

    Outil Table XY vers points dans les résultats de recherche

  6. Dans la fenêtre de l’outil XY Table To Point (Table XY vers points), pour Input Table (Table en entrée), sélectionnez kc_house_data.csv.
    Remarque :

    Si vous utilisez des paramètres régionaux autres que l’anglais américain, utilisez la table de géodatabase kc_house_data_table au lieu du fichier .csv. Les paramètres régionaux peuvent influer sur les types de données des champs en sortie lors de l’importation de fichiers .csv à l’aide de l’outil XY Table To Point (Table XY vers point). Si vous voulez générer des points à partir des fichiers .csv tout en gardant le contrôle sur le type de données des attributs importés, vous pouvez importer le fichier .csv dans une table de géodatabase, puis définir les types de données de chaque champ à l’aide de l’outil Table to Table (Table vers table).

  7. Pour Output Feature Class (Classe d’entités en sortie), saisissez kc_house_data.

    Le paramètre X Field (Champ X) est déjà renseigné avec le champ long issu de la table .csv, tandis que le paramètre Y Field (Champ Y) est renseigné avec le champ lat. Ce jeu de données ne contenant pas de valeur Z Field (Champ Z), vous pouvez laisser ce paramètre vide.

    Vous allez ensuite définir un système de coordonnées approprié aux données.

  8. Dans Système de coordonnées, cliquez sur le bouton Sélectionner un système de coordonnées.

    Bouton Sélectionner un système de coordonnées

    La fenêtre Coordinate System (Système de coordonnées) s’ouvre.

  9. Dans la zone de recherche, saisissez HARN et appuyez sur la touche Entrée.
  10. Développez Geographic Coordinate System (Système de coordonnées géographiques), North America (Amérique du Nord) et USA and territories (États-Unis et territoires). Cliquez sur NAD 1983 HARN.

    Système de coordonnées NAD 1983 HARN

  11. Cliquez sur OK. Dans la fenêtre de l’outil XY Table To Point (Table XY vers points), cliquez sur Run (Exécuter).

    L’outil s’exécute. Une fois l’exécution terminée, les points sont ajoutés à la carte.

  12. Fermez la fenêtre Géotraitement. Fermez la vue tabulaire kc_house_data.csv.

Modification de la symbologie

Avant d’explorer les données, vous allez modifier la symbologie par défaut.

  1. Dans la fenêtre Contents (Contenu), sous kc_house_data, cliquez sur le symbole ponctuel.

    Symbole ponctuel par défaut dans la fenêtre Contenu

  2. Dans la fenêtre Symbology (Symbologie), sur l’onglet Gallery (Bibliothèque), cliquez sur le symbole Circle 3 (Cercle 3).

    Symbole Circle 3 (Cercle 3)

  3. Cliquez sur l’onglet Properties (Propriétés). Sous Appearance (Apparence), dans Color (Couleur), sélectionnez Malachite Green (Vert malachite).
    Conseil :

    Dans le sélecteur de couleurs, pointez sur une couleur pour afficher son nom.

    Malachite Green (Vert malachite) dans le sélecteur de couleurs

  4. Pour Size (Taille), sélectionnez 4 pt. Cliquez sur Apply (Appliquer).

    Les symboles sont modifiés sur la carte.

    Carte avec des points symbolisés

  5. Fermez la fenêtre Symbology (Symbologie).
  6. Dans la barre d’outils Quick Access (Accès rapide), cliquez sur le bouton Save (Enregistrer) pour enregistrer votre projet.

    Bouton Enregistrer de la barre d’outils Accès rapide

    Remarque :

    Un message peut vous avertir que si vous enregistrez ce fichier de projet avec la version actuelle de ArcGIS Pro, vous ne pourrez pas le rouvrir dans une version antérieure. Si ce message apparaît, cliquez sur Yes (Oui) pour continuer.

Explorer les données

Vous allez ensuite explorer les données. Vous allez dans un premier temps vous familiariser avec les champs attributaires et leur signification. Vous allez ensuite créer une matrice de nuage de points et explorer les relations existant entre les attributs.

  1. Dans la fenêtre Contents (Contenu), cliquez avec le bouton droit sur la couche kc_house_data et sélectionnez Attribute Table (Table attributaire).

    La table attributaire contient 20 champs attributaires décrivant les maisons et les prix de vente. Les champs sont répertoriés dans la table suivante :

    Nom du champDescription du champ

    date

    Date de vente

    prix

    Montant de la transaction finale

    Chambres

    Nombre de chambres

    salles de bain

    Nombre de salles de bain

    sqft_living

    Surface habitable (en pieds carrés)

    sqft_lot

    Taille de lot (en pieds carrés)

    étages

    Nombre d’étages

    front de mer

    Maison en front de mer (1 : oui, 0 : non)

    afficher

    Variable catégorique de la vue de la maison

    condition

    Variable catégorique de la condition de la maison

    grade

    Grade global de la maison basé sur le système de notation du comté de King

    sqft_above

    Taille de la maison à l’exception du sous-sol (en pieds carrés)

    sqft_basement

    Taille du sous-sol (en pieds carrés)

    yr_built

    Année de construction de la maison

    yr_renovated

    Année de rénovation de la maison (le cas échéant)

    code ZIP

    Code postal de la maison

    lat

    Latitude de la maison

    long

    Longitude de la maison

    sqft_living15

    Surface habitable en 2015 (en pieds carrés)

    sqrt_lot15

    Taille du lot en 2015 (en pieds carrés)

    Certains des champs contiennent des codes pour des valeurs spécifiques. Les codes du champ condition sont expliqués dans la table suivante :

    CodeConditionDescription

    1

    Faible

    Nombreuses réparations requises. La maison montre des signes de détérioration sérieuse.

    2

    Correct

    Certaines réparations sont requises immédiatement. Beaucoup de maintenance différée est requise.

    3

    Moyenne

    Selon l’ancienneté de la remise en état, ampleur d’entretien normale par rapport à l’âge de la maison.

    4

    Bonne

    Condition au-dessus de la norme par rapport à l’âge de la maison. Cela indique qu’une attention et un soin plus importants ont été accordés pour entretenir la maison.

    5

    Très bonne

    Maintenance et mise à jour de la maison excellentes ; il ne s’agit pas d’une rénovation intégrale.

    Le champ grade contient une série différente de codes, qui sont expliqués dans la table suivante :

    CodeDescription

    1-3

    Ne répond pas aux normes de constructions minimales ; normalement cabine ou structure inférieure.

    4

    Construction de faible qualité généralement plus ancienne. La maison ne répond pas au code.

    5

    Coûts de construction et fabrication inférieurs. La maison présente une conception compacte et simple.

    6

    Grade le plus faible répondant actuellement aux codes de bâtiment. Des matériaux de faible qualité et des conceptions simples ont été utilisés.

    7

    Grade de la construction et de la conception moyenne. On observe généralement cela dans les usines et les sous-divisions plus anciennes.

    8

    Construction et conception juste au-dessus de la moyenne. Les maisons de cette qualité ont généralement de meilleurs matériaux dans les finitions intérieures et extérieures.

    9

    Meilleure conception architecturale, avec une conception et une qualité intérieures et extérieures supérieures.

    10

    Les maisons de cette qualité présentent généralement des caractéristiques de qualité élevée. Le travail au niveau des finitions est meilleur, la qualité de la conception des plans du sol est supérieure et on compte davantage de pieds carrés.

    11

    Conception personnalisée et travail de meilleure qualité au niveau des finitions, avec ajout de commodités en bois solide, équipements de salle de bain et davantage d’options de luxe.

    12

    Conception personnalisée et excellents constructeurs. Tous les matériaux sont de la plus haute qualité et toutes les commodités sont présentes.

    13

    Conception et construction généralement personnalisées, approchant le niveau d’une demeure. Ces maisons comportent une grande quantité d’ébénisterie de la plus haute qualité, de garnitures en bois et de marbre avec entrées larges.

    Le champ view (vue) utilise les codes suivants :

    CodeDescription

    0

    Inconnu

    1

    Correct

    2

    Moyenne

    3

    Bonne

    4

    Excellent

    L’étape suivante consiste à explorer les données afin de déterminer la distribution des valeurs pour chaque variable et de déterminer si des attributs sont corrélés de manière positive ou négative. Une matrice de nuage de points constitue une technique de visualisation couramment utilisée pour ce type d’exploration de données.

  2. Fermez la table attributaire.
  3. Dans la fenêtre Contents (Contenu), cliquez avec le bouton droit sur kc_house_data, pointez sur Create Chart (Créer un diagramme), puis sélectionnez Scatter Plot Matrix (Matrice de nuage de points).
  4. Dans la fenêtre Chart Properties (Propriétés du diagramme), pour Numeric fields (Champs numériques), cliquez sur Select (Sélectionner). Vérifiez tous les champs, de price à sqft_basement.

    Champs numériques sélectionnés pour Scatter Plot Matrix (Matrice de nuage de points)

  5. Cliquez sur Apply (Appliquer).

    La vue Chart (Diagramme) s’actualise avec les nuages de points des champs sélectionnés.

    Matrice de nuage de points affichant les relations entre les paires de variables

    Remarque :

    Vous pouvez voir le nom de chaque nuage de points en pointant dessus. Vous pouvez également faire glisser les limites de la vue pour augmenter la taille des diagrammes.

    Le tracé récapitule les relations existant entre les paires de variables différentes. Vous pouvez utiliser la matrice de nuage de points pour explorer les relations en cliquant sur l’un des tracés dans le triangle inférieur ; une fois que vous avez cliqué sur un tracé, une plus grande version de ce tracé apparaît en haut à droite.

    Pourquoi ce tracé est-il utile dans l’analyse ?

    Le premier modèle de régression que vous allez utiliser pour développer votre modèle d’évaluation est la régression linéaire généralisée (GLR). Le modèle GLR nécessite que les prédicteurs et la variable cible soit linéairement associés. Vous allez utiliser ce diagramme pour trouver des caractéristiques de propriété linéairement corrélées avec la variable à prévoir : le prix de vente de la maison.

    Le prix constitue la première colonne dans la portion du triangle inférieur de la matrice de nuage de points. Les diagrammes qui figurent dans la première colonne affichent les relations existant entre différentes caractéristiques de propriété et le prix de vente de la maison.

  6. Cliquez sur le nuage de points de price (prix) et de sqft_living (première colonne, troisième ligne à partir du haut).

    Nuage de points de price et de sqft_living dans la liste des nuages de points

    La fenêtre Preview Plot (Prévisualiser le nuage de points) dans la vue angulaire de la matrice est mise à jour pour afficher une vue élargie de la matrice de nuage de points de price et de sqft_living

    Matrice de nuage de points de price et de sqft_living

    Il existe une relation linéaire positive entre la surface habitable (sqft_living) et le prix (price). Une augmentation de la surface habitable correspond généralement à une augmentation du prix de la maison. Cette variable est bien adaptée à un modèle GLR.

  7. Cliquez sur le nuage de points de bathrooms et de price (prix) (première colonne, deuxième ligne à partir du haut).

    Matrice de nuage de points de price et de bathrooms

    La relation existant entre le nombre de salles de bain et le prix n’indique pas de relation linéaire forte. Elle suggère que le nombre de salles de bain n’affecte pas autant le prix de vente que la surface habitable des maisons dans cette région.

  8. Cliquez sur le nuage de points de bedrooms et de price (prix) (première colonne, première ligne à partir du haut).

    Matrice de nuage de points de price et de bedrooms

    Il semble exister une relation linéaire positive entre les deux variables. Toutefois, il est difficile d’estimer la force de la relation linéaire par une inspection visuelle.

  9. Dans la fenêtre Chart Properties (Propriétés du diagramme), cochez la case Show linear trend (Afficher la tendance linéaire).

    Case Afficher la tendance linéaire cochée

    Cliquer sur cette option ajoute une ligne la mieux adaptée à chaque matrice de nuage de points.

  10. Cliquez sur la matrice de nuage de points de price et de sqft_living.

    Le diagramme comprend désormais la ligne la mieux adaptée et la mesure R2 associée.

    Matrice de nuage de points de price et de sqft_living avec ligne la mieux adaptée et valeur R2

    R2, ou R2, est un pourcentage qui indique la proportion de la variation dans les données qui s’explique par la relation entre les deux variables. Une valeur absolue de R2 proche de un indique une relation linéaire positive forte, tandis que les valeurs proches de zéro indiquent une relation linéaire faible.

    Une valeur R2 de 0,49 indique que la relation entre sqft_living et price représente 49 % de la variation dans la matrice de nuage de points de sqft_living et price.

  11. Dans la fenêtre Chart properties (Propriétés du diagramme), sous Matrix Layout (Mise en page de la matrice), pour Upper right (Supérieur droit), sélectionnez Pearson's r. Pour Diagonal, sélectionnez Field Names (Noms des champs).

    Pearson’s r (Coefficient de corrélation de Pearson) pour Matrix Layout (Mise en page de la matrice)

    Le diagramme est mis à jour pour afficher les valeurs du coefficient de corrélation de Pearson en plus des diagrammes en nuage de points.

    Diagramme montrant la tendance linéaire et les valeurs du coefficient de corrélation de Pearson

    Le coefficient de corrélation de Pearson quantifie la force de la relation linéaire existant entre les variables ou le degré d’influence qu’une variable exerce sur une autre. Une valeur absolue du coefficient de corrélation de Pearson proche de un indique une relation linéaire positive forte, tandis que les valeurs proches de zéro indiquent une relation linéaire faible.

  12. Le cas échéant, cliquez sur le nuage de points de price (prix) et de sqft_living.

    Matrice de nuage de points de price et de sqft_living

    La valeur du coefficient de corrélation de Pearson pour price et sqft_living ressort également grâce à un contour noir.

    Le signe du coefficient de corrélation de Pearson correspond au type de relation existant entre deux variables. Une valeur de coefficient de corrélation de Pearson égale à 0,7 indique qu’il existe une relation linéaire positive entre les variables. Une relation positive indique qu’une augmentation dans sqft_living correspond à une augmentation du prix (price) et vice versa. Une valeur de coefficient de corrélation de Pearson négative indique qu’une augmentation d’une variable correspond à une diminution de l’autre variable.

    Toutes les caractéristiques de propriété dans la matrice de nuage de points ont une relation positive avec le prix.

  13. Cliquez sur la matrice de nuage de points de bathrooms et de price.

    Le coefficient de corrélation de Pearson de 0,53 désigne une relation linéaire positive faible entre le nombre de salles de bain et le prix.

  14. Cliquez sur la matrice de nuage de points de bedroomset price.

    Le coefficient de corrélation de Pearson de 0,31 désigne une relation linéaire positive faible entre le nombre de chambres et le prix. Le nombre de chambres et le prix affichent un schéma différent pour les prix inférieurs à 1 000 000 $. Il semble exister une relation linéaire forte entre ces deux variables si le prix dépasse 1 000 000 $.

    Voici l’exemple d’une relation par partie : des relations qui changent une fois qu’une variable franchit une certaine limite. La présence de relations par partie suggère qu’une approche basée sur une arborescence (par exemple, la classification et la régression basées sur une forêt) peut se traduire par une estimation plus précise. Gardez pour l’instant cela à l’esprit. Par la suite, vous délimiterez les variables en vue de la régression linéaire.

    Jusqu’à présent, vous avez créé un moyen de comprendre les relations entre les variables. Votre objectif initial est de construire un modèle linéaire précis qui associe les attributs d’une maison à son prix de vente. Pour ce faire, procédez comme suit :

    • Recherchez les caractéristiques de propriété ayant une relation linéaire forte avec le prix.
    • Assurez-vous que les caractéristiques de propriété n’ont pas de relations linéaires fortes entre elles (pour éviter la multicolinéarité).

    La matrice de nuage de points peut résumer plus encore plusieurs relations, ce qui vous permet de délimiter les caractéristiques de propriété à utiliser dans votre analyse.

  15. Fermez la vue Chart of kc_house_data (Diagramme de kc_house_data) et la fenêtre Chart Properties (Propriétés du diagramme). Enregistrez le projet.

Vous avez inspecté les données à préparer pour conduire une analyse de régression linéaire. Vous avez constaté que la variable sqft_living a la relation la plus forte avec votre variable cible, le prix de vente de la maison. Les autres caractéristiques de propriété ayant de fortes relations entre elles peuvent causer des problèmes si elles se trouvent dans le même système linéaire que sqft_living. Si deux caractéristiques de propriété ou plus affichent une multicolinéarité, cela peut signifier que vos variables véhiculent le même message. Par exemple, il est important d’établir via une analyse si une surface habitable représente également un nombre de chambres et de salles de bain, ce qui peut changer d’une région à une autre. La multicolinéarité peut fausser les résultats de votre modèle si elle n’est pas traitée.

Vous allez ensuite créer un modèle linéaire de la relation existant entre sqft_living et le prix de vente de la maison. Si le modèle fonctionne mal, vous pouvez ajouter au système linéaire la variable grade, qui est aussi fortement reliée au prix de vente de la maison.


Identifier les moteurs du marché avec la régression exploratoire

Vous allez maintenant explorer les relations existant entre les caractéristiques de propriété et le prix de vente de la maison à l’aide de la régression exploratoire. Dans la régression exploratoire, vous essayez de rechercher un modèle pouvant modéliser le prix de vente de la maison avec précision et vous fournir des informations sur les relations existant entre les variables, pour indiquer, par exemle, si ces relations sont positives ou négatives.

Créer un modèle de régression linéaire généralisée

Le premier type de modèle de régression que vous allez créer est un modèle de régression linéaire généralisée (GLR). Vous allez utiliser les outils de géotraitement de statistiques spatiales de ArcGIS.

  1. Ouvrez la fenêtre Géotraitement.
    Conseil :

    Pour ouvrir la fenêtre Geoprocessing (Géotraitement), sur le ruban, cliquez sur l’onglet Analysis (Analyse). Dans le groupe Géotraitement, cliquez sur Outils.

  2. Dans la zone de recherche de la fenêtre Geoprocessing (Géotraitement), saisissez generalized linear.
  3. Cliquez sur l’outil Generalized Linear Regression (Spatial Statistics Tools) (Régression linéaire généralisée (Outils de statistiques spatiales)).

    Outil Régression linéaire généralisée dans Outils de statistiques spatiales

    Remarque :

    Dans les résultats de recherche de la fenêtre Geoprocessing (Géotraitement), certains outils apparaissent deux fois avec les mêmes noms ou des noms semblables. Assurez-vous d’avoir sélectionné l’outil dans la boîte à outils correcte, qui figure à côté du nom de l’outil.

    Vous pouvez utiliser l’outil Generalized Linear Regression (Régression linéaire généralisée) pour prévoir différents types de variables dépendantes. Le modèle à utiliser dépend du type de la variable dépendante. Puisque vous prévoyez une variable continue (prix de vente), vous allez utiliser un modèle gaussien pour prévoir le prix de vente de la maison.

    Si vous prévoyiez une variable cible égale à 0 ou 1 (variable binaire), par exemple si une maison s’est vendue à plus de 500 000 $, vous utiliseriez l’option binaire (Logistique) de cet outil.

    Si la variable cible était un décompte (par exemple, le nombre de personnes soumettant une offre pour la maison), vous utiliseriez l’option de décompte (Poisson) de cet outil.

  4. Dans la fenêtre de l’outil Generalized Linear Regression (Régression linéaire généralisée), saisissez les paramètres suivants :
    • Pour Input Features (Entités en entrée), choisissez kc_house_data.
    • Pour Dependent Variable (Variable dépendante), sélectionnez price (prix).
    • Pour Model Type (Type de modèle), vérifiez que Continuous (Gaussian) (Continu (gaussien)) est sélectionné.

    Paramètres Régression linéaire généralisée

    Vous allez ensuite sélectionner la variable explicative du modèle de régression. Lors de l’exploration de la matrice de nuage de points, vous avez déterminé que sqft_living est une bonne variable à utiliser pour prévoir le prix de vente des maisons.

  5. Pour Explanatory Variable(s) (Variable[s] explicative[s]), cochez la case sqft_living.
  6. Pour Output Features (Entités en sortie), saisissez valuation_sqft_living_glr.

    Puisque vous allez créer plusieurs modèles GLR, il est recommandé d’accorder un nom significatif aux différentes sorties. Ce nom indique la variable de prévision et la méthode.

    Vous n’allez définir aucune sortie dans la section Prediction Options (Options de prévision). Pour le moment, vous procédez à une régression exploratoire afin de définir un modèle pour décrire le prix des maisons par rapport aux caractéristiques de propriété. En d’autres termes, vous cherchez à comprendre les moteurs potentiels sous-jacents au prix de vente des maisons. À ce stade, vous ne vous préoccupez pas d’attribuer un prix à une maison à laquelle aucun prix de vente n’est attribué (prévision). Par la suite, vous prédirez le prix de vente des maisons neuves et cette section de l’outil sera utile.

  7. Cliquez sur Run (Exécuter).

    L’outil s’exécute et termine en affichant l’avertissement : WARNING 001605: Distances for Geographic Coordinates (degrees, minutes, seconds) are analyzed using Chordal Distances in meters (AVERTISSEMENT 001605 : Les distances des coordonnées géographiques [degrés, minutes, secondes] sont analysées à l’aide des distances de corde en mètres).

    Les mesures de distance de corde sont calculées rapidement et fournissent une très bonne estimation des distances géodésiques réelles. Veillez à projeter les données si votre zone d’étude s’étend au-delà de 30 degrés. Les distances de corde ne constituent pas une bonne estimation des distance géodésiques au-delà d'environ 30 degrés.

    Une sortie de cet outil est une carte Résiduel normalisé.

    Carte Résiduel normalisé pour la couche valuation_sqft_living_glr

    Le vert et le pourpre sombres indiquent une forte divergence entre le prix de vente prévu des maisons et leur prix réel.

  8. Dans la fenêtre Contents (Contenu), sous la couche valuation_sqft_living_glr, double-cliquez sur le diagramme Relationship between Variables (Relation entre les variables).

    La relation existant entre les variables du diagramme affiche les prévisions effectuées par le modèle GLR et les points de données réels.

    Relation existant entre les variables du diagramme pour valuation_sqft_living_glr

    Idéalement, les points de données devraient être proches de la ligne. Plus les points de données sont proches de la ligne, plus la relation existant entre les deux variables est forte.

    Dans ce diagramme, le vert indique une sous-estimation du prix de vente de la maison, dans laquelle le prix réel de la maison est supérieur au prix prédit par le modèle. Le pourpre indique une surestimation, dans laquelle le prix prédit est supérieur au prix réel de la maison.

  9. Fermez la fenêtre du diagramme et la fenêtre Chart Properties (Propriétés du diagramme).

    Sur la carte Standardized Residual (Résiduel normalisé), les points en vert plus sombre semblent s’agréger autour des plans d’eau. Le modèle de régression sous-estime systématiquement le prix de vente des maisons proches des plans d’eau. Il semble que de faibles changements de la surface habitable peuvent entraîner des changements plus importants du prix d’une maison proche d’un plan d’eau par rapport à une maison située dans l’arrière-pays.

    Vous allez ensuite évaluer les diagnostics d’ensemble à partir de la sortie GLR.

  10. Sur le ruban, dans le groupe Geoprocessing (Géotraitement) de l’onglet Analysis (Analyse), cliquez sur History (Historique).

    Bouton Historique

    La fenêtre Geoprocessing History (Historique de géotraitement) apparaît.

  11. Dans la fenêtre Geoprocessing History (Historique de géotraitement), cliquez avec le bouton droit sur Generalized Linear Regression (Régression linéaire généralisée), et sélectionnez View Details (Afficher les détails).

    Afficher les détails de la dernière exécution de l’outil GLR

    La fenêtre de détails des résultats de l’outil GLR apparaît.

  12. Dans la fenêtre de détails des résultats de l’outil GLR, cliquez sur l’onglet Messages.
    Conseil :

    Pour développer la fenêtre, faites-en glisser les bords.

    Dans la section GLR Diagnostics (Diagnostics de la méthode GLR), la valeur Adjusted R-Squared (R-carré ajusté) est égale à 0,492830. Il s’agit de la valeur R2 affichée sur le nuage de points pour price par rapport à sqft_living.

    Messages de diagnostic GLR

    Les statistiques Joint F, Joint Wald et Koenker (BP) sont des statistiques significatives avec des valeurs P (Prob(>chi-squared) approximativement égales à 0 (approximation due à l’arrondissement). Cela indique que la probabilité selon laquelle la relation définie par ce modèle se produit de manière aléatoire est approximativement égale à 0. En d’autres termes, il existe une relation statistiquement significative entre le prix de vente des maisons et la zone de la surface habitable en cours de modélisation par le modèle GLR.

  13. Fermez la fenêtre Generalized Linear Regression (GLR) (Spatial Statistics Tools) (Régression linéaire généralisée (Outils de statistiques spatiales)) et la fenêtre History (Historique).
  14. Enregistrez le projet.

Vous avez utilisé le modèle GLR pour déterminer qu’il existe une relation significative entre les variables sqft_living et price (prix). Vous avez également découvert que le modèle GLR sous-estime la valeur des maisons situées à proximité des plans d’eau. Vous allez ensuite rechercher un modèle GLR amélioré en ajoutant une autre variable pour prendre en compte cette sous-estimation. Vous allez utiliser les données issues de ArcGIS Online pour géoenrichir votre prévision.


Optimiser les analyses à l’aide des données géographiques

Vous allez ajouter une couche de données géographiques issues de ArcGIS Online et l’utiliser pour améliorer votre modèle GLR.

Rechercher des plans d’eau

Puisque le modèle GLR que vous venez de créer sous-estime les valeurs des maisons situées à proximité de plans d’eau, vous allez ajouter des données de plan d’eau à la carte et les incorporer dans le modèle GLR. La possibilité d’améliorer les données avec des informations géographiques, qui peut également s’effectuer via des méthodes telles que le géoenrichissement, est un avantage important de ArcGIS Pro en tant que poste de travail de science des données.

  1. Sur le ruban, cliquez sur l'onglet Vue. Dans le groupe Windows (Fenêtres), cliquez sur Catalog Pane (Fenêtre Catalogue).

    Bouton Catalog Pane (Fenêtre Catalogue)

  2. Dans la fenêtre Catalog (Catalogue), cliquez sur l’onglet Portal (Portail) et sur le bouton ArcGIS Online.

    Bouton ArcGIS Online sur l’onglet Portal (Portail) de la fenêtre Catalog (Catalogue)

  3. Recherchez USA water bodies owner:esri_dm.
  4. Cliquez avec le bouton droit sur le paquetage de couche USA Detailed Water Bodies (Plans d’eau détaillés des États-Unis), puis sélectionnez Add To Current Map (Ajouter à la carte actuelle).
    Remarque :

    Pour faire la distinction entre le paquetage de couche USA Detailed Water Bodies (Plans d’eau détaillés des États-Unis) et la couche d’entités USA Detailed Water Bodies (Plans d’eau détaillés des États-Unis), pointez sur l’élément correspondant dans les résultats de recherche. Le processus peut être effectué avec le paquetage de couche ou la couche d’entités, mais cette dernière connaît des restrictions de visibilité qui l’empêchent d’être visible à votre étendue de carte actuelle.

    Option Add To Current Map (Ajouter à la carte actuelle)

    La couche est ajoutée à la carte.

  5. Effectuez un zoom avant sur le grand lac situé dans la partie centre nord des données, entouré sur ses côtes est et ouest par des points foncés bleu vert.

    Grand lac sur la carte

  6. Sur le ruban, cliquez sur l’onglet Map (Carte). Dans le groupe Selection (Sélection), cliquez sur le bouton Select (Sélectionner).

    Bouton Sélectionner

  7. Sur la carte, cliquez sur le lac.

    Lac sélectionné sur la carte

    Un contour bleu fait ressortir l’entité du lac pour indiquer qu’il est sélectionné.

  8. Dans la fenêtre Contents (Contenu), cliquez avec le bouton droit sur USA Detailed Water Bodies (Plans d’eau détaillés des États-Unis), puis sélectionnez Attribute Table (Table attributaire).
  9. Au bas de la table, cliquez sur le bouton Show Selected Records (Afficher les enregistrements sélectionnés).

    Bouton Show Selected Records (Afficher les enregistrements sélectionnés)

    L’entité sélectionnée unique s’affiche dans la table.

    Entité sélectionnée affichée dans la table

    Le service d’entités de plans d’eau représente ces données sous la forme d’un polygone avec une variable FTYPE (signifiant type d’entité), définie sur Lake/Pond (Lac/Étang). Le modèle GLR sous-estime constamment les valeurs des maisons situées autour des lacs dans l’État de Washington. Le service d’entité contient également des types de plan d’eau tels que des marécages et des ruisseaux, mais ceux-ci n’ont pas d’impact aussi positif sur le prix de vente que les lacs situés dans cette région. Vous allez utiliser les distances jusqu’aux plans d’eau de type Lake/Pond (Lac/Étang) dans votre analyse.

  10. Sous l'onglet Carte, dans le groupe Sélection, cliquez sur Sélectionner selon les attributs.

    Bouton Sélectionner selon les attributs

  11. Dans la fenêtre Select By Attributes (Sélectionner selon les attributs), vérifiez que l’option Input Rows (Lignes en entrée) est définie sur USA Detailed Water Bodies (Plans d’eau détaillés des États-Unis) et que l’option Selection type (Type de sélection) est définie sur New selection (Nouvelle sélection).
  12. Sous Expression, construisez l’expression Where FTYPE is equal to Lake/Pond (Où FTYPE est égal à Lac/Étang).

    Sélectionner la couche où le type d’entité est Lake/Pond (Lac/Étang)

  13. Cliquez sur Apply (Appliquer).
    Remarque :

    Ne fermez pas encore l’outil Select Layer By Attributes (Sélectionner une couche par attributs).

    Toutes les entités de type Lake/Pond (Lac/Étang) sont mises en surbrillance sur la carte.

    Entités Lake/Pond (Lac/Étang) mises en surbrillance sur la carte

    De nombreux petits lacs et étangs ne sont pas situés à proximité d’agrégats de points bleu-vert foncé. Cela suggère que les lacs et les étangs plus petits n’ont pas les mêmes effets que ceux qui sont plus grands dans les résultats du modèle GLR. Vous allez ajouter à l’expression de sélection une clause pour ne sélectionner que les plans d’eau plus grands.

  14. Dans la fenêtre Select By Attributes (Sélectionner selon les attributs), cliquez sur Add Clause (Ajouter une clause).

    Bouton Ajouter une clause

    Cette nouvelle clause est associée à la première clause à l’aide de l’opérateur And (Et). Cela est correct pour cette sélection mais, pour un autre projet, vous pourriez utiliser un opérateur Or (Ou).

  15. Utilisez le générateur Expression pour construire l’expression And SQKM is greater than or equal to (Et SQKM est supérieur ou égal à).

    Clause d’expression ajoutée

    L’autre grand lac du comté présente une surface de 19,34 kilomètres carrés. Cette clause élimine par filtrage les plans d’eau plus petits.

  16. Cliquez sur le bouton bascule SQL. Après SQKM >=, saisissez 19.00.

    19.00 ajouté à l’expression en mode SQL

  17. Cliquez sur OK.

    La sélection change, mettant en surbrillance uniquement les lacs et étangs d’une superficie supérieure à 19 kilomètres carrés. Selon la table attributaire, 689 entités sont à présent sélectionnées.

  18. Fermez la table attributaire.

Exporter les entités de lac

Vous voulez uniquement analyser les entités sélectionnées et non les autres de la couche. Vous allez ensuite exporter les entités sélectionnées en une nouvelle classe d’entités à l’aide de l’outil Copy Features (Copier des entités).

  1. Dans la fenêtre Géotraitement, cliquez sur le bouton Retour. Recherchez et ouvrez l’outil Copy Features (Copier des entités).
  2. Dans la fenêtre de l’outil Copy Features (Copier des entités), pour Input Features (Entités en entrée), sélectionnez USA Detailed Water Bodies (Plans d’eau détaillés des États-Unis). Pour Output Feature Class (Classe d’entités en sortie), saisissez LargeLakes.

    Paramètres de l’outil Copier des entités

    Un message sous le paramètre Input Features (Entités en entrée) vous informe que la couche en entrée comporte une sélection et affiche le nombre d’enregistrements sélectionnés à traiter. La couche USA Detailed Water Bodies contient des plans d’eau de tous les États-Unis, mais seuls vous intéressent ceux du comté de King, Washington. Vous allez modifier l’étendue de traitement de l’outil pour limiter les entités qui sont copiées à celles qui se trouvent dans l’étendue de la couche kc_house_data.

  3. Cliquez sur l'onglet Environnements.
  4. Dans la section Processing Extent (Étendue de traitement), dans Extent (Étendue), sélectionnez kc_house_data.

    Paramètre d’étendue

  5. Cliquez sur Run (Exécuter).
    Remarque :

    Ne fermez pas la fenêtre Geoprocessing (Géotraitement) après avoir exécuté l’outil car vous allez y retourner prochainement.

    La couche LargeLakes est ajoutée à la fenêtre Contents (Contenu).

    Vous n’avez plus besoin de la couche USA Detailed Water Bodies (Plans d’eau détaillés des États-Unis) et allez donc la supprimer.

  6. Dans la fenêtre Contents (Contenu), cliquez avec le bouton droit sur USA Detailed Water Bodies (Plans d’eau détaillés des États-Unis), puis sélectionnez Remove (Supprimer).
  7. Enregistrez le projet.

Utiliser les distances jusqu’aux lacs dans le modèle GLR

Maintenant que vous avez capturé les entités de grand lac, vous pouvez les utiliser pour géo-enrichir votre modèle GLR. Les outils de régression figurant dans la boîte à outils de statistiques spatiales vous permettent d’inclure des entités de distance dans une analyse. Ces outils calculent automatiquement les distances euclidiennes entre chaque point et l’entité de distance la plus proche et utilisent la distance en tant que variable en entrée.

  1. Dans la fenêtre Geoprocessing (Géotraitement), au bas de la fenêtre d’outil, cliquez sur Open History (Ouvrir l’historique).

    Bouton Ouvrir l’historique

  2. Dans la fenêtre History (Historique), cliquez avec le bouton droit sur Generalized Linear Regression (Régression linéaire généralisée), puis cliquez sur Open (Ouvrir).

    Option Open (Ouvrir)

    L’outil s’ouvre avec les paramètres appliqués lors de la dernière exécution de l’outil Generalized Linear Regression (GLR) (Régression linéaire généralisée (GLR)).

    Vous allez ajouter la distance jusqu’au lac pour améliorer le modèle GLR.

  3. Pour Explanatory Distance Features (Entités de distance explicatives), sélectionnez LargeLakes.
  4. Pour Output Features (Entités en sortie), saisissez valuation_sqft_living_d2lake_glr.

    LargeLakes ajouté en tant qu’entité de distance explicative

  5. Cliquez sur Run (Exécuter).

    L'outil s'exécute et les résultats sont ajoutés à la carte. Vous allez ensuite comparer visuellement les résultats des deux exécutions de l’outil GLR.

  6. Dans la fenêtre Contents (Contenu), vérifiez que la couche valuation_sqft_living_d2lake_glr est sélectionnée.
  7. Cliquez sur l’onglet Feature Layer (Couche d’entités). Dans le groupe Compare (Comparer), cliquez sur Swipe (Balayer).

    Bouton Balayer

  8. Cliquez sur la carte dans la partie nord du comté et faites glisser l’outil Swipe (Balayer) à travers les données.
    Remarque :

    Selon l’endroit où vous cliquez sur la carte, vous pouvez balayer la carte vers le haut et le bas ou la gauche et la droite. Dans les deux cas, vous pouvez comparer les deux couches.

    Faire glisser l’outil Balayer en travers de la carte

    Parce que valuation_sqft_living_d2lake_glr est sélectionné dans la fenêtre Contents (Contenu), l’outil Swipe (Balayer) affiche le contenu qui se trouve en dessous lorsque vous le faites glisser en travers de la carte.

    Les zones situées autour des lacs présentent encore les résidus standardisés pour les deux exécutions GLR.

  9. Sur le ruban, cliquez sur l’onglet Map (Carte). Dans le groupe Navigate (Naviguer), cliquez sur Explore (Explorer).
  10. Dans la fenêtre Contents (Contenu), double-cliquez sur le diagramme Distribution of Standardized Residual (Distribution des résiduels standardisés) des couches valuation_sqft_living _glr et valuation_sqft_living_d2Lake_glr.
  11. Dans la fenêtre du diagramme, faites glisser l’onglet de l’un des diagrammes et ancrez-le sur la droite de la fenêtre du diagramme.

    Zone d’ancrage du diagramme

    Vous pouvez maintenant comparer les diagrammes côte à côte. Les deux tracés de distribution sont très similaires.

    Diagrammes Distribution of Standardized Residual (Distribution des résiduels normalisés)

    Les similitudes indiquent que l’erreur d’estimation n’a pas été améliorée par l’ajout de la distance jusqu’aux lacs. Si le modèle GLR incluant la distance jusqu’aux lacs avait été plus performant, vous pourriez vous attendre à moins de localisations avec des tons sombres de vert et de pourpre (localisations présentant une erreur type importante).

    Il existe au moins deux raisons possibles pour lesquelles l’ajout des entités de distance n’a pas amélioré le modèle GLR. Tout d’abord, les entités de distance calculées dans GLR sont des distances euclidiennes ou en ligne droite. Dans la mesure où la plupart des trajets dans cette zone s’effectuent sur le réseau routier, il est possible que les distances en ligne droite ne représentent pas de manière raisonnable la distance de trajet sur route entre les maisons et les lacs. Deuxièmement, la relation existant entre les variables de surface habitable et de distance jusqu’à un plan d’eau et le prix de vente de la maison n’est pas nécessairement une relation linéaire. Il est possible que le modèle GLR soit un modèle trop simple dans ce scénario.

  12. Fermez les graphiques Distribution of Standardized Residuals (Distribution des résiduels standardisés) et la fenêtre Chart Properties (Propriétés du diagramme).
  13. Dans la fenêtre Contents (Contenu), décochez et réduisez les couches valuation_sqft_living_d2lake_glr et valuation_sqft_living_glr.
  14. Enregistrez le projet.

Vous avez ajouté la distance jusqu’aux lacs en tant que variable du modèle GLR et avez comparé les résultats aux résultats de votre modèle GLR initial. Les relations linéaires simples modélisées par le modèle GLR peuvent ne pas s’appliquer dans ce jeu de données. Vous allez maintenant essayer un modèle plus complexe.


Créer un modèle de régression linéaire général régionalisé

Vous allez ensuite diviser le comté en régions et exécuter des analyses GLR séparées pour chaque région.

Vérifier les régions dans les données

Vous allez d’abord changer la symbologie des données pour rechercher les régions.

  1. Dans la fenêtre Contents (Contenu), cliquez avec le bouton droit sur la couche kc_house_data, puis sélectionnez Symbology (Symbologie).
  2. Dans la fenêtre Symbology (Symbologie), définissez les paramètres suivants :
    • Pour Primary Symbology (Symbologie principale), sélectionnez Graduated Colors (Couleurs graduées).
    • Pour Field (Champ), sélectionnez price (prix).
    • Pour Classes, sélectionnez 10.
    • Pour Color scheme (Palette de couleurs), cochez la case Show Names (Afficher les noms) et sélectionnez Yellow-Green-Blue (Continuous) (Jaune-Vert-Bleu [continus]).

    Symbologie des seuils naturels pour la carte des prix

    Visualiser les données de cette manière montre les agrégats spatiaux distincts, avec les agrégats à coûts plus bas dans le sud et les agrégats nord-ouest et à prix plus élevés dans les zones proches de l’eau. La proximité de l’eau joue un rôle crucial pour déterminer le prix de vente dans cette région, et les prix changent graduellement dans un voisinage donné.

    Vous allez ensuite définir des voisinages d’évaluation orientée sur les données et exécuter une analyse GLR dans chaque région.

  3. Ouvrez la fenêtre Geoprocessing (Geotraitement) et cliquez sur le bouton Back (Retour) si nécessaire. Recherchez et ouvrez l’outil Spatially Constrained Multivariate Clustering (Agrégation multivariée spatialement contrainte).

    Vous utiliserez cet outil afin d’identifier les régions ayant des valeurs marchandes similaires pour les maisons présentant une surface habitable similaire.

  4. Dans l’outil Spatially Constrained Multivariate Clustering (Agrégation multivariée spatialement contrainte), saisissez les paramètres suivants :
    • Pour Input Features (Entités en entrée), choisissez kc_house_data.
    • Pour Output Features (Entités en sortie), saisissez price_regions.
    • Pour Analysis Fields (Champs d’analyse), cochez price et sqft_living.
    • Pour Spatial Constraints (Contraintes spatiales), vérifiez que le paramètre Trimmed Delaunay triangulation (Triangulation coupée de Delaunay) est sélectionné.
    • Pour Output Table for Evaluating Number of Clusters (Table en sortie pour vérifier le nombre d’agrégats), saisissez num_clusters.

    Paramètres de l’outil Agrégation multivariée spatialement contrainte

    Remarque :

    Si vous ne spécifiez pas de nombre d’agrégats, l’outil choisit automatiquement le nombre résultant dans les régions les plus homogènes.

  5. Cliquez sur Run (Exécuter).
    Remarque :

    Si l’exécution de l’outil échoue, enregistrez le projet, puis fermez et rouvrez ArcGIS Pro. Ouvrez le projet et relancez l’outil.

    L’outil s’exécute et une nouvelle couche est ajoutée à la carte.

    Résultats de l’outil Agrégation multivariée spatialement contrainte

    Remarque :

    Une fois l’outil exécuté, ne fermez pas la fenêtre Geoprocessing (Géotraitement). Vous y reviendrez prochainement.

    Les résultats ne contiennent que deux agrégats. Vous allez examiner le diagramme Optimized Pseudo-F Statistic Chart (Statistique pseudo F optimisée) pour comprendre par quelles autres manières les données peuvent être agrégées.

  6. Dans la fenêtre Contents (Contenu), sous Standalone Tables (Tables autonomes), double-cliquez sur Optimized Pseudo-F Statistic Chart (Diagramme Statistique pseudo F optimisée).

    Diagramme statistique de pseudo F optimisé

    Dans ce tracé, vous recherchez les coudes ou les tendances dans le diagramme où le fait d’ajouter une autre région ne diminue pas considérablement l’homogénéité des agrégats. Le diagramme comprend un coude pour huit régions. Après la huitième région, le nombre d’agrégats décroît de manière homogène.

    Vous allez relancer l’outil, cette fois avec huit régions. La fenêtre Geoprocessing (Géotraitement) est déjà ouverte sur l’outil avec les paramètres utilisés pour son exécution antérieure.

  7. Fermez le diagramme et la fenêtre Chart Properties (Propriétés du diagramme).
  8. Dans la fenêtre Geoprocessing (Géotraitement), pour Number of Clusters (Nombre d’agrégats), saisissez 8.

    Paramètre Nombre d’agrégats

    Vous laisserez les autres paramètres inchangés. En conservant le même nom en sortie, la nouvelle sortie de l’outil remplace l’ancienne.

  9. Cliquez sur Run (Exécuter)

    La couche price_regions est ajoutée à la carte. Elle comprend huit agrégats.

    Résultats de l’agrégation multivariée spatialement contrainte avec huit agrégats

  10. Dans la fenêtre Contents (Contenu), sous price_regions et Charts (Diagrammes), double-cliquez sur Spatially Constrained Multivariate Clustering Box-Plots (Boîtes à moustaches Agrégation multivariée spatialement contrainte).

    Diagramme Boîtes à moustaches d’agrégation multivariée spatialement contrainte

    Les couleurs figurant dans le diagramme correspondent à celles des agrégats sur la carte. Les agrégats en bleu, en vert, en jaune, en marron et en pourpre sont au-dessus du troisième quartile pour les valeurs price et sqft_living. Le bleu correspond à un agrégat où la surface habitable est plus petite par rapport à un agrégat en vert et à un agrégat en marron mais où le prix est plus élevé. Cette couleur peut indiquer un endroit recherché de la ville. Sur la carte, l’agrégat bleu correspond à une zone située à l’est du lac Washington. Dans cet agrégat, l’espace habitable n’est pas nécessairement le facteur déterminant principal dans le prix de vente de la maison.

    La région en vert, située sur une île du lac Washington, correspond aux maisons ayant une surface habitable plus grande par rapport aux agrégats en bleu mais à un prix plus bas.

    Si l’on observe les régions en dessous du troisième quartile de prix, l’agrégat en rose est moins cher que les agrégats en rouge et en gris, l’espace habitable moyen y étant le même que dans l’agrégat en rouge. Cela peut indiquer que l’on obtient dans l’agrégat en rose une maison moins chère offrant la même surface habitable. Cela peut également indiquer que le modèle linéaire n’a pas fonctionné.

  11. Fermez le diagramme et la fenêtre Chart Properties (Propriétés du diagramme).

Exécuter une analyse GLR pour chaque région

Vous allez ensuite exécuter une analyse GLR dans chaque région. Pour cela, vous allez sélectionner l’ensemble de points de chaque agrégat par attribut, puis exécuter une analyse GLR pour chaque sélection. Puisqu’il y a huit régions, il est plus efficace d’utiliser ModelBuilder afin d’automatiser le processus.

  1. Sur le ruban, cliquez sur l’onglet Analyse. Dans le groupe Geoprocessing (Géotraitement), cliquez sur ModelBuilder.

    Bouton ModelBuilder

    La vue Model (Modèle) apparaît.

  2. Cliquez sur la couche price_regions et faites-la glisser de la fenêtre Contents (Contenu) au canevas de modèle.

    Couche price_regions dans le modèle

  3. Sur le ruban, sous l’onglet ModelBuilder, dans le groupe Insert (Insérer), cliquez sur Iterators (Itérateurs), puis sélectionnez Iterate Feature Selection (Itérer dans une sélection d’entités).

    Option Itérer dans une sélection d’entités

  4. Dans la zone d’affichage du modèle, faites glisser une flèche de price_regions vers Iterate Feature Selection (Itérer dans une sélection d’entités).

    Flèche connectant price_regions à Itérer dans une sélection d’entités

    Un menu déroulant s’affiche.

  5. Dans le menu déroulant, sélectionnez In Features (Dans les entités).

    Option Dans les entités

    L’élément Iterate Feature Selection (Itérer la sélection d’entité) et les éléments connexes changent de couleur. Vous allez ensuite ajuster le paramètre d’outil afin de passer en revue chacune des huit valeurs Cluster ID (ID d’agrégat) et de créer une sélection pour chacune d’entre elles.

  6. Double-cliquez sur Iterate Feature Selection (Itérer la sélection d’entité).
  7. Dans la fenêtre Iterate Feature Selection (Itérer dans une sélection d’entités), sous Group By Fields (Grouper par champs), définissez le champ sur Cluster ID (ID d’agrégat).

    Paramètre Grouper par champs défini sur ID d’agrégat

  8. Cliquez sur OK.

    L’itérateur comporte deux sorties. I_price_regions_CLUSTER_ID est la couche d’entités sélectionnée et Value (Valeur) une variable qui contient la valeur de la sélection actuelle. Dans ce cas, il s’agit de la valeur d’ID de chaque agrégat.

    Vous allez ensuite rattacher l’outil Generalized Linear Regression (Régression linéaire généralisée) à la sortie de l’itérateur. Comme l’itérateur passe en revue chaque agrégat, l’outil s’exécute pour chaque agrégat.

  9. Dans la fenêtre Géotraitement, cliquez sur le bouton Retour. Recherchez generalized linear (linéaire généralisée).
  10. Dans la liste des résultats de recherche, faites glisser l’outil Generalized Linear Regression (Spatial Statistics Tools) (Régression linéaire généralisée (Outils de statistiques spatiales)) sur la zone d’affichage du modèle, en regard de la sortie ovale I_price_regions_CLUSTER_ID en vert de l’itérateur.
  11. Dans la zone d’affichage du modèle, faites glisser une flèche de I_price_regions_CLUSTER_ID vers Generalized Linear Regression et sélectionnez Input Features (Entités en entrée).

    L’outil est connecté à la sortie.

    Connexion entre la sortie et l’outil GLR

    Vous allez ensuite ajuster les paramètres de l’outil GLR.

  12. Double-cliquez sur Generalized Linear Regression (Régression linéaire généralisée).

    Le paramètre Input Features (Entités en entrée) est défini sur price_regions:1 car vous avez connecté la sortie de l’itérateur à l’outil.

  13. Pour Dependent Variable (Variable dépendante), sélectionnez price (prix). Pour Explanatory Variable(s) (Variable[s] explicative[s]), cochez sqft_living.

    Variables dépendantes et explicatives

  14. Pour Output Features (Entités en sortie), saisissez valuation_sqft_living_glr_region_%Value%.

    Paramètre Entités en sortie

    Utiliser le texte %Value% à la fin du nom de l’entité en sortie a pour effet d’ajouter le contenu de la variable Value (Valeur) au nom. Avec ce schéma de dénomination, chaque cycle de l’itérateur comporte un nom unique associé à l’agrégat en cours d’analyse.

  15. Cliquez sur OK.
  16. Sur le ruban, sous l’onglet ModelBuilder, dans le groupe Vue, cliquez sur Mise en forme automatique.

    Bouton Mise en forme automatique

    Les éléments du modèle sont organisés automatiquement.

    Modèle dont les éléments sont organisés automatiquement

    Les ovales Output Predicted Features (Entités prévues en sortie) et Output Trained Model File (Fichier de modèle entraîné en sortie) restent gris car il s’agit de sorties facultatives de l’outil que vous n’utilisez pas pour le moment.

  17. Sur l’onglet ModelBuilder, dans le groupe Insert (Insérer), cliquez sur Utilities (Utilitaires) et sélectionnez Collect Values (Collecter des valeurs).

    Option Collecter des valeurs

    Les utilitaires Collect Values (Collecter des valeurs), Output Values (Valeurs en sortie) et Output Table (Table en sortie) sont ajoutés dans la zone d’affichage du modèle.

  18. Dans la zone d’affichage du modèle, faites glisser une flèche de valuation_sqft_living_glr_region_%Value% vers Collect Values (Collecter des valeurs) et sélectionnez Input Value (Valeur en entrée).
    Conseil :

    Le cas échéant, vous pouvez repositionner un objet en le sélectionnant et en le faisant glisser.

  19. Cliquez avec le bouton droit sur Output Values (Valeurs en sortie) et sélectionnez Add To Display (Ajouter à l’affichage).

    Option Add To Display (Ajouter à la carte)

    Le modèle est maintenant prêt à s’exécuter.

  20. Sur le ruban, dans l’onglet ModelBuilder, dans le groupe Run (Exécuter), cliquez sur Validate (Valider).

    Votre modèle est validé. Il est maintenant prêt à s’exécuter.

  21. Sous l’onglet ModelBuilder, dans le groupe Run (Exécuter), cliquez sur Run (Exécuter).

    Pendant que le modèle s’exécute, les éléments de l’outil deviennent rouges pour indiquer qu’ils sont en cours d’exécution et la fenêtre de résultats du modèle affiche les résultats de chaque exécution du modèle GLR.

    Les groupes de couches de résultats GLR, huit au total, sont ajoutés à la carte et à la fenêtre Contents (Contenu).

Examiner les résultats du modèle

Vous allez ensuite examiner les résultats du modèle et renommer les couches pour qu’elles soient plus compréhensibles.

  1. Dans la fenêtre Contents (Contenu), pour Output Values:valuation_sqft_living_glr_region_1, sous Charts, double-cliquez surRelationship between Variables (Relation entre les variables).

    Diagramme Relation entre les variables pour la couche Output Values:valuation_sqft_living_glr_region_1

    La vue du diagramme apparaît.

    Diagramme Relation entre les variables

    La valeur R2 de cet agrégat s’est améliorée, passant de 0,49 à environ 0,67. Vous pouvez ouvrir les diagrammes des autres couches pour voir les valeurs R2 des autres régions.

  2. Fermez la vue du diagramme et la fenêtre Chart Properties (Propriétés du diagramme).
  3. Fermez la vue Model (Modèle). Cliquez sur Yes (Oui) pour enregistrer le modèle.

    La vue Map (Carte) se réactive.

    Carte de résultats GLR à plusieurs régions

    Les zones situées autour du lac Washington sont prévues de manière plus précise ; toutefois, d’autres zones (par exemple, le quartier de West Seattle) présentent un nombre élevé de prix de ventes de maison sous-estimés (en vert foncé). Les modèles régionalisés courent le risque d’amplifier les problèmes spécifiques à des points aberrants en régression. La table suivante résume la valeur R2 d’ensemble de chaque région :

    Région

    R-Squared value (Valeur R-carré)

    Région 1

    0,667345

    Région 2

    0,511873

    Région 3

    0,573594

    Région 4

    0,785343

    Région 5

    0,672591

    Région 6

    0,587296

    Région 7

    0,369590

    Région 8

    0,587235

    La qualité de modèle globale de chacune de ces régions est supérieure au résultat du modèle GLR que vous avez exécuté sur l’ensemble du jeu de données, à l’exception de la région 7, une vaste région contenant des points aberrants. Le fait de disposer de plusieurs régions fait perdre la parcimonie du modèle mathématique. Les valeurs ont différentes fonctions mathématiques pour différentes circonscriptions de la ville expliquant les tendances divergentes. Vous allez avancer dans la complexité et rechercher un modèle expliquant le prix de vente des maisons dans le comté de King, Washington, en utilisant le jeu de données entier dans un modèle.

    Avant de continuer, vous allez nettoyer la fenêtre Contents (Contenu) en regroupant les sorties de vos modèles. Chacune des couches Output Values (Valeurs en sortie) se trouve déjà dans un groupe de couches nommé Model Builder. Vous allez mettre à jour le nom du groupe et supprimer le texte Output Values (Valeurs en sortie) de chacune des couches.

  4. Dans la fenêtre Contents (Contenu), cliquez sur le nom de groupe de couches ModelBuilder pour le sélectionner et cliquez de nouveau pour mettre à jour son nom. Renommez le groupe Regional GLR Model (Modèle GLR régional).
  5. Renommez Output Values:valuation_sqft_living_glr_region_8 en supprimant le texte the Output Values:.
  6. Renommez les 7 couches restantes en supprimant le texte Output Values:. Réduisez les huit couches.

    Couches et groupe de couches renommés dans la fenêtre Contenu

  7. Cliquez sur la couche valuation_sqft_living_d2lake_glr et appuyez sur Maj tout en cliquant sur la couche valuation_sqft_living_glr.
  8. Cliquez avec le bouton droit sur les couches sélectionnées et choisissez Group (Groupe). Renommez le groupe de couches Global GLR Model (Modèle GLR global).

    Groupe de couches créé et renommé Modèle GLR global

  9. Sur le ruban, cliquez sur l’onglet Map (Carte). Si nécessaire, dans la section Selection (Sélection), cliquez sur Clear (Effacer) pour effacer les sélections.
  10. Enregistrez le projet.

Jusqu’à présent, vous avez effectué deux tentatives d’incorporation des caractéristiques spatiales à votre analyse. Vous avez d’abord utilisé la distance par rapport aux plans d’eau comme valeur prédictive. Ensuite, vous avez créé des régions orientées sur les données en fonction du prix de vente de la maison et de la surface habitable et avez exécuté huit modèles de régression discrète spatialement.

Vous allez ensuite utiliser la régression linéaire pondérée géographiquement pour modéliser les prix des maisons.


Modéliser des relations variant dans l’espace

Vous allez ensuite utiliser la régression linéaire pondérée géographiquement et la régression et la classification basées sur une forêt pour modéliser le prix des maisons.

La régression linéaire pondérée géographiquement est un modèle de régression linéaire variant en continu qui identifie les relations existant entre une variable cible (prix de vente) et plusieurs variables explicatives (caractéristiques de propriété). Avant de l’utiliser, vous allez déterminer s’il existe des relations spatiales statistiquement significatives entre les variables.

Identifier les relations spatiales entre variables

Vous allez d’abord utiliser exécuter l’outil Local Bivariate Relationships (Relations bivariées locales). Cet outil utilise une approche basée sur l’entropie pour découvrir les relations spatiales. S’il existe une relation significative entre deux variables dans un sous-ensemble de données, randomiser les données a pour effet d’augmenter considérablement l’entropie. S’il n’existe pas de relation significative, randomiser les données n’augmente pas considérablement l’entropie. En d’autres termes, introduire des tests d’entropie ou de randomisation a pour effet de déterminer s’il existe une relation à détruire entre deux variables.

La randomisation peut ne pas changer la relation existant entre deux variables s’il n’existe d’abord aucune relation à détruire. Pour en savoir plus sur ce concept d’utilisation de l’entropie afin de découvrir les relations, reportez-vous à Guo (2010).

  1. Dans la fenêtre Geoprocessing (Géotraitement), recherchez l’outil Local Bivariate Relationships (Relations bivariées locales) et ouvrez-le.
  2. Dans l’outil Local Bivariate Relationships (Relations bivariées locales), définissez les paramètres suivants :
    • Pour Input Features (Entités en entrée), choisissez kc_house_data.
    • Pour Dependent Variable (Variable dépendante), sélectionnez sqft_living.
    • Pour Explanatory Variable (Variable explicative), sélectionnez price (prix).
    • Pour Number of Neighbors (Nombre de voisins), saisissez 50.

    Pourquoi choisir 50 voisins ?

    Le voisinage doit être assez grand pour capturer une relation significative entre les variables, lorsqu’il existe de telles relations spatiales. Vous aurez peut-être besoin d’essayer une variété de valeurs, mais 50 maisons constituent un nombre de voisins suffisant pour avoir confiance dans les diagnostics de régression et savoir si la régression locale fonctionne sur ce jeu de données et constituent dans un même temps un pourcentage suffisamment faible du jeu de données entier du comté de King pour que la régression locale soit différente du modèle GLR.

    Il s’agit d’une application du concept de la puissance statistique de la régression, qui constitue la probabilité de trouver une ligne la mieux adaptée significative (avec des erreurs de faible ajustement) lorsque la population (toutes les maisons du comté de King, Washington) affiche une relation significative entre les variables qui vous intéressent.

  3. Pour Output Features (Entités en sortie), saisissez local_rlns_sqft_living_vs_price.

    Outil Relations bivariées locales

  4. Cliquez sur Run (Exécuter).

    L’outil s’exécute et ajoute la couche local_rlns_sqft_living_vs_price à la carte.

    Carte après l’exécution de l’outil Local Bivariate Relationships (Relations bivariées locales)

    Les symboles de cette couche apparaissent dans la fenêtre Contents (Contenu).

    Symboles Relations bivariées locales

    Pour un grand nombre de points dans une grande partie des voisinages, il existe une relation linéaire positive entre le prix et la surface habitable. Parce qu’il existe tant de points tracés à proximité les uns des autres dans ce vaste jeu de données, il existe un risque que les relations linéaires positives puissent se tracer en dernier, ce qui pourrait donner l’impression qu’elles dominent les résultats. Cela vaut la peine de vérifier les résultats de géotraitement de l’outil pour afficher le décompte de chaque classe.

  5. Au bas de la fenêtre Geoprocessing (Géotraitement), cliquez sur View Details (Afficher les détails).
  6. Le cas échéant, dans la fenêtre de détails Local Bivariate Relationships (Spatial Statistics Tools) (Relations bivariées locales [Outils de statistiques spatiales]), cliquez sur l’onglet Messages.

    Les résultats de l’outil indiquent qu’environ 71,6 % des points présentent une relation linéaire positive.

    Résultat de l’outil Local Bivariate Relationships (Relations bivariées locales)

    Ce résultat suggère que la régression pondérée géographiquement (GWR) peut modéliser des relations spatiales entre les variables sqft_living et price dans un voisinage de 50 maisons.

    Toutefois, la régression pondérée géographiquement ne place pas simplement une ligne à une localisation à l’aide d’un sous-ensemble local, mais elle met également en œuvre un schéma de pondération géographique qui pondère la variable de prévision pour une régression locale observée dans le voisinage. Observer des relations locales linéaires significatives entre des variables indique qu’un modèle GWR capturera les relations locales, mais sans que cela soit garanti.

  7. Fermez la fenêtre de détails. Sur la carte, cliquez sur l’un des points classés comme présentant une relation linéaire positive (avec un symbole rose).
    Conseil :

    Si vous ne parvenez pas à cliquer sur un point en raison de sa trop grande proximité avec un autre point, vous pouvez effectuer un zoom avant.

    La fenêtre contextuelle du point affiche un diagramme des relations locales existant à cette localisation et son voisinage.

    Fenêtre contextuelle pour un point d’une relation linéaire positive

  8. Fermez la fenêtre contextuelle. Cliquez sur un point présentant une relation concave (avec un symbole orange).

    Fenêtre contextuelle pour un point d’une relation concave

  9. Fermez la fenêtre contextuelle et enregistrez le projet.

    Vous pouvez résumer les deux emplacements avec une ligne et signaler uniquement le type de relation détecté en testant différents modèles de régression sur les emplacements identifiés comme ayant des relations statistiquement significatives dans leurs voisinages.

    La plus grande partie du comté de King, Washington, affiche des relations locales statistiquement significatives pour un voisinage de 50. Ici, 50 est une taille de voisinage sensée. Toutefois, l’outil ne détermine pas automatiquement la valeur de voisinage correcte et, pour différents jeux de données, différentes tailles de voisinage doivent être examinées.

    Si vous exécutiez cette analyse sur vos propres données, vous exécuteriez maintenant l’outil avec différentes tailles de voisinage pour explorer les changements des types de relations spatiales entre les variables sqft_living et price. La taille de voisinage établie comme ayant des relations linéaires locales doit être utilisée dans l’outil Geographically Weighted Regression (GWR) (Régression pondérée géographiquement (GWR)) à l’étape suivante.

Réaliser une régression pondérée géographiquement

Vous allez définir un modèle GWR avec la conceptualisation de relations spatiales que vous avez identifiée dans la section précédente : des voisinages consistant en 50 maisons.

  1. Dans la fenêtre Géotraitement, cliquez sur le bouton Retour. Recherchez et ouvrez l’outil Geographically Weighted Regression (GWR) (Régression pondérée géographiquement (GWR)).

    Cet outil peut utiliser différents types de noyaux contrôlant la pondération des voisins dans le modèle de régression locale.

    L’image suivante illustre un exemple du noyau. La ligne affiche le noyau gaussien où chaque voisin obtient une pondération dans la régression, avec un plus grand nombre de voisins distants obtenant des pondérations plus faibles. Le noyau Bisquare tronque le noyau à l’aide d’une distance ou d’un nombre de voisins. Ce modèle est indiqué par la partie de la courbe qui est remplie dans le tracé.

    Tracé de noyau GWR

    Vous allez utiliser un noyau bicarré pour attribuer des pondérations en n’utilisant que les 50 voisins les plus proches.

  2. Dans la fenêtre de l’outil Geographically Weighted Regression (Régression linéaire généralisée) (GWR), définissez les paramètres suivants :
    • Pour Input Features (Entités en entrée), choisissez kc_house_data.
    • Pour Dependent Variable (Variable dépendante), sélectionnez price (prix).
    • Pour Explanatory Variable(s) (Variable[s] explicative[s]), cochez sqft_living.
    • Pour Output Features (Entités en sortie), saisissez valuation_sqft_living_gwr.
    • Pour Neighborhood Type (Type de voisinage), sélectionnez Number of neighbors (Nombre de voisins).
    • Pour Neighborhood Selection Method (Méthode de sélection du voisinage), choisissez User defined (Défini par l’utilisateur).
    • Pour Number of Neighbors (Nombre de voisins), saisissez 50.

    Paramètres de l’outil Régression pondérée géographiquement

    Vous utilisez un nombre de voisins défini par l’utilisateur et pouvez donc utiliser le voisinage de 50 maisons (nombre de voisins que vous avez déterminé à l’aide de l’outil Local Bivariate Relationships (Relations bivariées locales)).

    Cet outil peut également sélectionner des voisins à l’aide de l’option de recherche linéaire d’intervalles manuelle ou de l’algorithme d’optimisation de recherche absolue.

  3. Développez Additional Options (Autres options) et vérifiez que Local Weighting Scheme (Schéma de pondération locale) est défini sur Bisquare (Bicarré).

    Avec la méthode de pondération Bisquare, à chaque emplacement, exactement 50 (ou le nombre que vous spécifiez) voisins sont utilisés. L’option Gaussien utilise tous les emplacements dans l’ensemble de données en tant que voisins (en d’autres termes, toutes les maisons dans le comté de King) et les pondère à l’inverse par rapport à leur distance. La méthode Bisquare utilise le même schéma de pondération mais au lieu d’utiliser toutes les données de maisons du comté de King, elle n’utilise qu’un voisinage de 50 maisons à chaque emplacement.

    Vous allez ensuite définir l’espace de travail de raster de coefficient, qui doit être une géodatabase. Cet outil effectue une régression locale et calcule les coefficients de régression variant dans l’espace pour les prédicteurs et la clause intercept. Il écrit les surfaces raster qui décrivent ces coefficients variant dans l’espace dans cet espace de travail.

  4. Pour Coefficient Raster Workspace (Espace de travail raster du coefficient), cliquez sur le bouton Browse (Parcourir). Dans la fenêtre Coefficient Raster Workspace (Espace de travail raster du coefficient), cliquez sur Databases (Bases de données) et sélectionnez myproject2.gbd.

    Fenêtre Espace de travail raster du coefficient

  5. Cliquez sur OK. Dans la fenêtre Géotraitement, cliquez sur Exécuter.

    L’outil s’exécute et les trois nouvelles couches sont ajoutées à la carte. Deux de ces couches sont des couches raster, que vous allez désactiver.

  6. Dans la fenêtre Contents (Contenu), décochez valuation_sqft_living_gwr_SQFT_LIVING et valuation_sqft_living_gwr_INTERCEPT.

    Carte affichant la couche valuation_sqft_living_gwr

    Comme avec le modèle GLR, ce modèle GWR sous-estime également les maisons situées à proximité du lac. Contrairement au modèle GLR, il sous-estime la valeur des maisons situées également sur la côte.

  7. Pour la couche valuation_sqft_living_gwr, sous Charts (Diagrammes), double-cliquez sur Distribution of Standardized Residual (Distribution des résiduels normalisés).

    Diagramme Distribution du résidu standardisé du modèle GWR

    Une majorité des points possèdent des résidus standardisés proches de 0. Le modèle effectue moins de sur et sous-estimations (résidus standardisés à plus d’un écart type) par rapport au modèle GLR.

    D’après la queue de la courbe, le modèle GWR a moins de localisations ayant des résidus importants (plus de deux écarts type) par rapport au modèle GLR. Cela indique que le modèle GWR capture mieux les écarts de prix comparé au modèle GLR.

  8. Fermez le diagramme et la fenêtre Chart Properties (Propriétés du diagramme).
  9. Dans la fenêtre Geoprocessing (Géotraitement), cliquez sur View Details (Afficher les détails). Dans la fenêtre de détails, accédez à la section Model Diagnostics (Diagnostics de modèle).

    Diagnostics du modèle GWR

    La valeur R2 est de 0,89 et la valeur R2 ajustée (AdjR2) de 0,87. Il s’agit d’une valeur R2 bien supérieure aux modèles GLR que vous avez exécutés précédemment, ce qui indique qu’il s’agit d’un modèle plus précis.

  10. Fermez la fenêtre de détails.
  11. Dans la fenêtre Contents (Contenu), appuyez sur la touche Ctrl et désactivez valuation_sqft_living_gwr.

    Plus aucune couche n’est visible sur la carte.

  12. Activez les couches suivantes pour les rendre visibles :
    • World Topographic Map
    • Ombrage mondial
    • valuation_sqft_living_gsr_SQFT_LIVING
    • LargeLakes
  13. Cliquez avec le bouton droit sur valuation_sqft_living_gwr_SQFT_LIVING et sélectionnez Symbology (Symbologie).
  14. Dans la fenêtre Symbology (Symbologie), pour Color scheme (Combinaison de couleurs), sélectionnez Yellow-Green-Blue (Continuous) (Jaune-vert-bleu (continu)).
  15. Pour Stretch Type (Type d’étirement), sélectionnez Histogram Equalize (Égaliser l’histogramme). Fermez la fenêtre Symbology (Symbologie).

    Carte symbolisée avec le type d’étirement Histogram Equalize (Égalisation d’histogramme)

    La fenêtre Contents (Contenu) présente la légende de la couche valuation_sqft_living_gwr_SQFT_LIVING.

    Légende de la carte d’estimation GWR

    Tous les coefficients de régression locale sont positifs. Cela implique que le modèle GWR a modélisé une relation positive entre la surface habitable et le prix de vente des maisons.

    Autour des deux grands lacs, le prix de vente du raster de maison présente une pente supérieure par rapport à la surface habitable, ce qui indique qu’un faible changement de la surface habitable des maisons situées à proximité de l’eau correspond à une augmentation bien supérieure du prix en comparaison avec les zones situées dans l’arrière-pays. Cela est normal dans la mesure où le prix de vente dans ces régions est largement influencé par la vue, une variable qui n’est pas capturée avec la surface habitable.

    Les portions d’arrière-pays du raster allant vers l’est ne doivent pas être considérées. En raison des points aberrants spatiaux, la zone d’étude est étirée et la portion est de ce jeu de données ne contient pas assez de données pour inspirer confiance dans les surfaces de coefficient sous-jacentes telles qu’elles sont interpolées. Vous ne devez pas accorder d’attention aux coefficients dans les zones possédant des points éparpillés, car l’algorithme interpole le coefficient entre les emplacements par des points de données.

    Comment améliorer davantage ce modèle ? Qu’en est-il des entités de distance ou de l’utilisation d’un second prédicteur ?

  16. Décochez la couche valuation_sqft_living_gwr_SQFT_LIVING pour la désactiver. Enregistrez le projet.

Tester la variable de grade

Selon votre visualisation de données précédente, grade était une autre variable corrélée linéairement au prix. Vous allez d’abord déterminer si la variable de grade est corrélée spatialement au prix de vente des maisons à l’aide de l’outil Local Bivariate Relationships (Relations bivariées locales).

  1. Au bas de la fenêtre Geoprocessing (Géotraitement), cliquez sur Open History (Ouvrir l’historique). Dans la fenêtre History (Historique), cliquez avec le bouton droit sur Local Bivariate Relationships (Relations bivariées locales), puis sélectionnez Open (Ouvrir).

    L’outil s’ouvre avec les paramètres que vous avez définis précédemment.

  2. Dans la fenêtre de l’outil Local Bivariate Relationships (Relations bivariées locales), modifiez les paramètres suivants :
    • Pour Dependent Variable (Variable dépendante), sélectionnez grade.
    • Pour Output Features (Entités en sortie), saisissez local_rlns_grade_vs_price.

    Paramètres des relations bivariées locales pour la variable de grade

  3. Cliquez sur Run (Exécuter).

    L’outil s’exécute et ajoute une couche à la carte qui présente des relations linéaires significatives entre grade et price (prix).

    Carte des relations GWR entre les variables grade et price

    Le modèle GWR étant un modèle linéaire, tout comme le modèle GLR, vous devez prendre en compte le problème de la multicolinéarité. Vous allez vérifier s’il existe des relations linéaires locales fortes entre les deux prédicteurs en effectuant une analyse Local Bivariate Relationships (Relations bivariées locales) entre sqft_living et grade.

  4. Dans l’outil Local Bivariate Relationships (Relations bivariées locales), modifiez les paramètres suivants :
    • Pour Explanatory Variable (Variable explicative), sélectionnez sqft_living.
    • Pour Output Features (Entités en sortie), saisissez local_rlns_grade_vs_sqft_living.
  5. Cliquez sur Run (Exécuter).

    Carte des relations GWR entre les variables grade et sqft_living

    Cette carte indique des relations linéaires locales fortes entre les deux prédicteurs. Elle indique qu’un voisinage de 50 maisons, que le grade et le nombre de pieds carrés de la surface habitable sont reliés les uns aux autres de manière significativement linéaire. N’oubliez pas que dans le modèle GLR, vous devez éviter les variables explicatives reliées de manière linéaire. Cette carte indique que dans un voisinage local de 50 maisons, le modèle GWR peut échouer en raison de la multicolinéarité si vous incluez à la fois le grade et les pieds carrés de surface habitable.

    Vous allez ensuite essayer d’utiliser les deux variables pour voir si l’outil échoue ou non.

  6. Dans la fenêtre History (Historique), cliquez avec le bouton droit sur l’outil Geographically Weighted Regression (GWR) (Régression pondérée géographiquement (GWR)) et sélectionnez Open (Ouvrir).

    L’outil s’ouvre avec les paramètres que vous avez définis précédemment.

  7. Dans l’outil Geographically Weighted Regression (Régression linéaire généralisée), mettez à jour les paramètres suivants :
    • Pour Explanatory Variable(s) (Variable[s] explicative[s]), cochez grade. Assurez-vous que la variable sqft_living est déjà cochée.
    • Pour Output Features (Entités en sortie), saisissez valuation_sqft_living_grade_gwr.

    Paramètres de l’outil GWR pour les variables sqft_living et grade en fonction du prix

  8. Cliquez sur Run (Exécuter).

    Comme l’on s’y attendait, l’outil échoue.

  9. Au bas de la fenêtre Geoprocessing (Géotraitement), pointez sur le message d’échec.

    Une fenêtre présentant un message d’erreur apparaît. Le message d’erreur indique que la cause en est la multicolinéarité.

    Message d’erreur de l’outil GWR

    Une limitation de l’outil GWR est qu’il ne fonctionne pas avec les variables agrégées spatialement. Cette caractéristique est généralement courante chez les attributs de logement. Le résultat indique que vous ne pouvez pas utiliser ces deux variables pour prévoir localement le prix de vente des maisons avec le modèle GWR actuel.

    Le modèle GWR fournit un mode de régression spatiale parcimonieux ; cependant, il ne fonctionne pas lorsqu’il existe une corrélation élevée entre les paires de variables de prédicteur.

Effectuer une régression et une classification basées sur une forêt

Vous disposez d’un jeu de données riche contenant des prédicteurs que vous souhaitez intégrer à votre modèle de régression. Vous allez ensuite utiliser le modèle de classification et de régression basées sur une forêt (FBCR). Ce type de modèle n’est pas affecté par la multicolinéarité car il ne s’agit pas d’un modèle linéaire, et il peut modéliser des relations entre une vaste quantité de variables de prédicteur (caractéristiques spatiales et non spatiales) et une variable cible (prix de vente). Jusqu’à présent, les modèles GLR et GWR ont modélisé des relations entre les variables sqft_living et price à l’aide d’une ligne. Localement ou globalement, une augmentation d’unité dans la taille d’une maison correspond à une augmentation du prix de la maison.

  1. Dans la fenêtre Géotraitement, cliquez sur le bouton Retour. Recherchez et ouvrez l’outil Forest-based Classification and Regression (Classification et régression basées sur une forêt) dans la boîte à outils Spatial Statistics (Statistiques spatiales).
  2. Dans la fenêtre de l’outil Forest based Regression and Classification (Classification et classification basées sur une forêt), définissez les paramètres suivants :
    • Pour Prediction Type (Type de prévision), choisissez Train only (Entraînement uniquement).
    • Pour Input Training Features (Entités d’entraînement en entrée), sélectionnez kc_house_data.
    • Pour Variable to Predict (Variable à prévoir), sélectionnez price (prix).

    Paramètres de l’outil Régression et classification basées sur une forêt

  3. Sous Explanatory Training Variables (Variables d’entraînement explicatives), pour Variable, cliquez sur le bouton Add Many (Ajouter plusieurs) et sélectionnez les variables suivantes :
    • Chambres
    • salles de bain
    • sqft_living
    • sqft_lot
    • étages
    • front de mer
    • afficher
    • condition
    • grade
    • sqft_above
    • sqft_basement

    Variables d’entraînement explicatives sélectionnées

  4. Cliquez sur Add (Ajouter).

    Vous devez indiquer si chaque prédicteur est une variable catégorique ou non. En cas de doute, vous pouvez vérifier la table attributaire pour être certain d’identifier toutes les variables catégoriques. L’outil détecte automatiquement les champs de chaîne en tant que catégories, mais, pour les catégories numériques (par exemple, les nombres entiers), vous devez identifier manuellement les variables catégoriques. Dans ce jeu de données, les variables bedrooms, bathrooms, floors, waterfront, view, condition et grade sont des variables catégoriques stockées comme des nombres entiers.

  5. Sous Categorial (Catégorique), cochez les cases des variables bedrooms, bathrooms, floors , waterfront, view, condition et grade.

    Variables catégoriques

  6. Pour Explanatory Training Distance Features (Entités de distance d’entraînement explicatives), sélectionnez LargeLakes.

    Cet outil peut calculer automatiquement la distance jusqu’aux entités et utiliser cette distance en entrée, comme l’outil GLR.

  7. Développez Additional Outputs (Sorties supplémentaires). Pour Output Trained Features (Entités entraînées en sortie), saisissez price_predicted et pour Output Variable Importance Table (Table de l’importance des variables en sortie), saisissez variable_importance.

    Section Sorties supplémentaires

    FBCR définit les arbres de décision pour les sous-ensembles aléatoires des données et chaque arbre effectue une prévision, appelée vote. La forêt résume ces votes en tant que moyenne et indique une prévision finale. Le caractère aléatoire de la répartition des données en sous-ensembles signifie que les modèles basés sur une forêt ont des résultats présentant une précision variable. Vous pouvez évaluer l’impact du sous-échantillonnage aléatoire des données de formation sur les résultats en sortie (en d’autres termes, la stabilité du modèle basé sur une forêt) en exécutant le modèle plusieurs fois et en définissant une distribution de la valeur R2.

    Dans ce cas, vous allez définir 20 exécutions de validation. Comme c’est le cas avec le nombre de décisions, un nombre d’exécutions de validation plus élevé est toujours désirable. Enfin, vous allez calculer l’incertitude de vos prévisions du prix de vente.

  8. Développez Advanced Forest Options (Options avancées de forêt). Pour Number of Trees (Nombre d’arbres), saisissez 1 000.

    Paramètre Nombre d’arbres défini sur 1 000

    Combien d’arbres suffisent ? La réponse est autant que vous êtes prêt à attendre que l’outil s’exécute. Si davantage d’arbres sont utilisés, la classification et la régression basées sur une forêt deviennent plus robustes au niveau des points aberrants et plus stables au niveau de la sélection des données aléatoires. Acceptez les valeurs par défaut pour le reste des options avancées.

  9. Développez Validation Options (Options de validation). Pour Number of Runs for Validation (Nombre d’exécutions pour la validation), saisissez 20.
  10. Cochez la case Calculate Uncertainty (Calculer l’incertitude). Pour Output Validation Table (Table de validation en sortie), saisissez validation_r2.

    Section Options de validation

  11. Cliquez sur Run (Exécuter).

    L’outil s’exécute.

    Remarque :

    L’exécution de l’outil peut prendre plus de 30 minutes. Ne fermez pas la fenêtre Geoprocessing (Géotraitement) une fois l’outil exécuté.

    Une fois l’outil exécuté, vous allez d’abord examiner la distribution de la valeur R2 à partir des 20 simulations.

  12. Faites défiler la fenêtre Contents (Contenu), faites défiler l’affichage vers le bas jusqu’à la section Standalone Tables (Tables autonomes). Sous validation_r2, double-cliquez sur le diagramme Validation R2.

    Diagramme Validation R2

    La précision moyenne du modèle FBCR est d’environ 0,79. Le modèle semble être stable lorsque la valeur R2 change entre 0,74 et 0,83 le long des 20 exécutions. Vos valeurs peuvent être légèrement différentes.

    Vous allez ensuite examiner l’importance des variables.

  13. Dans la fenêtre Contents (Contenu), dans la section Standalone Tables (Tables autonomes), sous variable_importance, double-cliquez sur le diagramme Distribution of Variable Importance (Distribution de l’importance des variables).

    Diagramme Distribution de l’importance des variables

    Les deux variables les plus importantes sont sqft_living et grade. Elles sont situées le plus en haut de l’axe Y (Importance). Ici, l’importance correspond au nombre de fois qu’une division d’arbre a lieu en fonction de la variable dans le modèle de forêt entier. Les nombres plus élevés indiquent un nombre de divisions d’arbre supérieur en fonction d’une variable, ce qui indique que l’impact de la variable sur le résultat du modèle de forêt est élevé. Ce diagramme indique que les variables grade et sqft_living échangent leur rang d’importance entre différentes exécutions du modèle. La distance jusqu’à un grand lac est le troisième prédicteur ayant le plus d’influence dans le modèle.

    La valeur R2 est inférieure au modèle GWR avec une variable. Comment améliorer ce modèle ?

    Pour cela, une manière consiste à supprimer les variables de prédicteur ayant une faible importance. Vous voulez supprimer les variables sans importance pour le modèle afin qu’elles ne soient pas aléatoirement sélectionnées pour un arbre spécifique au détriment de variables explicatives plus importantes.

    Selon le diagramme Distribution of Variable Importance (Distribution de l’importance des variables), les variables bedrooms, condition, floors et waterfront sont les moins importantes. Vous allez les supprimer.

  14. Fermez les deux diagrammes, ainsi que la fenêtre Chart Properties (Propriétés du diagramme).
  15. Dans la fenêtre Geoprocessing (Géotraitement), dans la section Explanatory Training Variables (Variables d’entraînement explicatives), pointez sur la variable bedrooms et cliquez sur le bouton Remove (Supprimer).

    Bouton Supprimer

  16. Supprimez les variables condition, floors et waterfront.

    Variables restantes

  17. Modifiez les paramètres suivants :
    • Sous Additional Outputs (Autres sorties), pour Output Trained Features (Entités entraînées en sortie), saisissez output_reduced.
    • Pour Output Variable Importance Table (Table de l’importance des variables en sortie), saisissez importance_variable_réduite.
    • Sous Validation Options (Options de validation, pour Output Validation Table (Table de validation en sortie), saisissez validation_r2_reduced.
  18. Cliquez sur Run (Exécuter).
    Remarque :

    L’exécution de l’outil prend parfois quelques minutes.

  19. Une fois l’exécution de l’outil terminée, au bas de la fenêtre Geoprocessing (Géotraitement), cliquez sur View Details (Afficher les détails). Dans la fenêtre de détails de l’outil, cliquez sur l’onglet Messages.

    Les paramètres de forêt de la section Model Characteristics (Caractéristiques du modèle) affichent la plage de profondeur d’arbre qui indique que tous les arbres subissent entre 26 et 43 divisions avant d’effectuer des prévisions. Cela implique que les arbres de décision capturent la variabilité des prédicteurs car elle correspond à la variabilité de la variable cible.

    Section Caractéristiques du modèle

    La section Model Out of Bag Errors (Erreurs hors section du modèle) indiquent l’impact de l’ajout de plus d’arbres au modèle :

    Section Erreurs hors section du modèle

    Le MSE et l’écart expliqués ne changent pas considérablement entre 500 et 1 000 arbres. Parce qu’il y a peu de changements, on peut soutenir que votre modèle possède suffisamment d’arbres et a convergé vers son impact maximal.

    Il est possible qu’il se produise un effet de plateau, auquel cas vous devez continuer à augmenter le nombre d’arbres jusqu’à ce que le MSE et le pourcentage d’écart expliqués augmentent considérablement (amélioration d’au moins 10 %). Même si la stabilité de ces mesures n’est pas garantie d’emblée, vous pouvez effectuer un nouveau test pour voir s’il y a des changements drastiques dans les performances d’erreur hors section en augmentant le nombre d’arbres. Des changements drastiques indiquent clairement d’utiliser plus d’arbres jusqu’à ce que les performances soient stables.

    La section Top Variable Importance (Importance des variables principales) affiche les variables orientant le modèle de forêt.

    Section Importance des variables principales

    La distance jusqu’aux cours d’eau est la troisième variable la plus importante.

    Les données de formation sont les données utilisées par les arbres dans la forêt. R-carré correspond à la prévision des données déjà perçues par la forêt. La valeur R2 de formation indique l’efficacité avec laquelle le modèle de forêt apprend les schémas existants dans les données de formation. Toutefois, les données de formation ne sont pas précédemment perçues par le modèle et la valeur R2 de validation est une indication des performances du modèle s’il est utilisé pour la prévision.

    Section Diagnostics

    Une valeur R2 égale à 0,945 indique que le modèle FBCR prévoit les données utilisées pour définir le modèle avec une grande précision. Une valeur de validation R2 égale à 0,78 suggère que ce modèle peut être généralisé, à savoir qu’il peut prédire les points de données qu’il n’a pas perçus avec une grande précision également.

    Dans les problèmes de régression, vous utilisez ces mesures de formation comme indication de la qualité potentielle du modèle. Lorsque vous prévoyez des données pour lesquelles vous ne disposez pas de la réponse juste, avec les prévisions réelles issues d’un modèle formé, vous ne pouvez pas calculer ces mesures. Ces diagnostics indiquent qu’au vu des données de formation, le modèle est performant pour prédire les données utilisées dans sa création et se généralise aux points de données qu’il n’a pas perçus précédemment.

  20. Fermez la fenêtre de détails. Dans la fenêtre Contents (Contenu), pour la couche output_reduced, double-cliquez sur le diagramme Prediction Interval (Intervalle de prévision).

    Diagramme Prediction Interval (Intervalle de prévision)

    Ce diagramme affiche les limites d’incertitude de la prévision, la ligne en bleu représentant la prévision réelle (également cartographiée dans la classe d’entités en sortie). Les limites d’incertitude s’élargissent rapidement pour les maisons à plus de 1 000 000 $. La raison réside dans la petite taille d’échantillon de ces maisons coûteuses. Pour les maisons à plus de 1 500 000 $, les limites d’incertitude sont même plus vastes, car cette plage de prix contient encore moins d’échantillons. Ce tracé constitue une méthode utile pour montrer l’incertitude liée à vos prévisions au vu de votre échantillon de formation.

  21. Fermez le diagramme et la fenêtre Chart Properties (Propriétés du diagramme). Enregistrez le projet.

Évaluer la distribution spatiale de l’incertitude

Enfin, vous allez évaluer la distribution spatiale de l’incertitude du modèle FBCR. Actuellement, le modèle renvoie P95 et P05, qui représentent une estimation supérieure et inférieure du prix des maisons pour quantifier l’incertitude basée sur le modèle. En d’autres termes, l’incertitude des résultats s’explique par votre modèle qui comprend vos données d’entraînement et le modèle FBCR. Si l’outil renvoie 100 000 $ en tant que prévision, 90 000 $ en tant que P05 et 120 000 $ en tant que P95, cela signifie que le modèle prédit 100 000 $, mais que de faibles changements dans les données de formation peuvent se traduire par une prévision aussi basse que 90 000 $ ou aussi élevée que 120 000 $.

Cette incertitude est importante à quantifier, car vous ne savez pas toujours si vous disposez d’un nombre suffisant d’échantillons pour modéliser le prix de vente des maisons avec précision. Vous allez ajouter un nouveau champ pour contenir la mesure d’incertitude que vous allez dériver de la sortie de l’outil. Cette mesure résume les trois valeurs (P05, prévision (P50) et P95) en un champ.

  1. Dans la fenêtre Geoprocessing (Géotraitement), recherchez et ouvrez l’outil Ajouter un champ.
  2. Dans la fenêtre de l’outil Add Field (Ajouter un champ), définissez les paramètres suivants :
    • Pour Input Table (Table en entrée), sélectionnez output_reduced.
    • Pour Field Name (Nom du champ), saisissez uncertainty (incertitude).
    • Pour Field Type (Type de champ), choisissez Double (64-bit floating point) (Double (virgule flottante 64 bits)).

    Paramètre de l’outil Ajouter un champ

  3. Cliquez sur Run (Exécuter).

    L’outil s’exécute et le champ est ajouté, mais aucun changement ne survient sur la carte.

  4. Dans la fenêtre Géotraitement, cliquez sur le bouton Retour. Recherchez et ouvrez l’outil Calculate Field (Data Management Tools) (Calculer le champ (outils de gestion de données)).

    Vous allez définir le champ d’incertitude comme suit :

    Uncertainty = (P95-P5)/P50

    Cette mesure quantifie la largeur de la fenêtre d’incertitude par rapport à la magnitude de la prévision.

  5. Dans la fenêtre de l’outil Calculate Field (Calculer un champ), définissez les paramètres suivants :
    • Pour Input Table (Table en entrée), sélectionnez output_reduced.
    • Pour Field Name (Nom du champ), sélectionnez uncertainty (incertitude).
    • Sous Expression, pour uncertainty = (incertitude =), saisissez (.

    Paramètres de l’outil Calculer un champ

  6. Dans la colonne Fields (Champs), double-cliquez sur PRICE_P95.

    Champ PRICE_P95

    Le texte !Q_HIGH! est ajouté à la zone d’équation. Ce texte est le nom du champ, délimité par des points d’exclamation.

  7. Cliquez sur le bouton du symbole moins, puis double-cliquez sur PRICE_P05. Saisissez ).

    L’expression indique désormais : (!Q_HIGH! - !Q_LOW!)

  8. Cliquez sur le bouton de division et double-cliquez sur PRICE(Predicted).

    L’expression entière est maintenant : (!Q_HIGH! - !Q_LOW!) / !PREDICTED!

  9. Cliquez sur le bouton Verify (Vérifier).

    Bouton Verify (Vérifier)

    Un message vous informe que l’expression est valide, ce qui signifie qu’elle peut être exécutée sans erreurs.

  10. Cliquez sur Run (Exécuter).

    L'outil s'exécute et le champ est calculé en fonction de votre expression. Aucune modification n’est apportée à la carte.

    Vous allez ensuite exécuter une analyse des points chauds dans ce champ uncertainty (incertitude) pour déterminer s’il existe des modèles spatiaux dans l’incertitude de prévision FBCR.

  11. Dans la fenêtre Géotraitement, cliquez sur le bouton Retour. Recherchez et ouvrez l’outil Optimized Hot Spot Analysis (Analyse des points chauds optimisée).
  12. Dans la fenêtre de l’outil Optimized Hot Spot Analysis (Analyse des points chauds optimisée), saisissez les paramètres suivants :
    • Pour Input Features (Entités en entrée), sélectionnez output_reduced.
    • Pour Output Features (Entités en sortie), saisissez output_reduced_HotSpots.
    • Pour Analysis Field (Champ d’analyse), sélectionnez uncertainty (incertitude).

    Paramètres de l’outil Optimized Hot Spot Analysis (Analyse des points chauds optimisée)

  13. Cliquez sur Run (Exécuter).

    La carte résultante indique que l’incertitude a tendance à être plus élevée dans la moitié sud du jeu de données et plus faible dans la moitié nord.

    Carte des points chauds d’incertitude

  14. Enregistrez le projet.

    Vos conclusions indiquent que les prévisions du prix de vente dans la partie nord du comté de King, Washington, sont moins enclines à changer du fait des changements aléatoires dans les données d’entraînement.

Vous avez utilisé la régression linéaire pondérée géographiquement et la régression et la classification basées sur une forêt pour modéliser les prix. Vous avez également exploré l’incertitude de vos résultats. Vous allez ensuite utiliser ces modèles pour procéder à une évaluation sur un nouvel échantillon de points.


Comparer les prévisions des modèles

Vous disposez de deux modèles ayant des valeurs R2, les deux valeurs étant supérieures à 0,75 (selon le niveau de précision souhaité, ce chiffre peut être plus élevé). L’un des modèles est le modèle de régression pondérée géographiquement (GWR) que vous avez créé avec sqft_living et le second le modèle de classification et de régression basées sur une forêt (FBCR) que vous venez de créer. L’un des modèles est parcimonieux tandis que l’autre offre des capacités de prévision supérieures.

Votre entreprise a construit de nouvelles maisons à Redmond, Washington, l’une des zones de construction de maisons se développant le plus vite dans le comté de King, Washington. Vous allez utiliser ces modèles pour procéder à une évaluation et comparer les résultats.

Effectuer une évaluation avec la régression pondérée géographiquement (GWR)

Vous allez d’abord appliquer le modèle GWR en vue de l’évaluation. Cette fois-ci, vous allez exécuter le modèle GWR dans le mode prévision. L’outil Geographically Weighted Regression (Régression pondérée géographiquement) applique au jeu de données new_homes le modèle que vous avez développé pour le jeu de données kc_house_data.

  1. Dans la fenêtre Geoprocessing (Géotraitement), cliquez sur Open History (Ouvrir l’historique).
  2. Dans la fenêtre History (Historique), cliquez avec le bouton droit sur l’outil le plus récent Geographically Weighted Regression (Régression pondérée géographiquement) s’étant exécuté avec succès, puis cliquez sur Open (Ouvrir).
    Remarque :

    Pour savoir si un outil s’est exécuté avec succès ou non, pointez dessus. La fenêtre contextuelle qui s’affiche indiquera si l’exécution de l’outil a échoué ou s’est terminée avec des avertissements.

    L’outil s’ouvre avec les paramètres que vous avez définis précédemment.

  3. Pour Explanatory Variable(s) (Variable[s] explicative[s]), vérifiez que sqft_living est coché et que grade est décoché. Pour Output Features (Entités en sortie), vérifiez que le nom en sortie est valuation_sqft_living_gwr.
  4. Développez la section Prediction Options (Options de prévision) et modifiez les paramètres suivants :
    • Dans Prediction Locations (Emplacements des prévisions), choisissez new_homes.
    • Pour Output Predicted Features (Entités prévues en sortie), saisissez new_home_valuation_gwr.

    Paramètres Options de prévision mis à jour

  5. Cliquez sur Run (Exécuter).

    La couche new_home_valuation_gwr est ajoutée à votre carte et à la fenêtre Contents (Contenu).

  6. Dans la fenêtre Contents (Contenu), cliquez avec le bouton droit sur new_home_valuation_gwret choisissez Zoom To Layer (Zoom sur la couche). Effectuez un zoom arrière pour voir davantage de contexte pour la localisation de la couche.

    Carte représentant l’estimation des maisons neuves à l’aide du modèle de prévision GWR

Effectuer une évaluation avec le modèle de classification et de régression basées sur une forêt (FBCR)

Vous allez maintenant utiliser FBCR pour prévoir des valeurs. Vous allez exécuter l’outil Forest-based Classification and Regression (Classification et régression basées sur une forêt) dans le mode prévision.

  1. Dans la fenêtre History (Historique), cliquez avec le bouton droit sur l’outil le plus récent Forest-based Classification and Regression (Régression et classification basées sur une forêt) s’étant exécuté avec succès, puis cliquez sur Open (Ouvrir).
  2. Dans la fenêtre de l’outil Forest-Based Classification and Regression (Régression et classification basées sur une forêt), pour Prediction Type (Type de prévision), sélectionnez Predict to features (Prévoir selon les entités).

    Paramètre Type de prévision

  3. Pour Input Prediction Features (Entités de prévision en entrée), sélectionnez new_homes. Pour Output Predicted Features (Entités prévues en sortie), saisissez new_home_valuation_fbcr.

    Paramètres mis à jour dans l’outil Régression et classification basées sur une forêt

  4. Cliquez sur Run (Exécuter).
    Remarque :

    L’exécution de l’outil peut prendre plus de 15 minutes.

    Une fois l’exécution de l’outil terminée, la couche new_home_valuation_fbcr est ajoutée à la carte.

    Résultats de l’estimation des maisons neuves à l’aide de l’outil FBCR

  5. Enregistrez le projet.

Comparer les résultats avec des histogrammes

Vous avez produit deux estimations de prix de vente pour le développement planifié. Vous allez ensuite comparer ces résultats. En mode prévision, vous n’obtenez pas de vrai résultat, mais seulement une estimation. Vous pouvez évaluer vos résultats en termes de cohérence par rapport aux prix dans leurs voisinages.

Vous allez d’abord comparer les histogrammes des sorties de modèle.

  1. Dans la fenêtre Contents (Contenu), cliquez avec le bouton droit sur la couche new_home_valuation_gwr, pointez sur Create Chart (Créer un diagramme) et sélectionnez Histogram (Histogramme).
  2. Dans la fenêtre Chart Properties (Propriétés du diagramme), sous Variable, pour Number (Numéro), choisissez Predicted (PRICE) (Prévu [PRIX]).

    Fenêtre Propriétés du diagramme pour l’estimation des maisons neuves à l’aide du modèle GWR

  3. Créez un histogramme pour la couche new_home_valuation_fbcr à l’aide de l’attribut PRICE(Predicted) (Prix [prévu]).
  4. Faites glisser le diagramme new_home_valuation_fbcr et ancrez-le à droite du diagramme new_home_valuation_gwr.

    Vous pouvez maintenant comparer les diagrammes côte à côte.

    Diagrammes côte à côte

    Les plages de prix et les valeurs moyennes sont similaires. Avec les caractéristiques de propriété données, la valeur moyenne de ces maisons neuves est d’environ 770 000 $ à 849 000 $. La limite supérieure du prix de vente d’une maison dans cette zone pour GWR est de 1 505 000 $ et de 1 327 000 $ pour FBCR.

  5. Fermez les deux fenêtres de diagramme et la fenêtre Chart Properties (Propriétés du diagramme).

    Pour les prix des maisons situées dans cette zone, l’estimation GWR du jeu de données kc_house_dataset est plus raisonnable. C’est l’une des forces du modèle de régression pondérée géographiquement : il affecte les valeurs en prenant le voisinage en compte. Toutefois, toutes les maisons figurant dans le jeu de données kc_house_dataset sont des maisons préexistantes qui n’affichent pas une condition ou un grade aussi bons que les maisons neuves. La classification et la régression basées sur une forêt utilisent les schémas de ces maisons dans tout le comté de King pour faire une estimation à partir du jeu de données entier.

Comparer l’évaluation des prix par pied carré

Les attributs des maisons neuves présentent d’importantes différences. Pour mettre les prévisions de prix de vente en perspective, vous allez calculer le prix par pied carré. Vous allez regrouper les prévisions GWR et FBCR en une classe d’entités pour approfondir la comparaison.

Avant de joindre les valeurs de prévision, vous allez mettre à jour les valeurs des champs pour les distinguer les uns des autres.

  1. Dans la fenêtre Contents (Contenu), cliquez avec le bouton droit sur la couche new_home_valuation_gwr, pointez sur Data Design (Conception de données) et sélectionnez Fields (Champs).

    La vue Fields (Champs) de la couche apparaît.

  2. Dans la vue Fields (Champs), sous Field Name (Nom du champ), double-cliquez sur PREDICTED (PRÉVU). Saisissez Predicted_GWR et appuyez sur Entrée.

    La valeur Field Name (Nom du champ) est actualisée.

    Nom du champ changé en Predicted_GWR

  3. Sous Alias, double-cliquez Predicted (PRICE) (Prévu [PRIX]). Saisissez GWR Prediction (Prévision GWR) et appuyez sur Entrée.
  4. Sur le ruban, sous l’onglet Fields (Champs), dans le groupe Changes (Modifications), cliquez sur Save (Enregistrer).
  5. Dans la fenêtre Contents (Contenu), cliquez avec le bouton droit sur la couche new_home_valuation_fbcr, pointez sur Data Design (Conception de données) et sélectionnez Fields (Champs). Modifiez les champs suivants :
    • Sous Field Name (Nom du champ), changez PREDICTED (PRÉVU) en Predicted_FBCR (Prévu_FBCR).
    • Sous Alias, changez PRICE(Predicted) (Prix [prévu]) en FBCR Prediction (Prévision FBCR).

    Nom de champ changé en Prévu_FBCR et Alias changé en Prévision FBCR

  6. Sur le ruban, sous l’onglet Fields (Champs), dans le groupe Changes (Modifications), cliquez sur Save (Enregistrer). Fermez les deux vues Fields (Champs).

    Vous allez ensuite joindre les résultats GWR et les résultats FBCR.

  7. Dans la fenêtre Geoprocessing (Géotraitement), recherchez et ouvrez l’outil Spatial Join (Jointure spatiale). Définissez les paramètres suivants :
    • Pour Target Features (Entités cible), sélectionnez new_home_valuation_gwr.
    • Pour Join Features (Entités de jointure), sélectionnez new_home_valuation_fbcr.
    • Pour Output Feature Class (Classe d’entités en sortie), saisissez price_comparison.
    • Développez Fields (Champs). Sous Field Map (Appariement des champs), pour Output Fields (Champs en sortie), cliquez sur le bouton Remove (Supprimer) pour supprimer tous les champs à l’exception de SOURCE_ID, sqft_living, Predicted_GWR et Predicted_FBCR.

    Paramètres de l'outil Jointure spatiale

  8. Cliquez sur Run (Exécuter).

    L’outil s’exécute et la nouvelle couche est ajoutée à la carte. Vous allez ensuite créer de nouveaux champs afin de calculer le prix prévu par pied carré pour chaque modèle de prévision.

  9. Dans la fenêtre Contents (Contenu), cliquez avec le bouton droit sur price_comparison, pointez sur Data Design (Conception de données) et sélectionnez Fields (Champs).
  10. Dans la vue Field (Champs), cliquez sur Click here to add a new field (Cliquez ici pour ajouter un nouveau champ). Créez un champ avec les paramètres suivants :
    • Pour Field Name (Nom du champ), saisissez GWR_PSQFT.
    • Pour Alias, saisissez GWR (price per square foot) (GWR [prix par pied carré]).
    • Dans Data Type (Type de données), choisissez Double.
  11. Créez un autre nouveau champ avec les paramètres suivants :
    • Pour Field Name (Nom du champ), saisissez FBCR_PSQFT.
    • Pour Alias, saisissez FBCR (price per square foot) (FBCR [prix par pied carré]).
    • Dans Data Type (Type de données), choisissez Double.

    Vous disposez à présent de deux nouveaux champs.

    Les champs GWR_PSQFT (Prix au pied carré GWR) et FBCR_PSQFT (Prix au pied carré FBCR) sont ajoutés à la table attributaire

  12. Sur le ruban, sous l’onglet Champs, dans le groupe Modifications, cliquez sur Enregistrer. Fermez la vue Champs.

    À présent que vous avez ajouté des champs pour contenir les valeurs de prix par pied carré, vous allez calculer les valeurs en fonction de la valeur prévue et de la surface habitable dans chaque maison. Vous allez créer une expression qui divise le prix du modèle GWR prévu par la surface habitable.

  13. Dans la fenêtre Geoprocessing (Géotraitement), recherchez l’outil Calculate Field (Data Management Tools) (Calculer un champ [Outils de gestion des données]) et ouvrez-le. Définissez les paramètres suivants :
    • Pour Input Table (Table en entrée), sélectionnez price_comparison.
    • Pour Field Name (Existing or New) (Nom du champ [existant ou nouveau]), sélectionnez GWR (price per square foot) (GWR [prix au pied carré]).
    • Pour Expression, construisez l’expression suivante : !Predicted_GWR! / !sqft_living!

    Paramètres de Calculate Field (Calculer un champ)

  14. Cliquez sur Run (Exécuter).

    Vous allez relancer l’outil après avoir changé certains des paramètres pour refléter FBCR au lieu de GWR.

  15. Dans la fenêtre de l’outil Calculate Field (Calculer un champ), modifiez Field Name (Existing or New) (Nom du champ [existant ou nouveau]) en FBCR (price per square foot) (FBCR [prix au pied carré]). Pour Expression, créez l’expression suivante : !Predicted_FBCR! / !sqft_living!

    Cette expression divise les valeurs FBCR Prediction (Prévision FBCR) par la surface habitable.

  16. Cliquez sur Run (Exécuter).

    Maintenant que vous avez calculé les deux champs, vous allez les comparer. Les boîtes à moustaches constituent un bon moyen de comparer deux distributions. Vous allez utiliser une boîte à moustaches pour comparer les estimations de prix par pied carré des deux méthodes.

  17. Dans la fenêtre Contents (Contenu), cliquez avec le bouton droit sur price_comparison, pointez sur Create Chart (Créer un diagramme) et sélectionnez Box Plot (Boîte à moustaches).
  18. Dans la fenêtre Chart Properties (Propriétés du diagramme), pour Numeric field(s) (Champ(s) numérique(s)), cliquez sur Select (Sélectionner). Cochez les cases en regard de GWR (price per square foot) (GWR [prix par pied carré]) et FBCR (price per square foot) (FBCR [prix par pied carré]), puis cliquez sur Apply (Appliquer).

    Variables pour la boîte à moustaches

    La boîte à moustaches est mise à jour et indique l’estimation du prix par pied carré à partir des modèles GWR et FBCR.

    Boîte à moustaches des estimations de prix par pied carré

    Les longues moustaches de la boîte à moustache pour FBCR (price per square foot) (FBCR [prix au pied carré]) indiquent que quelques-unes des maisons ont reçu un prix significativement plus élevé que toutes les autres. La boîte à moustaches GWR (price per square foot) (GWR [prix au pied carré]) s’étend sur une zone plus large que le prix FBCR au pied carré, ce qui indique que le premier et le troisième quartiles de prévisions sont plus éloignés en comparaison. Cela signifie que, par rapport à la prévision FBCR, la prévision GWR présente une plus grande variation en termes de prix par pied carré.

    Le prix médian par pied carré est presque le même dans les deux méthodes. L’emplacement de la ligne médiane à l’intérieur du cadre correspondant à la prévision FBCR indique une distribution des prévisions faussée sur la gauche, ce qui signifie que le modèle a fréquemment prévu un prix par pied carré supérieur. Cela peut être dû à des schémas globaux dans le comté de King indiquant des prix élevés associés aux maisons neuves (les informations fournies par la variable de grade utilisée dans l’analyse FBCR). Les prévisions GWR sont symétriques autour de la moyenne, ce qui indique une distribution plus uniforme.

  19. Fermez la boîte à moustaches et la fenêtre Chart Properties (Propriétés du diagramme). Enregistrez le projet.

Cartographier l’incertitude de la prévision FBCR

Les distributions des prévisions FBCR et GWR présentent des différences considérables. Vous allez examiner l’incertitude de la prévision FBCR au niveau des points prévus.

  1. Cliquez avec le bouton droit sur new_home_valuation_fbcr, pointez sur Data Design (Conception de données) et sélectionnez Fields (Champs).
  2. Ajoutez un champ intitulé P95_minus_P5 (P95 moins P5) et définissez le type sur Double. Enregistrez les modifications et fermez la vue Fields (Champs).
  3. Dans la fenêtre Geoprocessing (Géotraitement), ouvrez l’outil Calculate Field (Calculate un champ) et modifiez les paramètres suivants :
    • Pour Input Table (Table en entrée), sélectionnez new_home_valuation_fbcr.
    • Pour Field Name (Nom du champ), sélectionnez P95_minus_P5 (P95 moins P5).
    • Pour Expression, créez l’expression suivante : !Q_HIGH! - !Q_LOW!
  4. Cliquez sur Run (Exécuter).
  5. Dans la fenêtre Contents (Contenu), désactivez les couches price_comparison et new_home_valuation_gwr.
  6. Cliquez avec le bouton droit sur new_home_valuation_fbcr et sélectionnez Symbology (Symbologie).
  7. Dans la fenêtre Symbology (Symbologie), définissez les paramètres suivants :
    • Pour Field (Champ), sélectionnez P95_minus_P5 (P95 moins P5).
    • Pour Classes, sélectionnez 10.
    • Pour Color scheme (Combinaison de couleurs), sélectionnez Greens (Continuous) (Verts [continu]).

    Paramètres de symbologie pour la couche P95_minus_P5

  8. En bas de la fenêtre Symbology (Symbologie), dans l’onglet Classes, cliquez sur More (Plus), puis sélectionnez Format all symbols (Formater tous les symboles).

    Option Formater tous les symboles

  9. Si nécessaire, cliquez sur l’onglet Properties (Propriétés).
  10. Sous Appearance (Apparence), pour Outline width (Largeur de ligne), saisissez 0.5. Dans Size (Taille), tapez 10.

    Paramètres Largeur du contour et Taille du symbole pour formater les symboles

  11. Cliquez sur Apply (Appliquer).

    La couche est mise à jour avec la nouvelle symbologie.

    Carte des différences

    Le vert foncé indique une plage d’incertitude élevée pour les prévisions. Certaines des maisons présentent une plage d’incertitude allant jusqu’à 1,7 million de dollars.

  12. Dans la fenêtre Contents (Contenu), sous new_home_valuation_fbcr, dans la section Charts (Diagrammes), double-cliquez sur Prediction Interval (Intervalle de prévision).
  13. Dans la fenêtre Chart Properties (Propriétés du diagramme), pour Date or Number (Date ou nombre), choisissez Sort Id by Predicted Value (Trier l’ID par valeur prévue). Pour Numeric field(s) (Champ(s) numérique(s)), sélectionnez FBCR Prediction (Prévision FBCR), PRICE_P05 et PRICE_P95.

    Diagramme Prediction Interval (Intervalle de prévision)

    La plage d’incertitude est d’environ 400 000 $ pour toutes les maisons à l’exception de celles dont le prix dépasse 1 million de dollars. Le modèle indique que de légères modifications dans les données de formation du comté de King peuvent se traduire par des changements importants du prix de vente prévu des maisons. Contrairement au modèle GLR ou GWR, le modèle FBCR ne s’extrapole pas. Si le prix maximal dans les données de formation est de 1,2 million de dollars, un prix que le modèle prévoit au-dessus de ce montant présentera une incertitude élevée. De même, dans la mesure où il y a relativement moins de maisons au prix le plus élevé, l’incertitude pour ces types de maisons sera élevée.

  14. Fermez le diagramme et la fenêtre Chart Properties (Propriétés du diagramme). Enregistrez le projet.

Si l’on compare les modèles FBCR et GWR, aucune des deux méthodes n’est intrinsèquement supérieure à l’autre. Chacune répond à différents besoins d’évaluation. Le modèle GWR définit un modèle spatial pour le prix de vente des maisons et représente le modèle idéal du prix de vente (Can, 1992) avec des pondérations variant de manière géographique. En comparaison, le modèle FBCR définit la relation existant entre les attributs d’une maison et son prix de vente. La compréhension de cet aspect peut avoir une valeur immense, car certains facteurs ont un impact global sur le prix des maisons sans variation spatiale (François et al., 2005).

Dans cette comparaison de méthodes, la méthode GWR convient mieux pour capturer les variations spatiales par rapport au prix. Il est également efficace dans le développement d’un modèle local pour le prix, dans lequel le prix des maisons prévu est raisonnable par rapport au voisinage. Toutefois, en raison de la multicolinéarité, il n’est pas possible d’utiliser la variable de grade en tant que prédicteur du modèle GWR. En comparaison, le FBCR modélise l’impact de la condition des maisons neuves en utilisant des analogies de tout le comté de King, Washington. Ce modèle se traduit par des prix de maison plus élevés, ce qui peut avoir un sens si le grade des structures est très élevé et que le développeur envisage de les répertorier pour un prix significativement plus élevé que les autres maisons du voisinage. L’analyse d’incertitude dans le modèle FBCR indique que les prix des maisons chères dépassant le million de dollars doit être réévalué. Le modèle GWR indique des valeurs raisonnables pour la zone de Redmond, Washington, mais ne prend pas en compte la condition des maisons neuves.

Le processus présenté dans ce didacticiel expose les modèles de régression dans ArcGIS Pro avec des hypothèses et un niveau de complexité variables. La visualisation est une partie vitale de l’analyse de régression permettant de comprendre les variables importantes et d’explorer les relations existant entre les variables. Le modèle GLR est le modèle le plus simple associant les variables exploratoires à une variable cible avec un modèle linéaire global. S’agissant du modèle de régression le plus facile à comprendre, il constitue un modèle utile à essayer.

Le modèle GWR définit un modèle linéaire qui varie d’un emplacement à l’autre. Le modèle GWR résout un modèle de régression linéaire à chaque emplacement où des variables de prédicteur issues de voisinages proches sont pondérées avec un noyau spatial, les voisins proches ayant plus d’impact sur le modèle de régression que les voisins distants. Les surfaces au coefficient GWR constituent également un moyen efficace de visualiser la variation spatiale de la relation existant entre une variable explicative et une variable cible. L’outil Relations bivariées locales est un outil utile pour explorer les types de relation spatiale existant entre deux variables. Les relations bivariées locales entre une variable explicative et des variables cible qui définissent des relations linéaires locales prédominantes indiquent que le modèle GWR serait un modèle efficace. Les relations bivariées locales entre deux variables explicatives définissant un nombre élevé de relations linéaires indiquent qu’un modèle GWR souffre de multicolinéarité si ces variables sont utilisées conjointement dans le modèle GWR.

Enfin, un modèle de classification et de régression basées sur une forêt (FBCR) définit un modèle basé sur une forêt permettant d’associer des variables explicatives à une variable cible. Malgré la complexité de son algorithmique, le modèle FBCR peut associer une grande variété de variables explicatives à une variable cible, continue ou discrète. Le modèle FBCR produit des diagnostics précieux tels que le tracé d’importance de variable qui quantifie l’impact d’une variable explicative dans le modèle de régression. Malgré sa flexibilité, le modèle FBCR est sensible aux données de formation utilisées pour définir le modèle. Dans l’exemple du prix de vente, si certaines plages de prix sont sous-représentées (par exemple, le nombre faible de maisons chères, à plus d’un million de dollars), on ne s’attend pas à ce que le modèle basé sur une forêt soit précis pour ces plages. De plus, le modèle FBCR ne peut pas faire de prévisions au-delà de la plage de variables cible dans le jeu de données de formation.

Vous trouverez d’autres didacticiels dans la bibliothèque des didacticiels.