Créer une carte de points chauds

Si vous aviez besoin d’argent pour consolider une dette, payer les frais d’un mariage, partir en vacances, effectuer des travaux dans votre maison ou régler des factures imprévues, seriez-vous prêt à contracter un emprunt en ligne ? Durant les dernières années, des millions de personnes ont répondu oui à cette question. Si vous choisissez de les rejoindre, quel serait votre taux d’intérêt ? La plupart des gens considèrent qu’une faible cote de crédit se traduit par un taux d’intérêt plus élevé. Cette hypothèse est-elle vérifiée ?

Jonathan Blum, un auteur new-yorkais et novice en SIG, voudrait en savoir davantage. Grâce aux données relatives aux prêts aux États-Unis d’août 2007 à septembre 2015 (provenant du LendingClub et résumées sous la forme de zones de codes postaux à 3 chiffres), il souhaite savoir si les taux d’intérêt payés par les personnes titulaires d’un prêt en ligne varient selon l’emplacement géographique.

Vous allez d’abord créer une carte de points chauds indiquant les zones où les taux d’intérêt sont particulièrement élevés ou faibles.

Ouvrir le projet

Vous allez télécharger et ouvrir un projet ArcGIS Pro contenant des données relatives aux prêts, résumées sous la forme de zones de codes postaux à 3 chiffres.

  1. Téléchargez le dossier compressé online-lending-data.
  2. Cliquez avec le bouton droit de la souris sur le dossier téléchargé et extrayez-le dans un emplacement facile d’accès, par exemple votre dossier Documents.
  3. Ouvrez le dossier online-lending-data.

    Ce dossier contient une géodatabase fichier comprenant des données, un dossier d’index, un fichier de projet ArcGIS Pro et une boîte à outils ArcGIS.

  4. Si ArcGIS Pro est installé sur votre machine, double-cliquez sur le fichier de projet OnlineLending (il peut être doté d’une extension .aprx). Si vous y êtes invité, connectez-vous via votre compte ArcGIS sous licence.
    Remarque :

    Si vous n’avez pas accès à ArcGIS Pro ou ne disposez pas d’un compte d’organisation ArcGIS, consultez les options disponibles pour accéder aux logiciels.

    Contenu du projet par défaut

    Le projet contient une carte de la partie continentale des États-Unis. Il comporte une couche des contours des états et une couche de zones de codes postaux à 3 chiffres (ZIP3) représentant les données relatives aux prêts. (Les zones ZIP3 sont issues de la géométrie définie par les trois premiers chiffres d’un code postal à 5 chiffres.)

    Vous allez ouvrir la table attributaire des données de prêt pour vous familiariser avec ces dernières.

  5. Dans la fenêtre Contents (Contenu), cliquez avec le bouton droit sur ZIP3 Loan Data (Données de prêt ZIP3) et sélectionnez Attribute Table (Table attributaire).

    Option Table attributaire

    La table s’ouvre. À chaque zone ZIP3 correspond un identifiant, le nombre total de demandes de prêt envoyées, le nombre total de prêts émis (prêts acceptés), le taux d’intérêt moyen de tous les prêts émis, le classement de cote de crédit moyen de tous les prêts émis et le nombre total de foyers.

    LendingClub affecte une cote de crédit à chaque demande de prêt reçue, allant de A1 (taux d’intérêt le plus bas) à E5 (taux d’intérêt le plus élevé). Ces cotes de crédit ont été converties en classements numériques simples à des fins d’analyse. Un classement de valeur 1 a été affecté aux cotes de crédit A1, un classement de valeur 2 a été affecté aux cotes de crédit A2, etc. Plus le classement est élevé, plus le prêt tend à être risqué.

  6. Fermez la table.

Sélectionnez les secteurs comportant au moins 30 prêts.

Pour vérifier que le taux d’intérêt moyen indiqué pour chaque zone ZIP3 est à la fois fiable et représentatif, vous allez concentrer votre analyse sur les zones ZIP3 dans lesquelles au moins 30 prêts ont été financés. Vous allez d’abord exécuter l’outil de géotraitement Sélectionner une couche par attributs pour sélectionner toutes les zones ZIP3 comportant au moins 30 prêts émis.

  1. Sur le ruban, cliquez sur l’onglet Analyse. Dans le groupe Géotraitement, cliquez sur Outils.

    Bouton Outils

    La fenêtre Géotraitement s’affiche. Cette fenêtre contient de nombreux outils que vous pouvez utiliser sur les couches de données.

  2. Dans la fenêtre Geoprocessing (Géotraitement), recherchez et sélectionnez Select Layer By Attribute (Sélectionner une couche par attribut).

    Sélectionner une couche par attributs, outil

    L’outil s’ouvre. Vous pouvez définir plusieurs paramètres d’exécution. Vous allez d’abord sélectionner la table sur laquelle l’outil va s’exécuter.

  3. Dans Input Rows (Enregistrements en entrée), sélectionnez ZIP3 Loan Data (Données de prêt ZIP3).

    Vous allez maintenant créer une clause de telle sorte que les zones ZIP3 comportant 30 prêts ou plus soient sélectionnées.

  4. Créez l’expression Where Number of loans issued is greater than or equal to 30 (Où Nombre de prêts émis est supérieur ou égal à 30).

    Paramètres de sélection de couche par attributs

  5. Cliquez sur Run (Exécuter).

    Les zones ZIP3 dans lesquelles au moins 30 prêts ont été émis sont sélectionnées. Vous allez maintenant créer une copie de la couche qui ne contient que les zones ZIP3 sélectionnées. Vous pourrez utiliser la couche copiée pour l’analyser ultérieurement.

  6. Dans la fenêtre Géotraitement, cliquez sur le bouton Retour.

    Bouton Back (Retour) dans la fenêtre Geoprocessing (Géotraitement)

    Vous revenez à la liste dans laquelle vous pouvez rechercher un outil.

  7. Effacez le texte de recherche existant. Recherchez et ouvrez l’outil Copy Features (Copier des entités).
  8. Pour Input Features (Entités en entrée), sélectionnez ZIP3 Loan Data (Données de prêt ZIP3). Pour Output Feature Class (Classe d’entités en sortie), conservez le chemin d’accès au fichier par défaut et modifiez le nom en sortie en Données_Analyse_ZIP3.

    Paramètres de l’outil Copier des entités

    Lorsque vous exécutez cet outil, seuls les entités sélectionnées sont copiées. Si aucune entité n’est sélectionnée, toutes les entités sont copiées.

    Remarque :

    Par défaut, les couches en sortie sont créées sous la forme d’une classe d’entités de géodatabase. Ce format est généralement supérieur au format de shapefile, car les noms de champ d’attribut des shapefiles peuvent être tronqués et certaines fonctions ne sont pas prises en charge pour les shapefiles.

  9. Cliquez sur Run (Exécuter).

    La couche ZIP3_Analysis_Data est ajoutée à la fenêtre Contents (Contenu). Vous allez l’utiliser pour vos analyses ultérieures. Comme vous n’avez plus besoin de la couche ZIP3 Loan Data, vous allez la supprimer de la carte.

  10. Dans la fenêtre Contents (Contenu), cliquez avec le bouton droit sur la couche ZIP3 Loan Data (Données de prêt ZIP3) et sélectionnez Remove (Supprimer).

    Option Remove (Supprimer)

  11. Dans la barre d’outils Accès rapide, cliquez sur le bouton Save (Enregistrer).

    Bouton Save (Enregistrer) de la barre d’outils Quick Access (Accès rapide)

Analyser les points chauds liés aux taux d’intérêt

Pour créer une carte des points chauds des taux d’intérêt de prêt moyens, vous allez utiliser l’outil Hot Spot Analysis (Getis-Ord Gi*) (Analyse de point chaud (Getis-Ord Gi*)). Cet outil identifie les agrégats statistiquement significatifs de valeurs élevées et de valeurs faibles.

  1. Dans la fenêtre Geoprocessing (Géotraitement), recherchez et ouvrez l’outil Hot Spot Analysis (Getis-Ord Gi*) (Analyse des points chauds [Getis-Ord Gi*]).
  2. Pour Input Feature Class (Classe d’entités en entrée), sélectionnez ZIP3_Analysis_Data (Données_Analyse_ZIP3). Pour Input Field (Champ en entrée), sélectionnez Average Interest Rate (Taux d’intérêt moyen).
  3. Dans Output Feature Class (Classe d’entités en sortie), modifiez le nom en sortie en Points_Chauds_Taux_Intérêt.

    Paramètre en entrée et en sortie de l’outil Analyse de points chauds

    L’outil Hot Spot Analysis (Getis-Ord Gi*) (Analyse de points chauds (Getis-Ord Gi*)) analyse l’importance statistique de chaque valeur d’entité (dans ce cas, le taux d’intérêt moyen de chaque zone ZIP3) dans le contexte de ses entités voisines. Le paramètre Conceptualization of Spatial Relationships (Conceptualisation des relations spatiales) définit les entités considérées comme voisines.

    Les zones ZIP3 ont des tailles très différentes. Les zones de l’ouest des États-Unis sont généralement bien plus grandes que celles de l’est. Ainsi, si vous définissez une entité voisine comme étant une entité adjacente à une autre, l’échelle de l’analyse ne sera pas cohérente à travers le pays, et vos résultats seront faussés.

    L’option par défaut de ce paramètre, Fixed distance band (Canal de distance constante), définit une entité voisine par sa distance par rapport à l’entité analysée. L’avantage de ce paramètre est qu’il conserve la cohérence de l’échelle de votre analyse pour la totalité de la zone d’étude, garantissant ainsi une exactitude accrue des résultats.

  4. Pour le paramètre Conceptualization of Spatial Relationships (Conceptualisation des relations spatiales), confirmez que l’option Fixed distance band (Canal de distance constante) est sélectionnée.

    Vous pouvez également indiquer la distance à laquelle les entités sont considérées comme étant voisines. Si aucune distance n’est définie, l’outil utilise la distance minimale pour garantir qu’il existe au moins un voisin pour chaque entité. Du fait de ce paramètre, certaines entités peuvent parfois n’avoir qu’un seul voisin, tandis que d’autres en ont des milliers, ce qui n’est pas souvent le meilleur choix.

    Dans le cas de cette analyse, les enregistrements de prêt individuels ont déjà été agrégés en zones de codes postaux à trois chiffres, donc il est approprié d’utiliser la distance d’analyse valide minimale.

  5. Laissez le paramètre Distance Band or Threshold Distance (Canal distance ou distance seuil) vide.

    Vous allez maintenant appliquer la correction FDR (False Discovery Rate) qui ajuste les résultats pour tenir compte des tests multiples et de la dépendance spatiale.

  6. Cochez la case Apply False Discovery Rate (FDR) Correction (Appliquer la correction FDR (False Discovery Rate)).

    Paramètres statistiques de l’outil Analyse de points chauds

  7. Cliquez sur Run (Exécuter).

    L’outil s’exécute. Il calcule le taux d’intérêt moyen de chaque zone ZIP3 et de toutes les zones ZIP3 voisines. Si ce taux d’intérêt moyen local est sensiblement plus élevé que le taux d’intérêt moyen de toutes les zones ZIP3 du pays, la zone ZIP3 analysée est considérée comme un point chaud. S’il est bien plus bas, la zone ZIP3 est considérée comme un point froid. Une fois l’outil exécuté, une nouvelle couche est ajoutée à la carte.

    Remarque :

    Pour en savoir plus sur l’analyse de points chauds, lisez la rubrique Fonctionnement de l’analyse de points chauds (Getis-Ord Gi*).

    Carte des points chauds des taux d’intérêt de prêt moyens

    Les zones en rouge sur la carte sont les points chauds, tandis que les zones en bleu représentent les points froids. La majeure partie de l’Alabama présente des taux d’intérêt moyens plus élevés que prévu, alors que la zone autour de San Francisco connait des taux d’intérêt plus faibles que les taux attendus.

  8. Enregistrez le projet.

Vous avez créé une carte de points chauds des taux d’intérêt moyens des zones ZIP3 comportant au moins 30 prêts. La carte que vous avez créée montre les zones présentant une agrégation statistiquement significative de taux d’intérêt moyens élevés et faibles.

En évaluant la carte des points chauds, Jonathan Blum se demande pourquoi les taux d’intérêt sont plus élevés en Alabama comparés à ceux pratiqués dans les environs de San Francisco. Est-il juste de supposer que les cotes de crédit attribuées en Alabama reflètent des prêts plus risqués ? Un emprunteur de San Francisco ne devrait-il pas être considéré comme étant autant à risque qu’en Alabama ? Plus que sceptique, Jonathan décide d’approfondir ses analyses.

Vous allez maintenant approfondir ces sujets avec lui et modéliser la relation entre les taux d’intérêt moyens et les cotes de crédit moyennes.


Créer un modèle de régression

Vous avez précédemment créé une carte de points chauds des valeurs de taux d’intérêt moyennes afin d’afficher les agrégats de taux d’intérêt élevés et faibles. Maintenant, vous allez créer un modèle de régression avec le modèle de régression linéaire généralisée (GLR) pour déterminer dans quelle mesure les classements de cote de crédit moyens prédisent les taux d’intérêt moyens.

Un modèle de régression calcule la relation entre des variables. Si les valeurs de cote de crédit moyennes prédisent effectivement les valeurs de taux d’intérêt moyennes, votre modèle de régression aura une valeur de R-carré élevée. De plus, toute différence entre les prévisions du modèle et les valeurs observées (connues sous le nom de valeurs résiduelles) montre un modèle spatialement aléatoire.

Effectuer une analyse de régression

Pour créer un modèle de régression, vous allez exécuter l’outil Régression linéaire généralisée.

  1. Si nécessaire, ouvrez votre projet OnlineLending.
  2. Dans la fenêtre Geoprocessing (Géotraitement), recherchez et ouvrez l’outil Régression linéaire généralisée (GLR) (outils de statistiques spatiales).
  3. Pour Input Features (Entités d’entrée), sélectionnez ZIP3_Analysis_Data (Données_Analyse_ZIP3).

    Un modèle de régression doit avoir une seule variable dépendante (la variable que vous voulez expliquer) et une ou plusieurs variables explicatives. La variable dépendante sera le taux d’intérêt moyen.

  4. Pour Dependent Variable (Variable dépendante), sélectionnez Average Interest Rate (Taux d’intérêt moyen). Pour Explanatory Variable(s) (Variables explicatives), cochez Average Loan Grade Rank (Classement de cote de crédit moyen).

    Paramètres de l’outil Régression linéaire généralisée

    Le paramètre Model Type (Type de modèle) comporte trois options : Continuous (Gaussian) (Continu (gaussien)), Binary (Logistic) (Binaire (logistique)) et Count (Poisson) (Total (Poisson)). L’option que vous sélectionnez dépend de la variable dépendante. Lorsque vous avez examiné la table attributaire, vous avez vu que les taux d’intérêt étaient des valeurs continues avec des décimales et non des valeurs binaires ou des nombres discrets.

  5. Laissez le paramètre Model Type (Type de modèle) défini sur Continuous (Gaussian) (Continu (gaussien)).

    Ce type de modèle effectue une régression des moindres carrés ordinaires, qui offre un modèle global de la variable dépendante et crée une équation de régression unique pour le représenter.

  6. Dans Output Features (Entités en sortie), changez le nom de la sortie en Average_Interest_Rates_vs_Loan_Grades (Taux_Intérêt_Moyen_Et_Cotes_Crédit).
  7. Cliquez sur Run (Exécuter).

    L’outil s’exécute. Une couche est ajoutée à la carte. Trois diagrammes sont ajoutés à la fenêtre Contents (Contenu).

    Carte du modèle au-dessus et en-dessous des prévisions

    Cette couche cartographie les valeurs résiduelles du modèle de régression (prévisions du modèle supérieures ou inférieures aux valeurs réelles). Les zones en violet représentent les emplacements dans lesquels les taux d’intérêt moyens sont moins élevés que le modèle prévu, tandis que les zones en vert correspondent aux emplacements dans lesquels les taux d’intérêt sont plus élevés.

    Le modèle spatial des valeurs résiduelles n’est pas aléatoire. En particulier, la totalité de l’état du Mississippi comporte un important agrégat de zones ZIP3, dans lequel le modèle prévoyait des taux d’intérêt supérieurs à ceux observés.

Examiner les résultats de la régression

Votre analyse de régression a également créé un rapport et plusieurs diagrammes. Commencez par examiner le rapport.

  1. Au bas de la fenêtre Geoprocessing (Géotraitement), pointez sur View Details (Afficher les détails).

    Option View Details (Afficher les détails)

    Le rapport de l’outil Régression linéaire généralisée apparaît.

  2. Dans le rapport de l’outil Régression linéaire généralisée, faites défiler l’affichage et développez les messages pour examiner les diagnostics de la GLR.
    Conseil :

    Vous pouvez redimensionner le rapport de l’outil en faisant glisser ses bords.

    Rapport GLR

    Pour l’instant, vous ne vous intéressez qu’à la valeur R-carré ajusté. La valeur R-carré est comprise entre 0 et 100 % (exprimée sous forme de valeur décimale) et indique la force de la corrélation entre les taux d’intérêt moyens et les classements moyens de cote de crédit.

    Sous GLR Diagnostics (Diagnostics de la méthode GLR), la valeur Adjusted R-Squared (R-carré ajusté) est égale à 0,942152.

    Valeur Adjusted R-Squared (R-carré ajusté) dans GLR Diagnostics (Diagnostics de la méthode GLR)

    Cette valeur indique que les valeurs moyennes de classement de cote de crédit expliquent environ 94 % des valeurs moyennes de taux d’intérêt. Comme prévu, cette valeur R-carré ajusté est élevée, ce qui indique une forte corrélation.

    Vous allez maintenant ouvrir le diagramme de nuage de points qui montre la relation entre les variables.

  3. Fermez le rapport de l’outil. Dans la fenêtre Contents (Contenu), double-cliquez sur le diagramme Relationship between Variables (Relation entre les variables).

    Diagramme Relationship between Variables (Relation entre les variables) dans la fenêtre Contents (Contenu)

    Le diagramme apparaît. La fenêtre Chart Properties (Propriétés du diagramme) apparaît également.

    Diagramme indiquant une forte corrélation entre les taux d’intérêt moyens et les cotes de crédit moyennes

    Le diagramme représente toutes les zones ZIP3 en fonction du taux d’intérêt moyen et de la cote de crédit moyenne. La plupart des points suivent une ligne droite, ce qui indique une forte corrélation. Les points en violet situés sous la ligne représentent les zones ZIP3 dans lesquelles le modèle a sous-estimé les taux d’intérêt moyens.

    Bien qu’il existe plusieurs valeurs résiduelles sous la ligne, ce diagramme indique bien ne relation positive entre l’augmentation des taux d’intérêt moyens et l’augmentation des cotes de crédit moyennes.

  4. Fermez le diagramme et la fenêtre Chart Properties (Propriétés du diagramme). Enregistrez le projet.

Vous avez utilisé l’analyse de régression pour expliquer que les taux d’intérêt moyens étaient fonction des cotes de crédit moyennes. Jonathan Blum ne s’attendait cependant pas à ces résultats. Bien qu’il ait noté une forte relation entre les classements de cote de crédit moyens et les taux d’intérêt moyens, il a immédiatement remarqué la présence d’un problème avec la carte des valeurs résiduelles. Jonathan s’attendait à un modèle aléatoire de surestimations et de sous-estimations, mais il n’existe aucun facteur aléatoire dans le fait que les taux d’intérêt d’un état entier sont moins élevés que prévu. Apparemment, les classement de cote de crédit moyens ne permettent pas de prédire les taux d’intérêt moyens dans cette partie du pays.

Selon Jonathan, le fait que les taux d’intérêt soient plus faibles que prévu dans la totalité de l’état du Mississippi est significatif. Cela donne l’impression d’un biais intentionnel ou d’un impact disparate. Un impact disparate peut se produire lorsque des décisions relatives aux prêts qui ne sont pas intentionnellement discriminatoires génèrent des résultats discriminatoires. Une stratégie qui ne vise qu’à financer les crédits immobiliers de plus de 200 000 $, par exemple, pourrait involontairement entraîner une annotation si les valeurs moyennes des biens immobiliers des quartiers des minorités d’une région sont inférieures à 200 000 $. Il est difficile pour les prêteurs d’éviter tout impact disparate car il n’apparaît pas tant que de nombreux prêts n’ont pas été contractés.

Vous allez maintenant utiliser la régression pondérée géographiquement pour cartographier les emplacements où la relation entre les cotes de crédit moyennes et les taux d’intérêt moyens est forte ou faible dans le pays.


Cartographier les variations de corrélation

Vous avez précédemment modélisé les taux d’intérêt moyens en fonction des cotes de crédit moyennes. La carte des valeurs résiduelles que vous avez créée indiquait que les cotes de crédit moyennes ne permettaient pas de prédire correctement les taux d’intérêt moyens dans l’état du Mississippi.

Lorsque la relation entre deux variables est forte, vous pouvez prédire la valeur d’une variable à partir de l’autre. La méthode de régression linéaire généralisée (GLR) que vous avez employée dans la leçon précédente récapitule la force de la relation grâce à un seul coefficient. En d’autres termes, elle suppose que la relation entre les taux d’intérêt moyens est la même pour toutes les zones ZIP3 du pays. Si Jonathan Blum souhaite examiner les changements de cette relation et voir les emplacements où les classements de cote de crédit moyens ont un impact plus ou moins important sur les taux d’intérêt moyens, il doit apprendre une autre technique de régression nommée régression pondérée généralisée (GWR).

La régression pondérée généralisée (GWR) calcule un coefficient pour chaque zone ZIP3. Lorsque les coefficients sont élevés, les modifications du classement de cote de crédit moyen ont un impact plus élevé sur les taux d’intérêt moyens ; lorsque les coefficients sont faibles, les modifications ont un impact moins important.

Vous allez maintenant créer une carte des coefficients GWR afin d’identifier les emplacements où la relation entre ces deux variables est forte et là où elle est faible.

Rechercher la distance minimale par rapport au voisin

La régression pondérée généralisée (GWR) calibre un modèle de régression local pour chaque zone ZIP3 en utilisant uniquement des zones ZIP3 à proximité. Elle pondère également des entités plus proches de telle sorte qu’elles aient plus d’influence lors du calibrage que des entités plus éloignées. Les paramètres Neighborhood Type (Type de voisinage) et Local Weighting Scheme (Structure de pondération locale) déterminent les entités voisines qui figurent ou non dans le traitement de calibrage.

Dans le cadre de ce processus, vous allez essayer les quatre combinaisons de ces paramètres pour déterminer laquelle produit les meilleurs résultats. Vous pouvez laisser l’outil suggérer les distances de recherche minimale et maximale, ainsi que le nombre de voisins, mais l’outil reste prudent et requiert un minimum de 30 voisins. Vous avez constaté que la relation entre les taux d’intérêt moyens et les cotes de crédit moyennes était forte, avec quelques points aberrants. Par conséquent, le meilleur modèle utiliserait une distance plus petite et un nombre moins élevé de voisins que ceux suggérés par l’outil. Vous allez essayer d’indiquer des distances comprises entre 10 et 50 voisins.

  1. Si nécessaire, ouvrez votre projet OnlineLending.
  2. Dans la fenêtre Geoprocessing (Géotraitement), recherchez et ouvrez l’outil Calculer la bande de distance à partir du nombre de voisins.

    Vous allez utiliser cet outil pour identifier la distance minimale nécessaire pour que toutes les zones ZIP3 aient au moins 10 voisins.

  3. Renseignez les paramètres suivants :
    • Pour Input Features (Entités d’entrée), sélectionnez ZIP3_Analysis_Data (Données_Analyse_ZIP3).
    • Pour Neighbors (Voisins), entrez 10.
    • Pour Distance Method (Méthode de calcul de distance), sélectionnez Euclidean (Euclidien).

    Paramètres de l’outil Calculer la bande de distance à partir du nombre de voisins

  4. Cliquez sur Run (Exécuter).

    L’outil s’exécute, mais aucune nouvelle couche, ni nouveau diagramme n’est ajouté à la carte ou à la fenêtre Contents (Contenu).

  5. Au bas de la fenêtre Geoprocessing (Géotraitement), cliquez sur View Details (Afficher les détails).

    Le rapport de l’outil apparaît. Il indique les distances minimale, moyenne et maximale (en mètres) pour qu’une zone ZIP3 ait au moins 10 voisins. La distance minimale est de 17 802 mètres et la distance maximale est de 493 120 mètres. La valeur maximale est la distance minimale nécessaire pour que toutes les zones ZIP3 aient au moins 10 voisins.

    Distance garantissant que chaque entité dispose d’au moins 10 voisins

    Vous allez arrondir cette valeur à 400 000 et l’utiliser lors de la régression pondérée géographiquement. Maintenant, vous aller procéder au même calcul pour déterminer la distance nécessaire si chaque zone ZIP3 doit disposer d’au moins 50 voisins.

  6. Fermez le rapport de l’outil. Exécutez à nouveau l’outil Calculer la bande de distance à partir du nombre de voisins en modifiant la valeur du paramètre Neighbors (Voisins) sur 50.
  7. Ouvrez le rapport de l’outil.

    La distance nécessaire pour que toutes les zones ZIP3 aient au moins 50 voisins est de 1 137 020 mètres. Vous allez arrondir cette valeur à 1 100 000 et l’utiliser lors de la régression pondérée géographiquement.

    Distance garantissant que chaque entité dispose d’au moins 50 voisins

  8. Fermez le rapport de l’outil.

Construire le modèle de régression spatiale

Vous allez exécuter l’outil Régression pondérée géographiquement quatre fois avec des paramètres différents et cartographier les coefficients du modèle qui produit les meilleurs résultats.

  1. Dans la fenêtre Geoprocessing (Géotraitement), recherchez et ouvrez l’outil Régression pondérée géographiquement. Développez Additional Options (Options supplémentaires).

    Vous allez tout d’abord essayer d’indiquer Number of neighbors (Nombre de voisins) pour le paramètre Neighborhood Type (Type de voisinage). Cette option utilise un nombre fixe de voisins pour chaque zone ZIP3, et non une distance fixe. L’option Number of neighbors (Nombre de voisins) est généralement adaptée lorsque vous souhaitez construire chaque modèle local avec la même quantité d’informations. Cette option est appropriée lorsque les entités sont également réparties, lorsque les polygones analysés ont à peu près la même taille ou lorsque les traitements spatiaux sous-jacents sont homogènes.

  2. Renseignez les paramètres suivants :
    • Pour Input Features (Entités d’entrée), sélectionnez ZIP3_Analysis_Data (Données_Analyse_ZIP3).
    • Pour Dependent Variable (Variable dépendante), sélectionnez Average Interest Rate (Taux d’intérêt moyen).
    • Pour Model Type (Type de modèle), sélectionnez Continuous (Gaussian) (Continu (gaussien)).
    • Pour Explanatory Variable(s) (Variables explicatives), cochez Average Loan Grade Rank (Classement de cote de crédit moyen).
    • Dans Output Features (Entités en sortie), changez le nom de la sortie en GWR_Average_Interest_Rate_vs_Average_Loan_Grade (GWR_Taux_Intérêt_Moyen_Et_Cote_Crédit_Moyenne).
    • Pour Neighborhood Type (Type de voisinage), sélectionnez Number of neighbors (Nombre de voisins).
    • Pour Neighborhood Selection Method (Méthode de sélection des voisins), sélectionnez Manual Intervals (Intervalles manuels).
    • Pour Minimum Number of Neighbors (Nombre minimal de voisins), indiquez 10.
    • Pour Number of Neighbors Increment (Incrément de nombre de voisins), saisissez 4.
    • Pour Number of Increments (Nombre d’incréments), entrez 11.
    • Pour Local Weighting Scheme (Structure de pondération locale), sélectionnez Bisquare (Bicarré).

    Avec ces paramètres, l’outil s’exécutera pour 10 voisins, puis 14, puis 18, et ce jusqu’à 50 voisins (11 incréments de 4). À cause de l’option Bisquare (Bicarré), les entités qui ne sont pas considérées comme des voisins n’auront aucune influence sur les résultats, ce qui pourrait être important pour les données avec des traitements spatiaux fortement localisés.

  3. Cliquez sur Run (Exécuter).

    L’outil s’exécute et un rapport est généré (une couche est également ajoutée à la carte, mais vous l’examinerez ultérieurement).

  4. Cliquez sur Afficher les détails. Redimensionnez le rapport de l’outil si nécessaire.

    Un modèle a été créé pour chaque incrément de 4 voisins entre 10 et 50 voisins. Un diagnostic critère d’information d’Akaike (AICc) ajusté a été calculé pour chaque modèle. AICc est une valeur qui mesure la perte d’information d’un modèle. Plus la valeur AICc est faible, mieux le modèle fonctionne.

    Dans la section Analysis Details (Détails de l’analyse), la valeur Number of Neighbors (Nombre de voisins) indique le nombre de voisins avec la valeur AICc la plus faible. Dans le cas de votre rapport, ce nombre est égal à 22. Dans la section Model Diagnostics (Diagnostics de modèle), la valeur AdjR2 (R-carré ajusté) indique que ce modèle explique 97,19 % de la variation des valeurs de taux d’intérêt moyennes, ce qui constitue une amélioration par rapport à la valeur de R-carré ajusté du modèle de régression linéaire généralisée (94,215 %).

    Rapport GWR pour la méthode du nombre de voisins

    Vous allez maintenant à nouveau exécuter l’outil, avec le paramètre Local Weighting Scheme (Structure de pondération locale) défini sur Gaussian (Gaussien). Grâce à ce paramètre, toutes les entités voisines (jusqu’aux 1 000 plus proches) influencent le modèle, mais les entités au-delà des premières 10, 14, 18, etc. ont bien moins d’influence.

  5. Fermez le rapport de l’outil. Exécutez à nouveau l’outil Régression pondérée géographiquement en modifiant le paramètre Local Weighting Scheme (Structure de pondération locale) sur Gaussian (Gaussien).

    Lorsque vous exécutez l’outil, la couche GWR_Average_Interest_Rate_vs_Average_Loan_Grade (GWR_Taux_Intérêt_Moyen_Et_Cote_Crédit_Moyenne) est remplacée par les nouveaux résultats.

  6. Cliquez sur Afficher les détails.

    Avec la structure de pondération gaussienne, le modèle aux performances optimales a 10 voisins locaux. Toutefois, la valeur AICc (-1673,8710) n’est pas aussi petite que pour le modèle avec 22 voisins et la structure de pondération Bisquare (Bicarré) (-1839,6162). De plus, la valeur de R-carré ajusté (0,9594) est inférieure à celle produite par l’option Bisquare (Bicarré) (0,9719).

    Tout en étant plus performant que la régression linéaire généralisée, le modèle ne génère pas de prévisions aussi qualitatives que celles du modèle de régression pondérée géographiquement précédent. Vous allez maintenant réexécuter l’outil. Au lieu d’utiliser un nombre de voisins spécifique, vous allez utiliser les distances minimales par rapport au voisin que vous avez calculées dans les sections précédentes. Pour que chaque zone ZIP3 ait 10 voisins, vous avez déterminé qu’une distance de 400 000 mètres était nécessaire. Pour que chaque zone ZIP3 ait 50 voisins, la distance nécessaire est de 1 100 000 mètres.

    L’option Distance band (Canal de distance) pour Neighborhood Type (Type de voisinage) signifie que les entités voisines dans la distance indiquée sont utilisées pour calibrer chaque modèle local. Cette option offre l’avantage de garantir la constance de l’échelle d’analyse. Elle convient particulièrement lorsque vous savez que chaque entité dispose de suffisamment de voisins dans le canal de distance spécifié pour créer un modèle local fiable.

  7. Fermez le rapport de l’outil. Dans l’outil Régression pondérée géographiquement, changez les paramètres suivants :
    • Modifiez Neighborhood Type (Type de voisinage) en Distance band (Canal de distance).
    • Définissez Minimum Search Distance (Distance de recherche minimale) sur 400000 Meters (Mètres).
    • Définissez Search Distance Increment (Incrément de distance de recherche) sur 100000 Meters (Mètres).
    • Définissez Number of Increments (Nombre d’incréments) sur 8.

    Paramètres du modèle Distance band (Canal de distance)

    Grâce à ces paramètres, l’outil crée des modèles pour chaque intervalle de 100 000 mètres entre 400 000 et 1 100 000 mètres.

  8. Exécutez l'outil. Une fois l’exécution de l’outil terminée, cliquez sur View Details (Afficher les détails).

    Le canal de distance aux meilleures performances est de 400 000 mètres, mais le résultat n’est toujours pas aussi bon que celui obtenu avec le premier modèle de régression pondérée géographiquement que vous avez essayé (sa valeur AICc est égale à -1565,1312 et sa valeur de R-carré ajusté est de 0,9507).

    Rapport GWR avec le paramètre de canal de distance

    Vous allez exécuter le modèle une fois de plus. Vous allez utiliser les mêmes paramètres de canal de distance, mais en modifiant la structure de pondération locale.

  9. Fermez le rapport de l’outil. Exécutez à nouveau l’outil Régression pondérée géographiquement en modifiant le paramètre Local Weighting Scheme (Structure de pondération locale) sur Bisquare (Bicarré).
  10. Ouvrez le rapport.

    Ce modèle est plus performant que le précédent, mais il n’est toujours pas aussi efficace que le premier modèle que vous avez essayé. Alors que la valeur AICc de ce modèle (-1843,3228) est légèrement inférieure à celle du premier modèle que vous avez essayé (-1839,6162), sa valeur de R-carré ajusté est également inférieure (0,9676 par rapport à 0,9719).

    Vous avez identifié les paramètres de modèle qui génèrent la plus petite valeur AICc en conjonction avec la plus grande valeur de R-carré ajusté. Ces diagnostics indiquent que la régression pondérée géographiquement avec un nombre fixe de 22 voisins et une structure de pondération Bisquare (Bicarré) produit le modèle le plus performant. Vous pouvez utiliser un processus similaire pour comparer n’importe quels modèles dotés de la même variable dépendante.

    À chaque fois que vous avez exécuté le modèle, vous avez remplacé les résultats du modèle précédent. Vous allez exécuter le modèle avec les mêmes paramètres que lors de sa première exécution afin de recréer la meilleure sortie.

  11. Fermez le rapport de l’outil. Exécutez l’outil avec Neighborhood Type (Type de voisinage) défini sur Number of Neighbors (Nombre de voisins), Neighborhood Selection Method (Méthode de sélection des voisins) défini sur User defined (Défini par l’utilisateur) et Number of Neighbors (Nombre de voisins) défini sur 22.
  12. Enregistrez le projet.

Cartographier les coefficients du modèle

Vous avez identifié les paramètres de modèle qui génèrent la plus petite valeur AICc en conjonction avec la plus grande valeur de R-carré ajusté, indiquant qu’il s’agit du meilleur modèle. Vous allez maintenant cartographier les coefficients du modèle pour examiner la manière dont la relation entre les taux d’intérêt moyens et les cotes de crédit moyennes change à travers le pays.

Tout comme la carte en sortie issue de la régression linéaire généralisée, la carte en sortie générée par la régression pondérée géographiquement affiche les valeurs résiduelles (lorsque les prévisions du modèle sont inférieures ou supérieures aux valeurs réelles des taux d’intérêt moyens). La couche en sortie contient également un champ indiquant la valeur de coefficient de chaque zone ZIP3. Plus le coefficient est élevé, plus la relation entre les taux d’intérêt moyens et les cotes de crédit moyennes est forte. La cartographie de ce champ permet d’analyser la relation entre ces variables à travers le pays.

  1. Dans la fenêtre Contents (Contenu), cliquez avec le bouton droit sur la couche GWR_Average_Interest_Rate_vs_Average_Loan_Grade (GWR_Taux_Intérêt_Moyen_Et_Cote_Crédit_Moyenne) et sélectionnez Symbology (Symbologie).

    La fenêtre Symbology (Symbologie) de la couche apparaît.

    Remarque :

    Il se peut que vous deviez modifier la valeur de Primary symbology (Symbologie principale) sur Unique Values (Valeurs uniques), puis revenir à Graduated Colors (Couleurs graduées) pour que la nouvelle symbologie s’affiche.

  2. Définissez Field (Champ) sur Coefficient (AVELOANGRADE), Method (Méthode) sur Quantile et Classes sur 7.

    Paramètres de la fenêtre Symbologie

  3. Pour Color scheme (Combinaison de couleurs), sélectionnez le dégradé de couleurs continu Yellow-Orange-Brown (Jaune-orange-marron) (ou n’importe quel dégradé de couleurs qui représente les données dans l’ordre croissant).
    Conseil :

    Pour afficher le nom d’une combinaison de couleurs, pointez dessus.

    Combinaison de couleurs jaune-orange-marron pour symboliser les coefficients

  4. Fermez la fenêtre Symbology (Symbologie). Dans la fenêtre Contents (Contenu), faites glisser la couche State Boundaries sur la couche GWR_Average_Interest_Rate_vs_Average_Loan_Grade (GWR_Taux_Intérêt_Moyen_Et_Cote_Crédit_Moyenne).

    Carte de la relation entre le taux d’intérêt moyens et les cotes de crédit moyennes

    Sur la carte, les zones plus sombres représentent les lieux où la relation entre les deux variables est forte. Les zones plus claires correspondent aux endroits où la relation est faible.

  5. Enregistrez le projet.

    La carte suggère que les taux d’intérêt ne dépendent pas seulement des cotes de crédit, au moins pas partout. Dans le Mississippi et dans la majeure partie du Kansas, par exemple, il existe une faible relation entre les cotes de crédit moyennes et les taux d’intérêt moyens. Les taux d’intérêt sont en moyenne plus bas que prévu dans la totalité du Mississippi. Ils sont cependant plus élevés que prévu dans la majeure partie du Kansas.

    Ce modèle a des conséquences tangibles et matérielles. Les différences de taux d’intérêt ont une incidence sur la totalité de l’économie. Lorsque l’accès aux crédits est limité en raison de taux d’intérêt élevés, les personnes ont tendance à moins dépenser et l’activité des entreprises tend à se réduire. Lorsque les taux d’intérêt sont bas, les personnes empruntent et dépensent davantage, et les entreprises tendent à développer leur activité.

    Certains chercheurs ont trouvé des preuves de discrimination sur plusieurs places de marché en ligne. L’analyse exploratoire de Jonathan Blum contribue à ce domaine de recherche en mettant en évidence une discrimination géographique associée aux prêts en ligne. Jonathan n’a cependant pris en compte que les cotes de crédit. Même si LendingClub indique une relation directe entre les cotes de crédit et les taux d’intérêt, les cartes que vous avez créées suggèrent l’implication d’autres facteurs. Par exemple, certains chercheurs ont constaté que près d’un tiers des emprunteurs choisissaient le crédit avec la durée de financement la plus courte par rapport à un crédit au taux d’intérêt le plus bas.

    Jonathan est journaliste. Son travail consiste à relayer des informations dans le but de participer au débat sur le crédit en ligne. Les cartes créées et les analyses effectuées dans cette leçon sont des outils narratifs essentiels qu’il pourra largement utiliser dans le cadre de son travail.

Dans cette leçon, vous avez utilisé l’analyse de régression spatiale pour modéliser la relation entre les taux d’intérêt moyens et les classements de cote de crédit moyens en testant une corrélation supposée. Vous pouvez utiliser ce processus pour tester d’autres corrélations supposées. Les communautés avec des revenus moyens plus élevés, par exemple, sont susceptibles de payer davantage d’impôts sur le revenu moyens. Mais cela est-il vrai de manière homogène ? Quels sont les endroits du pays dans lesquels cette corrélation est plus ou moins vraie ? Les zones agricoles bénéficiant des meilleures conditions adaptées aux cultures devraient produire les rendements les plus élevés. Est-ce le cas partout ? Si tel n’est pas le cas, quelle en est la raison ? Est-il raisonnable de supposer que les écoles avec de meilleurs ratios professeur par nombre d’étudiants ont de meilleurs résultats aux examens ?

Qu’attendez-vous ? Commencez à tester certaines relations supposées et voyez ce que vous allez découvrir.

Vous trouverez d’autres didacticiels dans la bibliothèque des didacticiels.