ホット スポット マップの作成
借金の整理、結婚式の費用の支払い、休暇の取得、住宅の修繕、または突発的な支出など資金が必要になった場合、ローンの申請をオンラインで行いますか? この問いに対して「はい」と答える人が、数年前から「数百万人」規模に増えています。 では、実際にオンラインでローンを申請した場合、金利はどの程度になるでしょうか? ほとんどの人は、信用格付けが低ければ金利が高くなるのは当然だと思っているでしょう。 しかし、その推定は果たして根拠があるのでしょうか?
ニューヨーク在住の著者で GIS 初心者であるジョナサン・ブルーム氏は、それを探ろうと考えています。 米国の 2007 年 8 月から 2015 年 9 月までのローン データをもとに (「LendingClub」から入手し、3 桁の郵便番号地域で分類)、オンライン ローンに対する平均金利が場所に左右されるのかどうかを確認することにしました。
最初に、統計的に金利が高い地域と低い地域を示す、ホット スポット マップを作成します。
プロジェクトを開く
3 桁の郵便番号地域別に分類したローン データを含む ArcGIS Pro プロジェクトをダウンロードし、開きます。
- 「online-lending-data」圧縮フォルダーをダウンロードします。
- ダウンロードしたフォルダーを右クリックして、ドキュメント フォルダーなどの見つけやすい場所にファイルを展開します。
- [online-lending-data] フォルダーを開きます。
このフォルダーには、データを含むジオデータベース、インデックス ファイル、ArcGIS Pro プロジェクト ファイル、ArcGIS ツールボックスが含まれます。
- コンピューターに ArcGIS Pro がインストールされている場合は、[OnlineLending] プロジェクト ファイルをダブルクリックします (.aprx 拡張子が付いていることがあります)。 サイン インを求められたら、ライセンスが割り当てられた ArcGIS アカウントを使用してサイン インします。
注意:
ArcGIS Pro へのアクセス権限または組織アカウントがない場合は、ソフトウェア アクセスのオプションをご参照ください。
プロジェクトには、米国本土のマップが格納されています。 州の輪郭のレイヤーと、ローン データを含む [ZIP3] エリアのレイヤーがあります (ZIP3 エリアとは、標準的な 5 桁の郵便番号の冒頭 3 桁で表される地域です)。
ローン データの属性テーブルを開き、データに慣れておきます。
- [コンテンツ] ウィンドウで、[ZIP3 Loan Data] を右クリックして [属性テーブル] を選択します。
テーブルが開きます。 [ZIP3] エリアごとに、識別子、提出されたローン申請書の総数、審査が通ったローンの総数、審査が通ったすべてのローンの平均金利、審査が通ったすべてのローンの平均ローン等級ランキング、総世帯数が示されます。
LendingClub は、受領したすべてのローン申請書に対して A1 (金利が最も低い) から E5 (金利が最も高い) までの「ローン等級」を割り当てています。 このローン等級を、単純な数値ランキングに変換して分析を行います。 A1 ローン等級は 1 位、A2 ローン等級は 2 位などと順次割り振ります。 ランキングで上位にあるほど、ローンのリスクも高くなります。
- テーブルを閉じます。
ローン件数が 30 件以上の地域の選択
各 ZIP3 エリアで報告された平均金利に信頼性があり、かつ典型値であることを確認するため、30 件以上のローン審査が通っている ZIP3 エリアに絞って分析を行います。 まず、[属性検索] ジオプロセシング ツールを実行し、30 件以上のローンが提供されているすべての ZIP3 エリアを選択します。
- リボンの [解析] タブをクリックします。 [ジオプロセシング] グループで、[ツール] をクリックします。
[ジオプロセシング] ウィンドウが表示されます。 このウィンドウには、データ レイヤーで使用可能な数多くのツールが揃っています。
- [ジオプロセシング] ウィンドウで、[属性検索] を検索して選択します。
ツールが開きます。 ツールの実行方法を変更するため、複数のパラメーターを設定できます。 まず、ツールを実行するテーブルを選択します。
- [入力テーブル] で [ZIP3 Loan Data] を選択します。
次に、30 件以上のローンが提供されている ZIP3 エリアが選択されるよう、項目を作成します。
- [Number of loans issued が 30 以上] という式を作成します。
- [実行] をクリックします。
30 件以上のローンが提供されている ZIP3 エリアが選択されます。 次に、選択した ZIP3 エリアだけを含むレイヤーのコピーを作成します。 コピーしたレイヤーは、後の分析で使用できます。
- [ジオプロセシング] ウィンドウの [戻る] ボタンをクリックします。
ツールの検索可能リストに戻ります。
- すでに表示されている検索語句を消去します。 [フィーチャのコピー] ツールを検索し、開きます。
- [入力フィーチャ] で [ZIP3 Loan Data] を選択します。 [出力フィーチャクラス] ではファイル パスをデフォルトのまま残し、出力名を「ZIP3_Analysis_Data」に変更します。
このツールを実行すると、選択されたフィーチャのみがコピーされます。 フィーチャを選択していない場合は、すべてのフィーチャがコピーされます。
注意:
デフォルトでは、出力レイヤーはジオデータベース フィーチャクラスとして作成されます。 通常、シェープファイル フォーマットよりもこのフォーマットの方が優れています。シェープファイルの属性フィールド名は短縮されることがあり、いくつかの機能がサポートされないことがあるからです。
- [実行] をクリックします。
[ZIP3_Analysis_Data] レイヤーが [コンテンツ] ウィンドウに追加されます。 このレイヤーを残りの分析で使用します。 [ZIP3 Loan Data] レイヤーは必要なくなったので、マップから削除します。
- [コンテンツ] ウィンドウで、[ZIP3 Loan Data] レイヤーを右クリックして、[削除] を選択します。
- [クイック アクセス ツールバー] の [保存] ボタンをクリックします。
金利についてのホット スポット分析
ローンの平均金利のホット スポット マップを作成するには、[ホット スポット分析] ツールを使用します。 このツールを使用すると、高い値と低い値の統計的に有意なクラスターが作成されます。
- [ジオプロセシング] ウィンドウで、[ホット スポット分析] ツールを検索して開きます。
- [入力フィーチャクラス] で [ZIP3_Analysis_Data] を選択します。 [入力フィールド] で [Average Interest Rate] を選択します。
- [出力フィーチャクラス] で、出力の名前を「Interest_Rate_Hot_Spots」に変更します。
[ホット スポット分析] ツールは、隣接フィーチャとの関係において、各フィーチャ値の統計的有意性を分析します (この場合、各 [ZIP3] エリアの平均金利)。 [空間リレーションシップのコンセプト] パラメーターは、隣接するとみなされるフィーチャを定義します。
ZIP3 エリアの規模はそれぞれに大きく異なります。 一般的に、米国西部のエリアは東部よりもはるかに大きくなります。 そのため、近傍フィーチャを別のフィーチャと隣接するものとして定義すると、分析の規模が国全体で一貫しなくなり、結果に歪みが生じることになります。
このパラメーターのデフォルト オプション [固定距離バンド] は、分析対象のフィーチャからの距離によって、近傍フィーチャを定義します。 このパラメーターの「メリット」は、調査エリア全体における分析規模の一貫性を保てるので、より精度の高い結果を得られることです。
- [空間リレーションシップのコンセプト] パラメーターで、[固定距離バンド] が選択されていることを確認します。
また、フィーチャが隣接しているとみなされる距離も指定できます。 距離が設定されていない場合は、すべてのフィーチャに少なくとも 1 つの近傍フィーチャが存在するよう最小距離を使用します。 この設定により、近傍フィーチャが 1 つしかない、あるいは数千個も存在することになりますが、その場合は最適な選択肢ではないことがほとんどです。
この分析では、個々のローン記録は 3 桁の郵便番号地域に集約されているため、最小の有効分析距離を使用するのが最適です。
- [距離バンドまたは距離の閾値] パラメーターを空白にしておきます。
次に、「複数のテストおよび空間的依存関係」に対処するため、False Discovery Rate 補正を適用します。
- [FDR (False Discovery Rate) 補正の適用] をオンにします。
- [実行] をクリックします。
ツールが実行されます。 各 ZIP3 エリアと、隣接するすべての ZIP3 エリアの平均金利を計算します。 この地域の平均金利が、国全体のすべての ZIP3 エリアの平均金利を大幅に上回る場合は、分析対象の ZIP3 エリアはホット スポットになります。 反対に大幅に下回る場合は、この ZIP3 エリアはコールド スポットになります。 ツールが終了すると、新しいレイヤーがマップに追加されます。
注意:
ホット スポット分析については、「ホット スポット分析の詳細」をご参照ください。
マップの赤色で記される地域はホット スポット、青色の地域はコールド スポットです。 アラバマ州のほとんどの地域では平均金利は予想以上に高くなっていますが、サンフランシスコ周辺の地域では予想以上に低くなっています。
- プロジェクトを保存します。
30 件以上のローンを提供している ZIP3 エリアの平均金利のホット スポット マップを作成しました。 このマップは、平均金利が高い地域と低い地域について、統計的に有意なクラスターを示します。
ホット スポット マップを分析したジョナサン・ブルーム氏は、なぜアラバマ州の金利はサンフランシスコ周辺よりも高いのか不思議に思うようになりました。 アラバマ州で割り当てられたローン等級は、高リスクのローンであると想定するべきでしょうか。 リスクのある借主は、サンフランシスコでもアラバマでも変わりないはずです。 疑い深いジョナサンは、さらに調査を進めることにしました。
次ではさらに深く掘り下げ、平均金利と平均ローン等級との関係をモデル化します。
回帰モデルの作成
前のレッスンでは、平均金利の値のホット スポット マップを作成し、高平均金利と低平均金利のクラスターを表示しました。 次に、[一般化線形回帰分析 (Generalized Linear Regression)] (GLR) を使用して回帰モデルを作成し、平均ローン等級ランキングが平均金利をどの程度正確に予測できるかを確認します。
回帰モデルは変数の関係を計算します。 平均ローン等級値が平均金利値を有効に予測できるのであれば、回帰モデルの「R 二乗値」は高くなります。 さらに、モデルの予測値と観測値との差 (残差) は空間的にランダムなパターンを示します。
回帰分析の実行
回帰モデルを作成するには、[一般化線形回帰分析] ツールを実行します。
- 必要に応じて、[OnlineLending] プロジェクトを開きます。
- [ジオプロセシング] ウィンドウで、[一般化線形回帰分析 (GLR) (空間統計ツール)] ツールを検索して開きます。
- [入力フィーチャ] で [ZIP3_Analysis_Data] を選択します。
回帰モデルには 1 つの従属変数 (説明の対象となる変数) と、1 つ以上の説明変数が必要です。 ここでは、従属変数は平均金利です。
- [従属変数] では [Average Interest Rate] を選択します。 [説明変数] では [Average Loan Grade Rank] チェックボックスをオンにします。
[モデル タイプ] パラメーターには、[連続 (ガウス分布)、[バイナリ (論理)]、[カウント (ポワソン分布)] の 3 つの選択肢があります。 どれを選ぶかは、従属変数によって異なります。 属性テーブルを見ると、金利は小数点を含む連続値であり、バイナリ値や不連続のカウントではないことがわかりました。
- [モデル タイプ] は [連続 (ガウス分布)] のままにします。
このモデル タイプでは「最小二乗法」回帰を実施して従属変数のグローバル モデルを示し、それを表す単独の回帰方程式を立てます。
- [出力フィーチャ] で、出力の名前を「Average_Interest_Rates_vs_Loan_Grades」に変えます。
- [実行] をクリックします。
ツールが実行されます。 レイヤーがマップに追加されます。 3 つのチャートが [コンテンツ] ウィンドウに追加されます。
このレイヤーでは、回帰モデルの残差をマッピングします (モデルの予測値が実際値よりも高い、または低いケース)。 紫色の地域は、平均金利が予測モデルを下回っている場所です。一方で緑色の地域は、金利が予測を上回っている場所を表します。
残差の空間パターンはランダムではありません。 具体例を挙げると、ミシシッピ州全体では ZIP3 エリアのクラスターが大きく、モデルが予測した金利は観測値よりも高くなっています。
回帰結果の検証
回帰分析の結果では、レポートといくつかのチャートが作成されました。 まず、レポートを検証します。
- [ジオプロセシング] ウィンドウの下部で、[詳細の表示] をポイントします。
[一般化線形回帰分析] のツール レポートが表示されます。
- [一般化線形回帰分析] のツール レポートで下にスクロールしてメッセージを展開し、[GLR 診断] を確認します。
ヒント:
エッジをドラッグすると、ツール レポートのサイズを変更できます。
ここでは、補正 R 二乗値にのみ注目します。 R 二乗値は 0 ~ 100 パーセント (10 進数で表示) で、平均金利と平均ローン等級ランキングの相関関係の強さを示します。
[GLR 診断] の [補正 R2] 値は 0.942152 以下です。
この値は、平均ローン等級のランク値が、平均金利値のおよそ 94% について説明することを意味します。 予想どおり、これは高補正を実施した R 二乗値であり、相関関係が強いことを示します。
次に、変数の関係を表す散布図を開きます。
- ツール レポートを閉じます。 [コンテンツ] ウィンドウで [変数間の Relationship] チャートをダブルクリックします。
チャートが開きます。 [チャート プロパティ] ウィンドウも表示されます。
チャートには、平均金利と平均ローン等級に基づくすべての ZIP3 エリアが示されます。 ほとんどのポイントは直線上にあり、強い相関関係が存在することを示します。 直線の下にある紫色のポイントは、モデルが平均金利を低く予測した ZIP3 エリアです。
直線の下にはいくつかの残差が見られますが、平均ローン等級が大きくなると平均金利も高くなる「正の関係性」が存在することを表します。
- チャートと [チャート プロパティ] ウィンドウを閉じます。 プロジェクトを保存します。
回帰分析を実施して、平均ローン等級に基づいて平均金利を説明しました。 しかし、ジョナサン・ブルーム氏が思っていたような結果ではありませんでした。 平均ローン等級ランキングと平均金利との間には強固な関係があることはわかりましたが、残差マップに問題があることがすぐにわかりました。 予測よりも高い値と低い値のパターンがランダムになることを想定していましたが、州全体において、予測よりも低い金利には空間的なランダム性はありません。 すなわち、その地域の平均金利を予測するには、平均ローン等級ランキングは有効ではないということです。
ジョナサン曰く、ミシシッピ州全体で予測値を下回る金利を把握することが重要となります。 意図的な偏見や差別的効果が存在する可能性もあります。 差別的効果は、ローンを認定する際に差別するつもりではなくても、結果的に差別につながるような場合に見られます。 たとえば、住宅ローンは 20 万ドルを超えなければ融資しない方針がある場合、平均住宅価格が 20 万ドル以下のマイノリティ (少数集団) 地区のローン申請を意図せず「融資拒否」する結果となります。 差別的効果は、数多くのローンが申請されなければ明らかにならないので、貸主が回避するのは困難です。
次に、[地理空間加重回帰分析 (Geographically Weighted Regression)] を使用し、国全体において平均ローン等級と平均利率との関係が強い場所と弱い場所をマッピングします。
相関変動のマッピング
前のレッスンでは、平均ローン等級の関数として平均金利をモデル化しました。 作成した残差マップをみると、ミシシッピ州においては、平均ローン等級は平均金利の説明変数としてあまり有効ではないことがわかりました。
2 つの変数間のつながりが強い場合、片方の値から他方の値を予測することができます。 前回のレッスンで使用した [一般化線形回帰分析 (Generalized Linear Regression)] (GLR) 手法では、単独の「係数」を使用して関係の強さをまとめました。 つまり、平均ローン等級と平均金利との関係は、国内のすべての ZIP3 エリアで同じであることを想定しています。 ジョナサン・ブルーム氏がこの関係の変化を検証し、平均ローン等級ランキングが平均金利に大きな影響を与えている場所とさほど影響を与えていない場所を検証するには、[一般化加重回帰分析 (Generalized Weighted Regression)] (GWR) と呼ばれる回帰手法を使用する必要があります。
[GWR] は、各 ZIP3 エリアの係数を計算します。 係数が大きければ、平均ローン等級ランキングの変化は平均金利に大きな影響を与えます。反対に、係数が小さければ変化はあまり影響を与えません。
次に、2 つの変数の関係が強い場所と弱い場所を識別するため、[GWR] の係数のマップを作成します。
最小隣接距離の特定
[GWR] は、近隣の ZIP3 エリアのみを使用して、各 ZIP3 のローカル回帰モデルをキャリブレーションします。 また、近いフィーチャに加重することで、遠くのフィーチャよりもキャリブレーション時に大きな影響力を持たせます。 [近傍タイプ] と [ローカル加重方式] パラメーターは、キャリブレーション処理に含まれる近傍フィーチャと含まれない近傍フィーチャを決定します。
このワークフローでは、4 つすべてのパラメーターの組み合わせを試し、最善の結果をもたらすものを確認します。 ツールを使用して最小検索距離と最大検索距離、および近傍数の候補を提示することもできますが、ツールは保守的なので、少なくとも 30 個の近傍が必要です。 平均金利と平均ローン等級の関係は、いくつかの外れ値はあるものの、強いことがわかっています。 したがって、ツールの提案よりも小さい距離と少ない近傍数を使用することが最善のモデルであるといえるでしょう。 10 ~ 50 個の近傍の距離を試します。
- 必要に応じて、[OnlineLending] プロジェクトを開きます。
- [ジオプロセシング] ウィンドウで、[近接フィーチャへの距離を計算] ツールを検索し、開きます。
このツールを使用し、すべての ZIP3 エリアに 10 個以上の近傍を含めるために必要な最小距離を特定します。
- 次のパラメーターを入力します。
- [入力フィーチャ] で [ZIP3_Analysis_Data] を選択します。
- [近接フィーチャ数] に「10」と入力します。
- [距離計算の方法] で [ユークリッド] を選択します。
- [実行] をクリックします。
ツールが実行されますが、マップや [コンテンツ] ウィンドウに新しいレイヤーやチャートは追加されません。
- [ジオプロセシング] ウィンドウの下部で、[詳細の表示] をクリックします。
ツール レポートが表示されます。 ZIP3 エリアに 10 個以上の近傍を含めるために必要な最小距離、平均距離、最大距離が表示されます (メートル単位)。 最小距離は 17,802 メートルで、最大距離は 493,120 メートルです。 最大値は、すべての ZIP3 エリアに少なくとも 10 個の近傍が含まれるようにするために必要な最小距離です。
この値を 400,000 に丸め、GWR を実行する際に使用します。 次に、同じ計算を実行して、ZIP3 エリアに 50 個の近傍を含めるために必要な距離を求めます。
- ツール レポートを閉じます。 [近接フィーチャへの距離を計算] ツールをもう一度実行します。今回は [近接フィーチャ数] パラメーターを「50」に変更します。
- ツール レポートを開きます。
すべての ZIP3 エリアに 50 個以上の近傍を含めるために必要な距離は 1,137,020 メートルです。 この値を 1,100,000 に丸め、GWR を実行する際に使用します。
- ツール レポートを閉じます。
空間回帰モデルの構築
[地理空間加重回帰分析 (GWR))] ツールを、パラメーターを変えながら 4 回実行して、最善の結果をもたらすモデルの係数をマッピングします。
- [ジオプロセシング] ウィンドウで、[地理空間加重回帰分析 (GWR)] ツールを検索して開きます。 [その他のオプション] を展開します。
まず、[近傍タイプ] 設定の [近傍数] を実行します。 このオプションでは、各 ZIP3 エリアに対して、固定の距離ではなく固定の近傍数を使用します。 一般的に、同じ情報量でローカル モデルを構築するには、[近傍数] オプションが最適です。 フィーチャが均等に分散している、分析対象のポリゴンのサイズがほぼ同じである、あるいは基礎となる空間処理が同種である場合に有効なオプションです。
- 次のパラメーターを入力します。
- [入力フィーチャ] で [ZIP3_Analysis_Data] を選択します。
- [従属変数] では [Average Interest Rate] を選択します。
- [モデル タイプ] で [連続 (ガウス分布)] を選択します。
- [説明変数] では [Average Loan Grade Rank] チェックボックスをオンにします。
- [出力フィーチャ] で、出力の名前を「GWR_Average_Interest_Rate_vs_Average_Loan_Grade」に変えます。
- [近傍タイプ] で [近傍数] を選択します。
- [近傍選択方法] で [手動間隔] を選択します。
- [最小近傍数] に「10」と入力します。
- [近傍数の増分] に「4」と入力します。
- [増分数] に「11」と入力します。
- [ローカル加重方式] で [バイスクエア] を選択します。
ツールは、これらのパラメーターで 10 個、14 個、18 個...と、最大 50 個の近傍まで実行します (4 つ刻みで計 11 個の近傍)。 [バイスクエア] オプションを指定しているので、近傍とみなされないフィーチャは結果を左右しません。これは、強くローカライズされた空間処理のデータにおいて重要な意味を持つことがあります。
- [実行] をクリックします。
ツールが実行され、レポートが生成されます (レイヤーもマップに追加されますが、これは後ほど見ていきます)。
- [詳細の表示] をクリックします。 必要に応じてツール レポートのサイズを変更します。
4 つ刻みで 10 ~ 50 個の近傍に対して、モデルが作成されます。 各モデルに対し、調整した「赤池情報量規準」(AICc) 診断が計算されます。 AICc とは、モデルにおける情報損失を測定する値です。 AICc が低いほど、モデルのパフォーマンスは向上します。
[解析の詳細] セクションでは、[近傍数] 値が AICc 値が最小の近傍数を示します。 このレポートでは、この数は 22 です。 [モデル診断] セクションの [AdjR2] (補正 R 二乗) 値は、このモデルが平均金利値の 97.19 パーセントの変動を説明することを意味し、GLR モデルの補正 R 二乗値 (94.215 パーセント) よりも改善しています。
次に、ツールをもう一度実行します。今回は [ローカル加重方式] を [Gaussian] に設定します。 この設定では、すべての近傍フィーチャ (最大で 1,000 個に近い) がモデルに影響しますが、最初の 10、14、18 以降のフィーチャはさほど大きな影響力は持ちません。
- ツール レポートを閉じます。 [地理空間加重回帰分析 (GWR))] ツールをもう一度実行します。今回は [ローカル加重方式] を [ガウス] に変更します。
ツールを実行すると、[GWR_Average_Interest_Rate_vs_Average_Loan_Grade] レイヤーが新しい結果で上書きされます。
- [詳細の表示] をクリックします。
Gaussian 加重方式の最善モデルには、10 個のローカル近傍が含まれます。 ただし、AICc 値 (-1673.8710) は 22 個の近傍と Bisquare 加重方式を使用した場合 (-1839.6162) ほど小さくはなりません。 また、補正 R 二乗値 (0.9594) は、Bisquare オプションで生成された値よりも小さくなっています (0.9719)。
このモデルは GLR よりも優れていますが、前回の GWR モデルほど予測は正確ではありません。 次に、ツールをもう一度実行します。 特定数の近傍を使用する代わりに、前のセクションで計算した最小の近傍距離を使用します。 ZIP3 エリアに 10 個の近傍を含めるには、400,000 メートルの距離が必要であることを計算しました。 ZIP3 エリアに 50 個の近傍を含めるために必要な距離は 1,100,000 メートルです。
[近傍タイプ] の [距離バンド] オプションは、指定半径内にある近傍フィーチャは、ローカル モデルのキャリブレーションに使用されることを意味します。 このオプションには、分析の規模を一定に保てるメリットがあります。 この方法は、指定された距離バンド内で各フィーチャに十分な近傍数が含まれており、信頼できるローカル モデルを作成できることが場合に適しています。
- ツール レポートを閉じます。 [地理空間加重回帰分析 (GWR))] ツールで、以下のパラメーターを変更します。
- [近傍タイプ] を [距離バンド] に変更します。
- [最小検索距離] を 「400000」[メートル] に変更します。
- [検索距離の増分] を「100000」[メートル] に設定します。
- [増分数] を「8」に変更します。
これらのパラメーターをもとに、ツールは 400,000 ~ 1,100,000 メートルの間で 100,000 メートル間隔でモデルを作成します。
- ツールを実行します。 ツールの実行が終了したら、[詳細の表示] をクリックします。
最善の距離バンドは 400,000 メートルですが、今回の結果も最初の GWR モデルほどではありません (AICc は -1565.1312、補正 R 二乗値は 0.9507)。
モデルをもう一度実行します。 同じバンド パラメーターを使用しますが、今回はローカル加重方式を変更します。
- ツール レポートを閉じます。 [地理空間加重回帰分析 (GWR))] ツールをもう一度実行します。今回は [ローカル加重方式] を [バイスクエア] に変更します。
- レポートを開きます。
このモデルは前のモデルよりも優れていますが、最初のモデルほどの結果は出せません。 このモデルの AICc (-1843.3228) は最初のモデルの AICc よりも若干小さくなっていますが (-1839.6162)、補正 R 二乗値も小さくなっています (今回: 0.9676、前回: 0.9719)。
最大の補正 R 二乗値と最小の AICc 値を生成するモデル パラメーターを特定しました。 これらの診断の結果、22 個の近傍とバイスクエア加重方式で GWR を実行するモデルが最善であることが判明しました。 同様のワークフローを実行して、同じ従属変数を持つモデルを比較することもできます。
モデルを実行するたびに、前のモデルの結果が上書きされます。 最善の結果の出力を再現するには、最初の試行と同じパラメーターでモデルを実行します。
- ツール レポートを閉じます。 [近傍タイプ] を [近傍数]、[近傍選択方法] を [ユーザー定義]、[近傍数] を「22」にそれぞれ設定してツールを実行します。
- プロジェクトを保存します。
モデル係数のマッピング
先ほど、最小の AICc 値と最大の補正 R 二乗値を生成する最善のモデル パラメーターを特定しました。 次に、モデル係数をマッピングし、平均金利と平均ローン等級との関係が国全体でどのように変化するか検証します。
GLR のマップ出力と同様、GWR のマップ出力も残差を示しています (モデル予測が、実際の平均金利よりも高いか低い)。 出力レイヤーには、各 ZIP3 エリアの係数値のフィールドもあります。 係数が大きくなればなるほど、平均金利と平均ローン等級との関係も強くなります。 このフィールドをマッピングすると、国全体におけるこれらの変数の関係を詳しく見ることができます。
- [コンテンツ] ウィンドウで、[GWR_Average_Interest_Rate_vs_Average_Loan_Grade] レイヤーを右クリックし、[シンボル] を選択します。
レイヤーの [シンボル] ウィンドウが表示されます。
注意:
場合によっては、新しいシンボルを表示するために、[プライマリ シンボル] を [個別値] に変更してから、[等級色] に変更しなおす必要があります。
- [フィールド] を [Coefficient (AVELOANGRADE)]、[方法] を [等量]、[クラス] を [7] に設定します。
- [配色] で [黄オレンジ茶] 連続カラー ランプ (または最小から最大に並べたデータを表す等級カラー ランプ) を選択します。
ヒント:
配色の名前を確認するには、配色の上にポイントします。
- [シンボル] ウィンドウを閉じます。 [コンテンツ] ウィンドウで、[State Boundaries] レイヤーを [GWR_Average_Interest_Rate_vs_Average_Loan_Grade] レイヤーの上にドラッグします。
マップ上で色の濃い地域は、2 つの変数間の関係が強い場所を表します。 色の薄い地域は、関係が弱い場所です。
- プロジェクトを保存します。
マップでは、金利はローン等級だけに依存するわけではない (少なくとも、すべての場所にこれがあてはまるわけではない) ことを示しています。 ミシシッピ州とカンザス州の大部分では、平均ローン等級と平均金利との関係は弱くなっています。 ミシシッピ州全体を見ると、平均して、金利は予測よりも低くなっています。 一方でカンザス州の大部分では、予測よりも高くなっています。
このパターンには、明確かつ重要な意味があります。 ローン金利の差は、経済全体に影響を及ぼします。 金利が高いためにローン申請が少なくなると、人々の支出は減り、事業規模も縮小します。 しかし、金利が低くなると、人々は積極的に資金を借りて支出し、事業は拡大する傾向があります。
さまざまなオンライン市場に、差別待遇が見られることを発見した研究者もいます。 ジョナサン・ブルーム氏の調査解析では、オンライン融資に伴う地理的な差別を明らかにしています。 しかし、ジョナサンはローン等級しか考慮に入れていません。 LendingClub では「ローン等級と金利の間の直接的な関係」があることを示していますが、マップをみると他の要因があることもわかります。 たとえば、金利が最も低い融資よりも審査期間が短い融資を選ぶ借主は「全体の 3 分の 1」ほどに及ぶことが調査の結果わかっています。
ジョナサンはジャーナリストです。 彼の役目は、オンライン融資についてレポートし、議論の種を情報提供することです。 このレッスンで作成したマップや分析の内容は、その仕事の中で幅広く活用できる重要なストーリーテリング ツールとなるでしょう。
このレッスンでは、空間回帰分析を使用し、平均金利と平均ローン等級ランキングとの関係をモデル化し、想定していた相関関係を確認しました。 このワークフローは、他に想定される相関関係のテストにも流用できます。 たとえば、平均収入が高い地域では、平均所得税も高くなるはずです。 しかし、これは常にあてはまることでしょうか? 国全体で、この点がそれほどあてはまらない場所、あるいは一貫していない場所はないでしょうか? 農産物の生育に最適な農業地域は、最大の収穫量を誇るはずです。 しかし、すべての場所でこれがあてはまるでしょうか? そうでない場合、その理由は何でしょうか? 教師 1 人あたりに対する生徒数の比率が適正な学校では、試験の成績も良いと想定するのは妥当ではありませんか。
次はあなたの番です。 あなた自身が当然のことと思い込んでいる関係性をテストし、その結果を確認してみましょう。
他のチュートリアルについては、チュートリアル ギャラリーをご覧ください。