Создание карты горячих точек

Если бы вам потребовались деньги для погашения долга, оплаты свадьбы, отпуска, ремонта дома или на непредвиденные расходы, подали бы вы заявку на онлайн-кредит? В последние несколько лет миллионы людей ответили да. Если вы решите присоединиться к ним, какова будет процентная ставка? Большинство людей думают, что недостаточная кредитная история автоматически означает более высокую процентную ставку. Это корректное утверждение?

Джонатан Блюм из Нью-Йорка, новичок в ГИС, хочет подробно изучить эту тему. Используя данные кредитных заявок с августа 2007 по сентябрь 2015 в США (полученные от LendingClub и суммированные по трехзначным ZIP-кодам областей), он хочет подтвердить, что средние процентные ставки по онлайн-кредитам различны в разных географических областях.

Сначала вы создадите карту горячих точек, показывающую области статистически значимых преобладаний высоких и низких процентных ставок.

Открытие проекта

Вы загрузите и откроете проект ArcGIS Pro, содержащий данные о кредитах, сведенные воедино по 3-значным областям почтового индекса.

  1. Скачайте сжатую папку online-lending-data.
  2. Щелкните правой кнопкой мыши загруженную папку и извлеките ее в место, которое вы можете легко найти, например в папку Документы.
  3. Откройте папку online-lending-data.

    Эта папка содержит файловую базу геоданных с данными, индексную папку, файл проекта ArcGIS Pro и набор инструментов ArcGIS.

  4. Если на вашем компьютере установлен ArcGIS Pro, дважды щелкните файл проекта OnlineLending (у него расширение .aprx). Если будет предложено, войдите под лицензированной учетной записью ArcGIS.
    Примечание:

    Если у вас нет доступа к ArcGIS Pro или учетной записи организации ArcGIS, см. варианты доступа к программному обеспечению.

    Содержание проекта по умолчанию

    Проект содержит карту США. Один слой карты представляет границы штатов, другой - слой ZIP3 областей с данными по кредитным заявкам. (ZIP3-области - полигональные области, определяемые первыми тремя цифрами стандартного пятизначного почтового индекса (ZIP)).

    Вы просмотрите атрибутивную таблицу слоя заявок, чтобы познакомиться с данными.

  5. На панели Содержание щёлкните правой кнопкой слой ZIP3 Loan Data и выберите Таблица атрибутов.

    Опция Таблица атрибутов

    Откроется таблица. Для каждой области ZIP3 в атрибутах присутствует идентификатор, общее число поданных кредитных заявок, общее число выданных кредитов (принятых кредитов), средняя процентная ставка по всем выданным кредитам, средний рейтинг кредитоспособности по всем выданным кредитам и общее число домохозяйств.

    LendingClub присваивает кредитный рейтинг каждой полученной кредитной заявке, от A1 (минимальное процентная ставка) до E5 (максимальная процентная ставка). Эти значения кредитного рейтинга конвертируются в простые числовые ранги для анализа. Кредитному рейтингу A1 соответствует значение 1, A2 – значение 2, и так далее. Повышение рейтинга ведет к более высоким рискам при выдачи кредита.

  6. Закройте таблицу.

Выбор участков с числом заявок не менее 30

Чтобы быть уверенным в достоверности и репрезентативности расчетов средних процентных ставок для каждой области ZIP3, вы включите в анализ только области, где зафиксировано не менее 30 кредитных заявок. Сначала вы запустите инструмент геообработки Выбрать в слое по атрибуту, который выберет ZIP3 области, в которых зафиксировано не менее 30 выданных кредитов.

  1. Щелкните вкладку Анализ на ленте. В группе Геообработка щелкните Инструменты.

    Кнопка Инструменты

    Откроется панель Геообработка. В этой панели содержится большое количество инструментов, которые можно использовать со слоями данных.

  2. На панели Геообработка найдите и выберите инструмент Выбрать в слое по атрибуту.

    Инструмент Выбрать в слое по атрибуту

    Откроется диалоговое окно инструмента. Вы можете настроить ряд параметров, определяющих выполнение инструмента. Сначала вы выберете таблицу, с которой инструмент будет работать.

  3. В параметре Входная таблица выберите ZIP3 Loan Data.

    Далее вы построите условие для выбора только тех областей ZIP3, где зафиксировано 30 или более выданных кредитов.

  4. Постройте выражение Где Number of loans больше или равно 30.

    Выбрать в слое по атрибуту – параметры

  5. Щелкните Запустить.

    ZIP3 области, в которых зафиксировано не менее 30 выданных кредитов. Далее вы создадите копию слоя, содержащего выбранные области ZIP3. Вы сможете использовать скопированный слой для дальнейшего анализа.

  6. На панели Геообработка щелкните кнопку Назад.

    Кнопка Назад на панели геообработки

    Вы вернетесь к списку, возвращенному поиском инструментов.

  7. Удалите текст в строке поиска. Найдите и откройте инструмент Копировать объекты.
  8. В параметре Входные объекты выберите ZIP3 Loan Data. Для Выходного класса объектов оставьте путь к выходным данным по умолчанию и измените имя выходного класса на ZIP3_Analysis_Data.

    Параметры инструмента Копировать объекты

    При запуске этого инструмента будут скопированы только выбранные объекты. Если в слое ничего не выбрано – все объекты этого слоя будут скопированы.

    Примечание:

    По умолчанию, на выходе будет создан класс пространственных объектов базы геоданных. Этот формат более функционален, чем формат шейп-файла, так как имена атрибутивных полей шейп-файла могут быть обрезаны, кроме того для них не поддерживаются некоторые функции.

  9. Щелкните Запустить.

    Слой ZIP3_Analysis_Data будет добавлен на панель Содержание. В последующем анализе вы будете работать с этим слоем. Слой ZIP3 Loan Data вам больше не потребуется, его можно удалить из карты.

  10. На панели Содержание щёлкните правой кнопкой слой ZIP3 Loan Data и выберите Удалить.

    Опции удаления

  11. На панели инструментов быстрого доступа нажмите кнопку Сохранить.

    Кнопка Сохранить на панели инструментов быстрого доступа

Анализ горячих точек процентных ставок

Для создания карты горячих точек средних процентных ставок по кредитам воспользуемся инструментом Анализ горячих точек (Getis-Ord Gi*). Этот инструмент идентифицирует статистически значимые кластеры высоких значений и низких значений.

  1. В панели Геообработка найдите и откройте инструмент Анализ горячих точек (Getis-Ord Gi*).
  2. Для Входного класса пространственных объектов выберите ZIP3_Analysis_Data. Для Входного поля выберите Average Interest Rate.
  3. Для Выходного класса объектов измените имя на Interest_Rate_Hot_Spots.

    Входные и выходные параметры инструмента Анализ горячих точек

    Инструмент Анализ горячих точек (Getis-Ord Gi*) анализирует статистическую значимость каждого значения объекта (в нашем случае, каждое значение средней процентной ставки по области ZIP3) в контексте значений соседних объектов. Параметр Определение пространственных отношений указывает, какие именно объекты считаются соседними.

    Размеры областей ZIP3 варьируют в довольно значительных пределах. Области на востоке США отличаются значительно большими размерами, чем на западе. То есть, определение соседнего объекта по принципу смежности с другим объектом приведет к разному масштабу анализа в разных частях страны, что может исказить результаты.

    По умолчанию для этого параметра установлено значение Полоса фиксированных расстояний, определяющее соседние объекты по их нахождению в пределах указанного расстояния от искомого объекта. Преимущество этой опции в том, что масштаб анализа сохраняется постоянным по всей изучаемой области, что обеспечивает более точные результаты.

  4. Для параметра Определение пространственных отношений убедитесь, что указана опция Полоса фиксированных расстояний.

    Вы также можете указать расстояние, в пределах которого объекты считаются соседними. Если расстояние не задано, инструмент расстояние использует минимальное расстояние, которое гарантирует, что для каждого объекта имеется хотя бы один соседний объект. Иногда установка этой опции приводит к тому, что у некоторых объектов будет только один соседний объект, в то время как у других несколько тысяч, соответственно не всегда это лучший выбор.

    Для этого анализа отдельные записи кредитов уже агрегированы по областям ZIP3, поэтому использование минимально допустимого расстояния анализа вполне корректно.

  5. Оставьте параметр Диапазон расстояний или пороговое расстояние пустым.

    Далее, вы отметите опцию Применить коррекцию средней доли ложных отклонений, для корректировки результатов по множественному тестированию и пространственной значимости.

  6. Отметьте опцию Применить коррекцию средней доли ложных отклонений гипотезы (FDR).

    Параметры в диалоговом окне инструмента Анализ горячих точек

  7. Щелкните Запустить.

    Инструмент запустится. Он вычисляет среднюю процентную ставку по каждой области ZIP3 и всех соседних с ней областях. Если средний уровень процентной ставки в окрестности превышает уровень ставки в целом по всей стране, ZIP3 область, определяющая эту окрестность признается горячей точкой. Если уровень существенно ниже – ZIP3-область признается холодной точкой. По завершении работы инструмента на карту будет добавлен новый слой.

    Примечание:

    Для более подробной информации об анализе горячих точек обратитесь к статье справки Как работает инструмент Анализ горячих точек (Getis-Ord Gi*).

    Карта горячих точек по средним значениям процентной ставки

    Участки красного цвета соответствуют горячим точкам, а голубого – холодным. Большинство областей в Алабаме демонстрируют уровень процентной ставки выше, чем ожидалось, в то время, как области в районе Сан-Франциско показывают уровень процентной ставки ниже ожидаемого.

  8. Сохраните проект.

Вы создали карту горячих точек по областям ZIP3, на которых отмечалось не менее 30 рассмотренных кредитных заявок. Карта показывает наличие статистически-значимых кластеров как высоких, так и низких процентных ставок.

Получив карту с результатами, Джонатан Блюм решил выяснить, почему процентные ставки в Алабаме выше, чем в Сан-Франциско. Справедливо ли предположить, что присвоенные жителям штата Алабама кредитные рейтинги отражают более высокие кредитные риски? Риски заемщика в Сан-Франциско должны быть такими же, как и в Алабаме, правильно? Будучи скептиком, Джонатан решил изучить проблему глубже.

Далее вы вместе с ним углубитесь в изучение проблемы и построите модель, описывающую отношения между средней процентной ставкой и средним кредитным рейтингом.


Создание модели регрессии

Ранее вы построили карту горячих точек по значениям средней процентной ставки, чтобы увидеть кластеры высоких и низких процентных ставок. Далее вы построите модель регрессии с использованием инструмента Обобщенная линейная регрессия (ОЛР), чтобы определить, насколько хорошо по уровню среднего кредитного рейтинга можно предсказать уровень процентной ставки.

Модель регрессии вычисляет отношение между переменными. Если по значению кредитного рейтинга можно будет корректно рассчитать величину процентной ставки, в вашей модели регрессии будет получено высокое значение Скорректированного R-2. Кроме того, различия между прогнозируемыми значениями по модели и наблюдаемыми значениями (известные как невязки) будут демонстрировать случайное распределение по всей изучаемой области.

Выполнение регрессионного анализа

Для создания модели регрессии вы запустите инструмент Обобщенная линейная регрессия.

  1. Если необходимо, откройте проект OnlineLending.
  2. На панели Геообработка найдите и откройте инструмент Обобщенная линейная регрессия (GLR) (Инструменты пространственной статистики).
  3. Для Входных объектов выберите ZIP3_Analysis_Data.

    В модели регрессии должна быть одна зависимая переменная (переменная, которую вы хотите объяснить), и одна или более независимых переменных. В качестве зависимой переменной вы будете использовать среднюю процентную ставку.

  4. Для Зависимой переменной выберите Average Interest Rate. В параметре независимые переменные отметьте Average Loan Grade Rank.

    Параметры инструмента Обобщенная линейная регрессия

    Для параметра Тип модели есть три опции: Непрерывные (Гауссовы), Бинарные (Двоичные) и Количественные (Пуассона). Выбор опции определяется зависимой переменной. Изучая таблицу атрибутов вы увидели, что величины процентных ставок представлены непрерывными значениями с десятичными знаками, а не бинарными и не дискретными значениями.

  5. Оставьте для Типа модели опцию Непрерывные (Гауссовы).

    С моделью этого типа выполняется регрессия методом Наименьших квадратов, где строится глобальная модель регрессии для зависимой переменной и создается единое уравнение регрессии для этой модели.

  6. Для Выходных объектов измените имя на Average_Interest_Rates_vs_Loan_Grades.
  7. Щелкните Запустить.

    Инструмент запустится. Слой будет добавлен на карту. В панель Содержание также добавились три диаграммы.

    Карта модели заниженных и завышенных прогнозируемых значений

    Этот слой картографирует невязки модели регрессии (области, в которых прогнозируемые значения выше или ниже реальных значений). Темно-фиолетовым цветом показаны области, где реальные процентные ставки ниже прогнозируемых моделью, а области зеленого цвета соответствуют участкам, в которых процентные ставки выше, чем рассчитанные в модели.

    Пространственное распределение невязок нельзя назвать случайным. В частности, весь штат Миссисипи представляет собой большой кластер ZIP3-областей, в которых прогнозируемые значения в модели превышают реальные значения процентных ставок.

Проверка результатов регрессии

Результат регрессионного анализа также содержит отчет и несколько диаграмм. Сначала вы изучите отчет.

  1. В нижней части панели Геообработка наведите на Просмотреть подробности.

    Опции просмотра подробной информации

    Откроется отчет о выполнении инструмента Обобщенная линейная регрессия.

  2. Прокрутите вниз отчет инструмента Обобщенная линейная регрессия и разверните сообщения для просмотра Диагностики GLR.
    Подсказка:

    Вы можете изменить размер окна, переместив его границы.

    Отчет GLR

    Сейчас вам интересно только значение Скорректированного R-квадрат. Значения R-2 находятся в диапазоне от 0 до 100 процентов (выражены в десятичной дробью) и указывают на выраженность корреляции между процентной ставкой и средним кредитным рейтингом.

    В разделе Диагностика ОЛР можно увидеть значение Скорректированного R-2 – 0.942152.

    Скорректированный R-2 в диагностике ОЛР

    Это значение указывает, что средний кредитный рейтинг может объяснить около 94% значений по процентной ставке. Как и предполагалось, это высокое значение R-2, указывающее на высокую степень корреляции.

    Далее вы откроете точечную диаграмму, демонстрирующую отношения между переменными.

  3. Закройте отчет инструмента. В панели Содержание дважды щелкните диаграмму Отношения между переменными.

    Диаграмма отношений между переменными в панели Содержание

    Откроется диаграмма. Также откроется панель Свойства диаграммы.

    Диаграмма показывает четкую корреляцию между процентной ставкой и кредитным рейтингом

    На диаграмме представлены все области ZIP3 по значениям средней процентной ставки и среднего кредитного рейтинга. Большинство точек укладывается в прямую линию, что указывает на четкую корреляцию. Темно-фиолетовые точки ниже линии соответствуют областям ZIP3, где модель предсказывает заниженную среднюю процентную ставку.

    Хотя несколько невязок лежат ниже линии, они, тем не менее, указывают на положительное отношение, то есть с ростом кредитного рейтинга растет и средняя процентная ставка.

  4. Закройте диаграмму и панель Свойства диаграммы. Сохраните проект.

Вы использовали регрессионный анализ для объяснения роста средней процентной ставки на основе данных о кредитном рейтинге. Тем не менее, результаты не соответствуют ожиданиям Джонатана Блюма. Хотя он и получил четко выраженную корреляцию между средним кредитным рейтингом и средней процентной ставкой, он сразу же увидел и проблему в распределении невязок. Джонатан ожидал получить случайное распределение невязок в расчетах прогнозируемых значений выше и ниже наблюдаемых, но в распределении невязок в значениях ниже ожидаемых наблюдается явная пространственная закономерность. Очевидно, по значениям среднего кредитного рейтинга нельзя рассчитать возможную процентную ставку в этой части страны.

По словам Джонатана, важно найти области с более низкими, чем ожидалось, процентными ставками по всему штату Миссисипи. Это создает впечатление либо намеренного смещения, либо неравномерного влияния. Неравномерное воздействие может иметь место, если решения об одобрении кредитов, которые изначально не были преднамеренно дискриминационными, приводят к дискриминационным результатам. Правило предоставления ипотечных кредитов только на жилье стоимостью не менее $200000, например, может привести к намеренной дискриминации цветного населения, так как средняя стоимость жилья в районах проживания меньшинств меньше $200,000. Для кредиторов довольно трудно избежать неравномерного воздействия, так как оно незаметно, пока не выдано достаточное количество кредитов.

Далее вы будете использовать Географически взвешенную регрессию для визуализации на карте областей, в которых корреляция между средним кредитным рейтингом и средней процентной ставкой выражена сильнее, и областей, в которых эта корреляция выражена слабо, по всей территории страны.


Карта вариабельности корреляций

Ранее вы моделировали среднюю процентную ставку как функцию от среднего кредитного рейтинга. Созданная в рамках анализа карта невязок показала, что прогнозирование значения процентной ставки по среднему кредитному рейтингу не очень корректно в штате Миссисипи.

Если отношения между двумя переменными выражены четко, вы можете прогнозировать значение одной переменной, исходя из значения другой. Метод Обобщенной линейной регрессии (ОЛР), который вы использовали в предыдущем уроке рассчитал выраженность отношений с использованием единого коэффициента. Другими словами,. Предполагается, что отношения между средним кредитным рейтингом и средней процентной ставкой одинаковы для всех областей ZIP3 в стране. Если Джонатан Блюм хочет изучить, как меняются отношения, и увидеть, где средний кредитный рейтинг имеет сильное или слабое влияние на среднюю процентную ставку, ему необходимо применить другой метод вычисления регрессии, который называется Обобщенная взвешенная регрессия (ГВР).

ГВР вычислит свой коэффициент для каждой области ZIP3. Высокие значения коэффициента будут свидетельствовать о сильно выраженном влиянии кредитного рейтинга на процентную ставку; если значения коэффициента низкие - влияние выражено значительно слабее.

Далее вы создадите карту коэффициентов ГВР для идентификации областей сильно и слабо выраженных отношений между этими двумя переменными.

Поиск минимального расстояния окрестности

ГВР калибрует локальную модель регрессии для каждой области ZIP3, используя только соседние с ней области ZIP3 при расчетах. В модели также присваивается вес соседним объектам, так как они оказывают большее влияние на процесс калибровки, чем более отдаленные объекты. Параметры Тип окрестности и Локальная схема весов определяют, какие соседние объекты включены в процесс калибровки или исключены из него.

В данном рабочем процессе вы попробуете все четыре варианта комбинации параметров, чтобы увидеть, какая установка приведет к лучшим результатам. Вы можете разрешить инструменту установить минимальное и максимальное расстояние поиска, а также число соседей, но исходные настройки инструмента требуют наличия не менее 30 соседних объектов. Вы установили, что отношения между средней процентной ставкой и средним кредитным рейтингом выражено достаточно сильно, с немногими отклонениями. Соответственно, ваша наилучшая модель должна использовать меньшее расстояние и меньшее число соседей, чем предлагается в настройках инструмента. Вы попробуете расстояния, в пределах которых можно идентифицировать от 10 до 50 соседних объектов.

  1. Если необходимо, откройте проект OnlineLending.
  2. На панели Геообработка найдите и откройте инструмент Вычислить диапазон расстояний до числа соседних объектов.

    Вы будете использовать этот инструмент для определения минимального расстояния, в пределах которого для каждой области ZIP3 можно будет выявить не менее 10 соседних объектов.

  3. Введите следующие параметры:
    • Для Входных объектов выберите ZIP3_Analysis_Data.
    • Для Числа соседей введите 10.
    • Для метода определения расстояния выберите Эвклидово.

    Параметры инструмента Вычислить диапазон расстояний до числа соседних объектов

  4. Щелкните Запустить.

    Инструмент запуститься, но новый слой или диаграмма не появятся в панели Содержание.

  5. В нижней части панели Геообработка щелкните Просмотреть подробности.

    Откроется отчет инструмента. В нем будет отражено минимальное, среднее и максимальное расстояние (в метрах) в пределах которого для областей ZIP3 можно идентифицировать не менее 10 соседних объектов. Минимальное значение равно 17802 метров, а максимальное – 493120 метров. Максимальное значение соответствует минимальному расстоянию, в пределах которого для каждой области ZIP3 можно будет выявить не менее 10 соседних объектов.

    Расстояние, в пределах которого для каждого объекта гарантировано присутствует 10 соседних объектов

    Вы округлите это значение до 400000 и используете при выполнении ГВР. Далее вы выполните похожие вычисления, чтобы определить расстояние, в пределах которого для каждой области ZIP3 можно будет идентифицировать 50 соседних объектов.

  6. Закройте отчет инструмента. Еще раз запустите инструмент Вычислить диапазон расстояний до числа соседних объектов, изменив параметр Число соседей на 50.
  7. Откройте отчет инструмента.

    Расстояние, необходимое, чтобы у каждой области ZIP3 идентифицировалось не менее 50 соседних объектов, равно 1137020 метров. Вы округлите это значение до 1 100 000 и используете при выполнении ГВР.

    Расстояние, в пределах которого для каждого объекта гарантировано присутствует 50 соседних объектов

  8. Закройте отчет инструмента.

Построение пространственной модели регрессии

Вы будете запускать инструмент Географически взвешенная регрессия (ГВР)четыре раза с разными параметрами и отобразите на карте коэффициенты той модели, в которой будут получены наилучшие результаты.

  1. На панели Геообработка найдите и откройте инструмент Географически взвешенная регрессия. Разверните Дополнительные параметры.

    Сначала вы попробуете указать Количество соседей в параметре Тип окрестности. Эта опция предполагает определение фиксированного числа соседних объектов для каждой области ZIP3, а не фиксированного расстояния. Опция Количество соседей в целом лучше, если вы хотите построить каждую локальную модель с одинаковым количеством исходной информации. Это хороший выбор, если объекты распределены равномерно, анализируются полигоны близкого размера или внутренние пространственные процессы однородны.

  2. Введите следующие параметры:
    • Для Входных объектов выберите ZIP3_Analysis_Data.
    • Для Зависимой переменной выберите Average Interest Rate.
    • Для Типа модели выберите Непрерывные (Гауссовы).
    • В параметре независимые переменные отметьте Average Loan Grade Rank.
    • Для Выходных объектов измените имя на Average_Interest_Rates_vs_Loan_Grades.
    • Для Типа окрестности выберите Количество соседей.
    • В качестве Метода выбора окрестности выберите Интервал вручную.
    • Введите 10 в качестве Минимального числа соседей.
    • Введите 4 в качестве Инкремента числа соседей.
    • Введите 11 в качестве Числа инкрементов.
    • Для Локальной схемы весов выберите Биквадратная.

    С этими параметрами инструмент запустится сначала для 10 соседних объектов, потом для 14, потом для 18 и так далее, вплоть до 50 соседних объектов (11 раз, с шагом по 4). Так как выбрана опция Биквадратная, объекты, которые не считаются соседними, не влияют на результаты, что может быть важным для данных с сильно локализованными пространственными процессами.

  3. Щелкните Запустить.

    После запуска инструмента создается отчет (а также слой, добавленный к карте, который вы просмотрите позже).

  4. Щелкните Просмотреть подробности. Настройте размер окна отчета, если необходимо.

    Для каждого числа соседей от 10 до 50 с шагом 4 была создана своя модель. Скорректированный Информационный критерий Акаике (AIC) был рассчитан для каждой модели. По значению AIC можно судить о потере информации в модели. Чем меньше значение AIC, тем лучше работает модель.

    В разделе Подробная информация об анализе значение Количество соседей показывает то число соседей, с которым значение AIC будет наименьшим. В вашем случае это число 22. В разделе Диагностика модели значение AdjR2 (Скорректированный R-2) указывает, что модель объясняет 97.19 процентов вариабельности средней процентной ставки, что значительно лучше, чем Скорректированный R-2, полученный в вашей модели ОЛР (94.215%).

    Отчет ГВР с типом окрестности Количество соседей

    Далее вы запустите инструмент еще раз, изменив опцию Локальная схема весов на Гауссову. В соответствии с этой установкой, все соседние объекты (вплоть до 1000 ближайших) влияют на результат в модели, но влияние объектов, расположенных дальше первых 10, 14, 18 и так далее, существенно снижено.

  5. Закройте отчет инструмента. Запустите инструмент Географически взвешенная регрессия (ГВР) еще раз, изменив Локальную схему весов на Гауссову.

    При повторном запуске инструмента слой GWR_Average_Interest_Rate_vs_Average_Loan_Gradeбудет перезаписан с новыми результатами.

  6. Щелкните Просмотреть подробности.

    Со схемой весов Гаусса наилучшие результаты получаются в модели, где количество соседей – 10. Но значение AIC в этом случае (-1673.8710) не ниже, чем в модели с 22 соседями и биквадратной схемой весов (-1839.6162). Также и Скорректированный R-2 (0.9594) ниже, чем в модели с опцией Биквадратная (0.9719).

    Хотя результаты этой модели лучше, чем ОЛР, прогнозирование все-таки хуже чем в первой модели ГВР. Далее вы запустите инструмент еще раз. Вместо определения точного числа соседних объектов, вы используете минимальное расстояние окрестности, которое вы вычислили ранее. Вы определили, что для каждой области ZIP3, чтобы выявить 10 соседних объектов, расстояние поиска окрестности должно быть 400000 метров. Чтобы у каждой области ZIP3 можно было идентифицировать не менее 50 объектов, необходимо указать расстояние 1100000 метров.

    Установка опции Диапазон расстояний для Типа окрестности означает, что для калибровки каждой локальной модели будут использоваться соседние объекты, лежащие в пределах указанного расстояния. Эта опция имеет несомненное преимущество в том, что масштаб анализа сохраняется постоянным. Это наиболее целесообразно, если вы уверены, что у каждого объекта имеется достаточно соседних объектов в пределах указанного расстояния для создания надежной локальной модели.

  7. Закройте отчет инструмента. Найдите и запустите инструмент Географически взвешенная регрессия (ГВР) со следующими параметрами:
    • Измените Тип окрестности на Диапазон расстояний.
    • Установите Минимальное расстояние поиска на 400000 метров.
    • Установите Инкремент расстояния поиска на 100000 метров.
    • Введите 8 в качестве Числа инкрементов.

    Параметры модели для диапазона расстояний

    С этими параметрами инструмент создаст модель для каждого 100000 метрового интервала между 400000 и 1100000 метров.

  8. Запустите инструмент. По окончании щелкните Просмотреть подробности.

    Лучше всего выполняется модель на расстоянии 400000, но результаты не такие хорошие, как в первой модели ГВР (значение AIC –1565.1312 и скорректированный R-2 равен 0.9507).

    Отчет ГВР с параметрами диапазона расстояний

    Вы запустите инструмент еще один раз. Параметры расстояния останутся прежними, но вы измените локальную схему весов.

  9. Закройте отчет инструмента. Запустите инструмент Географически взвешенная регрессия (ГВР) еще раз, изменив Локальную схему весов на Биквадратную.
  10. Откройте отчёт.

    Эта модель работает лучше, чем предыдущая, но она все же не так эффективна, как самая первая модель, опробованная вами. Хотя значение AIC в этой модели (-1843.3228) несколько ниже, чем в первой модели, которую вы опробовали (-1839.6162), значение скорректированного R-2 также меньше (0.9676 и 0.9719).

    Вы идентифицировали параметры модели, при использовании которых вы получаете наименьшее значение AIC в сочетании с наибольшим значением скорректированного R-2. По результатам диагностики можно сделать вывод, о том, что наиболее эффективная модель географически-взвешенной регрессии строится при использовании 22 соседних объектов, с биквадратной схемой весов. Вы можете использовать схожий рабочий процесс для сравнения нескольких моделей с одной и той же зависимой переменной.

    Каждый раз при запуске модели, результаты предыдущего запуска перезаписываются. Вы запустите модель с теми же параметрами, что и первый раз, чтобы заново получить результат максимально эффективной модели.

  11. Закройте отчет инструмента. запустите инструмент с Типом окрестности, установленным на Количество соседей, метод выбора окрестностиОпределен пользователем и Число соседей22.
  12. Сохраните проект.

Визуализация на карте коэффициентов модели

Вы идентифицировали параметры модели, при использовании которых вы получаете наименьшее значение AIC в сочетании с наибольшим значением скорректированного R-2, указывающие на наиболее эффективную модель. Далее вы визуализируете на карте коэффициенты модели для оценки, насколько отношения между средней процентной ставкой и средним кредитным рейтингом меняются на территории всей страны.

Так же, как и в случае отображения на карте выходных данных ОЛР, выходные данные ГВР визуализируют невязки (то есть, местоположения, в которых прогнозированные значения, рассчитанные в модели, выше или ниже реальных значений средних процентных ставок). Выходной слой также содержит поле значений коэффициентов для каждой области ZIP3. Чем больше коэффициент, тем сильнее выраженно отношение между средней процентной ставкой и средним кредитным рейтингом. Отображение данных по значениям этого поля дает возможность отобразить вариабельность отношений между переменными по всей территории страны.

  1. На панели Содержание щелкните правой кнопкой слой GWR_Average_Interest_Rate_vs_Average_Loan_Grade и выберите Символы.

    Откроется панель Символы этого слоя.

    Примечание:

    Вам может потребоваться изменить Основные символы на Уникальные значения а потом обратно на Градуированные цвета, чтобы увидеть отображение новых символов.

  2. Установите Поле на Coefficient (AVELOANGRADE), Метод на Квантиль и Классы на 7.

    Параметры панели символов

  3. Для Цветовой схемы выберите Желто-Оранжево-Коричневую непрерывную цветовую шкалу (или любую градуированную цветовую шкалу, позволяющую визуализировать данные от меньшего к большему).
    Подсказка:

    Чтобы увидеть названия цветовых схем, наведите на них.

    Желто-Оранжево-Коричневая схема для отображения коэффициентов

  4. Закройте панель Символы. В панели Содержание перетащите слой State Boundaries выше слоя GWR_Average_Interest_Rate_vs_Average_Loan_Grade.

    Карта отношений между процентной ставкой и кредитным рейтингом

    Темные области на карте указывают на области, где отношения между этими двумя переменными сильно выражены. Более светлые области указывают на более слабые отношения.

  5. Сохраните проект.

    Карта подтверждает, что процентные ставки зависят не только от кредитного рейтинга, по крайней мере, не везде. Например, в штате Миссисипи, и в большей части Канзаса отношения между процентной ставкой и кредитным рейтингом выражены слабо. В штате Миссисипи процентная ставка в модели прогнозируется ниже, чем ожидалось. В большинстве районов Канзаса она, наоборот, выше.

    Эта закономерность имеет ощутимые материальные последствия. Разница в процентных ставках оказывает сильное влияние на экономику. Если доступ к кредитам ограничен из-за высоких процентных ставок, люди, как правило, стараются тратить меньше, а соответственно показатели бизнеса снижаются. Когда процентные ставки по кредитам низкие, люди с большей охотой берут кредиты и совершают покупки, что способствует развитию предприятий.

    Некоторые исследователи находят доказательства дискриминации на различных онлайн-площадках. Анализ Джонатана Блюма вносит вклад в эту область исследований, обнаруживая доказательства географической дискриминации, связанной с онлайн-кредитованием. Но Джонатан изучал только одобренные заявки. Хотя LendingClub указывает на прямую зависимость процентной ставки и кредитного рейтинга, созданные вами карты указывают на присутствие и других факторов. Например, некоторые исследователи обнаружили, что, по крайней мере, треть заемщиков выбирает кредит с максимально быстрым временем предоставления, а не минимальной процентной ставкой.

    Джонатан - журналист. Его работа - информировать о дебатах вокруг проблемы онлайн-кредитования. Карты, созданные и проанализированные на этом уроке, являются важными инструментами стори-теллинга, которые он сможет широко использовать в своей работе.

В этом уроке вы использовали пространственный регрессионный анализ для моделирования отношений между средней процентной ставкой и средним кредитными рейтингом, проверяя предполагаемую корреляцию. Этот рабочий процесс можно использовать и для проверки других возможных корреляций. Например, уровень подоходного налога в сообществе с высоким уровнем доходов, вероятно, будет также высокий. Всегда ли это верно? В каких районах страны эта корреляция соблюдается, а в каких - не очень? Сельскохозяйственные угодья с наилучшими условиями должны давать самые высокие урожаи. Повсеместно ли соблюдается это соотношение? Если нет, то почему? Можно ли предположить, что в школах с лучшим соотношением учителей и учеников результаты экзаменов максимально высоки?

Чего же вы ждете? Начните проверять некоторые из ваших собственных предполагаемых отношений и посмотрите, что вы обнаружите.

Вы можете найти больше учебных пособий в галерее учебных пособий.