Визуализация данных

Сначала вы добавите к карте таблицу данных в виде набора точечных объектов с атрибутами. Позже в рабочем процессе вы можете включить пространственные характеристики данных в процесс моделирования.

Создание объектов

Вы загрузите пакет проекта ArcGIS Pro с таблицей данных о продаже домов и создадите из нее класс пространственных объектов.

  1. Скачайте пакет проекта King County House Prices.
  2. Перейдите в папку, в которую вы загрузили пакет проекта, и дважды щелкните King_County_House_Prices.ppkx, чтобы открыть проект в ArcGIS Pro. Если будет предложено, войдите под лицензированной учетной записью ArcGIS.
    Примечание:

    Если у вас нет доступа к ArcGIS Pro или учетной записи организации ArcGIS, см. варианты доступа к программному обеспечению.

    Откроется проект. Карта имеет экстент округа Кинг, штат Вашингтон. На панели Содержание в разделе Автономные таблицы есть элемент с именем kc_house_data.csv.

    Этот файл представляет собой файл значений, разделенных запятыми (.csv) – формат, часто используемый для обмена таблицами данных. Первая строка файла содержит список имен полей с разделителями-запятыми; каждая последующая строка содержит значения с разделителями-запятыми для каждого из этих полей. Во многих рабочих процессах по науке о данных или машинному обучению одним из первых шагов является считывание этого файла во фрейм данных с помощью блокнота. В этом уроке вы загрузите данные в базу геоданных в виде набора точечных объектов и будете использовать ArcGIS Pro в качестве рабочей станции для анализа данных.

    Таблица открыта и отображается под видом карты. Вы можете увидеть имена полей таблицы и некоторые значения.

  3. Щелкните вкладку Анализ на ленте. В группе Геообработка щелкните Инструменты.

    Кнопка Инструменты

    Откроется панель Геообработка.

  4. На панели Геообработка, в окне Поиск, введите Таблица XY в точки.
  5. В результатах поиска щелкните XY Таблица в точки.

    Таблица XY в точки в результатах поиска.

  6. На панели инструмента Таблица XY в точки, в поле Входная таблица, выберите kc_house_data.csv.
    Примечание:

    Если вы работаете в языковом стандарте, отличном от английского (США), используйте включенную таблицу базы геоданных kc_house_data_table вместо файла .csv. Языковой стандарт может влиять на типы данных полей вывода при импорте файлов .csv с помощью инструмента Таблица XY в точки. Если вы хотите создавать точки из файлов .csv, а также контролировать тип данных импортируемых атрибутов, вы можете сначала импортировать файл .csv в таблицу базы геоданных и установить тип данных для каждого поля в инструменте Таблица в таблицу.

  7. Для Выходной класс пространственных объектов введите kc_house_data.

    Параметр Поле X уже заполнено полем long из таблицы .csv, а Поле Y полем lat. Этот набор данных не имеет значений Поля Z, поэтому вы можете оставить этот параметр пустым.

    Затем вы зададите для данных соответствующую систему координат.

  8. Для опции Система координат щелкните кнопку Выбрать систему координат.

    Кнопка Выбрать систему координат

    Откроется окно Система координат.

  9. В окне поиска введите HARN и нажмите Enter.
  10. Разверните Географическую систему координат, Северная Америка, США и территории. Щелкните NAD 1983 HARN.

    Система координат NAD 1983 HARN

  11. Нажмите OK. На панели инструмента Таблица XY в точку щелкните Запустить.

    Инструмент запустится. После завершения работы инструмента точки будут добавлены на карту.

  12. Закройте панель Геообработка. Закройте вид таблицы kc_house_data.csv

Изменение условных обозначений

Перед изучением данных, вы измените символы по умолчанию.

  1. На панели Содержание щелкните символ точки в kc_house_data.

    Точечные символы по умолчанию на панели Содержание

  2. На панели Символы, во вкладке Галерея, щелкните символ Круг 3.

    Символ Круг 3

  3. Перейдите на вкладку Свойства. В разделе Оформление, для Цвет выберите Малахитовый зеленый.
    Подсказка:

    Наведите пипетку на цвет, чтобы увидеть его название.

    Малахитовый зеленый в палитре цветов

  4. Для Размера выберите 4 тчк. Щелкните Применить.

    Символ на карте изменится.

    Карта с символами точек

  5. Закройте панель Символы.
  6. На панели Инструменты быстрого доступа щелкните кнопку Сохранить, чтобы сохранить проект.

    Кнопка Сохранить на панели быстрого доступа

    Примечание:

    Может появиться сообщение, предупреждающее вас о том, что сохранение этого файла проекта в текущей версии ArcGIS Pro не позволит вам снова открыть его в более ранней версии. Если вы видите это сообщение, нажмите Да, чтобы продолжить.

Изучение данных

Теперь вы изучите данные. Для начала вам необходимо познакомиться с атрибутивными полями и их значениями. Далее вы создадите матрицу рассеяния и изучите отношения между атрибутами.

  1. На панели Содержание щелкните правой кнопкой мыши слой kc_house_data и выберите Таблица атрибутов.

    Таблица атрибутов имеет 20 атрибутивных полей, описывающих дома и их цены. Поля перечислены в следующей таблице:

    Имя поляОписание поля

    date

    Дата продажи

    price

    Окончательная сумма транзакции

    bedrooms

    Количество спален

    bathrooms

    Количество санузлов

    sqft_living

    Площадь жилых помещений (в квадратных футах)

    sqft_lot

    Площадь земельного участка (в квадратных футах)

    floors

    Количество этажей

    waterfront

    Стоит ли дом на набережной (1: да, 0: нет)

    просмотр

    Категорийная переменная вида из дома

    condition

    Категорийная переменная состояния дома

    grade

    Общий рейтинг дома по шкале оценок округа Кинг

    sqft_above

    Площадь дома исключая подвал (в квадратных футах)

    sqft_basement

    Площадь подвала (в квадратных футах)

    yr_built

    Год постройки дома

    yr_renovated

    Год проведения последнего капремонта (если был)

    zipcode

    Почтовый индекс дома

    lat

    Широта дома

    long

    Долгота дома

    sqft_living15

    Размер площади жилых помещений в 2015 году (в квадратных футах)

    sqrt_lot15

    Площадь участка в 2015 году (в квадратных футах)

    Некоторые поля содержат коды со специфическими значениями. Коды для поля condition описываются в следующей таблице:

    КодУсловиеОписание

    1

    Плохое

    Многое нуждается в ремонте. Дом в очень плохом состоянии.

    2

    Удовлетворительное

    Некоторые вещи надо срочно чинить. Требуется много отложенного обслуживания.

    3

    Среднее

    В зависимости от времени ремонта, нормальное состояние для дома такого возраста.

    4

    Хорошее

    Состояние выше нормы для дома такого возраста. Это указывает на повышенное внимание и заботу о его поддержании.

    5

    Очень хорошее

    Отличное обслуживание и обновление дома; не полный ремонт.

    Поле grade содержит различные серии кодов, которые описываются в следующей таблице:

    КодОписание

    1–3

    Не соответствует минимальным строительным стандартам; обычно очень примитивное здание без удобств.

    4

    В основном более старое некачественное строительство. Дом не соответствует нормам.

    5

    Более низкие затраты на строительство и качество изготовления. Дом небольшой, простой дизайн.

    6

    Самый низкий сорт по современным строительным нормам. Использовались некачественные материалы и простые конструкции.

    7

    Средняя оценка конструкции и дизайна. Это обычно наблюдается в довольно старых домах.

    8

    Чуть выше среднего по конструкции и дизайну. В домах такого качества обычно использовались более качественные материалы как для внешней, так и для внутренней отделки.

    9

    Лучший архитектурный дизайн с дополнительным дизайном экстерьера и интерьера и высоким качеством.

    10

    Дома такого качества обычно имеют высококачественные характеристики. Отделка стала лучше, больше качественного дизайна видно в планах этажей и увеличенной площади.

    11

    Индивидуальный дизайн и более качественная отделка, с дополнительными удобствами из массива дерева, отличной сантехникой и другими более роскошными опциями.

    12

    Индивидуальный дизайн и отличные строители. Все материалы высочайшего качества, есть все удобства.

    13

    Обычно спроектирован и построен по индивидуальному заказу, приближается к уровню особняка. В этих домах наблюдается большое количество высококачественных встроенных шкафов, деревянной отделки и мрамора, большие двери.

    В поле view используются следующие коды:

    КодОписание

    0

    Unknown

    1

    Удовлетворительное

    2

    Среднее

    3

    Хорошее

    4

    Отличное

    Следующим шагом является исследование данных, чтобы составить распределение значений для каждой переменной и определить, коррелируются ли какие-либо атрибуты положительно или отрицательно. Матрица рассеяния – это метод визуализации, обычно используемый для исследования такого рода данных.

  2. Закройте таблицу атрибутов.
  3. На панели Содержание щелкните правой кнопкой kc_house_data, выберите Построить диаграмму и щелкните Матрица точечной диаграммы.
  4. На панели Свойства диаграммы в разделе Числовые поля щелкните Выбрать. Отметьте все поля от price до sqft_basement.

    Выбранные числовые поля Матрицы точечной диаграммы.

  5. Щелкните Применить.

    Вид Диаграмма обновится точечными диаграммами выбранных полей.

    Матрица рассеяния показывает отношения между парами переменных

    Примечание:

    Можно увидеть название каждой диаграммы, если подвести к ней курсор. Вы также можете перетащить границы вида, чтобы увеличить размер диаграмм.

    Диаграмма суммирует отношения между парами различных переменных. Вы можете использовать матрицу рассеяния для исследования взаимосвязей, щелкнув одну из диаграмм в нижнем треугольнике; после щелчка по диаграмме ее увеличенная версия будет показана вверху справа.

    Почему эта диаграмма полезна для анализа?

    Первая регрессионная модель, которую вы будете использовать для разработки своей модели оценки - это Обобщенная линейная регрессия (ОЛР). ОЛР требует, чтобы показатели и целевая переменная были линейно связаны. Вы будете использовать эту диаграмму, чтобы найти характеристики собственности, которые линейно коррелируют с переменной, которую вы хотите предсказать: продажной ценой дома.

    Цена – это первый столбец в нижней части треугольника матрицы рассеяния. Диаграммы в первом столбце отображают взаимосвязь между различными характеристиками собственности и продажной ценой дома.

  6. Щелкните точечную диаграмму price и sqft_living (первый столбец, третья строка сверху).

    Точечная диаграмма price и sqft_living в списке диаграмм

    Предварительный просмотр диаграммы в Виде углов матрицы обновится, чтобы показать более крупный вид точечной диаграммы price и sqft_living

    Точечная диаграмма price и sqft_living

    Между размером жилой площади (sqft_living) и ценой существует прямая линейная зависимость. Увеличение жилой площади обычно соответствует увеличению стоимости дома. Эта переменная – хороший кандидат для модели GLR.

  7. Щелкните точечную диаграмму bathrooms и price (первый столбец, вторая строка сверху).

    Точечная диаграмма price и bathrooms.

    Взаимосвязь между количеством санузлов и ценой не имеет сильной линейной зависимости. Это говорит о том, что количество санузлов не настолько влияет на цену продажи домов в этом регионе, как жилая площадь.

  8. Щелкните точечную диаграмму количества bedrooms и price (первый столбец, первая строка сверху).

    Точечная диаграмма price и bedrooms

    Кажется, что между двумя переменными существует положительная линейная зависимость. Однако при визуальном осмотре трудно оценить силу этой линейной зависимости.

  9. На панели Свойства диаграммы отметьте опцию Показать линейный тренд.

    Опция Показать линейный тренд включена

    При выборе этой опции на каждую точечную диаграмму добавляется линия наилучшего соответствия.

  10. Щелкните точечную диаграмму price и sqft_living.

    На диаграмме теперь есть наиболее подходящая линия и связанный показатель R2.

    Точечная диаграмма price и sqft_living с линией наилучшего соответствия и значением R2

    R2 или R2 — это процент, который показывает, какая часть вариаций в данных объясняется зависимостью между двумя переменными. Абсолютное значение R2, близкое к единице, указывает на сильную положительную линейную зависимость, тогда как значения, близкие к нулю, указывают на слабую линейную зависимость.

    Значение R2, равное 0,49, показывает, что зависимость между sqft_living и price составляет 49 процентов вариаций диаграммы рассеяния sqft_living и price.

  11. На панели Свойства диаграммы в разделе Компоновка матрицы для Верхний правый выберите Pearson's r. Для Диагональ выберите Имена полей.

    R Пирсона в Компоновке матрицы

    Диаграма обновится и покажет помимо точечных диаграмм R Пирсона.

    Диаграмма показывающая линейный тренд и значения R Пирсона

    Коэффициент кореляции Пирсона (R Пирсона) количественно определяет силу линейной зависимости между переменными или степень влияния одной переменной на другую. Абсолютное значение R Пирсона, близкое к единице, указывает на сильную положительную линейную зависимость, тогда как значения, близкие к нулю, указывают на слабую линейную зависимость.

  12. Если необходимо, щелкните точечную диаграмму price и sqft_living.

    Точечная диаграмма price и sqft_living

    Значение R Пирсона для price и sqft_living также выделяется черным контуром.

    Знак R Пирсона количественно оценивает тип зависимости между двумя переменными. R Пирсона равный 0,7, показывает, что между переменными существует положительная линейная зависимость. Положительная зависимость означает, что увеличение sqft_living соответствует увеличению price и наоборот. Отрицательное значение R Пирсона указывает на то, что увеличение одной переменной соответствует уменьшению другой переменной.

    Все характеристики собственности в матрице рассеяния положительно связаны с ценой.

  13. Щелкните точечную диаграмму для bathrooms и price.

    R Пирсона, равный 0,53, указывает на слабую положительную линейную зависимость между количеством санузлов и ценой.

  14. Щелкните точечную диаграмму bedrooms и price.

    R Пирсона, равный 0,31, указывает на слабую положительную линейную зависимость между количеством спален и ценой. Количество спален и цена демонстрируют другую картину для цен менее 1 000 000 долларов. Кажется, что между этими двумя переменными существует сильная линейная зависимость, если цена превышает 1 000 000 долларов.

    Это пример фрагментарной зависимости: отношений, которые изменяются после того, как переменная пересекает определенную границу. Наличие фрагментарной зависимости предполагает, что подход на основе дерева, такой как классификация на основе леса и регрессия, может привести к более точной оценке. Имейте это в виду; позже вы определите переменные для линейной регрессии.

    Итак, вы создали способ понять взаимосвязи между переменными. Ваша первоначальная цель – построить точную линейную модель, которая связывает атрибуты дома с его продажной ценой. Вы выполните эту задачу следующими способами:

    • Найдите характеристики недвижимости, которые имеют сильную линейную зависимость от цены.
    • Убедитесь, что характеристики свойств не имеют сильной линейной зависимости друг с другом (чтобы избежать мультиколлинеарности).

    Матрица диаграммы рассеяния может дополнительно суммировать несколько взаимосвязей, чтобы вы могли очертить характеристики свойств, которые хотите использовать в своем анализе.

  15. Закройте вид Диаграммы kc_house_data и панель Свойства диаграммы. Сохраните проект.

Вы изучили данные, чтобы подготовиться к анализу линейной регрессии. Вы обнаружили, что sqft_living имеет самую сильную корреляцию с вашей целевой переменной – продажной ценой дома. Другие характеристики свойств, которые демонстрируют тесную взаимосвязь друг с другом, могут вызвать проблемы, если они находятся в той же линейной системе, что и sqft_living. Если две или более характеристики свойств демонстрируют мультиколлинеарность, это может означать, что ваши переменные рассказывают одну и ту же историю. Например, важно проанализировать, соответствует ли общая площадь жилого помещения количеству спален и санузлов, что может меняться от региона к региону. Мультиколлинеарность может исказить результаты вашей модели, если ее не решить.

Далее вы создадите линейную модель зависимости между sqft_living и продажной ценой дома. Если модель не отработает должным образом, вы можете добавить в линейную систему переменную рейтинга, которая также сильно связана с продажной ценой дома.


Изучение рынка при помощи исследовательской регрессии

Далее вы исследуете взаимосвязь между характеристиками собственности и продажной ценой дома, используя исследовательскую регрессию. В исследовательской регрессии вы найдете модель, которая может точно смоделировать стоимость дома и дать вам представление о зависимостях между переменными, независимо от того, являются ли эти зависимости положительными или отрицательными.

Создайте модель обобщенной линейной регрессии

Первый тип регрессионной модели, которую вы создадите, – это модель обобщенной линейной регрессии (ОЛР). Вы будете использовать один из инструментов геообработки Пространственной статистики ArcGIS.

  1. Откройте панель Геообработка.
    Подсказка:

    Чтобы открыть панель Геообработка, на ленте щелкните вкладку Анализ. В группе Геообработка щелкните Инструменты.

  2. На панели Геообработка введите для поиска обобщенная линейная.
  3. Щелкните инструмент Обобщенная линейная регрессия (Инструменты пространственной статистики).

    Инструмент Обобщенная линейная регрессия из инструментов Пространственной статистики

    Примечание:

    Некоторые инструменты в результатах поиска на панели Геообработка отображаются дважды со схожими или одинаковыми именами. Убедитесь, что вы выбрали инструмент из правильного набора инструментов, который указан рядом с названием инструмента.

    Вы можете использовать инструмент Обобщенная линейная регрессия для прогнозирования различных типов зависимых переменных. Правильная модель для использования зависит от типа зависимой переменной. Поскольку вы прогнозируете непрерывную переменную (продажную цену), вы будете использовать модель Гаусса для прогнозирования продажной цены дома.

    Если вы предсказываете, что целевая переменная равна 0 или 1 (двоичная переменная), например, продается ли дом более чем за 500 000 долларов, вы должны использовать Бинарную (Двоичную) опцию этого инструмента.

    Если целевая переменная была количественной, например, числом людей, делающих ставки на дом, вы бы использовали опцию Количественные (Пуассона) этого инструмента.

  4. На панели инструмента Обобщенная линейная регрессия введите следующие параметры:
    • Для Входных объектов выберите kc_house_data.
    • Для Зависимой переменной выберите price.
    • Убедитесь, что в Типе модели выбрано Непрерывные (Гауссовы).

    Параметры Обобщенной линейной регрессии

    Теперь вы выберите независимую переменную модели регрессии. При исследовании матрицы рассеяния вы определили, что sqft_living – хорошая переменная, которую можно использовать для прогнозирования продажной цены домов.

  5. В разделе Независимые переменные отметьте sqft_living.
  6. Для Выходных объектов введите valuation_sqft_living_glr.

    Вы создадите несколько моделей ОЛР, поэтому рекомендуется давать осмысленные имена различным выходам. Это имя указывает на переменную прогноза и метод.

    Вы не будете определять какие-либо входные данные в разделе Опции прогнозирования. На этом этапе вы выполняете исследовательскую регрессию, чтобы определить модель, описывающую стоимость дома с учетом характеристик собственности. Другими словами, вы работаете над пониманием потенциальных факторов, влияющих на продажную цену домов. На этом этапе вас не интересует определение цены дома, для которого не назначена продажная цена (прогноз). Позже вы будете прогнозировать продажные цены на новые дома, и этот раздел инструмента вам пригодится.

  7. Щелкните Запустить.

    Инструменты запускаются и завершаются с предупреждением: WARNING 001605: Расстояния для географических координат (градусы, минуты, секунды) анализируются с помощью хордовых расстояний в метрах.

    Измерения хордовых расстояний используются, поскольку они могут быть быстро вычислены и дают очень хорошие оценки истинных геодезических расстояний. Следует обязательно производить проецирование ваших данных, если область исследования превышает 30 градусов. Хордовые расстояния не обеспечивают точных оценок геодезических расстояний, превышающих 30 градусов.

    Выходными данными этого инструмента является карта стандартизированных невязок.

    Карта стандартизированных невязок для слоя valuation_sqft_living_glr

    Темно-зеленый и темно-фиолетовый указывают на большое несоответствие между прогнозируемой продажной ценой домов и фактической продажной ценой домов.

  8. На панели Содержание под слоем valuation_sqft_living_glr дважды щелкните диаграмму Relationship между переменными

    Диаграмма Отношения между переменными отображает прогнозы, выполненные по ОЛР и фактическим данным точек.

    Диаграмма Отношения между переменными для valuation_sqft_living_glr

    В идеале точки данных должны располагаться близко к линии. Чем ближе к линии находятся точки данных, тем сильнее связь между двумя переменными.

    На этой диаграмме зеленые цвета указывают на недооценку продажной цены дома, где фактическая цена дома выше, чем прогнозируемая моделью. Пурпурный цвет указывает на завышение оценки, когда прогнозируемая цена выше фактической цены дома.

  9. Закройте панель Диаграмма и панель Свойства диаграммы.

    На карте Стандартизированные невязки, видно, что более темные зеленые точки группируются вокруг водоемов. В регрессионной модели систематически занижается цена продажи домов рядом с водоемами. Похоже, что небольшие изменения в размере жилой площади могут привести к большим изменениям в цене дома у водоема по сравнению с домом вдали от воды.

    Далее вы оцените глобальную диагностику по выходным данным ОЛР.

  10. На ленте на вкладке Анализ в группе Геообработка щелкните История.

    Кнопка история

    Появится панель История геообработки.

  11. На панели История геообработки правой кнопкой мыши щелкните Обобщенная линейная регрессия и выберите Просмотр подробной информации.

    Просмотр подробной информации о последнем запуске ОЛР

    Откроется окно с подробными сведениями о результатах инструмента ОЛР.

  12. В окне с результатами работы инструмента ОЛР щелкните вкладку Сообщения.
    Подсказка:

    Вы можете изменить размер окна путём перетаскивания его угла.

    В разделе Диагностика ОЛР можно увидеть значение Скорректированного R-2 – 0.492830. Это то же значение R2, что показано на диаграмме рассеяния для price по сравнению с sqft_living.

    Сообщения Диагностики ОЛР

    Статистические данные Joint F, Joint Wald и Koenker (BP) значимы при значениях P (Prob(>chi-squared)) приблизительно 0 (приблизительно из-за округления). Это указывает на то, что вероятность того, что зависимость, определенная этой моделью, возникает случайным образом, приблизительно равна 0. Другими словами, существует статистически значимая взаимосвязь между продажной ценой домов и площадью жилого пространства, моделируемой ОЛР.

  13. Закройте окно инструмента Обобщенная линейная регрессия (ОЛР) (Инструменты пространственной статистики) и панель История.
  14. Сохраните проект.

Вы использовали ОЛР, чтобы определить, что существует значимая связь между переменными sqft_living и price. Вы также обнаружили, что модель ОЛР недооценивает стоимость домов для домов, расположенных рядом с водоемами. Далее вы будете искать улучшенную модель ОЛР, добавляя еще одну переменную, чтобы учесть эту недооценку. Вы будете использовать данные из ArcGIS Online для геообогащения своего прогноза.


Усовершенствуйте анализ с помощью географических данных

Далее вы добавите слой географических данных из ArcGIS Online и используете его для улучшения вашей модели ОЛР.

Найдите водоемы

Поскольку модель ОЛР, которую вы только что создали, недооценивает значения домов возле водоемов, вы добавите данные о водоемах на карту и включите их в модель ОЛР. Возможность улучшить данные, добавив географическую информацию, что можно сделать с помощью таких методов, как Геообогащение, является важным преимуществом ArcGIS Pro, как рабочей станции для анализа данных.

  1. Щелкните вкладку Вид на ленте. В группе Окна щелкните Панель Каталог.

    Кнопка Панель каталог

  2. На панели Каталог щелкните вкладку Портал и щелкните кнопку ArcGIS Online.

    Кнопка ArcGIS Online на вкладке Портал панели Каталог

  3. Выполните поиск USA water bodies owner:esri_dm.
  4. Щелкните правой кнопкой пакет слоя USA Detailed Water Bodies и выберите Добавить к текущей карте.
    Примечание:

    Чтобы отличить пакет слоя USA Detailed Water Bodies от векторного слоя USA Detailed Water Bodies, наведите курсор на элемент в результатах поиска. Рабочий процесс можно завершить либо с пакетом слоя, либо с векторным слоем, но векторный слой имеет ограничения видимости, из-за которых он не отображается в текущем экстенте карты.

    Опция Добавить к текущей карте

    Слой будет добавлен на карту.

  5. Приблизьтесь к большому озеру в северо-центральной части данных, окруженному сине-зелеными точками на восточном и западном берегах.

    Большое озеро на карте

  6. На ленте щелкните вкладку Карта. В группе Выборка щёлкните кнопку Очистить.

    Кнопка Выбрать

  7. На карте щелкните озеро.

    Озеро выбрано на карте

    Синий контур выделяет объект озера, указывая на то, что он выбран.

  8. На панели Содержание щёлкните правой кнопкой USA Detailed Water Bodies и выберите Таблица атрибутов.
  9. В нижней части окна таблицы нажмите кнопку Показать выбранные записи.

    Кнопка Показать выбранные записи

    Единственный выбранный объект показан в таблице.

    Выбранный объект показан в таблице

    Сервис водных объектов представляет эти данные в виде полигона с переменной FTYPE(для типа объекта) и для него установлено значение Озеро/Пруд. Модель ОЛР постоянно недооценивает стоимость домов вокруг озер в Вашингтоне. Сервис объектов также содержит такие типы водоемов, как болота и ручьи, но они не оказывают такого положительного влияния на цену продажи, как озера в этом регионе. При анализе вы будете использовать расстояния до водоемов типа Озеро/Пруд.

  10. На вкладке Карта в группе Выборка щелкните Выбрать по атрибуту.

    Кнопка Выбрать по атрибуту

  11. В окне Выбрать по атрибуту установите Входные строки на USA Detailed Water Bodies и Тип выборки на Новую выборку.
  12. В Выражении введите Where FTYPE is equal to Lake/Pond.

    Выбор в слое, где типом объекта является Озеро/Пруд

  13. Щелкните Применить.
    Примечание:

    Не закрывайте инструмент Выбрать в слое по атрибуту.

    Все объекты Озеро/Пруд будут подсвечены на карте.

    Объекты Озеро/Пруд подсвечены на карте

    Есть много небольших озер и прудов, возле которых нет скоплений сине-зеленых точек. Это говорит о том, что небольшие озера и пруды не имеют такого же влияния на результаты модели ОЛР, как большие. Вы добавите условие к выражению выборки, чтобы выбрать только крупные водоемы.

  14. В окне Выбрать по атрибуту щелкните Добавить условие.

    Кнопка Добавить условие

    Это новое условие присоединяется к первому условию с помощью оператора И. Это правильно для этой выборки, но для другого проекта вы можете использовать оператор Или.

  15. Используйте конструктор Выражение, чтобы ввести выражение And SQKM is greater than or equal to.

    Добавлено условие выражения

    Ещё одно крупное озеро в округе имеет площадь 19,34 квадратных километра. Это условие отфильтрует более мелкие водоемы.

  16. Щелкните переключатель SQL. После SQKM >= наберите 19.00.

    19.00 добавлено в выражение в режиме SQL

  17. Нажмите OK.

    Выборка меняется, подсвечивая только озера и пруды с площадью больше 19 квадратных километров. Согласно таблице атрибутов, в настоящее время выбрано 689 объектов.

  18. Закройте таблицу атрибутов.

Экспорт объектов озер

Вы хотите проанализировать только выбранные объекты, а не все объекты в слое. Далее вы экспортируете выбранные объекты в новый класс объектов, используя инструмент Копировать объекты.

  1. На панели Геообработка щелкните кнопку Назад. Найдите и откройте инструмент Копировать объекты.
  2. На панели инструмента Копировать объекты для Входных объектов выберите USA Detailed Water Bodies. Для Выходного класса пространственных объектов введите LargeLakes.

    Параметры инструмента Копировать объекты

    Сообщение под параметром Входные объекты информирует, что во входном слое есть выборка и показывает число выбранных записей, которые будут обработаны. Слой USA Detailed Water Bodies содержит водоемы США, но нас интересуют водоемы в округе Кинг, Вашингтон. Вы измените экстент обработки инструмента, чтобы ограничиться объектами, попадающими в экстент слоя kc_house_data.

  3. Выберите вкладку Параметры среды.
  4. В разделе Экстент обработки для Экстента выберите kc_house_data.

    Параметр Экстент

  5. Щелкните Запустить.
    Примечание:

    Не закрывайте панель Геообработка после запуска инструмента; вы вскоре вернетесь к ней.

    Слой LargeLakes добавлен на панель Содержание.

    Вам больше не нужен слой USA Detailed Water Bodies, поэтому вы его удалите.

  6. На панели Содержание щелкните правой кнопкой USA Detailed Water Bodies и выберите Удалить.
  7. Сохраните проект.

Использовать расстояние до озер в модели ОЛР

Теперь, когда вы захватили большие объекты озера, вы можете использовать их для геообогащения вашей модели ОЛР. Инструменты регрессии в наборе инструментов Пространственная статистика позволяют включать в анализ пространственные объекты. Эти инструменты автоматически вычисляют евклидовы расстояния от каждой точки до ближайшего объекта расстояния и используют расстояние в качестве входной переменной.

  1. На панели Геообработка внизу окна инструмента щелкните Открыть историю.

    Кнопка Открыть историю

  2. На панели Геообработка щелкните правой кнопкой мыши Обобщенная линейная регрессия и выберите Открыть.

    Опция Открыть

    Инструмент открывается с параметрами из последнего запуска инструмента Обобщенной линейной регрессии (ОЛР).

    Вы добавите расстояние до озер, чтобы улучшить модель ОЛР.

  3. Для Независимых объектов расстояния выберите LargeLakes.
  4. Для Выходных объектов введите valuation_sqft_living_d2lake_glr

    LargeLakes добавлен как Независимый объект расстояния

  5. Щелкните Запустить.

    Инструмент запустится, и результаты будут добавлены на карту. Далее вы визуально сравните результаты двух запусков инструмента ОЛР.

  6. На панели Содержание убедитесь, что слой valuation_sqft_living_d2lake_glr выбран.
  7. Щелкните вкладку Векторный слой. В группе Сравнить щелкните Спрятать.

    Кнопка Спрятать

  8. Щелкните карту к северу от округа и перетащите инструмент Спрятать по данным.
    Примечание:

    В зависимости от того, где вы щелкаете по карте, вы можете прокручивать вверх и вниз или влево и вправо. Любой из способов позволяет вам сравнить два слоя.

    Перетащите инструмент Спрятать через карту

    Поскольку valuation_sqft_living_d2lake_glr выбран на панели Содержание, инструмент Спрятать показывает вам, что находится под ним, когда вы перетаскиваете его по карте.

    Области вокруг озер по-прежнему имеют самые высокие стандартизованные невязки для обоих прогонов ОЛР.

  9. На ленте щелкните вкладку Карта. В группе Навигация щёлкните Исследовать.
  10. На панели Содержание дважды щелкните графики Распределение стандартизированной невязки для слоев valuation_sqft_living _glr и valuation_sqft_living_d2Lake_glr.
  11. На панели диаграммы перетащите вкладку одной из диаграмм и закрепите ее в правой части панели диаграммы.

    Зона закрепления диаграммы

    Теперь вы можете сравнивать расположенные рядом диаграммы. Два графика распределения очень похожи.

    Диаграммы Распределение стандартизированных невязок

    Это сходство на то, что ошибка оценки не была улучшена за счет добавления расстояния до озер. Если бы модель ОЛР с расстоянием до озер работала лучше, можно было бы ожидать меньшее количество местоположений с темными оттенками зеленого и фиолетового (местоположений с высокой стандартной ошибкой).

    Есть по крайней мере две возможные причины, по которым добавление объектов расстояния не улучшило модель ОЛР. Во-первых, дистанционные объекты, вычисленные в ОЛР, являются евклидовыми или прямолинейными расстояниями. Поскольку большинство поездок в этом районе проходит по дорожной сети, может оказаться, что расстояния по прямой линии не являются разумным представлением расстояния, пройденного по дороге от домов до озер. Во-вторых, зависимость между размером жилого помещения и расстоянием до водоема и продажной ценой дома может быть не линейной. Возможно, ОЛР является слишком простой моделью для этого сценария.

  12. Закройте графики Распределения стандартизированной невязки и панель Свойства диаграммы.
  13. На панели Содержание отключите и сверните слои valuation_sqft_living_d2lake_glr и valuation_sqft_living_glr.
  14. Сохраните проект.

Вы добавили расстояние до озер в качестве переменной для ОЛР и сравнили результаты с результатами вашей исходной модели ОЛР. Простые линейные зависимости, смоделированные с помощью ОЛР, могут быть неприменимы к этому набору данных. Далее вы попробуете более сложную модель.


Создание региональной модели Обобщенной линейной регрессии

Далее вы разделите округ на регионы и запустите отдельный анализ ОЛР для каждого региона.

Проверить регионы в данных

Сначала вы измените символы данных для поиска регионов.

  1. На панели Содержание щелкните правой кнопкой мыши слой kc_house_data и выберите Символы.
  2. На панели Символы задайте следующие параметры:
    • Для Основных символов выберите Градуированные цвета.
    • Для Поля выберите price.
    • Для Классов выберите 10.
    • Для Цветовой схемы отметьте Показать названия и выберите Желто-зелено-синий (с плавным переходом).

    Символы Естественных границ для карты распределения цены

    Визуализация данных таким образом показывает отдельные пространственные кластеры, с более дешевыми кластерами на юге и северо-западе и с более дорогими кластерами в районах, близких к воде. Близость к воде играет решающую роль в определении продажной цены в этом регионе, и цены постепенно меняются в данном районе.

    Далее вы определите окрестности оценки на основе данных и выполните ОЛР в каждом регионе.

  3. На панели Геообработка, если необходимо, щелкните кнопку Назад. Найдите и откройте инструмент Пространственно-ограниченная многофакторная кластеризация.

    Вы будете использовать этот инструмент, чтобы определить регионы со схожей рыночной стоимостью домов с аналогичным размером жилой площади.

  4. В инструменте Пространственно-ограниченная многофакторная кластеризация введите следующие параметры:
    • Для Входных объектов выберите kc_house_data.
    • Для Выходных объектов введите price_regions.
    • Для Поля анализа отметьте price и sqft_living.
    • Для опции Пространственные ограничения убедитесь, что выбрана Сокращенная триангуляция Делоне.
    • Для Выходной таблицы для оценки числа кластеров введите num_clusters.

    Параметры инструмента Пространственно-ограниченная многофакторная кластеризация

    Примечание:

    Если вы не укажете число кластеров, инструмент автоматически выберет то число, которое приведет к наиболее однородным регионам.

  5. Щелкните Запустить.
    Примечание:

    Если инструмент не запускается, сохраните проект, закройте и снова откройте ArcGIS Pro. Откройте проект и запустите инструмент снова.

    Инструмент запустится, и новый слой добавится на карту.

    Результаты инструмента Пространственно-ограниченная многофакторная кластеризация

    Примечание:

    После запуска инструмента не закрывайте панель Геообработка. Вы вскоре вернетесь к ней.

    В результатах всего два кластера. Вы изучите Оптимизированную диаграмму Псевдо-F-статистики, чтобы получить представление о других способах кластеризации данных.

  6. На панели Содержание под Автономными таблицами дважды щелкните Оптимизированная диаграмма Псевдо-F-статистики.

    Оптимизированная диаграмма псевдо-F-статистики

    На этом графике вы ищете перегибы или тренды в диаграмме, где добавление другого региона не приводит к значительному снижению однородности кластеров. На диаграмме есть перегибы для восьми регионов. После восьмого региона числа кластеров последовательно уменьшается.

    Вы повторно запустите инструмент, на этот раз с восемью регионами. Панель Геообработка уже открыта на инструменте с параметрами, которые вы использовали для предыдущего запуска.

  7. Закройте диаграмму и панель Свойства диаграммы.
  8. На панели Геообработка для Число кластеров наберите 8.

    Параметр Число кластеров

    Остальные параметры оставьте по умолчанию. Сохранив то же имя выходного объекта, новые выходные данные инструмента заменят предыдущие данные.

  9. Щелкните Запустить

    Слой price_regions добавлен на карту. У него восемь кластеров.

    Результаты инструмента Пространственно-ограниченная многофакторная кластеризация с восьмью кластерами

  10. На панели Содержание под price_regions и Диаграммами дважды щелкните Ящичковые диаграммы пространственно-ограниченной многофакторной кластеризации.

    Ящичковые диаграммы пространственно-ограниченной многофакторной кластеризации

    Цвета на диаграмме соответствуют цветам кластеров на карте. Кластеры синего, зеленого, желтого, коричневого и фиолетового цветов находятся выше третьего квартиля для price и sqft_living. Синий соответствует кластеру, в котором жилая площадь меньше по сравнению с зеленым и коричневым, но цена выше. Этот цвет может указывать на желаемую часть города. На карте синий кластер соответствует району к востоку от озера Вашингтон. В этом кластере размер жилой площади может не быть основным фактором, влияющим на продажную цену дома.

    Зеленый регион, расположенный на острове в озере Вашингтон, соответствует домам с большей жилой площадью по сравнению с синими кластерами, но по более низкой цене.

    Если посмотреть на регионы с ценами ниже третьего квартиля, розовый кластер дешевле, чем красный и серый кластеры, при этом средний размер жилой площади такой же, как и красный кластер. Это может указывать на то, что в розовом кластере можно получить более дешевый дом с таким же размером жилой площади. Это также может указывать на то, почему линейная модель не сработала.

  11. Закройте диаграмму и панель Свойства диаграммы.

Запустите ОЛР для каждого региона

Далее вы выполните ОЛР в каждом регионе. Для этого вы выберете набор точек для каждого кластера по атрибуту и запустите ОЛР для каждой выборки. Поскольку существует восемь регионов, более эффективно использовать ModelBuilder для автоматизации процесса.

  1. Щелкните вкладку Анализ на ленте. В группе Геообработка щёлкните ModelBuilder.

    Кнопка ModelBuilder

    Откроется вид Модель.

  2. Щелкните и перетащите слой price_regions из панели Содержание в рабочую область модели.

    Слой price_regions в модели

  3. На ленте на вкладке ModelBuilder в группе Вставка щелкните Итераторы и выберите Итерировать выборку объектов.

    Опция Итерировать выборку объектов

  4. В модели перетащите стрелку от price_regions к Итерировать выборку объектов.

    Стрелка, соединяющая price_regions и Итерировать выборку объектов

    Появится ниспадающее меню.

  5. В ниспадающем меню выберите В объектах.

    Опция В объектах

    Элемент Итерировать выборку объектов и соединяющиеся элементы меняют цвет. Далее вы настроите параметры инструмента, так чтобы инструмент циклически перебирал каждое из восьми значений Cluster ID и создавал выборку для каждого из них.

  6. Дважды щелкните Итерировать выборку объектов.
  7. В окне Итерировать выборку объектов в разделе Группировать по полям установите поле на Cluster ID.

    Для параметра Группировать по полям задано Cluster ID

  8. Нажмите OK.

    У итератора два выходных элемента данных: I_price_regions_CLUSTER_ID – это выбранный векторный слой, и Value – это переменная, которая содержит значение для текущей выборки. В данном случае это значение ID для каждого кластера.

    Далее вы присоедините инструмент Обобщенная линейная регрессия к выходным данным итератора. Так как итератор перебирает каждый кластер, инструмент будет запускаться для каждого кластера.

  9. На панели Геообработка щелкните кнопку Назад. Выполните поиск обобщенная линия.
  10. В списке результатов поиска перетащите инструмент Обобщенная линейная регрессия (Инструменты пространственной статистики) в рабочую область модели, рядом с зеленым элементов выходных данных итератора I_price_regions_CLUSTER_ID.
  11. В рабочей области модели перетащите стрелку от I_price_regions_CLUSTER_ID к Generalized Linear Regression и выберите Input Features.

    Инструмент соединен с выходными данными.

    Соединения выходных данных и инструмента ОЛР (GLR).

    Далее вы настроите параметры инструмента ОЛР (GLR).

  12. Дважды щелкните Обобщенная линейная регрессия.

    Параметр Входные объекты установлен на значение price_regions:1, потому что вы подключили выход итератора к инструменту.

  13. Для Зависимой переменной выберите price. В разделе Независимые переменные выберите sqft_living.

    Зависимые и Независимые переменные

  14. Для Выходных объектов введите valuation_sqft_living_glr_region_%Value%.

    Параметр Выходные объекты

    Использование текста %Value% в конце имени выходного объекта добавляет к имени содержание переменной Value. При такой схеме именования каждый цикл итератора будет иметь уникальное имя, связанное с анализируемым кластером.

  15. Нажмите OK.
  16. На ленте, на вкладке ModelBuilder в группе Вид щелкните Авто-компоновка.

    Кнопка Авто-компоновка

    Элементы модели располагаются автоматически.

    Модель с элементами модели, расположенными автоматически

    Овалы Выходные объекты прогнозирования и Выходной файл обученной модели остаются серыми, поскольку это дополнительные выходные данные инструмента, которые вы не используете в данный момент.

  17. На вкладке ModelBuilder в группе Вставка щелкните Утилиты и щелкните Собрать значения.

    Опция Собрать значения

    Утилиты Собрать значения, Выходные значения и Выходная таблица добавлены в рабочую область модели.

  18. В рабочей области модели перетащите стрелку из valuation_sqft_living_glr_region_%Value% к Собрать значения, и выберите Входное значение.
    Подсказка:

    Если необходимо, вы можете переместить любой объект, выбрав и перетащив его.

  19. Правой кнопкой мыши щелкните Выходные значения и щелкните Добавить к карте.

    Опция Добавить к карте

    Теперь модель готова к запуску.

  20. На ленте на вкладке ModelBuilder в группе Запустить щелкните Проверить.

    Модель проверена. Теперь она готова к запуску.

  21. На вкладке ModelBuilder в группе Запустить щелкните Запустить.

    По мере запуска модели элементы инструментов становятся красными, указывая на то, что они в настоящее время работают, а в окне результатов модели отображаются результаты каждого запуска модели ОЛР.

    Групповые слои результатов ОЛР, всего восемь, добавляются на карту и на панель Содержание.

Просмотр результатов модели

Далее вы просмотрите результаты модели и переименуете слои, дав им более понятные имена.

  1. На панели Содержание для Выходные значения:valuation_sqft_living_glr_region_1 в Диаграммы дважды щелкните Отношения между переменными.

    Диаграмма Отношения между переменными для слоя Выходные значения:valuation_sqft_living_glr_region_1

    Появится вид диаграммы

    Диаграмма отношений между переменными

    Значение R2 для этого кластера улучшилось с 0,49 до 0,67. Вы можете открыть диаграммы для других слоев, чтобы увидеть значения R2 для других регинов.

  2. Закройте вид диаграммы и панель Свойства диаграммы.
  3. Закройте вид Модель. Щелкните Да, чтобы сохранить модель.

    Вид Карта станет снова активным.

    Карта результатов ОЛР для нескольких регионов

    Более точно прогнозируются районы вокруг озера Вашингтон; однако в других регионах, например в районе Западного Сиэтла, наблюдается большое количество заниженных цен на продажу жилья (показано темно-зеленым). Регионализированные модели рискуют усугубить проблемы, связанные с выбросами в регрессии. Общий R2 для каждого региона представлен в следующей таблице.

    Регион

    Значение R-квадрат

    Регион 1

    0,667345

    Регион 2

    0,511873

    Регион 3

    0,573594

    Регион 4

    0,785343

    Регион 5

    0,672591

    Регион 6

    0,587296

    Регион 7

    0,369590

    Регион 8

    0,587235

    Общее качество модели для каждого из этих регионов выше, чем результат для модели ОЛР, которую вы использовали для всего набора данных, за исключением региона 7 – большого региона, который содержит выбросы. Наличие нескольких регионов происходит за счет потери экономичности математической модели. У оценщиков разные математические функции для разных районов города, которые объясняют разные тенденции. Вы будете повышать сложность и искать модель, объясняющую продажную цену домов в округе Кинг, штат Вашингтон, используя весь набор данных в одной модели.

    Перед тем, как продолжить, вы приведете в порядок панель Содержание, сгруппировав выходные данные своих моделей. Каждый из слоев Выходные значения уже есть в группе слоев Model Builder. Вы измените имя группы и удалите текст Выходные значения из имени каждого слоя.

  4. На панели Содержание щелкните Modelbuilder, чтобы выбрать его, и снова щелкните, чтобы отредактировать его имя. Переименуйте группу Regional GLR Model.
  5. Переименуйте Output Values:valuation_sqft_living_glr_region_8, удалив текст Выходные значения:.
  6. Переименуйте оставшиеся 7 слоев, удалив текст Выходные значения:. Свернуть все восемь слоев.

    Слои и группа слоев, переименованные на панели Содержание

  7. Щелкните слой valuation_sqft_living_d2lake_glr и нажмите Shift одновременно с щелчком по слою valuation_sqft_living_glr.
  8. Щёлкните правой кнопкой выбранные слои и выберите Группировать. Переименуйте группу слоев Global GLR Model.

    Групповой слой создан и переименован Global GLR Model

  9. На ленте щелкните вкладку Карта. При необходимости в разделе Выборка щелкните Очистить, чтобы очистить выборки.
  10. Сохраните проект.

К настоящему моменту вы предприняли две попытки включить пространственные характеристики в свой анализ. Сначала вы использовали расстояние до водоемов, как параметр для прогноза. Далее вы создали регионы на основе данных на основе продажной цены дома и размера жилой площади и выполнили восемь пространственно-дискретных регрессионных моделей.

Затем вы будете использовать географически взвешенную линейную регрессию для моделирования цен на жилье.


Моделирование пространственных отношений

Далее вы будете использовать Географически взвешенную линейную регрессию и Классификацию на основе леса и регрессию для моделирования цен на жилье.

Географически взвешенная линейная регрессия – это модель непрерывно меняющейся линейной регрессии, которая определяет отношения между целевой переменной (ценой) и несколькими независимыми переменными (характеристиками объекта). Прежде чем использовать ее, вы проверите, существуют ли статистически значимые пространственные отношения между переменными.

Определите пространственные отношения между переменными

Сначала вы воспользуетесь инструментом Локальные бивариантные отношения. Этот инструмент использует энтропийный подход для обнаружения пространственных отношений. Если между двумя переменными в поднаборе данных существуют значимые отношения, случайная выборка данных значительно увеличивает энтропию. Если значимых отношений нет, случайная выборка данных не приводит к значительному увеличению энтропии. Другими словами, введение энтропийных тестов или тестов случайной выборки, если существуют отношения между двумя переменными, которую необходимо разрушить.

Случайная выборка может не изменить отношения между двумя переменными, если нет отношения, которое сначала нужно разрушить. Вы можете прочитать больше об этой идее использования энтропии для обнаружения отношений в Guo (2010).

  1. На панели Геообработка найдите и откройте инструмент Локальные бивариантные отношения.
  2. Для инструмента Локальные бивариантные отношения установите следующие параметры:
    • Для Входных объектов выберите kc_house_data.
    • Установите Зависимую переменную на sqft_living.
    • Установите Независимую переменную на price.
    • В качестве Количества соседей введите 50.

    Почему выбирают 50 соседей?

    Окрестности должны быть достаточно большими, чтобы фиксировать значимые отношения между переменными, когда такие пространственные отношения существуют. Возможно, вам придется попробовать различные значения, но 50 домов – это достаточно большое количество соседей, поэтому вы можете доверять диагностике регрессии, чтобы понять, будет ли локальная регрессия работать с этим набором данных, в то же время это достаточно малый процент от всего набора данных для округа Кинг, чтобы локальная регрессия отличалась от модели ОЛР.

    Это приложение идеи статистической значимости регрессии, то есть вычисление вероятности нахождения значимой линии максимального соответствия (с низкими ошибками соответствия), когда население (все дома в округе Кинг, Вашингтон) демонстрирует значимые отношения между переменными, в которых вы заинтересованы.

  3. Для Выходных объектов введите local_rlns_sqft_living_vs_price.

    Инструмент Локальные бивариантные отношения

  4. Щелкните Запустить.

    Инструмент запуститься и добавит слой local_rlns_sqft_living_vs_price на карту.

    Карта после запуска инструмента Локальные бивариантные отношения.

    Символы этого слоя отображаются на панели Содержание.

    Символы Локальные бивариантные отношения

    Для многих точек во многих районах существует положительные линейные отношения между ценой и жилой площадью. Поскольку в этом большом наборе данных очень много точек, поставленных близко друг к другу, существует риск того, что положительные линейные отношения могут отрисоваться последними, что может привести к тому, что они будут доминировать в результатах. Стоит проверить результаты инструмента геообработки, чтобы увидеть числа каждого класса.

  5. В нижней части панели Геообработка щелкните Просмотреть подробности.
  6. Если необходимо, в окне подробной информации инструмента Локальные бивариантные отношения (Инструменты пространственной статистики) щелкните вкладку Сообщения.

    Результаты инструмента показывают, что около 71,6 процента точек показывают положительную линейную зависимость.

    Результаты инструмента Локальные бивариантные отношения

    Этот результат говорит о том, что географически взвешенная регрессия (ГВР) может моделировать пространственные отношения между sqft_living и price в районе размером 50 домов.

    Однако ГВР не просто подбирает линию в определенном месте с использованием локального подмножества, но также реализует схему географического взвешивания, которая взвешивает переменную-предиктор для локальной регрессии, наблюдаемой в окрестности. Наблюдение за значительными линейными локальными отношениями между переменными является показателем того, что модель ГВР учитывает локальные отношения, но это не гарантия.

  7. Закройте окно просмотра подробностей. Щелкните на карте любую точку, классифицированную как показывающую положительную линейную зависимость (с розовым значком).
    Подсказка:

    Если вам сложно попасть на точку из-за ее близости к другим, увеличьте масштаб.

    Всплывающее окно для точки показывает график локальных отношений в этом месте и его окрестности.

    Всплывающее окно для положительного линейного отношения

  8. Закройте всплывающее окно. Щелкните точку, показывающую вогнутое отношение (с оранжевым значком).

    Всплывающее окно для точки с вогнутым отношением

  9. Закройте всплывающее окно и сохраните проект.

    Вы можете суммировать оба местоположения с помощью линии, и вы сообщаете только о типе отношений, обнаруженных путем тестирования различных регрессионных моделей в местоположениях, определенных как имеющие статистически отношения в их окрестностях.

    Большая часть округа Кинг, штат Вашингтон, демонстрирует статистически значимые локальные отношения для района с 50 домами. Здесь 50 домов – подходящий размер окрестности. Однако инструмент не определяет автоматически правильное значение окрестности, и для разных наборов данных следует исследовать разные размеры окрестности.

    Если бы вы запускали этот анализ на своих собственных данных, вы бы теперь запустили инструмент с разными размерами окрестности, чтобы изучить изменения типов пространственных отношений между sqft_living и price. Размер окрестности, который, как вы обнаружите, имеет локальные линейные отношения, следует использовать в инструменте Географически взвешенная регрессия (ГВР) на следующем этапе.

Выполнение Географически взвешенной регрессии

Вы зададите модель ГВР с той же концептуализацией пространственных отношений, которую вы определили в предыдущем разделе: соседства, состоящие из 50 домов.

  1. На панели Геообработка щелкните кнопку Назад. Найдите и откройте инструмент Географически взвешенная регрессия (ГВР).

    Это инструмент может использовать различные типы ядер, которые управляют весом соседей в модели локальной регрессии.

    На рисунке ниже показан пример ядра. Линия показывает ядро Гаусса, где каждый сосед получает вес в регрессии, а более удаленные соседи получают меньшие веса. Биквадратное ядро обрезает ядро, используя расстояние или количество соседей. Этот образец показан частью кривой, которая заполняет график.

    График ядра ГВР

    Вы будете использовать Биквадратное ядро для назначения весов, используя только 50 ближайших соседей.

  2. В инструменте Географически взвешенная регрессия (ГВР) введите следующие параметры:
    • Для Входных объектов выберите kc_house_data.
    • Для Зависимой переменной выберите price.
    • В разделе Независимые переменные выберите sqft_living.
    • В параметре Выходные объекты установите valuation_sqft_living_gwr.
    • Для Типа окрестности выберите Количество соседей.
    • Для Метода выбора окрестности выберите Определен пользователем.
    • В качестве Количества соседей введите 50.

    Параметры инструмента Географически взвешенная регрессия

    Вы используете определенное пользователем количество соседей, поэтому можете использовать район из 50 домов (количество соседей, которое вы определили с помощью инструмента Локальные бивариантные отношения).

    Этот инструмент также может выбирать соседей, используя параметр линейного поиска с ручными интервалами или алгоритм оптимизации золотого поиска.

  3. Разверните Дополнительные опции и убедитесь, что для Локальной схемы весов выбрано Биквадратная.

    Метод Биквадратного взвешивания гарантирует, что в каждом месте используются ровно 50 (или указанное вами число) соседей. Опция Гаусса использует все местоположения в наборе данных в качестве соседей (то есть все дома в округе Кинг) и взвешивает их обратно пропорционально их расстоянию. В методе Биквадратная используется та же схема взвешивания, но вместо использования всех данных о домах из всего округа Кинг он использует только район из 50 домов в каждом месте.

    Затем вы зададите рабочую область растровых коэффициентов, которой должна быть база геоданных. Инструмент выполняет локальную регрессию и вычисляет пространственно изменяющиеся коэффициенты регрессии для предикторов и свободного члена. Он записывает растровые поверхности, которые изображают эти пространственно изменяющиеся коэффициенты, в эту рабочую область.

  4. Около Рабочей области растровых коэффициентов щелкните кнопку Обзор. В окне Рабочая область растровых коэффициентов щелкните Базы данных и выберите myproject2.gbd.

    Окно Рабочая область растровых коэффициентов

  5. Нажмите OK. На панели Геообработка щелкните Запустить.

    Инструмент запустится и на карту добавится три новых слоя. Два из них - это растровые слои, которые следует отключить.

  6. На панели Содержание отключите valuation_sqft_living_gwr_SQFT_LIVING и valuation_sqft_living_gwr_INTERCEPT.

    Карта со слоем valuation_sqft_living_gwr

    Как и в случае с моделью ОЛР, этот прогон модели ГВР также недооценивает дома на берегу озера. В отличие от модели ОЛР, она также недооценивает стоимость дома на берегу океана.

  7. Для слоя valuation_sqft_living_gwr, под Диаграммы, дважды щелкните Распределение стандартизированных невязок.

    Диаграмма Распределение стандартизированных невязок для ГВР

    Большинство точек имеют стандартизированные невязки, близкие к 0. Модель делает меньше переоценок и недооценок (стандартизованные невязки на расстоянии более одного стандартного отклонения) по сравнению с моделью ОЛР.

    Согласно хвостам кривой, ГВР имеет меньше участков с большими невязками (более двух стандартных отклонений) по сравнению с ОЛР. Это указывает на то, что ГВР лучше фиксирует колебания цен по сравнению с моделью ОЛР.

  8. Закройте диаграмму и панель Свойства диаграммы.
  9. На панели Геообработка щелкните Просмотреть подробности. В окне описания перейдите к разделу Диагностика модели.

    Диагностика модели ГВР

    Значение R2 составляет 0.89, а скорректированное R2 (AdjR2) – 0.87. Это гораздо более высокий R2, чем у моделей ОЛР, которые вы использовали ранее, что указывает на то, что это более точная модель.

  10. Закройте окно просмотра подробностей.
  11. На панели Содержание нажмите клавишу Ctrl и снимите отметку со слоя valuation_sqft_living_gwr.

    Все слои карты в настоящий момент невидимы.

  12. Отметьте следующие слои, чтобы сделать их видимыми.
    • World Topographic Map
    • World Hillshade
    • valuation_sqft_living_gsr_SQFT_LIVING
    • LargeLakes
  13. Правой кнопкой мыши щелкните valuation_sqft_living_gwr_SQFT_LIVING и выберите Символы.
  14. На панели Символы, для Цветовой схемы выберите Желто-зеленый (непрерывный).
  15. Измените Тип растяжки на Выравнивание гистограммы. Закройте панель Символы.

    Карта с типом растяжки Выравнивание гистограммы

    На панели Содержание отображается легенда слоя valuation_sqft_living_gwr_SQFT_LIVING.

    Легенда карты оценки ГВР

    Все коэффициенты локальной регрессии положительны. Это означает, что ГВР смоделировала положительную взаимосвязь между размером жилой площади и продажной ценой дома.

    Вокруг обоих больших озер растр продажной цены домов имеет больший уклон по сравнению с размером жилой площади, что указывает на то, что небольшое изменение жилой площади в домах у воды соответствует гораздо большему увеличению цены по сравнению с внутренними районами. Это ожидается, поскольку на продажную цену в этих районах сильно влияет вид, а не размер жилой площади.

    Внутренние части растра на востоке не следует учитывать. Из-за пространственных выбросов область исследования растянута, и в восточной части этого набора данных недостаточно данных, чтобы доверять лежащим ниже поверхностям коэффициентов при их интерполяции. Не следует обращать внимание на коэффициенты в областях с редко распределенными точками, поскольку алгоритм интерполирует коэффициент между местоположениями с точками данных.

    Как можно еще улучшить эту модель? Как насчет объектов расстояний или использования второго предиктора?

  16. Отключите слой valuation_sqft_living_gwr_SQFT_LIVING. Сохраните проект.

Проверить переменную grade

Согласно предыдущей визуализации данных, grade была еще одной переменной, которая линейно коррелировала с price. Сначала вы определите, коррелирует ли переменная grade в пространстве с продажной ценой дома, используя инструмент Локальные бивариантные отношения.

  1. Внизу панели Геообработка щелкните Открыть историю. На панели История правой кнопкой мыши щелкните Локальные бивариантные отношения и выберите Открыть.

    Инструмент открывается с параметрами, которые вы установили ранее.

  2. Для инструмента Локальные бивариантные отношения измените следующие параметры:
    • Для Зависимой переменной выберите grade.
    • Для Выходных объектов наберите local_rlns_grade_vs_price.

    Параметры инструмента Локальные бивариантные отношения для переменной grade

  3. Щелкните Запустить.

    Инструмент запустится и на карту добавится слой, на котором показаны выраженные линейные отношения между grade и price.

    Карта ГВР отношений между значениями grade и price

    ГВР – это линейная модель, как и ОЛР, поэтому вам необходимо учитывать проблему мультиколлинеарности. Вы можете проверить, существуют ли сильные локальные линейные отношения между двумя показателями, выполнив анализ Локальных бивариантных отношений между sqft_living и grade.

  4. Для инструмента Локальные бивариантные отношения измените следующие параметры:
    • Для Независимой переменной выберите sqft_living.
    • Для Выходных объектов наберите local_rlns_grade_vs_sqft_living.
  5. Щелкните Запустить.

    Карта ГВР отношений между значениями grade и sqft_living

    Эта карта указывает на сильные локальные линейные отношения между двумя показателями. Это указывает на то, что в районе 50 домов показатели grade и квадратные футы жилой площади (sqft_living) существенно линейно связаны друг с другом. Помните, что в ОЛР следует избегать линейно связанных независимых переменных. Эта карта показывает, что в локальном районе из 50 домов модель ГВР может дать сбой из-за мультиколлинеарности, если вы включите как grade, так и квадратные футы жилой площади (sqft_living).

    Далее вы попробуете использовать обе переменные, чтобы посмотреть, может ли инструмент выполнить задачу.

  6. На панели История щелкните инструмент Географически взвешенная регрессия правой кнопкой мыши и выберите Открыть.

    Инструмент открывается с параметрами, которые вы установили ранее.

  7. В инструменте Географически взвешенная регрессия обновите следующие параметры:
    • Для параметра Независимые переменные отметьте grade. Убедитесь, что sqft_living уже отмечена.
    • Измените Выходные объекты на valuation_sqft_living_grade_gwr.

    Параметры инструмента ГВР для переменных sqft_living и grade для price

  8. Щелкните Запустить.

    Как и ожидалось, инструмент не работает.

  9. В нижней части панели Геообработка наведите курсор на сообщение о сбое.

    Откроется окно с сообщением об ошибке. Сообщение об ошибке указывает на то, что причиной была мультиколлинеарность.

    Сообщение об ошибке инструмента ГВР

    Ограничением инструмента ГВР является то, что он не работает с пространственно сгруппированными переменными, а они, как правило, характерны для атрибутов жилья. Результат показывает, что вы не можете использовать эти две переменные для прогнозирования продажной цены дома на местном уровне с помощью текущей модели ГВР.

    ГВР предоставляет экономичный режим пространственной регрессии; однако это не работает, когда существует высокая корреляция между парами переменных-показателей.

Использование Классификация на основе леса и регрессия

У вас есть богатый набор данных, содержащий показатели, которые вы хотите включить в свою регрессионную модель. Далее вы будете использовать модель Классификации на основе леса и регрессии. На этот тип модели не влияет мультиколлинеарность, потому что это не линейная модель, и он может моделировать отношения между огромным количеством переменных-показателей (пространственные и непространственные характеристики свойств) и целевой переменной (продажной ценой). До сих пор ОЛР и ГВР моделировали отношения между sqft_living и price с помощью линии. На местном или глобальном уровне, увеличение размера дома на единицу соответствует увеличению его стоимости.

  1. На панели Геообработка щелкните кнопку Назад. Найдите и откройте инструмент Классификация на основе леса и регрессия из набора инструментов Пространственная статистика.
  2. На панели инструмента Классификация на основе леса и регрессия задайте следующие параметры:
    • Для Типа прогнозирования выберите Только обучение
    • Для Входных обучающих объектов выберите kc_house_data.
    • Установите Переменную для прогнозирования на price.

    Параметры инструмента Классификация на основе леса и регрессия

  3. В разделе Независимые переменные обучения, для Переменной щелкните кнопку Добавить многие.
    • bedrooms
    • bathrooms
    • sqft_living
    • sqft_lot
    • floors
    • waterfront
    • просмотр
    • condition
    • grade
    • sqft_above
    • sqft_basement

    Выбранные Независимые переменные обучения

  4. Щёлкните Добавить.

    Вы должны указать, является ли каждый показатель категорийной переменной или нет. В случае сомнений проверьте таблицу атрибутов, чтобы убедиться, что вы определили все категорийные переменные. Инструмент автоматически определяет строковые поля как категории, но для числовых категорий, таких как целые числа, вы должны вручную идентифицировать категорийные переменные. В этом наборе данных bedrooms, bathrooms, floors, waterfront, view, condition и grade являются категорийными переменными, которые хранятся в виде целых чисел.

  5. В разделе Категорийная отметьте переменные bedrooms, bathrooms, floors, waterfront, view, condition и grade.

    Категорийные переменные

  6. Для Независимых объектов расстояния обучения выберите LargeLakes.

    Инструмент может автоматически рассчитывать расстояние до пространственных объектов и использовать это расстояние в качестве входных данных, так же, как и инструмент ОЛР.

  7. Разверните Дополнительные выходные данные. Для Выходных обученных объектов введите price_predicted, а для Выходной таблицы значимости переменной введите variable_importance.

    Раздел Дополнительные выходные данные

    Классификация на основе леса и регрессия определяет деревья решений для случайных подмножеств данных, и каждое дерево делает прогноз, называемый голосованием. Лес суммирует эти голоса как среднее и сообщает окончательный прогноз. Случайность разбиения данных на подмножества означает, что модели на основе леса дают результаты с разной точностью. Вы можете измерить влияние случайной подвыборки обучающих данных на выходные результаты – иными словами, стабильность модели на основе леса – путем многократного запуска модели и определения распределения R2.

    В этом случае вы зададите 20 прогонов проверки. Как и в случае с количеством деревьев, всегда желательно большее количество прогонов проверки. Наконец, вы рассчитаете неопределенность своих прогнозов продажной цены.

  8. Разверните Дополнительные опции леса. Установите Число деревьев на 1000.

    Для Числа деревьев задано 1000

    Сколько деревьев достаточно? Ответ – столько, сколько вы готовы ждать, пока инструмент обработает. Классификация на основе леса и регрессия становится более устойчивой к выбросам и устойчивой к случайному выбору данных, если используется больше деревьев. Примите значения по умолчанию для остальных дополнительных опций.

  9. Разверните Опции проверки. В параметре Число запусков для проверки введите 20.
  10. Включите опцию Вычислить неопределенность. В параметре Выходная таблица проверок введите validation_r2.

    Раздел Опции проверки

  11. Щелкните Запустить.

    Инструмент запустится.

    Примечание:

    Инструмент может работать более 30 минут. Не закрывайте панель Геообработка по завершении работы инструмента.

    По окончании работы инструмента вы сначала исследуете распределение R2 на основе 20 симуляций.

  12. На панели Содержание прокрутите вниз до раздела Автономные таблицы. Под validation_r2 дважды щелкните диаграмму Проверка_r2.

    Диаграмма Проверка R2

    Средняя точность модели классификации на основе леса и регрессии составляет приблизительно 0.79. Модель кажется стабильной, поскольку R2 изменяется от 0.73 до 0.82 за 20 запусков. Ваши цифры могут немного отличаться.

    Далее вы исследуете значимость переменных.

  13. На панели Содержание в разделе Автономные таблицы под variable_importance дважды щелкните диаграмму Распределение значимости переменных.

    Диаграмма распределения значимости переменных

    Две наиболее значимые переменные – sqft_living и grade. Они показаны выше всего по оси Y (значимость). Здесь значимость соответствует тому, сколько раз выполняется разбиение дерева на основе переменной во всей модели леса. Более высокие числа указывают на большее количество разбиений дерева на основе переменной, указывая на то, что влияние этой переменной на результат модели леса велико. Эта диаграмма показывает, что grade и sqft_living меняют свой уровень значимости между разными прогонами модели. Расстояние до большого озера – третий по значимости прогнозирующий фактор в модели.

    R2 ниже, чем модель ГВР с одной переменной. Как можно улучшить эту модель?

    Один из способов – удалить переменные-показатели с низкой важностью. Вы можете удалить переменные, которые не важны для модели, чтобы они не выбирались случайным образом для определенного дерева за счет более значимых независимых переменных.

    Согласно диаграмме Распределение значимости переменных, переменные: bedrooms, condition, floors и waterfront были наименее значимыми. Вы удалите их.

  14. Закройте обе диаграммы и панель Свойства диаграммы.
  15. На панели Геообработка, в разделе Независимые переменные обучения, наведите курсор на переменную bedroomsи щелкните Удалить.

    Кнопка Удалить

  16. Удалите переменные condition, floors и waterfront.

    Оставшиеся переменные

  17. Измените следующие параметры:
    • В разделе Дополнительные выходные данные для Выходных обученных объектов введите output_reduced.
    • Для Выходной таблицы значимости переменных введите variable_importance_reduced
    • В разделе Опции проверки для Выходной таблицы проверки введите validation_r2_reduced.
  18. Щелкните Запустить.
    Примечание:

    Для выполнения инструмента может потребоваться несколько минут.

  19. По окончании работы инструмента, внизу панели Геообработка щелкните Просмотреть подробности. В окне с результатами работы инструмента щелкните вкладку Сообщения.

    Параметры леса в разделе Характеристики модели показывают диапазон глубины дерева, который указывает на то, что все деревья выполняют от 26 до 43 расщеплений перед выполнением прогнозов. Это означает, что деревья решений отражают изменчивость показателей, поскольку это соответствует изменчивости целевой переменной.

    Раздел Характеристики модели

    В разделе Ошибки модели, не вошедшие в набор показано влияние добавления дополнительных деревьев в модель:

    Раздел Ошибки модели, не вошедшие в набор

    MSE и изменчивость существенно не меняются между 500 и 1000 деревьями. Поскольку изменений мало, можно утверждать, что ваша модель имеет достаточно деревьев и сходится с максимальной точностью.

    Возможно, существует эффект плато, и в этом случае вы должны продолжать увеличивать количество деревьев до тех пор, пока MSE и процент изменчивости значительно не увеличатся (по крайней мере, на 10 процентов). Несмотря на то, что стабильность этих показателей изначально не является гарантированной, вы можете снова протестировать, чтобы увидеть, есть ли радикальные изменения в производительности ошибок OOB, увеличив количество деревьев. Если есть кардинальные изменения, это явный признак того, что нужно использовать больше деревьев, пока производительность не станет стабильной.

    В разделе Значимость самой верхней переменной показаны переменные, управляющие моделью леса.

    Раздел Значимость самой верхней переменной

    Расстояние до водоемов – третья по значимости переменная.

    Данные обучения – это данные, которые используются деревьями в лесу. R-квадрат соответствует прогнозным данным, которые уже видны в лесу. Обучение R2 – это показатель того, насколько хорошо модель леса изучает существующие шаблоны в данных обучения. Однако данные проверки ранее не видны модели, а проверка R2 является показателем того, как модель работает, если используется для прогнозирования.

    Раздел Диагностика

    Коэффициент R2, равный 0.945, указывает, что модель Классификации на основе леса и регрессии предсказывает данные, используемые для определения модели, с высокой точностью. Проверка R2, равная 0,78, предполагает, что эта модель является обобщаемой, то есть она также может предсказывать точки данных, которые она не видела, с высокой точностью.

    В задачах регрессии вы используете эти показатели обучения в качестве индикатора потенциального качества модели. С фактическими прогнозами от обученной модели, когда вы прогнозируете данные, на которые у вас нет истинного ответа, вы не можете вычислить эти метрики. Эта диагностика показывает, что с учетом обучающих данных модель хорошо справляется с прогнозированием данных, которые используются при ее создании, и обобщается на точки данных, которые она раньше не видела.

  20. Закройте окно просмотра подробностей. На панели Содержание под слоем output_reduced дважды щелкните диаграмму Интервал прогнозирования.

    Диаграмма интервалов прогнозирования

    На этой диаграмме показаны границы неопределенности прогноза, причем синяя линия является фактическим прогнозом (также отображенным в выходном классе объектов). Границы неопределенности быстро расширяются для домов стоимостью более 1000000 долларов. Причина этого – небольшой размер выборки для таких дорогих домов. Для домов дороже 1500000 долларов границы неопределенности еще больше, поскольку в этом ценовом диапазоне еще меньше образцов. Эта диаграмма – полезный способ показать неопределенность ваших прогнозов с учетом вашей обучающей выборки.

  21. Закройте диаграмму и панель Свойства диаграммы. Сохраните проект.

Оцените пространственное распределение неопределенности

Наконец вы оцените пространственное распределение неопределенности модели FBCR. В настоящее время модель возвращает P95 и P05, которые представляют собой более высокую и более низкую оценку цены дома для количественной оценки неопределенности на основе модели. Другими словами, неопределенность результатов связана с нашей моделью, которая включает наши обучающие данные и модель Классификации на основе леса и регрессии. Если инструмент возвращает 100 000 долларов в качестве прогноза, 90 000 долларов в качестве P05 и 120 000 долларов в качестве P95, это означает, что модель предсказывает 100 000 долларов, но небольшие изменения в данных обучения могут привести к предсказанию от 90 000 долларов до 120 000 долларов.

Эта неопределенность важна для количественной оценки, поскольку вы не всегда знаете, достаточно ли у вас образцов для точного моделирования продажных цен на жилье. Вы добавите новое поле, содержащее показатель неопределенности, которую вы получите из выходных данных инструмента. Этот показатель суммирует три значения – P05, прогноз (P50) и P95 – в одном поле.

  1. На панели Геообработка найдите и откройте инструмент Добавить поле.
  2. В панели инструмента Добавить поле задайте следующие параметры:
    • Для Входной таблицы выберите output_reduced.
    • Для Имени поля введите uncertainty.
    • Для Тип поля выберите Двойной точности (64-битное с плавающей точкой).

    Параметры инструмента Добавить поле

  3. Щелкните Запустить.

    Инструмент запустится и добавит поле, но на карте изменений не появится.

  4. На панели Геообработка щелкните кнопку Назад. Найдите и откройте инструмент Вычислить поле (Инструменты управления данными).

    Вы определите поле неопределенности как:

    Uncertainty = (P95-P5)/P50

    Этот показатель количественно определяет, насколько велико окно неопределенности по отношению к величине прогноза.

  5. В инструменте Вычислить поле задайте следующие параметры:
    • Для Входной таблицы выберите output_reduced.
    • Для Имени поля введите uncertainty.
    • В разделе Выражение, для uncertainty =, введите (.

    Параметры инструмента Вычислить поле

  6. В столбце Поля дважды щелкните PRICE_P95.

    Поле PRICE_P95

    В поле выражения добавится текст !Q_HIGH!. Это имя поля, разделенное восклицательными знаками.

  7. Щелкните кнопку со знаком минуса и дважды щелкните PRICE_P05. Введите ).

    Выражение примет следующий вид: (!Q_HIGH! - !Q_LOW!)

  8. Щелкните кнопку деления и дважды щелкните PRICE(Predicted).

    Полное выражение должно выглядеть так: (!Q_HIGH! - !Q_LOW!) / !PREDICTED!

  9. Щелкните кнопку Проверить.

    Кнопка Проверить

    Появится сообщение о валидности выражения, т.е. оно будет выполнено без ошибок.

  10. Щелкните Запустить.

    Инструмент запустится, и поле будет вычислено согласно выражению. Изменений на карте не произойдет.

    Далее вы запустите анализ горячих точек по полю uncertainty, чтобы выяснить, существуют ли пространственные закономерности в неопределенности прогнозирования Классификации на основе леса и регрессии.

  11. На панели Геообработка щелкните кнопку Назад. Найдите и откройте инструмент Оптимизированный анализ горячих точек.
  12. В панели инструмента Оптимизированный анализ горячих точек установите следующие параметры:
    • Для Входных объектов выберите ouput_reduced.
    • Для Выходных объектов введите output_reduced_HotSpots.
    • Для Поля анализа выберите uncertainty.

    Оптимизированный анализ горячих точек – параметры

  13. Щелкните Запустить.

    Полученная карта показывает, что неопределенность обычно выше в южной половине набора данных и ниже в северной половине.

    Карта горячих точек неопределенности

  14. Сохраните проект.

    Полученные данные указывает на то, что прогнозы цены продажи в северной части округа Кинг, штат Вашингтон, менее подвержены изменению из-за случайных изменений данных обучения.

Вы использовали Географически взвешенную линейную регрессию и Классификацию на основе леса и регрессии для моделирования цен. Вы также изучили неопределенность результатов. Далее вы будете использовать эти модели для оценки новой выборки точек.


Сравнение прогнозов моделей

У вас есть две модели с приемлемыми R2, оба коэффициента выше 0,75 (в зависимости от желаемого уровня точности это число может быть выше). Одна из них – это модель ГВР, которую вы построили с помощью sqft_living, а вторая – модель FBCR, которую вы только что построили. Одна модель консервативна, в то время как другая обладает большей мощностью прогнозирования.

Ваша компания построила новые дома в Редмонде, штат Вашингтон, одном из самых быстрорастущих районов строительства домов в округе Кинг, штат Вашингтон. Вы будете использовать эти модели для оценки домов и сравнения результатов.

Выполните оценку с ГВР

Сначала вы примените модель ГВР для оценки. На этот раз вы запускаете ГВР в режиме прогнозирования. Инструмент Географически взвешенная регрессия применяет модель, которую вы разработали для kc_house_data, к набору данных new_homes.

  1. На панели Геообработка щелкните Открыть историю.
  2. На панели История щелкните самый последний успешно выполненный инструмент Географически взвешенная регрессия (ГВР) правой кнопкой мыши и выберите Открыть.
    Примечание:

    Чтобы определить, был ли инструмент выполнен успешно или нет, укажите на него. Появится всплывающее окно, в котором можно увидеть состояние инструмента, был ли он не выполнен, выполнен с предупреждениями.

    Инструмент открывается с параметрами, которые вы установили ранее.

  3. В разделе Независимые переменные подтвердите, что выбрана sqft_living, а grade не отмечена. В параметре Выходные объекты подтвердите, что выходное имя valuation_sqft_living_gwr.
  4. Разверните Опции прогнозирования и измените следующие параметры:
    • Для Прогнозируемых местоположений выберите new_homes.
    • Для параметра Выходные объекты прогнозирования введите new_home_valuation_gwr.

    Обновленные параметры опций прогнозирования

  5. Щелкните Запустить.

    Слой new_home_valuation_gwr добавится на вашу карту и на панель Содержание.

  6. На панели Содержание щелкните правой кнопкой new_home_valuation_gwr и выберите Приблизить к слою. Уменьшите масштаб настолько, чтобы видеть больше контекстной информации для местоположения в слое.

    На карте отображена оценка новых домов, полученная с помощью модели прогнозирования ГВР

Выполните оценку с FBCR

Затем вы используете FBCR для прогнозирования значений. Вы запустите инструмент Классификация на основе леса и регрессия в режиме прогнозирования.

  1. На панели История щелкните самый последний успешно выполненный инструмент Классификация на основе леса и регрессия правой кнопкой мыши и выберите Открыть.
  2. В панели инструмента Классификация на основе леса и регрессия для Типа прогнозирования выберите Прогнозировать в объекты.

    Параметр Тип прогнозирования

  3. Для Входные объекты прогнозирования выберите new_homes. Для Выходные объекты прогнозирования введите new_home_valuation_fbcr.

    Обновленные параметры инструмента Классификация на основе леса и регрессия

  4. Щелкните Запустить.
    Примечание:

    Работа инструмента может занять более 15 минут.

    После окончания работы инструмента на карту будет добавлен слой new_home_valuation_fbcr.

    Новые результаты оценки домов, полученные инструментом Классификация на основе леса и регрессия

  5. Сохраните проект.

Сравнение результатов с гистограммами

Вы произвели две оценки продажной цены для запланированной застройки. Далее вы сравните эти результаты. В режиме прогнозирования вы получите не точный результат, а оценочный. Вы можете оценить свои результаты с точки зрения их соответствия ценам в их районе.

Сначала вы сравните гистограммы выходных данных модели.

  1. На панели Содержание щелкните правой кнопкой мыши слой new_home_valuation_gwr, укажите Построить диаграмму и щелкните Гистограмма.
  2. На панели Свойства диаграммы в разделе Переменные для Number выберите Прогнозировать (PRICE).

    Панель Свойства диаграммы для новой оценки домов, полученной методом ГВР

  3. Создайте гистограмму для слоя new_home_valuation_fbcr, используя атрибут PRICE(Predicted).
  4. Перетащите диаграмму new_home_valuation_fbcr и прикрепите ее справа от диаграммы new_home_valuation_gwr.

    Теперь вы можете сравнивать расположенные рядом диаграммы.

    Диаграммы рядом друг с другом

    Ценовые диапазоны и средние значения аналогичны. С учетом данных характеристик недвижимости средняя стоимость этих новых домов составляет от 770 000 до 849 000 долларов. Верхний предел продажной цены дома в этом районе для ГВР составляет 1 505 000 долларов, а для FBCR – 1 327 000 долларов.

  5. Закройте два окна диаграмм и панель Свойства диаграммы.

    Для цен на жилье в этой области оценка ГВР набора данных kc_house_dataset является более разумной. Это одна из сильных сторон ГВР; она присваивает значения с учетом соседства. Однако все дома в наборе kc_house_dataset – это уже существующие дома, которые не находятся в таком хорошем состоянии или классе, как эти новые дома. FBCR использует образцы таких домов во всем округе Кинг, чтобы сделать оценку на основе всего набора данных.

Сравнение ценовой оценки за квадратный фут

Новые дома сильно различаются по своим атрибутам. Чтобы представить прогноз продажной цены в перспективе, вы рассчитаете цену за квадратный фут. Вы объедините прогнозы из ГВР и FBCR в один класс пространственных объектов для дальнейшего сравнения.

Прежде чем объединить прогнозные значения, обновите имена полей, чтобы отличать их друг от друга.

  1. На панели Содержание щелкните правой кнопкой мыши new_home_valuation_gwr, наведите курсор на Дизайн данных и выберите Поля.

    Откроется вид Поля для данного слоя.

  2. В виде Поля в окошке Имя поля, дважды щёлкните PREDICTED. Введите Predicted_GWR и нажмите Enter.

    Имя поля обновлено.

    Имя поля обновлено на Predicted_GWR

  3. В окошке Псевдоним, дважды щелкните Predicted (PRICE). Введите Прогнозирование ГВР и нажмите Enter.
  4. На ленте во вкладке Поля в группе Изменения нажмите Сохранить.
  5. На панели Содержание щелкните правой кнопкой мыши new_home_valuation_fbcr, наведите курсор на Дизайн данных и выберите Поля. Измените следующие поля:
    • В разделе Имя поля измените PREDICTED на Predicted_FBCR.
    • В разделе Псевдоним измените PRICE(Predicted) на FBCR Prediction.

    Имя поля обновлено на Predicted_FBCR, а Псевдоним обновлен на FBCR Prediction

  6. На ленте во вкладке Поля в группе Изменения нажмите Сохранить. Закройте оба вида Поля.

    Далее вы присоедините результаты ГВР и результаты FBCR.

  7. На панели Геообработка найдите и откройте инструмент Пространственное соединение. Укажите параметры следующим образом:
    • Установите Целевые объекты на new_home_valuation_gwr.
    • Установите Присоединяемые объекты на new_home_valuation_fbcr.
    • В параметре Выходной класс объектов введите price_comparison.
    • Разверните Поля. В разделе Сопоставление полей для Выходных полей щелкните кнопку Удалить для удаления всех полей, кроме SOURCE_ID, sqft_living, Predicted_GWR и Predicted_FBCR.

    Параметры инструмента Пространственное соединение

  8. Щелкните Запустить.

    Инструмент запустится и новый слой добавится на карту. Далее вы создадите новые поля для вычисления прогнозируемой цены за квадратный фут для каждой модели прогнозирования.

  9. На панели Содержание правой кнопкой мыши щелкните price_comparison, укажите Дизайн данных и щелкните Поля.
  10. В виде Поля щелкните Щелкните здесь, чтобы добавить новое поле. Создайте поле со следующими параметрами:
    • В окошке Сопоставление полей введите GWR_PSQFT.
    • В окошке Псевдоним введите ГВР (цена за квадратный фут).
    • В качестве Тип данных выберите Двойная точность.
  11. Создайте другое новое поле со следующими параметрами:
    • В качестве Имя поля введите FBCR_PSQFT.
    • В окошке Псевдоним введите FBCR (цена за квадратный фут).
    • В качестве Тип данных выберите Двойная точность.

    У вас теперь есть два новых поля.

    Поля GWR_PSQFT и FBCR_PSQFT добавлены к атрибутивной таблице

  12. На ленте на вкладке Поля в группе Изменить щёлкните Сохранить. Закройте вид Поля.

    Теперь, когда вы добавили поля для хранения значений цены за квадратный фут, вы рассчитаете значения на основе прогнозируемого значения и жилой площади в каждом доме. Вы создадите выражение, которое разделит цену, прогнозируемую моделью ГВР, на жилую площадь.

  13. На панели Геообработка найдите и откройте инструмент Вычислить поле (Инструменты Управления данными). Укажите параметры следующим образом:
    • Установите Входную таблицу на price_comparison.
    • Для Имени поля (существующего или нового), выберите ГВР (цена за квадратный фут).
    • Для Выражение постройте следующее выражение: !Predicted_GWR! / !sqft_living!

    Параметры инструмента Вычислить поле

  14. Щелкните Запустить.

    Вы снова запустите инструмент после изменения некоторых параметров, чтобы отразить FBCR вместо ГВР.

  15. В панели инструмента Вычислить поле измените Имя поля (существующего или нового) на FBCR (цена за квадратный фут). В окне Выражение соберите следующее выражение: !Predicted_FBCR! / !sqft_living!

    Это выражение разделит значения Прогноза FBCR на жилую площадь.

  16. Щелкните Запустить.

    Теперь, когда вы рассчитали оба поля, сравните их. Ящичковая диаграмма – хороший способ сравнить два распределения. Вы будете использовать ящичковую диаграмму, чтобы сравнить оценки цены за квадратный фут двумя методами.

  17. На панели Содержание правой кнопкой мыши щелкните слой price_comparison, укажите Построить диаграмму и щелкните Ящичковая диаграмма.
  18. В Свойствах диаграммы в разделе Числовые поля щелкните Выбрать. Отметьте ГВР (цена за квадратный фут) и FBCR (цена за квадратный фут) и щелкните Применить.

    Переменные для ящичковой диаграммы

    Ящичковая диаграмма обновится и покажет цену за квадратный фут, прогнозируемую в моделях ГВР и FBCR.

    Ящичковая диаграмма оценки цены за квадратный фут

    Длинные выбросы в полосе FBCR (цена за квадратный фут) указывают на то, что некоторые дома получили значительно более высокую цену, чем все остальные. Полоса для показателя ГВР (цена на квадратный фут) занимает большую площадь, чем FBCR, что указывает на то, что первый и третий квартили прогнозов сравнительно более разнесены. Другими словами, прогноз ГВР имеет более высокую вариацию с точки зрения цены за квадратный фут по сравнению с FBCR.

    Медианная цена за квадратный фут практически одинакова для обоих методов. Расположение медианной линии внутри прямоугольника для FBCR указывает на наклон влево распределения прогнозов, что означает, что модель часто предсказывала более высокую цену за квадратный фут. Этот результат может быть связан с глобальными тенденциями в округе Кинг, показывающими высокие цены, связанные с новыми домами – информация, предоставленная переменной класса, используемой в анализе FBCR. Прогнозы ГВР симметричны относительно среднего, показывая более равномерное распределение.

  19. Закройте ящичковую диаграмму и панель Свойства диаграммы. Сохраните проект.

Составьте карту неопределенности прогноза FBCR

Распределения для прогнозов FBCR и ГВР существенно различаются. Вы исследуете неопределенность FBCR для прогнозируемых точек.

  1. Щелкните правой кнопкой слой new_home_valuation_fbcr, наведите на Дизайн данных и щелкните Поля.
  2. Добавьте поле с именем P95_minus_P5, и установите тип на Double. Сохраните изменения и закройте вид Поля.
  3. На панели Геообработка откройте инструмент Вычислить поле и введите следующие параметры:
    • Для Входной таблицы выберите new_home_valuation_fbcr.
    • Для Имени поля выберите P95_minus_P5.
    • В окне Выражение соберите следующее выражение: !Q_HIGH! - !Q_LOW!
  4. Щелкните Запустить.
  5. На панели Содержание отключите слои price_comparison и new_home_valuation_gwr.
  6. Правой кнопкой мыши щелкните new_home_valuation_fbcr и выберите Символы.
  7. На панели Символы задайте следующие параметры:
    • Для Поля выберите P95_minus_P5.
    • Для Классов выберите 10.
    • Установите Цветовую схему на Оттенки зеленого (плавный переход).

    Параметры символов для слоя P95_minus_P5

  8. В нижней части панели Символы, на вкладке Классы щелкните Больше и выберите Формат всех символов.

    Опция Формат всех символов

  9. Если необходимо, щелкните вкладку Свойства.
  10. В разделе Оформление для Толщины контура введите 0.5. Для Размера укажите 10.

    Параметры Формат контура символа - ширина и размер

  11. Щелкните Применить.

    Слой обновится с новыми настройками символов

    Карта различий

    Темно-зеленые цвета указывают на высокий диапазон неопределенности прогнозов. Некоторые дома имеют диапазон неопределенности до 1,7 миллиона долларов.

  12. На панели Содержание под new_home_valuation_fbcr в разделе Диаграммы дважды щелкните Prediction Interval.
  13. На панели Свойства диаграммы на вкладке Дата или число выберите Сортировать ID по прогнозируемому значению. Для параметра Числовые поля выберите Прогнозирование FBCR, PRICE_P05 и PRICE_P95.

    Диаграмма интервалов прогнозирования

    Диапазон неопределенности составляет примерно 400000 долларов для всех домов, кроме домов с ценой выше 1 миллиона долларов. Модель показывает, что небольшие изменения обучающих данных из округа Кинг могут привести к существенным изменениям прогнозируемой цены продажи дома. В отличие от ОЛР или ГВР, FBCR не экстраполирует. Если максимальная цена в обучающих данных составляет 1,2 миллиона долларов, любая более высокая цена, которую предсказывает модель, будет иметь высокую неопределенность. Кроме того, поскольку домов с самой высокой ценой относительно мало, неопределенность в отношении таких домов будет высокой.

  14. Закройте диаграмму и панель Свойства диаграммы. Сохраните проект.

При сравнении моделей FBCR и ГВР ни один метод по своей сути не превосходит другой. Оба они удовлетворяют разные потребности в оценке. Модель ГВР определяет пространственную модель продажной цены дома и представляет гедонистическую модель продажной цены (Can, 1992) с географически меняющимися весами. Напротив, FBCR определяет взаимосвязь между атрибутами дома и его глобальной продажной ценой. Это может быть чрезвычайно полезно для понимания, поскольку некоторые факторы влияют на цены на жилье в глобальном масштабе без пространственных различий (François et al., 2005).

В этом сравнении методов ГВР лучше подходит для определения пространственных вариаций по отношению к цене. Он также хорошо подходит для разработки местной модели цены, когда прогнозируемая цена дома является разумной для района. Однако из-за мультиколлинеарности вы не можете использовать переменную grade в качестве показателя для ГВР. Напротив, FBCR моделирует влияние состояния новых домов, используя аналоги из всего округа Кинг, штат Вашингтон. Эта модель приводит к более высоким ценам на дома, что может иметь смысл, если качество строений очень высокое и застройщик рассматривает возможность их размещения по значительно более высокой цене, чем другие дома в этом районе. Анализ неопределенности в FBCR показывает, что может потребоваться переоценка цен на дорогие дома стоимостью более 1 миллиона долларов. Модель ГВР показывает разумные значения для Редмонда, штат Вашингтон, но не учитывает состояние новых домов.

Рабочий процесс в этом уроке демонстрирует регрессионные модели в ArcGIS Pro с различными допущениями и уровнем сложности. Визуализация – жизненно важная часть регрессионного анализа для понимания важных переменных и изучения взаимосвязей между переменными. ОЛР – это простейшая модель, которая связывает исследовательские переменные с целевой переменной с помощью глобальной линейной модели. Это полезная модель, которую стоит попробовать, поскольку это самая простая для понимания модель регрессии.

ГВР определяет линейную модель, которая меняется от места к месту. ГВР решает модель линейной регрессии в каждом месте, где переменные-показатели от ближайших соседей взвешиваются с помощью пространственного ядра, причем ближайшие соседи имеют большее влияние на модель регрессии, чем удаленные соседи. Поверхности коэффициентов ГВР также являются эффективным средством визуализации пространственного изменения взаимосвязи между независимой переменной и целевой переменной. Локальные бивариантные отношения (ЛБО) –- полезный инструмент для изучения типов пространственных отношений между двумя переменными. ЛБО между независимой переменной и целевыми переменными, которая определяет преобладающие локальные линейные отношения, является показателем того, что модель ГВР будет эффективной моделью. ЛБО между двумя независимыми переменными, определяющими большое количество линейных отношений, указывает на то, что ГВР может страдать мультиколлинеарностью, если эти переменные используются совместно в модели ГВР.

Наконец, модель Классификации на основе леса и регрессии (FBCR) определяет модель на основе леса для связи независимых переменных с целевой переменной. Несмотря на свою алгоритмическую сложность, FBCR может связывать широкий спектр независимых переменных с целевой переменной, непрерывной или дискретной. FBCR производит ценную диагностику, такую ​​как диаграмма значимости переменных, которая количественно оценивает влияние объясняющей переменной в регрессионной модели. Несмотря на свою гибкость, модель FBCR чувствительна к обучающим данным, используемым для определения модели. В примере продажной цены, если определенные диапазоны цен представлены недостаточно, например, небольшое количество дорогих домов (более 1 миллиона долларов), не ожидается, что модель на основе леса будет точной для этих диапазонов. Кроме того, FBCR не может предсказать диапазон целевой переменной в наборе обучающих данных.

Вы можете найти больше учебных пособий в галерее учебных пособий.