Выполнение пространственной регрессии

Сначала вы смоделируете цены на жилье с помощью метода пространственной регрессии, который называется географически взвешенная регрессия (ГВР). Как и другие методы регрессии, ГВР выявляет отношения между целевой переменной (в данном случае, ценами на жилье) и несколькими независимыми переменными (в данном случае, характеристиками недвижимости, такими как размер жилья, количество этажей и т.д.). Эти отношения затем можно использовать для построения прогнозов.

В отличие от обобщенной линейной регрессии (ОЛР), ГВР учитывает пространственные вариации в данных. Он выполняет это, создавая отдельные уравнения регрессии для каждого объекта в наборе данных на основе переменных в соседних объектах. Методы пространственной регрессии, такие как ГВР, полезны, если отношение между переменными непостоянно на всей изучаемой области или если целевая переменная изменяется вблизи определенных географических объектов.

Изучение данных

Сначала вы загрузите пакет проекта ArcGIS Pro, содержащий данные о продаже жилья в округе Кинг, Вашингтон. Затем вы изучите данные, чтобы определить, какие переменные стоит использовать при выполнении ГВР.

Примечание:

Если вы выполнили руководство Прогнозирование цен на жилье с помощью линейной регрессии, вы можете использовать проект из того руководства вместо загрузки пакета проекта.

  1. Загрузите пакет проекта Home Valuation 2.
  2. Найдите загруженный файл и дважды щелкните Home_Valuation_2.ppkx, чтобы открыть проект в ArcGIS Pro. Если будет предложено, войдите под лицензированной учетной записью ArcGIS.
    Примечание:

    Если у вас нет доступа к ArcGIS Pro или учетной записи организации ArcGIS, см. варианты доступа к программному обеспечению.

    Проект содержит карту округа Кинг, штат Вашингтон с результатами предыдущего анализа, который использовал ОЛР.

    Проект по умолчанию

    На карте точки отображают разницу между прогнозируемыми ценами продажи домов модели ОЛР и фактическими ценами продажи, зафиксированными в период с мая 2014 года по май 2015 года. Зеленые точки обозначают места, где прогнозируемые цены значительно ниже фактических, а фиолетовые — где они значительно выше.

    Самые темные зеленые и фиолетовые точки, как правило, сгруппированы вместе, а не распределены равномерно по всему набору данных. Например, модель, по всей видимости, систематически занижала цены на жилье вблизи центра Сиэтла и завышала цены в пригородах к югу от города. Эти закономерности позволяют предположить, что география оказывает значительное влияние на цены, поэтому метод пространственной регрессии, такой как ГВР, может создать лучшую модель прогнозирования, чем ОЛР.

  3. На панели Содержание отключите Valuation_GLR_2. Сверните его, чтобы скрыть его легенду.

    Valuation_GLR_2 на панели Содержание

    На карте остаются три слоя (не включая базовую карту). Первый, King County Housing Data, содержит фактические цены продаж домов за период с мая 2014 по май 2015 года, а также характеристики недвижимости для каждого дома, такие как его размер, количество этажей и т.д. Вы используете этот набор данных для обучения модели ГВР.

    Другие слои, Microsoft и Seattle, использовались в предыдущем анализе ОЛР в качестве независимых объектов расстояния, что привело к тому, что модель ОЛР скорректировала прогнозируемые цены на основе близости дома к этим объектам. Хотя добавление независимых объектов расстояния улучшило модель, оно не учло всю пространственную вариацию данных.

    Независимые объекты расстояния необязательны для ГВР. ГВР создает локальные уравнения для каждого объекта на основе его соседей, поэтому он автоматически учитывает пространственные отношения там, где они важны.

  4. Отключите слои Microsoft и Seattle.

Моделирование цен с помощью пространственной регрессии

ГВР, как и другие методы регрессии, требует зависимую переменную — переменную, которую вы хотите прогнозировать (в данном случае, цена), — и одну или несколько независимых переменных, которые используются для получения прогноза.

Предыдущий анализ ОЛР использовал три независимые переменные: жилая площадь объекта в квадратных футах, класс объекта (возведенный в куб для большей линейности отношения к цене) и расстояние объекта от береговой линии. Вы запустите ГВР с теми же переменными.

Примечание:

Чтобы узнать больше об этих переменных и о том, как они были выбраны, см. руководство Прогнозируйте цены на жилье с помощью линейной регрессии.

  1. Щелкните вкладку Анализ на ленте. В группе Геообработка щелкните Инструменты.

    Кнопка Инструменты

  2. На панели Геообработка выполните поиск ГВР. В списке результатов щелкните Географически взвешенная регрессия (ГВР).

    Инструмент Географически взвешенная регрессия (ГВР) в списке результатов поиска

  3. Для Входных объектов выберите King County Housing Data. Для Зависимой переменной выберите Price.
  4. Для Независимых переменных отметьте Square Feet (Living), Waterfront и Grade_Cubed.

    Это — три переменные, которые использовались в анализе ОЛР.

    Параметры входных объектов и переменных для инструмента ГВР

  5. Для Выходных объектов удалите текст и введите Valuation_GWR_1.

    Поскольку ГВР калибрует локальные уравнения для каждого объекта на основе его соседей, ему необходимо знать, как определять соседние объекты. Инструмент может находить два возможных типа окрестности: один на основе числа соседей (чтобы у каждого объекта было схожее число) и один на основе диапазона расстояний (чтобы вокруг каждого объекта было фиксированное расстояние, в пределах которого другие объекты считаются соседними).

    Сейчас вы используете тип количества соседей и увидите, как это влияет на результаты.

  6. Для Типа окрестности выберите Количество соседей.

    Вы также установите метод выбора окрестности, который определяет размер окрестности. Вы можете либо задать размер вручную, используя конкретное значение или интервал между минимальным и максимальным размером, либо использовать опцию золотого поиска, которая позволит инструменту автоматически оценить оптимальный размер окрестности после тестирования различных размеров. У вас нет на примете конкретного размера, поэтому вы используете метод золотого поиска.

  7. Для Метода выбора окрестности выберите Золотой поиск.

    Наконец, инструмент имеет два типа локальных схем взвешивания, которые указывают тип ядра, используемый для определения того, как каждый объект связан с другими объектами. В схеме присвоения весов Гаусса все объекты (даже находящиеся за пределами окрестности объекта) влияют на объект, но объекты, расположенные дальше, имеют экспоненциально меньшее влияние. В Биквадратной схеме присвоения весов влияние имеют только объекты внутри окрестности, при этом более близкие объекты имеют большее влияние, чем более далекие.

    Сейчас вы используете схему присвоения весов Гаусса. Позже вы запустите инструмент снова с другими параметрами и сравните результаты.

  8. Разверните Дополнительные параметры. Измените Локальную схему весов на Гауссову.

    Параметры окрестности для инструмента ГВР

  9. Щелкните Запустить.

    Инструмент не сработал. Вы исследуете почему.

  10. В нижней части панели Геообработка щелкните Просмотреть подробности.

    Ссылка Просмотр подробной информации

    Исходя из окна подробной информации, инструменту не удалось оценить как минимум одну локальную модель по причине мультиколлинеарности, также известной как избыток данных.

    ГВР нельзя выполнить, если какая-либо из независимых переменных демонстрирует локальную мультиколлинеарность, что означает, что значения одинаковы для обширных районов изучаемой области. В данном случае независимой переменной, вызывающей проблему, скорее всего, является переменная Waterfront. Эта переменная имеет только три значения: 0 (означает, что дом находится не на берегу), 1 (означает, что дом находится на определенном расстоянии от берега) и 2 (означает, что дом находится на берегу). Значений не только мало, но и у большинства домов в наборе данных значение 0. Поскольку эта переменная представляет расстояние, а ГВР автоматически учитывает расстояние, эта переменная все равно не нужна.

    Также возможно, что переменная Grade_Cubed может создавать проблемы. Существует всего 12 типов классов, и дома в одном и том же районе могут иметь схожее качество и схожий класс. Сначала вы попробуете удалить переменную Waterfront, чтобы проверить, исправит ли это ошибку.

  11. Закройте окно подробностей выполнения инструмента. На панели Геообработка для параметра Независимые переменные снимите отметку с Waterfront.
  12. Оставьте все другие параметры без изменений и щелкните Запустить.

    На этот раз инструмент выполняется около минуты или дольше. Он завершается успешно, но с предупреждениями. Результаты будут добавлены на карту.

    Карта с результатами инструмента ГВР

    По сравнению с результатами анализа ОЛР все еще наблюдаются заниженные прогнозы около Сиэтла и вдоль набережных, но в южных внутренних пригородах модель предсказала цены с относительной точностью.

Тонкая настройка модели

Инструмент ГВР был выполнен с предупреждениями. Сначала вы исследуете эти предупреждения. Затем вы попробуете запустить инструмент после настройки некоторых параметров инструмента, в частности тех, что касаются типа окрестности и локальной схемы весов.

  1. В нижней части панели Геообработка щелкните Просмотреть подробности. Если необходимо, в окне подробной информации об инструменте щелкните вкладку Сообщения.

    Предупреждение гласит, что итоговая модель не имела наименьшего значения Информационного критерия Акаике (AICc), обнаруженного в результатах золотого поиска. Акаике — это относительное значение, которое отражает информацию, потерянную вследствие процесса моделирования. Чем меньше значение Акаике, тем лучше модель. В предупреждении объясняется, что метод золотого поиска, который автоматически определяет количество соседей, использовал не полностью оптимальное число.

    В разделе Подробная информация об анализе в строке Число соседей указано значение 31. Это число привело к значению AdjR2 (скорректированный R2) 0,8741 и значению Акаике 558535.

    Значения Числа соседей, AdjR2 и Акаике в окне подробной информации об инструменте

    Примечание:

    Вам может потребоваться прокрутить окно, чтобы увидеть эти значения.

    R2 (также известный как R2 или R-квадрат) — это коэффициент детерминации, измеряющий, какая часть вариаций в данных объясняется отношением между зависимой и независимой переменными. R2, близкий к 1, указывает на более сильное отношение, что желательно.

    Предыдущий анализ ОЛР имел скорректированный R2, равный 0,6911, и Акаике, равный 576857, поэтому модель ГВР, которая имеет более высокий R2 и более низкий Акаике, является улучшением по сравнению с ним.

  2. Прокрутите вверх до раздела Результаты золотого поиска.

    Этот раздел включает таблицу, показывающую Акаике для разных количеств соседей, опробованных инструментом. Большинство значений привело к более высокому Акаике, чем у 31 соседа, но 30 соседей имеет немного более низкий Акаике (558449 по сравнению с 558535). Использование 30 соседей также должно дать немного более высокий скорректированный R2.

  3. Закройте окно подробностей выполнения инструмента.

    Далее вы попробуете запустить инструмент с другой локальной схемой весов и посмотрите, будут ли у ваших результатов более высокий R2 и более низкий Акаике.

  4. На панели Геообработка измените Локальную схему весов на Биквадратную.

    Параметр Локальная схема весов, установленный на Биквадратная

  5. Оставьте все остальные параметры, включая параметр Выходные объекты, без изменений. Щелкните Запустить.

    Инструмент не сработал. Ошибка (вы можете проверить ее, если хотите) та же, что и раньше, касающаяся мультиколлинеарности. Кажется, Биквадратная схема присвоения весов неэффективна при использовании переменной Grade_Cubed. Вместо удаления переменной, что, вероятно, сделает модель менее точной, чем при использовании схемы присвоения весов Гаусса, вы измените тип окрестности, что может повлиять на то, будет ли инструмент работать.

  6. Измените Тип окрестности на Диапазон расстояний. Оставьте все другие параметры без изменений и щелкните Запустить.

    Инструмент запустится. Через минуту или более он успешно завершается. Поскольку вы не изменили имя выходных объектов (в параметре Выходные объекты), результаты перезапишут ваш предыдущий выходной слой, а не создадут новый.

  7. В нижней части панели Геообработка щелкните Просмотреть подробности.

    Как и раньше, вы получаете предупреждение о том, что в итоговой модели не использовался размер окрестности с наименьшим значением Акаике. Также имеется предупреждение о том, что у по крайней мере одной локальной регрессии (окрестности) наблюдалась очень ограниченная вариация после применения схемы присвоения весов, что может привести к ненадежным результатам.

    Инструмент использовал окрестности с диапазоном расстояний 30154 фута. Такой размер окрестности привел к скорректированному R2 0,8196, что ниже, чем в предыдущей модели, и Акаике 565540, что выше. В целом этот тип окрестности и схема присвоения весов были менее эффективными, чем предыдущие.

    Вы в последний раз запустите ГВР с исходными параметрами, но вручную установите количество соседей на 30, что является числом, давшим наилучшие результаты при первом запуске инструмента.

  8. Закройте окно подробностей выполнения инструмента. На панели Геообработка установите Тип окрестности на Количество соседей, а Локальную схему весов на Гауссову.
  9. Для Метода выбора окрестности выберите Определен пользователем. В качестве Числа классов введите 30.

    Окончательная конфигурация параметров инструмента ГВР

  10. Оставьте все другие параметры без изменений и щелкните Запустить.

    Поскольку вы указали точное количество соседей вместо использования метода золотого поиска, инструмент работает быстрее, чем раньше.

  11. Щелкните Просмотреть подробности.

    С 30 соседями, ГВР дал скорректированное значение R2 0,8747 и значение Акаике 558449. Это наилучшие значения, которые вы получили с помощью ГВР, и существенное улучшение по сравнению с ОЛР.

  12. Закройте окно подробностей выполнения инструмента. На панели Содержание сверните слой Valuation_GWR_1, чтобы скрыть его легенду.
  13. На Панели инструментов быстрого доступа щелкните кнопку Сохранить проект.

    Кнопка Сохранить проект на панели инструментов быстрого доступа

Вы выполнили пространственную регрессию с помощью ГВР для моделирования цен на продажу жилья с большей точностью, чем с помощью ОЛР. Хотя ваша модель представляет собой значительное улучшение, распределение темно-зеленых точек на карте указывает на то, что она по-прежнему занижает цены вблизи набережных и в центре Сиэтла, поэтому у вас есть возможности для улучшения.


Выполнение регрессии произвольного леса

Модель, созданная с помощью более надежного метода машинного обучения, может давать более точные прогнозы. Машинное обучение включает в себя алгоритмы, обучающиеся на данных, для прогнозирования неизвестных значений. По некоторым определениям, ОЛР и ГВР считаются методами машинного обучения, поскольку они находят статистическую линию тренда в данных и используют эту линию для прогнозирования значений. Однако эта единственная линия влияет на все решения модели, что в некоторых случаях может переобучить модель на обучающих данных. Переобучение означает, что модель хорошо предсказывает известные значения, но плохо предсказывает неизвестные.

В отличие от этого, регрессия произвольного леса создает серию деревьев решений (или "лес" деревьев решений), каждое из случайного поднабора данных, которые агрегируются для получения более надежных прогнозов. Поскольку итоговые прогнозы не основаны на одном дереве, результат избегает переобучения. Вы используете этот тип регрессии для вашей следующей модели.

Моделирование цен с помощью произвольного леса

Для выполнения регрессии произвольного леса вы используете классификацию на основе леса и регрессию (FBCR).

  1. На панели Геообработка щелкните кнопку Назад.

    Кнопка Назад на панели Геообработка

  2. В строке поиска введите Классификация на основе леса, расширенная классификация с бустингом и регрессия. В списке результатов щелкните Классификация на основе леса, расширенная классификация с бустингом и регрессия.

    Классификация на основе леса, расширенная классификация с бустингом и регрессия в результатах поиска

    Этот инструмент предоставляет возможность использовать либо модель на основе леса, либо модель с градиентным бустингом. Для этого руководства вы используете модель на основе леса, которая выбрана по умолчанию.

  3. Для Входных обучающих объектов выберите данные о жилье округа Кинг King County Housing Data. Для Переменной прогнозирования выберите Price.

    Входные параметры для инструмента FBCR

    Далее вы выберите независимые переменные. Для ОЛР и ГВР вы использовали лишь небольшое количество переменных, все из которых имели сильные линейные отношения с ценой, и избегали мультиколлинеарности. Однако, поскольку FBCR основан на множестве деревьев решений, а не на линейной линии тренда, он не подвержен мультиколлинеарности и не требует, чтобы независимые переменные имели линейное отношение с прогнозируемой переменной. Следовательно, он может моделировать отношения, используя большое количество независимых переменных, с меньшими возможностями переобучения. Вы добавите больше переменных, чем использовали ранее.

  4. Для параметра Независимые переменные обучения щелкните кнопку Добавить многие.

    Кнопка Добавить многие

  5. Отметьте следующие переменные и нажмите Добавить:
    • Bedrooms
    • Bathrooms
    • Square Feet (Living)
    • Square Feet (Lot)
    • Floors
    • Waterfront
    • Condition
    • Grade
    • Square Feet (Above)
    • Square Feet (Basement)
    • Year Built

    Вы также должны указать, является ли каждая независимая переменная категорийной или нет. Категорийные переменные — это те, значения которых не являются сами по себе лучше или хуже других. Если переменная имеет порядок, при котором более высокие или более низкие значения являются лучшими, она не является категорийной.

    Инструмент автоматически определит строковые (текстовые) поля как категорийные, но числовые переменные также могут быть категорийыми. В ваших данных поле Floors является категорийным, поскольку трехэтажный дом не является сам по себе лучше двухэтажного или одноэтажного.

  6. Рядом с Floors установите отметку Категорийный.

    Отметка Категорийный для переменной Floors

    FBCR может автоматически вычислять расстояние до объектов в качестве независимой переменной, аналогично инструменту ОЛР, поэтому вы добавите те же независимые объекты расстояния, что и для анализа ОЛР.

  7. Для Независимых объектов расстояния обучения выберите Microsoft и Seattle.

    Параметр Независимые объекты расстояния обучения

    Далее вы настроите выходные параметры. Инструмент FBCR не только создает выходные объекты, как и другие инструменты, которые вы использовали, но и создает таблицу, отслеживающую значимость каждой переменной в результатах.

  8. Разверните Дополнительные выходные данные Для Выходных обученных объектов введите Valuation_FBCR_1, а для Выходной таблицы значимости переменной введите Importance_FBCR.

    Выходные параметры для инструмента FBCR

  9. Разверните Дополнительные опции модели.

    FBCR основан на произвольно выбранных деревьях решений, и вы можете установить количество деревьев, глубину каждого дерева и количество произвольно выбранных переменных. Большее количество деревьев улучшает стабильность модели, но также увеличивает время выполнения инструмента. Большая глубина дерева улучшает прогнозы для существующих данных, но может привести к переобучению и ослабить способность модели прогнозировать места, не использованные для обучения модели. Уменьшение количества произвольно выбранных переменных может повысить обобщающую способность модели, но также снизить общую производительность модели на обучающих данных.

    Флажок Оптимизация параметров позволит инструменту автоматически определять наилучшие значения для каждого из этих параметров. Однако это также значительно увеличит время, необходимое для завершения работы инструмента. (Время может занимать до нескольких часов.)

    В целях этого руководства оптимизированные параметры уже определены для вас.

    Примечание:

    Для определения оптимизированных параметров использовался метод оптимизации Поиск по сетке, который является наиболее полным, но и занимает больше всего времени. Целью оптимизации была Среднеквадратическая ошибка, которая оптимизирует прогнозирование неизвестных значений. При выполнении FBCR на ваших собственных данных рекомендуется отметить Оптимизацию параметров, даже если это приведет к длительному выполнению анализа.

  10. В разделе Дополнительные опции модели задайте следующие параметры:
    • Установите Число деревьев на 250.
    • Установите Минимальный размер листа на 5.
    • Установите Максимальную глубину дерева на 34.
    • Установите Данные, доступные для одного дерева (%) на 100.
    • Установите Число произвольно выбранных переменных на 8.
    • Убедитесь, что Оптимизировать параметры не отмечен.

    Параметры Дополнительных опций модели

    Наконец, вы зададите опции проверки. Поскольку произвольный лес в FBCR основан на случайных поднаборах данных, выходные модели могут иметь разную точность. Чтобы оценить стабильность модели или влияние случайных поднаборов обучающих данных на результаты, вы можете запустить модель несколько раз и проверить распределение полученных значений R2. Эти многократные запуски называются проверочными запусками.

    Выполнение большего числа проверочных запусков обычно желательно, но это приведет к увеличению времени работы инструмента. Для этого руководства вы выполните 20 проверочных запусков.

  11. Разверните Опции проверки. В параметре Число запусков для проверки введите 20.

    Вы также создадите выходную таблицу проверок, которая отобразит значения R2 нескольких запусков.

  12. Отметьте Вычислить неопределенность. Для Выходная таблица проверок введите Validation_R2.

    Параметры Опций проверки

    Вы задали параметры инструмента.

    Подсказка:

    Так как параметров очень много, а выполнение инструмента занимает несколько минут, вы можете повторно проверить, что правильно задали все параметры, перед запуском инструмента.

  13. Щелкните Запустить.
    Примечание:

    Выполнение инструмента может занять 15 минут или более.

    По завершении работы инструмента на карту будет добавлен новый слой.

    Результаты FBCR на карте

Исследование результатов

Теперь, когда работа инструмента завершена, вы исследуете результаты. Вы начнете с диаграммы, показывающей распределение значений R2 для 20 проверочных запусков.

  1. На панели Содержание прокрутите вниз до раздела Автономные таблицы. Дважды щелкните диаграмму Проверка R2.

    Диаграмма Проверка R2 в разделе Автономные таблицы

    Откроется диаграмма. Она отображает количество проверочных запусков, сгруппированных по R2, а также среднее и медиану значений R2.

    Примечание:

    Поскольку FBCR использует случайные поднаборы данных и случайный выбор независимых переменных для каждого дерева, ваши результаты будут отличаться от примеров на изображениях.

    Диаграмма Проверка R2

    На изображении среднее значение R2 составляет 0,867; ваше значение может быть немного выше или ниже. Диапазон значений относительно стабилен: наименьшее значение R2 для проверочного запуска составляет 0,847, а наибольшее — 0,888.

    Далее вы исследуете значимость каждой переменной для результатов.

  2. Закройте диаграмму Проверка R2. На панели Содержание в разделе Автономные таблицы дважды щелкните диаграмму Распределение значимости переменных.

    В этой диаграмме перечислены все независимые переменные в порядке значимости. В FBCR значимость соответствует количеству разбиений дерева решений на основе переменной по всей модели леса. Переменные с более высокими значениями вызвали больше разбиений дерева, что означает, что переменная оказала большее влияние на результаты модели.

    Диаграмма распределения значимости переменных Распределение значимости переменных

    Наиболее значимыми переменными являются Grade и Square Feet (Living) — те же переменные, которые вы использовали при выполнении GWR. Расстояния Seattle и Microsoft являются следующими по значимости переменными, а остальные переменные имеют сравнительно низкую значимость.

    Иногда вы можете улучшить модель, удалив независимые переменные с низкой значимостью, чтобы они не выбирались случайным образом для деревьев в ущерб более значимым переменным. Переменные Condition, Bedrooms и Floors являются наименее значимыми, поэтому они — подходящие кандидаты на удаление. В этом случае их удаление не оказывает существенного влияния на результаты, поэтому вы оставите модель как есть.

  3. Закройте диаграмму Распределение значимости переменных и панель Свойства диаграммы.

    Вы также исследуете подробности выполнения инструмента.

  4. В нижней части панели Геообработка щелкните Просмотреть подробности.
    Примечание:

    Если вы случайно закрыли панель Геообработка, вы все равно сможете получить доступ к окну подробностей выполнения инструмента. На ленте на вкладке Анализ в группе Геообработка щелкните История. На панели История щелкните правой кнопкой Классификация на основе леса, расширенная классификация с бустингом и регрессия и выберите Просмотреть сведения.

  5. При необходимости в окне подробностей выполнения инструмента щелкните вкладку Сообщения и прокрутите вверх до раздела Характеристики модели.

    В этом разделе приведена сводка параметров модели, большинство из которых вы задали. Если вы разрешили инструменту оптимизировать его параметры, вы увидите параметры, которые он выбрал.

  6. Прокрутите вниз до раздела Обучающие данные: Диагностика регрессии.

    Значение R2 в этом разделе составляет около 0,977 (ваши значения будут немного отличаться), что указывает на то, что модель FBCR прогнозирует обучающие данные (данные, используемые для определения модели) с очень высокой точностью. В разделе Проверочные данные: Диагностика регрессии значение R2 составляет около 0,869, что говорит о том, что модель также может прогнозировать проверочные данные (данные, которые были исключены при обучении модели) с высокой точностью.

    Значения R2 для обучающих и проверочных данных

    Значение R2 на проверочных данных показывает, насколько хорошо модель работает при использовании для прогнозирования неизвестных значений. Это значение аналогично значению R2 для модели ГВР, которое составляло 0,874.

  7. Прокрутите вверх до раздела Ошибки модели, не вошедшие в набор.

    В этом разделе показано влияние добавления дополнительных деревьев в модель:

    Раздел Ошибки модели, не вошедшие в набор

    Среднеквадратичная ошибка (MSE) и процент дисперсии лучше с 250 деревьями по сравнению со 125, но разница невелика. Если бы разница была больше, вы могли бы рассмотреть запуск модели с дополнительными деревьями.

  8. Закройте окно подробностей выполнения инструмента.

    Наконец, вы исследуете диаграмму интервалов прогнозирования.

  9. На панели Содержание под слоем Valuation_FBCR_1 дважды щелкните диаграмму Prediction Interval.

    Диаграмма Prediction Interval на панели Содержание

    Эта диаграмма показывает границы неопределенности прогнозов. Темно-синяя линия — это окончательная прогнозируемая моделью цена. Светло-синяя линия — это 95-й процентиль (P95), указывающий, что 95 процентов прогнозов были ниже этого значения. Светло-зеленая линия — это 5-й процентиль (P05), показывающий, что все, кроме 5 процентов прогнозов, были выше этого значения.

    Вместе эти линии показывают неопределенность прогноза. Фактическая цена может быть спрогнозирована так, что попадет в диапазон между значениями P95 и P05 в зависимости от небольших изменений в обучающих данных. Если диапазон между этими значениями больше, неопределенности больше.

    Диаграмма Prediction Interval

    Границы неопределенности быстро расширяются для цен домов больше 1000000 долларов. Причиной этого, скорее всего, является небольшой размер выборки для таких дорогих домов. По мере роста цен выборки становится еще меньше, поэтому неопределенность возрастает.

  10. Закройте диаграмму Prediction Interval и панель Свойства диаграммы.

Отображение на карте неопределенности модели

Важно понять неопределенность вашей модели. Хотя диаграмма Prediction Interval показала, что неопределенность увеличивается с ростом цен, вы также хотите визуализировать эту неопределенность на карте. Существуют ли местоположения, где неопределенность выше?

Чтобы лучше понять неопределенность вы вычислите поле, которое количественно оценивает неопределенность путем объединения значений P95 и P05 с прогнозируемым значением (P50). Затем вы выполните анализ горячих точек по результатам, чтобы увидеть, где находятся статистически значимые кластеры повышенной и пониженной неопределенности.

  1. На панели Геообработка щелкните кнопку Назад. Выполните поиск Вычислить поле и откройте инструмент Вычислить поле (Инструменты управления данными).

    Этот инструмент использует уравнение для вычисления нового поля для слоя. Для определения неопределенности вы используете следующее уравнение:

    Uncertainty = (P95 – P5)/P50

    Это уравнение делит диапазон прогнозируемых значений (P95 по P05) на итоговое прогнозируемое значение модели, P50. Если диапазон выше, неопределенность будет также выше.

  2. Для Входной таблицы выберите Valuation_FBCR_1. Для Имени поля введите Uncertainty.

    Тип поля по умолчанию — текстовый, но это поле будет содержать числа, поэтому вы измените тип поля.

  3. Для Тип поля выберите Двойной точности (64-битное с плавающей точкой).

    Вы можете создать выражение, щелкнув соответствующие поля. Для удобства вам будет предоставлено выражение.

  4. В разделе Выражение для Uncertainty = введите (или скопируйте и вставьте) следующее выражение:

    (!Q_HIGH! - !Q_LOW!) / !PREDICTED!

    Параметры инструмента Вычислить поле

  5. Щелкните Запустить.

    Инструмент запустится. Поле Uncertainty вычислено и добавлено в слой Valuation_FBCR_1.

    Подсказка:

    Чтобы просмотреть вычисленное поле, щелкните правой кнопкой Valuation_FBCR_1 и выберите Таблица атрибутов. Прокрутите до конца таблицы.

    Далее вы выполните анализ горячих точек для этого поля. Анализ горячих точек статистически определяет области, где высокие и низкие значения группируются вместе.

  6. На панели Геообработка щелкните кнопку Назад. Найдите и откройте инструмент Оптимизированный анализ горячих точек.
  7. Укажите параметры следующим образом:
    • Для Входных объектов выберите Valuation_FBCR_1.
    • Для Выходных объектов удалите текст и введите Uncertainty_Hot_Spots.
    • Для Поля анализа выберите Uncertainty.

    Оптимизированный анализ горячих точек – параметры

  8. Щелкните Запустить.

    Инструмент запустится. По завершении его работы на карту будет добавлен новый слой.

  9. На панели Содержание отключите и сверните Valuation_FBCR_1. Снимите отметки с Valuation_GWR_1 и King County Housing Data.

    На карте красные области — это горячие точки (где неопределенность статистически высокая по сравнению с остальными данными), а синие области — холодные точки (где неопределенность статистически низкая).

    Карта, показывающая горячие точки неопределенности

    Неопределенность высокая в пригородах к югу от Сиэтла, но низкая в восточных районах округа. Случайные изменения в обучающих данных окажут большее влияние там, где неопределенность высока, поэтому результаты для областей горячих точек могут испытывать большие колебания при повторном запуске модели.

  10. На панели Содержание отключите и сверните Uncertainty_Hot_Spots. Включите King County Housing Data.
  11. Сохраните проект.

В этом руководстве вы использовали ГВР (пространственную регрессию) и основанный на машинном обучении FBCR (регрессию произвольного леса) для моделирования цен на продажу жилья. Эти модели значительно превосходят предыдущую модель, созданную с использованием ОЛР. Вы также изучили неопределенность результатов, нанеся на карту горячие точки.

Вы создали модели для прогнозирования цен на продажу жилья и сравнили их с фактическими ценами. Чтобы применить эти модели для прогнозирования цен на еще непроданные дома, попробуйте руководство Сравнение прогнозов трех моделей. Для других руководств этой серии см. Прогнозирование цен на жилье с помощью регрессионного анализа и машинного обучения.

Вы можете найти больше учебных пособий в галерее учебных пособий.