Пространственный анализ данных
Вы проанализируете данные отметок в социальной сети для выявления пространственных трендов.
Открытие проекта
Сначала вам необходимо загрузить и открыть пакет проекта ArcGIS Pro, который содержит карту отметок. Далее,. Необходимо изучить атрибуты данных.
- Загрузите пакет проекта Bay Area Popular Places.
- Найдите скачанный пакет проекта Bay_Area_Popular_Places на своем компьютере и дважды щелкните, чтобы открыть его в ArcGIS Pro. Если будет предложено, войдите под лицензированной учетной записью ArcGIS или учетной записью ArcGIS Enterprise.
Примечание:
Если у вас нет доступа к ArcGIS Pro или учетной записи организации ArcGIS, см. варианты доступа к программному обеспечению.
Проект содержит карту с точечными данными в Области залива Сан-Франциско. Эти данные собраны через социальную сеть на платформе Gowalla, которая активно использовалась в промежутке между 2007 и 2012 годами. Gowalla предлагает пользователям отмечать посещенные местоположения. Каждая точка соответствует местоположению, в котором пользователь Gowalla поставил метку.
Глядя на карту, ответьте на следующие вопросы:
- Видите ли вы участки, в которых отметок больше, чем в других?
- Можете ли вы определить популярные местоположения по этим отметкам?
- Данные образуют плотные кластеры. Как много информации вы можете получить, просто посмотрев на карту?
Далее вы будете изучать атрибуты данных.
- В панели Содержание щёлкните правой кнопкой слой Bay Area Gowalla Check-ins и выберите Таблица атрибутов.
Появится таблица.
Поля User ID и Location ID содержат уникальные идентификаторы пользователей и местоположений. Так как у вас нет ключа к расшифровке этих ID, то эти поля нельзя использовать для выявления популярности. Поля Check-in Latitude и Check-in Longitude содержат пространственную информацию о данных, а поле Check-in Time, соответственно, содержит временную информацию.
- Закройте таблицу.
Изменение системы координат
Когда вы анализируете пространственные взаимоотношения между объектами, очень важно убедиться, что вы используете систему координат, которая соответствует вашим данным. Система координат проекции – это математический метод пересчёта трехмерной земной поверхности на плоскую двухмерную карту. Так как идеального преобразования пока не существует, все системы координат проекции имеют определенные искажения. Эти искажения влияют не только на внешний вид объектов на карте, но также могут искажать результаты пространственного анализа.
Чтобы минимизировать искажения и гарантировать соответствующий уровень точности результатов, вы проецируете данные в систему координат проекции, специально разработанную для области Сан-Франциско. В этой системе координат искажения в районе Сан-Франциско минимальны, но они существенно возрастают в других областях. Так как вас не интересуют области за пределами Сан-Франциско, эта система координат подходит для вашей карты и данных.
- Щелкните вкладку Анализ на ленте. В группе Геообработка щелкните Инструменты.
Откроется панель Геообработка.
- На панели Геообработка введите в окне поиска Проецировать. В списке результатов щелкните инструмент Проецировать, чтобы открыть его.
- На панели инструмента Проецировать для параметра Входной набор данных или класс объектов выберите Bay Area Gowalla Check-ins. В поле Выходной набор данных или класс объектов введите Check_ins_Projected.
- В параметре Выходная система координат щелкните кнопку Выбрать систему координат.
- В окне Система координат в строке поиска наберите San Francisco и нажмите Enter.
- Разверните Системы координат проекции и Системы округов. Выберите NAD 1983 (2011) San Francisco CS13 (US Feet).
- Нажмите OK. На панели Геообработка щелкните Запустить.
Выходной слой с именем Bay Area Gowalla Check-ins добавлен на карту.
- В панели Содержание щёлкните правой кнопкой слой Bay Area Gowalla Check-ins (исходный) и выберите Удалить.
Теперь слой удален. Хотя вы добавили на карту спроецированный слой, внешний вид карты не изменился. Карта все еще использует исходную систему координат проекции, подобранную для всей территории США (видно, что область Калифорнии на границе области отображения несколько искажена). Вы также обновите проекцию карты.
- На панели Содержание дважды щелкните Map.
Откроется окно Свойства карты.
- В окне Свойства карты щелкните вкладку Системы координат. Выполните поиск для San Francisco. Разверните Системы округов и выберите систему координат NAD 1983 (2011) San Francisco CS13 (US Feet).
- Нажмите OK.
Внешний вид карты изменится, теперь она в выбранной системе координат проекции.
Агрегация отметок
Определить, какая область наиболее популярна, при визуальном анализе карты довольно трудно, так как почти все популярные местоположения в Области залива Сан-Франциско покрыты точками отметок. Чтобы получить более структурированную информацию, вы посчитаете число отметок в каждой области. Вы создадите сетку шестиугольных бинов, покрывающую Область залива Сан-Франциско и используете эту сетку для агрегации отметок. Далее вы присвоите символы слою, чтобы определить, какие области содержат максимальное число отметок.
- На панели Геообработка щелкните кнопку Назад.
- Найдите и откройте инструмент Создать замощение.
Инструмент создает регулярную сетку полигональных объектов, например, шестиугольников, квадратов или треугольников, покрывающую указанный экстент.
- В поле Выходной класс объектов введите Hexagon_Tessellation. Для Экстента укажите Bay Area Gowalla Check-ins.
- Для Размера введите 12 и укажите Квадратные сухопутные мили. Для Пространственной привязки, убедитесь, что выбрано NAD_1983_2011_San_Francisco_CS13_ftUS.
- Щелкните Запустить.
Инструмент запустится, и на карту добавится полигональный слой сетки шестиугольников. (Символы назначаются по умолчанию случайным образом и могут отличаться от картинок в примере.)
Далее вы посчитаете количество отметок в каждом шестиугольном бине. Вас не интересуют области, где отметки отсутствуют, или где вообще нет данных, поэтому сначала вы выберите бины, содержащие хотя бы одну отметку.
Если инструмент геообработки запускается для слоя, в котором присутствует активная выборка, например полигоны сетки, в инструменте будут использованы для обработки только выбранные объекты. Не выбранные объекты не используются в анализе.
- На ленте щелкните вкладку Карта. В группе Выборка щелкните Выбрать по расположению.
Появится окно Выбрать в слое по расположению.
- В окне Выбрать в слое по расположению введите следующие параметры:
- Для Входных объектов подтвердите, что выбран Hexagon_Tessellation.
- Для Отношения, убедитесь, что выбрано Пересечение.
- Для Вспомогательных объектов выборки укажите Bay Area Gowalla Check-ins.
- Нажмите OK. На панели Содержание отключите слой Bay Area Gowalla Check-ins.
Выбраны только те полигоны сетки, которые содержат хотя бы одну отметку.
Далее вы присоедините объекты отметок к выбранным шестиугольникам. В процессе соединения к слою шестиугольников будет добавлено атрибутивное поле, содержащие количество отметок в каждом шестиугольнике.
- На панели Геообработка щелкните кнопку Назад. Найдите и откройте инструмент Пространственное соединение.
- На панели инструмента Пространственное соединение введите следующие параметры:
- Для Целевых объектов выберите Hexagon_Tessellation.
- Для параметра Присоединить объекты укажите Bay Area Gowalla Check-ins.
- В поле Выходной класс объектов введите Check_in_Counts.
- Щелкните Запустить.
Инструмент запустится, и новый слой, содержащий только выбранные бины, добавится на карту. Поле с количеством отметок в каждом бине можно увидеть в таблице атрибутов нового слоя. Чтобы визуализировать количества, вы измените символы слоя.
- На панели Содержание щелкните правой кнопкой слой Hexagon_Tessellation и выберите Удалить. Отключите слой Bay Area Gowalla Check-ins.
- Щелкните правой кнопкой слой Check_in_Counts и выберите Символы.
Появится панель Символы.
- На панели Символы в разделе Основные символы выберите Градуированные цвета.
- Для Классов выберите 10. Для Цветовой схемы выберите Голубой - фиолетовый.
Символы применятся к карте.
На карте шестиугольники розового цвета соответствуют бинам с большим количеством отметок, а голубые – с меньшим. Бины с большим числом отметок сгруппированы вокруг Сан-Франциско и Сан-Хосе, двух самых крупных мегаполисов в области.
- Закройте панель Символы. На панели инструментов быстрого доступа нажмите кнопку Сохранить.
Примечание:
Может появиться сообщение, предупреждающее вас о том, что сохранение этого файла проекта в текущей версии ArcGIS Pro не позволит вам снова открыть его в более ранней версии. Если вы видите это сообщение, нажмите Да, чтобы продолжить.
Степень значимости агрегированных участков
В слое агрегированных отметок можно проследить некоторые закономерности. Но важно понимать, насколько эти закономерности статистически значимы, или же они являются результатом случайного разброса? Чтобы это выявить, вы количественно оцените статистическую значимость закономерностей в слое агрегированных отметок. Вы вычислите статистику Глобальный индекс Морана (I), чтобы определить, какой тип распределения доминирует – кластеризация, равномерное расположение или случайное распределение.
Глобальный индекс Морана (I) количественно выражает наличие пространственной закономерности с учетом значений атрибута. Так как ваши исходные данные отметок не имели атрибутов, которые можно было бы использовать в расчете плотности кластеризации, вы агрегировали точки отметок перед запуском расчета статистики. В слое шестиугольников присутствует поле Join_Count которое можно использовать в расчете глобального индекса Морана (I).
Примечание:
Для более подробной информации о том, как работает расчет пространственной автокорреляции, см. Как работает инструмент Пространственная автокорреляция (Глобальный индекс Морана I).
- На панели Геообработка щелкните кнопку Назад. Найдите и откройте инструмент Пространственная автокорреляция (Глобальный индекс Морана I).
- В инструменте Пространственная автокорреляция (Глобальный индекс Морана I) для Входного класса объектов выберите Check_in_Counts и для Входного поля выберите Join_Count.
- Отметьте опцию Отображение результатов графически.
- Щелкните Запустить.
Инструмент запустится, но никакого слоя на карту не добавляется. Вместо этого инструмент генерирует отчет. Путь к файлу отчета можно найти в сообщениях инструмента.
- В нижней части панели Геообработка щелкните Просмотреть подробности.
Появится окно инструмента Пространственная автокорреляция (Глобальный индекс Морана I). В окне приведено время выполнения инструмента, используемые параметры и сообщения с предупреждениями.
- В окне Пространственная автокорреляция (Глобальный индекс Морана I) щелкните вкладку Параметры. Для Файла отчета щелкните путь к файлу отчета.
Файл отчета откроется в новой вкладке браузера.
В отчете указано значение индекса Морана, z-оценка и p-значение. Для определения статистической значимости нас больше всего интересует z-оценка.
Величина z-оценки указывает число средне-квадратичных изменений, на которых значение индекса отклоняется от среднего. Положительная z-оценка говорит о значениях выше среднего, в то время, как отрицательная z-оценка – соответственно ниже среднего. В нашем случае это значение измеряет выраженность пространственной автокорреляции, присутствующей между объектами в вашем наборе данных.
Для ваших данных z-оценка превышает значение 7, что говорит о сильной выраженности пространственной автокорреляции по сравнению с случайным распределением данных. В отчете также представлена диаграмма, с точкой вычисленной z-оценки с сильным смещением вправо от колокола кривой нормального распределения. Диаграмма подтверждает наличие статистически значимой кластеризации в распределении ваших данных (иначе говоря, объекты со схожими значениями расположены близко друг другу).
- Закройте отчет. В ArcGIS Pro закройте окно инструмента Пространственная автокорреляция (Глобальный индекс Морана I).
Выявление пространственных кластеров
Выполнив агрегацию данных и определив статистическую значимость, вы можете утверждать, что данные отметок в социальной сети распределены не случайно, а демонстрируют выраженную кластеризацию. Далее вы выполните пространственный кластерный анализ для определения областей с высоким уровнем популярности.
- На панели Геообработка щелкните кнопку Назад. Найдите и откройте инструмент Кластеризация на основе плотности.
В этот инструмент входят три метода расчета пространственной кластеризации, и в каждом методе по разному рассчитывается определение плотности. Вы запустите инструмент три раза, по одному с каждым методом, чтобы оценить преимущества и недостатки каждого из методов.
Сначала вы используете метод задания расстояния, также называемый DBSCAN, наиболее простой в инструменте расчета кластеризации на основе плотности. В этом методе плотность определяется наличием заданного числа точек в пределах указанного расстояния. В каждой точке инструмент определяет, удовлетворяет ли точка условию наличия вокруг минимального числа объектов в пределах заданного расстояния поиска. Если точка удовлетворяет этому условию, она признается точкой кластера. Чтобы запустить инструмент, вы должны задать минимальное число объектов. Вы также должны указать расстояние поиска, но если вы не указываете его, инструмент подберет оптимальное значение по умолчанию.
Минимальное число объектов на кластер зависит от ваших данных и от проблемы, которую вы решаете. Вы хотите идентифицировать популярные местоположения в Области залива. Вы не можете точно знать, какое число отметок будет указывать на популярность местоположения, но вы можете задать это число на основании потребностей вашего бизнеса. Например, вы хотите открыть ночной клуб в Области залива, и планируете получать доход, исходя из того, что клуб будут посещать не менее 500 человек в день. В таком случае вы должны указать минимальное число объектов на кластер – 500. Расстояние поиска в таком случае, может составлять 0.1 мили, что соответствует городскому кварталу.
- В инструменте Кластеризация на основе плотности введите следующие параметры:
- Для параметра Входные точечные объекты укажите Bay Area Gowalla Check-ins.
- Для Выходных объектов наберите DBSCAN_500.
- Для Метода кластеризации выберите Заданное расстояние (DBSCAN).
- Для Минимального числа объектов на кластер введите 500.
- Для Расстояния поиска введите 0.1 и выберите Геодезические мили США.
- Щелкните Запустить.
Инструмент запустится, и результирующий слой добавится на карту.
- На панели Содержание выключите слой Check_in_Counts.
На карте точками разного цвета показаны участки, где отметки сгруппированы в кластеры по плотности. Точки серого цвета визуализируют шум, или местоположения, не соответствующие указанным критериям плотности.
Значения символов можно понять по легенде слоя:
Кластеризация на основе плотности может идентифицировать несколько сотен кластеров в наборе данных. Чтобы не отображать каждый кластер уникальным цветом, в символах использованы 8 цветов. Результаты отображаются таким образом, чтобы кластеры, обозначенные одинаковым цветами не располагались близко друг к другу, что позволяет четче оценить на карте различия между кластерами. Цвета не связаны с каким-либо атрибутом в данных.
На карте кластеры преимущественно локализованы в Сан-Франциско и в области Южного залива, также немногочисленные кластеры присутствуют в других областях. Вы измените базовую карту и приблизитесь, чтобы лучше изучить локализацию.
- На ленте, На вкладке Карта в группе Слой щелкните Базовая карта и выберите Снимки Гибрид.
- Приблизьтесь к Сан-Франциско.
В области Сан-Франциско локализованы несколько кластеров, включая относительно большой кластер голубого цвета на северо-востоке. Этот кластер соответствует деловому центру Сан-Франциско.
- Перемещайтесь на северо-восток, вдоль залива, пока вы не увидите название Berkeley.
Беркли содержит единичный кластер, расположенный в центре города.
- Перемещайтесь на юг, вдоль залива, пока вы не увидите название Palo Alto.
Район Пало Альто и территории вокруг него содержат несколько кластеров. Торговый центр Стенфорд (оранжевый) и деловой центр Пало Альто (розовый) - идентифицированы как кластеры.
- Перемещайтесь на юго-восток, пока не увидите название San Jose.
Сан-Хосе - один из наиболее известных городов в Области залива, он популярен даже больше, чем собственно Сан-Франциско. Тем не менее, он содержит меньше кластеров, чем Сан-Франциско.
- В панели Содержание щёлкните правой кнопкой слой Bay Area Gowalla Check-ins и выберите Приблизить к слою.
Экстент карты возвращается, чтобы показать всю область залива.
В общем, за пределами Сан-Франциско относительно немного кластеров. Одно из ограничений метода DBSCAN - возможность использования фиксированного расстояния для определения плотности. (При запуске инструмента вы установили расстояние в 0.1 мили). Выбор расстояния оказывает существенное влияние на результаты. Небольшое расстояние может подходить для таких областей, как деловой центр Сан-Франциско, где магазины и другие точки интереса расположены близко друг от друга, но такие значения расстояния не подходят для пригородов и сельских районов, где торговые центры разнесены на значительное расстояние.
В вашей области интереса присутствуют города, пригороды и сельские районы, поэтому использование фиксированного расстояния вам не очень подходит. Далее вы выполните кластеризацию на основе плотности, с использованием метода автонастройки, также называемого HDBSCAN.
HDBSCAN определяет кластеры с использованием нескольких расстояний поиска, что можно сравнить с запуском инструмента по методу DBSCAN несколько раз. Для каждого расстояния поиска выявляется несколько кластеров в разных местоположениях. Затем DBSCAN пытается объединить эти кластеры для получения кластеров большего размера со схожим уровнем плотности точек. Результирующие кластеры не определяются единым расстоянием поиска.
- На панели инструмента Кластеризация на основе плотности для Выходных объектов введите HDBSCAN_500. Для Метода кластеризации выберите Автонастройка (HDBSCAN).
Для инструмента больше не требуется расстояние поиска.
- Щелкните Запустить. После завершения работы инструмента (это может занять до 10 минут), отключите слой DBSCAN_500.
По сравнению с методом DBSCAN, метод HDBSCAN вывил больше кластеров. Кластеры идентифицированы по всей Области залива, включая сельские районы, и некоторые из этих кластеров достаточно большие и покрывают города целиком, в частности кластеры в Санта Роза или Вальехо. Хотя по этим результатам можно выявить больше популярных местоположений в Области залива, по ним трудно определить подходящее место для нового бизнеса.
Далее вы используете третий метод выявления пространственной кластеризации, мультимасшатбный (также называемый OPTICS).
Метод OPTICS фиксирует расстояние между первым объектом в наборе данных (Первый ID, равный 0), и его ближайшим соседом. Это расстояние называется расстоянием доступности. Затем метод фиксирует расстояние между ближайшим соседом и его ближайшим соседом. Это процесс последовательно повторяется, до тех пор, пока не будет обработан весь набор данных. Ближайшие соседи повторно не анализируются; если ближайший сосед одного объекта уже был признан ближайшим соседом предыдущего объекта, будет использован следующий ближайший сосед.
Затем метод OPTICS наносит все расстояния доступности на диаграмму и исследует пики и впадины на ней. Впадина, или группа объектов с относительно небольшим значением расстояния доступности, будет считаться кластером близко расположенных точек. После того, как все точки кластера будут нанесены на диаграмму, следующая точка, которая не принадлежит кластеру, и имеет относительно большое расстояние доступности, будет соответствовать пику диаграммы.
На рисунке вы видите пример диаграммы расстояний доступности и соответствующих кластеров точек:
В этом примере все голубые точки расположены близко друг к другу, то есть расстояние доступности для них небольшое. (Красными линиями показано расстояние доступности от точки к точке). На диаграмме эти точки соответствуют голубой впадине. Затем можно увидеть относительно большое расстояние доступности между последней точкой голубого цвета и следующей уникальной точкой ближайшего соседа, что соответствует резкому росту значения расстояния на диаграмме.
На диаграмме видна впадина зеленого цвета с пиком посередине, относительно небольшим, по сравнению с двумя большими пиками с обеих сторон. В зависимости от чувствительности алгоритма OPTICS при выявлении кластеризации, этот небольшой пик может делить впадину на две части, или считаться частью впадины.
- В панели Геообработка для Выходных объектов введите OPTICS_500. Для Метода кластеризации выберите Мультимасштабный (OPTICS).
Для этого метода необходимо указать расстояние поиска. По умолчанию будет использовано расстояние, которое вы указывали раньше - 0.1 мили. У метода также есть дополнительный параметр, Кластерная чувствительность. Вы узнаете об этом параметре позже. Пока оставьте его пустым.
- Щелкните Запустить. После завершения работы инструмента отключите слой HDBSCAN_500.
Подсказка:
Вы добавили на карту несколько слоев, возможно стоит свернут ь их легенды, чтобы их было проще найти в панели Содержание. Чтобы свернуть легенду, щелкните стрелку рядом со именем слоя .
Результат использования этого метода кластеризации схож с результатом метода DBSCAN. Метод OPTICS схож с методом DBSCAN, но в методе OPTICS учитываются кластеры разной плотности, на основании относительных пиков и впадин, вместо абсолютного расстояния.
Метод определяет пики и впадины исходя из чувствительности кластеризации. Вы не указывали чувствительность кластеризации, поэтому инструмент использовал значение чувствительности, рассчитанное на основе статистического распределения данных. Чтобы узнать значение чувствительности, можно просмотреть и информацию о выполнении инструмента.
- В нижней части панели Геообработка щелкните Просмотреть подробности.
Появится окно Кластеризация на основе плотности с информацией об используемом значении чувствительности кластера.
В инструменте была использована кластерная чувствительность 28. (Указанное значение должно быть целым числом от 0 до 100). Вы запустите инструмент еще раз, изменив значение кластерной чувствительности и посмотрите, как это повлияет на результат.
- Закройте окно Кластеризация на основе плотности. На панели инструмента Кластеризация на основе плотности измените Выходные объекты на OPTICS_500_Sensitivity_0 и для Чувствительности кластера введите 0.
- Щелкните Запустить. После завершения работы инструмента отключите слой OPTICS_500 и приблизьтесь к области Сан Франциско.
Подсказка:
Чтобы лучше просмотреть результирующие кластеры, на панели Содержание снимите отметку Hybrid Reference Layer.
При такой чувствительности кластеры относительно большие.
- На панели инструмента Кластеризация на основе плотности измените Выходные объекты на OPTICS_500_Sensitivity_100 и измените Чувствительность кластера на 100. Щелкните Запустить.
- После завершения работы инструмента отключите слой OPTICS_500_Sensitivity_0.
Слой OPTICS_500_Sensitivity_0 с более высокой чувствительностью привел к более мелким и компактным кластерам.
Для вашей задачи поиска популярного местоположения для открытия нового бизнеса предпочтительнее использовать более высокую кластерную чувствительность. Хотя низкая чувствительность может помочь вам очертить более широкие области популярности, более высокая чувствительность указывает на места, где выявлено большое количество отметок - другими словами, где люди действительно собираются.
- Отключите слой OPTICS_500_Sensitivity_100, включите слой Bay Area Gowalla Check-ins и приблизьтесь к полному экстенту данных. Измените базовую карту обратно на Топографическую.
- Сохраните проект.
Вы проанализировали распределение данных в пространстве. Используя агрегацию и пространственную кластеризацию, вы определили местоположения с наиболее высокой плотностью отметок в социальной сети, и изучили несколько возможностей настройки параметров анализа в зависимости от конкретных требований.
В ваших данных присутствует еще один компонент, который вы пока не анализировали: время. Далее вы будете анализировать распределение данных во времени для выявления наиболее популярных местоположений в Области залива.
Временной анализ данных
В ваших данных присутствует как временной, так и пространственный компонент. Анализ пространственных закономерностей очень важен, но может не дать полного представления. Популярные местоположения могут меняться со временем, особенно в плотных городских кварталах, где регулярно открываются и закрываются новые торговые точки. С точки зрения перспективы развития, лучше открывать бизнес в месте, которое набирает популярность, а не там, где популярность снижается.
Конвертация поля времени
Поле Check-in Time содержит дату и время сделанной отметки в соц. сети. К сожалению, поле содержит объединенную текстовую строку, которую ArcGIS Pro не может автоматически распознать, как метку времени. Чтобы использовать это поле в анализе времени, вы конвертируете его в распознаваемый формат поля даты.
- Если требуется, откройте проект Bay Area Popular Places в ArcGIS Pro.
- В панели Геообработка найдите и откройте инструмент Конвертировать поле времени.
Инструмент преобразует значения даты и времени из текстовой строки в поле даты.
- На панели инструмента Конвертировать поле времени для Входной таблицы выберите Bay Area Gowalla Check-ins. Для Входного поля времени выберите Check-in Time.
Далее, вы должны указать формат входного поля времени (формат, используемый в настоящий момент). В записи используются буквенные обозначения, представляющие разные единицы времени, например, y для года и H для часа. В таблице время записано как строка в формате yyyy-MM-ddTHH:mm:ssZ, где T и Z – константы, не имеющие отношения ко времени.
- Для Формата входного времени введите yyyy-MM-ddTHH:mm:ssZ.
Подсказка:
Для установки значения в параметр вы можете либо впечатать значение в строку или щелкнуть кнопку Задать формат и выбрать из списка форматов. Формат, используемый в вашем поле Check-in Time отсутствует в списке форматов, поэтому, здесь вам необходимо указать формат вручную.
Остальные параметры оставьте по умолчанию.
- Щелкните Запустить.
Инструмент запустится.
- В панели Содержание щёлкните правой кнопкой слой Bay Area Gowalla Check-ins и выберите Таблица атрибутов.
В конец таблицы добавлено поле Check_in_Time_Converted с конвертированными значениями времени отметок.
- Закройте таблицу.
Построение диаграммы временных данных
Теперь ваш класс объектов содержит время и даты, которые ArcGIS Pro может обработать и проанализировать. Далее вы построите диаграмму хронометража. Диаграмма хронометража – тип диаграммы для суммирования временных данных. Вы используете эту диаграмму для поиска закономерностей по времени отметок.
- В панели Содержание щелкните правой кнопкой Bay Area Gowalla Check-ins выберите Построить диаграмму, а затем Диаграмма хронометража данных.
Откроется вид Bay Area Gowalla Check-ins - Диаграмма хронометража данных 1 и панель Свойства диаграммы. Для создания диаграммы необходимо указать параметры на панели. Вы построите диаграмму, визуализирующую общее число отметок по годам и месяцам.
- В панели Свойства диаграммы, в строке Дата выберите Check_in_Time_Converted. Подтвердите, что в строке Кольца указаны Годы, Сектора установлены на Месяцы и Агрегирование установлено на Количество.
Создана диаграмма хронометража.
В диаграмме хронометража каждая концентрическая окружность (кольцо) представляет год, а каждый сегмент окружности (сектор) представляет месяц. Цвет каждого сектора представляет общее число отметок, сделанных в течении месяца, темно-синим цветом представлено большее число отметок. Серый цвет секторов означает отсутствие данных.
Ваша диаграмма хронометража содержит два кольца: 2009 и 2010 года. Данные отметок начали собирать в марте 2009 года, и закончили в октябре 2010 года. До конца 2009 года количество отметок было невелико, так как сервис Gowalla развивался, и число пользователей возрастало постепенно. Максимальное число отметок зарегистрировано в марте, апреле, августе и сентябре 2010 года.
- В панели Свойства диаграммы, в строке Кольца выберите Недели. Для Секторов выберите Дни недели.
Диаграмма хронометража обновится автоматически.
Диаграмма хронометража содержит значительно больше колец, но только 7 секторов в каждом кольце, соответствующим каждому дню недели. На этой диаграмме видно, что выходные дни (суббота и воскресенье) характеризуются максимальным числом отметок. Эта закономерность подтверждает, что большинство людей не работают по выходным, и в свободное время посещают различные интересные места.
В зависимости от типа планируемого бизнеса, вам может быть интересно также время суток, в которое фиксировались отметки. Анализ часов при агрегировании по годам может быть затруднителен, поэтому вы создадите класс объектов с поднабором данных, и проанализируете диаграмму для него.
- В панели Свойства диаграммы измените Кольца на Года и Сектора на Месяцы. На диаграмме хронометража, удерживая Ctrl, щелкните на секторах августа и сентября 2010 года, чтобы выбрать их.
Подсказка:
Или вы можете очертить прямоугольник вокруг этих секторов.
Все отметки, соответствующие выбранным датам, на карте также выбраны.
В ArcGIS Pro любой инструмент геообработки, запускаемый для набора данных, будет обрабатывать только выбранные объекты, если выборка присутствует в слое. Вы скопируете выбранные объекты в новый слой.
- На панели Геообработка щелкните кнопку Назад. Найдите и откройте инструмент Копировать объекты.
- На панели инструмента Копировать объекты для Входных объектов выберите Bay Area Gowalla Check-ins. Для Выходного класса объектов введите Check_ins_Aug_Sep_2010.
- Щелкните Запустить.
Класс скопированных объектов будет добавлен на карту.
- В панели Содержание щелкните правой кнопкой Check_ins_Aug_Sep_2010, выберите Построить диаграмму, и затем Диаграмма хронометража данных.
Будет построена новая диаграмма хронометража.
- В панели Свойства диаграммы, в строке Дата выберите Check_in_Time_Converted. В строке Кольца выберите Дни и в строке Сектора выберите Часы.
Диаграмма хронометража автоматически обновится и отобразит 24 сектора по одному на каждый час в сутках.
Совсем немного отметок присутствует в начале рабочего дня, причем в промежутке между 6 и 14 часами. Максимальное число отметок регистрируется между 19 и 21 часами и между 1 и 2 часами ночи. Эти закономерности могут указывать на высокий приток посетителей в рестораны по окончании рабочего дня, и в ночные клубы поздно вечером.
- Закройте диаграмму хронометража Количество Check_in_Time_Converted by Hours over Days. В панели Содержание щелкните правой кнопкой слой Check_ins_Aug_Sep_2010 и выберите Удалить.
Далее вы будете анализировать данные в промежутке между декабрем 2009 года и сентябрем 2010, в эти 10 месяцев зафиксировано максимальное число отметок. Использование этого поднабора в анализе позволит удалить отметки в тот период времени, когда эта социальная сеть только развивалась. Если использовать весь набор данных, это может привести к искажению результата.
- В диаграмме хронометража Количество Check_in_Time_Converted by Months over Years, удерживая Ctrl выберите месяцы с декабря 2009 по сентябрь 2010 года.
- Закройте диаграмму хронометража данных. Сохраните проект.
Анализ закономерностей с использованием куба пространство-время
Диаграммы, которую вы построили, помогла вам понять закономерности в количестве отметок в изучаемом наборе данных. Но вы хотите изучить одновременно как пространственные, так и временные закономерности. Какие области окрестности имеют максимальное число отметок? Становятся ли какие-то области больше или меньше посещаемыми с течением времени? Ответы на эти вопросы помогут вам сделать правильный выбор при поиске местоположения для нового бизнеса.
Для анализа пространственных и временных закономерностей совместно, вам необходимо построить пространственно-временную структуру (структуру данных, учитывающую как пространственный, так и временной компонент). В этой структуре будут просуммированы точки отметок в определенной области и в определенные временные промежутки.
Вы будете использовать инструмент Создать куб Пространство-Время для определения пространственно-временной структуры ваших данных. Результирующий набор данных можно представить себе в виде куба, с тремя измерениями: два измерения для площади (x и y), и трете измерение – время (t).
- На панели Геообработка щелкните кнопку Назад. Найдите инструмент Создать куб Пространство-Время.
В результатах поиска будет три варианта инструмента Создать куб Пространство-Время.
Выбираемый инструмент определяется вашими данными. Ваши данные отметок представлены множеством точек, распределенных в пространстве, поэтому вы выберете куб по агрегации точек. Если ваши данные связаны со станциями мониторинга или другими местоположениями с точными координатами (например камеры наблюдения или пункты приема платежей), вы можете создавать куб из указанных местоположений. Если ваши данные находятся в формате многомерного растрового слоя, вы будете использовать соответствующий инструмент.
- Щелкните Создать куб Пространство-Время по агрегации точек.
- Для Входных объектов выберите Bay Area Gowalla Check-ins. Для Выходного куба наберите Check_ins_STC.
После указания имени, расширение .nc добавится автоматически. Оно соответствует формату netCDF, этот тип файла используется для кубов пространство-время.
- Для Поле времени выберите Check_in_Time_Converted.
Далее вы укажете временной интервал для агрегации точек или временной шаг. Интервал временного шага должен соответствовать временному масштабу вашего анализа. Если вас интересует выявление пролонгированных временных закономерностей в изменении популярности, часы или дни вам вряд ли подойдут. Вы будете использовать месячный интервал. (Если вы планируете открыть бизнес, активность которого зависит от времени суток, например, кофейня, возможно разбивка времени на часы вам лучше подойдет, так как даст возможность понять, какие местоположения наиболее посещаются в интересующее вас время суток.)
- В качестве значения Интервал шага времени введите 1 и выберите Месяцы.
Вы также выберете геометрическую форму для пространственной агрегации. Вы будете использовать шестиугольники, так как у полигонов шестиугольной формы максимальное число соседей в ближайшей окрестности (6) из доступных форм. Кроме того, пре использовании гексагональной сетки, все соседние полигоны находятся на одинаковом расстоянии. Позже вы будете определять пространственно-временные окрестности по расстоянию, так что шестиугольники будут иметь преимущество перед регулярной (квадратной) сеткой, при использовании которой часть соседей находятся дальше других.
Вы будете использовать шестиугольники шириной в 1 милю.
- Для Тип геометрии для агрегации выберите Гексагональная сетка. Для Интервала расстояния введите 1 и выберите Геодезические мили США.
- Щелкните Запустить.
Инструмент запустится и создаст файл куба пространство-время. Никаких результатов не добавлено на карту. Для визуализации куба пространство-время необходимо запустить еще один инструмент.
- Щелкните кнопку Назад. Найдите и откройте инструмент Визуализировать куб Пространство-Время в 2D.
Этот инструмент создает 2D-слой на основе файла .nc.
- В инструменте Визуализация куба Пространство-Время в 2D для Входной куб Пространство-Время щелкните кнопку Обзор.
- В окне Входной куб Пространство-Время откройте папку p20. Дважды щелкните Check_ins_STC.nc.
- Измените следующие параметры:
- Для Переменной куба выберите COUNT.
- Для Темы отображения выберите Тренды.
- Отметьте Включить всплывающие окна временных рядов.
- Для Выходных объектов наберите Check_ins_STC_2D.
Эти параметры позволят визуализировать на карте закономерности в колебаниях количества отметок по месяцам. Включив всплывающие окна временных рядов, вы можете просматривать временные ряды для каждого бина, для оценки изменения количества с течением времени.
- Щелкните Запустить.
Инструмент запустится, и слой добавится на карту.
- В панели Содержание отключите слой Bay Area Gowalla Check-ins. На карте увеличьте масштаб до Сан-Франциско и щелкните фиолетовый шестиугольник.
Всплывающее окно содержит диаграмму временных рядов, показывающую, как меняется количество отметок в этом месте с течением времени. Хотя в диаграмме присутствуют небольшие понижения, в целом тенденция говорит о стабильном росте числа отметок с течением времени в этом местоположении.
Числа по вертикальной оси на диаграмме временных рядов соответствуют количеству числу отметок. В шестиугольнике на рисунке число отметок в месяц увеличилось от 160 до 360.
- Щелкните шестиугольник зеленого цвета.
Зеленым цветом обозначены шестиугольники, в которых выявлен нисходящий тренд. Большинство из этих шестиугольников в общем имеет меньшее число отметок. В примере на рисунке показана область, в которой число отметок снижается с уровня свыше 900 до уровня ниже 600. Несмотря на нисходящий тренд, даже невысокий уровень отметок в этой области выше, чем максимальный уровень отметок в области, где выявлен восходящий тренд.
Шестиугольники белого цвета – области, в которых не выявлено ни восходящих, ни нисходящих трендов. Эти шестиугольники могут иметь содержать либо постоянное число отметок в месяц, либо числа с неустойчивой вариабельностью.
- Закройте всплывающее окно и вернитесь к полному экстенту данных.
Когда вы выполняли пространственный анализ данных, вы обнаружили, что деловой центр Сан-Франциско является самой посещаемой областью. Тем не менее, большая часть делового центра не показывает ни восходящих, ни нисходящих трендов в отметках посещения. С другой стороны, области в Сан-Хосе, в Восточном заливе, показывают рост популярности. Возможно, стоит рассмотреть эти области как места для открытия вашего бизнеса.
Далее вы выполните визуализацию куба пространство-время в 3D, что позволит четче увидеть изменения на карте. (Время выступает в качестве третьего изменения в кубе пространство-время). Сначала вы добавите новую сцену.
- На ленте, на вкладке Вставить в группе Проект щелкните ниспадающую стрелку Новая карта и выберите Новая локальная сцена.
Вид сцены добавляется в проект.
- На панели Геообработка щелкните кнопку Назад. Найдите и откройте инструмент Визуализировать куб Пространство-Время в 3D.
- Запустите инструмент Визуализация куба Пространство-Время в 3D со следующими параметрами:
- Для параметра Входной куб Пространство-Время перейдите к файлу Check_ins_STC.nc.
- Для Переменной куба выберите COUNT.
- Для Темы отображения выберите Значение.
- Для Выходных объектов наберите Check_ins_STC_3D.
- Щелкните Запустить.
Инструмент запустится, и результирующий слой добавится к сцену.
- Используйте функции масштабирования, перемещения и наклона, чтобы рассмотреть результат.
Подсказка:
Чтобы наклонить, нажмите V и перетащите карту. Чтобы панорамировать, нажмите C и перетащите карту.
Каждый шестиугольный бин здесь располагается на определенной высоте, определяемой числом вертикальных сегментов, где каждый сегмент соответствует определенному месяцу. Цвет каждого сегмента указывает число отметок в этой области, зафиксированных в течении месяца.
В отличие от визуализации в 2D, символы каждому сегменту присваиваются по общему числу отметок, без учета восходящих и нисходящих трендов. Как вы увидели по результатам пространственного анализа, в деловом центре Сан-Франциско отмечается наибольшее число отметок, хотя нельзя сказать, что этот район набирает популярность посещений. Большинство бинов в других местоположениях содержат значительно меньше отметок, и окрашены в белый цвет.
- Сохраните проект.
Выявление временных кластеров
Далее вы будете выявлять временные кластеры в отметках по кубу пространство-время. Временные кластеры похожи на пространственные, так как тоже идентифицируют местоположения, где объекты плотно сгруппированы. Отличаются они тем, что временная кластеризация идентифицирует группы на основании близости во времени, а не в пространстве.
- Над сценой щелкните вкладку Карта.
Вы возвращаетесь к виду Карты.
- На панели Геообработка щелкните кнопку Назад. Найдите и откройте инструмент Кластеризация временных рядов.
- В инструменте Кластеризация временных рядов для параметра Входной куб Пространство-Время перейдите к файлу Check_ins_STC.nc и выберите его. Для Переменной анализа выберите COUNT, а для Выходных объектов наберите Check_ins_Monthly_Time_Clusters.
Для кластеризации данных вы можете выбрать одну из трех характеристик интереса. Вы изучите эти характеристики позднее, а сейчас вы рассчитаете кластеризацию, чтобы схожие значения вдоль всего временного периода группировались вместе.
- Для Характеристики интереса выберите Значение.
Вы также можете указать число кластеров, которые рассчитает инструмент. Если не указывать это значение, инструмент вычислит по умолчанию, исходя из данных. Вы рассчитаете три кластера, соответственно, группы высокой, средней и низкой популярности.
- Введите 3 в качестве Числа классов. Отметьте Включить всплывающие окна временных рядов.
Вы также создадите выходную таблицу, чтобы потом построить диаграмму результатов.
- В параметре Выходная таблица для диаграмм введите Clustering_Tables.
- Щелкните Запустить. После завершения работы инструмента отключите слой Check_ins_STC_2D.
На карте появится слой кластеров.
Шестиугольные бины разделены на три группы: им присвоены символы голубого, красного и зеленого цветов. Чтобы понять, что обозначают эти кластеры, вы откроете диаграмму, которая создана в результате работы инструмента.
- В панели Содержание под строкой Автономные таблицы дважды щелкните Среднее число временных рядов на кластер. (Вам может потребоваться прокрутить вниз, чтобы увидеть.)
Откроется диаграмма.
Примечание:
Цвета, назначенные каждому бину, назначаются случайным образом, и ваши цвета могут отличаться от примеров изображений. Независимо от цвета, цифры одинаковы, и данные рассказывают одну и ту же историю.
На показанной выше диаграмме Среднее число временных рядов на кластер синие шестиугольники обозначают места, в которых исторически было мало отметок. (У всех них была хотя бы одна отметка, иначе они не были бы включены вообще.) Зеленые шестиугольники обозначают места с большим количеством отметок, однако, несмотря на то, что количество отметок велико, количество оно колеблется от месяца к месяцу. На карте был идентифицирован только один зеленый шестиугольник (в центре Сан-Франциско). Такие колебания могут объясняться сезонными особенностями, в частности, наплывом туристов в отпускной период. Красный кластер включает районы в центре, которые могут часто посещать местные жители, что приводит к относительно стабильной популярности в течение всего года.
- На карте приблизьтесь к центру Сан-Франциско и щелкните зеленый шестиугольник.
Примечание:
Цвет шестиугольника может отличаться на вашем экране. Щелкните шестиугольник, цвет которого отличается от других вокруг него.
Всплывающее окно показывает диаграмму временных рядов в этом местоположении. Пунктирная линия зеленого цвета показывает среднее число отметок в шестиугольниках зеленого кластера.
- Закройте всплывающее окно и диаграмму.
Вы идентифицировали кластеры местоположений со схожим количеством отметок по времени. Вы можете также идентифицировать кластеры областей, где наблюдаются схожие временные тренды. Например, есть две области, где наблюдаются схожие восходящие и нисходящие тренды по времени, связанные с сезонными колебаниями, вызванными наплывом туристов. Но одна из этих областей показывает значительно более высокий уровень отметок, чем другая. Если выполнять кластеризацию по значениями, эти области не попадут в один кластер. Но кластеризация по профилю сведет эти области в один кластер.
Кластеризация местоположений по профилю может быть интересна для компаний, деятельность которых учитывает сезонные наплывы посетителей. Кластеризация по профилю может выполняться одним из двух методов. Вы будете использовать метод кластеризации временных рядов Фурье. Метод Фурье идентифицирует области, где популярность меняется в течении года.
- В инструменте Кластеризация временных рядов для Выходных объектов введите Check_ins_Monthly_Time_Clusters_Fourier. Для Характеристики интереса выберите Профиль (Фурье).
Вы можете игнорировать некоторые характеристики временных рядов при запуске инструмента. Вы отметите для игнорирования характеристику Интервал (в этом случае, число отметок). То есть, вы будете идентифицировать местоположения со схожими трендами изменения популярности, независимо от абсолютного числа отметок. Вы также дадите инструменту возможность подобрать оптимальное число кластеров.
- В параметре Игнорируемые характеристики временных рядов отметьте Интервал. Введите 3 в качестве Числа классов.
- Отметьте Включить всплывающие окна временных рядов.
- В параметре Выходная таблица для диаграмм введите Clustering_Tables_Fourier.
- Щелкните Запустить. После завершения работы инструмента отключите слой Check_ins_Monthly_Time_Clusters.
На карте появится слой кластеров.
При использовании Профиля (Фурье) шестиугольников каждого цвета намного больше.
- В панели Содержание под строкой Автономные таблицы дважды щелкните Среднее число временных рядов на кластер.
На диаграмме красный цвет соответствует шестиугольникам с большим числом отметок, особенно весной. Голубой цвет соответствует шестиугольникам с меньшим числом отметок в течение года, а зеленый - областям, где число отметок растет. Кластеры всех типов встречаются на всей территории Залива, а не сосредоточены в конкретном районе, где зарегистрировано больше всего отметок (например, в деловом центре Сан-Франциско).
- Закройте диаграмму и сохраните проект.
Вы проанализировали временные тренды в данных и определили местоположения, в которых отмечается рост популярности, и местоположения с сезонными колебаниями уровня популярности. Чтобы полностью разобраться в ваших данных и принять информированное решение о том, где имеет смысл открыть новый бизнес, вам остается совсем немного.
Выполнение анализа
В рамках урока вы выполнили как пространственный, так и временной анализ данных. В зависимости от выбранного метода статистической обработки для выявления кластеров, результаты могут существенно различаться. Сейчас вы скомпилируете полученные результаты, чтобы принять взвешенное решение и подобрать оптимальное местоположение для бизнеса.
Выявление горячих точек в пространстве и во времени
Последний этап анализа – оценка закономерностей в данных одновременно в пространстве и во времени. Используя инструмент Анализ возникновения горячих точек (EHSA), вы классифицируете закономерности в вашем кубе пространства-времени по принадлежности к одной из 17 категорий.
В отличие от кластеризации временных рядов, Анализ возникновения горячих точек выявляет бин в кубе пространство-время, для которого соседние бины содержат отметок существенно выше (горячая точка) или существенно ниже (холодная точка), чем общее среднее значение. После того, как каждый бин обозначен как горячая, холодная или не значимая точка, Анализ возникновения горячих точек оценивает изменение z-оценки в каждом местоположении во времени для определения, является ли местоположение последовательной, возрастающей, убывающей или спорадической горячей или холодной точкой.
Окончательный результат учитывает как пространственную, так .и временную вариабельность в данных
- Если требуется, откройте проект Bay Area Popular Places в ArcGIS Pro.
- На панели Геообработка найдите и откройте инструмент Анализ возникновения горячих точек. Введите следующие параметры:
- Для параметра Входной куб Пространство-Время перейдите к файлу Check_ins_STC.nc.
- Для Переменная анализа выберите COUNT.
- Для Выходных объектов наберите Check_ins_Emerging_Hot_Spots.
- Для Расстояния окрестности введите 1 и выберите Мили.
В каждом местоположении инструмент будет оценивать каждый соседний бин в пределах расстояния в одну милю. Ранее вы создали куб пространство-время с гексагональной сеткой, который очень хорошо использовать для анализа в окрестности, так как расстояние до всех соседних бинов в шестиугольнике одинаково.
- Щелкните Запустить. После завершения работы инструмента отключите слой Check_ins_Monthly_Time_Clusters_Fourier.
Горячие точки локализованы в районе делового центра Сан-Франциско, а также в нескольких городах поменьше, южнее, в частности, Пало Альто, Маунтин Вью и Сан Хосе. Большинство горячих точек в деловом центре Сан-Франциско постоянные, то есть в течении всего времени в этих местоположениях регистрируются горячие точки. В других областях это либо новые горячие точки, то есть они появились только в последних сегментах временного ряда, или спорадические горячие точки, то есть горячие точки в этом местоположении появляются время от времени, но не постоянно.
Обратите внимание, что области, где были выявлены кластеры с высоким и средним уровнем количества отметок по кластеризации временных рядов, проявляются как последовательные горячие точки. Это доказывает, что в окрестностях этих областей число отметок превышает средний уровень для всей Области Залива для большей части временных шагов. Иначе говоря, эти области были популярнее остальных районов в Области залива в большинстве временных шагов куба пространство-время. В отличие от Сан-Франциско, в этих областях отмечается рост популярности с течением времени.
Вы также можете визуализировать результаты в 3D.
- В панели Содержание щелкните правой кнопкой слой Check_ins_Emerging_Hot_Spots и выберите Копировать. Над картой щелкните вкладку Сцена, чтобы вернуться к сцене.
- В панели Содержание щелкните правой кнопкой Сцена и выберите Вставить.
Слой горячих точек появляется в сцене.
После запуска Анализа возникновения горячих точек для куба пространство-время, вы можете визуализировать куб с результатами анализа.
- На панели Геообработка щелкните кнопку Назад. Найдите и откройте инструмент Визуализировать куб Пространство-Время в 3D, со следующими параметрами.
- Для параметра Входной куб Пространство-Время перейдите к файлу Check_ins_STC.nc.
- Для Переменной куба выберите COUNT.
- Для Темы отображения выберите Результаты анализа горячих и холодных точек.
- Для Выходных объектов наберите Check_ins_STC_Hot_Spots.
- Щелкните Запустить.
- Отключите слой Check_ins_STC_3D. Изучите сцену.
В областях, отмеченных как новые горячие точки, только самый последний месяц (самый верхний шестиугольник в столбце) зафиксирован как горячая точка. Спорадические горячие точки зафиксированы в областях, где время от времени регистрируются горячие точки, меняясь на отсутствие таковых. В области делового центра Сан-Франциско области зафиксированы как горячие точки в каждом месяце, что делает их постоянными горячими точками.
- Щелкните вкладку Карта, чтобы вернуться к виду Карты.
Когда вы запускали анализ возникновения горячих точек, вы указали расстояние окрестности в 1 милю. Изменение расстояния окрестности также повлияет на результаты.
- На панели Геообработка щелкните кнопку Назад. Найдите и запустите инструмент Анализ возникновения горячих точек со следующими параметрами:
- Для параметра Входной куб Пространство-Время перейдите к файлу Check_ins_STC.nc.
- Для Переменная анализа выберите COUNT.
- Для Выходных объектов наберите Check_ins_Emerging_Hot_Spots_5mi.
- Для Расстояния окрестности введите 5 и выберите Геодезические мили США.
- Щелкните Запустить. После завершения работы инструмента отключите слой Check_ins_Emerging_Hot_Spots.
Если используется окрестность большего размера – большие области становятся горячими точками.
Определение оптимального местоположения для бизнеса
Далее вы будете выбирать наиболее оптимальное местоположение для вашего бизнеса. Для этого вы обобщите данные про пространственной и временной кластеризации, а также результаты анализа возникновения горячих точек. В зависимости от требований, которые вы хотите удовлетворить для запуска бизнеса, результаты можно скомпилировать по-разному.
Сначала вы выберите области, где выявлена пространственная кластеризация отметок по плотности. Это указывает на большое число посещающих это место людей, что способствует успеху бизнеса. Вы провели анализ пространственной кластеризации, используя три разных метода: DBSCAN, HDBSCAN и OPTICS. По результатам вы можете сделать вывод, что HDBSCAN лучше всего подходит для вашей области изучения, так как он учитывает различия в популярности в городской агломерации Области залива, в пригородах и сельских районах.
- На ленте на вкладке Карта в группе Выборка нажмите Выбрать по атрибуту.
Когда вы выполняли кластерный анализ, в результирующий слой было включено поле Cluster ID. Если в этом поле присутствует значение -1 – это указывает, что объект не принадлежит к кластеру. Вы выберите все области, которые идентифицированы как кластеры.
- В окне Выбрать по атрибутам для Входных строк выберите HDBSCAN_500. В разделе Выражение создайте выражение Cluster ID не равно -1.
- Щелкните Применить. Отключите слой Check_ins_Emerging_Hot_Spots_5mi и включите слой HDBSCAN_500.
Выбраны все области, идентифицированные как кластеры.
Далее вы удалите условие, которое вы только что выполнили, и выберете местоположения, которые являются новой, последовательной или постоянной горячей точкой.
- В инструменте Выбрать по атрибуту щелкните Удалить условие.
- Для Входных строк выберите Check_ins_Emerging_Hot_Spots.
- Постройте выражение Где Pattern Type COUNT содержит значения Consecutive Hot Spot, New Hot Spot, Persistent Hot Spot.
- Щелкните Применить. Выключите слой HDBSCAN_500 и включите слой Check_ins_Emerging_Hot_Spots.
Горячие точки выбраны.
Далее вы выберите месячные кластеры, где идентифицируется восходящий трафик в течение определенного сезона. В зависимости от типа бизнеса, который вы планируете запустить, области с разным трафиком, связанным с определенным сезоном, могут очень заинтересовать вас. Для нашего упражнения вы выберите области, где трафик популярности возрастает летом.
- В инструменте Выбрать в слое по атрибуту удалите выражение. В качестве Входной таблицы выберите Check_ins_Monthly_Time_Clusters_Fourier.
В этом слое временной кластер, соответствующий высокому трафику в летний период, обозначен зеленым цветом, и его идентификатор равен 3.
- Постройте выражение Time-Series Cluster ID равно 3.
- Нажмите OK. Выключите слой Check_ins_Emerging_Hot_Spots и включите слой Check_ins_Monthly_Time_Clusters_Fourie.
Вы выбрали области на основании трех критериев. Далее вы создадите слой, который содержит шестиугольные бины, выбранные во всех трех слоях (то ест ь удовлетворяют трем критериям). Вы можете настроить критерии, добавить дополнительные, или удалить лишние, в зависимости от потребностей вашего бизнеса. Для этого упражнения трех критериев достаточно.
- На панели Геообработка щелкните кнопку Назад. Найдите и откройте инструмент Пересечение.
Примечание:
В зависимости от вашей версии ArcGIS Pro, вы можете получить сообщение о необходимости использовать инструмент Попарное пересечение для расширения функциональности. В этом случае вы не можете использовать этот инструмент, так как он требует максимум два входа, а у вас есть три.
- Для Входных объектов выберите HDBSCAN_500. В следующей строке выберите Check_ins_Emerging_Hot_Spots, а в следующей – Check_ins_Monthly_Time_Clusters_Fourier.
Примечание:
Чтобы выбрать больше двух входных слоев, вам необходима лицензия ArcGIS Pro Advanced.
Сообщения, появляющиеся ниже каждого входного объекта, указывают на то, что в этих слоях имеется активная выборка.
- В поле Выходной класс объектов введите Ideal_Locations. В параметре Атрибуты для присоединения выберите Только ID объектов.
- Щелкните Запустить. После завершения работы инструмента отключите слой Check_ins_Monthly_Time_Clusters_Fourier.
Идеальные местоположения можно найти в Сан-Франциско, Маунтин-Вью и Сан-Хосе.
- Приблизьтесь к различным точкам на карте.
Ваш анализ выявил некоторые районы в Сан-Франциско, которые идеально подходят для открытия бизнеса.
Хотя в Маунтин-Вью было идентифицировано много точек, все они сгруппированы вокруг одной области: центра города Маунтин-Вью. Вы хотите найти место не в Сан-Франциско (так как, возможно, стоимость аренды площади будет слишком высока), и эта область идеально подходит вам.
- Вернитесь к полному экстенту данных. Сохраните проект.
В рамках урока вы провели пространственно-временной научный анализ данных для идентификации популярных местоположений в Области залива, в пространстве и во времени. На основании результатов вы идентифицировали оптимальные участки для запуска своего бизнеса, а также изучили преимущества и ограничения различных методов пространственной и временной агрегации.
Вы можете найти больше учебных пособий в галерее учебных пособий.