对数据进行空间分析
您将检查签到数据并对其进行分析,以确定空间趋势。
打开工程
首先,您需要下载并打开一个包含签到数据地图的 ArcGIS Pro 工程包。 然后,您需要熟悉数据的各个属性。
- 下载 Bay Area Popular Places 工程包。
- 在计算机上找到所下载的 Bay_Area_Popular_Places 工程包,然后双击该包以在 ArcGIS Pro 中将其打开。 如果收到系统提示,请使用您获得许可的 ArcGIS 帐户或 ArcGIS Enterprise 帐户登录。
注:
如果您没有 ArcGIS Pro 的访问权限或者 ArcGIS 组织帐户,请参阅软件访问权限选项。
该工程中包含带有旧金山湾区内点数据的地图。 数据是通过 Gowalla 社交媒体平台采集的,该平台于 2007 年至 2012 年期间处于活动状态。 Gowalla 允许用户在他们访问过的位置签到。 每个点均代表 Gowalla 用户签到过的位置。
请根据地图回答以下问题:
- 是否有些地点的签到数要多于其他地点?
- 您如何使用这些签到数将某个区域定义为受欢迎区域?
- 该数据为高密度数据。 仅通过查看地图可以获得多少信息呢?
接下来,您将调查数据的属性。
- 在内容窗格中,右键单击 Bay Area Gowalla Check-ins 图层并选择属性表。
随即显示该表。
User ID 和 Location ID 字段中包含用户和位置的唯一 ID。 您无权访问这些 ID 的密钥,因此这些字段对确定受欢迎程度没有帮助。 Check-in Latitude 和 Check-in Longitude 字段可提供数据的空间信息,而 Check-in Time 字段可提供数据的时间信息。
- 关闭表。
更改坐标系
在分析要素之间的空间关系时,重要的是要确保您所使用的是适合数据的坐标系。 投影坐标系是一种可将三维世界转换为二维地图的数学处理方式。 目前并没有完美的方法来实现此项转换,因此所有投影坐标系都包含某种形式的变形。 这种变形不仅会影响地图的外观,而且会更改空间分析的结果。
为了减少变形并确保结果达到最高精度,您需要将数据投影到以旧金山地区为中心的投影坐标系中。 该坐标系能够最大程度减少旧金山附近地区的变形,但代价是会增加其他区域的变形。 您并不关注旧金山以外的区域,因此该坐标系适用于您的地图和数据。
- 在功能区上,单击分析选项卡。 在地理处理组中,单击工具。
将出现地理处理窗格。
- 在地理处理窗格的搜索栏中,输入 Project。 在结果列表中,单击工程工具将其打开。
- 在工程工具窗格中,对于输入数据集或要素类,请选择 Bay Area Gowalla Check-ins。 对于输出数据集或要素类,输入 Check_ins_Projected。
- 对于输出坐标系,请单击选择坐标系按钮。
- 在坐标系窗口的搜索框中,输入 San Francisco 并按 Enter 键。
- 展开投影坐标系和 County Systems。 单击 NAD 1983 (2011) San Francisco CS13 (US Feet)。
- 单击确定。 在地理处理窗格中,单击运行。
名为 Bay Area Gowalla Check-ins 的输出图层将添加到地图。
- 在内容窗格中,右键单击第二个 Bay Area Gowalla Check-ins 图层(原始图层),然后选择移除。
图层随即被移除。 尽管您已对图层进行了投影,但是地图的外观并没有改变。 地图仍将使用原始投影坐标系,该坐标系将侧重于整个美国(也就是说位于美国边缘的加利福尼亚州会有一些变形)。 您需要更新地图的投影。
- 在内容窗格中双击地图。
随即出现地图属性窗口。
- 在地图属性窗口中,单击坐标系。 搜索 San Francisco。 展开 County Systems,然后选择 NAD 1983 (2011) San Francisco CS13 (US Feet) 坐标系。
- 单击确定。
地图随即更改为使用所选的坐标系。
聚合签到
单纯通过查看地图很难确定哪些区域比较受欢迎,因为旧金山湾区内几乎每个人口稠密的地方都布满了签到点。 为了获得更有意义的信息,您需要计算每个区域的签到数量。 您需要创建一个覆盖旧金山湾区的六边形图格格网,并使用此格网来聚合签到。 然后,您需要对结果图层进行符号化,以确定哪些区域的签到数量最多。
- 在地理处理窗格中,单击后退按钮。
- 搜索并打开生成细分面工具。
该工具可创建正多边形要素(例如六边形、正方形或三角形)格网,以覆盖指定范围。
- 对于输出要素类,输入 Hexagon_Tessellation。 对于范围,选择 Bay Area Gowalla Check-ins。
- 对于大小,输入 12,然后选择法定平方英里。 对于空间参考,确认已选择 NAD_1983_2011_San_Francisco_CS13_ftUS。
- 单击运行。
工具随即开始运行,且六边形格网将添加到地图中。 (其默认符号系统具有随机性,可能与示例图像中的有所不同。)
接下来,您将计算每个六边形图格中的签到数量。 您对没有签到或未采集任何数据的区域不感兴趣,因此首先您需要选择与至少一个签到相交的立方图格。
在具有活动选择(例如六边形格网)的图层上运行地理处理工具时,该工具仅会使用所选要素进行分析。 未选择的要素将不会在分析中使用。
- 单击功能区上的地图选项卡。 在选择组中,单击按位置选择。
按位置选择图层窗口随即出现。
- 在按位置选择图层窗口中,输入以下参数:
- 对于输入要素,确认已选择 Hexagon_Tessellation。
- 对于关系,确认已选择相交。
- 对于选择要素,选择 Bay Area Gowalla Check-ins。
- 单击确定。 在内容窗格中,取消选中 Bay Area Gowalla Check-ins 以将其关闭。
在地图上,与至少一个签到相交的六边形图格将处于选中状态。
接下来,您需要将签到要素与所选的六边形进行连接。 该连接将向六边形格网添加一个属性字段,其中包括每个六边形内签到的数量。
- 在地理处理窗格中,单击后退按钮。 搜索并打开空间连接工具。
- 在空间连接工具中,输入以下参数:
- 对于目标要素,选择 Hexagon_Tessellation。
- 对于连接要素,选择 Bay Area Gowalla Check-ins。
- 对于输出要素类,输入 Check_in_Counts。
- 单击运行。
该工具随即运行,且仅包含所选六边形图格的新图层将添加到地图。 每个立方图格的签到计数都将包含在图层的属性字段中。 要在地图上显示计数,您需要更改图层符号系统。
- 在内容窗格中,右键单击 Hexagon_Tessellation 并选择移除。 关闭 Bay Area Gowalla Check-ins 图层。
- 右键单击 Check_in_Counts,然后单击符号系统。
随即显示符号系统窗格。
- 在符号系统窗格的主符号系统中,选择分级色彩。
- 对于类,选择 10。 对于配色方案,选择青色到紫色。
符号系统随即应用到地图。
在地图上,粉色六边形图格的签到数量较多,而蓝色图格的签到数量较少。 签到数量较多的图格通常集中在该区域最大的城市旧金山和圣何塞附近。
- 关闭符号系统窗格。 在快速访问工具栏上单击保存按钮。
注:
可能会出现一条消息,警告您使用 ArcGIS Pro 当前版本保存此工程文件将使您无法在较早版本中再次将其打开。 如果您看到此消息,单击是以继续。
量化聚合的显著性
您所聚合的签到能够展现一些模式。 但这些模式是真的具有统计显著性呢,还是由随机方差或采样错误导致的呢? 为了找出答案,您需要对所聚合签到的统计显著性进行量化。 您需要使用 Global Moran's I 统计量来测试结果中的模式是聚类模式、离散模式还是随机模式。
Global Moran's I 将对属性的空间模式进行量化。 原始签到数据不具备可用于确定签到密度的属性,因此您必须在运行统计数据之前对签到进行聚合。 六边形图格具有 Global Moran's I 可以量化的 Join_Count 字段。
注:
要了解有关 Global Moran's I 背后的详细数学信息,请参阅空间自相关 (Global Moran's I) 的工作原理。
- 在地理处理窗格中,单击后退按钮。 搜索并打开空间自相关 (Global Moran's I) 工具。
- 在空间自相关 (Global Moran's I) 工具中,对于输入要素类,选择 Check_in_Counts;对于输入字段,选择 Join_Count。
- 选中生成报表。
- 单击运行。
工具随即开始运行,但不会有任何图层添加到地图中。 相反,系统将创建一个报表文件。 您可以通过查看该工具的相关信息来查找此报表文件的路径。
- 在地理处理窗格的底部,单击查看详细信息。
空间自相关 (Global Moran's I) 窗口随即出现。 该窗口将列出该工具的运行时间、用于运行该工具的参数以及所有警告消息。
- 在空间自相关 (Global Moran's I) 窗口中,单击参数选项卡。 对于报表文件,单击报表文件的路径。
该报表文件将显示在新的浏览器选项卡上。
该报表中将包括 Moran's 指数、z 得分和 p 值。 在确定统计显著性时,z 得分将是上述值中最重要的一个。
z 得分可指示某个值与平均值的标准差数。 正的 z 得分是高于平均值的值,而负的 z 得分则是低于平均值的值。 在本例中,要测量的值是数据集中存在于要素之间的空间自相关量。
您数据的 z 得分超过 7,这表示与假设的随机分布数据集合相比,您的数据具有更大的空间自相关性。 该报表中还包含一个图表,该图表在钟形曲线的最右端绘制了 z 得分。 该图表表明数据的分布具有统计显著性,且采用的是聚类模式(也就是说数据中的相似值靠得更近)。
- 关闭报表。 在 ArcGIS Pro 中,关闭空间自相关 (Global Moran's I) 窗口。
检测空间聚类
通过聚合数据并确定其统计显著性,您可以清楚地知道签到并非随机分布,而是采用了聚类模式。 接下来您将执行空间聚类分析,以检测受欢迎程度较高的区域。
- 在地理处理窗格中,单击后退按钮。 搜索并打开基于密度的聚类工具。
该工具提供了三种用于空间聚类的方法,每种方法都需要对什么是密集以及什么是不密集进行不同的定义。 您需要运行该工具 3 次,每种方法运行一次,然后对每种方法的优缺点进行权衡。
首先,您将使用定义距离方法(又称为 DBSCAN),这是最简单的基于密度的聚类方法。 在此方法中,密度将定义为在指定距离内具有指定数量的点。 在每个点处,系统都会检查该点是否满足所设置搜索距离内的最小要素数条件。 如果某个点满足了这一条件,则系统会将其标记为聚类点。 要运行该工具,您必须定义最小要素数。 您也可以定义搜索距离,但如果您未设置搜索距离,则该工具将使用最优值。
每个聚类的最小要素数取决于您的数据以及您要解决的问题。 您希望识别出湾区的热门地点。 您不知道使某个地点成为热门地点所需的确切签到数量,但是您可以根据自己的业务情况定义一个数字。 例如,假设您要在湾区开设一家夜店,且所计划的收费标准需要每天至少有 500 名客户到场才能获利。 在此示例中,您可以将每个聚类的最小要素数定义为 500。 您可以将搜索距离设置为约 0.1 英里,大致相当于一个城市街区的大小。
- 在基于密度的聚类工具中,输入以下参数:
- 对于输入点要素,选择 Bay Area Gowalla Check-ins。
- 对于输出要素,输入 DBSCAN_500。
- 对于聚类方法,选择定义距离 (DBSCAN)。
- 对于每个聚类的最小要素数,输入 500。
- 对于搜索距离,输入 0.1,然后选择美国测量英里。
- 单击运行。
工具随即开始运行,结果图层将添加到地图中。
- 在内容窗格中,关闭 Check_in_Counts 图层。
在地图上,彩色点代表签到点的密集聚类。 灰色点代表噪点,或任何不符合您密集定义的位置。
图例中提供了关于符号系统的信息:
基于密度的聚类可以在数据集中查找数百个聚类。 该聚类使用了八种不同的颜色,而非使用不同的颜色对每个聚类进行符号化。 这样,在显示结果时颜色相似的聚类不会靠在一起,从而使聚类之间的区别能够更加清晰地显示在地图上。 颜色与数据中的任何属性都不对应。
在地图上,聚类主要位于旧金山和南湾,还有少数聚类则位于其他地点。 您需要更改底图并放大以了解详细信息。
- 在功能区地图选项卡的图层组中,单击底图并选择影像混合。
- 放大至旧金山。
旧金山包含多个聚类,包括位于东北部的超大蓝色聚类。 该聚类位于旧金山市中心。
- 请向东北方向平移,穿过海湾,直至看到伯克利为止。
伯克利只有一个聚类,位于城市中心。
- 平移到海湾南部,直至看到帕洛阿尔托为止。
帕洛阿尔托和周边区域包含一些聚类。 斯坦福购物中心(橙色)和帕洛阿尔托市中心(粉红色)被检测为聚类。
- 向东南方向平移,直至看到圣何塞为止。
圣何塞是湾区人口最多的城市,人口甚至比旧金山还要多。 但是,它包含的聚类要少于旧金山。
- 在内容窗格中,右键单击 Bay Area Gowalla Check-ins 并选择缩放至图层。
地图范围将返回以显示整个海湾地区。
总之,在旧金山以外只有为数不多的几个聚类。 DBSCAN 聚类方法的局限性之一是该方法使用固定距离来确定密度。 (运行该工具时,请将此距离设置为 0.1 英里。)所选择的距离会对结果造成显著的影响。 虽然较小的距离可能适合旧金山市中心等一些商店与其他感兴趣点紧靠在一起的区域,但可能不适用于商店分布较为分散的城郊区域或农村地区。
您的研究区域涵盖城市、郊区和农村地区,因此使用单个固定距离可能无法提供最佳结果。 接下来,您将使用自调整方法(也称为 HDBSCAN)来执行基于密度的聚类。
HDBSCAN 可以在多个搜索距离处检测聚类,这与 DBSCAN 运行多次的效果相似。 在每个搜索距离处,该方法会在不同位置检测不同的聚类。 然后,DBSCAN 会尝试合并这些聚类,以创建均具有相似点密度的更大聚类。 所生成的聚类并非由单个搜索距离进行定义。
- 在基于密度的聚类工具窗格中,对于输出要素,输入 HDBSCAN_500。 对于聚类方法,选择自调整 (HDBSCAN)。
该工具不再需要搜索距离。
- 单击运行。 工具完成运行(可能需要 10 分钟左右)后,关闭 DBSCAN_500 图层。
与 DBSCAN 方法相比,HDBSCAN 方法可检测更多的聚类。 聚类遍布包括农村地区在内的整个湾区,其中一些聚类的大小足以覆盖整个城市,例如圣罗莎或瓦列霍的聚类。 尽管这些结果可以指示湾区的哪些地点更受欢迎,但这些结果可能不足以精准确定开设新店的最佳地点。
接下来,您将使用第三种空间聚类方法,即多比例(也称为 OPTICS)。
OPTICS 方法将记录数据集中第一个要素(顺序 ID 0)与其最近相邻要素之间的距离。 该距离被称为可达距离。 然后,该方法将记录最近相邻要素与其最近相邻要素之间的可达距离。 该过程将不断重复,直至覆盖了整个数据集为止。 重复过程不会涉及任何最近相邻要素;如果一个要素的最近相邻要素同时也是上一个要素的最近相邻要素,则系统将改用下一个最近相邻要素。
然后,OPTICS 方法将绘制所有可达距离的图表,并在图表中查找峰值和谷值。 谷值(或可达距离相对较小的一组要素)是紧靠在一起的点的聚类。 一旦绘制了聚类中所有点的图表,则不属于该聚类的下一个点将具有与图表中的峰值相对应的、相对较大的可达距离。
下图显示了示例可达图以及相应的点聚类:
在此示例中,所有蓝色点都紧靠在一起,因此它们之间的可达距离很小。 (红线表示点到点的可达距离。)在图表上,这些点与蓝色谷值相对应。 然后,最后一个蓝色点与其下一个唯一最近相邻要素之间的距离相对较大;与此对应的是图表上的可达距离急剧增加。
在绿色谷值处,存在一个与谷值两侧的两个较大峰值相比相对较小的峰值。 根据 OPTICS 算法的聚类敏感度,此小峰值可能会将谷值分为两部分,或系统仍将其视为谷值的一部分。
- 在地理处理窗格中,对于输出要素,键入 OPTICS_500。 对于聚类方法,选择多比例 (OPTICS)。
此方法需要用到搜索距离。 默认情况下,将搜索距离设置为您先前使用过的距离,即 0.1 英里。 此方法还有一个可选参数,即聚类敏感度。 您将在稍后了解有关此参数的详细信息。 现在,您需要将其留空。
- 单击运行。 工具完成运行后,关闭 HDBSCAN_500 图层。
提示:
现在您已经在地图上添加了一些图层,可以将未使用的图层的图例折叠起来,以使其在内容窗格中更容易找到。 要折叠图例,请单击图层名称旁边的箭头。
此聚类方法的结果与 DBSCAN 方法的结果相似。 OPTICS 方法与 DBSCAN 方法类似,但 OPTICS 方法是通过依靠相对的峰值和谷值而非绝对距离来考虑密度不同的聚类的。
该方法对待峰值和谷值的方式取决于其聚类敏感度。 您没有设置聚类敏感度,因此该工具将使用基于数据统计分布的敏感度值。 您需要查看工具详细信息,以查看所使用的敏感度。
- 在地理处理窗格的底部,单击查看详细信息。
随即显示基于密度的聚类窗口,其中包含有关所使用的聚类敏感度值的信息。
该工具所使用的聚类敏感度为 28。 (敏感度值始终为 0 到 100 之间的整数。)您将以不同的聚类敏感度再次运行该工具,并查看结果的变化情况。
- 关闭基于密度的聚类窗口。 在基于密度的聚类工具窗格中,将输出要素更改为 OPTICS_500_Sensitivity_0,并为聚类敏感度键入 0。
- 单击运行。 工具完成运行后,关闭 OPTICS_500 并缩放至旧金山。
提示:
为了更好地查看生成的聚类,在内容窗格中,取消选中混合参考图层。
在此敏感度下,聚类相对较大。
- 在基于密度的聚类工具窗格中,将输出要素更改为 OPTICS_500_Sensitivity_0,并将聚类敏感度更改为 100。 单击运行。
- 工具完成运行后,关闭 OPTICS_500_Sensitivity_0 图层。
OPTICS_500_Sensitivity_0 图层,其敏感度越高,所生成的聚类便会越小、越紧凑。
针对您的问题,使用更高的敏感度来找到可以开店的热门地点可能效果更好。 较低的敏感度可以帮助您描绘出更为广阔的受欢迎区域,而较高的敏感度则可以指示出签到数量较多的地点(也就是人们实际会去的地点)。
- 关闭 OPTICS_500_Sensitivity_100 图层,打开 Bay Area Gowalla Check-ins 图层,然后缩放至数据的全部范围。 将底图更改回地形图。
- 保存工程。
您已经对数据进行了空间分析。 通过聚合和空间聚类,您已经确定了一些签到密度特别高的位置,并了解了一些根据特定目标来调整分析结果的方法。
您的数据还有另一个您尚未查看的组成部分:时间。 接下来,您将对数据进行时间分析,以确定湾区的热门地点。
对数据进行时间分析
您的数据同时具有空间和时态分量。 分析空间趋势很有用,但这样并不能涵盖所有信息。 毕竟,随着时间的流逝,热门地点可能会发生变化;对于新店开业和倒闭都很频繁的市中心则尤其如此。 最好是在越来越受欢迎而非逐渐失去人气的地点开店。
转换时间字段
签到时间字段包含创建签到的日期和时间。 但是,该字段中包含了一个串联的文本字符串;ArcGIS Pro 无法自动将其识别为时间戳。 要将此字段用于时间分析,您需要将其转换为可识别的数据字段格式。
- 如有必要,可在 ArcGIS Pro 中打开 Bay Area Popular Places 工程。
- 在地理处理窗格中,搜索并打开转换时间字段工具。
此工具可将时间和日期值从文本字符串转换为日期字段。
- 在转换时间字段工具窗格中,对于输入表,选择 Bay Area Gowalla Check-ins。 对于输入时间字段,选择 Check-in Time。
接下来,您将设置输入时间格式(该字段当前使用的格式)。 该格式将使用字母来表示不同的时间单位,例如用 y 表示年,H 表示小时。 表中使用的格式为 yyyy-MM-ddTHH:mm:ssZ,其中 T 和 Z 为不反映任何时间单位的常量。
- 对于输入时间格式,键入 yyyy-MM-ddTHH:mm:ssZ。
提示:
要设置该参数,可以输入格式或单击设置格式按钮,然后从格式列表中进行选择。 签到时间字段所使用的格式并非已列出的任一格式;在这种情况下,需要键入格式。
您需要保持其他参数不变。
- 单击运行。
该工具随即运行。
- 在内容窗格中,右键单击 Bay Area Gowalla Check-ins 并单击属性表。
带有已转换签到时间的 Check_in_Time_Converted 字段随即添加到表的末尾。
- 关闭表。
绘制时态数据图表
您的要素类中包含 ArcGIS Pro 可以处理和分析的时间数据。 接下来,您需要创建一个数据时钟。 数据时钟是一种用于汇总时态数据的图表。 您将使用此图表来查找人们签到的时间模式。
- 在内容窗格中,右键单击 Bay Area Gowalla Check-ins,指向创建图表并选择数据时钟。
Bay Area Gowalla Check-ins - Data Clock 1 视图和图表属性窗格随即出现。 要创建图表,您需要在窗格中更改一些参数。 您将创建一个图表,以便按年份和月份显示签到的总数。
- 在图表属性窗格中,对于日期,选择 Check_in_Time_Converted。 确认将环设置为年、楔形设置为月,且聚合设置为计数。
数据时钟随即创建。
在此数据时钟中,每个同心圆(环)均代表一年,而每个圆形细分(楔形)则代表一个月。 每个楔形的颜色均代表该月内的签到总数,蓝色较深则表示签到数量较多。 灰色楔形没有数据。
您的数据时钟有两个环:2009 和 2010。 签到数据第一次于 2009 年 3 月采集,最后一次于 2010 年 10 月采集。 由于 Gowalla 服务所吸纳的用户更多,截至 2009 年年末,签到的数量都很少。 签到数量最多的月份为 2010 年 3 月、4 月、8 月和 9 月。
- 在图表属性窗格中,对于环,选择周。 对于楔形,选择星期。
数据时钟将更新。
数据时钟所包含的环更多,但每个环中只有七个楔形,一周中每天一个。 根据此数据时钟,周末(星期六和星期日)的签到数量最多。 这种模式是很合理的,因为大多数人在周末不用工作,所以有更多的闲暇时间可以用于出游。
根据您计划开店的类型,您可能也会对签到在一天中的时间分布情况感兴趣。 显示一年中每个小时的数据是比较困难的,因此您需要创建一个仅包含数据子集的要素类,并为其创建图表。
- 在图表属性窗格中,将环更改为年,将楔形更改为月。 在数据时钟上,按住 Ctrl 键同时单击 2010 年 8 月和 2010 年 9 月的楔形以将其选中。
提示:
还有一种选择多个楔形的方法,就是在它们周围绘制一个框。
在所选日期内完成的所有签到都将在地图上处于选中状态。
在 ArcGIS Pro 中,如果已进行选择,则在数据集上运行的任何地理处理工具都只会针对所选要素运行。 接下来,您需要将所选要素复制到新数据集。
- 打开地理处理窗格,然后单击后退按钮。 搜索并打开复制要素工具。
- 在复制要素工具窗格中,对于输入要素,选择 Bay Area Gowalla Check-ins。 对于输出要素类,输入 Check_ins_Aug_Sep_2010。
- 单击运行。
所复制的要素类随即会添加到地图中。
- 在内容窗格中,右键单击 Check_ins_Aug_Sep_2010,指向创建图表并选择数据时钟。
系统随即会创建一个新的数据时钟。
- 在图表属性窗格中,对于日期,选择 Check_in_Time_Converted。 对于环,选择天;对于楔形,选择小时。
数据时钟会自动通过 24 个楔形进行更新,且一天中每个小时更新一次。
很少有人在营业时间的头几个小时内签到,而早上 6 点至下午 2 点之间的签到计数尤其少。 签到量最大的时间是晚上 7 点至 9 点之间以及凌晨 1 点至 2 点之间。上述趋势可能表明顾客会在晚上大量涌入餐厅或在深夜大量涌入夜店。
- 关闭 Counts of Check_in_Time_Converted by Hours over Days 数据时钟。 在内容窗格中,右键单击 Check_ins_Aug_Sep_2010 并选择移除。
为了进行后续分析,您只能使用 2009 年 12 月至 2010 年 9 月(这是签到数量最多的 10 个月)的签到数据。 在后续分析中使用此数据子集时,系统将移除社交媒体应用程序仍在吸引用户时的记录。 这些使用量较少的时期可能会影响结果的准确性。
- 在 Counts of Check_in_Time_Converted by Months over Years 数据时钟中,按住 Ctrl 键同时选择从 2009 年 12 月到 2010 年 9 月的几个月份。
- 关闭数据时钟。 保存工程。
使用时空立方体来分析趋势
您所创建的图表可帮助您了解整个数据集中签到数量的趋势。 但是,如果您希望同时分析时间趋势和空间趋势,那又该怎么办呢? 哪些社区的签到数量最多? 随着时间的流逝,某些社区的受欢迎程度会变得更高或更低吗? 在决定在哪里开设新店时,回答这些问题至关重要。
如需同时分析数据的空间和时间元素,您需要创建一个时空数据结构(一种同时考虑空间和时间的数据结构)。 该数据结构将按固定面积和固定时间增量来汇总签到点。
您将使用创建时空立方体工具为数据定义时空数据结构。 可以将生成的数据集视为立方体,原因是它具有三个维度:两个维度用于面积(x 和 y),第三个维度用于时间 (t)。
- 在地理处理窗格中,单击后退按钮。 搜索创建时空立方体。
该搜索将为创建时空立方体返回三个结果。
您所选择的工具取决于您的数据。 您的签到数据来自整个空间内的多个点位置,因此您需要进行聚合点操作。 如果您的数据改为依赖具有固定地理特征的站点或其他位置(例如交通摄像头或收费站),则可以从已定义位置创建一个时空立方体。 如果数据来自多维栅格图层,则应选择适当的工具。
- 单击通过聚合点创建时空立方体。
- 对于输入要素,选择 Bay Area Gowalla Check-ins。 对于输出时空立方体,输入 Check_ins_STC。
输入输出名称后,.nc 扩展名会自动添加到末尾。 此扩展名代表的是 netCDF,这是时空立方体使用的文件类型。
- 对于时间字段,选择 Check_in_Time_Converted。
接下来,您将选择聚合点的时间间隔或时间立方图格。 时间立方图格间隔应适合与您的分析相关的时间尺度。 您想知道是否存在社区受欢迎程度方面的长期趋势,因此按小时或按天进行图格组合将无济于事。 相反,您需要使用每月间隔。 (如果您所计划开设的店在一天中特定时段内的活动量会增加(例如咖啡店),那么您可能会对按小时进行图格组合更感兴趣,这样可以帮助您了解在那些时段中哪些地点更受欢迎。)
- 对于时间步长间隔,输入 1 并选择月。
您还需要选择用于空间聚合的区域形状。 您将使用六边形聚合区域,因为六边形具有可用形状中最多的空间相邻要素 (6)。 此外,在六边形格网中,所有相邻的六边形之间都保持恒定的距离。 稍后,您将按距离定义时空邻域,因此六边形格网将比某些相邻要素要比其他相邻要素更远的渔网(正方形)格网更具优势。
您需要将这些六边形设置为 1 英里宽。
- 对于聚合形状类型,选择六边形格网。 对于距离间隔,输入 1 并选择美国测量英里。
- 单击运行。
该工具将运行并创建一个时空立方体文件。 没有任何输出会添加到地图中。 要显示时空立方体,您需要运行另一个工具。
- 单击返回按钮。 搜索并打开在 2D 模式下显示时空立方体工具。
该工具可基于 .nc 文件创建 2D 图层。
- 在在 2D 模式下显示时空立方体工具中,对于输入时空立方体,单击浏览按钮。
- 在输入时空立方体窗口中,打开 p20 文件夹。 双击 Check_ins_STC.nc。
- 请更改以下参数:
- 对于立方体变量,选择 COUNT。
- 对于显示主题,选择趋势。
- 选中启用时间序列弹出窗口。
- 对于输出要素,输入 Check_ins_STC_2D。
这些参数将映射每月签到计数的趋势。 通过启用时间序列弹出窗口,您可以查看每个显示随时间推移的计数情况的立方图格的时间序列。
- 单击运行。
工具随即开始运行,图层将添加到地图中。
- 在内容窗格中,关闭 Bay Area Gowalla Check-ins 图层。 在地图上,放大旧金山并单击一个紫色的六边形图格。
弹出窗口中包含一个时间序列图表,以显示该位置随时间推移的签到数量。 紫色立方图格中的签到增加趋势通常会很强,尽管随时间推移该趋势可能会有所减弱。
时间序列图表垂直轴上的数字表示签到数量。 示例图像中的六边形数量已从每月约 160 个签到增加到约 360 个。
- 单击绿色六边形。
绿色六边形是指那些检测到下降趋势的六边形。 这些六边形中有许多的总签到计数很少。 在示例图像中,该区域从超过 900 个签到的最高值递减为少于 600 个签到的最低值。 即使趋势为减少,该区域的最低值也高于趋势为增加的区域的最高值。
白色六边形是未检测到向上或向下趋势的区域。 这些六边形的每月签到数量可能稳定,也可能高度不稳定。
- 关闭弹出窗口并返回到数据的全部范围。
在对数据进行空间分析时,您发现旧金山市中心是最受欢迎的区域。 但是,旧金山市中心相当一部分区域的受欢迎程度没有上升或下降的趋势。 另一方面,圣何塞或东湾区域越来越受欢迎。 可以考虑将这些区域作为您开店的地点。
接下来,您将在 3D 模式下显示时空立方体,这将使在地图上查看时间变化变得更加容易。 (时间是时空立方体中的第三个维度。)首先,需要插入一个新场景。
- 在功能区插入选项卡的工程组中,单击新建地图下拉箭头,然后选择新建局部场景。
场景视图随即被添加到工程中。
- 在地理处理窗格中,单击后退按钮。 搜索并打开在 3D 模式下显示时空立方体工具。
- 在在 3D 模式下显示时空立方体工具中,更改以下参数:
- 对于输入时空立方体,浏览至 Check_ins_STC.nc 文件。
- 对于立方体变量,选择 COUNT。
- 对于显示主题,选择值。
- 对于输出要素,输入 Check_ins_STC_3D。
- 单击运行。
工具随即开始运行,结果图层将添加到场景中。
- 对场景进行平移、缩放和倾斜以查看结果。
提示:
要倾斜,按 V 键并拖动地图。 要平移,按 C 键并拖动地图。
在此可视化效果中,每个六边形图格的高度均由多个细分组成,每个细分对应于不同的月份。 每个细分的颜色均表示该区域在该月内的签到次数。
与 2D 可视化效果不同,每个细分均由签到的总数进行符号化,而非通过增加或减少趋势进行符号化。 正如您在空间分析中所看到的那样,即便旧金山市中心的受欢迎程度没有上升,该区域的签到计数仍然最多。 其他位置的大多数立方图格很少有签到,且用白色进行了符号化。
- 保存工程。
检测时间聚类
接下来,您将在时空立方体中检测签到的时间聚类。 时间聚类与空间聚类十分相似,因为它可以标识要素分组密集的位置。 唯一的区别是,时间聚类是通过时态邻近性而非空间邻近性对聚类进行分组的。
- 单击场景上方的地图选项卡。
您将返回至地图视图。
- 在地理处理窗格中,单击后退按钮。 搜索并打开时间序列聚类工具。
- 在时间序列聚类工具中,对于输入时空立方体,浏览并选择 Check_ins_STC.nc。 对于分析变量,选择 COUNT;对于输出要素,输入 Check_ins_Monthly_Time_Clusters。
您还可以按照三个感兴趣特征中的任意一个对数据进行聚类。 稍后您将会了解到其他特征,但现在,您需要进行聚类,以便将在时间范围内具有相似值的位置聚集在一起。
- 对于感兴趣特征,选择值。
此外,您还可以设置工具创建的聚类数量。 如果保持默认设置不变,则工具将根据数据使用最佳数量。 您将创建三个聚类,分别与高、中、低受欢迎程度的组相对应。
- 对于聚类数,输入 3。 选中启用时间序列弹出窗口。
您还将创建一个输出表,以便绘制结果图表。
- 对于图表的输出表,输入 Clustering_Tables。
- 单击运行。 工具完成运行后,关闭 Check_ins_STC_2D 图层。
聚类图层将显示在地图上。
六边形图格将聚类为三组:蓝色、红色和绿色。 为了弄清这些聚类的含义,您需要打开使用该工具创建的图表。
- 在内容窗格中的独立表下,双击每个聚类的平均时间序列。 (您可能需要滚动才能看到此内容。)
随即显示该图表。
注:
分配给每个图格的颜色是随机分配的,您的颜色可能与示例图像不同。 无论颜色如何,数字都是相同的,并且数据将讲述同一个故事。
在上面显示的每个聚类的平均时间序列图表中,蓝色六边形是历史上很少签到的位置。 (这些位置至少有过一次签到,否则根本不会被包括在内。)红色六边形是签到次数较多的位置,尽管签到次数很高,但签到次数每个月都有很大的波动。 地图上仅标识出了一个绿色六边形(在旧金山市中心)。 这些波动可能是旅游业的季节性变化导致的。 红色聚类包含市中心区域,这些区域是当地人可能经常光顾的地点,因此一年四季的受欢迎程度相对稳定。
- 在地图上,缩放至旧金山市中心并单击绿色六边形。
注:
您的屏幕上的六边形颜色可能会有所不同。 单击颜色与周围其他内容不同的六边形。
弹出窗口将显示该位置的时间序列图表。 绿色虚线表示绿色聚类中六边形的平均签到数量。
- 关闭弹出窗口和图表。
您已确定了随时间推移签到数量相似的位置聚类。 您还可以确定具有相似时间趋势的区域聚类。 例如,由于旅游业的季节性变化,随着时间的推移,两个区域的签到数量出现类似的增加和减少趋势。 但是,其中一个区域的签到总数明显高于另一个区域。 当基于值进行聚类时,这两个区域不会聚集在一起。 但是,当基于轮廓进行聚类时,它们则会聚集在一起。
按照轮廓对位置进行聚类对于经营对象为特定季节性人群的企业而言很有帮助。 轮廓聚类可以通过两种方法中的任意一个来完成。 您将使用傅立叶基时间序列聚类方法。 傅里叶方法可标识全年受欢迎程度变化不同的区域。
- 在时间序列聚类工具中,对于输出要素,输入 Check_ins_Monthly_Time_Clusters_Fourier。 对于感兴趣特征,选择轮廓(傅立叶)。
运行该工具时,您可以忽略时间序列的某些特征。 您需要忽略范围特征(此例中为签到计数)。 这样,无论签到的绝对数量如何,您都可以识别出受欢迎程度变化趋势相似的位置。 您还将允许该工具确定要创建的最佳聚类数量。
- 对于要忽略的时间序列特征,选中范围。 对于聚类数,输入 3。
- 选中启用时间序列弹出窗口。
- 对于图表的输出表,输入 Clustering_Tables_Fourier。
- 单击运行。 工具完成运行后,关闭 Check_ins_Monthly_Time_Clusters 图层。
聚类图层将显示在地图上。
使用轮廓(傅里叶)时,每种颜色都有更多的六边形。
- 在内容窗格中的 Clustering_Tables_Fourier 下,双击每个聚类的平均时间序列。
在此图表中,红色对应于特别是在春季的签到数量较多的六边形。 蓝色对应于全年签到数量较少的六边形,而绿色对应于签到数量增加的六边形。 每种类型的聚类都可以在整个湾区内找到,而无需与通常签到数量更多的区域(例如旧金山市中心)相关联。
- 关闭图表并保存工程。
您已经分析了数据中的时间趋势,以查找随时间推移变得越来越受欢迎的位置以及受欢迎程度存在季节性周期的位置。 您向着全面了解数据并就在何处开设新店做出明智的决定又迈出了一步。
完成您的分析
纵观本教程,您已从空间上和时间上分析了数据。 根据您选择用来检测数据中的聚类的统计方法,结果可能会发生显著变化。 接下来,您将组合结果并决定在何处开展业务。
检测空间和时间热点
您的最终分析将同时在空间和时间上检查数据。 使用新兴热点分析 (EHSA) 工具,您可以将时空立方体中的模式分类为 17 个可能的类别之一。
与时间序列聚类不同,EHSA 将确定时空立方图格的相邻要素是否包含显著高于(热点)或低于(冷点)全球平均水平的签到数量。 一旦将时空立方体中的每个位置都被指定为热点、冷点或均未指定,EHSA 将会检查每个位置的 z 得分随时间变化的情况,以确定该位置是否是连续的、加强的、缩减的或是分散的热点或冷点。
最终结果说明了数据的空间和时间变化。
- 如有必要,在 ArcGIS Pro 中打开 Bay Area Popular Places 地图。
- 在地理处理窗格中,搜索并打开新兴时空热点分析工具。 输入以下参数:
- 对于输入时空立方体,浏览并选择 Check_ins_STC.nc。
- 对于分析变量,选择 COUNT。
- 对于输出要素,输入 Check_ins_Emerging_Hot_Spots。
- 对于邻域距离,输入 1,然后选择英里。
对于每个位置,EHSA 都会检查一英里范围内的每个相邻位置以进行分析。 您之前创建了带有六边形格网的时空立方体,这对于邻域分析十分理想,因为每个六边形都是等距的。
- 单击运行。 工具完成后,关闭 Check_ins_Monthly_Time_Clusters_Fourier 图层。
热点位于旧金山市中心以及海湾南部的一些较小城市,例如帕洛阿尔托、山景城和圣何塞。 旧金山市中心的大多数热点都是持续热点,这意味着它们在一段时间内持续是热点。 其他区域大多是新热点,意味着它们仅在时间序列结束时才成为热点,或者是分散热点,意味着它们有时是热点,而有时不是。
请注意,按时间序列聚类以高计数群集和中计数群集为特征的区域显示为连续的热点。 这意味着在大多数时间步长中,这些区域附近的平均签到数都高于湾区。 换句话说,在时空立方体中的大多数时间步长中,这些区域比湾区的其他区域更受欢迎。 与旧金山不同,这些区域的受欢迎程度似乎在随着时间的推移而增加。
您还可以在 3D 模式下可视化结果。
- 在内容窗格中,右键单击 Check_ins_Emerging_Hot_Spots 图层并选择复制。 在地图上方,单击场景选项卡以返回到您的场景。
- 在内容窗格中,右键单击场景,然后选择粘贴。
热点图层随即显示在场景中。
既然您已在时空立方体上运行了 EHSA,则可以基于分析结果进行可视化。
- 在地理处理窗格中,单击后退按钮。 搜索并打开在 3D 模式下显示时空立方体工具并输入以下参数:
- 对于输入时空立方体,浏览并选择 Check_ins_STC.nc。
- 对于立方体变量,选择 COUNT。
- 对于显示主题,选择 热点和冷点结果。
- 对于输出要素,输入 Check_ins_STC_Hot_Spots。
- 单击运行。
- 关闭 Check_ins_STC_3D 图层。 浏览场景。
在被视为新热点的区域中,仅最近一个月(列中最上方的六边形图格)才被视为热点。 分散热点在“是热点”和“不是热点”之间交替。 在旧金山市区,因为这些区域每个月都是热点,所以其成为持续热点。
- 单击地图选项卡以返回到地图视图。
当您运行 EHSA 时,已选择邻域距离为 1 英里。 更改邻域距离也会更改您的结果。
- 在地理处理窗格中,单击后退按钮。 搜索并打开新兴热点分析工具并输入以下参数:
- 对于输入时空立方体,浏览并选择 Check_ins_STC.nc。
- 对于分析变量,选择 COUNT。
- 对于输出要素,输入 Check_ins_Emerging_Hot_Spots_5mi。
- 对于邻域距离,输入 5,然后选择美国测量英里。
- 单击运行。 工具完成运行后,关闭 Check_ins_Emerging_Hot_Spots 图层。
当使用较大的邻域大小时,会将较大的区域视为热点。
决定开展业务的位置
接下来,您将确定开展新业务的最佳位置。 为此,您将叠加空间聚类、时间聚类和新兴热点。 这些图层的组合标准将取决于您认为适合业务的理想条件。
首先,您将选择具有密集签到数的空间聚类。 这些区域表明人流量大,这对新业务有利。 您使用三种不同的方法执行了空间聚类分析:DBSCAN、HDBSCAN 和 OPTICS。 在这三个方法中,HDBSCAN 适合您的研究区域,因为它说明了湾区城市、郊区和农村地区之间的人口差异。
- 在功能区地图选项卡的选择组中,单击按属性选择。
当您执行聚类分析时,结果图层包括聚类 ID 属性字段。 在此字段中,任何值为 -1 的要素都不是聚类。 您将选择所有属于聚类的区域。
- 在按属性选择窗口中,对于输入行,选择 HDBSCAN_500。 在表达式下,创建表达式 Cluster ID is not equal to -1。
- 单击应用。 关闭 Check_ins_Emerging_Hot_Spots_5mi 图层,然后打开 HDBSCAN_500 图层。
随即选中所有指示为聚类的区域。
接下来,您将移除刚刚执行的子句并选择选择新的、连续的或持续的热点位置。
- 在按属性选择工具中,单击移除子句。
- 对于输入行,选择 Check_ins_Emerging_Hot_Spots。
- 创建表达式 Where Pattern Type COUNT includes the value(s) Consecutive Hot Spot, New Hot Spot, Persistent Hot Spot。
- 单击应用。 关闭 HDBSCAN_500 图层,然后打开 Check_ins_Emerging_Hot_Spots 图层。
热点已选中。
接下来,您将选择可在特定季节内看到流量增加的月度时间聚类。 根据您计划开展的业务类型,在不同季节流量较大的区域可能是理想的选择。 考虑到本练习的目的,您将选择在夏季流量较大的区域。
- 在按属性选择图层工具中,移除表达式。 对于输入行,选择 Check_ins_Monthly_Time_Clusters_Fourier。
在此图层中,与夏季月份的高流量模式相对应的时间聚类是绿色聚类,其 ID 为 3。
- 创建表达式 Time-Series Cluster ID is equal to 3。
- 单击确定。 关闭 Check_ins_Emerging_Hot_Spots 图层,然后打开 Check_ins_Monthly_Time_Clusters_Fourier 图层。
您已根据三个条件选择了区域。 接下来,您将创建一个仅包含在所有三层中均已选择的六边形图格的图层(意味着它们符合所有三个条件)。您可以根据业务的具体要求调整条件、添加更多条件或移除条件。 考虑到本练习的目的,三个条件已足够。
- 在地理处理窗格中,单击后退按钮。 搜索并打开相交工具。
注:
根据您的 ArcGIS Pro 版本,您可能会收到一条消息,要求您使用 Pairwise Intersect 工具来增强功能。 在这种情况下,您不能使用该工具,因为它最多需要两个输入,而您却有三个。
- 对于输入要素,选择 HDBSCAN_500。 在下一行中,选择 Check_ins_Emerging_Hot_Spots,然后在下一行中选择 Check_ins_Monthly_Time_Clusters_Fourier。
注:
要选择两个以上的输入要素,您必须具有一个 ArcGIS Pro 高级许可。
每个输入要素下显示消息,说明这些图层具有活动选择。
- 对于输出要素类,输入 deep_sea_corals_Hawaii。 对于要连接的属性,选择仅要素 ID。
- 单击运行。 工具完成运行后,关闭 Check_ins_Monthly_Time_Clusters_Fourier 图层。
可以在旧金山、山景城和圣何塞找到理想位置。
- 缩放到地图中的各个点。
您的分析确定了旧金山的一些区域,这些区域是开展业务的理想位置。
虽然已确定山景城中的许多点,但这些点都集中在一个区域内:山景城的市区。 如果您想要找到旧金山的替代选择(也许是因为成本过高),那么该区域将是理想的选择。
- 返回到数据全图范围。 保存工程。
在本教程中,您执行了时空数据科学以跨时空识别湾区的热门地点。 根据您的结果,您确定了开展业务的几个理想位置,以及各种空间和时间聚合方法的优势和限制。
您可以在教程库中找到更多教程。