Analyser les données spatialement
Vous allez examiner les données de géolocalisation et les analyser afin d’identifier les tendances spatiales.
Ouvrir le projet
Vous allez commencer par télécharger et ouvrir un paquetage de projet ArcGIS Pro contenant une carte des données de géolocalisation. Vous vous familiariserez ensuite avec les attributs des données.
- Téléchargez le paquetage de projet Bay Area Popular Places.
- Accédez au paquetage de projet Bay_Area_Popular_Places sur votre ordinateur et double-cliquez dessus pour l’ouvrir dans ArcGIS Pro. Si vous y êtes invité, connectez-vous via votre compte ArcGIS ou ArcGIS Enterprise sous licence.
Remarque :
Si vous n’avez pas accès à ArcGIS Pro ou ne disposez pas d’un compte d’organisation ArcGIS, consultez les options disponibles pour accéder aux logiciels.
Le projet contient une carte avec des données ponctuelles dans la région de la baie de San Francisco. Les données ont été collectées via la plateforme de médias sociaux Gowalla, qui a été active entre 2007 et 2012. Gowalla a permis aux utilisateurs de se géolocaliser aux endroits où ils se trouvaient. Chaque point représente un emplacement auquel un utilisateur de Gowalla s’est géolocalisé.
En vous basant sur la carte, répondez aux questions suivantes :
- Certains lieux présentent-ils plus de géolocalisations que d’autres ?
- Comment définiriez-vous un lieu fréquenté à l’aide de ces géolocalisations ?
- Les données sont très regroupées. Quelles informations obtenez-vous simplement en regardant la carte ?
Vous allez ensuite examiner les attributs des données.
- Dans la fenêtre Contents (Contenu), cliquez avec le bouton droit sur la couche Bay Area Gowalla Check-ins (Géolocalisations Gowalla dans la région de la baie) et choisissez Attribute Table (Table attributaire).
La table apparaît.
Les champs User ID (ID de l'utilisateur) et Location ID (ID d'emplacement) contiennent des identifiants uniques associés aux utilisateurs et emplacements. Vous n’avez pas accès à une clé pour ces identifiants, ces champs ne sont donc pas utiles pour déterminer la fréquentation. Les champs Check-in Latitude (Latitude de géolocalisation) et Check-in Longitude (Longitude de géolocalisation) fournissent les informations spatiales des données, le champ Check-in Time (Heure de géolocalisation) fournit l’information temporelle.
- Fermez la table.
Modifier le système de coordonnées
Lorsque l'on analyse les relations spatiales entre des entités, il est important de s’assurer que l’on utilise un système de coordonnées adapté aux données. Un système de coordonnées projetées est un processus mathématique qui consiste à transformer le monde tri-dimensionnel en une carte bi-dimensionnelle. Puisqu'il n’existe aucune méthode parfaite pour effectuer cette transformation, tous les systèmes de coordonnées projetées entraîne une certaine forme de distorsion. Cette distorsion affecte non seulement l’apparence de la carte mais également les résultats de l'analyse spatiale.
Afin de réduire la distorsion et de garantir des résultats de la plus grande exactitude possible, vous allez projeter les données dans un système de coordonnées projetées centré sur la région de San Francisco. Ce système de coordonnées minimise la distorsion à proximité de San Francisco, en augmentant la distorsion à d'autres endroits. Puisque c’est seulement la région de San Francisco qui vous intéresse, ce système de coordonnées est approprié pour votre carte et vos données.
- Sur le ruban, cliquez sur l’onglet Analyse. Dans le groupe Géotraitement, cliquez sur Outils.
La fenêtre Géotraitement s’affiche.
- Dans la fenêtre Geoprocessing (Géotraitement), dans la barre de recherche, saisissez Project (Projeter). Dans la liste des résultats, cliquez sur l’outil Project (Projeter) pour l’ouvrir.
- Dans la fenêtre de l’outil Project (Projeter), pour Input Dataset or Feature Class (Jeu de données ou classe d’entités en entrée), sélectionnez Bay Area Gowalla Check-ins (Géolocalisations Gowalla dans la région de la baie). Pour Output Dataset or Feature Class (Jeu de données ou classe d'entités en sortie), saisissez Check_ins_Projected.
- Pour Output Coordinate System (Système de coordonnées en sortie), cliquez sur le bouton Select coordinate system Sélectionner un système de coordonnées).
- Dans la zone de recherche de la fenêtre Coordinate System (Système de coordonnées), saisissez San Francisco et appuyez sur Entrée.
- Développez Projected coordinate system (Système de coordonnées projetées) et County Systems (Systèmes de comtés). Cliquez sur NAD 1983 (2011) San Francisco CS13 (US Feet) [Datum nord-américain 1983 (2011) San Francisco CS13 (Pieds US)].
- Cliquez sur OK. Dans la fenêtre Géotraitement, cliquez sur Exécuter.
La couche en sortie nommée Bay Area Gowalla Check-ins est ajoutée à la carte.
- Dans la fenêtre Contents (Contenu), cliquez avec le bouton droit sur la deuxième couche Bay Area Gowalla Check-ins (Géolocalisations Gowalla dans la région de la baie) (la couche d’origine) et choisissez Remove (Retirer).
La couche est alors supprimée. Bien que vous ayez projeté la couche, l’aspect de la carte n’a pas changé. La carte utilise toujours le système de coordonnées projetées d’origine, lequel englobe l’ensemble des États-Unis (ce qui signifie que la Californie, située à l’extrémité ouest des États-Unis, subit une légère distorsion). Vous allez mettre à jour la projection de la carte
- Dans la fenêtre Contents (Contenu), double-cliquez sur Map (Carte).
La fenêtre Map Properties (Propriétés de la carte) s’ouvre.
- Dans la fenêtre Map Properties (Propriétés de la carte), cliquez sur Coordinate Systems (Systèmes de coordonnées). Recherchez San Francisco. Développez County Systems (Systèmes de comté et sélectionnez le système de coordonnées NAD 1983 (2011) San Francisco CS13 (US Feet) (Datum nord-américain 1983 [2011] San Francisco CS13 [Pieds US]).
- Cliquez sur OK.
La carte change pour utiliser le système de coordonnées sélectionné.
Agréger les géolocalisations
Il est difficile de déterminer quelles sont les zones les plus fréquentées en observant la carte puisque presque tous les lieux peuplés dans la région de la baie de San Francisco sont couverts de points de géolocalisation. Pour obtenir une vision plus claire, vous allez comptabiliser le nombre de géolocalisations dans chaque zone. Vous allez créer une grille de groupes hexagonaux couvrant la baie de San Francisco et utiliser cette grille pour agréger les géolocalisations. Vous allez ensuite symboliser la couche de résultats afin de déterminer les zones comportant le plus de géolocalisations.
- Dans la fenêtre Géotraitement, cliquez sur le bouton Retour.
- Recherchez et ouvrez l'outil Générer une tessellation.
Cet outil crée une grille d’entités surfaciques régulières telles que des hexagones, carrés ou triangles, pour couvrir une zone spécifique.
- Dans Output Feature Class (Classe d’entités en sortie), saisissez Hexagon_Tessellation. Pour Extent (Étendue), choisissez Bay Area Gowalla Check-ins (Géolocalisations Gowalla dans la région de la baie).
- Dans le champ Size (Taille), saisissez 12 et sélectionnez Square Statute Miles (Milles terrestres carrés). Pour Spatial Reference (Référence spatiale), vérifiez que NAD_1983_2011_San_Francisco_CS13_ftUS est sélectionné.
- Cliquez sur Run (Exécuter).
L’outil s’exécute et une grille hexagonale est ajoutée à la carte. (La symbologie par défaut est aléatoire et peut être différente de l’image d’exemple).
Vous allez ensuite compter le nombre de géolocalisations dans chaque groupe hexagonal. Les zones dans lesquelles aucune géolocalisation n’a été effectuée ou aucune donnée collectée ne vous intéressent pas, vous allez donc tout d’abord sélectionner les groupes qui intersectent au moins une géolocalisation.
Lorsque l’outil de géotraitement est exécuté sur une couche comportant une sélection active, comme votre grille hexagonale, l’outil utilise uniquement les entités sélectionnées pour l’analyse. Les entités qui ne sont pas sélectionnées ne seront pas utilisées dans l’analyse.
- Sur le ruban, cliquez sur l’onglet Map (Carte). Dans le groupe Selection (Sélection), cliquez sur Select By Location (Sélectionner selon l’emplacement).
La fenêtre Select Layer By Location (Sélectionner une couche par emplacement) apparaît.
- Dans la fenêtre Select Layer By Location (Sélectionner une couche par emplacement), saisissez les paramètres suivants :
- Pour Input Features (Entités en entrée), vérifiez que l’option Hexagon_Tessellation est sélectionnée.
- Pour Relationship (Relation), vérifiez que l'option Intersect (Intersection) est sélectionnée.
- Pour Selecting Features (Sélection d’entités), choisissez Bay Area Gowalla Check-ins (Géolocalisations Gowalla dans la région de la baie).
- Cliquez sur OK. Dans la fenêtre Contents (Contenu), désélectionnez Bay Area Gowalla Check-ins (Géolocalisations Gowalla dans la baie) pour désactiver cette option.
Sur la carte, les groupes hexagonaux qui recoupent au moins une géolocalisation sont sélectionnés.
Vous allez ensuite, joindre les entités de géolocalisation aux hexagones sélectionnés. La jointure ajoutera un champ attributaire à la grille hexagonale incluant le nombre de géolocalisations dans chaque hexagone.
- Dans la fenêtre Géotraitement, cliquez sur le bouton Retour. Accédez à l’outil Spatial Join (Jointure spatiale) et ouvrez-le.
- Dans l’outil Spatial Join (Jointure spatiale), saisissez les paramètres suivants :
- Pour Target Features (Entités cible), sélectionnez Hexagon_Tessellation.
- Pour Join Features (Entités jointes), sélectionnez Bay Area Gowalla Check-ins (Géolocalisations Gowalla dans la région de la baie).
- Dans Output Feature Class (Classe d’entités en sortie), saisissez Check_in_Counts.
- Cliquez sur Run (Exécuter).
L’outil s’exécute et une nouvelle couche, contenant uniquement les groupes hexagonaux sélectionnés, est ajoutée à la carte. Le nombre de géolocalisations de chaque groupe est contenu dans un champ attributaire de la couche. Pour visualiser les comptes sur la carte, vous allez modifier la symbologie de la couche.
- Dans la fenêtre Contents (Contenu), cliquez avec le bouton droit sur Hexagon_Tessellation, puis sélectionnez Remove (Supprimer). Désactivez la couche Bay Area Gowalla Check-ins.
- Cliquez avec le bouton droit sur Check_in_Counts et cliquez sur Symbology (Symbologie).
La fenêtre Symbology (Symbologie) apparaît.
- Dans la fenêtre Symbology (Symbologie), pour Primary symbology (Symbologie principale), choisissez Graduated Colors (Couleurs graduées).
- Pour Classes, sélectionnez 10. Pour Color scheme (Combinaison de couleurs), sélectionnez Cyan to Purple (Cyan à Violet).
La symbologie est appliquée à la carte.
Sur la carte, les groupes hexagonaux roses comptent davantage de géolocalisations que les groupes bleus. Les groupes ayant le plus de géolocalisations ont tendance à être regroupés autour de San Francisco et San Jose, les deux villes les plus importantes de la zone.
- Fermez la fenêtre Symbology (Symbologie). Dans la barre d’outils Accès rapide, cliquez sur le bouton Save (Enregistrer).
Remarque :
Un message peut vous avertir que si vous enregistrez ce fichier de projet avec la version actuelle de ArcGIS Pro, vous ne pourrez pas le rouvrir dans une version antérieure. Si ce message apparaît, cliquez sur Yes (Oui) pour continuer.
Quantifier l’importance des agrégations
Vous avez agrégé des géolocalisations pour déterminer certains modèles. Mais ces modèles ont-ils un sens d’un point de vue statistique, ou peuvent-ils être le fait d’une variance aléatoire ou d’une erreur d'échantillonnage ? Pour le savoir, vous allez quantifier l’importance statistique des géolocalisations agrégées. Vous allez utiliser la statistique Indice de Moran global afin de déterminer si les modèles dans vos résultats sont agrégés, dispersés ou aléatoires.
L’indice de Moran global quantifie les modèles spatiaux d’un attribut. Vos données de géolocalisation d’origine ne disposant pas d’attributs permettant de déterminer la densité des géolocalisations, il a été nécessaire d’agréger les géolocalisations avant d’exécuter les statistiques. Les groupes hexagonaux possèdent le champ Join_Count, que l’Indice de Moran global peut quantifier.
Remarque :
Pour plus d’informations sur le calcul mathématique de l’Indice de Moran global, reportez-vous à la rubrique Fonctionnement de l’autocorrélation spatiale (Indice de Moran global).
- Dans la fenêtre Géotraitement, cliquez sur le bouton Retour. Accédez à l’outil Spatial Autocorrelation (Global Moran's I) [Autocorrélation spatiale (Indice de Moran global)] et ouvrez-le.
- Dans l’outil Spatial Autocorrelation (Global Moran’s I) (Autocorrélation spatiale [Indice de Moran global]), pour Input Feature Class (Classe d’entités en entrée), sélectionnez Check_in_Counts, et pour Input Field (Champ en entrée), choisissez Join_Count.
- Sélectionnez Generate Report (Générer un rapport)..
- Cliquez sur Run (Exécuter).
L'outil s'exécute, mais aucune couche n’est ajoutée à la carte. À la place, un fichier de rapport a été créé. Affichez les informations de l’outil pour connaître le chemin d’accès à ce fichier de rapport.
- Au bas de la fenêtre Geoprocessing (Géotraitement), cliquez sur View Details (Afficher les détails).
La fenêtre Spatial Autocorrelation (Global Moran's I) [Autocorrélation spatiale (Indice de Moran global)] s’ouvre. Cette fenêtre indique le temps d’exécution de l'outil, les paramètres utilisés pour son exécution, et tout message d'avertissement.
- Dans la fenêtre Spatial Autocorrelation (Global Moran’s I) (Autocorrélation spatiale [Indice de Moran global]), cliquez sur l’onglet Parameters (Paramètres). Pour Report File (Fichier de rapport), cliquez sur le chemin d’accès au fichier de rapport.
Le fichier de rapport s’ouvre dans un nouvel onglet du navigateur.
Le rapport comprend l’Indice de Moran, le score z, et la valeur p. Pour déterminer l’importance statistique, le score z est la plus importante de ces valeurs.
Le score z indique le nombre d’écarts types séparant une valeur de la valeur moyenne. Les scores z positifs sont des valeurs au-dessus de la moyenne, tandis que les scores z négatifs sont des valeurs inférieures à la moyenne. Dans ce cas, la valeur mesurée correspond au niveau d’autocorrélation spatiale qui existe entre les entités de votre jeu de données.
Le score z de vos données est supérieur à 7, ce qui signifie que l’autocorrélation spatiale de vos données est significativement plus importante qu’un ensemble de données distribuées aléatoirement. Le rapport contient également un diagramme qui trace le score z à l’extrémité droite d’une courbe en cloche. Le diagramme montre l’existence d’une signification statistique dans la distribution de vos données et que l’existence d’agrégats (ce qui signifie que les données de valeur similaires sont regroupées).
- Fermez le rapport. Dans ArcGIS Pro, fermez la fenêtre Spatial Autocorrelation (Global Moran's I) (Autocorrélation spatiale (Indice de Moran global)).
Détecter les agrégats spatiaux
Agréger les données et déterminer leur signification statistique vous permet de savoir avec certitude que les géolocalisations ne sont pas distribuées aléatoirement, mais regroupées. Vous allez ensuite effectuer une analyse d'agrégats spatiaux, afin d’identifier les zones à forte fréquentation.
- Dans la fenêtre Géotraitement, cliquez sur le bouton Retour. Accédez à l'outil Density-based Clustering (Agrégation basée sur la densité) et ouvrez-le.
Cet outil fournit trois méthodes d’agrégation spatiale, chacune nécessitant une définition différente de ce qui est considéré comme dense et ce qui ne l’est pas. Vous allez exécuter l’outil trois fois, une fois pour chaque méthode, et comparer les avantages et les inconvénients de chaque méthode.
Vous allez tout d’abord utiliser la méthode Distance définie, également appelée DBSCAN, qui est la méthode la plus simple d’agrégation basée sur la densité. Dans cette méthode, la densité est définie par la présence d’un nombre de points donné dans une distance spécifique. La méthode vérifie si chaque point satisfait l’exigence du nombre minimum d’entités requis dans une distance de recherche définie. Lorsqu'un point répond à ce critère, il est marqué comme point agrégé. Pour exécuter l'outil, vous devez définir le nombre d'entités minimum. Vous pouvez également définir la distance de recherche, mais si aucune distance de recherche n’est définie, l’outil utilise une valeur optimisée.
Le nombre minimum d’entités par agrégat dépend de vos données et du problème que vous souhaitez résoudre. Vous voulez identifier les lieux fréquentés dans la région de la baie. Vous ignorez le nombre exact de géolocalisations à partir duquel un lieu est considéré comme fréquenté, mais vous pouvez définir ce nombre en fonction de votre entreprise. Supposons que vous vouliez ouvrir une discothèque dans la région de la baie et qu’avec les tarifs qui seront appliqués, il faille un minimum de 500 clients par jour pour dégager un profit. Dans ce cas de figure, vous pouvez définir à 500 le nombre minimum d’entités par agrégat. Vous pouvez définir la distance de recherche à environ 0,1 mile (0,16 Km), environ la dimension d’un quartier.
- Dans l’outil Density-based Clustering (Agrégation basée sur la densité), saisissez les paramètres suivants :
- Pour Input point Features (Entités ponctuelles en entrée), sélectionnez Bay Area Gowalla Check-ins (Géolocalisations Gowalla dans la région de la baie).
- Pour Output Features (Entités en sortie), saisissez DBSCAN_500.
- Pour Clustering Method (Méthode d’agrégation), sélectionnez Defined distance (DBSCAN) [Distance définie (DBSCAN)].
- Pour Minimum Features per Cluster (Minimum d’entités par agrégat), saisissez 500.
- Pour Search Distance (Distance de recherche), saisissez 0,1 et choisissez US Survey Miles (Miles d’arpentage américains).
- Cliquez sur Run (Exécuter).
L’outil s’exécute et la couche qui en résulte est ajoutée à la carte.
- Dans la fenêtre Contents (Contenu), désactivez la couche Check_in_Counts.
Sur la carte, les points en rouge représentent les agrégats denses de points de géolocalisations. Les points en gris représentent le bruit, ou tout emplacement qui ne répond pas à votre définition de la densité.
La légende fournit des informations sur la symbologie :
L’agrégation basée sur la densité peut identifier des centaines d’agrégats dans un jeu de données. Plutôt que de symboliser chaque agrégat par une couleur différente, huit couleurs distinctes sont utilisées. Pour l’affichage des résultats, les agrégats proches les uns des autres utilisent des couleurs différentes de façon à mieux les distinguer sur la carte. Les couleurs ne correspondent à aucun attribut des données.
Sur la carte, les agrégats se situent principalement à San Francisco et dans le sud de la baie, on note également quelques autres agrégats à d’autres endroits. Vous allez modifier le fond de carte et zoomer pour obtenir plus d’informations.
- Sur le ruban, dans l’onglet Map (Carte), dans le groupe Layer (Couche), cliquez sur Basemap (Fond de carte) et sélectionnez Imagery Hybrid (Imagerie hybride).
- Zoomez sur San Francisco.
Plusieurs agrégats se trouvent à San Francisco, notamment un agrégat bleu particulièrement important au nord-est. Cet agrégat se situe au centre de San Francisco.
- Déplacez la carte vers le nord-est, à travers la baie, jusqu’à apercevoir Berkeley.
Berkeley contient un seul agrégat, situé dans le centre-ville.
- Déplacez la carte vers le sud de la baie, jusqu’à voir Palo Alto.
Palo Alto et la zone environnante contiennent quelques agrégats. Le centre commercial Stanford (en orange) et le centre-ville de Palo Alto (en rose) sont identifiés comme agrégats.
- Déplacez-vous vers le sud-est jusqu’à voir San Jose.
San Jose est la ville la plus peuplée de la région de la baie, elle compte encore plus d’habitants que San Francisco. Le nombre d’agrégats y est toutefois moins élevé qu’à San Francisco.
- Dans la fenêtre Contents (Contenu), cliquez avec le bouton droit sur Bay Area Gowalla Check-ins (Géolocalisations de Gowalla dans la région de la baie) et choisissez Zoom To Layer (Zoom sur la couche).
L’étendue de carte affiche la totalité de la baie.
Au total, seuls quelques agrégats se situent en dehors de San Francisco. L’une des limites de la méthode d’agrégation DBSCAN est qu’elle utilise une distance fixe pour déterminer la densité. (Lorsque vous avez exécuté l’outil, vous avez défini cette distance sur 0,1 mile.) La distance choisie peut fortement modifier les résultats. Si le choix d’une faible distance peut être approprié pour des zones comme le centre-ville de San Francisco, où les magasins et autres points d’intérêt sont situés à proximité les uns des autres, cela peut ne pas être le cas pour les zones périurbaines et rurales où les magasins sont davantage dispersés.
Votre étude englobe à la fois des villes, des banlieues et des zones rurales, l’utilisation d'une seule distance fixe risque donc de ne pas donner les meilleurs résultats. Vous allez ensuite effectuer une agrégation basée sur la densité à l’aide de la méthode d’ajustement automatique, également appelée HDBSCAN.
HDBSCAN détecte les agrégats selon plusieurs distances de recherche, comme si on exécutait la méthode DBSCAN plusieurs fois. Pour chaque distance de recherche, la méthode détecte les agrégats présents aux différents endroits. Puis, DBSCAN essaye de combiner ces agrégats pour créer des agrégats plus importants ayant tous une densité de points similaire. Les agrégats obtenus ne sont pas définis par une seule distance de recherche.
- Dans la fenêtre de l’outil Density-based Clustering (Agégation basée sur la densité), pour Output Features (Entités en sortie), saisissez HDBSCAN_500. Pour Clustering Method (Méthode d’agrégation), sélectionnez Self-adjusting (HDBSCAN) [Ajustement automatique (HDBSCAN)].
L’outil ne nécessite plus de distance de recherche.
- Cliquez sur Run (Exécuter). Une fois l’exécution de l’outil terminée (cela peut prendre environ 10 minutes), désactivez la couche DBSCAN_500.
Par rapport à la méthode DBSCAN, la méthode HDBSCAN détecte davantage d’agrégats. Les agrégats se répartissent dans toute la région de la baie, y compris dans les zones rurales, et certains de ces agrégats sont suffisamment importants pour englober des villes entières, comme les agrégats de Santa Rosa ou Vallejo. Bien que ces agrégats indiquent les emplacements les plus fréquentés dans la région de la baie, les résultats ne permettent peut-être pas de situer le meilleur emplacement pour l’ouverture d’une nouvelle entreprise.
Vous allez ensuite utiliser la troisième méthode d’agrégation, la méthode multi-échelle (également appelée OPTICS).
La méthode OPTICS enregistre la distance entre la première entité d’un jeu de données (ID d’ordre 0) et son voisin le plus proche. Cette distance est appelée distance d’accès. Puis, la méthode enregistre la distance d’accès entre le voisin le plus proche et son voisin le plus proche. Ce processus se répète de manière continue jusqu’à ce que la totalité du jeu de données ait été couverte. Aucun voisin le plus proche n’est répété ; si le voisin le plus proche d’une entité était déjà le voisin le plus proche d’une entité précédente, le prochain voisin le plus proche est utilisé à la place.
La méthode OPTICS trace ensuite le graphique des distances d’accès et recherche les sommets et les creux dans le graphique. Un creux, ou un groupe d’entités ayant des distances d’accès relativement faibles, est un agrégat de points proches les uns des autres. Une fois tous les points d’un agrégat tracés sur le graphique, le point suivant, ne faisant pas partie d’un agrégat, aura une distance d’accès relativement élevée, correspondant à un sommet sur le graphique.
Le graphique suivant présente un exemple de diagramme d’accès et les agrégats de points correspondants :
Dans cet exemple, tous les points bleus sont rapprochés, la distance d’accès entre eux est donc faible. (Les lignes rouges représentent la distance d’accès de point à point.) Sur le diagramme, ces points correspondent au creux en bleu. Il existe ensuite une distance relativement importante entre le dernier point bleu et son unique prochain voisin le plus proche, correspondant à une forte augmentation de la distance d’accès sur le diagramme.
Dans le creux en vert se trouve un sommet assez petit par rapport aux deux sommets plus élevés de part et d’autre du creux. Selon la sensibilité de l’agrégat de l’algorithme OPTICS, ce petit sommet peut diviser le creux en deux ou peut être considéré comme faisant partie du creux.
- Dans la fenêtre Geoprocessing (Géotraitement), dans Output Features (Entités en sortie), saisissez OPTICS_500. Pour Clustering Method (Méthode d’agrégation), sélectionnez Multi-scale (OPTICS) [Multi-échelle (OPTICS)].
Cette méthode requiert une distance de recherche. Par défaut, la distance de recherche est définie sur la précédente distance utilisée, 0,1 mile (0,16 Km). Cette méthode inclut également un paramètre facultatif, Cluster Sensitivity (Sensibilité de l’agrégat). Vous en apprendrez davantage sur ce paramètre ultérieurement. Pour l'instant, laissez-le vide.
- Cliquez sur Run (Exécuter). Une fois l’exécution de l’outil terminée, désactivez la couche HDBSCAN_500.
Conseil :
Maintenant que vous avez ajouté quelques couches à votre carte, il peut être utile de réduire les légendes des couches que vous n’utilisez pas pour permettre d’y accéder plus facilement dans la fenêtre Contents (Contenu). Pour réduire une légende, cliquez sur la flèche en regard du nom de la couche.
Les résultats de cette méthode d’agrégation sont similaires aux résultats de la méthode DBSCAN. La méthode OPTICS est similaire à la méthode DBSCAN, mais la méthode OPTICS représente des agrégats de diverses densités en s’appuyant sur des sommets et creux relatifs plutôt que sur des distances absolues.
Ce que la méthode considère un sommet et une vallée dépend de la sensibilité de son agrégat. Puisque vous n’avez pas défini une sensibilité de l’agrégat, l’outil utilise une valeur de sensibilité basée sur la dispersion statistique des données. Vous allez examiner les détails de l’outil pour voir quelle sensibilité a été utilisée.
- Au bas de la fenêtre Geoprocessing (Géotraitement), cliquez sur View Details (Afficher les détails).
La fenêtre Density-based Clustering (Agrégation basée sur la densité) s’ouvre et affiche des informations sur la valeur de sensibilité utilisée pour l’agrégat.
L’outil a utilisé une sensibilité de l’agrégat de 28. (La valeur de sensibilité doit toujours être un entier compris entre 0 et 100.) Vous allez exécuter l'outil à nouveau avec différentes sensibilités de l’agrégat et observez comment cela modifie les résultats.
- Fermez la fenêtre Density-based Clustering (Agrégation basée sur la densité). Dans la fenêtre de l’outil Density-based Clustering (Agrégation basée sur la densité), définissez Output Features (Entités en sortie) sur OPTICS_500_Sensitivity_0 et Cluster Sensitivity (Sensibilité de l’agrégat) sur 0.
- Cliquez sur Run (Exécuter). Une fois l’exécution de l’outil terminée, désactivez OPTICS_500 et zoomez sur San Francisco.
Conseil :
Pour mieux voir les agrégats obtenus, dans la fenêtre Contents (Contenu), décochez Hybrid Reference Layer (Couche de référence hybride).
À ce niveau de sensibilité, les agrégats sont relativement importants.
- Dans la fenêtre de l’outil Density-based Clustering (Agrégation basée sur la densité), définissez Output Features (Entités en sortie) sur OPTICS_500_Sensitivity_100 et Cluster Sensitivity (Sensibilité de l’agrégat) sur 100. Cliquez sur Run (Exécuter).
- Une fois l’outil exécuté, désactivez la couche OPTICS_500_Sensitivity_0.
La couche OPTICS_500_Sensitivity_0, qui présente une plus grande sensibilité, a créé des agrégats plus petits et plus compacts.
Pour notre exercice, qui consiste à identifier un lieu fréquenté pour l’ouverture d’une entreprise, l’utilisation d'une sensibilité plus élevée est probablement plus appropriée. Si une sensibilité plus basse peut vous aider à délimiter des zones plus étendues de fréquentation, les sensibilités plus élevées indiquent des lieux concentrant des niveaux élevés de géolocalisations, c’est-à-dire, des lieux où la fréquentation est importante.
- Désactivez la couche OPTICS_500_Sensitivity_100, activez la couche Bay Area Gowalla Check-ins (Géolocalisation Gowalla dans la région de la baie), et zoomez pour afficher l’étendue totale des données. Rétablissez le fond de carte topographique.
- Enregistrez le projet.
Vous avez analysé vos données spatialement. Via l’agrégation et l’agrégation spatiale, vous avez déterminé les emplacements où l’on trouve des densités particulièrement élevées de géolocalisations et vous avez appris certaines façons d’ajuster vos résultats d’analyse en fonction de vos objectifs spécifiques.
Vos données comprennent encore un composant que vous n’avez pas étudié : le temps. Vous allez à présent analyser vos données temporellement pour identifier les lieux fréquentés dans la région de la baie.
Analyser les données temporellement
Vos données incluent à la fois une dimension spatiale et une dimension temporelle. L’analyse des tendances spatiales est utile, mais cela ne vous donne pas la vue d’ensemble. Après tout la fréquentation des lieux peut évoluer dans le temps, particulièrement dans les centres urbains densément peuplés où de nouveaux magasins ouvrent et ferment fréquemment. Il serait préférable d’ouvrir votre entreprise à un emplacement dont la fréquentation augmente au lieu de diminuer.
Convertir le champ temporel
Le champ Check-in Time (Date/heure de géolocalisation) contient la date et l’heure à laquelle une géolocalisation a été effectuée. Cependant, le champ contient une chaîne de texte que ArcGIS Pro ne reconnaît pas automatiquement comme un horodatage. Pour utiliser ce champ pour une analyse temporelle, vous allez le convertir en un format de champ de données reconnu.
- Si nécessaire, ouvrez votre projet Bay Area Popular Places (Lieux fréquentés de la région de la baie) dans ArcGIS Pro.
- Dans la fenêtre Geoprocessing (Géotraitement), accédez à l’outil Convert Time Field (Convertir un champ temporel) et ouvrez-le.
Cet outil convertit les valeurs d’heure et de date d’une chaîne de texte en un champ de date.
- Dans la fenêtre de l’outil Convert Time Field (Convertir un champ temporel), pour Input Table (Table en entrée), sélectionnez Bay Area Gowalla Check-ins. Pour Input Time Field (Champ temporel en entrée), choisissez Check-in Time (Heure de géolocalisation).
Vous allez ensuite définir le format date/heure en entrée (le format actuellement utilisé par le champ). Le format est écrit en lettres pour représenter différentes unités de temps, comme Y pour Year (année) et H pour Heure. Le format utilisé dans la table est yyyy-MM-ddTHH:mm:ssZ, le T et le Z étant des constantes that ne représentant aucune unité de temps.
- Pour Input Time Format (Format date/heure en entrée), saisissez yyyy-MM-ddTHH:mm:ssZ.
Conseil :
Pour définir le paramètre, vous pouvez saisir le format ou cliquer sur le bouton Set Format (Définir le format) et choisir parmi une liste de formats. Le format utilisé par le champ Check-in Time (Date/heure de géolocalisation) ne figure pas parmi les formats de la liste, il est donc nécessaire de saisir le format.
Vous laisserez les autres paramètres inchangés.
- Cliquez sur Run (Exécuter).
L’outil s’exécute.
- Dans la fenêtre Contents (Contenu), cliquez avec le bouton droit sur Bay Area Gowalla Check-ins (Géolocalisations Gowalla dans la région de la baie) et cliquez sur Attribute Table (Table attributaire).
Le champ Check_in_Time_Converted a été ajouté à la fin de la table avec les temps de géolocalisations convertis.
- Fermez la table.
Créer un diagramme des données temporelles
Votre classe d'entités contient des données temporelles pouvant être traitées et analysées par ArcGIS Pro. Vous allez ensuite créer une horloge de données. Les horloges de données sont un type de diagramme qui synthétise les données temporelles. Vous utiliserez ce diagramme pour identifier des tendances dans les données temporelles des géolocalisations.
- Dans la fenêtre Contents (Contenu), cliquez avec le bouton droit sur Bay Area Gowalla Check-ins (Géolocalisations Gowalla dans la région de la baie), pointez sur Create Chart (Créer un diagramme) et sélectionnez Data Clock (Horloge de données).
La vue Bay Area Gowalla Check-ins - Data Clock 1 (Géolocalisations Gowalla dans la région de la baie - Horloge de données 1) et la fenêtre Chart Properties (Propriétés du diagramme) s’ouvrent. Pour créer le diagramme, vous allez modifier les paramètres dans la fenêtre. Vous allez créer un diagramme permettant de visualiser le nombre total de géolocalisations par année et par mois.
- Dans la fenêtre Chart Properties (Propriétés du diagramme), pour Date, choisissez Check_in_Time_Converted. Vérifiez que Rings (Anneaux) est défini sur Years (Années), que Wedges (Secteurs) est défini sur Months (Mois), et Aggregation (Agrégation) sur Count (Total).
L’horloge de données est créée.
Dans cette horloge de données, chaque cercle concentrique (anneau) représente une année, et chaque segment de cercle (secteur) représente un mois. La couleur de chaque secteur représente le nombre total de géolocalisations effectuées au cours de ce mois, les couleurs d’un bleu plus foncé indiquent un plus grand nombre de géolocalisations. Les secteurs en gris n'ont pas de données.
Votre horloge de données comporte deux anneaux : 2009 et 2010. Les données de géolocalisation ont été recueillies pour la première fois en mars 2009 et pour la dernière fois en octobre 2010. Le nombre de géolocalisation est resté faible jusqu’à la fin de l’année 2009, à mesure qu’augmentait le nombre d’utilisateurs du service Gowalla. Les mois de mars, avril, août et septembre 2010 ont enregistré le plus grand nombre de géolocalisations.
- Dans la fenêtre Chart Properties (Propriétés du diagramme), pour Rings (Anneaux), choisissez Weeks (Semaines). Pour Wedges (Secteurs), choisissez Days of the Week (Jours de la semaine).
L’horloge de données se met à jour.
L’horloge de données contient significativement plus d’anneaux, mais seulement sept secteurs dans chaque anneau, un pour chaque jour de la semaine. Selon cette horloge de données, les jours de fin de semaine (samedi et dimanche) sont ceux qui enregistrent le nombre le plus important de géolocalisations. Cette tendance semble logique, la plupart des gens ne travaillant pas le weekend, ils disposent ainsi de plus de temps libre pour se rendre dans d’autres lieux.
En fonction du type d’entreprise que vous souhaitez démarrer, l’heure de la journée à laquelle se produisent les géolocalisations peut également vous intéresser. Visualiser les données horaires d’une année entière peut être compliqué, vous allez donc créer une classe d’entités ne comportant qu’un sous-ensemble des données et créer un diagramme pour ces dernières.
- Dans la fenêtre Chart Properties (Propriétés du diagramme), modifiez Rings (Anneaux) pour Years (Années) et Wedges (Secteurs) pour Months (Mois). Sur l’horloge de données, appuyez sur Ctrl tout en cliquant sur les secteurs Août 2010 et Septembre 2010 pour les sélectionner.
Conseil :
Une autre façon de sélectionner plusieurs secteurs est de tracer un rectangle autour d’eux.
Toutes les géolocalisations effectuées pendant les dates sélectionnées sont également sélectionnées sur la carte.
Dans ArcGIS Pro, lorsqu'un outil géotraitement est exécuté sur un jeu de données celui-ci est exécuté uniquement sur les entités sélectionnées, si une sélection a été effectuée. Vous allez maintenant copier les entités sélectionnées dans un nouveau jeu de données.
- Ouvrez la fenêtre Geoprocessing (Geotraitement) et cliquez sur le bouton Back (Retour). Recherchez et ouvrez l’outil Copy Features (Copier des entités).
- Dans la fenêtre de l’outil Copy Features (Copier des entités), pour Input Features (Entités en entrée), sélectionnez Bay Area Gowalla Check-ins. Dans Output Feature Class (Classe d’entités en sortie), saisissez Check_ins_Aug_Sep_2010.
- Cliquez sur Run (Exécuter).
La classe d'entités copiée est ajoutée à la carte.
- Dans la fenêtre Contents (Contenu), cliquez avec le bouton droit sur Check_ins_Aug_Sep_2010, pointez sur Create Chart (Créer un diagramme), et choisissez Data Clock (Horloge de données).
Une nouvelle horloge de données est créée.
- Dans la fenêtre Chart Properties (Propriétés du diagramme), pour Date, choisissez Check_in_Time_Converted. Pour Rings (Anneaux), choisissez Days (Jours), et pour Wedges (Secteurs), choisissez Hours (Heures).
L’horloge de données se met à jour automatiquement avec 24 secteurs, un pour chaque heure de la journée.
Les géolocalisations sont peu nombreuses pendant les premières heures des horaires de bureau, avec des chiffres particulièrement bas entre 6 h et 14 h. Les niveaux les plus importants de géolocalisations étant enregistrés entre 19 h et 21 h. et entre 01 h et 02 h. Ces tendances peuvent signaler une forte affluence de clients dans les restaurants en soirée ou dans les discothèques tard dans la nuit.
- Fermez l’horloge de données Counts of Check_in_Time_Converted by Hours over Days (Total des Check_in_Time_Converted en heures par jour). Dans la fenêtre Contents (Contenu), cliquez avec le bouton droit sur Check_ins_Aug_Sep_2010, puis sélectionnez Remove (Supprimer).
Pour votre analyse suivante, vous allez travailler uniquement avec les données de géolocalisations comprises entre décembre 2009 et septembre 2010, c’est-à-dire la période de 10 mois où l’on compte le plus grand nombre de géolocalisations. L’utilisation de ce sous-ensemble de données dans l’analyse suivante supprimera les enregistrements correspondant à la période où l’application de réseau social comptait encore peu d’utilisateurs. Ces périodes de faible utilisation peuvent fausser les résultats.
- Dans l’horloge de données Counts of Check_in_Time_Converted by Months over Years (Total des Check_in_Time_Converted en mois par années), appuyez sur la touche Ctrl tout en sélectionnant les mois allant de décembre 2009 à septembre 2010.
- Fermez l’horloge des données. Enregistrez le projet.
Analyser les tendances à l’aide d’un cube spatio-temporel
Les diagrammes que vous avez créés vous ont aidé à dégager les tendances des géolocalisations contenues dans l’ensemble du jeu de données. Mais que se passerait-il si vous souhaitiez analyser des tendances ayant à la fois une dimension temporelle et spatiale ? Quels voisinages enregistrent le plus de géolocalisations ? La fréquentation de certains voisinages augmente-t-elle ou diminue-t-elle dans le temps ? Pouvoir répondre à ces questions peut s’avérer essentiel lorsqu’on choisit l’emplacement pour ouvrir une nouvelle entreprise.
Pour analyser ensemble les dimensions spatiale et temporelle de vos données, vous devez créer une structure de données spatio-temporelles (c’est-à-dire une structure de données tenant en compte à la fois des dimensions spatiale et temporelle). Cette structure de données synthétisera les points de géolocalisation selon une zone et un incrément de temps fixe.
Vous allez utiliser l’outil Create Space Time Cube (Créer un cube spatio-temporel) pour définir une structure de données spatio-temporelles pour vos données. Le jeu de données obtenu peut être considéré comme un cube car il possède trois dimensions : deux dimensions pour l’espace (x et y) et une troisième pour le temps (t).
- Dans la fenêtre Géotraitement, cliquez sur le bouton Retour. Recherchez Create Space Time Cube (Créer un cube spatio-temporel).
La recherche renvoie trois résultats pour Create Space Time Cube (Créer un cube spatio-temporel).
L’outil que vous choisissez dépend de vos données. Vos données de géolocalisations proviennent de différents emplacements ponctuels dans l’espace, vous voulez donc agréger les points. Si, au contraire, vos données proviennent de stations ou d’autres emplacements ayant des géographies fixes comme les caméras de circulation ou les dispositifs de péage), vous devrez créer un cube spatio-temporel à partir d’emplacements définis. Si vos données proviennent d’une couche raster multidimensionnelle, vous devrez choisir l’outil approprié.
- Cliquez sur Create Space Time Cube By Aggregating Points (Créer un cube spatio-temporel en agrégeant des points).
- Pour Input Features (Entités en entrée), sélectionnez Bay Area Gowalla Check-ins (Géolocalisations Gowalla dans la région de la baie). Pour Output Space Time Cube (Cube spatio-temporel en sortie), saisissez Check_ins_STC.
Une fois le nom de sortie saisi, l’extension .nc est automatiquement ajoutée à la fin. L’extension correspond au format netCDF, le type de fichier utilisé par les cubes spatio-temporels.
- Pour Time Field (Champ temporel), choisissez Check_in_Time_Converted.
Vous allez ensuite choisir l’intervalle temporel, ou groupe temporel, selon lequel agréger les points. L’intervalle de groupe temporel doit correspondre à l’échelle de temps appropriée pour votre analyse. Vous voulez savoir s’il existe des tendances sur le long terme en termes de fréquentation, un groupe temporel horaire ou journalier ne sera donc pas utile. Vous allez donc utiliser un intervalle mensuel. (Si, pour l’entreprise que vous comptez ouvrir, vous voulez connaître l’augmentation de l’activité à des heures spécifiques de la journée, comme dans le cas d’un café, vous serez peut-être davantage intéressé par le groupe horaire afin d’identifier les lieux les plus fréquentés pendant ces horaires.)
- Dans Intervalle temporel, tapez 1, puis sélectionnez Mois.
Vous choisirez également la forme de la zone pour l’agrégation spatiale. Vous allez utiliser une zone d’agrégation hexagonale, car de toutes les formes disponibles, ce sont les hexagones qui présentent le nombre le plus élevé de voisins spatiaux (6). En outre, dans une grille hexagonale, tous les hexagones voisins se trouvent à une distance constante. Vous allez ensuite définir des voisinages spatio-temporels selon une distance, Les hexagones auront donc un avantage par rapport à une grille quadrillée, dans laquelle certains voisins sont plus éloignés que d’autres.
Vous définirez une largeur d’1 mile (1,6 Km) pour ces hexagones.
- Dans Type de forme d'agrégation, choisissez Hexagone. Pour Distance Interval (Intervalle de distance), saisissez 1, puis sélectionnez US Survey Miles (Miles d’arpentage américains).
- Cliquez sur Run (Exécuter).
L’outil s'exécute et crée un fichier de cube spatio-temporel. Aucune sortie n’est ajoutée à la carte. Pour visualiser le cube spatio-temporel, vous allez exécuter un autre outil.
- Cliquez sur le bouton Back (Retour). Accédez à l'outil Visualize Space Time Cube in 2D (Visualiser le cube spatio-temporel en 2D) et ouvrez-le.
Cet outil crée une couche 2D basée sur un fichier .nc.
- Dans l’outil Visualize Space Time Cube in 2D (Visualiser le cube spatio-temporel en 2D), pour Input Space Time Cube (Cube spatio-temporel en entrée), cliquez sur le bouton Browse (Parcourir).
- Dans la fenêtre Input Space Time Cube (Cube spatio-temporel en entrée), ouvrez le dossier p20. Double-cliquez sur Check_ins_STC.nc.
- Modifiez les paramètres suivants :
- Pour Cube Variable (Variable de cube), sélectionnez COUNT (TOTAL).
- Pour Display Theme (Thème d'affichage), sélectionnez Trends (Tendances).
- Cochez Enable Time Series Pop-ups (Activer les fenêtres contextuelles de série chronologique).
- Pour Output Features (Entités en sortie), saisissez Check_ins_STC_2D.
Ces paramètres vont cartographier les tendances selon les chiffres mensuels de géolocalisations. L’activation des fenêtres contextuelles de série chronologique, vous permet de voir pour chaque groupe une série chronologique présentant les chiffres sur la durée.
- Cliquez sur Run (Exécuter).
L’outil s’exécute et la couche est ajoutée à la carte.
- Dans la fenêtre Contents (Contenu), désactivez la couche Bay Area Gowalla Check-ins (Géolocalisations Gowalla dans la région de la baie). Sur la carte, zoomez sur San Francisco et cliquez sur groupe hexagonal violet.
La fenêtre contextuelle contient un diagramme de série chronologique indiquant le nombre de géolocalisations dans le temps à cet emplacement. Si l’on peut constater des baisses sur la durée, on constate généralement une forte tendance haussière dans les groupes violets.
Les chiffres sur l’axe vertical de la série chronologique indiquent le nombre de géolocalisations. Les géolocalisations de l’hexagone dans l’image d'exemple sont passées d’environ 160 par mois à approximativement 360.
- Cliquez sur un hexagone vert.
Les hexagones verts sont ceux où l’on a détecté une tendance à la baisse. Un grand nombre de ces hexagones enregistrent un faible nombre total de géolocalisations. Dans l’image d'exemple, la zone a connu une baisse, passant de 900 géolocalisations à moins de 600. Bien que la tendance soit à la baisse, les valeurs les plus basses de cette zone restent supérieures aux valeurs les plus élevées de la zone où la tendance est à la hausse.
Les hexagones blancs correspondent aux zones dans lesquelles aucune tendance, haussière ou baissière, n’a été détectée. Le nombre de géolocalisations par mois de ces hexagones peut être stable ou très irrégulier.
- Fermez la fenêtre contextuelle et retournez à la vue de l’ensemble des données.
Lorsque vous avez analysé les données spatialement, vous avez pu constater que le centre-ville de San Francisco était la zone la plus fréquentée. Cependant, une grande partie du centre-ville de San Francisco ne montre aucune tendance haussière ou baissière de la fréquentation. En revanche, la zone de San Jose ou l’est de la baie voient leur fréquentation augmenter. Il peut être intéressant de considérer l’implantation de votre entreprise dans ces zones.
Vous allez ensuite visualiser le cube spatio-temporel en 3D, ce qui vous permettra de voir plus facilement les changements dans le temps sur la carte. (Le temps est la troisième dimension d’un cube spatio-temporel.) Vous allez commencer par insérer une nouvelle scène.
- Sur le ruban, sur l’onglet Insert (Insertion), dans le groupe Project (Projet), cliquez sur la flèche de liste déroulante New Map (Nouvelle carte) et sélectionnez New Local Scene (Nouvelle scène locale).
Une vue de scène est ajoutée au projet.
- Dans la fenêtre Géotraitement, cliquez sur le bouton Retour. Accédez à l'outil Visualize Space Time Cube in 3D (Visualiser le cube spatio-temporel en 3D) et ouvrez-le.
- Dans l’outil Visualize Space Time Cube in 3D (Visualiser le cube spatio-temporel en 3D), modifiez les paramètres suivants :
- Pour Input Space Time Cube (Cube spatio-temporel en entrée), accédez au fichier Check_ins_STC.nc.
- Pour Cube Variable (Variable de cube), sélectionnez COUNT (TOTAL).
- Pour Display Theme (Thème d'affichage), sélectionnez Value (Valeur).
- Pour Output Features (Entités en sortie), saisissez Check_ins_STC_3D.
- Cliquez sur Run (Exécuter).
L'outil s'exécute et la couche de résultats est ajoutée à la scène.
- Déplacez, zoomez et inclinez la scène pour étudier les résultats.
Conseil :
Pour incliner la carte, appuyez sur V et faites-la glisser. Pour déplacer la carte, appuyez sur C et faites-la glisser.
Dans cette visualisation, la hauteur de chaque groupe d’hexagones est composée de segments, chaque segment correspondant à un mois différent. La couleur de chaque segment indique le nombre de géolocalisations dans cette zone pour ce mois.
Contrairement à la visualisation 2D, chaque segment est symbolisé par un nombre total de géolocalisations, et non par des tendances à la hausse ou à la baisse. Comme vous l’avez remarqué dans votre analyse spatiale, le centre-ville de San Francisco est la zone qui enregistre le nombre le plus élevé de géolocalisations, bien que sa fréquentation ne soit pas en hausse. La plupart des groupes des autres emplacements enregistrent un faible nombre de géolocalisations et sont symbolisés en blanc.
- Enregistrez le projet.
Détecter les agrégats temporels
Vous allez ensuite détecter les agrégats temporels des géolocalisations dans votre cube spatio-temporel. L'agrégation temporelle est semblable à l’agrégation spatiale dans la mesure où elle identifie les emplacements présentant une forte densité d’entités. La seule différence étant que l’agrégation temporelle regroupe les agrégats en fonction de leur proximité temporelle au lieu de la proximité spatiale.
- Au-dessus de la scène, cliquez sur l’onglet Map (Carte).
Vous revenez à la vue Map (Carte).
- Dans la fenêtre Géotraitement, cliquez sur le bouton Retour. Accédez à l'outil Time Series Clustering (Agrégation de série chronologique) et ouvrez-le.
- Dans l’outil Time Series Clustering (Agrégation de série chronologique), pour Input Space Time Cube (Cube spatio-temporel en entrée), accédez au fichier Check_ins_STC.nc et sélectionnez-le. Pour Analysis Variable (Variable d'analyse), sélectionnez COUNT (TOTAL), et pour Output Features (Entités en sortie), saisissez Check_ins_Monthly_Time_Clusters.
Vous pouvez également agréger les données en fonction de l’une des trois caractéristiques remarquables. Vous découvrirez les autres caractéristiques ultérieurement, mais pour l’instant, vous allez agréger ensemble les emplacements présentant des valeurs similaires dans le temps.
- Pour Characteristic of Interest (Caractéristique remarquable), sélectionnez Value (Valeur).
Vous pouvez également définir le nombre d’agrégats créés par l’outil. Si ce nombre est laissé inchangé, l’outil utilisera un nombre optimal basé sur les données. Vous allez créer trois agrégats, correspondant aux groupes de fréquentation élevée, moyenne, et faible.
- Dans Number of Clusters (Nombre d’agrégats), saisissez 3. Cochez Enable Time Series Pop-ups (Activer les fenêtres contextuelles de série chronologique).
Vous allez également créer une table en sortie de façon à tracer un diagramme des résultats.
- Pour Output Table for Charts (Table en sortie pour les diagrammes), saisissez Clustering_Tables.
- Cliquez sur Run (Exécuter). Une fois l’outil exécuté, désactivez la couche Check_ins_STC_2D.
La couche des agrégats apparaît sur la carte.
Les groupes hexagonaux sont agrégés en trois groupes : bleu, rouge et vert. Pour découvrir ce que signifient ces agrégats, vous allez ouvrir le diagramme que vous avez créé avec l’outil.
- Dans la fenêtre Contents (Contenu), sous Standalone Tables (Tables autonomes), double-cliquez sur Average Time Series per Cluster (Série chronologique moyenne par agrégat). (Il peut être nécessaire de faire défiler la liste pour le voir.)
Le diagramme apparaît.
Remarque :
Les couleurs attribuées à chaque groupe sont attribuées au hasard et vos couleurs peuvent être différentes de celles des exemples. Quelle que soit la couleur, les nombres sont les mêmes et les données ont la même signification.
Dans le graphique Average Time Series per Cluster (Moyenne des séries chronologiques par agrégat) ci-dessus, les hexagones bleus correspondent à des emplacements qui ont généralement peu de géolocalisations. (Tous comptent au moins une géolocalisation, sans quoi ils n’auraient pas été inclus.) Les hexagones verts sont des emplacements ayant davantage de géolocalisations mais, bien que le nombre de géolocalisations soit élevé, il varie significativement d’un mois à l’autre. Sur la carte, seul un hexagone vert a été identifié (dans le centre-ville de San Francisco). Ces variations peuvent être dues aux variations saisonnières liées au tourisme. L’agrégat rouge regroupe des emplacements du centre-ville qui peuvent être fréquentés par la population locale, ce qui se traduit par une fréquentation relativement constante tout au long de l’année.
- Sur la carte, zoomez sur le centre-ville de San Francisco et cliquez sur l’hexagone vert.
Remarque :
La couleur de l’hexagone peut varier sur votre écran. Cliquez sur l’hexagone qui est d’une couleur différente des autres.
La fenêtre contextuelle montre le diagramme de série chronologique à cet emplacement. La ligne verte en pointillée montre le nombre moyen de géolocalisations pour les hexagones se trouvant dans l’agrégat vert.
- Fermez la fenêtre contextuelle et le diagramme.
Vous avez identifié des agrégats d’emplacements comportant des nombres similaires de géolocalisations sur la durée. Vous avez également identifié des agrégats de zones présentant des tendances temporelles similaires. Par exemple, supposons que deux zones enregistrent des hausses et baisses similaires du nombre de géolocalisations dans le temps en raison des variations saisonnières liées au tourisme. Cependant, une de ces zones enregistre un nombre total de géolocalisations significativement plus élevé que l’autre. Avec une agrégation basée sur la valeur, ces zones ne sont pas agrégées. Mais elles le sont lorsque l’agrégation est basée sur le profil.
L’agrégation d’emplacements par profil est utile pour les entreprises cherchant à cibler une variation saisonnière spécifique. Il existe deux méthodes d’agrégation par profil. Vous allez utiliser la méthode d’agrégation de série chronologique basée sur la famille. La méthode Fourier identifie les zones présentant différents changements de fréquentation au long de l’année.
- Dans l’outil Time Series Clustering (Agrégation de série chronologique), pour Output Features (Entités en sortie), saisissez Check_ins_Monthly_Time_Clusters_Fourier. Pour Characteristic of Interest (Caractéristique remarquable), sélectionnez Profile (Fourier) [Profil (Fourier)]
Vous pouvez ignorer certaines caractéristiques de votre série chronologique en exécutant l’outil. Vous allez ignorer les caractéristiques de Range (Plage) (dans ce cas, le nombre de géolocalisations). De cette façon, vous allez identifier les emplacements ayant des tendances de fréquentation similaires indépendamment du nombre absolu d'actualisations. Vous allez également permettre à l’outil de déterminer le nombre idéal d’agrégats à créer.
- Pour Time Series Characteristics to Ignore (Caractéristiques de série chronologique à ignorer), cochez Range (Plage). Dans Number of Clusters (Nombre d’agrégats), saisissez 3.
- Cochez Enable Time Series Pop-ups (Activer les fenêtres contextuelles de série chronologique).
- Pour Output Table for Charts (Table en sortie pour les diagrammes), saisissez Clustering_Tables_Fourier.
- Cliquez sur Run (Exécuter). Une fois l’exécution de l’outil terminée, désactivez la couche Check_ins_Monthly_Time_Clusters.
La couche des agrégats apparaît sur la carte.
Les hexagones de chaque couleur sont beaucoup plus nombreux lorsque vous utilisez le profil (Fourier).
- Dans la fenêtre Contents (Contenu), sous Clustering_Tables_Fourier, double-cliquez sur Average Time Series per Cluster (Série chronologique moyenne par agrégat).
Dans ce diagramme, le rouge correspond aux hexagones avec un nombre de géolocalisations plus important, en particulier au printemps. Le bleu correspond aux hexagones avec moins de géolocalisations tout au long de l’année et le vert à un nombre accru de géolocalisations. On trouve chaque type d’agrégat à travers la région de la baie, au lieu d’être associé aux zones comportant un plus grand nombre de géolocalisations en général (comme le centre-ville de San Francisco).
- Fermez le diagramme et enregistrez le projet.
Vous avez analysé les tendances temporelles dans vos données pour identifier les emplacements dont la fréquentation augmente avec le temps et les emplacements pour lesquels la fréquentation varie selon des cycles saisonniers. Vous serez bientôt en mesure d’exploiter pleinement le potentiel de vos données afin de prendre une décision éclairée sur le lieu le plus adapté pour l’ouverture de votre entreprise.
Terminez votre analyse
Au cours de ce didacticiel, vous avez analysé vos données spatialement et temporellement. Vos résultats peuvent varier considérablement selon la méthode que vous utilisez pour détecter les agrégats dans vos données. Vous allez ensuite combiner vos résultats et prendre une décision concernant l’emplacement de votre nouvelle entreprise.
Détecter les points chauds sur le plan spatial et le plan temporel
Dans votre analyse finale, vous examinerez simultanément les données spatiales et temporelles. À l'aide de l’outil Emerging Hot Spot Analysis (Analyse des points chauds émergents) (EHSA), vous allez classer les modèles dans votre cube spatio-temporel selon l’une des 17 catégories possibles.
Contrairement à l’agrégation de séries chronologiques, l’analyse des points chauds émergents détermine si les voisins de groupe d’un cube spatio-temporel présentent un nombre de géolocalisations significativement supérieur à (point chaud) ou inférieur à (point froid) la moyenne globale. Une fois chaque emplacement du cube spatio-temporel défini comme point chaud, point froid, ou ni l’un ni l’autre, l’analyse des points chauds émergents examine les variations du score z pour chaque emplacement dans le temps pour déterminer si l’emplacement est un point chaud ou un point froid de type consécutif, intensification, diminution ou sporadique.
Le résultat final tient compte à la fois des variations spatiales et temporelles dans les données.
- Si nécessaire, ouvrez votre carte Bay Area Popular Places (Lieux fréquentés de la région de la baie) dans ArcGIS Pro.
- Dans la fenêtre Géotraitement, recherchez et ouvrez l'outil Analyse de points chauds émergents. Renseignez les paramètres suivants :
- Pour Input Space Time Cube (Cube spatio-temporel en entrée), accédez au fichier Check_ins_STC.nc et sélectionnez-le.
- Pour Variable d’analyse, sélectionnez COUNT.
- Pour Output Features (Entités en sortie), saisissez Check_ins_Emerging_Hot_Spots.
- Pour Neighborhood Distance (Distance de voisinage ), saisissez 1 et choisissez Miles.
Pour chaque emplacement, l’analyse des points chauds émergents examine tous les emplacements de voisinage dans un rayon d’un mile (1,6 Km) pour effectuer l’analyse. Vous avez créé précédemment un cube spatio-temporel avec une grille hexagonale, ce qui est idéal pour l’analyse de voisinage puisque chaque hexagone est équidistant.
- Cliquez sur Run (Exécuter). Une fois l’exécution de l’outil terminée, désactivez la couche Check_ins_Monthly_Time_Clusters_Fourier.
Les points chauds se trouvent dans le centre-ville de San Francisco, ainsi que dans plusieurs villes de plus petite taille dans le sud de la baie, comme Palo Alto, Mountain View, et San Jose. La plupart des points chauds du centre-ville de San Francisco sont des points chauds persistants, ce qui signifie que cette caractéristique est restée stable au fil du temps. Les autres zones sont soit de nouveaux points chauds, ce qui signifie qu’ils ne sont devenus des points chauds qu’à la fin de la série chronologique, soit des points chauds sporadiques, indiquant que cette caractéristique est vraie à certains moments et pas à d’autres.
Notez que les zones caractérisées par des agrégats de chiffres élevés et moyens par l’agrégation de séries chronologiques sont affichées comme points chauds consécutifs. Ceci implique que le voisinage de ces zones présente des valeurs plus élevées que le nombre moyen de géolocalisations dans la région de la baie pour la plupart des intervalles temporels. En d’autres termes, ces zones affichent une fréquentation plus importante que le reste de la région de la baie pour la majorité des intervalles temporels dans le cube spatio-temporel. Contrairement à San Francisco, la fréquentation de ces zones semble progresser avec le temps.
Vous pouvez également visualiser les résultats en 3D.
- Dans la fenêtre Contents (Contenu), cliquez avec le bouton droit sur la couche Check_ins_Emerging_Hot_Spots et choisissez Copy (Copier). Au-dessus de la carte, cliquez sur l’onglet Scene (Scène) pour revenir à votre scène.
- Dans la fenêtre Contents (Contenu), cliquez avec le bouton droit sur Scene (Scène) et choisissez Paste (Coller).
La couche de points chauds apparaît dans la scène.
Maintenant que vous avez exécuté l’analyse des points chauds émergents sur votre cube spatio-temporel, vous pouvez visualiser vos données en fonction des résultats de l’analyse.
- Dans la fenêtre Géotraitement, cliquez sur le bouton Retour. Accédez à l'outil Visualize Space Time Cube in 3D (Visualiser le cube spatio-temporel en 3D) et ouvrez-le, puis saisissez les paramètres suivants :
- Pour Input Space Time Cube (Cube spatio-temporel en entrée), accédez au fichier Check_ins_STC.nc et sélectionnez-le.
- Pour Cube Variable (Variable de cube), sélectionnez COUNT (TOTAL).
- Pour Display Theme (Thème d'affichage), choisissez Hot and cold spot results (Résultats des points chauds et froids).
- Pour Output Features (Entités en sortie), saisissez Check_ins_STC_Hot_Spots.
- Cliquez sur Run (Exécuter).
- Désactivez la couche Check_ins_STC_3D. Explorez la scène.
Dans les zones considérées comme nouveaux points chauds, seul le mois le plus récent (le groupe hexagonal tout en haut de la colonne) est considéré comme étant un point chaud. Les points chauds prennent le statut de point chaud et le perdent alternativement. Dans le centre-ville de San Francisco, les zones sont chaque mois des points chauds, ce qui en fait des points chauds persistants.
- Cliquez sur l’onglet Map (Carte) pour revenir à la vue cartographique.
Lorsque vous avez exécuté l’analyse des points chauds émergents, vous avez choisi une distance de 1 mile (1,6 Km). Le fait de modifier la distance de voisinage modifiera également vos résultats.
- Dans la fenêtre Géotraitement, cliquez sur le bouton Retour. Recherchez et ouvrez l’outil Emerging Hot Spot Analysis (Analyse des points chauds émergents) et saisissez les paramètres suivants :
- Pour Input Space Time Cube (Cube spatio-temporel en entrée), accédez au fichier Check_ins_STC.nc et sélectionnez-le.
- Pour Variable d’analyse, sélectionnez COUNT.
- Pour Output Features (Entités en sortie), saisissez Check_ins_Emerging_Hot_Spots_5mi.
- Pour Neighborhood Distance (Distance de voisinage), saisissez 5 et choisissez US Survey Miles (Miles d’arpentage américains).
- Cliquez sur Run (Exécuter). Une fois l’exécution de l’outil terminée, désactivez la couche Check_ins_Emerging_Hot_Spots.
Lorsqu’une plus grande taille de voisinage est utilisée, les zones plus importantes sont considérées comme des points chauds.
Décidez où vous souhaitez ouvrir votre entreprise
Vous allez ensuite déterminer le meilleur emplacement pour ouvrir votre nouvelle entreprise. Pour cela, vous allez superposer vos agrégats spatiaux, agrégats temporels, et points chauds émergents. Les critères de combinaison de ces couches dépendront de ce qui, selon vous, représente les conditions idéales pour votre entreprise.
Vous allez commencer par sélectionner les zones présentant des agrégats spatiaux avec une forte densité de géolocalisations. Ces zones indiquent un fort trafic piétonnier, ce qui constitue un élément positif pour une nouvelle entreprise. Vous avez effectué une analyse d'agrégat spatial à l’aide de trois méthodes différentes : DBSCAN, HDBSCAN, et OPTICS. Parmi ces trois méthodes, la méthode HDBSCAN s’est révélée la plus adaptée à votre zone d’étude, puisqu’elle tenait compte des différences de population entre les zones urbaines, périurbaines et rurales de la région de la baie.
- Sur le ruban, sous l’onglet Map (Carte), dans le groupe Selection (Sélection), cliquez sur Select By Attributes (Sélectionner selon les attributs).
Lorsque vous avez exécuté l’analyse d'agrégat, les couches de résultats comprenaient le champ attributaire Cluster ID (ID d’agrégat). Dans ce champ, toute entité ayant une valeur de -1 n’était pas un agrégat. Vous allez sélectionner toutes les zones qui étaient des agrégats.
- Dans la fenêtre Select By Attributes (Sélectionner par attributs), pour Input Rows (Lignes en entrée), sélectionnez HDBSCAN_500. Sous Expression, créez l’expression Cluster ID is not equal to -1 (L’ID d’agrégat n’est pas égal à -1).
- Cliquez sur Apply (Appliquer). Désactivez la couche Check_ins_Emerging_Hot_Spots_5mi et activez la couche HDBSCAN_500.
Toutes les zones marquées comme agrégats sont sélectionnées.
Vous allez ensuite supprimer la clause que vous venez d’exécuter et sélectionner les emplacements qui sont des points chauds nouveaux, consécutifs ou persistants.
- Dans l’outil Select By Attribute (Sélectionner par attribut), cliquez sur Remove Clause (Supprimer la clause).
- Pour Input Rows (Lignes en entrée), choisissez Check_ins_Emerging_Hot_Spots.
- Créez l’expression Where Pattern Type COUNT includes the value(s) Consecutive Hot Spot, New Hot Spot, Persistent Hot Spot (Lorsque le type de modèle COUNT inclut les valeurs Point chaud consécutif, Nouveau point chaud, Point chaud persistant).
- Cliquez sur Apply (Appliquer). Désactivez la couche HDBSCAN_500 et activez la couche Check_ins_Emerging_Hot_Spots.
Les points chauds sont sélectionnés.
Vous allez ensuite sélectionner les agrégats temporels mensuels qui enregistrent une augmentation du trafic pendant une saison spécifique. Selon le type d’entreprise que vous comptez ouvrir, les zones enregistrant une augmentation du trafic durant certaines saisons peuvent être idéales. Pour cet exercice, vous allez sélectionner les zones où le trafic est plus important en été.
- Dans l’outil Sélectionner une couche par attributs, supprimez l’expression. Pour Input Rows (Enregistrements en entrée), choisissez Check_ins_Monthly_Time_Clusters_Fourier.
Dans cette couche, l’agrégat temporel correspondant à des modèles de trafic élevé pendant les mois d’été est l’agrégat vert, dont l’identifiant est 3.
- Créez l’expression Time-Series Cluster ID is equal to 3 (ID d’agrégat de séries chronologiques est égal à 3).
- Cliquez sur OK. Désactivez la couche Check_ins_Emerging_Hot_Spots et activez la couche Check_ins_Monthly_Time_Clusters_Fourier.
Vous avez sélectionné des zones en fonction de trois critères. Vous allez ensuite créer une couche ne contenant que des groupes hexagonaux sélectionnés dans les trois couches (c’est-à-dire qui répondent aux trois critères). Il est possible d'ajuster les critères, d’en ajouter d’autres ou de supprimer des critères, selon les besoins spécifiques de votre entreprise. Pour cet exercice, trois critères suffisent.
- Dans la fenêtre Géotraitement, cliquez sur le bouton Retour. Recherchez et ouvrez l’outil Intersect (Intersecter).
Remarque :
En fonction de votre version de ArcGIS Pro, vous recevrez peut-être un message vous demandant d’utiliser l’outil Pairwise Intersect (Intersection deux par deux) pour optimiser les fonctions. Dans ce cas, vous ne pouvez pas utiliser cet outil, car il nécessite au maximum deux entrées et vous en avez trois.
- Pour Input Features (Entités d’entrée), sélectionnez HDBSCAN_500. Pour le prochain enregistrement, choisissez Check_ins_Emerging_Hot_Spots, et dans l’enregistrement suivant, choisissez Check_ins_Monthly_Time_Clusters_Fourier.
Remarque :
Pour choisir plus de deux entités en entrée, vous devez disposer d’une licence ArcGIS Pro Advanced.
Des messages s’affichent sous chaque entité en entrée, expliquant que ces couches comportent des sélections actives.
- Dans Output Feature Class (Classe d’entités en sortie), saisissez Ideal_Locations. Pour Attributes To Join (Attributs à joindre), choisissez Only feature IDs (Identifiants d'entités uniquement).
- Cliquez sur Run (Exécuter). Une fois l’exécution de l’outil terminée, désactivez la couche Check_ins_Monthly_Time_Clusters_Fourier.
Les emplacements idéaux se trouvent à San Francisco, Moutain View et San Jose.
- Zoomez sur les différents points de la carte.
Votre analyse a identifié certaines zones dans San Francisco qui constituent un emplacement idéal.
Si de nombreux points ont été identifiés à Mountain View, ces points sont tous regroupés autour d’une même zone : le centre-ville de Mountain View. Si vous souhaitiez trouver une alternative à San Francisco (peut-être en raison des coûts trop élevés), cette zone serait idéale.
- Revenez à l’étendue globale des données. Enregistrez le projet.
Dans ce didacticiel, vous avez eu recours à la science des données spatio-temporelles pour identifier les lieux fréquentés dans la région de la baie à travers l’espace et le temps. Sur la base de vos résultats, vous avez identifié plusieurs emplacements idéaux pour implanter votre entreprise, ainsi que les avantages et les limites de certaines méthodes d’agrégation spatiale et temporaire.
Vous trouverez d’autres didacticiels dans la bibliothèque des didacticiels.