Configurar el proyecto y examinar los datos

Configurará el proyecto de ArcGIS Pro y examinará los datos de entrada. Aunque primeramente, aprenderá algunos conceptos básicos sobre el flujo de trabajo de aprendizaje automático que se utilizará en este tutorial.

Comprender el flujo de trabajo de aprendizaje automático

El concepto fundamental del aprendizaje automático es permitir que los ordenadores aprendan de datos de muestra y aplicar lo que han aprendido a datos desconocidos. Una forma de hacerlo es entrenar un modelo de regresión y utilizarlo para predecir nuevos resultados. Este es el enfoque que se aplicará en este tutorial.

Desea predecir la biomasa aérea (AGB) a través de varios condados de Georgia. Necesitará los siguientes datos:

  • Datos de muestra objetivo: estos serán un conjunto de valores de AGB conocidos para ubicaciones de muestra. Utilizará datos de puntos extraídos de un dataset de trayectoria lidar de satélite GEDI, como se muestra en la siguiente imagen de ejemplo.

    Datos de puntos extraídos de un dataset de trayectoria lidar de satélite GEDI

  • Variables explicativas: estas serán los datos que pueden explicar los valores de muestra de AGB y posteriormente pueden ayudar a predecir valores de AGB para nuevas áreas. Utilizará imágenes de satélite miultiespectrales Landsat 9, datos del modelo de elevación digital (DEM) y capas de ráster derivadas adicionales. Las siguientes imágenes de ejemplo muestran las imágenes de Landsat (izquierda) y los datos de ráster DEM (derecha).

    Escena de Landsat 9 y ráster DEM

Las imágenes de satélite multiespectrales de Landsat 9 se eligieron como variable explicativa porque las características espectrales del sensor responden a la vegetación, que está directamente relacionada con la biomasa. El Modelo de elevación digital (DEM) captura la variabilidad topológica y complejidad del terreno, que también pueden ser factores que influyen en el crecimiento de la vegetación.

Entrenará el modelo utilizando los datos de muestra objetivo y variables explicativas como entrada. Durante el entrenamiento, el modelo capturará las relaciones entre los valores de muestra y variables explicativas. Una vez que esté satisfecho con el modelo, lo utilizará para predecir valores de AGB a través de toda la extensión de los condados de Georgia. Esta salida será un ráster, tal como se muestra en la siguiente imagen de ejemplo, donde los valores de AGB más altos aparecen en verde oscuro y los valores más bajos en blanco o verde claro.

Ráster con valores de AGB predichos

Descargar y abrir el proyecto

Para empezar, descargará un proyecto que contiene los datos para este tutorial y lo abrirá en ArcGIS Pro.

  1. Descargue el archivo Estimate_Biomass.zip y ubique el archivo descargado en su equipo.
    Nota:

    La mayoría de los navegadores web descargan archivos de manera predeterminada en la carpeta Descargas del equipo.

    El archivo .zip tiene 2,9 GB, por lo que podría tardar unos minutos en descargarse.

  2. Haga clic con el botón derecho en el archivo Estimate_Biomass.zip y descomprímalo en una ubicación de su equipo, como por ejemplo la unidad C.
  3. Abra la carpeta Estimate_Biomass extraída y haga doble clic en Estimate_Biomass.aprx para abrir el proyecto en ArcGIS Pro.

    Estimate_Biomass.aprx

  4. Si se le pide, inicie sesión en su cuenta de organización de ArcGIS.
    Nota:

    Si no tiene acceso a ArcGIS Pro o una cuenta de organización de ArcGIS, consulte las opciones de acceso a software.

    Se abrirá el proyecto.

    Vista inicial del proyecto

    El mapa muestra los límites del área de estudio como un polígono con contorno en naranja. Este área representa 20 condados en Georgia.

Examinar los datos de entrada

Ahora examinará el resto de los datos de entrada proporcionados en el proyecto. Primeramente, agregará la imagen de Landsat al mapa.

  1. En la cinta, haga clic en la pestaña Vista. En el grupo Ventanas, haga clic en panel Catálogo.

    Botón del panel Catálogo

  2. En el panel Catálogo, expanda Carpetas, Estimate_Biomass e InputData.

    Carpetas, Estimate_Biomass e InputData expandidos

  3. En InputData, expanda LC09_L2SP_018038_20221004_20230327_02_T1.

    Esta es la escena de imágenes de satélite Landsat 9 que incluye siete bandas espectrales con valores de reflectancia de superficie:

    • Banda 1: aerosol costero
    • Banda 2: azul
    • Banda 3: verde
    • Banda 4: rojo
    • Banda 5: infrarrojo cercano (NIR)
    • Banda 6: infrarrojo de onda corta (SWIR) 1
    • Banda 7: infrarrojo de onda corta (SWIR) 2

    Siete bandas espectrales de Landsat 9

    Nota:

    Puede arrastrar para expandir el ancho del panel para ver mejor los nombres de archivo más largos.

    Expansión del ancho del panel

    Estas bandas se utilizarán como variables explicativas. Ahora agregará la escena de Landsat al mapa.

  4. Haga clic con el botón derecho en LC09_L2SP_018038_20221004_20230327_02_T1_MTL.txt y elija Agregar a mapa actual.

    Opción de menú Agregar al mapa actual

  5. Si se pide calcular estadísticas, haga clic en .

    Después de unos momentos, la imagen aparece en el mapa. Le cambiará el nombre por un nombre más corto.

  6. En el panel Contenido, haga clic en Surface Reflectance_LC09_L2SP_018038_20221004_20230327_02_T1_MTL para seleccionarlo y haga clic en él una vez más para entrar en modo edición. Cambie el nombre a Landsat9 y pulse Intro.

    Capa Landsat9 con cambio de nombre

    Cambiará la representación de imágenes al color natural, una combinación de las bandas roja, verde y azul, que muestra colores cercanos a lo que normalmente vería el ojo humano.

  7. En el panel Contenido, asegúrese de que se seleccione Landsat9.
  8. En la cinta, haga clic en la pestaña Capa de ráster, y en el grupo Representación, haga clic en el botón Simbología.

    Botón Simbología

  9. En el panel Simbología, defina los siguientes valores de parámetros:
    • En Simbología principal, asegúrese de que se seleccione RGB.
    • En Rojo, elija SRB4
    • En Verde, elija SRB3
    • En Azul, elija SRB2

    Parámetros de Simbología principal

    La representación de imágenes se actualiza a la representación de color natural.

    Representación de color natural

  10. Cierre el panel Simbología.

    Botón de cierre del panel Simbología

    A continuación, agregará el modelo de elevación digital (DEM) al mapa.

  11. En el panel Catálogo, en la carpeta InputData, contraiga LC09_L2SP_018038_20221004_20230327_02_T1.

    Carpeta LC09_L2SP_018038_20221004_20230327_02_T1 contraída

  12. Haga clic con el botón derecho en DEM.tif y elija Agregar al mapa actual.

    Opción de menú Agregar al mapa actual

  13. En el panel Contenido, cambie el nombre de la capa DEM.tif por DEM.

    Capa DEM con el nombre cambiado

  14. Examine la capa DEM en el mapa.

    DEM proporciona datos de elevación. Los tonos más claros indican áreas con mayor elevación y las áreas de tonos más oscuros con menor elevación.

    Capa DEM en el mapa

    La capa también se utilizará como una variable explicativa. A continuación, revisará los datos de GEDI.

  15. En el panel Catálogo, en InputData, expanda la carpeta GEDI_L4A.

    Carpeta GEDI_L4A expandida.

    Esta carpeta contiene ocho archivos de GEDI que se utilizarán como las muestras con valores de AGB conocidos u objetivos de entrenamiento. Tenga en cuenta que son archivos HDF5 de trayectoria: no son archivos de ráster sino datos de trayectoria. Aprenderá cómo manejar estos datos y mostrarlos posteriormente en el mapa en el flujo de trabajo.

    Hay otras dos capas de datos en el panel Contenido. Ya ha visto la capa AOI, que delinea el área de estudio general. También está la capa Condados, que proporciona los límites de los condados. La activará.

  16. En el panel Contenido, expanda la flecha junto a la capa Condados para revelar su leyenda, y active la casilla junto a la capa Condados para activarla.

    Capa Condados activada

  17. Revise las capas AOI y Condados (naranja y púrpura brillante) en el mapa.

    Capas AOI y Condados en el mapa.

    Posteriormente utilizará estas dos capas en el análisis.

  18. Haga clic en las casillas junto a las capas Condados, DEM y Landsat9 para desactivarlas, ya que no las necesitará para los siguientes pasos del flujo de trabajo.

    Capas Condados, DEM y Landsat9 desactivadas

  19. En la Barra de herramientas de acceso rápido, haga clic en Guardar para guardar el proyecto.

    Botón Guardar

En esta parte del flujo de trabajo, después de una vista general del flujo de trabajo de aprendizaje automático, configura el proyecto de ArcGIS Pro. Por lo tanto, examinó los datos de entrada: una escena de Landsat 9 de siete bandas, un ráster DEM, datos de GEDI y algunas capas de límite.


Procesar y extraer datos de GEDI

AGB representa vegetación viva sobre el suelo, medida como masa por unidad, normalmente megagramo (es decir, tonelada métrica) por hectárea). La medición física de AGB en el suelo en un área de estudio grande requiere mucha mano de obra y es prácticamente imposible. Por el contrario, la estimación de AGB mediante datos de teledetección es una buena solución alternativa.

GEDI es una misión lidar de satélite de la NASA que mide la estructura 3D de la superficie de la Tierra. Esto incluye la altura de la cubierta forestal y su estructura vertical, es decir, las capas apiladas de árboles y matorrales que podrían en conjunto equivaler a más o menos biomasa. GEDI captura puntos de muestreo junto con rastreos del sensor. A partir de estas mediciones, puede derivarse la densidad de biomasa aérea (AGBD), y el producto L4A de GEDI contiene estos valores de puntos de AGBD derivados. La siguiente imagen de ejemplo muestra los rastreos de GEDI donde se capturaron datos de muestra de AGBD, ya que intersecan en el área de estudio de este tutorial.

Ejemplo de rastreos de GEDI

Dichos datos se entregan como archivos HDF5 estructurados por trayectoria y pueden llevarse a ArcGIS como un dataset de trayectoria, un modelo de datos de geodatabase diseñado para administrar una colección de archivos de trayectoria. Ahora creará un dataset de trayectoria, agregará los datos de GEDI proporcionados a dicho dataset y extraerá los datos de punto de AGBD pertinentes que se utilizarán posteriormente como muestras de entrenamiento en el flujo de trabajo.

Crear un dataset de trayectoria

Primeramente, creará el dataset de trayectoria vacío en la geodatabase del proyecto.

  1. En el panel Catálogo, expanda Bases de datos.
  2. Haga clic con el botón derecho en Estimate_Biomass.gdb, haga clic en Nuevo y elija Dataset de trayectoria.

    Opción de menú Dataset de trayectoria

    En el panel Geoprocesamiento, aparece la herramienta Crear dataset de trayectoria.

  3. En Nombre del dataset de trayectoria, escriba Gedi.

    Parámetro Nombre del dataset de trayectoria

  4. Acepte el resto de valores predeterminados y haga clic en Ejecutar.

    Aparece el dataset de trayectoria en el panel Contenido. Contiene las subcapas Huella y Punto.

    Dataset de trayectoria en el panel Contenido

    Este dataset está actualmente vacío y actuará como un contenedor para los datos de GEDI.

Agregar datos de GEDI al dataset de trayectoria

Ahora agregará los datos de GEDI que se proporcionaron para este flujo de trabajo en el dataset de trayectoria vacío que acaba de crear.

  1. Vuelva a cambiar al panel Catálogo.

    Panel Catálogo

  2. En el panel Catálogo, expanda la geodatabase Estimate_Biomass.gdb, haga clic con el botón derecho en Gedi y elija Agregar trayectorias.

    Opción de menú Agregar trayectorias

    Primeramente, configurará el tipo y propiedades del dataset de trayectoria.

  3. En el panel Agregar datos al dataset de trayectoria, en Tipo de trayectoria elija GEDI.
  4. En Tipo de trayectoria, haga clic en el botón Propiedades.

    Botón Propiedades

  5. En la ventana Propiedades del tipo de trayectoria, haga clic en la pestaña Trayectoria.

    Los datos de GEDI proporcionados son del tipo L4A, por lo que definirá las propiedades de forma correspondiente.

  6. En Filtro de producto, elija GEDIL4A.

    Valor de GEDIL4A para Filtro de producto

  7. En Trayectorias en tierra, active la casilla junto al Nombre para seleccionar todos los rastreos.

    Activar casilla junto a Nombre

    Los datos de GEDI se capturan como ocho haces distintos, y desea incluirlos todos.

  8. En Variables predefinidas, active la casilla para la variable Densidad de biomasa aérea.

    Variable Densidad de biomasa aérea

    Esta es la única variable en la que está interesado para este dataset.

  9. Haga clic en Aceptar para guardar las propiedades.
  10. En el panel de la herramienta Agregar datos al dataset de trayectoria, en Datos de entrada, elija Carpeta y haga clic en el botón Examinar.

    Parámetro Datos de entrada

  11. En la ventana Datos de entrada, expanda Carpetas, Estimate_Biomass e InputData, haga clic en GEDI_L4A y posteriormente en Aceptar.

    Ventana Datos de entrada

  12. En el panel de la herramienta Agregar datos al dataset de trayectoria, acepte el resto de valores predeterminados y haga clic en Ejecutar.

    Parámetros de Agregar datos a dataset de trayectoria

    Después de unos momentos, los datos de GEDI se agregan al dataset de trayectoria y aparecen en el mapa. Alejará para ver todo el dataset.

  13. En el panel Contenido, hacer clic con el botón derecho en la capa Gedi y seleccionar Acercar a capa

    Opción de menú Zoom a capa

    Los polígonos verdes que atraviesan Norteamérica representan las huellas de las trayectorias del sensor de GEDI. Estas trayectorias específicas se seleccionaron porque intersecan en el área de estudio.

    Trayectorias de GEDI en el mapa

  14. En el panel Contenido, haga clic con el botón derecho en la capa Huella y elija Tabla de atributos.

    Opción de menú Tabla de atributos

    Aparece la tabla de atributos Huella.

    Tabla de atributos Huella

    Cada fila se corresponde con una trayectoria y contiene información sobre ella. Por ejemplo, el campo Recuento indica cuántos puntos hay en cada trayectoria.

  15. Cierre la tabla Huella.

    Botón de cierre de la tabla Huella

    Ahora examinará los puntos individuales contenidos en las trayectorias.

  16. En el panel Contenido, active la capa AOI. Haga clic con el botón derecho en la capa AOI y elija Zoom a capa.

    Capa Huella de trayectorias Gedi en el mapa

    Sugerencia:

    Si la capa de trayectorias Gedi no se muestra en el mapa, aleje un poco.

  17. Desactive la capa Huella y active la subcapa Punto.

    Subcapa Punto activada

    La capa de puntos puede tardar algún tiempo en visualizarse, ya que contiene cientos de miles de puntos.

    Capa de puntos de trayectorias Gedi en el mapa

  18. Acerque a un área de su elección hasta que vea los puntos individuales.

    Acercamiento de la capa Punto de trayectorias Gedi

    Cada punto contiene un valor de AGBD.

Agregó datos de GEDI a un dataset de trayectoria y lo examinó.

Extraer los datos de puntos de AGBD pertinentes

Solo los puntos de GEDI que se encuentran dentro del área de estudio son pertinentes para su flujo de trabajo. Ahora extraerá los puntos situados dentro del límite de AOI mediante la herramienta Recortar. La salida será una capa de entidades de puntos.

  1. En el panel Geoprocesamiento, haga clic en el botón Atrás.

    Botón Atrás

  2. En el cuadro de búsqueda Geoprocesamiento, escriba Recortar. En la lista de resultados, haga clic en la herramienta Recortar para abrirla.

    Buscar la herramienta Recortar

  3. En el panel de la herramienta Recortar, defina los siguientes parámetros:
    • En Entidades o dataset de entrada, elija Punto.
    • En Recortar entidades, elija la capa AOI.
    • En Entidades o dataset de salida, escriba AGBD_observations como el nombre de salida.

    Parámetros de la herramienta Recortar

  4. Haga clic en Ejecutar.

    Después de unos momentos, la capa de puntos AGBD_observations se agrega al mapa. Lo examinará con más detalle.

  5. En el panel Contenido, desactive la capa Gedi, porque ya no la va a necesitar en este flujo de trabajo.

    Capa Gedi desactivada

  6. Haga clic con el botón derecho en la capa AGBD_observations y elija Acercar a capa.

    Opción de menú Zoom a capa

    Puede ver que la capa AGBD_observations solo contiene los puntos dentro del área de estudio.

    Capa AGBD_observations en el mapa

  7. En el panel Contenido, haga clic con el botón derecho en la capa AGBD_observations y elija Tabla de atributos.

    Aparece la tabla de atributos AGBD_observations.

    Cada fila se corresponde con un punto, y el campo AGBD proporciona el valor de densidad de biomasa aérea para cada punto (en toneladas métricas por hectárea). En total, hay 106.159 puntos en esta capa.

    Campo AGBD

  8. Cierre la tabla de atributos AGBD_observations.

    A continuación, aplicará una simbología importada a esta capa para visualizarla con más eficacia.

  9. En el panel Geoprocesamiento, haga clic en el botón Atrás.
  10. Busque la herramienta Aplicar simbología de capa y ábrala.

    Búsqueda de la herramienta Aplicar simbología de capa

  11. En la herramienta Aplicar simbología de capa, en Capa de entrada, elija AGBD_observations.
  12. En Capa de simbología, haga clic en el botón Examinar. Vaya a Carpetas > Estimate_Biomass > InputData y elija el archivo de capa AGBD.lyrx.

    Parámetros de la herramienta Aplicar simbología de capa

  13. Haga clic en Ejecutar.

    El mapa se actualiza.

    Capa AGBD_observations con la nueva simbología.

    La capa AGBD_observations se muestra ahora con una simbología donde los puntos en tonos de color verde oscuro indican los valores de AGBD más altos y los puntos en tonos de color amarillo claro indican los valores de AGBD más bajos. Esta capa se utilizará como muestras conocidas, u objetivos de entrenamiento, durante el entrenamiento del modelo.

  14. Pulse Ctrl+S para guardar el proyecto.

En esta parte del flujo de trabajo, creó un dataset de trayectoria e incorporó la variable de AGBD de datos de trayectoria de nivel A4 de GEDI. A continuación, extrajo los puntos de AGBD pertinentes como una capa de entidades y la simbolizó.


Preparar variables explicativas derivadas

Ahora preparará variables explicativas adicionales a partir de la escena inicial de Landsat 9 y ráster DEM. Especialmente, creará siete índices espectrales derivados de la escena de Landsat 9 y un ráster de orientación derivado del DEM.

Generar índices espectrales

Un índice espectral combina distintas bandas espectrales a través de una fórmula matemática, que generalmente calcula algún tipo de ratio. La salida resultante es una nueva imagen ráster que enfatiza un fenómeno específico, como por ejemplo vegetación, agua, desarrollo urbanístico, o humedad. Estas capas de índices espectrales proporcionarán información adicional para tener en cuenta diferentes condiciones de la vegetación, lo que a su vez ayuda a predecir mejor valores de AGB.

Nota:

Obtenga más información sobre índices espectrales comunes.

Creará varios índices que servirán como variables explicativas adicionales:

  • NDVI: índice de vegetación de diferencia normalizada
  • EVI: índice de vegetación mejorado
  • PVI: índice de vegetación perpendicular
  • NBR: ratio de calcinación normalizado
  • NDWI: índice de agua de diferencia normalizada
  • NDBI: índice de áreas construidas de diferencia normalizada
  • MSI: índice de estrés de humedad

Empezará con NDVI, utilizado para diferenciar vegetación sana de vegetación no sana o ausencia de vegetación. Utilizará la función ráster Aritmética de banda.

  1. En el panel Contenido, desactive la capa AGBD_observations.

    Capa AGBD_observations desactivada

  2. En la cinta, en la pestaña Imágenes, en el grupo Análisis, haga clic en el botón Funciones ráster.

    Botón Funciones ráster

  3. En el panel Funciones ráster, en el cuadro de búsqueda, escriba Aritmética de banda.

    Búsqueda de Aritmética de banda

  4. En la lista de resultados, haga clic en la función ráster Aritmética de banda para abrirla.

    Botón de función ráster Aritmética de banda

  5. En el panel de función ráster Propiedades de aritmética de banda, defina los siguientes parámetros:
    • En Ráster, elija Landsat9.
    • En Método, elija NDVI.
    • En Índices de banda, escriba 5 4, correspondiente a las bandas de infrarrojo cercano y rojo que se necesitan para el cálculo de NDVI.

    Panel de función ráster Aritmética de banda

  6. Haga clic en la pestaña General y en Nombre, escriba NDVI.

    Pestaña General de Aritmética de banda

  7. Haga clic en Crear capa nueva.

    Se agrega al mapa una nueva capa denominada NDVI_Landsat9. El ráster del mapa contiene valores de NDVI calculados que se encuentran entre -1 (ausencia de vegetación) y 1 (vegetación sana).

    Capa NDVI_Landsat9 en el mapa

    A continuación, creará las capas de índices espectrales restantes, EVI, NBR, PVI, NDWI y NDB, siguiendo los mismos pasos.

  8. Repita los pasos 4 a 7 con los siguientes ajustes de banda:

    Nombre/métodoDescripción (para referencia)Índices de bandaNombres de banda

    EVI

    Índice de vegetación mejorado

    5 4 2

    NIR, rojo, azul

    NBR

    Índice de calcinación normalizado (empleado para identificar huellas de incendios)

    5 7

    NIR, SWIR 2

    PVI

    Índice de vegetación perpendicular

    5 4 0.3 0.5

    NIR, rojo (y valores de pendiente y gradiente)

    NDWI

    Índice de agua de diferencia normalizada

    5 3

    NIR, verde

    NDBI

    Índice de áreas construidas de diferencia normalizada

    6 5

    SWIR 1, NIR

    Para MSI (índice de estrés de humedad), la función ráster Aritmética de banda no incluye la opción MSI en Método. En su lugar, utilizará la opción Definido por el usuario para calcularlo, especificando explícitamente la fórmula matemática: B6 / B5, donde se hace referencia a las bandas mediante B + [un número de banda]. Por lo tanto, esta fórmula implica que la banda SWIR 1 debe dividirse por la banda NIR.

  9. Repita los pasos 4 a 7 para crear la capa MSI usando los siguientes parámetros:
    • En Ráster, elija Landsat9.
    • En Método, elija Definido por el usuario.
    • En Índices de banda, escriba B6 / B5.
    • En General, en Nombre, escriba MSI.

    Parámetros de la función ráster Aritmética de banda para MSI

    Al final de este proceso, las siete capas de índice deben agregarse al mapa y enumerarse en el panel Contenido.

    Siete capas de índice en el panel Contenido

Derivar una capa de orientación a partir del DEM

Ahora derivará una capa de orientación a partir de la capa DEM empleando la función ráster Orientación. La orientación indica la dirección a la que se orienta cada pendiente descendente (norte, sur, este, oeste). Es pertinente como una variable explicativa ya que la iluminación solar variará de acuerdo con el valor de orientación y esto afectará al crecimiento de la vegetación.

  1. En el panel Funciones ráster, busque y abra la función ráster Orientación.

    Función ráster Orientación

  2. En el panel de función ráster Orientación, en Ráster, elija la capa DEM.

    Parámetros de la función ráster Orientación

  3. Haga clic en Crear capa nueva.

    A mapa se agrega una capa denominada Aspect_DEM.

    Aspect_DEM en el mapa

    En la siguiente sección, utilizará todas las capas de variables explicativas que creó como entrada al modelo de aprendizaje automático. No obstante, no necesitará verlas en su mapa, por lo que ahora las desactivará.

  4. En el panel Contenido, desactive las siete capas de índice espectral y las capas DEM y Aspect_DEM.
  5. Pulse Ctrl+S para guardar el proyecto.

En esta parte del flujo de trabajo, preparó siete capas derivadas de la escena de Landsat y una capa de orientación derivada del DEM. Estas capas se utilizarán como variables explicativas junto con la escena de Landsat y el DEM al entrenar el modelo de regresión.


Entrenar un modelo de regresión y predecir la densidad de biomasa

Ahora ha preparado los datos de la muestra objetivo y variables explicativas. A continuación, utilizará todos estos datos como entrada para entrenar su modelo de regresión y capturar las relaciones entre valores de AGDB conocidos y variables explicativas. A continuación, examinará el rendimiento de su modelo, continuará realizando alguna limpieza de datos y volverá a entrenar su modelo para obtener mayor rendimiento. Posteriormente, utilizará el modelo resultante para predecir valores de AGBD a través de toda al área de estudio. Finalmente, resumirá los resultados para obtener AGBD promedio por condado en el área de estudio.

Entrenar un modelo de regresión de árboles aleatorios

Primeramente, entrenará el modelo para predecir la biomasa con la herramienta Entrenar modelo de regresión de árboles aleatorios. La regresión Bosque aleatorio es un método de aprendizaje automático que funciona construyendo una multitud de árboles de decisión en el tiempo de entrenamiento.

  1. En el panel geoprocesamiento, si es necesario, haga clic en el botón Atrás.
    Nota:

    Si cerró la pestaña Geoprocesamiento, puede volver a abrirla yendo a la cinta, a la pestaña Análisis, en el grupo Geoprocesamiento, y haciendo clic en Herramientas.

  2. Busque y abra la herramienta Entrenar modelo de regresión de árboles aleatorios.

    Búsqueda de herramienta Entrenar modelo de regresión de árboles aleatorios

    Definirá las entradas de variables explicativas.

  3. En el panel de la herramienta Entrenar modelo de regresión de árboles aleatorios, en Rásteres de entrada, agregue Landsat9, DEM y las ocho capas de variables explicativas derivadas.

    Rásteres de entrada de la herramienta Entrenar modelo de regresión de árboles aleatorios

    Precaución:

    Ahora debe utilizar el mismo orden exacto para estas capas en la herramienta Entrenar modelo de regresión de árboles aleatorios y posteriormente en la herramienta Predecir con modelo de regresión.

    A continuación, pondrá el cursor en los datos de muestra objetivo de AGDB.

  4. Para Ráster o puntos objetivo, elija AGBD_observations.
  5. Para Campo de valor objetivo, elija AGBD.

    El modelo de salida resultante será un archivo .ecd. Elegirá un nombre para él.

  6. En Archivo de definición de regresión de salida, haga clic en el botón Examinar.

    Parámetros Ráster objetivo y Archivo de definición de regresión de salida

  7. En la ventana Archivo de definición de regresión de salida, vaya a Carpetas > Estimate_Biomass y en Nombre, escriba Biomass_model.ecd y haga clic en Guardar.

    Ventana Archivo de definición de regresión de salida

    La salida también incluirá algunos archivos auxiliares adicionales que puede utilizar para comprender la precisión del modelo. Establecerá sus nombres.

  8. En el panel de la herramienta Entrenar modelo de regresión de árboles aleatorios, expanda Salidas adicionales.
  9. En Tabla de importancia de salida, haga clic en el botón Examinar, vaya a Carpetas > Estimate_Biomass y en Nombre, escriba Importance.csv.
  10. En Gráficos de dispersión de salida, haga clic en el botón Examinar, vaya a Carpetas > Estimate_Biomass y en Nombre, escriba Biomass_scatterplots.pdf.

    Parámetros Salidas adicionales

    Finalmente, también definirá los parámetros de opciones de entrenamiento.

  11. Expanda Opciones de entrenamiento.
  12. Para Porcentaje de muestras para evaluación, escriba 5 y acepte los demás valores predeterminados.

    Parámetro Porcentaje de muestras para evaluación

    Nota:

    El valor porcentual 5 (en lugar del valor 10 predeterminado), asegura que se reserven menos datos para evaluación y que se mantengan más datos disponibles para entrenamiento.

  13. Haga clic en Ejecutar.

    Después de un par de minutos, se completa el entrenamiento del modelo.

Revisar el rendimiento del modelo

Para comprender el rendimiento del modelo, ahora revisará las salidas de la herramienta Entrenar modelo de regresión de árboles aleatorios. Los flujos de trabajo de aprendizaje automático suelen ser iterativos. Debe decidir si el modelo se está comportando de forma óptima o si la limpieza de algunos de los datos de entrada podría mejorar su rendimiento. En este último caso, necesitará volver a entrenar el modelo utilizando datos depurados.

Primeramente, se fijará en el contenido de la tabla Importance.csv, que muestra en qué grado contribuye cada variable explicativa a predecir los valores de muestra objetivo. Creará un gráfico de barras para resumir esa información.

  1. En el panel Contenido, en Tablas independientes, haga clic con el botón derecho en la capa de tabla Importance.csv, haga clic en Crear gráfico y elija Gráfico de barras.

    Opción de menú Gráfico de barras

    Aparece un panel del gráfico Importance.csv y un panel de Propiedades de gráfico.

  2. En el panel Propiedades de gráfico, defina los siguientes parámetros:
    • En Categoría o fecha, elija Explanatory_Variables.
    • En Agregación, elija <none>.
    • En Campos numéricos, haga clic en Seleccionar, active el campo Importancia y haga clic en Aplicar.

    Parámetro Propiedades de gráfico

    En el panel del gráfico Importance.cvs, aparece el gráfico Importancia por Explanatory_Variable.

    Gráfico Importancia por Explanatory_Variable

    Puede observar que las bandas espectrales Landsat, especialmente SWIR 1 (Landsat9_6) y de infrarrojo cercano (Landsat9_5), desempeñan un papel crucial a la hora de explicar (o predecir) los valores de biomasa. Además, varios índices de banda hacen contribuciones sustanciales, especialmente MSI_Landsat9, PVI_Landsat9 y NDBI_Landsat9. Por otra parte, las capas DEM y Aspect_DEM son las que menos contribuyen, lo que tiene sentido, ya que esta área de estudio es principalmente terreno plano. No obstante, en otras extensiones con más variación de elevación, la importancia de los datos de elevación probablemente sería mayor. A continuación, revisará el documento de diagramas de dispersión.

    Nota:

    El algoritmo de árboles aleatorios no es determinista, por lo que los resultados que obtiene pueden variar ligeramente.

  3. Cierre el panel del gráfico Importance.cvs.

    Botón de cierre del panel del gráfico Importance.cvs

  4. En File Explorer, vaya a la carpeta Estimate_Biomass y haga doble clic en el archivo Biomass_scatterplot.pdf para abrirlo.

    Archivo Biomass_scatterplot.pdf

    En el PDF, el primer diagrama de dispersión se muestra para cada punto de muestra utilizado en el entrenamiento:

    • El valor conocido original (eje x).
    • El valor predicho, después de que el entrenamiento se haya completado (eje y).

    Gráfico de dispersión en el PDF

    El valor R2, que va de 0 a 1, sirve como un indicador del rendimiento del modelo. Un valor R2 de 0,834 para el rendimiento del entrenamiento es aceptable. No obstante, aunque la mayoría de los valores se concentran por debajo de 1.000, puede observar algunos valores extremadamente altos repartidos desde un poco por debajo de 1.000 a por encima de 4.000.

    Valores extremadamente altos en el gráfico de dispersión

    Sospecha que estos puntos podrían ser valores atípicos erróneos que degradan el rendimiento de aprendizaje del modelo. Para decidir si debe mantener estos puntos extremos o retirarlos de los datos de entrenamiento, los revisará en el mapa. Primeramente, se fijará en el gráfico de histograma en la capa AGBD_observations para elegir un umbral más preciso para los puntos de valores atípicos.

  5. Cierre el PDF y vuelva a ArcGIS Pro.
  6. En el panel Contenido, haga clic con el botón derecho en la capa AGBD_observations y elija Tabla de atributos.

    Opción de menú Tabla de atributos

  7. En la tabla de atributos, haga clic con el botón derecho en el campo AGBD y elija Visualizar estadísticas.

    Opción de menú Visualizar estadísticas

    Las estadísticas para el campo AGBD aparecen en un gráfico de histograma denominado Distribución de AGBD.

    Gráfico Distribución de AGBD

    El histograma muestra la distribución de las entidades de puntos AGBD_observations a través de todos los valores de AGBD posibles. Puede ver que la mayoría de los puntos tienen valores de AGBD que son menores de 700, con solo unos pocos puntos con valores mayores de 1.000. Elegirá 1.000 como el umbral para definir puntos de valores atípicos.

    Ahora modificará la visualización en el mapa para facilitar la exploración de los puntos de valor alto.

  8. En el panel Contenido, arrastre la capa Landsat9 para posicionarla justo encima de Aspect_DEM, y active las capas AGBD_observations y Landsat9.

    Las capas AGBD_observations y Landsat9 se activaron.

  9. Haga clic con el botón derecho en la capa AGBD_observations y elija Simbología.

    Opción de menú Simbología

  10. En el panel Simbología, para Simbología principal, seleccione Símbolo único.

    Simbología principal con el valor Símbolo único

    Nota:

    El color del símbolo puede variar.

    Esta simbología hará que sea más fácil ver los puntos que seleccione en el mapa.

    Mapa actualizado con la nueva simbología.

    Sugerencia:

    Puede reducir el tamaño del panel del gráfico para aumentar el tamaño del mapa.

    Cambio de tamaño del panel del gráfico y el mapa

    Ahora seleccionará los puntos de AGBD de valor alto.

  11. En el panel Contenido, asegúrese de que se seleccione la capa AGBD_observations.

    Capa AGBD_observations seleccionada

  12. En la cinta, en la pestaña Mapa, en el grupo Selección, haga clic en Seleccionar por atributos.

    Botón Seleccionar por atributos

  13. En la ventana Seleccionar por atributos, en Expresión, forme la expresión Cuando AGBD sea mayor que 1000.

    Expresión Cuando AGBD sea mayor que 1000

  14. Haga clic en Aceptar.

    Se han seleccionado aproximadamente 40 puntos; aparecen en azul turquesa en el mapa.

    Se han seleccionado 40 puntos en el mapa.

    Ahora revisará algunos de estos puntos individualmente.

  15. Haga clic en la pestaña AGBD_observations y en el botón Mostrar registros seleccionados situado en la parte inferior del panel.

    El botón Mostrar registros seleccionados

    Ahora solo se enumeran en la tabla las entidades seleccionadas.

  16. Haga doble clic en el encabezado de la fila para la primera entidad.

    Encabezado de fila para la primera entidad

    En el mapa, el punto aparece resaltado en amarillo.

  17. Acerque hasta que pueda ver los detalles de imágenes debajo.

    Punto resaltado en amarillo

    El punto se encuentra en algún tipo de campo de hierba no demasiado densa, que no debe tener un valor de AGBD por encima de 1.000. Por el contrario, puede ver que los puntos vecinos no aparecen en turquesa, ya que no se seleccionaron. Esto significa que su valor de AGBD se encuentra por debajo de 1.000 y que no es inusualmente alto.

  18. En la tabla de atributos, haga doble clic en el encabezado de la fila para la tercera entidad.

    Encabezado de fila para la tercera entidad

    Ese punto también se encuentra en algún tipo de campo de hierba, el cual no debe tener un valor por encima de 1.000. Puede ver que estos puntos de valores altos son valores atípicos que deben ser erróneos. Los eliminará.

Limpiar las observaciones de AGBD y volver a entrenar el modelo

Ahora eliminará los puntos de valores atípicos de valor alto. También eliminará los puntos que tienen un valor nulo, ya que no se utilizan para entrenar. A continuación, volverá a entrenar el modelo.

  1. En el panel Contenido, haga clic con el botón derecho en AGBD_observations y elija Zoom a capa.
  2. En la cinta, en la pestaña Mapa, haga clic en el botón Seleccionar por atributos.

    En la ventana Seleccionar por atributos, la primera cláusula Cuando AGBD sea mayor que 1000 sigue presente. Agregará una segunda cláusula para seleccionar las entidades con valores nulos.

  3. En la ventana Seleccionar por atributos, haga clic en el botón Agregar cláusula.

    Botón Agregar cláusula

  4. Para la nueva cláusula, forme la expresión O AGBD es nulo y haga clic en Aceptar.

    Expresión O AGBD es nulo

    En la tabla de atributos AGBD_observations, ahora hay más de 20.000 puntos seleccionados, entre valores inusualmente altos y valores nulos.

    Más de 20.000 puntos seleccionados

  5. En la barra de herramientas tabla de atributos, haga clic en el botón Eliminar selección.

    Botón Eliminar selección

  6. Cuando se le solicite que confirme que desea eliminar los datos, haga clic en .

    Guardará estos cambios.

  7. En la cinta, en la pestaña Editar, en el grupo Administrar ediciones, haga clic en Guardar.

    Botón Guardar en la pestaña Editar

    Los puntos seleccionados se eliminan de la clase de entidad AGBD_observations. A continuación, volverá a ejecutar la herramienta de entrenamiento con los datos actualizados para obtener un modelo de mejor rendimiento.

  8. En la cinta, en la pestaña Análisis, en el grupo Geoprocesamiento, haga clic en Historial.

    Botón Historial

    Aparece el panel Historial con el historial de todas las herramientas que ha ejecutado hasta el momento en este proyecto.

  9. En el panel Historial, haga doble clic en la entrada Entrenar modelo de regresión de árboles aleatorios.

    Entrada Entrenar modelo de regresión de árboles aleatorios en el panel Historial

    Aparece la herramienta Entrenar modelo de regresión de árboles aleatorios con todos los valores de parámetros que utilizó originalmente.

    Herramienta Entrenar modelo de regresión de árboles aleatorios con parámetros originales

    Cambiará de nombre de las salidas para que no sobrescriban los resultados originales.

  10. Para Archivo de definición de regresión de salida, cambie el nombre de Biomass_model.ecd a Biomass_model2.ecd.
  11. Expanda Salidas adicionales, cambie el nombre Importance.csv a Importance2.csv y cambie el nombre Biomass_scatterplots.pdf a Biomass_scatterplots2.pdf.

    Archivos de salida con cambio de nombre

  12. Haga clic en Ejecutar.

    Después de un par de minutos, se vuelve a entrenar el modelo.

  13. En File Explorer, vaya a la carpeta Estimate_Biomass y haga doble clic en el archivo Biomass_scatterplots2.pdf para abrirlo.

    Archivo Biomass_scatterplots2.pdf

    En el PDF, en el primer gráfico de dispersión, puede ver que el rendimiento del modelo ha mejorado a un R2= 0,888 (frente a R2= 0,834 anterior). También puede ver que todos los valores del gráfico ahora son menores que 1.000.

    Nueva versión del gráfico de dispersión

    También ha obtenido mejores resultados en el segundo y tercer gráfico de dispersión que se encuentran en el PDF, que muestran el rendimiento del modelo en los puntos de prueba.

  14. Cierre el PDF y vuelva a ArcGIS Pro.

Crear predicción de biomasa

Ahora utilizará el modelo para predecir la biomasa para toda el área de estudio. Lo hará con la herramienta Predecir con modelo de regresión. La entrada estará formada por las mismas variables explicativas que empleó para el entrenamiento del modelo (escena Landsat de siete bandas, capa DEM, capas de índice espectral y capa de orientación).

  1. En el panel Geoprocesamiento, haga clic en el botón Atrás.
  2. Busque y abra la herramienta Predecir con modelo de regresión.

    Búsqueda de herramienta Predecir con modelo de regresión

  3. En el panel de la herramienta Predecir con modelo de regresión, en Rásteres de entrada, agregue Landsat9, DEM y las ocho capas derivadas en el mismo orden que antes.

    Rásteres de entrada para la herramienta Predecir con modelo de regresión

    Precaución:

    Es importante que utilice el mismo orden para estas capas en la herramienta Predecir con modelo de regresión como lo hizo antes en la herramienta Entrenar modelo de regresión de árboles aleatorios.

    Ahora pondrá el cursor en el modelo entrenado.

  4. En el Archivo de definición de regresión de entrada, haga clic en el botón Examinar, vaya a Carpetas > Estimate_Biomass, haga clic en Biomass_model2.ecd y haga clic en Aceptar.

    Finalmente, nombrará la salida.

  5. Para Ráster predicho de salida, escriba Biomass_prediction.crf.

    Parámetro Ráster predicho de salida

  6. Haga clic en Ejecutar.

    Tras unos minutos, la capa resultante se agrega a la capa. Ahora cambiará el esquema de color.

  7. En el panel Contenido, haga clic con el botón derecho en el símbolo Biomass_prediction.crf.

    Símbolo Biomass_prediction.crf

  8. En la lista desplegable de esquema de color, active la casilla Mostrar nombres y haga clic en el esquema de color Azul-Verde (continuo).

    Esquema de color azul-verde (continuo)

  9. Desactive las capas AGBD_observations y Landsat9.

    Capas AGBD_observations y Landsat9 desactivadas

  10. Desactive todas las capas derivadas (índices espectrales y orientación).
  11. En el mapa, revise la capa Biomass_prediction.crf.

    Los tonos verdes oscuro indican las áreas con la densidad de biomasa más alta y los tonos más claros o blancos indican baja densidad o ausencia de biomasa.

    Capa Biomass_prediction.crf en el mapa

Resumir la densidad de biomasa por condado

Finalmente, calculará la densidad de biomasa por condado. Utilizará la capa de polígono Condados y la herramienta Estadísticas zonales como tabla para encontrar la densidad de biomasa promedio por condado y generará un gráfico para proporcionar una vista general de sus resultados.

  1. En el panel Contenido, active la capa Condados.

    Capa Condados activada

    Los límites del condado aparecen en el mapa.

    Límites del condado en el mapa

  2. En el panel Geoprocesamiento, haga clic en el botón Atrás.
  3. Busque y abra la herramienta Estadísticas zonales como tabla.

    Búsqueda de la herramienta Estadísticas zonales como tabla

  4. En el panel de la herramienta Estadísticas zonales como tabla, defina los siguientes parámetros.
    • En Datos de zonas de entidad o ráster de entrada, elija Condados.
    • En Campo de zona, verifique que Nombre esté seleccionado.
    • En Ráster de valor de entrada, elija Biomass_prediction.crf.
    • En Tabla de salida, escriba Average_biomass_by_county.
    • En Tipo de estadística, elija Valor medio.

    Parámetros de la herramienta Estadísticas zonales como tabla

  5. Acepte el resto de valores predeterminados, y haga clic en Ejecutar.

    La tabla Average_biomass_by_county se agrega al panel Contenido.

  6. En el panel Contenido, en Tablas independientes, haga clic con el botón derecho en tabla Average_biomass_by_county, haga clic en Crear gráfico y elija Gráfico de barras.

    Opción de menú Gráfico de barras

  7. En el panel Propiedades de gráfico, en la pestaña Datos, defina los siguientes parámetros:
    • En Categoría o fecha, elija NOMBRE.
    • En Agregación, elija <none>.
    • En Campos numéricos, haga clic en Seleccionar, active el campo VALOR MEDIO y haga clic en Aplicar.
    • En Ordenar, elija Eje Y descendente.

    Pestaña Datos de propiedades de gráfico

  8. Haga clic en el panel General y defina los siguientes parámetros:
    • En Título de gráfico, escriba Biomasa promedio por condado.
    • En Título de eje X, escriba Condados.
    • En Título de eje Y, escriba Densidad de biomasa (en toneladas métricas por hectárea).

    Pestaña General de Propiedades de gráfico

  9. En el panel del gráfico Average_biomass_by_county, vea el gráfico Biomasa promedio por condado.

    Gráfico Biomasa promedio por condado

    En el gráfico de barras, puede ver que algunos condados, como por ejemplo Telfair, Houston, Macon y Ben Hill, tienen una densidad de biomasa promedio más elevada. En función del informe de la Administración de Información Energética de Estados Unidos, prácticamente la mitad de los hogares de Georgia emplearon biomasa como combustible, y el 80 por ciento de esa cantidad se produjo en áreas rurales. La comprensión del estado de la biomasa en dichos condados rurales ayudará al gobierno a desarrollar políticas prácticas para mitigar el consumo de biomasa y proteger los bosques y evitar la pérdida de biodiversidad.

    Nota:

    También puede unir la tabla Biomass_by_county a la capa Condados para crear un mapa temático que muestre la biomasa promedio por condado. Para ello, en el panel Contenido, haga clic con el botón derecho en Condados, haga clic en Uniones y relaciones y elija Agregar unión.

  10. Pulse Ctrl+S para guardar el proyecto.

En este tutorial, después de configurar el proyecto y examinar los datos, preparó un dataset de trayectoria que contiene datos de GEDI y extrajo los datos de puntos de AGBD pertinentes para el área de estudio. Empleó funciones de ráster para preparar variables explicativas. A continuación, entrenó un modelo para predecir la densidad de biomasa. Examinó el rendimiento del modelo, continuó haciendo alguna limpieza de datos y volvió a entrenar el modelo para obtener mayor rendimiento. Utilizó este modelo de mejor rendimiento para predecir la densidad de biomasa a través de toda el área de estudio. Finalmente, resumió los resultados para obtener la densidad de biomasa promedio por condado en el área de estudio.

Para abreviar este flujo de trabajo, empleó un área de estudio relativamente pequeña. Para aplicar un flujo de trabajo similar a grandes áreas que están representadas a través de varias escenas de Landsat, e incluir imágenes que contienen nubes o sombras, se recomienda que aborde primero la retirada de nubes y sombras y que componga estas imágenes en un dataset de mosaico. Consulte el flujo de trabajo de Python y el flujo de trabajo sin código al crear una composición de imágenes sin nubes a partir de imágenes vía satélite. Por otra parte, considerando que los datos empleados en este tutorial también son accesibles desde plataformas en la nube, como por ejemplo AWS o Microsoft Planetary Computer, puede aprovecharse de las capacidades del acceso directo a los datos e informática en la nube mediante ArcGIS Pro. Para obtener más información, consulte el artículo Representación cartográfica aérea de biomasa basada en la nube mediante datos de Landsat y GEDI.

Encontrará más tutoriales en la galería de tutoriales.