Utilizar técnicas de clasificación basadas en bosque

Uno de los métodos para modelar la distribución de especies utiliza un algoritmo de aprendizaje automático común: el bosque aleatorio. La herramienta Clasificación y regresión basadas en bosque y potenciadas de ArcGIS Pro tiene dos algoritmos entre los que elegir: una adaptación del algoritmo de bosque aleatorio o el algoritmo Refuerzo de gradientes extremo (XGBoost). En este módulo utilizará el algoritmo basado en bosque, que entrena un modelo en función de valores conocidos proporcionados como parte de un dataset de entrenamiento y que luego puede usarse para predecir valores desconocidos. Ejecutará la herramienta dos veces: primero para entrenar un modelo preliminar y evaluar su precisión, y luego para mejorar el modelo y generar una capa de predicción ráster.

Configurar el proyecto

Primero, descargará los datos necesarios para modelar la distribución de especies. Estos se han compartido como un paquete de proyecto, que puede descargar y abrir en ArcGIS Pro. Los datos ya han sido extraídos, recortados y proyectados (el procesamiento se describe a continuación). Para obtener más información sobre cómo preparar sus propios datos para el modelado de distribución de especies, consulte el tutorial Preparar datos para el modelado de distribución de especies.

  1. Descargue los datos del tutorial.
  2. Haga doble clic en el paquete de proyecto Hurricane_Elsa para abrir ArcGIS Pro. Si es necesario, inicie sesión con una cuenta con licencia de ArcGIS.

    Este proyecto contiene los datos que necesitará para modelar la distribución de especies.

    • Los puntos de observación de jabalíes (Sus scrofa) se extraen de las observaciones de iNaturalist. La capa Sus_scrofa_California contiene solo estos puntos de observación. La capa Sus_scrofa_California_absence_presence también contiene puntos de pseudoausencia, o puntos donde no se han observado jabalíes, lo que es un requisito para el modelado de regresión basada en bosque.
    • Los datos bioclimáticos que representan 19 variables ambientales sobre temperatura y precipitaciones se extraen de la capa Bioclimate Baseline 1970-2000. Se han proyectado en NAD 1983 California (Teale) Albers (Meters) y recortado hasta el estado de California. Las capas recortadas se extienden ligeramente más allá de las fronteras estatales para garantizar que se puedan extraer datos ambientales para puntos de observación o de pseudoausencia en las fronteras estatales o cerca de ellas.
    • Los datos de elevación y pendiente se derivan de USGS EROS Archive - Digital Elevation - Global Multi-resolution Terrain Elevation Data 2010, proyectados en NAD 1983 California (Teale) Albers (Meters) y recortados al estado de California.
    • La cobertura de suelo se ha extraído de USA NLCD Land Cover, se ha proyectado en NAD 1983 California (Teale) Albers (Meters) y se ha recortado al estado de California.

Entrenar un modelo de Clasificación y regresión basadas en bosque y potenciadas

La herramienta Clasificación y regresión basadas en bosque y potenciadas entrena un modelo en función de valores conocidos proporcionados como parte de un dataset de entrenamiento y que luego puede usarse para predecir valores desconocidos. La herramienta se puede ejecutar en tres modos: solo entrenamiento, predicción a entidades y predicción a ráster. En esta sección, utilizará el modo de entrenamiento para crear un modelo preliminar. Cuando se ejecuta, la herramienta crea una serie de gráficos y otros resultados que le permiten evaluar la precisión del modelo y tomar decisiones sobre cómo mejorarlo.

  1. En el panel Geoprocesamiento, busque y abra la herramienta Clasificación y regresión basadas en bosque y potenciadas.

    Ejecutará la herramienta dos veces: la primera para analizar los datos de entrada y la segunda para ajustar las entradas para obtener un mejor modelo. Utilice esta opción para evaluar la precisión del modelo antes de generar las predicciones. Esta opción generará diagnósticos de modelo de salida en la ventana de mensajes y un gráfico de importancia variable.

  2. Para Tipo de predicción, elija Solo entrenamiento y asegúrese de que el Tipo de modelo esté configurado en Basado en bosque.

    Configure la herramienta Clasificación y regresión basadas en bosque y potenciadas en Solo entrenamiento.

    Los modelos basados ​​en bosque se basan en múltiples árboles de decisión creados a partir de los datos de entrenamiento. Un árbol de decisión es un diagrama similar a un diagrama de flujo que toma características conocidas de un resultado y determina la probabilidad de que el punto de datos desconocido coincida con él en función de una serie de decisiones. Cada árbol de decisión genera su propia predicción y vota sobre el resultado. El modelo considera los votos de todos los árboles de decisión para predecir o clasificar el resultado de una muestra desconocida. La otra opción es un modelo de Gradiente potenciado, que crea un modelo en el que cada árbol de decisión se crea secuencialmente utilizando los datos originales. Cada árbol corrige los errores de los árboles anteriores.

  3. Para Entidades de entrenamiento de entrada, elija Sus_scrofa_California_absence_presence. Para Variable a predecir, elija el campo Presencia y active la casilla Tratar variable como variable de categorías.

    Este análisis requiere puntos de presencia y ausencia. En el campo Presencia, los lugares donde se observaron jabalíes están etiquetados con el número 1. Todos los demás puntos están etiquetados con el número 0. Debido a que es difícil probar de manera definitiva la ausencia real en el caso del movimiento de especies, esta capa contiene puntos de pseudoausencia o un conjunto de puntos muestreados aleatoriamente que representan ubicaciones donde no se observaron jabalíes.

  4. Active la casilla Incluir todas las probabilidades de predicción.

    Este parámetro generará una salida que muestra la probabilidad de todas las categorías en la variable de categorías. En este caso, se mostrará la probabilidad tanto de ausencia como de presencia en una ubicación determinada.

    A continuación, agregará los datos explicativos. Las variables explicativas pueden provenir de campos o calcularse a partir de entidades de distancia o extraerse de rásteres. Puede utilizar cualquier combinación de estos tipos de variables explicativas, pero el tipo de entrada que elija afectará a las salidas disponibles. Dado que desea que su resultado final sea una superficie ráster que muestre la predicción de presencia, utilizará la opción Rásteres de entrenamiento explicativos.

  5. En Rásteres de entrenamiento explicativos, haga clic en Agregar muchos. Active las casillas para agregar las 19 variables de bioclima, CA_Elevation, CA_Slope y CA_NCLD, y haga clic en Agregar.

    Agregue rásteres de entrenamiento explicativos.

  6. Junto a la variable CA_NLCD, active la casilla Categórico.

    Se han establecido los parámetros para el modelo. Ahora creará resultados a partir de la ejecución del entrenamiento que lo ayudarán a evaluar y mejorar el modelo para la predicción.

  7. Expanda la sección Salidas adicionales. Para Entidades de entrenamiento de salida, escriba fbbcr_output_trained.

    Esta salida probará la precisión de la predicción mostrando cuántos datos del dataset de entrada se clasificaron correctamente e incorrectamente.

  8. En Tabla de importancia de variables de salida, escriba fbbcr_variable_importance.

    El valor de Tabla de importancia de variables de salida contiene las variables explicativas utilizadas en el modelo y su importancia. Le ayudará a evaluar cuáles de las muchas variables explicativas que está utilizando en la ejecución inicial del modelo son las más importantes para predecir la presencia de jabalíes. También crea un gráfico que muestra la distribución de la importancia de las variables a lo largo de las ejecuciones.

  9. Para Tabla de rendimiento de clasificación de salida (matriz de confusión), escriba fbbcr_class_performance.

    Salidas adicionales para la validación del entrenamiento

    Esta salida solo está disponible cuando la variable dependiente es una variable de categorías y se utilizan parte de los datos de entrada para la validación. La tabla de salida muestra la cantidad de verdaderos positivos (TP), verdaderos negativos (TN), falsos positivos (FP) y falsos negativos (FN) en cada categoría según los datos de validación.

  10. Expanda el grupo Opciones de modelo avanzadas.

    Las opciones de este grupo, conocidas como hiperparámetros, permiten controlar la cantidad de árboles de decisión y las características de los árboles utilizados en el modelado. Por ejemplo, aumentar el número de árboles del modelo de bosque o potenciado generalmente dará como resultado predicciones del modelo más precisas, pero el modelo tardará más en calcularse. Los valores de Tamaño mínimo de hoja más pequeños pueden hacer que su modelo sea propenso a crear ruido en sus datos. Para comprender mejor cuáles de estos parámetros podría necesitar ajustar, primero ejecutará el modelo con los parámetros predeterminados. El uso de la configuración Optimizar parámetros le ayudará a realizar estos ajustes.

  11. Active la casilla Optimizar parámetros.

    Active la casilla Optimizar parámetros.

    Hay varios métodos de optimización entre los que puede elegir. Para reducir el tiempo de procesamiento, utilizará el método predeterminado Búsqueda aleatoria (rápida) y optimizará la precisión del modelo. Hay otras opciones que puede elegir para Optimizar objetivo (Objetivo) que se centran en optimizar varias métricas de rendimiento del modelo.

  12. Para Número de ejecuciones para conjuntos de parámetros, escriba 10.

    Para cada punto de búsqueda, el método Búsqueda aleatoria (intensiva) construye un modelo utilizando 10 semillas aleatorias diferentes, elige el conjunto de valores de hiperparámetros con el rendimiento medio del modelo y luego pasa al siguiente punto de búsqueda. La herramienta busca todos los puntos de búsqueda candidatos y luego selecciona el conjunto de valores de hiperparámetros con el mejor rendimiento del modelo.

  13. Para Configuración de parámetros del modelo, agregue los siguientes hiperparámetros:
    1. Parámetro: Número de árboles
    2. Límite inferior : 100
    3. Límite superior: 500
    4. Intervalo: 10

      Optimizar la configuración de parámetros

      Nota:

      Al introducir los hiperparámetros, es posible que vea el indicador de Error 110535. El error se resolverá cuando termine de introducir los hiperparámetros y los criterios de prueba.

  14. Expanda la sección Opciones de validación. Establezca Número de ciclos de validación, en 25.

    Cuantas más ejecuciones permita la herramienta, más confianza podrá tener en el modelo. Con cada ciclo de validación, se necesitará un 10 por ciento diferente de los datos para probar el modelo. Los diagnósticos de la herramienta le permitirán comparar la puntuación de precisión de las ejecuciones de entrenamiento con el ciclo de validación. También podrá tener una mejor idea de la importancia de cada variable para la predicción general.

  15. En Tabla de validación de salida, escriba fbbcr_out_validation.

    Esta tabla viene con un gráfico que muestra la distribución de las puntuaciones de precisión. El gráfico ayuda a evaluar la estabilidad del modelo o si necesita mejoras.

  16. Haga clic en Ejecutar.

    Configure la Tabla de validación de salida y haga clic en Ejecutar.

    Cuando la herramienta termina de ejecutarse, la capa fbbcr_output_trained se agrega al mapa.

    La capa fbbcr_output_trained se agrega al mapa.Las tablas de salida que creó se agregan al panel Contenido en Tablas independientes.

    Nota:

    De forma predeterminada, el modelo basado en bosque toma una muestra aleatoria diferente de los datos de entrenamiento en cada ejecución, por lo que si ejecuta la herramienta varias veces, puede obtener resultados diferentes.

Interpretar y mejorar el modelo de bosque aleatorio

Ahora que ha ejecutado la herramienta una vez, utilizará los diagnósticos, los gráficos y los resultados de entrenamiento de la herramienta para evaluar el nivel de predicción de la presencia de jabalíes del modelo. Hay dos áreas que debe evaluar para decidir qué parámetros mejorar: el rendimiento del modelo y la relevancia de los datos explicativos. Los diagnósticos de la herramienta proporcionan una serie de estadísticas, como Errores de modelo fuera de bolsa y Diagnósticos de clasificación, que lo ayudan a evaluar si los parámetros o hiperparámetros deben actualizarse. La tabla Importancia variable superior también informa sobre las variables explicativas con mayor impacto en la predicción, lo que le permite eliminar el exceso de datos.

Al entrenar un modelo, la mejor práctica es ejecutarlo varias veces y probar diferentes parámetros para mejorarlos. Este tutorial está limitado a dos ejecuciones de la herramienta por cuestiones de tiempo. Para llevar a cabo un análisis adicional de los resultados, consulte el artículo de documentación Cómo funciona Clasificación y regresión basadas en bosque y potenciadas.

Nota:

Los resultados pueden variar respecto a todos los ejemplos dados en esta sección. Esta variación se debe al muestreo aleatorio que realiza la herramienta.

  1. Cuando la herramienta Clasificación y regresión basadas en bosque y potenciadas termine de ejecutarse, en la parte inferior del panel Geoprocesamiento, haga clic en Ver detalles.

    Haga clic en Ver detalles para abrir una explicación sobre los parámetros de la herramienta.

    Nota:

    Si cerró el panel Geoprocesamiento, también puede acceder a los Detalles desde el Historial de geoprocesamiento. En la cinta, haga clic en la pestaña Análisis. En el grupo Geoprocesamiento, haga clic en Historia. En el panel Historial, haga clic con el botón derecho en la herramienta Clasificación y regresión basadas en bosque y potenciadas y seleccione Ver detalles.

    Los detalles de la herramienta contienen un registro de los parámetros utilizados y mensajes que le ayudarán a interpretar los resultados.

  2. Si es necesario, en la ventana Detalles, haga clic en la pestaña Mensajes.

    Haga clic en la pestaña Mensajes.

    La primera tabla muestra las Características del modelo o los hiperparámetros utilizados para especificar el modelo basado en bosque. Debido a que permitió la optimización de los parámetros, es probable que el modelo se haya ejecutado con más árboles que los 100 predeterminados. El número exacto que utilizó su modelo variará en función de las muestras aleatorias que haya tomado.

    Nota:

    Las advertencias de la herramienta muestran que hubo problemas al leer algunas de las entidades de entrada. Debido a la resolución y extensión de los rásteres de entrada, que se recortaron al estado de California para reducir tanto el tiempo de procesamiento como el tamaño del archivo, no se pudo extraer información de algunos de los puntos de observación cercanos a la costa desde los rásteres a los puntos.

  3. Desplácese hacia abajo hasta la tabla Errores de modelo fuera de bolsa.

    Los errores de modelo fuera de bolsa (OOB) le ayudan a evaluar la precisión del modelo. El MSE (error cuadrático medio) se basa en la capacidad del modelo para predecir con precisión el valor de Variable a predecir. Estos errores se calculan para la mitad del número de árboles utilizados y el número total de árboles utilizados. Si los errores y el porcentaje de variación explicados son similares para ambos números de árboles, probablemente no sea necesario aumentar el número de árboles utilizados. Dado que la variable a predecir es categórica, los errores OOB se calculan en función del porcentaje de clasificaciones incorrectas para cada categoría entre los árboles que no vieron un subconjunto de los árboles en el bosque.

  4. Vea las variables más importantes en la tabla Importancia variable superior.

    Tabla Importancia variable superior

    Debido a que se utilizaron tantas variables explicativas, la importancia de cada una será relativamente baja, pero la tabla sigue siendo una forma útil de ver qué variables pueden tener la mayor influencia en la presencia de jabalíes. Utilizará los resultados de esta tabla, así como la tabla Resumen de Importancia variable creada con la salida fbbcr_variable_importance para reducir la cantidad de variables que se van a utilizar en la próxima ejecución de la herramienta.

  5. Compare las puntuaciones de la tabla Datos de entrenamiento: diagnóstico de clasificación con las de la tabla Datos de validación: diagnóstico de clasificación.

    Compare las tablas de diagnóstico de clasificación.

    La tabla Datos de entrenamiento: diagnóstico de clasificación informa del rendimiento del modelo con los datos de entrenamiento, y la tabla de validación informa del rendimiento del modelo con los datos que no conocía. Si el modelo funciona bien con los datos de entrenamiento, pero muy mal en la validación, esto indica un posible sobreajuste del modelo. Generalmente, cuanto más cerca estén F1-Score y MCC de 1, mejor será el modelo.

  6. En la tabla Datos de validación: diagnóstico de clasificación, compare los valores de Sensibilidad y Precisión.

    Las estadísticas presentadas en esta tabla son mediciones del rendimiento del modelo. La sensibilidad es el porcentaje de veces que las entidades con una categoría observada se predijeron correctamente para esa categoría, y la precisión es el número de veces que una categoría se identificó correctamente entre el número total de observaciones para esa categoría. Ambos valores son cercanos a 1, lo que significa que el modelo ha clasificado con precisión la mayoría de los puntos durante los ciclos de validación. Puede ver la información de Sensibilidad en formato gráfico abriendo el gráfico Rendimiento de la validación creado con la tabla fbbcr_class_performance.

  7. Cierre la ventana de Detalles. En el panel Contenido, debajo de la capa fbbcr_output_trained, haga clic con el botón derecho en el gráfico Rendimiento de la predicción y elija Abrir.

    Abra la tabla Rendimiento de la predicción.

    Se abre el gráfico Rendimiento de la predicción. Cada barra representa la categoría predicha y el color de las subbarras refleja la categoría real. Este gráfico se puede utilizar para mostrar con qué frecuencia el modelo predijo correctamente la variable de interés y qué puntos le causaron problemas. Dado que ejecutó el modelo con el parámetro Incluir todas las probabilidades de predicción activado, cada punto de esta capa también incluye la probabilidad de ausencia o presencia de jabalíes.

    Si bien este gráfico muestra el rendimiento del modelo con las entidades de entrenamiento de entrada, el gráfico Precisión de la validación creado con la tabla fbbcr_out_validation muestra el rendimiento del modelo con los datos de validación.

  8. En el gráfico Rendimiento de la predicción, en la barra 0, haga clic en la subbarra más pequeña que muestra los puntos que representan Presencia, pero que se clasificaron erróneamente como puntos de Ausencia.

    Puntos de presencia mal clasificados

    Los puntos que fueron clasificados erróneamente como puntos de ausencia se seleccionan en el mapa. Están dispersos por todo el estado.

  9. En el mapa, haga clic en uno de los puntos mal clasificados. En el elemento emergente, desplácese hacia abajo hasta los atributos de Probabilidad.

    Atributos de probabilidad mostrados en el elemento emergente

    En el punto seleccionado mostrado, basado en los atributos ambientales del punto, la probabilidad de ausencia es del 57 por ciento y la probabilidad de presencia es del 42 por ciento.

  10. En el panel Contenido, en Tablas independientes, para la tabla fbbcr_variable_importance, haga doble clic en el gráfico Distribución de importancia variable.

    Debido a que ejecutó el modelo 25 veces para su validación, cada vez con un subconjunto diferente de datos de entrada, la importancia de las variables varía ligeramente. Si bien hay variaciones en la importancia de las variables, las 12 primeras tienen una importancia bastante alta: BIO15_Precipitation_Seasonality, BIO11_Mean_Temperature_of_Coldest_Quarter, CA_Elevation, BIO3_Isothermality, CA_NLCD, BIO18_Precipitation_of_Warmest_Quarter, BIO6_Min_Temperature_of_Coldest_Month, BIO8_Mean_Temperature_of_Wettest_Quarter, CA_Slope, BIO1_Annual_Mean_Temperature, BIO14_Precipitation_of_Driest_Month y BIO12_Annual_Precipitation.

    Tabla Distribución de importancia variable

    Volverá a ejecutar la herramienta, esta vez centrándose en estas 12 variables explicativas. Eliminar las variables explicativas menos importantes le ayudará a reducir la posibilidad de sobreajuste del modelo.

  11. En el panel Geoprocesamiento, en la herramienta Clasificación y regresión basadas en bosque y potenciadas, cambie el Tipo de predicción a Predecir a ráster.
  12. Para Rásteres de entrenamiento explicativos, elimine todos los rásteres excepto Bioclimate 1, 3, 6, 8, 11, 12, 14, 15, 18, CA_Elevation, CA_NLCD y CA_Slope.
  13. Para Superficie de predicción de salida, escriba fbbcr_feral_swine_prediction.

    Actualice los rásteres de entrenamiento explicativos.

  14. Para todas las salidas que creó en las categorías Salidas adicionales, Opciones avanzadas del modelo y Opciones de validación, agregue el sufijo _top12 al final del nombre de la salida.

    Esto volverá a crear las salidas para la superficie de predicción, lo que le permitirá comparar los dos modelos para asegurarse de que está mejorando la predicción.

  15. Haga clic en Ejecutar.
  16. En el panel Contenido, desactive la capa fbbcr_output_trained. Cierre todas las tablas y gráficos que haya abierto mientras evaluaba la primera ejecución del modelo.

    Se agrega la capa fbbcr_output_trained_top12 al mapa

  17. Utilice lo que ha aprendido sobre los diagnósticos del modelo y las tablas de salida para evaluar el nuevo modelo.

    Las estadísticas generales que evalúan este modelo, incluidas MSE, F-1 score y MCC, deberían haber mejorado. A diferencia del primer modelo, este ciclo tendía a predecir incorrectamente la presencia más que la ausencia. En el caso de los jabalíes, esto probablemente sea beneficioso, ya que las poblaciones de jabalíes son adaptables y pueden sobrevivir en una variedad de condiciones diferentes.

  18. En el panel Contenido, desactive la capa fbbcr_output_trained_top12.

    Superficie de predicción que muestra dónde es más probable encontrar jabalíes

    La capa fbbcr_feral_swine_prediction es un ráster que muestra dónde es probable la presencia de jabalíes en el estado según las características ambientales.

En esta sección, ejecutó la herramienta Clasificación y regresión basadas en bosque y potenciadas dos veces para entrenar un modelo preliminar y evaluar su precisión antes de generar una capa de predicción ráster. Siendo realistas, este proceso puede requerir más de dos iteraciones para lograr los resultados deseados. A continuación, utilizará un algoritmo de máxima entropía para realizar un modelado similar y comparar los resultados.


Utilizar técnicas MaxEnt

Otro método disponible en ArcGIS Pro para modelar la distribución de especies es la Predicción de solo presencia (MaxEnt), que utiliza un algoritmo de máxima entropía para modelar la presencia de un fenómeno en función de las ubicaciones de presencia conocidas y las variables explicativas. Al igual que con el modelo basado en bosque, la Predicción de solo presencia se puede ejecutar varias veces para evaluar y mejorar el modelo, y genera una superficie de predicción para la aparición de especies. A diferencia del modelo basado en bosques, no se necesita un dataset que contenga puntos de presencia y ausencia (o presencia y pseudoausencia, en muchos casos), por lo que la superficie ráster muestra la probabilidad de que se pueda encontrar una especie en un área determinada en lugar de una clasificación binaria de presencia o ausencia.

Entrenar un modelo de Predicción de solo presencia

En esta sección, utilizará la herramienta Predicción de solo presencia en su capacidad de entrenamiento para producir un modelo preliminar. Dado que determinó las variables explicativas más importantes utilizando la clasificación basada en bosque, también las utilizará como variables explicativas en esta herramienta.

  1. En el panel Geoprocesamiento, busque y abra la herramienta Predicción de solo presencia (MaxEnt).

    A diferencia de muchas técnicas de regresión, incluida la herramienta Clasificación y regresión basadas en bosque y potenciadas, la Predicción de solo presencia no requiere puntos de pseudoausencia o de fondo. Y, como en la herramienta Bosque aleatorio, cada tipo de entidad de entrada generará una salida diferente. En este caso, como desea generar otra superficie ráster, solo necesitará utilizar puntos de observación.

  2. Para Entidades de puntos de entrada, elija la capa Sus_scrofa_CA.
  3. En Rásteres de entrenamiento explicativos, haga clic en Agregar muchos. Active las casillas para agregar las mismas variables que en la última ejecución de la herramienta Bosque aleatorio: Bioclimate 1, 3, 6, 8, 11, 12, 14, 15, 18, CA_Elevation, CA_NLCD y CA_Slope. Haga clic en Agregar.

    Si bien puede ejecutar esta herramienta con las 19 variables bioclimáticas, es una buena práctica utilizar herramientas como Bosque aleatorio para comprender la importancia de las variables para el modelo. Al construir modelos, es importante encontrar un equilibrio entre simplificarlos para reducir el sobreajuste y crear modelos lo suficientemente sólidos para realizar predicciones precisas.

  4. Junto a la variable CA_NLCD, active la casilla Categórico.

    Elija rásteres de entrenamiento explicativos.

    A continuación, elegirá expansiones de variables. Diferentes expansiones pueden ayudar a establecer relaciones entre variables. La expansión no fue necesaria en el modelo de Bosque aleatorio porque el algoritmo maneja automáticamente las relaciones no lineales entre las variables dependientes y explicativas. Puede seleccionar varias funciones base en una ejecución de la herramienta con el parámetro Expansiones de variables explicativas (Funciones de base), para luego utilizar en el modelo todas las versiones transformadas de las variables explicativas. Las variables de mejor rendimiento se seleccionan mediante regularización, un método de selección variable que equilibra las contrapartidas entre el ajuste del modelo y la complejidad del modelo.

  5. En Expansiones de variables explicativas (Funciones de base), active las casillas para seleccionar Original (Lineal), Cuadrado (Cuadrática) e Interacción por pares (Producto).

    La función Original (Lineal) es la única que funcionará con datos de categorías, como la cobertura de suelo. La función Cuadrado, que crea una relación cuadrática, tiende a modelar un poco mejor las relaciones de las especies con los factores ambientales, ya que hay rangos específicos dentro de cada variable que forman el hábitat ideal de las especies. Por ejemplo, las especies que prosperan en zonas con precipitaciones moderadas no son adecuadas para las condiciones desérticas o las selvas tropicales; la relación es parabólica. La probabilidad de que el hábitat sea adecuado para la especie aumenta a medida que lo hacen las tasas de precipitación, y luego vuelve a disminuir cuando las tasas de precipitación superan un cierto punto. La función Por pares también es útil para modelar las condiciones ambientales, ya que puede representar relaciones entre ellas.

  6. Para Área de estudio, elija Área de estudio poligonal y seleccione la capa de fronteras del estado de California como el Polígono del área de estudio.
  7. Active el parámetro Aplicar simplificación espacial.

    Active la casilla para aplicar el parámetro de simplificación espacial.

    La simplificación espacial se aplica tanto a los puntos de observación como a los de fondo como una forma de reducir el posible sesgo del muestreo. Debido a que los datos de observación de jabalíes fueron recopilados por personas con iNaturalist, existe la posibilidad de que muestren sesgos tanto en áreas donde hay personas como en áreas donde hay personas con la aplicación iNaturalist que reconocen e informan de varias especies. La simplificación espacial puede reducir los efectos del sesgo al eliminar puntos próximos entre sí, que pueden representar múltiples avistamientos del mismo animal, un área protegida como un parque nacional donde es más probable que se produzcan interacciones entre humanos y animales, etc.

  8. Para Distancia mínima al vecino más cercano, elija 1 kilómetro como distancia.

    Los siguientes parámetros son hiperparámetros para el modelo.

  9. Si es necesario, expanda Opciones de modelo avanzadas. Para Peso relativo de la presencia al fondo, escriba 1.
  10. Para Transformación de probabilidad de presencia (función de vínculo), elija Logística.

    Configure las opciones avanzadas del modelo.

    De las dos funciones de Transformación de probabilidad de presencia disponibles, Logística es la mejor opción cuando la presencia no es absoluta. Por ejemplo, dado que es probable que los jabalíes no permanezcan en el lugar donde fueron observados, sino que estén deambulando en busca de alimento y refugio, la función Logística es apropiada. Como ha elegido utilizar la función Logística, el parámetro Peso relativo de la presencia al fondo debe ser menor. En este caso, está ponderando por igual los puntos de presencia y pseudoausencia.

    También aceptará el Valor límite de probabilidad de presencia de 0,5 por ahora: los diagnósticos de la primera ejecución de esta herramienta lo ayudarán a determinar si se necesita un valor límite diferente para mejorar las ejecuciones futuras.

    Ahora puede elegir qué diagnósticos y gráficos desea que genere la herramienta. La herramienta organiza las salidas en salidas de entrenamiento y predicción. La principal diferencia es que los resultados del entrenamiento corresponden a los datos que se utilizaron en el entrenamiento y la selección del modelo, y los resultados de la predicción corresponden a los datos a los que el modelo aún no ha sido expuesto.

  11. Expanda el grupo Resultados de entrenamiento. Para Entidades de entrenamiento de salida, escriba pop_output_trained.

    El resultado de esta salida será una clase de entidad que contiene los puntos utilizados en el entrenamiento del modelo y tres gráficos para ofrecer una interpretación adicional. Esta salida simboliza los puntos de presencia de entrada y cualquier punto de fondo creados utilizando una comparación entre la clasificación del modelo y la clasificación observada, lo que proporciona un método visual para analizar las predicciones del modelo.

    Por ahora, omitirá el ráster de entrenamiento de salida. Una vez que haya ejecutado el modelo inicial y sepa si funciona bien con las entidades de puntos de entrada, creará la superficie ráster. Para la primera ejecución, creará una Tabla de curvas de respuesta para mostrar el impacto de cada ráster de entrada en la predicción y una Tabla de sensibilidad, que lo ayudará a determinar un buen valor para el parámetro Valor límite de probabilidad de presencia.

  12. Para Tabla de curvas de respuesta de salida, escriba pop_response_curve y, para Tabla de sensibilidad de salida, escriba pop_sensitivity.
  13. Expanda el grupo Opciones de validación. Para Esquema de remuestreo, elija Aleatorio y configure el parámetro Número de grupos en 5.

    El parámetro Esquema de remuestreo permite que la herramienta realice una validación cruzada para evaluar la estabilidad del modelo. Los puntos se dividirán aleatoriamente en cinco grupos y cada grupo quedará fuera una vez al realizar la validación cruzada.

  14. Haga clic en Ejecutar.

    Primera ejecución de la herramienta de solo presencia

Cuando la herramienta termina de ejecutarse, las tablas y la capa de salida se agregan al panel Contenido. La capa pop_output_trained se agrega al mapa.

Interpretar y mejorar el modelo de Predicción de solo presencia

Ahora que ha ejecutado la herramienta una vez, utilizará los diagnósticos, los gráficos y los resultados de entrenamiento de la herramienta para evaluar el nivel de predicción de la presencia de jabalíes del modelo. Los diagnósticos de la herramienta le ayuda a evaluar la precisión del modelo, informando sobre la cantidad de puntos de presencia y de fondo que se clasificaron correctamente. Si bien todas las estadísticas y resultados de la ejecución de entrenamiento inicial pueden ayudarlo a mejorar algunos aspectos de su modelo, en esta sección se centrará en las estadísticas Área bajo la curva y Omisión, que lo ayudarán a decidir un parámetro de Valor límite de probabilidad de presencia adecuado para la próxima ejecución de la herramienta.

Nota:

Al entrenar un modelo, la mejor práctica es ejecutarlo varias veces y probar diferentes parámetros para mejorarlos. Este tutorial está limitado a dos ejecuciones de la herramienta por cuestiones de tiempo. Para obtener un análisis adicional de los resultados, consulte el artículo de la documentación Cómo funciona la predicción solo de presencia (MaxEnt).

  1. En el panel Contenido, desactive todas las capas excepto pop_output_trained, la capa de fronteras de California y el mapa base.

    La capa Pop_output_trained

  2. En la parte inferior del panel Geoprocesamiento, haga clic en Ver detalles para abrir los diagnósticos de la herramienta.

    Haga clic en Ver detalles para abrir los mensajes de la herramienta.

    Se muestran algunas advertencias para esta herramienta. Al igual que antes, es posible que algunos puntos cercanos a las fronteras estatales no hayan tenido información ráster disponible. No se redujeron los puntos de fondo, lo que no es necesariamente un problema considerando lo grande que es el área de estudio. Finalmente, una de las categorías del dataset Cobertura de suelo (la categoría de hielo y nieve permanentes) tenía menos de ocho puntos de datos. Puede explorar este tema más a fondo utilizando la tabla Diagnóstico de categoría de variables explicativas.

    La primera tabla que vamos a revisar es Recuento de puntos de presencia y fondo, que muestra la precisión del modelo.

  3. En la tabla Recuento de puntos de presencia y fondo, compare la fila Número de puntos de presencia para encontrar cuántos puntos se usaron en el entrenamiento del modelo y cuántos se clasificaron correctamente como presencia.

    Comparar la fila Número de puntos de presencia

    Cuanto más próximos sean los números en estas dos columnas, mejor rendimiento tendrá el modelo. También desea evaluar la fila Número de puntos de fondo. Dado que estableció el parámetro Peso relativo de la presencia al fondo en 1, este número debería ser relativamente bajo.

    La tabla Características del modelo registra los parámetros del modelo que se utilizaron.

  4. En la tabla Resumen del modelo, evalúe el valor AUC.

    Evalúe la estadística Área bajo la curva.

    La AUC, o estadística Área bajo la curva, describe la fiabilidad del modelo para estimar ubicaciones de presencia conocidas como presencia y ubicaciones de fondo conocidas como fondo. Cuanto mayor sea este valor respecto a 1, mejor será el rendimiento del modelo. La estadística AUC se utiliza junto con la Tasa de omisión, que muestra qué porcentaje de puntos de presencia se clasifican incorrectamente como con baja probabilidad de presencia. Evaluará ambas estadísticas más a fondo utilizando gráficos creados con la tabla pop_sensitivity.

  5. Desplácese hacia abajo hasta la tabla Coeficientes de regresión.

    Tabla Coeficientes de regresión

    Esta tabla muestra las variables finalmente utilizadas en el modelo. La mayoría tiene la palabra producto agregada como prefijo, lo que muestra que muchas de las variables utilizadas se transformaron utilizando las expansiones de Interacción por pares (Producto).

    Las dos últimas tablas muestran el rango de valores representados en los datos muestreados. En la tabla final, puede revisar los datos de NLCD y ver qué categoría fue submuestreada, lo que provocó la advertencia que vio arriba.

  6. En la tabla Diagnóstico de categoría de variables explicativas, busque la categoría que tenga menos de 8 valores muestreados.

    La categoría 12, el tipo de cobertura de suelo con menos de 8 puntos muestreados

    La categoría 12, en este ejemplo, tiene cuatro puntos de muestra. Según los detalles de elemento de la capa NLCD, la categoría 12 representa la Cobertura de hielo y nieve perenne, de la cual hay relativamente poca en California. Dado que la cantidad de muestras corresponde aproximadamente a la presencia en el mundo real de este tipo particular de cobertura de suelo, no es necesario preocuparse por el tamaño de esta muestra.

    A continuación, verá las entidades entrenadas y las tablas que creó para evaluar su modelo. La capa pop_output_trained muestra todos los puntos utilizados en el modelo. Los puntos de presencia se muestran como clasificados correcta o incorrectamente según la predicción del modelo. Los puntos de fondo se clasifican como puntos de presencia potenciales o puntos de fondo restantes.

  7. Cierre la ventana de detalles.
  8. En el panel Contenido, debajo de la capa pop_output_trained, haga doble clic en el gráfico Porcentajes de resultados de clasificación.

    Abra el gráfico Porcentajes de resultados de clasificación.

    El gráfico muestra una comparación de las clasificaciones observadas y previstas. Empezará por analizar el porcentaje de puntos de presencia que fueron clasificados correctamente por el modelo.

  9. En el panel Gráfico, en la columna Presencia, apunte a la subbarra Presencia: clasificación correcta para mostrar un resumen numérico de los datos.

    Resumen de puntos de presencia clasificados correctamente

    En la imagen de ejemplo, el 65,68 por ciento de los puntos de presencia se clasificaron correctamente. Este resultado es bastante bueno para el rendimiento del modelo, pero aún se puede mejorar.

    Una de las formas de mejorar este modelo es revisar el parámetro Valor límite de probabilidad de presencia. Utilizará los gráficos Tasas de omisión y Diagrama ROC para encontrar un mejor valor para este parámetro.

  10. Cierre el gráfico Porcentajes de resultados de clasificación.
  11. En el panel Contenido, en Tablas independientes, para la tabla pop_sensitivity, haga doble clic en los gráficos Tasas de omisión y Diagrama ROC para abrirlos.
  12. Haga clic en el Diagrama ROC y arrástrelo para poder verlo junto con el gráfico Tasas de omisión al mismo tiempo.

    Arrastre los gráficos para poder verlos ambos al mismo tiempo.

  13. En el gráfico Tasas de omisión, seleccione el valor límite de probabilidad de presencia predeterminado de 0,5 y observe la sensibilidad resultante en el eje y del diagrama ROC.

    Valor límite de 0,5

    En la imagen de ejemplo, un valor límite de probabilidad de 0,5 ha dado como resultado una tasa de omisión de 0,343, lo que genera una sensibilidad de 0,657. La tasa de omisión es el porcentaje de puntos de presencia conocidos que fueron clasificados erróneamente como no presencia por el modelo.

    Cuando se utilizan juntos, los gráficos Tasas de omisión y Diagrama ROC muestran cómo los diferentes valores del parámetro Valor límite de probabilidad de presencia dan como resultado diferentes tasas de puntos de presencia clasificados incorrectamente. Si bien generalmente es bueno tener una tasa de omisión cercana a 0, reducir el valor límite también aumentará la cantidad de puntos de fondo clasificados como puntos de presencia, lo que puede disminuir la especificidad del modelo. Debido a que los jabalíes salvajes son carroñeros adaptables, en este caso es beneficioso encontrar más áreas donde puedan sobrevivir, porque así encontrará un equilibrio entre la especificidad y la sensibilidad que muestre más puntos de presencia.

  14. En el gráfico Diagrama ROC, haga clic en uno de los puntos con un valor de alrededor de 0,9 en el eje y.

    Utilice los gráficos para encontrar un equilibrio entre sensibilidad y especificidad.

    En el modelo de ejemplo, una sensibilidad de 0,9 dará como resultado una tasa de omisión del 0,098 por ciento. Para obtener este resultado, deberá volver a ejecutar la herramienta utilizando un Valor límite de 0,24.

  15. En el panel Geoprocesamiento, para Valor límite de probabilidad de presencia, escriba 0,24.
  16. Para todas las salidas que creó en el grupo Resultados de entrenamiento, agregue el sufijo _ppc al final del nombre de la salida.

    También generará un ráster de predicción de salida.

  17. Para Ráster de entrenamiento de salida, escriba pop_trained_raster_ppc y haga clic en Ejecutar.

    Vuelva a ejecutar la herramienta Predicción de solo presencia.

  18. En el panel Contenido, desactive todas las capas excepto la capa pop_trained_raster_ppc, la capa de fronteras de California y el mapa base.

    Capa de predicción de ráster de entrenamiento

  19. Utilice lo que ha aprendido sobre los diagnósticos del modelo y las tablas de salida para evaluar el nuevo modelo.

    Al igual que con el análisis basado en bosque que llevó a cabo anteriormente, este enfoque de modelado a menudo requiere más de dos iteraciones. Utilizando su comprensión de los parámetros e hiperparámetros, puede seguir realizando cambios y comparando la precisión de los resultados hasta encontrar la mejor combinación para sus datos y situación.

Comparar de Bosque aleatorio y MaxEnt

Los dos análisis utilizados en este tutorial se pueden utilizar para modelar la distribución de especies. En función de sus objetivos para el análisis, los datos que tenga disponibles y otros factores, puede optar por utilizar uno o ambos de estos métodos para su propio modelado. Al igual que todos los métodos estadísticos y analíticos, la clasificación Basada en bosque y MaxEnt tienen fortalezas y debilidades a tener en cuenta. En esta sección, comparará las superficies de predicción de salida que ha producido y revisará algunos de los beneficios de ambos enfoques de modelado.

  1. En el panel Contenido, active la capa fbbcr_feral_swine_prediction.
  2. Haga clic en la capa pop_trained_raster_ppc para seleccionarla.
  3. En la cinta, haga clic en la pestaña Capa ráster. En el grupo Comparar, haga clic en el botón Swipe.

    Abra la herramienta Swipe.

  4. En el mapa, haga clic y arrastre el cursor hacia adelante y hacia atrás para comparar las dos superficies de predicción ráster.

    Utilice la herramienta Swipe para comparar las superficies ráster.

    Las superficies de predicción son similares, lo que es una buena señal de la precisión de los modelos.

    Al utilizar métodos de estadística espacial para la predicción, cada método presenta algunas fortalezas y limitaciones que debe tener en cuenta para asegurarse de elegir el mejor método para el objetivo de su análisis y los datos que tiene disponibles.

    Clasificación y regresión basadas en bosque

    Fortalezas del enfoqueOtras consideraciones

    Puede captar una relación desconocida o más compleja entre variables dependientes y explicativas.

    Requiere tanto puntos de presencia como de ausencia (o pseudoausencia).

    No es necesario especificar las relaciones, como ocurre con la Predicción de solo presencia.

    Aunque la importancia variable nos ayuda a comprender la contribución de cada variable explicativa al modelo, puede ser difícil interpretar la importancia variable. Por ejemplo, no sabe si la relación es positiva o negativa.

    Predicción de solo presencia

    Fortalezas del enfoqueOtras consideraciones

    Está diseñado para el modelado de solo presencia, por lo que no es necesario preparar puntos de ausencia.

    Es necesario asumir la relación entre la variable dependiente y las variables explicativas.

    Proporciona más flexibilidad a la hora de decidir cómo ponderar los puntos de fondo utilizando el parámetro Peso relativo de la presencia al fondo.

    Se puede utilizar el parámetro de simplificación espacial para controlar los puntos de ausencia.

    La superficie ráster de salida proporciona más detalles sobre la probabilidad de hábitat de jabalíes en lugar de una decisión binaria sobre presencia o ausencia.

En este tutorial, utilizó dos técnicas de análisis para realizar un modelo de distribución de especies de jabalíes en California. Como especie invasora, los jabalíes representan una amenaza para los ecosistemas y la agricultura del estado. Estas técnicas de modelado se pueden utilizar para una amplia gama de especies y fenómenos distintos.