Visualizar los datos

Primero agregará una tabla de datos a un mapa como un conjunto de entidades de punto con atributos. Más adelante en el flujo de trabajo puede incluir características espaciales de los datos en su proceso de modelado.

Crear entidades

Descargará un paquete de proyecto de ArcGIS Pro con una tabla de datos de venta de viviendas y creará una clase de entidad a partir de él.

  1. Descargue el paquete de proyecto King County House Prices.
  2. Vaya a la ubicación en la que descargó el paquete y haga doble clic en King_County_House_Prices.ppkx para abrir el proyecto en ArcGIS Pro. Si se le pide, inicie sesión en su cuenta con licencia de ArcGIS.
    Nota:

    Si no tiene acceso a ArcGIS Pro o una cuenta de organización de ArcGIS, consulte las opciones de acceso a software.

    Se abrirá el proyecto. La extensión del mapa es King County, Washington. En el panel Contenido, en la sección Tablas independientes, hay un elemento llamado kc_house_data.csv.

    Este archivo es un archivo de valores separados por comas (.csv), un formato utilizado con frecuencia para intercambiar tablas de datos. La primera fila del archivo contiene una lista delimitada por comas de los nombres de campo; cada fila posterior contiene valores delimitados por comas para cada uno de esos campos. En muchos flujos de trabajo de ciencia de datos o aprendizaje de máquina, uno de los primeros pasos es leer este archivo en un marco de datos utilizando un notebook. En este tutorial, cargará los datos en una geodatabase como un conjunto de entidades de punto y utilizará ArcGIS Pro como estación de trabajo de ciencia de datos.

    La tabla se abre y se muestra debajo de la vista de mapa. Puede ver los nombres de campo de la tabla y algunos de los valores.

  3. En la cinta, haga clic en la pestaña Análisis. En el grupo Geoprocesamiento, haga clic en Herramientas.

    Botón Herramientas

    Se abre el panel Geoprocesamiento.

  4. En el panel Geoprocesamiento, en el cuadro Buscar, escriba De tabla XY a punto.
  5. En los resultados de búsqueda de la herramienta, haga clic en De tabla XY a punto.

    Herramienta De tabla XY a punto en los resultados de búsqueda

  6. En el panel de la herramienta De tabla XY a punto, en Tabla de entrada, elija kc_house_data.csv.
    Nota:

    Si está trabajando en una configuración regional en inglés que no sea americano, utilice la tabla de geodatabase kc_house_data_table incluida en lugar del archivo .csv. La configuración regional puede afectar a los tipos de datos de los campos de salida cuando se importan archivos .csv con la herramienta De tabla XY a punto. Si desea crear puntos a partir de los archivos .csv y también tener un control del tipo de datos de los atributos importados, puede importar primero el archivo .csv a una tabla de geodatabase y establecer los tipos de datos de cada campo en la herramienta De tabla a tabla.

  7. En Clase de entidad de salida, escriba kc_house_data.

    El parámetro Campo X ya está relleno con el campo long de la tabla .csv, mientras que el parámetro Campo Y se rellena con el campo lat. Este dataset no tiene un valor de Campo Z, por lo que puede dejar ese parámetro en blanco.

    A continuación, definirá un sistema de coordenadas adecuado para los datos.

  8. En Sistema de coordenadas, haga clic en el botón Seleccionar sistema de coordenadas.

    Botón Seleccionar sistema de coordenadas

    Aparece la ventana Sistema de coordenadas.

  9. En el cuadro de búsqueda, escriba HARN y pulse Intro.
  10. Expanda Sistema de coordenadas geográficas, Norteamérica y Estados Unidos y territorios. Haga clic en NAD 1983 HARN.

    Sistema de coordenadas NAD 1983 HARN

  11. Haga clic en Aceptar. En el panel de la herramienta De tabla XY a punto, haga clic en Ejecutar.

    Se ejecuta la herramienta. Cuando termine, los puntos se agregarán al mapa.

  12. Cierre el panel Geoprocesamiento. Cierre la vista de tabla kc_house_data.csv.

Cambiar la simbología

Antes de explorar los datos, cambiará la simbología predeterminada.

  1. En el panel Contenido, en kc_house_data, haga clic en el símbolo de punto.

    Símbolo de punto predeterminado en el panel Contenido

  2. En el panel Simbología, en la pestaña Galería, haga clic en el símbolo Círculo 3.

    Símbolo Círculo 3

  3. Haga clic en la pestaña Propiedades. En Apariencia, en Color, elija Verde malaquita.
    Sugerencia:

    En el selector de color, apunte a un color para ver el nombre del color.

    Verde malaquita en el selector de color

  4. En Tamaño, elija 4 pt. Haga clic en Aplicar.

    Los símbolos cambian en el mapa.

    Mapa con puntos simbolizados

  5. Cierre el panel Simbología.
  6. En la barra de herramientas de acceso rápido, haga clic en el botón Guardar para guardar el proyecto.

    Botón Guardar en la barra de herramientas de acceso rápido

    Nota:

    Puede aparecer un mensaje que le avisa que guardar este archivo de proyecto con la versión actual de ArcGIS Pro le impedirá volver a abrirlo en una versión anterior. Si ve este mensaje, haga clic en para continuar.

Explorar los datos

A continuación, explorará los datos. Primero, se familiarizará con sus campos de atributos y su significado. A continuación, creará una matriz de gráficos de dispersión y explorará las relaciones entre atributos.

  1. En el panel Contenido, haga clic con el botón derecho en kc_house_data y elija Tabla de atributos.

    La tabla de atributos tiene 20 campos de atributos que describen las viviendas y los precios de venta. Los campos se enumeran en la siguiente tabla:

    Nombre de campoDescripción de campo

    fecha

    Fecha de venta

    precio

    Importe de transacción final

    dormitorios

    Número de habitaciones

    baños

    Número de cuartos de baño

    pie2_útiles

    Tamaño del espacio habitable (en pies cuadrados)

    pie2_parcela

    Tamaño de lote (en pies cuadrados)

    plantas

    Número de plantas

    línea de costa

    Es una vivienda en la costa (1: sí, 0: no)

    vista

    Variable de categorías para las vistas de la vivienda

    condición

    Variable de categorías para el estado de la vivienda

    clasificación

    Puntuación general de la vivienda basada en el sistema de puntuación del condado de King

    pie2_superficie

    Tamaño de la vivienda, excepto sótano (en pies cuadrados)

    pie2_sótano

    Tamaño del sótano (en pies cuadrados)

    año_construcción

    Año de construcción de la vivienda

    año_reforma

    Año de renovación de la vivienda (si se renovó)

    CIP

    Código postal de la vivienda

    lat

    Latitud de la vivienda

    largo

    Longitud de la vivienda

    pie2_útiles15

    Tamaño del espacio habitable en 2015 (en pies cuadrados)

    sqrt_lot15

    Tamaño del lote en 2015 (en pies cuadrados)

    Algunos de los campos contienen códigos para valores específicos. Los códigos del campo de condición se explican en la siguiente tabla:

    CódigoCondiciónDescripción

    1

    Deficiente

    Se necesitan muchas reparaciones. La vivienda muestra un deterioro grave.

    2

    Fair

    Se necesitan algunas reparaciones de inmediato. Se necesita un mantenimiento mucho mayor.

    3

    Promedio

    Dependiendo de la antigüedad de la mejora, cantidad normal de mantenimiento para la antigüedad de la vivienda.

    4

    Bueno

    Estado por encima de la norma para la antigüedad de la vivienda. Esto indica que se ha tomado especial atención y cuidado para mantenerla.

    5

    Very Good

    Excelente mantenimiento y actualización de la vivienda; no una renovación total.

    El campo de clasificación contiene una serie de códigos diferente, que se explican en la siguiente tabla:

    CódigoDescripción

    1–3

    No cumple con las normas mínimas de construcción; normalmente una cabina o estructura inferior.

    4

    Por lo general, construcción antigua de baja calidad. La vivienda no cumple con el código.

    5

    Costes de construcción y mano de obra más bajos. La vivienda tiene un diseño pequeño y sencillo.

    6

    La puntuación más baja que cumple actualmente los códigos de construcción. Se utilizaron materiales de baja calidad y diseños simples.

    7

    Puntuación media de construcción y diseño. Esto se ve comúnmente en mapas catastrales y subdivisiones más antiguas.

    8

    Justo por encima de la media en construcción y diseño. Las viviendas de esta calidad suelen tener mejores materiales tanto en acabados de exterior como de interior.

    9

    Mejor diseño arquitectónico, con diseño y calidad exteriores e interiores adicionales.

    10

    Las viviendas de esta calidad suelen tener características de alta calidad. Los remates son mejores y se aprecia más calidad de diseño en los planos del suelo; más pies cuadrados.

    11

    Diseño personalizado y remates de mayor calidad, con la adición de instalaciones de madera sólidas, accesorios del cuarto de baño y opciones más lujosas.

    12

    Diseño personalizado y excelentes constructores. Todos los materiales tienen la máxima calidad y se dispone de todo tipo de comodidades.

    13

    Por lo general, se diseñan y se construyen de forma personalizada y se acercan al nivel de la mansión. Estas viviendas tienen una gran cantidad de trabajo de ebanistería de alta calidad, molduras de madera y mármol con grandes entradas.

    El campo de vista utiliza los siguientes códigos:

    CódigoDescripción

    0

    Se desconoce

    1

    Fair

    2

    Promedio

    3

    Bueno

    4

    Excelente

    El siguiente paso es explorar los datos para determinar la distribución de los valores para cada variable y determinar si alguno de los atributos se correlaciona de forma positiva o negativa. Una matriz de gráficos de dispersión es una técnica de visualización que se utiliza comúnmente para este tipo de exploración de datos.

  2. Cierre la tabla de atributos.
  3. En el panel Contenido, haga clic con el botón derecho en kc_house_data, apunte a Crear gráfico y seleccione Matriz de gráficos de dispersión.
  4. En el panel Propiedades del gráfico, en Campos numéricos, haga clic en Seleccionar. Marque todos los campos desde precio hasta pie2_sótano.

    Campos numéricos seleccionados para Matriz de gráficos de dispersión

  5. Haga clic en Aplicar.

    La vista Gráfico se actualiza con los gráficos de dispersión de los campos seleccionados.

    Matriz de gráficos de dispersión que muestra la relación entre pares de variables

    Nota:

    Puede ver el nombre de cada gráfico de dispersión apuntando a él. También puede arrastrar los límites de la vista para aumentar el tamaño de los gráficos.

    El diagrama resume las relaciones entre pares de variables diferentes. Puede utilizar la matriz de gráficos de dispersión para explorar las relaciones haciendo clic en uno de los diagramas del triángulo inferior; una vez que se hace clic en un diagrama, se mostrará una versión más grande en la parte superior derecha.

    ¿Por qué este diagrama es útil para el análisis?

    El primer modelo de regresión que utilizará para desarrollar su modelo de tasación es Regresión lineal generalizada (GLR). GLR requiere que los indicadores y la variable objetivo estén relacionados linealmente. Utilizará este gráfico para buscar características de propiedad correlacionadas linealmente con la variable que desea predecir: el precio de venta de la vivienda.

    El precio es la primera columna de la parte del triángulo inferior de la matriz de gráficos de dispersión. Los gráficos de la primera columna muestran relaciones entre distintas características de propiedad y el precio de venta de la vivienda.

  6. Haga clic en el gráfico de dispersión de precio y pie2_útiles (primera columna, tercera fila empezando por arriba).

    Gráfico de dispersión de precio y pie2_útiles en la lista de gráficos de dispersión

    La Vista previa de gráfico de la Vista de esquina de matriz se actualiza para mostrar una vista más grande del gráfico de dispersión de precio y pie2_útiles

    Gráfico de dispersión de precio y pie2_útiles

    Existe una relación lineal positiva entre el tamaño del espacio habitable (pie2_útiles) y el precio (precio). Por lo general, un aumento en el espacio habitable corresponde a un aumento en el precio de la vivienda. Esta variable es una buena candidata para un modelo GLR.

  7. Haga clic en el gráfico de dispersión de baños y precios (primera columna, segunda fila empezando por arriba).

    Gráfico de dispersión de precio y baños

    La relación entre el número de cuartos de baño y el precio no muestra una relación lineal sólida. Esto sugiere que el número de cuartos de baño no afecta al precio de venta de las viviendas en esta región tanto como el espacio habitable.

  8. Haga clic en el gráfico de dispersión correspondiente al número de dormitorios y precio (primera columna, primera fila empezando por arriba).

    Gráfico de dispersión de precio y dormitorios

    Parece haber una relación lineal positiva entre las dos variables. Sin embargo, es difícil estimar la intensidad de la relación lineal mediante la inspección visual.

  9. En el panel Propiedades de gráfico, active el cuadro Mostrar tendencia lineal.

    Mostrar tendencia lineal activado

    Al hacer clic en esta opción se agrega una línea de mejor ajuste a cada gráfico de dispersión.

  10. Haga clic en el gráfico de dispersión de precio y pie2_útiles.

    El gráfico tiene ahora la línea de mejor ajuste y la medida R2 asociada.

    Gráfico de dispersión de precio y pie2_útiles con la línea de mejor ajuste y el valor R2

    R2, o R2, es un porcentaje que indica que parte de la variación de los datos explica la relación de las dos variables. Un valor absoluto de R2 cercano a uno indica una relación lineal positiva sólida, mientras que los valores cercanos a cero indican una relación lineal débil.

    Un R2 de 0,49 indica que la relación entre pie2_útiles y precio supone el 49 por ciento de la variación en el gráfico de dispersión de pie2_útiles y precio.

  11. En el panel Propiedades de gráfico, en Diseño de matriz, en Superior derecha, elija R de Pearson. En Diagonal, elija Nombres de campo.

    R de Pearson para diseño de matriz

    El gráfico se actualiza para mostrar los valores R de Pearson además de los gráficos de dispersión.

    Gráfico con tendencia lineal y valores R de Pearson

    El coeficiente de correlación de Pearson (R de Pearson) cuantifica la intensidad de la relación lineal entre variables o cuánta influencia tiene una variable sobre otra. Un valor absoluto de R de Pearson cercano a uno indica una relación lineal positiva sólida, mientras que los valores cercanos a cero indican una relación lineal débil.

  12. Si es necesario, haga clic en el gráfico de dispersión correspondiente al número de precio y pie2_útiles.

    Gráfico de dispersión de precio y pie2_útiles

    El valor R de Pearson de precio y pie2_útiles se resalta también con un contorno negro.

    El signo de R de Pearson cuantifica el tipo de relación entre dos variables. Un valor R de Pearson de 0,7 indica que existe una relación lineal positiva entre las variables. Una relación positiva implica que un aumento en pie2_útiles corresponde a un aumento de precio y viceversa. Un valor R de Pearson negativo indica que un aumento en una variable corresponde a una disminución en la otra variable.

    Todas las características de propiedad de la matriz de gráficos de dispersión tienen una relación positiva con el precio.

  13. Haga clic en el gráfico de dispersión de baños y precio.

    El R de Pearson de 0,53 apunta a una relación lineal positiva débil entre el número de cuartos de baño y el precio.

  14. Haga clic en el gráfico de dispersión de habitaciones y precio.

    El R de Pearson de 0,31 indica una relación lineal positiva débil entre el número de habitaciones y el precio. El número de habitaciones y el precio presentan un patrón diferente para los precios menores que 1.000.000 $. Parece que existe una relación lineal sólida entre estas dos variables si el precio es mayor que 1.000.000 $.

    Este es un ejemplo de una relación por partes: relaciones que cambian después de que una variable cruza un límite determinado. La presencia de relaciones por partes sugiere que un enfoque basado en árboles, como Clasificación y regresión basadas en bosques, puede dar lugar a una estimación más precisa. Tenga esto en cuenta por ahora; más adelante, delineará las variables para la regresión lineal.

    Hasta el momento ha creado una forma de comprender las relaciones entre variables. Su objetivo inicial es crear un modelo lineal preciso que relacione los atributos de una vivienda con su precio de venta. Logrará este objetivo de las siguientes formas:

    • Buscando características de propiedad que tengan una relación lineal sólida con el precio.
    • Asegurándose de que las características de propiedad no tengan relaciones lineales sólidas entre sí (para evitar la multicolinealidad).

    La matriz de gráficos de dispersión puede resumir varias relaciones más para poder delinear las características de propiedad que desea utilizar en el análisis.

  15. Cierre la vista de Gráfico de kc_house_data y el panel Propiedades de gráfico. Guarde el proyecto.

Ha inspeccionado los datos para prepararse para realizar un análisis de regresión lineal. Ha descubierto que pie2_útiles tiene la correlación más sólida con su variable objetivo, el precio de venta de la vivienda. Otras características de propiedad que muestran relaciones sólidas entre sí pueden causar problemas si están en el mismo sistema lineal que pie2_útiles. Si dos o más características de propiedad muestran multicolinealidad, significa que sus variables cuentan la misma historia. Por ejemplo, es importante analizar si el área total de un espacio habitable también representa el número de habitaciones y cuartos de baño, que cambia en función de la región. La multicolinealidad puede distorsionar los resultados del modelo si no se corrige.

A continuación, creará un modelo lineal de la relación entre pie2_útiles y el precio de venta de la vivienda. Si el modelo no funciona bien, puede agregar al sistema lineal la variable grade, muy relacionada también con el precio de venta de la vivienda.


Identificar motores de mercado mediante regresión exploratoria

A continuación, explorará las relaciones entre las características de la propiedad y el precio de venta de la vivienda mediante regresión exploratoria. En regresión exploratoria, está intentando encontrar un modelo que puede modelar el precio de venta de la vivienda con precisión y darle información sobre las relaciones entre variables, ya sean estas relaciones positivas o negativas.

Crear un modelo de regresión lineal generalizada

El primer tipo de modelo de regresión que creará es un modelo Regresión lineal generalizada (GLR). Utilizará una de las herramientas de geoprocesamiento de Estadísticas espaciales de ArcGIS.

  1. Abra el panel Geoprocesamiento.
    Sugerencia:

    Para abrir el panel Geoprocesamiento, haga clic en la pestaña Análisis de la cinta. En el grupo Geoprocesamiento, haga clic en Herramientas.

  2. En el cuadro de búsqueda del panel Geoprocesamiento, escriba regresión lineal.
  3. Haga clic en la herramienta Regresión lineal generalizada (Herramientas de estadística espacial).

    Herramienta Regresión lineal generalizada de Herramientas de estadística espacial

    Nota:

    Algunas herramientas aparecen dos veces con nombres similares o iguales en los resultados de búsqueda del panel Geoprocesamiento. Asegúrese de seleccionar la herramienta de la caja de herramientas correcta, que aparece junto al nombre de la herramienta.

    Puede utilizar la herramienta Regresión lineal generalizada para predecir distintos tipos de variables dependientes. El modelo correcto a utilizar depende del tipo de variable dependiente. Dado que va a predecir una variable continua (precio de venta), utilizará un modelo gaussiano para predecir el precio de venta de la vivienda.

    Si estaba prediciendo una variable objetivo que era 0 o 1 (una variable binaria), por ejemplo, si una vivienda se vende por más de 500.000 $, utilizaría la opción binaria (Logística) de esta herramienta.

    Si la variable objetivo fuera un recuento, por ejemplo, el número de personas que realizaron una oferta para la vivienda, utilizará la opción de recuento (Poisson) de esta herramienta.

  4. En el panel de la herramienta Regresión lineal generalizada, introduzca los siguientes parámetros:
    • En Entidades de entrada, elija kc_house_data.
    • En Variable dependiente, elija precio.
    • En Tipo de modelo, confirme que se ha elegido Continuo (gaussiano).

    Parámetros de Regresión lineal generalizada

    A continuación, elegirá la variable explicativa del modelo de regresión. En la exploración de la matriz de gráficos de dispersión, ha determinado que pie2_útiles es una buena variable que se puede utilizar para predecir el precio de venta de las viviendas.

  5. En Variables explicativas, active la casilla pie2_útiles.
  6. En Entidades de salida, escriba valuation_sqft_living_glr.

    Creará varios modelos GLR, por lo que se recomienda que asigne nombres significativos a las distintas salidas. Este nombre indica la variable de predicción y el método.

    No definirá ninguna entrada en la sección Opciones de predicción. Por el momento, está realizando una regresión exploratoria para definir un modelo que describa el precio de las viviendas en función de las características de las propiedades. En otras palabras, está trabajando para comprender posibles impulsores tras el precio de venta de las viviendas. En esta etapa, no le preocupa asignar un precio a una vivienda en la que no se asigne ningún precio de venta (predicción). Más adelante, pronosticará precios de venta para nuevas viviendas y esta sección de la herramienta será útil.

  7. Haga clic en Ejecutar.

    La herramienta se ejecuta y completa con una advertencia: ADVERTENCIA 001605: las distancias de las coordenadas geográficas (grados, minutos, segundos) se analizan utilizando distancias de cuerda en metros.

    Las mediciones de distancia de cuerda se utilizan porque se pueden calcular rápidamente y proporcionan buenas estimaciones de las verdaderas distancias geodésicas. Asegúrese de proyectar los datos si el área de estudio se extiende más allá de 30 grados. Las distancias de cuerda no son una buena estimación de las distancias geodésicas más allá de 30 grados.

    Una de las salidas de esta herramienta es un mapa residual estandarizado.

    Mapa residual estandarizado para la capa valuation_sqft_living_glr

    El verde oscuro y el morado oscuro indican una gran falta de coincidencia entre el precio de venta predicho de las viviendas y el precio de venta real de las viviendas.

  8. En el panel Contenido, en la capa valuation_sqft_living_glr, haga doble clic en el gráfico Relación entre variables.

    El gráfico Relación entre variables muestra predicciones realizadas por GLR y puntos de datos reales.

    Gráfico Relación entre variables de valuation_sqft_living_glr

    Lo ideal sería que los puntos de datos estén cerca de la línea. Cuanto más cerca estén los puntos de datos de la línea, más sólida será la relación entre las dos variables.

    En este gráfico, los colores verdes indican una subestimación del precio de venta de la vivienda, donde el precio real de la vivienda es mayor que el predicho por el modelo. El morado indica una sobreestimación, donde el precio predicho está por encima del precio real de la vivienda.

  9. Cierre el panel del gráfico y el panel Propiedades de gráfico.

    En el mapa residual estandarizado, parece que los puntos verdes más oscuros se agrupan alrededor de masas de agua. El modelo de regresión está subestimando sistemáticamente el precio de venta de las viviendas cerca de las masas de agua. Parece que los pequeños cambios en el tamaño del espacio habitable pueden dar lugar a cambios mayores en el precio de una vivienda cerca de una masa de agua, en comparación con una vivienda del interior.

    A continuación, evaluará los diagnósticos globales de la salida de GLR.

  10. En la cinta, en la pestaña Análisis del grupo Geoprocesamiento, haga clic en Historial.

    Botón Historial

    Aparece el panel Historial de geoprocesamiento.

  11. En el panel Historial de geoprocesamiento, haga clic con el botón derecho en Regresión lineal generalizada y elija Ver detalles.

    Ver detalles de la última vez que se ejecutó GLR

    Aparece la ventana de detalles de los resultados de la herramienta GLR.

  12. En la ventana de detalles de los resultados de la herramienta GLR, haga clic en la pestaña Mensajes.
    Sugerencia:

    Puede expandir la ventana arrastrando sus bordes.

    En la sección Diagnósticos GLR, el valor de R cuadrado ajustado es 0,492830. Este es el mismo valor R2 que se muestra en el gráfico de dispersión de precio frente a pie2_útiles.

    Mensajes de diagnóstico de GLR

    Las estadísticas F conjunta, Wald conjunto y Koenker (BP) son significativas con valores P (Prob(>chi cuadrado)) de aproximadamente 0 (aproximados debido al redondeo). Esto indica que la probabilidad de que la relación definida por este modelo se produzca aleatoriamente es aproximadamente 0. En otras palabras, existe una relación estadísticamente significativa entre el precio de venta de las viviendas y el área del espacio habitable que está modelando el GLR.

  13. Cierre la ventana Regresión lineal generalizada (GLR) (Herramientas de estadística espacial) y el panel Historial.
  14. Guarde el proyecto.

Ha utilizado GLR para determinar que existe una relación significativa entre la variable pie2_útiles y precio. También ha descubierto que el modelo GLR infravalora los valores de las viviendas que están cerca de masas de agua. A continuación, buscará un modelo GLR mejorado agregando otra variable para tener en cuenta esta subestimación. Utilizará datos de ArcGIS Online para geoenriquecer su predicción.


Mejorar el análisis con datos geográficos

A continuación, agregará una capa de datos geográficos desde ArcGIS Online y la usará para mejorar su modelo GLR.

Buscar masas de agua

Dado que el modelo GLR que acaba de crear estima por defecto los valores de viviendas cercanas a masas de agua, agregará datos de masas de agua al mapa y los incorporará en el modelo GLR. La capacidad de mejorar datos con información geográfica, que también se puede hacer a través de métodos como GeoEnrichment, es una ventaja importante de ArcGIS Pro como estación de trabajo de ciencia de datos.

  1. En la cinta, haga clic en la pestaña Vista. En el grupo Ventanas, haga clic en panel Catálogo.

    Botón del panel Catálogo

  2. En el panel Catálogo, haga clic en la pestaña Portal y en el botón ArcGIS Online.

    Botón ArcGIS Online en la pestaña Portal del panel Catálogo

  3. Busque USA water bodies owner:esri_dm.
  4. Haga clic con el botón derecho en el paquete de capas USA Detailed Water Bodies y elija Agregar al mapa actual.
    Nota:

    Para distinguir el paquete de capas USA Detailed Water Bodies de la capa de entidades USA Detailed Water Bodies, señale el elemento en los resultados de la búsqueda. El flujo de trabajo puede completarse con el paquete de capas o la capa de entidades, pero la capa de entidades tiene restricciones de visibilidad que hacen que no esté visible en la extensión del mapa actual.

    Opción Agregar al mapa actual

    La capa se agrega al mapa.

  5. Acérquese al gran lago de la parte norte central de los datos, rodeado en las costas este y oeste por puntos de color verde azulado oscuro.

    Lago grande en el mapa

  6. En la cinta, haga clic en la pestaña Mapa. En el grupo Selección, haga clic en el botón Seleccionar.

    Botón Seleccionar

  7. En el mapa, haga clic en el lago.

    Lago seleccionado en el mapa

    Un contorno azul resalta la entidad del lago, lo que indica que está seleccionada.

  8. En el panel Contenido, haga clic con el botón derecho en USA Detailed Water Bodies y elija Tabla de atributos.
  9. En la parte inferior de la tabla, haga clic en el botón Mostrar registros seleccionados.

    El botón Mostrar registros seleccionados

    La única entidad seleccionada se muestra en la tabla.

    Entidad seleccionada mostrada en la tabla

    El servicio de entidades de masas de agua representa estos datos como un polígono con una variable FTYPE (que significa Tipo de entidad) de Lake/Pond. El modelo GLR estima por defecto constantemente los valores de las viviendas alrededor de los lagos de Washington. El servicio de entidades también contiene tipos de masas de agua, tales como marismas y arroyos, pero no influyen tan positivamente en el precio de venta como los lagos de esta región. Utilizará las distancias hasta las masas de agua de tipo Lake/Pond en su análisis.

  10. En la pestaña Mapa, en el grupo Selección, haga clic en Seleccionar por atributos.

    Botón Seleccionar por atributos

  11. En la ventana Seleccionar por atributos, confirme que Filas de entrada tenga el valor USA Detailed Water Bodies y Tipo de selección, el valor Nueva selección.
  12. En Expresión, cree la expresión Donde FTYPE es igual que Lake/Pond.

    Seleccionar capa donde el tipo de entidad es Lake/Pond

  13. Haga clic en Aplicar.
    Nota:

    No cierre la herramienta Seleccionar capa por atributos todavía.

    Todas las entidades Lake/Pond se resaltan en el mapa.

    Entidades Lake/Pond resaltadas en el mapa

    Hay muchos lagos pequeños y estanques que no tienen clústeres de puntos de color azul oscuro-verde cerca de ellos. Esto sugiere que los lagos más pequeños y estanques no tienen el mismo efecto que los lagos grandes en los resultados del modelo GLR. Agregará una cláusula a la expresión de selección para seleccionar solo las masas de agua más grandes.

  14. En la ventana Seleccionar por atributos, haga clic en Agregar cláusula.

    Botón Agregar cláusula

    Esta nueva cláusula se une a la primera cláusula mediante el operador And. Esto es correcto para esta selección, pero para otro proyecto, puede utilizar un operador Or.

  15. Utilice el constructor de expresiones para crear la expresión Y SQKM es mayor o igual que.

    Cláusula de expresión agregada

    El otro lago grande del condado tiene un área de 19,34 kilómetros cuadrados. Esta cláusula filtrará las masas de agua más pequeñas.

  16. Haga clic en el botón de alternancia SQL. Después de SQKM >=, escriba 19.00.

    19.00 agregado a la expresión en modo SQL

  17. Haga clic en Aceptar.

    La selección cambia y resalta solo lagos y estanques de 19 kilómetros cuadrados. De acuerdo con la tabla de atributos, ahora hay 689 entidades seleccionadas.

  18. Cierre la tabla de atributos.

Exportar las entidades de lago

Solo desea analizar las entidades seleccionadas, no las otras entidades de la capa. A continuación, exportará las entidades seleccionadas a una nueva clase de entidades con la herramienta Copiar entidades.

  1. En el panel Geoprocesamiento, haga clic en el botón Atrás. Busque y abra la herramienta Copiar entidades.
  2. En el panel de la herramienta Copiar entidades, en Entidades de entrada, elija USA Detailed Water Bodies. En Clase de entidad de salida, escriba LargeLakes.

    Parámetros de la herramienta Copiar entidades

    Un mensaje en el parámetro Entidades de entrada informa de que la capa de entrada tiene una selección y muestra el número de registros seleccionados que se procesarán. La capa USA Detailed Water Bodies contiene masas de agua de todo Estados Unidos, pero solo le interesan las masas de agua del condado de King, Washington. Cambiará la extensión de procesamiento de la herramienta para limitar las entidades que se copian a aquellas que están dentro de la extensión de su capa kc_house_data.

  3. Haga clic en la pestaña Entornos.
  4. En la sección Extensión de procesamiento, en Extensión, elija kc_house_data.

    Parámetro Extensión

  5. Haga clic en Ejecutar.
    Nota:

    No cierre el panel Geoprocesamiento después de ejecutar la herramienta; volverá a él en breve.

    La capa LargeLakes se agrega al panel Contenido.

    Ya no necesita la capa USA Detailed Water Bodies, de modo que la quitará.

  6. En el panel Contenido, haga clic con el botón derecho en USA Detailed Water Bodies y elija Quitar.
  7. Guarde el proyecto.

Utilizar distancia hasta lagos en el modelo GLR

Ahora que ha capturado las entidades de lagos grandes, puede utilizarlas para geoenriquecer su modelo GLR. Las herramientas de regresión de la caja de herramientas Estadísticas espaciales le permiten incluir entidades de distancia en un análisis. Estas herramientas calculan automáticamente las distancias euclidianas desde cada punto hasta la entidad de distancia más cercana y utilizan la distancia como una variable de entrada.

  1. En el panel Geoprocesamiento, en la parte inferior de la ventana de la herramienta, haga clic en Abrir historial.

    Botón Abrir historial

  2. En el panel Historial, haga clic con el botón derecho en Regresión lineal generalizada y elija Abrir.

    Opción Abrir

    La herramienta se abre con los parámetros de la última vez que ejecutó la herramienta Regresión lineal generalizada (GLR).

    Agregará la distancia hasta lagos para mejorar el modelo GLR.

  3. En Entidades de distancia explicativas, elija LargeLakes.
  4. En Entidades de salida, escriba valuation_sqft_living_d2lake_glr.

    LargeLakes agregada como entidad de distancia explicativa

  5. Haga clic en Ejecutar.

    La herramienta se ejecuta y los resultados se agregan al mapa. A continuación, comparará visualmente los resultados de las dos ejecuciones de la herramienta GLR.

  6. En el panel Contenido, confirme que la capa valuation_sqft_living_d2lake_glr esté seleccionada.
  7. Haga clic en la pestaña Capa de entidades. En el grupo Comparar, haga clic en Swipe.

    Botón Deslizar

  8. Haga clic en el mapa en el norte del condado y arrastre la herramienta Swipe por los datos.
    Nota:

    Dependiendo de donde haga clic en el mapa, puede deslizar arriba y abajo o a derecha e izquierda. Podrá comparar las dos capas deslizando en cualquier dirección.

    Arrastrar la herramienta swipe por el mapa

    Debido a que se ha seleccionado valuation_sqft_living_d2lake_glr en el panel Contenido, la herramienta Swipe muestra lo que hay debajo a medida que la arrastra por el mapa.

    Las áreas de alrededor de los lagos siguen teniendo los residuales estandarizados más elevados en ambas ejecuciones de GLR.

  9. En la cinta, haga clic en la pestaña Mapa. En el grupo Navegar, haga clic en Explorar.
  10. En el panel Contenido, haga doble clic en el gráfico Distribución de residuales estandarizados correspondiente a las capas valuation_sqft_living _glr y valuation_sqft_living_d2Lake_glr.
  11. En el panel del gráfico, arrastre la pestaña de uno de los gráficos y acóplela en el lado derecho del panel del gráfico.

    Zona de acoplamiento del gráfico

    Ahora puede comparar los gráficos en paralelo. Los dos diagramas de distribución son muy similares.

    Gráficos de distribución del residual estandarizado

    Las similitudes indican que el error de estimación no se ha mejorado agregando distancia a los lagos. Si el modelo GLR con distancia a lagos se hubiera realizado mejor, podría esperar menos ubicaciones con tonos oscuros de verde y morado (las ubicaciones con un error estándar alto).

    Al menos, hay dos posibles razones por las que agregar las entidades de distancia no ha mejorado el modelo GLR. En primer lugar, las entidades de distancia calculadas en GLR son distancias euclidianas o en línea recta. Dado que la mayoría del viaje en esta área es a lo largo de la red de carreteras, es posible que las distancias en línea recta no sean una representación razonable de la distancia de viaje por carretera desde las viviendas hasta los lagos. En segundo lugar, la relación entre el tamaño del espacio habitable y la distancia a las variables de una masa de agua y el precio de venta de la vivienda puede no ser una lineal. Puede ser que GLR sea un modelo demasiado simple para este escenario.

  12. Cierre los gráficos Distribución del residual estandarizado y el panel Propiedades del gráfico.
  13. En el panel Contenido, desactive y contraiga las capas valuation_sqft_living_d2lake_glr y valuation_sqft_living_glr.
  14. Guarde el proyecto.

Ha agregado distancia hasta lagos como variable para GLR y ha comparado los resultados con los resultados del modelo GLR original. Es posible que las relaciones lineales simples modeladas por GLR no se apliquen en este dataset. A continuación, probará un modelo más complejo.


Crear un modelo de regresión lineal general regionalizado

A continuación, dividirá el condado en regiones y ejecutará análisis GLR separados para cada región.

Buscar regiones en los datos

Primero, cambiará la simbología de los datos para buscar regiones.

  1. En el panel Contenido, haga clic con el botón derecho en la capa kc_house_data y elija Simbología.
  2. En el panel Simbología, defina los siguientes parámetros:
    • En Simbología principal, elija Colores graduados.
    • En Campo, elija precio.
    • En Clases, elija 10.
    • En Esquema de color, haga clic en la casilla Mostrar nombres y elija Amarillo-Verde-Azul (continuo).

    Simbología de Cortes naturales para el mapa de precios

    Al visualizar los datos de esta forma se muestran clústeres espaciales distintos, con clústeres de menor precio en el sur y el noroeste y con clústeres de mayor precio en áreas cercanas al agua. La proximidad al agua desempeña un papel fundamental en la determinación del precio de venta en esta región y los precios cambian gradualmente en un vecindario determinado.

    A continuación, definirá vecindarios de evaluación basados en datos y realizará GLR en cada región.

  3. Abra el panel Geoprocesamiento y, si es necesario, haga clic en el botón Atrás. Busque y abra la herramienta Clustering multivariante restringido espacialmente.

    Utilizará esta herramienta para identificar las regiones que tienen valores de mercado similares para las viviendas que tienen un tamaño de espacio habitable similar.

  4. En la herramienta Clustering multivariante restringido espacialmente, introduzca los siguientes parámetros:
    • En Entidades de entrada, elija kc_house_data.
    • En Entidades de salida, escriba price_regions.
    • En Campos de análisis, active precio y pie2_útiles.
    • En Restricciones espaciales, confirme que se ha elegido Triangulación de Delaunay restringida.
    • En Tabla de salida para la evaluación del número de clústeres, escriba num_clusters.

    Parámetros de la herramienta Clustering multivariante restringido espacialmente

    Nota:

    Si no especifica un número de clústeres, la herramienta selecciona automáticamente el número que resulta en las regiones más homogéneas.

  5. Haga clic en Ejecutar.
    Nota:

    Si no se puede ejecutar la herramienta, guarde el proyecto y cierre y vuelva a abrir ArcGIS Pro. Abra el proyecto y ejecute de nuevo la herramienta.

    La herramienta se ejecuta y se agrega una nueva capa al mapa.

    Resultados de la herramienta Clustering multivariante restringido espacialmente

    Nota:

    Después de ejecutar la herramienta, no cierre el panel Geoprocesamiento. Volverá a él en breve.

    Solo hay dos clústeres en los resultados. Examinará el Gráfico de pseudo índice estadístico F optimizado para tener una idea de otras formas en que se podrían agrupar los datos.

  6. En el panel Contenido, en Tablas independientes, haga doble clic en Gráfico de pseudo índice estadístico F optimizado.

    Gráfico de pseudo índice estadístico F optimizado

    En este diagrama, busca codos o tendencias en el gráfico donde agregar otra región no disminuye considerablemente la homogeneidad de los clústeres. En el gráfico hay un codo para ocho regiones. Después de la octava región, el número de clústeres se reduce de forma sistemática.

    Volverá a ejecutar la herramienta, esta vez con ocho regiones. El panel Geoprocesamiento ya está abierto en la herramienta con los parámetros que utilizó para ejecutarla anteriormente.

  7. Cierre el gráfico y el panel Propiedades de gráfico.
  8. En el panel Geoprocesamiento, en Número de clústeres, escriba 8.

    Parámetro Número de clústeres

    Los demás parámetros se dejarán como están. Al mantener el mismo nombre de salida, la nueva salida de la herramienta reemplazará a la anterior.

  9. Haga clic en Ejecutar

    La capa price_regions se agrega al mapa. Tiene ocho clústeres.

    El clustering multivariante restringido espacialmente da como resultado ocho clústeres

  10. En el panel Contenido, en price_regions y Gráficos, haga doble clic en Diagramas de caja de clustering multivariante restringido espacialmente.

    Diagramas de caja de clustering multivariante restringido espacialmente

    Los colores del gráfico coinciden con los colores de los clústeres del mapa. Los clústeres azul, verde, amarillo, marrón y morado están por encima del tercer cuartil para precio y pie2_útiles. El azul corresponde a un clúster en el que el espacio habitable es más pequeño en comparación con el verde y el marrón, pero el precio es mayor. Este color puede indicar una parte atractiva de la ciudad. En el mapa, el clúster azul corresponde a un área al este del lago Washington. En este clúster, el tamaño del espacio habitable puede no ser el factor impulsor principal para el precio de venta de la vivienda.

    La región verde, situada en una isla del lago Washington, corresponde a casas con espacios habitables más grandes en comparación con los clústeres azules, pero con un precio más bajo.

    Al observar las regiones inferiores al tercer cuartil de precios, el clúster rosa es más barato que los clústeres rojo y gris, con un tamaño medio de espacio habitable igual que el clúster rojo. Esto puede indicar que es posible obtener una vivienda con el mismo tamaño de espacio habitable en el clúster rosa. Esto también puede indicar por qué el modelo lineal no funciona.

  11. Cierre el gráfico y el panel Propiedades de gráfico.

Ejecutar GLR para cada región

A continuación, realizará GLR en cada región. Para esto, seleccionará el conjunto de puntos para cada clúster por atributo y ejecutará GLR para cada selección. Dado que hay ocho regiones, es más eficaz utilizar ModelBuilder para automatizar el proceso.

  1. En la cinta, haga clic en la pestaña Análisis. En el grupo Geoprocesamiento, haga clic en ModelBuilder.

    Botón ModelBuilder

    Aparece la vista Modelo.

  2. Haga clic y arrastre la capa price_regions desde el panel Contenido al lienzo del modelo.

    Capa price_regions en el modelo

  3. En la cinta, en la pestaña ModelBuilder, en el grupo Insertar, haga clic en Iteradores y elija Iterar selección de entidades.

    Opción Iterar selección de entidades

  4. En el lienzo del modelo, arrastre una flecha de price_regions hasta Iterar selección de entidades.

    Flecha que conecta price_regions con Iterar selección de entidades

    Aparece un menú desplegable.

  5. En el menú desplegable, elija En entidades.

    Opción En entidades

    El elemento Iterar selección de entidades y los elementos conectados cambian de color. A continuación, ajustará el parámetro de la herramienta para que la herramienta recorra cada uno de los ocho valores de Id. de clúster y creará una selección para cada uno de ellos.

  6. Haga doble clic en Iterar selección de entidades.
  7. En la ventana Iterar selección de entidades, en el grupo Agrupar por campos, defina el campo como Id. de clúster.

    Parámetro Agrupar por campos establecido en Id. de clúster

  8. Haga clic en Aceptar.

    El iterador tiene dos salidas. I_price_regions_CLUSTER_ID es la capa de entidades seleccionada y Valor es una variable que contiene el valor de la selección actual. En este caso, es el valor de Id. de cada clúster.

    A continuación, adjuntará la herramienta Regresión lineal generalizada a la salida del iterador. Dado que el iterador recorre cada clúster, la herramienta se ejecutará para cada clúster.

  9. En el panel Geoprocesamiento, haga clic en el botón Atrás. Haga una búsqueda lineal generalizada.
  10. En la lista de resultados de búsqueda, arrastre la herramienta Regresión lineal generalizada (Herramientas de estadística espacial) al lienzo del modelo, junto a la salida I_ price_regions_CLUSTER_ID verde del iterador.
  11. En el lienzo del modelo, arrastre una flecha de I_ fair_regions_CLUSTER_ID hasta Regresión lineal generalizada y elija Entidades de entrada.

    La herramienta está conectada a la salida.

    Salida y conexión de la herramienta GLR

    A continuación, ajustará los parámetros de la herramienta GLR.

  12. Haga doble clic en Regresión lineal generalizada.

    El parámetro Entidades de entrada se establece en price_regions:1 porque se ha conectado la salida del iterador a la herramienta.

  13. En Variable dependiente, elija precio. En Variables explicativas, marque pie2_útiles.

    Variables dependientes y explicativas

  14. En Entidades de salida, escriba valuation_sqft_living_glr_region_%Value%.

    Parámetro Entidades de salida

    Al utilizar el texto %Value% al final del nombre de la entidad de salida, se agrega el contenido de la variable Valor al nombre. Con esta nomenclatura, cada ciclo del iterador tendrá un nombre único que estará relacionada con el clúster que se está analizando.

  15. Haga clic en Aceptar.
  16. En la cinta, en la pestaña ModelBuilder, en el grupo Ver, haga clic en Diseño automático.

    Botón Diseño automático

    Los elementos del modelo se ordenan automáticamente.

    Modelo con los elementos del modelo organizados automáticamente

    Los óvalos de Entidades predichas de salida y Archivo de modelo entrenado de salida permanece en gris, ya que se trata de salidas opcionales de la herramienta que no se está utilizando en ese momento.

  17. En la pestaña ModelBuilder, en el grupo Insertar, haga clic en Utilidades y elija Recopilar valores.

    Opción Recopilar valores

    Las utilidades Recopilar valores, Valores de salida y Tabla de salida se agregan al lienzo del modelo.

  18. En el lienzo del modelo, arrastre una flecha desde valuation_sqft_living_glr_region_%Value% hasta Recopilar valores y elija Valor de entrada.
    Sugerencia:

    Si es necesario, puede recolocar cualquier objeto seleccionándolo y arrastrándolo.

  19. Haga clic con el botón derecho en Valores de salida y haga clic en Agregar a visualización.

    Opción Agregar a visualización

    El modelo está listo para ejecutarse.

  20. En la cinta, en la pestaña ModelBuilder, en el grupo Ejecutar, haga clic en Validar.

    El modelo se valida. Ya está listo para ejecutarse.

  21. En la pestaña ModelBuilder, en el grupo Ejecutar, haga clic en Ejecutar.

    A medida que se ejecuta el modelo, los elementos de la herramienta cambian a rojo para indicar que se están ejecutando actualmente y la ventana de resultados del modelo muestra los resultados de cada ejecución del modelo GLR.

    Las capas de grupo de resultados GLR, ocho en total, se agregan al mapa y al panel Contenido.

Revisar los resultados del modelo

A continuación, revisará los resultados del modelo y cambiará el nombre de las capas para que sean más fáciles de comprender.

  1. En el panel Contenido, en Valores de salida:valuation_sqft_living_glr_region_1, en Gráficos, haga doble clic en Relación entre variables.

    Gráfico Relación entre variables para valores de salida:valuation_sqft_living_glr_region_1 layer

    Aparece la vista del gráfico.

    Gráfico Relaciones entre variables

    El valor R2 de este clúster ha mejorado de 0,49 a cerca de 0,67. Puede abrir los gráficos de las demás capas para ver los valores R2 de las otras regiones.

  2. Cierre la vista de gráfico y el panel Propiedades de gráfico.
  3. Cierre la vista de modelo. Haga clic en para guardar el modelo.

    La vista Mapa se activa otra vez.

    Mapa de resultados GLR de varias regiones

    Las áreas alrededor del lago Washington se predicen de forma más precisa; sin embargo, otras áreas, como el distrito West Seattle, tienen un gran número de precios de venta de viviendas estimados por defecto (en verde oscuro). Los modelos regionalizados corren el riesgo de amplificar los problemas relacionados con valores atípicos en regresión. En la tabla siguiente se resume el R2 general de cada región:

    Region

    Valor R cuadrado

    Región 1

    0,667345

    Región 2

    0,511873

    Región 3

    0,573594

    Región 4

    0,785343

    Región 5

    0,672591

    Región 6

    0,587296

    Región 7

    0,369590

    Región 8

    0,587235

    La calidad general del modelo para cada una de estas regiones es mayor que el resultado del modelo GLR que ejecutó en todo el dataset, a excepción de la Región 7, una región grande que contiene valores atípicos. Tener varias regiones tiene el coste de perder la parsimonia del modelo matemático. Los tasadores tienen distintas funciones matemáticas para distintos distritos de la ciudad que explican distintas tendencias. Aumentará la complejidad y buscará un modelo que explique el precio de venta de las viviendas en el condado de King, Washington, utilizando todo el dataset en un solo modelo.

    Antes de continuar, ordenará panel Contenido agrupando las salidas de los modelos. Cada una de las capas de valores de salida ya se encuentra en un grupo de capas denominado ModelBuilder. Actualizará el nombre del grupo y eliminará el texto Valores de salida de cada una de las capas.

  4. En el panel Contenido, haga clic en el nombre del grupo de capas ModelBuilder para seleccionarlo y vuelva a hacer clic en él para editar su nombre. Cambie el nombre del grupo a Modelo regional de GLR.
  5. Cambie el nombre de Valores de salida:valuation_sqft_living_glr_region_8 eliminando el texto Valores de salida:.
  6. Cambie el nombre de las 7 capas restantes quitando el texto Valores de salida:. Contraiga las ocho capas.

    Se ha cambiado el nombre de las capas y el grupo de capas en el panel Contenido

  7. Haga clic en la capa valuation_sqft_living_d2lake_glr y pulse Mayús mientras hace clic en la capa valuation_sqft_living_glr.
  8. Haga clic con el botón derecho en las capas seleccionadas y elija Grupo. Cambie el nombre del grupo de capas a Modelo GLR global.

    Capa de grupo creada y renombrada como Modelo GLR global

  9. En la cinta, haga clic en la pestaña Mapa. Si es necesario, en la sección Selección, haga clic en Borrar para borrar cualquier selección.
  10. Guarde el proyecto.

Hasta ahora, ha intentado dos veces incorporar características espaciales a su análisis. En primer lugar, usó la distancia hasta las masas de agua como indicador. A continuación, ha creado regiones controladas por datos basadas en el precio de venta de la vivienda y el tamaño del espacio habitable y ha realizado ocho modelos de regresión espacialmente discretos.

A continuación, utilizará Regresión lineal ponderada geográficamente para modelar los precios de las viviendas.


Modelar relaciones que varían espacialmente

A continuación, utilizará Regresión lineal ponderada geográficamente y Clasificación y regresión basadas en bosque para modelar los precios de las viviendas.

Regresión lineal ponderada geográficamente es un modelo de regresión lineal de variación continua que identifica las relaciones entre una variable objetivo (precio de venta) y varias variables explicativas (características del inmueble). Antes de utilizarlo, examinará si existen relaciones espaciales estadísticamente significativas entre las variables.

Identificar relaciones espaciales entre variables

Primero, ejecutará la herramienta Relaciones bivariantes locales. Esta herramienta utiliza un enfoque basado en entropía para descubrir relaciones espaciales. Si existe una relación significativa entre dos variables en un subconjunto de datos, al aleatorizar los datos aumenta considerablemente la entropía. Si no hay relaciones significativas, al aleatorizar los datos no aumenta considerablemente la entropía. En otras palabras, introducir pruebas de entropía o aleatorización si hay que destruir una relación entre dos variables.

Es posible que la aleatorización no cambie la relación entre dos variables si, de primeras, no hay ninguna relación que destruir. Puede leer más sobre la idea de utilizar la entropía para descubrir relaciones en Guo (2010).

  1. En el panel Geoprocesamiento, busque y abra la herramienta Relaciones bivariantes locales.
  2. En la herramienta Relaciones bivariantes locales, defina los siguientes parámetros:
    • En Entidades de entrada, elija kc_house_data.
    • En Variable dependiente, elija pie2_útiles.
    • En Variable explicativa, elija precio.
    • En Cantidad de vecinos, escriba 50.

    ¿Por qué elegir 50 vecinos?

    El vecindario debe ser lo suficientemente grande como para capturar una relación significativa entre variables, cuando existen dichas relaciones espaciales. Es posible que tenga que probar una variedad de valores, pero 50 viviendas es un número de vecinos suficientemente grande en el que confiar para que el diagnóstico de regresión comprenda si la regresión local funcionaría en este dataset; al mismo tiempo, al tratarse de un porcentaje lo suficientemente pequeño del dataset completo del condado de King, la regresión local será diferente al modelo GLR.

    Se trata de una aplicación de la idea de potencia estadística de regresión, que es la probabilidad de encontrar una línea significativa de mejor ajuste (con errores de ajuste bajos) cuando la población (todas las viviendas del condado de King, Washington) presenta una relación significativa entre las variables que le interesan.

  3. En Entidades de salida, escriba local_rlns_sqft_living_vs_price.

    Herramienta Relaciones bivariantes locales

  4. Haga clic en Ejecutar.

    La herramienta se ejecuta y agrega la capa local_rlns_sqft_living_vs_price al mapa.

    Mapa después de ejecutar la herramienta Relaciones bivariantes locales

    Los símbolos de esta capa se muestran en el panel Contenido.

    Símbolos de relaciones bivariantes locales

    Para muchos de los puntos de muchos de los vecindarios, existe una relación lineal positiva entre el precio y el espacio habitable. Dado que hay tantos puntos dibujados cerca unos de otros en este dataset grande, existe el riesgo de que las relaciones lineales positivas se dibujen las últimas, lo que puede hacer que parezca que dominan los resultados. Vale la pena comprobar los resultados de geoprocesamiento de la herramienta para ver los números de cada clase.

  5. En la parte inferior del panel Geoprocesamiento, haga clic en Ver detalles.
  6. Si es necesario, en la ventana de detalles Relaciones bivariantes locales (Herramientas de estadística espacial), haga clic en la pestaña Mensajes.

    Los resultados de la herramienta muestran que cerca del 71,6 por ciento de los puntos muestran una relación lineal positiva.

    Resultado de Relaciones bivariantes locales

    Este resultado sugiere que Regresión ponderada geográficamente (GWR) puede modelar las relaciones espaciales entre pie2_útiles y precio en un tamaño de vecindario de 50 viviendas.

    Sin embargo, GWR no solo ajusta una línea en una ubicación utilizando un subconjunto local, sino que también implementa un esquema de ponderación geográfica que determina la variable de indicador para una regresión local observada en el vecindario. Observar relaciones lineales locales significativas entre variables es una indicación de que un modelo GWR capturará relaciones locales, pero no es una garantía.

  7. Cierre la ventana de detalles. En el mapa, haga clic en cualquiera de los puntos clasificados como mostrar una relación lineal positiva (con un símbolo rosa).
    Sugerencia:

    Si le resulta difícil hacer clic en un punto debido a la proximidad entre ellos, puede acercarse.

    La ventana emergente del punto muestra un gráfico de las relaciones locales en esa ubicación y su vecindario.

    Elemento emergente de un punto de relación lineal positiva

  8. Cierre la ventana emergente. Haga clic en un punto que muestre una relación cóncava (con un símbolo naranja).

    Ventana emergente de un punto de relación cóncava

  9. Cierre la ventana emergente y guarde el proyecto.

    Puede resumir ambas ubicaciones con una línea e informar solamente del tipo de relación detectada probando distintos modelos de regresión en ubicaciones identificadas como que poseen relaciones estadísticamente significativas en sus vecindarios.

    La mayoría del condado de King, Washington, muestra relaciones locales estadísticamente significativas para un vecindario de 50. Aquí, 50 es un tamaño de vecindario que tiene sentido. Sin embargo, la herramienta no determina automáticamente el valor de vecindario correcto y, para distintos datasets, se deben explorar distintos tamaños de vecindario.

    Si estaba ejecutando este análisis en sus propios datos, ahora ejecutaría la herramienta con distintos tamaños de vecindario para explorar los cambios en los tipos de relaciones espaciales entre pie2_útiles y precio. El tamaño de vecindario que encuentra que contiene las relaciones lineales locales se debe utilizar en la herramienta Regresión ponderada geográficamente (GWR) en el siguiente paso.

Realizar regresión ponderada geográficamente

Definirá un modelo GWR con la misma conceptualización de las relaciones espaciales que identificó en la sección anterior: vecindades compuestas por 50 casas.

  1. En el panel Geoprocesamiento, haga clic en el botón Atrás. Busque y abra la herramienta Regresión ponderada geográficamente (GWR).

    Esta herramienta puede utilizar distintos tipos de kernels que controlan el peso de los vecinos en el modelo de regresión local.

    En la imagen siguiente se muestra un ejemplo del kernel. La línea muestra el kernel Gaussiano en el que cada vecino obtiene una ponderación en regresión, donde los vecinos más distantes obtienen ponderaciones más bajas. El kernel Bicuadrado trunca el kernel utilizando una distancia o una cantidad de vecinos. Este patrón se muestra mediante la parte de la curva que se rellena en el diagrama.

    Diagrama de kernel de GWR

    Utilizará un kernel Bicuadrado para asignar ponderaciones utilizando solo los 50 vecinos más cercanos.

  2. En el panel de la herramienta Regresión ponderada geográficamente (GWR), defina los siguientes parámetros:
    • En Entidades de entrada, elija kc_house_data.
    • En Variable dependiente, elija precio.
    • En Variables explicativas, marque pie2_útiles.
    • En Entidades de salida, escriba valuation_sqft_living_gwr.
    • En Tipo de vecindad, elija Cantidad de vecinos.
    • En Método de selección de vecindad, elija Definido por el usuario.
    • En Cantidad de vecinos, escriba 50.

    Parámetros de la herramienta Regresión ponderada geográficamente

    Está utilizando una cantidad de vecinos definida por el usuario para que pueda usar la vecindad de 50 viviendas (el número de vecinos determinado con la herramienta Relaciones bivariantes locales).

    Esta herramienta también puede seleccionar vecinos mediante la opción de búsqueda lineal de intervalos manuales o con el algoritmo de optimización de búsqueda dorado.

  3. Expanda Opciones adicionales y confirme que Esquema de ponderación local esté establecido en Bicuadrado.

    El método de ponderación Bicuadrado garantiza que en cada ubicación se utilicen exactamente 50 vecinos (o el número especificado). La opción Gaussiano utiliza todas las ubicaciones del dataset como vecinos (es decir, todas las viviendas del condado de King) y las pondera de forma inversa respecto a su distancia. El método Bicuadrado utiliza el mismo esquema de ponderación, pero en lugar de utilizar todos los datos de viviendas de todo el condado de King, solo utiliza un vecindario de 50 viviendas en cada ubicación.

    A continuación, establecerá el espacio de trabajo ráster de coeficiente, que debería ser una geodatabase. La herramienta realiza una regresión local y calcula coeficientes de regresión que varían espacialmente para indicadores y el término de interceptación. Escribe las superficies ráster que representan estos coeficientes que varían espacialmente en este espacio de trabajo.

  4. En Espacio de trabajo de ráster de coeficiente, haga clic en el botón Examinar. En la ventana Espacio de trabajo de ráster de coeficiente, haga clic en Bases de datos y seleccione myproject2.gbd.

    Ventana Espacio de trabajo de ráster de coeficiente

  5. Haga clic en Aceptar. En el panel Geoprocesamiento, haga clic en Ejecutar.

    La herramienta se ejecuta y la tres nuevas capas se agregan al mapa. Dos de estas capas son capas ráster, que desactivará.

  6. En el panel Contenido, desactive valuation_sqft_living_gwr_sqft_living y valuation_sqft_living_gwr_INTERCEPT.

    Mapa que muestra la capa valuation_sqft_living_gwr

    Al igual que con el modelo GLR, este modelo GWR también realiza estimaciones por defecto para las viviendas del lago. A diferencia del modelo GLR, también realiza estimaciones por defecto el valor de la vivienda en la costa del océano.

  7. En la capa valuation_sqft_living_gwr, en Gráficos, haga doble clic en Distribución del residual estandarizado.

    Gráfico Distribución del residual estandarizado para GWR

    La mayoría de los puntos tienen residuales estandarizados cercanos a 0. El modelo realiza menos estimaciones por exceso y por defecto (residuales normalizados a más de una desviación estándar) en comparación con el modelo GLR.

    Según las colas de la curva, GWR tiene menos ubicaciones con residuales grandes (más de dos desviaciones estándar) en comparación con GLR. Esto indica que GWR captura mejor las variaciones en el precio en comparación con el modelo GLR.

  8. Cierre el gráfico y el panel Propiedades de gráfico.
  9. En el panel Geoprocesamiento, haga clic en Ver detalles. En la ventana de detalles, desplácese hasta la sección Diagnóstico de modelo.

    Diagnóstico del modelo GWR

    El valor R2 es 0,89 y el valor R2 ajustado (AdjR2) es 0,87. Es un R2 mucho más alto que los modelos GLR que ejecutó anteriormente, lo que indica que se trata de un modelo más preciso.

  10. Cierre la ventana de detalles.
  11. En el panel Contenido, pulse la tecla Ctrl y desactive valuation_sqft_living_gwr.

    Ya no se ve ninguna capa en el mapa.

  12. Active las siguientes capas para hacerlas visibles:
    • Mapa topográfico mundial
    • Sombreado mundial
    • valuation_sqft_living_gsr_sqft_living
    • LargeLakes
  13. Haga clic con el botón derecho en valuation_sqft_living_gwr_sqft_living y elija Simbología.
  14. En el panel Simbología, en Esquema de color, elija Amarillo-Verde (continuo).
  15. En Tipo de extensión, elija Histograma de nivelación. Cierre el panel Simbología.

    Mapa simbolizado con el tipo de extensión Histograma de nivelación

    El panel Contenido muestra la leyenda de la capa valuation_sqft_living_gwr_sqft_living.

    Leyenda del mapa de tasación GWR

    Todos los coeficientes de regresión local son positivos. Esto implica que GWR modeló una relación positiva entre el tamaño del espacio habitable y el precio de venta de la vivienda.

    Alrededor de los dos lagos grandes, el precio de venta del ráster viviendas tiene una pendiente mayor con respecto al tamaño del espacio habitable, lo que indica que un pequeño cambio en el espacio habitable en las viviendas cercanas al agua corresponde a un aumento mucho mayor del precio en comparación con las áreas de interior. Esto se espera porque el precio de venta en estas áreas se ve muy afectado por la vista, una variable no capturada con el tamaño del espacio habitable.

    No se deberían tener en cuenta las partes de interior del ráster hacia el este. Debido a los valores atípicos espaciales, el área de estudio se extiende y no hay suficientes datos en la parte oriental de este dataset para confiar en las superficies de coeficiente subyacentes tal como se interpolan. No debería prestar atención a los coeficientes de áreas que tengan puntos distribuidos dispersamente, ya que el algoritmo interpola el coeficiente entre ubicaciones con puntos de datos.

    ¿Cómo puede mejorar aún más este modelo? ¿Y qué pasa con las entidades de distancia o con el uso de un segundo indicador?

  16. Desactive la capa valuation_sqft_living_gwr_SQFT_LIVING para desactivarla. Guarde el proyecto.

Probar la variable de puntuación

Según la visualización de datos anterior, la clasificación era otra variable que se correlacionó linealmente con el precio. Primero, explorará si la variable de clasificación está correlacionada espacialmente con el precio de venta de la vivienda usando la herramienta Relaciones bivariantes locales.

  1. En la parte inferior del panel Geoprocesamiento, haga clic en Abrir historial. En el panel Historial, haga clic con el botón derecho en Relaciones bivariantes locales y elija Abrir.

    La herramienta se abre con los parámetros que estableció anteriormente.

  2. En el panel de la herramienta Relaciones bivariantes locales, cambie los siguientes parámetros:
    • En Variable dependiente, elija clasificación.
    • En Entidades de salida, escriba local_rlns_grade_vs_price.

    Parámetros de Relaciones bivariantes locales correspondientes a la variable de clasificación

  3. Haga clic en Ejecutar.

    La herramienta se ejecuta y agrega al mapa una capa que muestra relaciones lineales significativas entre la clasificación y el precio.

    Mapa de relación GWR entre clasificación y precio

    GWR es un modelo lineal, como GLR, por lo que debe considerar el problema de la multicolinealidad. Comprobará si existen relaciones lineales locales sólidas entre los dos indicadores realizando un análisis de Relaciones bivariantes locales entre pie2_útiles y clasificación.

  4. En la herramienta Relaciones bivariantes locales, cambie los siguientes parámetros:
    • En Variable explicativa, elija pie2_útiles.
    • En Entidades de salida, escriba local_rlns_grade_vs_sqft_living.
  5. Haga clic en Ejecutar.

    Mapa de relación GWR entre clasificación y pie2_útiles

    Este mapa indica relaciones lineales locales sólidas entre los dos indicadores. Indica que en un vecindario de 50, la puntuación y los pies cuadrados de espacio habitable mantienen una relación lineal considerable entre sí. Recuerde que, en GLR, debe evitar variables explicativas relacionadas linealmente. Este mapa indica que en un vecindario local de 50 vecinos, el modelo GWR puede fallar debido a la multicolinealidad si incluye tanto la puntuación como los pies cuadrados de espacio habitable.

    A continuación, intentará utilizar ambas variables para ver si la herramienta falla o no.

  6. En el panel Historial, haga clic con el botón derecho en la herramienta Regresión ponderada geográficamente (GWR) y elija Abrir.

    La herramienta se abre con los parámetros que estableció anteriormente.

  7. En la herramienta Regresión ponderada geográficamente, actualice los siguientes parámetros:
    • En Variables explicativas, marque clasificación. Confirme que pie2_útiles ya está marcado.
    • En Entidades de salida, escriba valuation_sqft_living_grade_gwr.

    Parámetros de la herramienta GWR para pie2_útiles y clasificación por precio

  8. Haga clic en Ejecutar.

    Como se esperaba, la herramienta falla.

  9. En la parte inferior del panel Geoprocesamiento, apunte al mensaje de fallo.

    Aparece una ventana que muestra un mensaje de error. El mensaje de error indica que la multicolinealidad fue la causa.

    Mensaje de error de la herramienta GWR

    Una limitación de GWR es que no funciona con variables agrupadas espacialmente y estas tienden a ser comunes con los atributos de vivienda. El resultado muestra que no puede utilizar estas dos variables para predecir el precio de venta de la vivienda localmente con el modelo GWR actual.

    GWR proporciona un modo de regresión espacial parsimonioso; sin embargo, no funciona cuando hay una alta correlación entre pares de variables de indicadores.

Realizar clasificación y regresión basadas en bosque

Tiene un dataset enriquecido que contiene indicadores que desea incorporar al modelo de regresión. A continuación, utilizará el modelo de clasificación y regresión basadas en bosque (FBCR). Este tipo de modelo no se ve afectado por la multicolinealidad, porque no es un modelo lineal y puede modelar las relaciones entre un gran número de variables de indicadores (condiciones de propiedad espacial y no espacial) y una variable objetivo (precio de venta). Hasta ahora, GLR y GWR modelaban las relaciones entre pie2_útiles y precio con una línea. Local o globalmente, un aumento de unidad en el tamaño de una vivienda corresponde a un aumento del precio de las viviendas.

  1. En el panel Geoprocesamiento, haga clic en el botón Atrás. Busque y abra la herramienta Clasificación y regresión basadas en bosque en la caja de herramientas Estadística espacial.
  2. En el panel de la herramienta Clasificación y regresión basadas en bosque, defina los siguientes parámetros:
    • En Tipo de predicción, elija Solo entrenar.
    • En Entidades de entrenamiento de entrada, elija kc_house_data.
    • En Variable para predecir, elija precio.

    Parámetros de la herramienta Clasificación y regresión basadas en bosque

  3. En Variables de entrenamiento explicativas, en Variable, haga clic en el botón Agregar muchos y marque las siguientes variables:
    • dormitorios
    • baños
    • pie2_útiles
    • pie2_parcela
    • plantas
    • línea de costa
    • vista
    • estado
    • clasificación
    • pie2_superficie
    • pie2_sótano

    Variables seleccionadas de Variables de entrenamiento explicativas

  4. Haga clic en Agregar.

    Debe indicar si cada indicador es una variable de categorías o no. En caso de duda, puede consultar la tabla de atributos para asegurarse de identificar todas las variables de categorías. La herramienta detecta automáticamente los campos de cadena de caracteres como categorías, pero para categorías numéricas, como enteros, debe identificar manualmente variables de categorías. En este dataset, habitaciones, baños, plantas, línea de costa, vista, estado y calidad son variables de categorías almacenadas como enteros.

  5. En Categoría, active las casillas de baños, dormitorios, estado, plantas, línea de costa, vista y calidad.

    Variables de categorías

  6. En Entidades de distancia de entrenamiento explicativas, elija LargeLakes.

    Esta herramienta puede calcular automáticamente la distancia a las entidades y utilizar esa distancia como entrada, de forma similar a la herramienta GLR.

  7. Expanda Salidas adicionales. En Entidades entrenadas de salida, escriba price_predicted y, en Tabla de importancia variable de salida, escriba variable_importance.

    Sección Salidas adicionales

    FBCR define los árboles de decisión para subconjuntos aleatorios de los datos y cada árbol realiza una predicción, denominada voto. El bosque resume estos votos como la media e informa de una predicción final. La aleatoriedad de la creación de subconjuntos de datos significa que los modelos basados en bosque tienen resultados de precisión variable. Puede evaluar el impacto del submuestreo aleatorio de los datos de entrenamiento en los resultados de salida, es decir, la estabilidad del modelo basado en bosque, al ejecutar el modelo varias veces y definir una distribución de R2.

    En este caso, definirá 20 ciclos de validación. Como es el caso del número de árboles, siempre se recomienda un mayor número de ciclos de validación. Por último, calculará la incertidumbre de sus predicciones de precios de venta.

  8. Expanda Opciones avanzadas de bosque. En Número de árboles, introduzca 1000.

    Parámetro Número de árboles definido como 1000

    ¿Cuántos árboles son suficientes? La respuesta es tantos como esté dispuesto/a a esperar para que se procese la herramienta. Clasificación y regresión basadas en bosque se vuelve más sólida para los valores atípicos y estable para la selección de datos aleatorios si se utilizan más árboles. Acepte los valores predeterminados para el resto de las opciones avanzadas.

  9. Expanda Opciones de validación. En Número de ciclos de validación, escriba 20.
  10. Active la casilla Calcular incertidumbre. En Tabla de validación de salida, escriba validation_r2.

    Sección Opciones de validación

  11. Haga clic en Ejecutar.

    Se ejecuta la herramienta.

    Nota:

    La herramienta puede tardar más de 30 minutos en ejecutarse. No cierre el panel Geoprocesamiento una vez finalizada la herramienta.

    Una vez que finalice la herramienta, primero investigará la distribución de R2 de las 20 simulaciones.

  12. En el panel Contenido, desplácese hasta la sección Tablas independientes. En validation_r2, haga doble clic en el gráfico Validación R2.

    Gráfico Validación R2

    La precisión media del modelo FBCR es 0,79 aproximadamente. El modelo parece ser estable, ya que R2 cambia entre 0,74 y 0,83 durante los 20 ciclos. Sus cifras pueden variar ligeramente.

    A continuación, investigará la importancia variable.

  13. En el panel Contenido, en la sección Tablas independientes, en variable_importance, haga doble clic en el gráfico Distribución de importancia variable.

    Gráfico Distribución de importancia variable

    Las dos variables más importantes son pie2_útiles y clasificación. Aparecen más alto en el eje Y (importancia). Aquí, la importancia corresponde a la cantidad de veces que se realiza una división de árbol en función de la variable del modelo de bosque completo. Las cifras más altas indican un número más alto de divisiones de árboles en función de una variable, lo que indica que el impacto de dicha variable en el resultado del modelo de bosque es alto. Este gráfico indica que clasificación y pie2_útiles cambian su clasificación de importancia entre distintos ciclos del modelo. La distancia a un gran lago es el tercer indicador más influyente del modelo.

    R2 es menor que el modelo GWR con una variable. ¿Cómo puede mejorar más este modelo?

    Una manera es eliminar las variables de indicador de baja importancia. Le conviene eliminar las variables que no sean importantes para el modelo, para que no se seleccionen aleatoriamente para un árbol en particular a costa de variables explicativas más importantes.

    Las variables bedrooms, condition, floors y waterfront eran las menos importantes según el gráfico Distribución de importancia variable. Los eliminará.

  14. Cierre ambos gráficos y el panel Propiedades de gráfico.
  15. En el panel Geoprocesamiento, en la sección Variables de entrenamiento explicativas, apunte a la variable dormitorios y haga clic en el botón Eliminar.

    Botón Eliminar

  16. Elimine las variables de estado,plantas y línea de costa.

    Variables restantes

  17. Cambie los parámetros siguientes:
    • En Salidas adicionales, en Entidades entrenadas de salida, escriba output_reduced.
    • En Tabla de importancia variable de salida, escriba variable_importance_reduced.
    • En Opciones de validación, en Tabla de validación de salida, escriba validation_r2_reduced.
  18. Haga clic en Ejecutar.
    Nota:

    La herramienta puede tardar unos minutos en ejecutarse.

  19. Después de que la herramienta se ejecute, en la parte inferior del panel Geoprocesamiento, haga clic en Ver detalles. En la ventana de detalles de la herramienta, haga clic en la pestaña Mensajes.

    Los parámetros de bosque de la sección Características del modelo muestran el rango de profundidad de árbol que indica que todos los árboles realizan entre 26 y 43 divisiones antes de realizar predicciones. Esto implica que los árboles de decisión capturan la variabilidad en los indicadores, ya que corresponde a la variabilidad en la variable objetivo.

    Sección Características del modelo

    La sección Errores de modelo fuera de bolsa indica el impacto de agregar más árboles al modelo:

    Sección Errores de modelo fuera de bolsa

    El MSE y la variación explicada no cambian considerablemente entre 500 árboles y 1.000 árboles. Dado que hay poco cambio, se podría decir que el modelo tiene suficientes árboles y convergió a su precisión máxima.

    Es posible que haya un efecto de meseta, en cuyo caso debe seguir aumentando el número de árboles hasta que el MSE y el porcentaje de variación expliquen el aumento considerablemente (al menos una mejora del 10 por ciento). Aunque la estabilidad de estas métricas no es garantía al principio, puede volver a probar para ver si hay cambios importantes en el rendimiento del error OOB al aumentar el número de árboles. Si hay cambios importantes, es una indicación clara de utilizar más árboles hasta que el rendimiento sea estable.

    La sección Importancia variable superior muestra las variables que controlan el modelo de bosque.

    Sección Importancia variable superior

    La distancia hasta masas de agua es la tercera variable más importante.

    Los datos de entrenamiento son los datos que utilizan los árboles del bosque. R cuadrado corresponde a la predicción de datos que ya ve el bosque. El entrenamiento R2 es una indicación de lo bien que el modelo forestal aprende los patrones existentes en los datos de entrenamiento. Sin embargo, los datos de validación no los ve previamente el modelo y validación R2 es una indicación de cómo rinde el modelo si se utiliza para predicción.

    Secciones de diagnóstico

    Un R2 de 0,945 indica que el modelo FBCR predice los datos utilizados para definir el modelo con una alta precisión. Una Validación R2 de 0,78 sugiere que este modelo es generalizable, es decir, puede predecir los puntos de datos que tampoco ha visto con alta precisión.

    En problemas de regresión, se utilizan estas métricas de entrenamiento como una indicación de la calidad potencial del modelo. Con predicciones reales de un modelo entrenado, al predecir datos para los que no tiene la respuesta real, no puede calcular estas métricas. Estos diagnósticos indican que dados los datos de entrenamiento, el modelo funciona bien para predecir datos que se utilizan en su creación y generaliza los puntos de datos que no se han visto antes.

  20. Cierre la ventana de detalles. En el panel Contenido, en la capa output_reduced, haga doble clic en el gráfico Intervalo de predicción.

    Gráfico de Intervalo de predicción

    Este gráfico muestra los límites de incertidumbre de la predicción, siendo la línea azul la predicción real (también asignada en la clase de entidad de salida). Los límites de la incertidumbre se amplían rápidamente para las viviendas que tienen un precio superior a 1.000.000 $. Esta tendencia se debe al tamaño de muestra pequeño para viviendas tan caras. En el caso de las viviendas más caras que 1.500.000 $, los límites de incertidumbre son aún mayores, ya que hay incluso menos muestras en este rango de precios. Este diagrama es una forma útil de mostrar la incertidumbre relacionada con sus predicciones dada su muestra de formación.

  21. Cierre el gráfico y el panel Propiedades de gráfico. Guarde el proyecto.

Evaluar la distribución espacial de la incertidumbre

Finalmente, evaluará la distribución espacial de la incertidumbre del modelo FBCR. Actualmente, el modelo devuelve P95 y P05, que representan una estimación más alta y más baja del precio de la vivienda para cuantificar la incertidumbre basada en modelos. En otras palabras, la incertidumbre en los resultados se debe a su modelo que incluye sus datos de entrenamiento y el modelo FBCR. Si la herramienta devuelve 100.000 $ como la predicción, 90.000 $ como P05 y 120.000 $ como P95, significa que el modelo predice 100.000 $, pero que pequeños cambios en los datos de entrenamiento pueden dar lugar a una predicción tan baja como 90.000 $ o tan alta como 120.000 $.

Es importante cuantificar esta incertidumbre porque no siempre sabe si tiene suficientes muestras para modelar con precisión los precios de venta de viviendas. Agregará un nuevo campo para que contenga la métrica de incertidumbre que obtendrá de la salida de la herramienta. Esta métrica resume los tres valores (P05, predicción (P50) y P95) en un solo campo.

  1. En el panel Geoprocesamiento, busque y abra la herramienta Agregar campo.
  2. En el panel de la herramienta Agregar campo, defina los siguientes parámetros:
    • En Tabla de entrada, elija output_reduced.
    • En Nombre de campo, escriba incertidumbre.
    • En Tipo de campo, elija Doble (punto flotante de 64 bits).

    Parámetros de la herramienta Agregar campo

  3. Haga clic en Ejecutar.

    La herramienta se ejecuta y el campo se agrega, pero no se produce ningún cambio en el mapa.

  4. En el panel Geoprocesamiento, haga clic en el botón Atrás. Busque y abra la herramienta Calcular campo (Herramientas de administración de datos).

    Definirá el campo incertidumbre como:

    Uncertainty = (P95-P5)/P50

    Esta métrica cuantifica la amplitud de la ventana de incertidumbre respecto a la magnitud de la predicción.

  5. En el panel de la herramienta Calcular campo, defina estos parámetros:
    • En Tabla de entrada, elija output_reduced.
    • En Nombre de campo, elija incertidumbre.
    • En Expresión, en incertidumbre =, escriba (.

    Parámetros para la herramienta Calcular campo

  6. En la columna Campos, haga doble clic en PRICE_P95.

    Campo PRICE_P95

    El texto !Q_HIGH! se agrega al cuadro de ecuación. Este texto es el nombre de campo, delimitado por signos de exclamación.

  7. Haga clic en el botón de símbolo de resta y haga doble clic en PRICE_P05. Escriba ).

    La expresión ahora queda como sigue: (!Q_HIGH! - !Q_LOW!)

  8. Haga clic en el botón de división y haga doble clic en PRICE(Predicted).

    La expresión completa tiene este aspecto: (!Q_HIGH! - !Q_LOW!) / !PREDICTED!.

  9. Haga clic en el botón Verificar.

    Botón Verificar

    Un mensaje le informa de que su expresión es válida, lo que significa que se puede ejecutar sin errores.

  10. Haga clic en Ejecutar.

    La herramienta se ejecuta y el campo se calcula a partir de la expresión. No se realizan cambios en el mapa.

    A continuación, ejecutará un análisis de puntos calientes en el campo de incertidumbre para investigar si existen patrones espaciales en la incertidumbre de predicción de FBCR.

  11. En el panel Geoprocesamiento, haga clic en el botón Atrás. Busque y abra la herramienta Análisis de puntos calientes optimizado.
  12. En el panel de la herramienta Análisis de puntos calientes optimizado, introduzca los siguientes parámetros:
    • En Entidades de entrada, elija ouput_reduced.
    • En Entidades de salida, escriba output_reduced_HotSpots.
    • En Campo de análisis, elija incertidumbre.

    Parámetros de la herramienta Análisis de puntos calientes optimizado

  13. Haga clic en Ejecutar.

    El mapa resultante muestra que la incertidumbre tiende a ser mayor en la mitad sur del dataset y menor en la mitad norte.

    Mapa de puntos calientes de incertidumbre

  14. Guarde el proyecto.

    Las conclusiones indican que las predicciones de los precios de venta en la parte norte del condado de King, Washington, tienen menos probabilidades de cambiar mediante cambios aleatorios en los datos de entrenamiento.

Ha utilizado Regresión lineal ponderada geográficamente y Clasificación y regresión basadas en bosque para modelar precios. También ha explorado la incertidumbre de sus resultados. A continuación, utilizará estos modelos para llevar a cabo una nueva muestra de puntos.


Comparar las predicciones de los modelos

Tiene dos modelos con R2 aceptables, ambos mayores que 0,75 (según el nivel de precisión deseado, este número podría ser mayor). Uno es el modelo GWR que creó con pie2_útiles y el segundo es el modelo FBCR que acaba de crear. Un modelo es parsimonioso, mientras que el otro modelo tiene más potencia predictiva.

Su empresa ha construido nuevas viviendas en Redmond (Washington), una de las áreas de construcción de viviendas del condado de King (Washington) con un crecimiento más rápido. Utilizará estos modelos para realizar una tasación y comparar los resultados.

Realizar una evaluación con GWR

En primer lugar, aplicará el modelo GWR para la evaluación. Esta vez ejecutará GWR en el modo de predicción. La herramienta Regresión ponderada geográficamente aplica el modelo que desarrolló para kc_house_data al dataset new_homes.

  1. En el panel Geoprocesamiento, haga clic en Abrir historial.
  2. En el panel Historial, haga clic con el botón derecho en la última herramienta Regresión ponderada geográficamente (GWR) que se haya ejecutado correctamente y elija Abrir.
    Nota:

    Para determinar si una herramienta se ha ejecutado correctamente o no, apunte a ella. El elemento emergente que aparece indicará si la herramienta ha fallado o ha finalizada con advertencias.

    La herramienta se abre con los parámetros que estableció anteriormente.

  3. En Variables explicativas, compruebe que la casilla pie2_útiles esté activada y que el grado esté desactivado. En Entidades de salida, confirme que el nombre de salida sea valuation_sqft_living_gwr.
  4. Expanda la sección Opciones de predicción y cambie los siguientes parámetros:
    • En Ubicaciones de predicción, elija new_homes.
    • En Entidades predichas de salida, escriba new_home_valuation_gwr.

    Parámetros de Opciones de predicción actualizados

  5. Haga clic en Ejecutar.

    La capa new_home_valuation_gwr se agrega al mapa y al panel Contenido.

  6. En el panel Contenido, haga clic con el botón derecho en new_home_valuation_gwr y elija Zoom a capa. Aléjese hasta que pueda ver más contexto de la ubicación de la capa.

    Mapa con la tasación de las nuevas viviendas mediante el modelo de predicción GWR

Realizar evaluación con FBCR

A continuación, utilizará FBCR para predecir valores. Ejecutará la herramienta Clasificación y regresión basadas en bosque en el modo de predicción.

  1. En el panel Historial, haga clic con el botón derecho en la última herramienta Clasificación y regresión basadas en bosque que se haya ejecutado correctamente y elija Abrir.
  2. En el panel de la herramienta Clasificación y regresión basadas en bosque, en Tipo de predicción, elija Predecir a entidades.

    Parámetro Tipo de predicción

  3. En Entidades de predicción de entrada, elija new_homes. En Entidades previstas de salida, escriba new_home_valuation_fbcr.

    Parámetros actualizados en la herramienta Clasificación y regresión basadas en bosque

  4. Haga clic en Ejecutar.
    Nota:

    La herramienta puede tardar más de 15 minutos en ejecutarse.

    Cuando se completa la ejecución de la herramienta, la capa new_home_valuation_fbcr se agrega al mapa.

    Resultados de tasación de nuevas viviendas mediante el modelo FBCR

  5. Guarde el proyecto.

Comparar los resultados con histogramas

Ha producido dos estimaciones de precios de venta para el desarrollo planificado. A continuación, comparará estos resultados. En el modo de predicción, no recibe un resultado verdadero, solo una estimación. Puede evaluar los resultados en cuanto a su coherencia con respecto a los precios en sus vecindarios.

Primero, comparará los histogramas de las salidas de los modelos.

  1. En el panel Contenido, haga clic con el botón derecho en la capa new_home_valuation_gwr, apunte a Crear gráfico y elija Histograma.
  2. En el panel Propiedades de gráfico, en Variable, en Número, elija Predicted (PRICE).

    Panel Propiedades de gráfico para la tasación de nuevas viviendas mediante el modelo GWR

  3. Cree un histograma para la capa new_home_valuation_fbcr, utilizando el atributo PRICE(Predicted).
  4. Arrastre el gráfico new_home_valuation_fbcr y acóplelo a la derecha del gráfico new_home_valuation_gwr.

    Ahora puede comparar los gráficos en paralelo.

    Gráficos situados uno junto al otro

    Los rangos de precios y los valores medios son similares. Con las características determinadas de las propiedades, el valor medio de estas nuevas viviendas está entre 770.000 y 849.000 $ aproximadamente. El límite superior del precio de venta de la vivienda en esta área es de 1.505.000 $ para GWR y de 1.327.000 $ para FBCR.

  5. Cierre las ventanas de los dos gráficos y el panel Propiedades de gráfico.

    Respecto a los precios de la vivienda en esta área, la estimación GWR de kc_house_dataset es más razonable. Este es uno de los puntos fuertes de GWR; asigna valores teniendo en cuenta el vecindario. Sin embargo, todas las viviendas de kc_house_dataset son viviendas preexistentes que no presentan un estado o clasificación tan buenos como estas nuevas viviendas. FBCR utiliza patrones de estas viviendas en todo el condado de King para hacer una estimación de todo el dataset.

Comparar evaluación de precios por pie cuadrado

Las nuevas viviendas presentan grandes diferencias en sus atributos. Para poner en perspectiva las predicciones de los precios de venta, calculará el precio por pie cuadrado. Unirá las predicciones de GWR y FBCR en una sola clase de entidad para seguir comparándolas.

Antes de unir los valores de predicción, actualizará los nombres de campo para distinguirlos entre sí.

  1. En el panel Contenido, haga clic con el botón derecho en new_home_valuation_gwr, señale Diseño de datos y elija Campos.

    Se abre la vista Campos de la capa.

  2. En la vista Campos, en Nombre de campo, haga doble clic en PREDICTED. Escriba Predicted_GWR y pulse Intro.

    El nombre de campo se actualiza.

    Nombre de campo actualizado a Predicted_GWR

  3. En Alias, haga doble clic en Predicted (PRICE). Escriba GWR Prediction y pulse Intro.
  4. En la cinta, en la pestaña Campos, en el grupo Cambios, haga clic en Guardar.
  5. En el panel Contenido, haga clic con el botón derecho en new_home_valuation_fbcr, señale Diseño de datos y elija Campos. Cambie los siguientes títulos:
    • En Nombre de campo, cambie PREDICTED a Predicted_FBCR.
    • En Alias, cambie PRICE(Predicted) a FBCR Prediction.

    Nombre de campo actualizado a Predicted_FBCR y alias actualizado a FBCR Prediction

  6. En la cinta, en la pestaña Campos, en el grupo Cambios, haga clic en Guardar. Cierre las dos vistas Campos.

    A continuación, unirá los resultados de GWR y los resultados de FBCR.

  7. En el panel Geoprocesamiento, busque y abra la herramienta Unión espacial. Defina los siguientes parámetros:
    • En Entidades de destino, elija new_home_valuation_gwr.
    • En Unir entidades, elija new_home_valuation_fbcr.
    • En Clase de entidad de salida, escriba price_comparison.
    • Expanda Campos. En Mapa de campo, en Campos de salida, haga clic en el botón Eliminar para eliminar todos los campos, excepto SOURCE_ID,pie2_útiles,Predicted_GWR y Predicted_FBCR.

    Parámetros de la herramienta Unión espacial

  8. Haga clic en Ejecutar.

    La herramienta se ejecuta y la nueva capa se agrega al mapa. A continuación, creará campos nuevos para calcular el precio previsto por pie cuadrado para cada modelo de predicción.

  9. En el panel Contenido, haga clic con el botón derecho en price_comparison, señale Diseño de datos y elija Campos.
  10. En la vista Campos, haga clic en Haga clic aquí para agregar un campo nuevo. Cree un campo con los siguientes parámetros:
    • En Nombre de campo, introduzca GWR_PSQFT.
    • En Alias, escriba GWR (price per square foot).
    • En Tipo de datos, elija Doble.
  11. Cree otro campo con los siguientes parámetros:
    • En Nombre de campo, escriba FBCR_PSQFT.
    • En Alias, escriba FBCR (price per square foot).
    • En Tipo de datos, elija Doble.

    Ahora tiene dos campos nuevos.

    Campos GWR_PSQFT y FBCR_PSQFT agregados a la tabla de atributos

  12. En la cinta, en la pestaña Campos, en el grupo Cambios, haga clic en Guardar. Cierre la vista Campos.

    Ahora que ha agregado campos para mantener los valores de precio por pie cuadrado, calculará los valores en función del valor predicho y el área de espacio habitable de cada vivienda. Creará una expresión que divida el precio que predijo el modelo GWR por el espacio vivo.

  13. En el panel Geoprocesamiento, busque y abra la herramienta Calcular campo (Herramientas de administración de datos). Defina los siguientes parámetros:
    • En Tabla de entrada, elija price_comparison.
    • En Nombre de campo (existente o nuevo), elija GWR (price per square foot).
    • En Expresión, construya la siguiente expresión: !Predicted_GWR! / !sqft_living!

    Parámetros de Calcular campo

  14. Haga clic en Ejecutar.

    Ejecutará la herramienta nuevamente después de cambiar algunos de los parámetros para reflejar FBCR en lugar de GWR.

  15. En el panel de la herramienta Calcular campo, cambie Nombre de campo (existente o nuevo) a FBCR (price per square foot). En Expresión, cree la siguiente expresión: !Predicted_FBCR! / !sqft_living!

    Esta expresión divide los valores de FBCR Prediction por área habitable.

  16. Haga clic en Ejecutar.

    Ahora que ha calculado ambos campos, los comparará. Los diagramas de caja son una buena forma de comparar dos distribuciones. Utilizará un diagrama de caja para comparar las estimaciones de precio por pie cuadrado de los dos métodos.

  17. En el panel Contenido, haga clic con el botón derecho en la capa price_comparison, señale Crear gráfico y elija Diagrama de caja.
  18. En Propiedades del gráfico, en Campo(s) numérico(s), haga clic en Seleccionar. Active las casillas situadas junto a GWR (price per square foot) y FBCR (price per square foot) y haga clic en Aplicar.

    Variables del gráfico de diagrama de caja

    El diagrama de caja se actualiza y muestra las estimaciones de precio por pie cuadrado de los modelos GWR y FBCR.

    Diagrama de caja de estimaciones de precio por pie cuadrado

    Las patillas largas de la barra del diagrama de caja correspondiente a FBCR (price per square foot) indican que algunas de las casas han recibido un precio significativamente mayor que el resto. El diagrama de caja de GWR (price per square foot) abarca un área más grande que el de FBCR, lo que indica que el primer y el tercer cuartil de predicciones están mucho más separados comparativamente. En otras palabras, la predicción GWR tiene una mayor variación en cuanto al precio por pie cuadrado en comparación con la FBCR.

    La mediana de precio por pie cuadrado es casi la misma para ambos métodos. La ubicación de la línea de mediana dentro del cuadro de FBCR indica una distribución de predicciones sesgada a la izquierda, lo que significa que el modelo predijo con frecuencia un precio más alto por pie cuadrado. Este resultado se puede deber a patrones globales en el condado de King que muestran los precios elevados asociados a las nuevas viviendas, la información proporcionada por la variable de clasificación utilizada en el análisis de FBCR. Las predicciones GWR son simétricas alrededor del valor medio y muestran una distribución más uniforme.

  19. Cierre el gráfico de diagrama de caja y el panel Propiedades de gráfico. Guarde el proyecto.

Representar en un mapa la incertidumbre de la predicción FBCR

Las distribuciones de las predicciones FBCR y GWR presentan diferencias considerables. Investigará la incertidumbre de FBCR de los puntos predichos.

  1. Haga clic con el botón derecho en la capa new_home_valuation_fbcr, apunte a Diseño de datos y elija Campos.
  2. Agregue un campo llamado P95_minus_P5 y establezca el tipo en Doble. Guarde el cambio y cierre la vista Campos.
  3. En el panel Geoprocesamiento, abra la herramienta Calcular campo y cambie los siguientes parámetros:
    • En Tabla de entrada, elija new_home_valuation_fbcr.
    • En Nombre de campo, elija P95_minus_P5.
    • En Expresión, cree la siguiente expresión: !Q_HIGH! - !Q_LOW!
  4. Haga clic en Ejecutar.
  5. En el panel Contenido, desactive las capas price_comparison y new_home_valuation_gwr.
  6. Haga clic con el botón derecho en new_home_valuation_fbcr y elija Simbología.
  7. En el panel Simbología, defina los siguientes parámetros:
    • En Campo, elija P95_minus_P5.
    • En Clases, elija 10.
    • En Esquema de color, elija Verdes (continuo).

    Parámetros de Simbología para la capa P95_minus_P5

  8. En la parte inferior del panel Simbología, en la pestaña Clases, haga clic en Más y elija Formatear todos los símbolos.

    Opción Dar formato a todos los símbolos

  9. En caso necesario, haga clic en la pestaña Propiedades.
  10. En Apariencia, para Ancho del contorno, escriba 0.5. En Tamaño, escriba 10.

    Parámetros Formatear ancho del contorno y Tamaño de símbolos

  11. Haga clic en Aplicar.

    La capa se actualiza con la nueva simbología.

    Mapa de diferencias

    Los verdes oscuros indican un rango elevado de incertidumbre para las predicciones. Algunas de las viviendas tienen un rango de incertidumbre de hasta 1,7 millones de dólares.

  12. En el panel Contenido, en new_home_valuation_fbcr, en la sección Gráficos, haga doble clic en Intervalo de predicción.
  13. En el panel Propiedades de gráfico, en Fecha o número, elija Ordenar Id. por valor previsto. En Campo(s) numérico(s), elija FBCR Prediction,PRICE_P05 y PRICE_P95.

    Gráfico de Intervalo de predicción

    El rango de incertidumbre es de aproximadamente 400.000 $ para todas las viviendas, excepto para aquellas con precios superiores a 1.000.000 $. El modelo muestra que unos pequeños cambios en los datos de entrenamiento del condado de King pueden dar lugar a cambios importantes en el precio de venta predicho de la vivienda. A diferencia de GLR o GWR, FBCR no extrapola. Si el precio máximo en los datos de entrenamiento está en 1.200.000 $, cualquier precio que prediga el modelo por encima de esta cifra tendrá una incertidumbre elevada. Además, dado que hay relativamente pocas viviendas con precios más elevados, la incertidumbre de estos tipos de viviendas será elevada.

  14. Cierre el gráfico y el panel Propiedades de gráfico. Guarde el proyecto.

A la hora de comparar los modelos FBCR y GWR, ninguno de los métodos es inherentemente superior al otro. Ambos abordan distintas necesidades de evaluación. El modelo GWR define un modelo espacial para el precio de venta de viviendas y representa el modelo hedónico para el precio de venta (Can, 1992) con ponderaciones que varían geográficamente. Por el contrario, FBCR define la relación entre los atributos de una vivienda y su precio de venta globalmente. Entender esto puede ser tremendamente valioso, ya que algunos factores influyen en el precio de las viviendas globalmente sin variación espacial (François et al., 2005).

En esta comparación de métodos, GWR es más adecuado para capturar variaciones espaciales en relación al precio. También funciona bien para desarrollar un modelo local de precios, donde el precio de la vivienda predicho es razonable para el vecindario. Sin embargo, debido a la multicolinealidad, no puede utilizar la variable de clasificación como indicador de GWR. En cambio, FBCR modela el impacto del estado de las nuevas viviendas mediante el uso de analogías de todo el condado de King, Washington. Este modelo da como resultado precios de vivienda más altos, lo que puede tener sentido si la clasificación de las estructuras es muy alta y el promotor está considerando venderlas a un precio significativamente mayor que otras viviendas del vecindario. El análisis de incertidumbre de FBCR muestra que puede ser necesario volver a evaluar los precios de las viviendas caras de más de 1.000.000 $. El modelo GWR muestra valores razonables para el área de Redmond (Washington), pero no tiene en cuenta el estado de las nuevas viviendas.

El flujo de trabajo de este tutorial muestra modelos de regresión de ArcGIS Pro con diferentes suposiciones y nivel de complejidad. La visualización es una parte esencial del análisis de regresión para comprender variables importantes y explorar las relaciones entre variables. GLR es el modelo más simple, que relaciona variables exploratorias con una variable objetivo mediante un modelo lineal global. Es un modelo útil para probar, ya que es el modelo de regresión más fácil de entender.

GWR define un modelo lineal que varía de una ubicación a otra. GWR resuelve un modelo de regresión lineal en cada ubicación en la que las variables de indicador de vecinos cercanos se ponderan con un kernel espacial, donde los vecinos cercanos influyen más en el modelo de regresión que los vecinos distantes. Las superficies de coeficiente de GWR también son un medio eficaz para visualizar la variación espacial de la relación entre una variable explicativa y una variable objetivo. Relaciones bivariantes locales (LBR) es una herramienta útil para explorar los tipos de relaciones espaciales entre dos variables. LBR entre una variable explicativa y variables objetivo que definen relaciones lineales locales predominantes es una indicación de que el modelo GWR sería un modelo eficaz. LBR entre dos variables explicativas que definen un gran número de relaciones lineales indica que una GWR puede experimentar multicolinealidad si estas variables se utilizan conjuntamente en el modelo GWR.

Por último, un modelo Clasificación y regresión basadas en bosque (FBCB) define un modelo basado en bosque para relacionar variables explicativas con una variable objetivo. A pesar de su complejidad algorítmica, FBCR puede relacionar una amplia variedad de variables explicativas con una variable objetivo, continua o discreta. FBCR produce valiosos diagnósticos, como el diagrama de importancia variable, que cuantifica el impacto de una variable explicativa en el modelo de regresión. A pesar de su flexibilidad, el modelo FBCR es sensible a los datos de entrenamiento utilizados para definir el modelo. En el ejemplo de precio de venta, si se representan determinados rangos de precios a la baja, por ejemplo, un número bajo de viviendas caras (de más de 1.000.000 $), no se espera que el modelo basado en bosque sea preciso para estos rangos. Además, FBCR no puede predecir más allá del rango de variables objetivo del dataset de entrenamiento.

Encontrará más tutoriales en la galería de tutoriales.