Crear un mapa de puntos calientes

Si necesitara dinero para consolidar una deuda, pagar una boda, irse de vacaciones, arreglar su casa o pagar facturas inesperadas, ¿pediría un préstamo por Internet? En los últimos años, millones de personas han respondido afirmativamente. Si decidiera unirse a ellos, ¿cuál sería su tipo de interés? La mayoría da por hecho que una mala calificación crediticia se traduce en un tipo de interés más alto. ¿Es una suposición válida?

Jonathan Blum, autor residente en Nueva York y principiante en SIG, desea obtener más información. Con los datos sobre préstamos de agosto de 2007 a septiembre de 2015 de los Estados Unidos (obtenidos de LendingClub y resumidos por áreas de código postal de 3 dígitos), quiere confirmar si los tipos de interés medios que la gente paga por sus préstamos por Internet varían geográficamente.

Primero, creará un mapa de puntos calientes que muestre áreas con tipos de interés altos o bajos estadísticamente significativos.

Abrir el proyecto

Descargará y abrirá un proyecto de ArcGIS Pro con datos sobre préstamos resumidos por áreas de código postal de 3 dígitos.

  1. Descargue la carpeta comprimida online-lending-data.
  2. Haga clic con el botón derecho en la carpeta descargada y extráigala en una ubicación que pueda encontrar fácilmente, como su carpeta Documentos.
  3. Abra la carpeta online-lending-data.

    La carpeta contiene una geodatabase de archivos con datos, una carpeta de índice, un archivo de proyecto de ArcGIS Pro y una caja de herramientas de ArcGIS.

  4. Si tiene ArcGIS Pro instalado en su equipo, haga doble clic en el archivo de proyecto de OnlineLending (puede que tenga la extensión .aprx). Si se le pide, inicie sesión en su cuenta con licencia de ArcGIS.
    Nota:

    Si no tiene acceso a ArcGIS Pro o una cuenta de organización de ArcGIS, consulte las opciones de acceso a software.

    Contenido predeterminado del proyecto

    El proyecto contiene un mapa de la región continental de Estados Unidos. Tiene una capa de contornos estatales y una capa de áreas ZIP3 con datos sobre préstamos. (Las áreas ZIP3 son la geometría definida por los tres primeros dígitos de un código postal estándar de 5 dígitos).

    Abrirá la tabla de atributos de datos sobre préstamos para familiarizarse con sus datos.

  5. En el panel Contenido, haga clic con el botón derecho en ZIP3 Loan Data y seleccione Tabla de atributos.

    Opción Tabla de atributos

    La tabla se abre. Por cada área ZIP3 hay un identificador, el número total de solicitudes de préstamos enviadas, el número total de préstamos emitidos (préstamos concedidos), el tipo de interés medio de todos los préstamos emitidos, la clasificación media de todos los préstamos emitidos y el número total de viviendas.

    LendingClub asigna una categoría de préstamo a cada solicitud de préstamo que recibe, que va desde la A1 (tipo de interés más bajo) a la E5 (tipo de interés más alto). Estas categorías de préstamos se convirtieron en clasificaciones numéricas sencillas para su análisis. A las categorías de préstamos A1 se les asignó una clasificación de 1, a las categorías de préstamos A2 se les asignó una clasificación de 2, y así sucesivamente. Cuanto mayor es la clasificación, mayor es el riesgo que tiende a tener el préstamo.

  6. Cierre la tabla.

Seleccione distritos con al menos 30 préstamos.

Para garantizar que el tipo de interés medio reportado para cada área ZIP3 sea fiable y representativo, centrará su análisis en áreas ZIP3 en las que se hayan financiado al menos 30 préstamos. Primero, ejecutará la herramienta de geoprocesamiento Seleccionar capa por atributo para seleccionar todas las áreas ZIP3 con 30 o más préstamos emitidos.

  1. En la cinta, haga clic en la pestaña Análisis. En el grupo Geoprocesamiento, haga clic en Herramientas.

    Botón Herramientas

    Se abre el panel Geoprocesamiento. Este panel contiene una gran cantidad de herramientas que pueden usarse en capas de datos.

  2. En el panel Geoprocesamiento, busque y seleccione Seleccionar capa por atributo.

    Herramienta Seleccionar capa por atributo

    La herramienta se abre. Puede configurar varios parámetros para modificar cómo se ejecuta. Primero, elegirá en qué tabla se ejecutará la herramienta.

  3. En Filas de entrada, elija ZIP3 Loan Data.

    A continuación, creará una cláusula para que se seleccionen las áreas ZIP3 con 30 préstamos o más.

  4. Cree la expresión Donde Number of loans issued es mayor o igual que 30.

    Parámetros de Seleccionar capa por atributo

  5. Haga clic en Ejecutar.

    Las áreas ZIP3 con 30 préstamos o más se seleccionan. A continuación, creará una copia de la capa que contiene solamente las áreas ZIP3 seleccionadas. Podrá usar la capa copiada para posteriores análisis.

  6. En el panel Geoprocesamiento, haga clic en el botón Atrás.

    Botón Atrás en el panel Geoprocesamiento

    Volverá a la lista de búsqueda de herramientas.

  7. Borre el texto de búsqueda existente. Busque y abra la herramienta Copiar entidades.
  8. En Entidades de entrada, elija ZIP3 Loan Data. En Clase de entidad de salida, deje la ruta de archivo predeterminada y cambie el nombre de salida a Datos_de_análisis_ZIP3.

    Parámetros de la herramienta Copiar entidades

    Al ejecutar esta herramienta, solo se copiarán las entidades seleccionadas. Si no se selecciona ninguna entidad, se copiarán todas las entidades.

    Nota:

    De forma predeterminada, las capas de salida se crean como una clase de entidad de geodatabase. Este formato generalmente es superior al formato shapefile, ya que los nombres de los campos de atributo del shapefile pueden truncarse y no se admiten algunas funciones.

  9. Haga clic en Ejecutar.

    La capa Datos_de_análisis_ZIP3 se agrega al panel Contenido. La usará para el resto de análisis. Ya no necesitará la capa ZIP3 Loan Data, de modo que puede eliminarla del mapa.

  10. En el panel Contenido, haga clic con el botón derecho en la capa ZIP3 Loan Data y seleccione Eliminar.

    Opción Eliminar

  11. En la barra de herramientas de acceso rápido, haga clic en el botón Guardar.

    Botón Guardar en la barra de herramientas de acceso rápido

Analizar puntos calientes de tipos de interés

Para crear un mapa de puntos calientes de los tipos de interés medios de los préstamos, utilizará la herramienta Análisis de puntos calientes (Gi* de Getis-Ord). Esta herramienta identifica clústeres estadísticamente significativos de valores altos y valores bajos.

  1. En el panel Geoprocesamiento, busque y abra la herramienta Análisis de puntos calientes (Getis-Ord Gi*).
  2. En Clase de entidad de entrada, elija Datos_de_análisis_ZIP3. En Campo de entrada, elija Average Interest Rate.
  3. En Clase de entidad de salida, cambie el nombre de salida a Puntos_calientes_de_tipos_de_interés.

    Parámetros de entrada y salida de la herramienta Análisis de puntos calientes

    La herramienta Análisis de puntos calientes (Gi* de Getis-Ord) analiza la importancia estadística del valor de cada entidad (en este caso, el tipo de interés medio de cada área ZIP3) en el contexto de sus entidades vecinas. El parámetro Conceptualización de relaciones espaciales define qué entidades se consideran vecinas.

    Las áreas ZIP3 tienen tamaños muy diferentes. Las del oeste de Estados Unidos son generalmente mucho más grandes que las del este. Como tal, definir una entidad vecina como entidad adyacente a otra hará que la escala del análisis sea incoherente en todo el país, lo que sesgaría sus resultados.

    La opción predeterminada para este parámetro, Banda de distancia fija, define una entidad vecina por su distancia a la entidad que se está analizando. La ventaja de este parámetro es que mantiene la coherencia de la escala de su análisis en toda el área de estudio, lo que asegura unos resultados más precisos.

  4. En el parámetro Conceptualización de relaciones espaciales, confirme que se haya seleccionado Banda de distancia fija.

    También puede especificar la distancia a la que las entidades se consideran vecinas. Si no se define ninguna distancia, la herramienta utiliza la distancia mínima para asegurar que cada entidad tenga al menos una vecina. A veces, este ajuste hace que algunas entidades tengan solo una vecina y otras miles, lo cual no suele ser la mejor opción.

    Para este análisis, ya se han agregado registros individuales de préstamos a áreas de códigos postales de 3 dígitos, por lo que es apropiado usar la distancia de análisis mínima válida.

  5. Deje vacío el parámetro Banda de distancia o distancia de umbral.

    A continuación, aplicará la corrección False Discovery Rate (índice de descubrimientos falsos), que ajusta los resultados para que tengan en cuenta la realización de varias pruebas y la dependencia espacial.

  6. Active Aplicar corrección False Discovery Rate (FDR).

    Parámetros estadísticos de la herramienta Análisis de puntos calientes

  7. Haga clic en Ejecutar.

    Se ejecuta la herramienta. Calcula el tipo de interés medio de cada área ZIP3 y todas las áreas ZIP3 vecinas. Si este tipo de interés medio local es significativamente superior al tipo de interés medio de todas las áreas ZIP3 del país, el área ZIP3 que se está analizando se designa como punto caliente. Si es significativamente inferior, el área ZIP3 se designa como punto frío. Cuando se completa la ejecución de la herramienta, se agrega una nueva capa al mapa.

    Nota:

    Para obtener más información sobre el análisis de puntos calientes, lea el tema Cómo funciona Análisis de puntos calientes (Gi* de Getis-Ord).

    Mapa de puntos calientes de tipos de interés medios de los préstamos

    Las áreas de color rojo del mapa son puntos calientes, mientras que las áreas de color azul son puntos fríos. Gran parte de Alabama presenta tipos de interés medios mayores de lo esperado, mientras que el área que rodea San Francisco presenta tipos de interés menores de lo esperado.

  8. Guarde el proyecto.

Ha creado un mapa de puntos calientes de tipos de interés medios de áreas ZIP3 con un mínimo de 30 préstamos. El mapa que creó muestra áreas con clustering estadísticamente significativo de tipos de interés medios tanto altos como bajos.

Al evaluar el mapa de puntos calientes, Jonathan Blum se pregunta por qué los tipos de interés en Alabama son mayores que los tipos de interés de alrededor de San Francisco. ¿Es justo suponer que las categorías de préstamos asignadas en Alabama reflejan préstamos con un riesgo más alto? ¿No debería tener el mismo riesgo un prestatario en San Francisco que en Alabama? Jonathan, escéptico como siempre, decide profundizar.

A continuación, profundizará con él y modelará la relación entre los tipos de interés medios y las categorías medias de los préstamos.


Crear un modelo de regresión

Anteriormente, creó un mapa de puntos calientes de valores de tipos de interés medios para ver clústeres de tipos de interés medios tanto altos como bajos. A continuación, creará un modelo de regresión mediante Regresión lineal generalizada (GLR) para determinar la calidad con la que las clasificaciones medias de los préstamos predicen los tipos de interés medios.

Un modelo de regresión calcula la relación entre las variables. Si los valores de las categorías medias de los préstamos predicen eficazmente los valores de los tipos de interés medios, su modelo de regresión tendrá un valor R cuadrado alto. Además, cualquier diferencia entre las predicciones del modelo y los valores observados (conocidos como residuales) mostrará un patrón espacialmente aleatorio.

Realizar un análisis de regresión

Para crear un modelo de regresión, ejecutará la herramienta Regresión lineal generalizada.

  1. Si es necesario, abra su proyecto OnlineLending.
  2. En el cuadro de búsqueda del panel Geoprocesamiento, busque y abra la herramienta Regresión lineal generalizada (Herramientas de estadística espacial).
  3. En Entidades de entrada, seleccione ZIP3_Analysis_Data.

    Un modelo de regresión debe tener una sola variable dependiente (la variable dependiente que desea explicar) y una o varias variables explicativas. Su variable dependiente será el tipo de interés medio.

  4. En Variable dependiente, elija Average Interest Rate. En Variables explicativas, active Average Loan Grade Rank.

    Parámetros de la herramienta Regresión lineal generalizada

    El parámetro Tipo de modelo tiene tres opciones: Continuo (gaussiano), Binario (logístico) y Recuento (Poisson). La opción que seleccione se basará en la variable dependiente. Cuando examinó la tabla de atributos, vio que los tipos de interés eran valores continuos con posiciones decimales, no valores binarios ni recuentos discretos.

  5. Deje el Tipo de modelo como Continuo (gaussiano).

    Este tipo de modelo realizará una regresión de Mínimos cuadrados ordinarios, que proporciona un modelo global de la variable dependiente y crea una sola ecuación de regresión para representarla.

  6. En Entidades de salida, cambie el nombre de salida a Tipos_de_interés_medios_frente_a_categorías_medias_de_préstamos.
  7. Haga clic en Ejecutar.

    Se ejecuta la herramienta. Se agrega una capa al mapa. Se agregan tres gráficos al panel Contenido.

    Mapa de predicciones por exceso y por defecto del modelo

    Esta capa representa cartográficamente los residuales del modelo de regresión (donde las predicciones del modelo fueron mayores o menores que los valores reales). Las áreas de color morado son ubicaciones en las que los tipos de interés medios fueron inferiores a lo que el modelo predijo, mientras que las áreas de color verde son ubicaciones en las que los tipos de interés fueron superiores.

    El patrón espacial de los residuales no es aleatorio. En particular, todo el estado de Misisipi tiene un clúster grande de áreas ZIP3 donde el modelo predijo tipos de interés mayores de lo que se observó.

Examinar los resultados de regresión

Su análisis de regresión también generó un informe y varios gráficos. Primero, examinará el informe.

  1. En la parte inferior del panel Geoprocesamiento, señale Ver detalles.

    Opción Ver detalles

    Aparece el informe de la herramienta Regresión lineal generalizada.

  2. En el informe de la herramienta Regresión lineal generalizada, desplácese hacia abajo y expanda los mensajes para revisar los Diagnósticos de GLR.
    Sugerencia:

    Puede cambiar el tamaño del informe de la herramienta arrastrando sus bordes.

    Informe de GLR

    Por ahora, solo le interesa el valor R cuadrado ajustado. El valor R cuadrado oscila entre el 0 y el 100 % (expresado como decimal) e indica la solidez de la correlación entre los tipos de interés medios y las clasificaciones medias de los préstamos.

    En Diagnósticos GLR, el valor de R cuadrado ajustado es 0,942152.

    Valor R cuadrado ajustado en Diagnósticos GLR

    Este valor indica que los valores de las clasificaciones medias de los préstamos explican aproximadamente el 94 por ciento de los valores de los tipos de interés medios. Como se esperaba, es un valor R cuadrado ajustado elevado, lo que indica una correlación sólida.

    A continuación, abrirá el gráfico de dispersión, que muestra la relación entre las variables.

  3. Cierre el informe de la herramienta. En el panel Contenido, haga doble clic en el gráfico Relación entre variables.

    Gráfico Relación entre variables en el panel Contenido

    Aparece el gráfico. Aparece también el panel Propiedades de gráfico.

    Gráfico que muestra una sólida correlación entre los tipos de interés medios y las categorías medias de los préstamos

    El gráfico traza todas las áreas ZIP3 en función del tipo de interés medio y la categoría media de los préstamos. La mayoría de puntos siguen una línea recta, lo que indica que la correlación es sólida. Los puntos morados debajo de la línea representan áreas ZIP3 en las que el modelo predijo tipos de interés medios por defecto.

    Aunque hay varios residuales debajo de la línea, siguen indicando una relación positiva del tipo de interés medio, que aumenta a medida que lo hace la categoría media de los préstamos.

  4. Cierre el gráfico y el panel Propiedades de gráfico. Guarde el proyecto.

Ha utilizado un análisis de regresión para explicar tipos de interés medios en función de las categorías medias de los préstamos. Sin embargo, los resultados no fueron lo que Jonathan Blum esperaba. Aunque sí noto una sólida relación entre las clasificaciones medias de los préstamos y los tipos de interés medios, advirtió inmediatamente un problema con el mapa residual. Jonathan esperaba un patrón aleatorio de predicciones por exceso y por defecto, pero los tipos de interés menores de lo esperado de todo un estado no tienen nada de espacialmente aleatorios. Aparentemente, las clasificaciones medias de los préstamos no son un indicador eficaz de los tipos de interés medios en esa parte del país.

Según Jonathan, es importante encontrar tipos de interés menores de lo esperado por todo el estado de Misisipi. Da la impresión de sesgo intencionado o impacto dispar. Un impacto dispar puede producirse cuando decisiones de préstamos que no son intencionadamente discriminatorias generan resultados discriminatorios. Una política de financiación exclusiva de préstamos hipotecarios por encima de los 200.000 $, por ejemplo, podría tener el impacto no intencionado de práctica discriminatoria si los valores medios de las viviendas en los barrios de minorías de una región son inferiores a 200.000 $. Para los prestamistas es difícil evitar un impacto dispar porque no se revela hasta que se han hecho muchos préstamos.

A continuación, usará una Regresión ponderada geográficamente para representar cartográficamente dónde es sólida y dónde es débil la relación entre las categorías medias de los préstamos y los tipos de interés medios en todo el país.


Representar cartográficamente variantes de correlación

Anteriormente, modeló tipos de interés medios como función de las categorías medias de los préstamos. El mapa residual que creó indicaba que las categorías medias de los préstamos no son buenos indicadores de los tipos de interés medios en el estado de Misisipi.

Cuando la relación entre dos variables es sólida, puede predecir el valor de una a partir de la otra. El método Regresión lineal generalizada (GLR) que utilizó en la lección anterior resume la solidez de la relación mediante un solo coeficiente. Dicho de otro modo, supone que la relación entre las categorías medias de los préstamos y los tipos de interés medios es la misma para todas las áreas ZIP3 del país. Si Jonathan Blum quiere examinar cómo cambia esta relación y ver dónde tienen un mayor o menor impacto las clasificaciones medias de los préstamos en los tipos de interés medios, debe conocer otra técnica de regresión llamada Regresión ponderada generalizada (GWR).

La GWR calcula un coeficiente para cada área ZIP3. Cuando los coeficientes son grandes, los cambios en la clasificación media de los préstamos tendrán un mayor impacto en los tipos de interés medios; cuando los coeficientes son pequeños, los cambios tendrán un menor impacto.

A continuación, creará un mapa de los coeficientes de GWR para identificar dónde es sólida y dónde es débil la relación entre estas dos variables.

Hallar la distancia mínima al vecino

La GWR calibra un modelo de regresión local para cada área ZIP3 utilizando solamente áreas ZIP3 cercanas. También pondera entidades más cercanas para que tengan una mayor influencia durante la calibración que las entidades que están más lejos. Los parámetros Tipo de vecindad y el Esquema de ponderación local determinan qué entidades vecinas se incluyen o se excluyen del proceso de calibración.

Para este flujo de trabajo, probará las cuatro combinaciones de estos parámetros para ver cuál produce los mejores resultados. Puede dejar que la herramienta sugiera las distancias de búsqueda mínima y máxima y el número de vecinos, pero la herramienta será conservadora y requerirá un mínimo de 30 vecinos. Vio que la relación entre los tipos de interés medios y las categorías medias de los préstamos es sólida, con pocos valores atípicos. Por tanto, es probable que el mejor modelo use una distancia más pequeña y un menor número de vecinos de lo que la herramienta podría sugerir. Probará distancias para entre 10 y 50 vecinos.

  1. Si es necesario, abra su proyecto OnlineLending.
  2. En el panel Geoprocesamiento, busque y abra la herramienta Calcular banda de distancia a partir de recuento de vecindad.

    Utilizará esta herramienta para identificar la distancia mínima necesaria para que todas las áreas ZIP3 tengan al menos 10 vecinos.

  3. Introduzca los siguientes parámetros:
    • En Entidades de entrada, seleccione ZIP3_Analysis_Data.
    • En Vecinos, escriba 10.
    • En Método de distancia, elija Euclidiano.

    Parámetros de Calcular banda de distancia a partir de recuento de vecindad

  4. Haga clic en Ejecutar.

    La herramienta se ejecuta, pero no se agregan nuevas capas ni gráficos al mapa ni al panel Contenido.

  5. En la parte inferior del panel Geoprocesamiento, haga clic en Ver detalles.

    Aparece el informe de la herramienta. Muestra las distancias mínima, media y máxima (en metros) para que un área ZIP3 tenga al menos 10 vecinos. La distancia mínima son 17.802 metros; y la máxima, 493.120 metros. El valor máximo es la distancia mínima necesaria para que todas las áreas ZIP3 tengan al menos 10 vecinos.

    Distancia para asegurar que todas las entidades tengan 10 vecinos

    Redondeará este valor a 400.000 y lo utilizará cuando realice la GWR. A continuación, efectuará el mismo cálculo para determinar la distancia necesaria para que un área ZIP3 tenga 50 vecinos.

  6. Cierre el informe de la herramienta. Vuelva a ejecutar la herramienta Calcular banda de distancia a partir de recuento de vecindad, pero cambie primero el parámetro Vecinos a 50.
  7. Abra el informe de la herramienta.

    La distancia necesaria para que todas las áreas ZIP3 tengan al menos 50 vecinos son 1.137.020 metros. Redondeará este valor a 1.100.000 y lo utilizará cuando realice la GWR.

    Distancia para asegurar que todas las entidades tengan 50 vecinos

  8. Cierre el informe de la herramienta.

Crear el modelo de regresión espacial

Ejecutará la herramienta Regresión ponderada geográficamente (GWR) cuatro veces con distintos parámetros y representará cartográficamente los coeficientes del modelo que produzca los mejores resultados.

  1. En el panel Geoprocesamiento, busque y abra la herramienta Regresión ponderada geográficamente (GWR). Expanda Opciones adicionales.

    Primero, probará Cantidad de vecinos para el ajuste Tipo de vecindad. Esta opción utiliza una cantidad fija de vecinos para cada área ZIP3, en lugar de una distancia fija. La opción Cantidad de vecinos generalmente es mejor si se desea crear cada modelo local con la misma cantidad de información. Es una buena opción cuando las entidades están repartidas uniformemente, cuando los polígonos que se analizan tienen aproximadamente el mismo tamaño o cuando los procesos espaciales subyacentes son homogéneos.

  2. Introduzca los siguientes parámetros:
    • En Entidades de entrada, seleccione ZIP3_Analysis_Data.
    • En Variable dependiente, elija Average Interest Rate.
    • En Tipo de modelo, elija Continuo (gaussiano).
    • En Variables explicativas, active Average Loan Grade Rank.
    • En Entidades de salida, cambie el nombre de salida a Tipos_de_interés_medios_frente_a_categorías_medias_de_préstamos_GWR.
    • En Tipo de vecindad, elija Cantidad de vecinos.
    • En Método de selección de vecindad, elija Intervalos manuales.
    • En Cantidad mínima de vecinos, escriba 10.
    • En Incremento de número de vecinos, escriba 4.
    • En Número de incrementos, escriba 11.
    • En Esquema de ponderación local, elija Bicuadrado.

    Con estos parámetros, la herramienta se ejecutará para 10 vecinos, luego 14 y después 18, hasta 50 vecinos (11 incrementos de 4). Debido a la opción Bicuadrado, las entidades que no se consideren vecinas no influirán en los resultados, lo que podría ser importante para aquellos datos con procesos espaciales fuertemente localizados.

  3. Haga clic en Ejecutar.

    La herramienta se ejecuta y se genera un informe (también se agrega una capa al mapa, pero la examinará más adelante).

  4. Haga clic en Ver detalles. Cambie el tamaño del informe de la herramienta si es necesario.

    Se creó un modelo por cada incremento de 4 vecinos entre los 10 y los 50 vecinos. Se calculó un diagnóstico Criterio de información de Akaike (AICc) para cada modelo. AICc es un valor que mide la pérdida de información en un modelo. Cuanto menor es el AICc, mejor funciona el modelo.

    En la sección Detalles del análisis, el valor Cantidad de vecinos muestra la cantidad de vecinos con el menor AICc. En su informe, esa cantidad es 22. En la sección Diagnóstico de modelo, el valor AdjR2 (R cuadrado ajustado) indica que este modelo explica el 97,19 por ciento de la variación en los valores de tipos de interés medios, una mejora con respecto al valor R cuadrado ajustado de su modelo GLR (94,215 por ciento).

    Informe de GWR del método de cantidad de vecinos

    A continuación, ejecutará de nuevo la herramienta, con Esquema de ponderación local definido como Gaussiano. Con este ajuste, todas las entidades vecinas (hasta las 1.000 más cercanas) influyen en el modelo, pero las entidades posteriores a las primeras 10, 14, 18, etc., tienen mucha menos influencia.

  5. Cierre el informe de la herramienta. Vuelva a ejecutar la herramienta Regresión ponderada geográficamente (GWR), pero cambie primero Esquema de ponderación local a Gaussiano.

    Al ejecutar la herramienta, la capa Tipos_de_interés_medios_frente_a_categorías_medias_de_préstamos_GWR se sobrescribe con los nuevos resultados.

  6. Haga clic en Ver detalles.

    Con el esquema de ponderación Gaussiano, el modelo que mejor funciona tiene 10 vecinos locales. Sin embargo, el valor AICc (-1673,8710) no es tan pequeño como el del modelo con 22 vecinos y el esquema de ponderación Bicuadrado (-1839,6162). Asimismo, el valor R cuadrado ajustado (0,9594) es menor que el generado mediante la opción Bicuadrado (0,9719).

    Aunque mejor que GLR, el modelo no predice tan bien como el modelo GWR anterior. A continuación, ejecutará de nuevo la herramienta. En lugar de usar una cantidad específica de vecinos, utilizará las distancias mínimas al vecino que calculó en las secciones anteriores. Para que todas las áreas ZIP3 tengan 10 vecinos, determinó que era necesaria una distancia de 400.000 metros. Para que todas las áreas ZIP3 tengan 50 vecinos, la distancia necesaria son 1.100.000 metros.

    La opción Banda de distancia para Tipo de vecindad implica que, para calibrar cada modelo local, se utilizan entidades vecinas situadas dentro de la distancia especificada. Esta opción tiene la ventaja de garantizar que la escala de análisis permanece constante. Es más adecuada cuando tiene la certeza de que cada entidad tendrá suficientes vecinos dentro de la banda de distancia especificada para crear un modelo local fiable.

  7. Cierre el informe de la herramienta. En la herramienta Regresión ponderada geográficamente (GWR), cambie los siguientes parámetros:
    • Cambie Tipo de vecindad a Banda de distancia.
    • Establezca la Distancia mínima de búsqueda en 400000 Metros.
    • Establezca el Incremento de distancia de búsqueda en 100000 Metros.
    • Establezca el Número de incrementos en 8.

    Parámetros de modelo de banda de distancia

    Con estos parámetros, la herramienta creará modelos por cada intervalo de 100.000 metros entre 400.000 y 1.100.000 metros.

  8. Ejecute la herramienta. Cuando se complete la ejecución de la herramienta, haga clic en Ver detalles.

    La banda de distancia que mejor funciona son 400.000 metros, pero el resultado aún no es tan bueno como el primer modelo GWR que probó (su AICc es -1565,1312 y su valor R cuadrado ajustado es 0,9507).

    Informe de GWR con parámetro de banda de distancia

    Ejecutará el modelo una vez más. Usará los mismos parámetros de banda de distancia, pero cambiará el esquema de ponderación local.

  9. Cierre el informe de la herramienta. Vuelva a ejecutar la herramienta Regresión ponderada geográficamente (GWR), pero cambie primero Esquema de ponderación local a Bicuadrado.
  10. Abra el informe.

    Este modelo funciona mejor que el anterior, pero sigue sin ser tan eficaz como el primer modelo que probó. Aunque el AICc de este modelo (-1843,3228) es ligeramente menor que el del primer modelo que probó (-1839,6162), su valor R cuadrado ajustado también es menor (0,9676 frente a 0,9719).

    Ha identificado los parámetros del modelo que producen el valor AICc más pequeño junto con el valor R cuadrado ajustado más grande. Estos diagnósticos indican que realizar una GWR con una cantidad fija de 22 vecinos y un esquema de ponderación Bicuadrado producen el modelo que mejor funciona. Puede usar un flujo de trabajo similar para comparar cualquier modelo que tenga la misma variable dependiente.

    Cada vez que ejecutó el modelo, sobrescribió los resultados del modelo anterior. Ejecutará el modelo con los mismos parámetros que la primera vez que lo ejecutó para recrear la salida con el mejor resultado.

  11. Cierre el informe de la herramienta. Ejecute la herramienta con Tipo de vecindad establecido en Cantidad de vecinos, Método de selección de vecindad establecido en Definido por el usuario y Cantidad de vecinos establecido en 22.
  12. Guarde el proyecto.

Representar cartográficamente los coeficientes del modelo

Ha identificado los parámetros del modelo que producen el valor AICc más pequeño junto con el valor R cuadrado ajustado más grande, lo que indica el mejor modelo. A continuación, representará cartográficamente los coeficientes del modelo para examinar cómo cambia la relación entre los tipos de interés medios y las categorías medias de los préstamos a lo largo del país.

Al igual que el mapa de salida de GLR, el mapa de salida de GWR muestra los residuales (donde las predicciones del modelo son mayores o menores que los valores reales de los tipos de interés medios). La capa de salida también contiene un campo con el valor de coeficiente de cada área ZIP3. Cuanto mayor es el coeficiente, más sólida es la relación entre los tipos de interés medios y las categorías medias de los préstamos. Al representar cartográficamente este campo, se obtiene información sobre la relación entre estas variables en todo el país.

  1. En el panel Contenido, haga clic con el botón derecho en la capa Tipos_de_interés_medios_frente_a_categorías_medias_de_préstamos_GWR y elija Simbología.

    Aparece el panel Simbología de la capa.

    Nota:

    Es posible que tenga que cambiar Simbología principal a Valores únicos y luego volver a cambiarlo a Colores graduados para que se muestre la nueva simbología.

  2. Cambie Campo a Coefficient (AVELOANGRADE), Método a Cuantil y Clases a 7.

    Parámetros del panel Simbología

  3. En Esquema de color, elija la rampa de color continua Amarillo-Naranja-Marrón (o cualquier rampa de color graduada que represente datos organizados de menor a mayor).
    Sugerencia:

    Para ver el nombre de un esquema de color, señálelo con el puntero.

    Esquema de color Amarillo-Naranja-Marrón para simbolizar coeficientes

  4. Cierre el panel Simbología. En el panel Contenido, arrastre la capa State Boundaries sobre la capa Tipos_de_interés_medios_frente_a_categorías_medias_de_préstamos_GWR.

    Mapa de la relación entre los tipos de interés medios y las categorías medias de los préstamos

    En el mapa, las áreas más oscuras son lugares en los que la relación entre las dos variables es sólida. Las áreas más claras son lugares en los que la relación es débil.

  5. Guarde el proyecto.

    El mapa sugiere que los tipos de interés no dependen solamente de las categorías de los préstamos, al menos no en todas partes. Tanto en Misisipi como en la mayor parte de Kansas, por ejemplo, existe una débil relación entre las categorías medias de los préstamos y los tipos de interés medios. Los tipos de interés son inferiores a lo esperado, de media, en todo Misisipi. Sin embargo, son mayores de lo esperado en gran parte de Kansas.

    Este patrón tiene consecuencias tangibles y materiales. Las diferencias en los tipos de interés de los préstamos influyen en toda la economía. Cuando el acceso a los préstamos es limitado debido a unos tipos de interés elevados, la gente tiende a gastar menos y los negocios tienden a reducir su actividad. Cuando los tipos de interés son bajos, la gente está más dispuesta a pedir préstamos y gastar, y es más probable que los negocios se expandan.

    Algunos investigadores han hallado pruebas de discriminación en una variedad de mercados en línea. El análisis exploratorio de Jonathan Blum contribuye a esta área de investigación al descubrir pruebas de discriminación geográfica asociada a los préstamos por Internet. Sin embargo, Jonathan solo ha tenido en cuenta las categorías de los préstamos. A pesar de que LendingClub indica una relación directa entre las categorías de préstamos y los tipos de interés, los mapas que ha creado sugieren que influyen también otros factores. Por ejemplo, algunos investigadores han hallado que hasta un tercio de los prestatarios elegiría el préstamo con el tiempo de financiación más rápido antes que el préstamo con el tipo de interés más bajo.

    Jonathan es periodista. Su trabajo es informar sobre los debates que surgen en torno a los préstamos por Internet. Los mapas creados y los análisis realizados en esta lección son herramientas de narración fundamentales que podrá usar ampliamente en su trabajo.

En esta lección, ha utilizado un análisis de regresión espacial para modelar la relación entre los tipos de interés medios y las clasificaciones medias de los préstamos, probando una correlación supuesta. Puede usar este flujo de trabajo para probar otras correlaciones supuestas. Es más probable que las comunidades con mayores ingresos medios, por ejemplo, paguen mayores impuestos medios sobre la renta. Pero ¿es cierto de manera sistemática? ¿Dónde es menos cierto o más sistemático a lo largo del país? Las áreas agrícolas con las mejores condiciones de cultivo deberían producir las mayores cosechas. ¿Ocurre eso siempre? Si la respuesta es no, ¿por qué no? ¿No sería razonable suponer que las escuelas con los mejores ratios profesor-estudiante tienen los mejores resultados de exámenes?

¿A qué espera? Empiece a probar algunas de sus propias relaciones supuestas y a ver qué descubre.

Encontrará más tutoriales en la galería de tutoriales.